【テック投資】自然言語処理を、理解しよう！

テクノロ ジー事業の為の、Outputブログ。
おはようございます🌞 メッチョテック📈です。

今回は、

【テック投資】自然言語処理を、理解しよう！

『自然言語処理とは...!?』

機械(コンピュータ)に人間の言葉を理解させる為に非常に重要な領域。

自然言語処理を端的に言うと、
--- 人間の言葉を機械(コンピュータ)が理解する為のルール作り ---

自然言語処理活用例
・Google検索
・LINE
・アレクサ
・チャットボット
・PC、スマホ等のかな文字変換

等、自然言語処理は最新テクノロジーに多く用いられている。

「機械(学習)が人間の言葉を理解するには...」

単語理解…文章がどのような単語、どのような品詞(名詞・動詞)で成り立っているか。
文脈理解…大量の文章をInputさせる。前後関係や単語のかかり方を解析。

この2つが必要。

学習データの豊富さ。どれだけ多くの学習データを用意できるかが重要。

Google・Amazon等の巨大プラットフォーマーは、大量の文章データから自然言語処理の学習をさせる事が出来るので、優位性を更に盤石に出来ますね🤔

line.me

『形態素解析・メカブ(Mecab)』

文章を単語単位で区切り、それぞれの単語に情報を付与する手法。

-------
例:ブラックサンダーは美味しい。 ➤ ブラックサンダー / は / 美味しい / 。
-------

最も有名な形態素解析エンジンが「メカブ(Mecab)」。

例えば、「昨日は『君の名は。』を観に行ったよ」をメカブ(Mecab)で解析すると...

mecab -d /path-to-NEologd # MeCabの起動(辞書追加)
昨日は『君の名は。』を観に行ったよ
昨日名詞,副詞可能,*,*,*,*,昨日,キノウ,キノー
は助詞,係助詞,*,*,*,*,は,ハ,ワ
『記号,括弧開,*,*,*,*,『,『,『
君の名は。名詞,固有名詞,一般,*,*,*,君の名は。,キミノナハ,キミノナハ
』記号,括弧閉,*,*,*,*,』,』,』
を助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
観名詞,一般,*,*,*,*,観,カン,カン
に助詞,格助詞,一般,*,*,*,に,ニ,ニ
行っ動詞,自立,*,*,五段・カ行促音便,連用タ接続,行く,イッ,イッ
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
よ助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
EOS

「私の朝食はパンでした」のメカブ(Mecab)解析なら...

mecab # MeCabの起動
私の朝食はパンでした
私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の助詞,連体化,*,*,*,*,の,ノ,ノ
朝食名詞,サ変接続,*,*,*,*,朝食,チョウショク,チョーショク
は助詞,係助詞,*,*,*,*,は,ハ,ワ
パン名詞,一般,*,*,*,*,パン,パン,パン
でし助動詞,*,*,*,特殊・デス,連用形,です,デシ,デシ
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS

この様に各、名詞・動詞・接続詞に分けてOutputが輩出される。

メカブ(Mecab)

taku910.github.io

メカブ(Mecab) IT業界まるわかりガイド

www.internetacademy.jp

『tf-idf・Cos類似度』

形態素解析(メカブ(Mecab))で単語単位で分ける事が出来たので...
文章の”類似度”を算出する事が可能になる。

「tf-idfとは...」
「Term Frequency Inverse Document Frequency」の略

-------

Term Frequency (tf) …その文章内での単語の頻出度
Inverse Document Frequency (idf) …全ての文章の中での単語の希少度

-------

ある文章における単語の特徴を表した指標の事。

tf例:
A,B,B,C…tf Ａ:1/4＝0.25 Ｂ:2/4＝0.5 Ｃ:1/4＝0.25
B,B,C,C…tf Ｂ:2/4＝0.5 C:2/4＝0.5

”tf”だけでは、特徴的な単語かどうかは分からない。
『私』『僕』『弊社』の様にどの様な文章でもよく登場する単語も存在する為。

この様な『私』『僕』『弊社』等のどんな文章にも頻出する単語の特徴度を落とす為に、”idf”を計算する必要がある。

idf式＝log(全文書数 / その単語が登場する文章数)

tf-idfはシンプルに、「tf」 × 「idf」で算出。

上記”tf”例の際、”idf”が、A:4 B:1 C:2だったとすると...

A,B,B,C…tf Ａ:1/4＝0.25 Ｂ:2/4＝0.5 Ｃ:1/4＝0.25
B,B,C,C…tf Ｂ:2/4＝0.5 C:2/4＝0.5

A,B,B,C
A:"tf"1/4(0.25) × "idf" 4=1
B:"tf"2/4(0.5) × "idf" 1=0.5
C:"tf"1/4(0.25) × "idf" 2=0.5

B,B,C,C
B:"tf"2/4(0.5) × "idf" 1=0.5
C:"tf"2/4(0.5) × "idf" 2=1

他の文章には中々登場しないが、その文章に多く登場する単語程 ”tf-idf”値が高くなる。”tf-idf”値が高いと、その文章を特徴づける単語である事が判る。

自然言語処理

ainow.ai

「Cos類似度」

それぞれのベクトルがどれくらい同じ方向を向いているか表したもの。

高校で学ぶ「2つのベクトル同士の内積の公式」
コサインとベクトルの式そのまま Cos類似度の公式はコチラ。

atmarkit.itmedia.co.jp

※Cos類似度は、必ず”0～1”の間に収まる。

0に近い…類似度が低い
1に近い…類似度が高い

-------
上記例のtf-idfをCos類似度の式に当てはめると...
A,B,B,C tf-idf A=1 B=0.5 C=0.5
B,B,C,C tf-idf B=0.5 C=1 Cos類似度=0.5477

Bの希少度が高くBの”idf”が10だと仮定すると...
A,B,B,C tf-idf A=1 B=5 C=0.5
B,B,C,C tf-idf B=5 C=1 Cos類似度=0.976

-------

”tf-idf”の値によってCos類似度の値は変化。

1.メカブ(Mecab)で各文章を単語毎に分ける。
2.”tf-idf”で単語の頻出度・希少度を解析。
3.”tf-idf”と”Cos類似度”で文章のベクトル(方向性)を算出。

ここまでが、自然言語処理の基本。

”Google検索”・”LINE”・”自動翻訳”等は、これらの自然言語処理を応用して開発😆

【メッチョ所見】
今回は、少し難しかったです...

ただ今は大規模言語モデルLLMを使った生成AIが主流。大規模言語モデルLLMは、”自然言語処理”や”ディープラーニング”を更に応用・複雑に構成されたもの。ここで音を上げていては、現代のテック投資は通用しない筈。ただ、生成AIのテクノロジーが凄いのは理解できるのですが、投資的に考えるとでクエスチョンマーク『？』がつくのは私だけでしょうか...！？ビジネス面での実活用が上手くいっている様にはあまり感じられないというのが正直な所。投資面だけで考えれば、”Arm”・”NVIDIA”・”AutoStore”・”TOYOTA”・”Samsung”等の方がシンプルに魅力的に写ってしまう😅(どれも大企業、王道ですが...) ベンチャー投資で、テンバガー狙いなら生成AI分野がいいのかも！？

なんにせよ勉強あるのみ！

#SBG系 #テック投資
#半導体 #経営経済 #AI・AGI
#ESG強化 #NAVディスカウント解消

Watch it on YouTube
メッチョテック📈 元競馬系YouTuber

テクノロジー事業の為の、Outputブログ。おはようございます🌞 メッチョテック📈です。

【テック投資】自然言語処理を、理解しよう！

『自然言語処理とは...!?』

『形態素解析・メカブ(Mecab)』

『tf-idf・Cos類似度』

テクノロジー事業の為の、Outputブログ。
おはようございます🌞 メッチョテック📈です。