Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
大規模言語モデルを用いた意味分析による辞書記述への応用
Search
Yasuhiro Kondo
November 19, 2023
1
1.4k
大規模言語モデルを用いた意味分析による辞書記述への応用
2023年11月18日 近藤泰弘
語彙・辞書研究会シンポジウム「生成AI・大規模言語モデルの現状と日本語の辞書」発表スライド
Yasuhiro Kondo
November 19, 2023
Tweet
Share
More Decks by Yasuhiro Kondo
See All by Yasuhiro Kondo
AIによる古典語・古典文学研究の方法について
yhkondo
0
100
『源氏物語』の引き歌をベクトル検索によって検出する方法
yhkondo
0
43
大規模言語モデルの持つ言語知識とコミュニケーション
yhkondo
0
37
古典語の係り結びと情報構造
yhkondo
0
60
『百人一首』の歌風は何か?
yhkondo
0
67
ChatGPTは何を生成しているのか
yhkondo
0
76
日本語研究から見たChatGPT
yhkondo
0
730
Featured
See All Featured
Practical Orchestrator
shlominoach
186
10k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
For a Future-Friendly Web
brad_frost
175
9.4k
Optimizing for Happiness
mojombo
376
70k
Documentation Writing (for coders)
carmenintech
65
4.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
It's Worth the Effort
3n
183
27k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Typedesign – Prime Four
hannesfritz
40
2.4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
A Philosophy of Restraint
colly
203
16k
A designer walks into a library…
pauljervisheath
204
24k
Transcript
大規模言語モデルを 用いた意味分析によ る辞書記述への応用 近藤泰弘(青山学院大学) 第64回 ޠኮɾ辞書研究会 2023年11月18日 `
[email protected]
発表の内容 0 はじめに 1 埋め込みベクトルについて 2 埋め込みベクトルの能力 3 単語ベクトルの可視化 4
ベクトル表現の階層化 5 ベクトル表現にしたシソーラス 6 今後の課題
0. はじめに
意味の扱い 単語の意味は捉えにくいものなので、言語 研究・辞書記述の上で古くから様様な工夫 がされてきた。 分布仮説・埋め込み表現 Z・ハリス「分布仮説」 埋め込み表現 分類体辞書・シソーラス 『倭名類聚抄』『色葉字類抄』 『節用集』『分類語彙表』
服部四郎・国広哲弥「意義素」 日本語WordNet(ネットワーク) 意義素・WordNet
ロジェ・シソーラス(1854再版) PLAN OF CLASSIFICATION 1 ABSTRACT RELATIONS (抽象的関係) 2 SPACE(空間)
3 MATTER(事物) 4 INTELLECT(知恵) 5 VOLITION(意志) 6 AFFECTIONS(感情)
分類語彙表(1964初版) 抽象的関係・人間活動(精神)と いう順番は、ロジェの影響がある が、「体・用・相」を1次分類に したのは特徴的である。これは、 増補改訂版でも踏襲されている。 日本語の「意味分類」で何が1次 分類として適当なのかは、本当の ところはわからない。
意義素の説明(国広1965) 弁別的特徴による分類は 、客観性があるとも言え るが、そもそもこの特徴 だけで必要十分といえる 根拠がない。 ただ、この記述方法は、 今後の参考になる。次に 述べるベクトル的な表現 となっている。
意味記述には、現在のところ「シソーラス」 「意義素」などの方法があるが、いずれにせ よ、意味をより客観的に扱うことができれば 、辞書記述の方法論も変わってくるはず。 →「分布仮説」の再登場
1. 埋め込みベクトル について
共起行列の考え方(6次元) 高い 長い 登る 流れる 頂上 橋 山 [ 1
0 1 0 1 0 ] 川 [ 0 1 0 1 0 1 ] 山 [101010] 川 [010101] (ベクトル表現) 丘 [101000 ] 「川」より「山」に近い (分散表現・埋め込み表現、などとも)
単語頻度など TF−IDFなど 深層学習 word2vec, FastText など。3層 程度の浅いニューラルネットワ ークを用いて、共起情報を元に 、ベクトルを得ることができる。 トランスフォーマー
SentenceBERT、GPTなどの、新型の深層学習 によるベクトル生成。非常に多くの階層をもった ネットワークとアテンション機構によるため、性 能が高い。 その他のベク トル生成
トランスフォーマ—によるベクトル • SentenceBERT(エンコーダーを用いてベクトルを得る) • GPT(デコーダーを用いてベクトルを得る) • 同じトランスフォーマーでも得られるベクトルの性質が やや異なるが、今回は多くのテキストからデータを得て いるGPTのベクトル生成を用いる。 現在最も高性能なの
はOpenAIの提供するもの。非常に微細なニュアンスを多 言語に持つ。
OpenAIの埋め込みベクトル • OpenAIの提供するtext-embedding-ada-002というモデル を用いる。OpenAIのクラウドからAPIとしてアクセスで きる。単語・文について、1536次元のベクトルを得られ る。GPT3相当の数十~数百億パラメタモデルを利用して いるものと思われる。実質的にChatGPTの意味辞書であ るとみなして大きくは違わない。
OpenAIの埋め込みベクトル {"title": "1", "body": "¥u5e74¥u306e¥u3046¥u3061¥u306b¥u6625¥u306f¥u6765¥u306b¥ u3051¥u308a¥u3072¥u3068¥u3068¥u305b¥u3092¥u53bb¥u5e74¥u3068¥u3084¥u30 44¥u306f¥u3080¥u4eca¥u5e74¥u3068¥u3084¥u3044¥u306f¥u3080", "embedding": [- 0.0017322878120467067,
-0.01955992728471756, 0.01636701636016369, 0.007083430420607328, 0.005423251539468765, 0.012832009233534336, -0.011832548305392265, - 0.01664874516427517, -0.018594004213809967, -0.013361925259232521, 0.014354678802192211, 0.005547345615923405, -0.009840333834290504, 0.009766547940671444, -0.0065032062120735645, -0.01993556320667267, 0.024657849222421646, -0.01984165422618389, , 0.011309340596199036, -0.0325193852186203, 0.017292693257331848, (以下略)
2. 埋め込みベクトルの能力
多言語能力(現代語と古典語) 質問文: 春の景色を見る 順位: 本文(コサイン類似度) 1: 春風は花のあたりをよきて吹け心づからやうつろふと見む (0.9169228780822233) 2: 見渡せば柳桜をこきまぜて都ぞ春の錦なりける
(0.9146490876612831) 3: 春ごとに花のさかりはありなめどあひ見むことは命なりけり (0.9128745447403608) 4: 春の色のいたりいたらぬ里はあらじ咲ける咲かざる花の見ゆらむ (0.9124381248283752) 5: 春霞色のちくさに見えつるはたなびく山の花の影かも (0.911274297283942)
多言語能力(英語と古典日本語) 質問文: I lament how quickly the seasons change 順位:
本文(コサイン類似度) 1: 秋風にあふ田の実こそ悲しけれわが身むなしくなりぬと思へば (0.8152505644733212) 2: 物ごとに秋ぞ悲しきもみぢつつ移ろひゆくを限りと思へば (0.8101851226217894) 3: 秋来ぬと目にはさやかに見えねども風の音にぞおどろかれぬる (0.8078393920033705) 4: おほかたの秋くるからにわが身こそ悲しきものと思ひ知りぬれ (0.8075361576183776) 5: 夕さればいとど干がたきわが袖に秋の露さへ置き添はりつつ (0.8066052282284499)
多言語能力(絵文字と古典日本語) 質問文: ☔ 順位: 本文(コサイン類似度) 1: 冬ながら空より花の散りくるは雲のあなたは春にやあるらむ (0.8145459921979219) 2: 雨降れど露ももらじを笠取の山はいかでかもみぢ染めけむ
(0.813934018579619) 3: 風吹けど所もさらぬ白雲は世を経て落つる水にぞありける (0.8138760060886582) 4: 雪とのみ降るだにあるをさくら花いかに散れとか風の吹くらむ (0.8117699011541112) 5: 風吹けば落つるもみぢ葉水きよみ散らぬかげさへ底に見えつつ (0.8115558733685146)
人間以上の抽象化能力 質問文: カメラ 順位: 本文(コサイン類似度) 1: 涙川なに水上を尋ねけむ物思ふ時のわが身なりけり (0.8099566991252107) 2: うばたまのわが黒髪やかはるらむ鏡の影に降れる白雪
(0.8092205559258623) 3: 雲晴れぬ浅間の山のあさましや人の心を見てこそやまめ (0.8090808874010651) 4: 年をへて花の鏡となる水はちりかかるをやくもるといふらむ (0.808340465836945) 5: 行く年の惜しくもあるかな真澄鏡見る影さへにくれぬと思へば (0.8061932929447349) 6: 色見えで移ろふものは世の中の人の心の花にぞありける (0.8039959198796928) 7: 秋の野になまめき立てる女郎花あなかしがまし花も一時 (0.8033866928888013)
3. 単語ベクトルの可視化 (主成分分析による次元圧縮)
手と足に関する単語(2次元XY軸に圧縮) 足 手 日本語 日本語以外 Y軸の意味 X 軸の意味
日本語の基礎語1000(軸がわかりにくい) 動詞 形容詞 名詞 接尾辞 等
4 . ベクトル情報の階層化
PCAの次元ごとの特性 • 1次元では「本、第、点、市、間」などの形式的なものと、「起き る 、掛かる、得る」などの実質的動詞が、正負に分離される。 • 2次元では「来る、 出る」などの「動き」と、「中央、地域,曜日、 歴史」などの「実質的な名詞」が分離される。 •
3次元では、「作業、実施、活動」(名詞)と、「辛い、大きな、甘い 、思い」(形容詞など)が分離される。 • 4次元では「何時、今後、一昨日」(時間)とそうでないもの • 5次元では「鼻、髪、背中、花、虫」(身体・動物)とそうでないもの
PCAの次元ごとの特性 1 形式—実質 2 もの—うごき 3 もの—さま 4 もの—とき 5
もの—身体 6 かたち—時間 7 心理—地理 8 単位—自己 9 人称—空間 10 家屋—身体
PCAの2次元 (X)と 3次元 (Y) の取り出し さま(相) もの・こと(体) うごき(用) (体) (用)
(体/用) (相)
もの・こと 軸の値で、グループ内部も決まってくる さま うごき 状態性名詞 動作性名詞 さま もの・こと Y 軸
5. ベクトル表現のシソーラス
多次元ベクトルシソーラス "body": "車", "pca_embedding": [ -0.018940224238679613, (形式・実質) -0.030544183990459547, (うごき) -0.016728742278582412,
(さま) -0.05516813838116531, (とき・前後) 0.12781263473692778, (からだ・植物) -0.05270995502143154, (曜日) 0.08267572121057036, -0.0046889980652777405, 0.03343771227201657, -0.07776536060298282, (以下略)
シソーラス(ツリー・ベクトルは等価だが、 ベクトルの方が拡張性が高い) (ツリー形式) 1 動物 ├── 1 哺乳類 │ ├──1犬
│ └──2猫 └── 2 鳥 ├── 1 鶏 └── 2 鴨 (ベクトル形式) 動物: [1, 0, 0] 哺乳類: [1, 1, 0] 犬: [1, 1, 1] 猫: [1, 1, 2] 鳥: [1, 2, 0] 鶏: [1, 2, 1] 鴨: [1, 2, 2]
ベクトルシソーラスの構想 小さい: [0 0 0 1 0] 狩る: [0 0
0 0 1] 動物: [1 0 0 0 0] 哺乳類: [1 1 0 0 0] 犬: [1 1 1 0 0] 子犬: [1 1 1 1 0] 猟犬: [1 1 1 0 1] 猫: [1 1 2 0 0] 子猫: [1 1 2 1 0]
6. 今後の課題
1. ベクトルの次元圧縮の方法(t-SNE, UMAP, NMF, ICA等)の試行 2. 上位語・下位語の取得方法の工夫。ベクト ルのノルム(長さ)の利用などが考えられ る。 3.
ローカルマルチリンガルLLMの利用(埋め 込みの取得方法が異なる。OpenAIのものは 、デコーダーだが、ローカルで動くBERT 系のものはエンコーダーである。) 4. PCAの結果からのベクトルの逆分析
5. 辞書の記述の標準化・正規化 日本語の「意味」の分類とはなにか? 埋め込みベクトル ( 共起情報)の観察からは、 • 実質語と形式語(助数詞・接頭辞・接尾辞) • 動き(用)と、もの・こと(体)
• さま(相)と、もの・こと(体) • 時間と行為 • 身体と社会 などが重要なポイント( 他言語 との比較が必要・シンタクスか意味か?)