Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルを用いた意味分析による辞書記述への応用

Yasuhiro Kondo
November 19, 2023
1.4k

 大規模言語モデルを用いた意味分析による辞書記述への応用

2023年11月18日 近藤泰弘
語彙・辞書研究会シンポジウム「生成AI・大規模言語モデルの現状と日本語の辞書」発表スライド

Yasuhiro Kondo

November 19, 2023
Tweet

Transcript

  1. 発表の内容 0 はじめに 1 埋め込みベクトルについて 2 埋め込みベクトルの能力 3 単語ベクトルの可視化 4

    ベクトル表現の階層化 5 ベクトル表現にしたシソーラス 6 今後の課題
  2. ロジェ・シソーラス(1854再版) PLAN OF CLASSIFICATION 1 ABSTRACT RELATIONS (抽象的関係) 2 SPACE(空間)

    3 MATTER(事物) 4 INTELLECT(知恵) 5 VOLITION(意志) 6 AFFECTIONS(感情)
  3. 共起行列の考え方(6次元) 高い 長い 登る 流れる 頂上 橋 山 [ 1

    0 1 0 1 0 ] 川 [ 0 1 0 1 0 1 ] 山 [101010] 川 [010101] (ベクトル表現) 丘 [101000 ] 「川」より「山」に近い (分散表現・埋め込み表現、などとも)
  4. 単語頻度など TF−IDFなど 深層学習 word2vec, FastText など。3層 程度の浅いニューラルネットワ ークを用いて、共起情報を元に 、ベクトルを得ることができる。 トランスフォーマー

    SentenceBERT、GPTなどの、新型の深層学習 によるベクトル生成。非常に多くの階層をもった ネットワークとアテンション機構によるため、性 能が高い。 その他のベク トル生成
  5. OpenAIの埋め込みベクトル {"title": "1", "body": "¥u5e74¥u306e¥u3046¥u3061¥u306b¥u6625¥u306f¥u6765¥u306b¥ u3051¥u308a¥u3072¥u3068¥u3068¥u305b¥u3092¥u53bb¥u5e74¥u3068¥u3084¥u30 44¥u306f¥u3080¥u4eca¥u5e74¥u3068¥u3084¥u3044¥u306f¥u3080", "embedding": [- 0.0017322878120467067,

    -0.01955992728471756, 0.01636701636016369, 0.007083430420607328, 0.005423251539468765, 0.012832009233534336, -0.011832548305392265, - 0.01664874516427517, -0.018594004213809967, -0.013361925259232521, 0.014354678802192211, 0.005547345615923405, -0.009840333834290504, 0.009766547940671444, -0.0065032062120735645, -0.01993556320667267, 0.024657849222421646, -0.01984165422618389, , 0.011309340596199036, -0.0325193852186203, 0.017292693257331848, (以下略)
  6. 多言語能力(現代語と古典語) 質問文: 春の景色を見る 順位: 本文(コサイン類似度) 1: 春風は花のあたりをよきて吹け心づからやうつろふと見む (0.9169228780822233) 2: 見渡せば柳桜をこきまぜて都ぞ春の錦なりける

    (0.9146490876612831) 3: 春ごとに花のさかりはありなめどあひ見むことは命なりけり (0.9128745447403608) 4: 春の色のいたりいたらぬ里はあらじ咲ける咲かざる花の見ゆらむ (0.9124381248283752) 5: 春霞色のちくさに見えつるはたなびく山の花の影かも (0.911274297283942)
  7. 多言語能力(英語と古典日本語) 質問文: I lament how quickly the seasons change 順位:

    本文(コサイン類似度) 1: 秋風にあふ田の実こそ悲しけれわが身むなしくなりぬと思へば (0.8152505644733212) 2: 物ごとに秋ぞ悲しきもみぢつつ移ろひゆくを限りと思へば (0.8101851226217894) 3: 秋来ぬと目にはさやかに見えねども風の音にぞおどろかれぬる (0.8078393920033705) 4: おほかたの秋くるからにわが身こそ悲しきものと思ひ知りぬれ (0.8075361576183776) 5: 夕さればいとど干がたきわが袖に秋の露さへ置き添はりつつ (0.8066052282284499)
  8. 多言語能力(絵文字と古典日本語) 質問文: ☔ 順位: 本文(コサイン類似度) 1: 冬ながら空より花の散りくるは雲のあなたは春にやあるらむ (0.8145459921979219) 2: 雨降れど露ももらじを笠取の山はいかでかもみぢ染めけむ

    (0.813934018579619) 3: 風吹けど所もさらぬ白雲は世を経て落つる水にぞありける (0.8138760060886582) 4: 雪とのみ降るだにあるをさくら花いかに散れとか風の吹くらむ (0.8117699011541112) 5: 風吹けば落つるもみぢ葉水きよみ散らぬかげさへ底に見えつつ (0.8115558733685146)
  9. 人間以上の抽象化能力 質問文: カメラ 順位: 本文(コサイン類似度) 1: 涙川なに水上を尋ねけむ物思ふ時のわが身なりけり (0.8099566991252107) 2: うばたまのわが黒髪やかはるらむ鏡の影に降れる白雪

    (0.8092205559258623) 3: 雲晴れぬ浅間の山のあさましや人の心を見てこそやまめ (0.8090808874010651) 4: 年をへて花の鏡となる水はちりかかるをやくもるといふらむ (0.808340465836945) 5: 行く年の惜しくもあるかな真澄鏡見る影さへにくれぬと思へば (0.8061932929447349) 6: 色見えで移ろふものは世の中の人の心の花にぞありける (0.8039959198796928) 7: 秋の野になまめき立てる女郎花あなかしがまし花も一時 (0.8033866928888013)
  10. PCAの次元ごとの特性 • 1次元では「本、第、点、市、間」などの形式的なものと、「起き る 、掛かる、得る」などの実質的動詞が、正負に分離される。 • 2次元では「来る、 出る」などの「動き」と、「中央、地域,曜日、 歴史」などの「実質的な名詞」が分離される。 •

    3次元では、「作業、実施、活動」(名詞)と、「辛い、大きな、甘い 、思い」(形容詞など)が分離される。 • 4次元では「何時、今後、一昨日」(時間)とそうでないもの • 5次元では「鼻、髪、背中、花、虫」(身体・動物)とそうでないもの
  11. PCAの次元ごとの特性 1 形式—実質 2 もの—うごき 3 もの—さま 4 もの—とき 5

    もの—身体 6 かたち—時間 7 心理—地理 8 単位—自己 9 人称—空間 10 家屋—身体
  12. 多次元ベクトルシソーラス "body": "車", "pca_embedding": [ -0.018940224238679613, (形式・実質) -0.030544183990459547, (うごき) -0.016728742278582412,

    (さま) -0.05516813838116531, (とき・前後) 0.12781263473692778, (からだ・植物) -0.05270995502143154, (曜日) 0.08267572121057036, -0.0046889980652777405, 0.03343771227201657, -0.07776536060298282, (以下略)
  13. シソーラス(ツリー・ベクトルは等価だが、 ベクトルの方が拡張性が高い) (ツリー形式) 1 動物 ├── 1 哺乳類 │ ├──1犬

    │ └──2猫 └── 2 鳥 ├── 1 鶏 └── 2 鴨 (ベクトル形式) 動物: [1, 0, 0] 哺乳類: [1, 1, 0] 犬: [1, 1, 1] 猫: [1, 1, 2] 鳥: [1, 2, 0] 鶏: [1, 2, 1] 鴨: [1, 2, 2]
  14. ベクトルシソーラスの構想 小さい: [0 0 0 1 0] 狩る: [0 0

    0 0 1] 動物: [1 0 0 0 0] 哺乳類: [1 1 0 0 0] 犬: [1 1 1 0 0] 子犬: [1 1 1 1 0] 猟犬: [1 1 1 0 1] 猫: [1 1 2 0 0] 子猫: [1 1 2 1 0]
  15. 1. ベクトルの次元圧縮の方法(t-SNE, UMAP, NMF, ICA等)の試行 2. 上位語・下位語の取得方法の工夫。ベクト ルのノルム(長さ)の利用などが考えられ る。 3.

    ローカルマルチリンガルLLMの利用(埋め 込みの取得方法が異なる。OpenAIのものは 、デコーダーだが、ローカルで動くBERT 系のものはエンコーダーである。) 4. PCAの結果からのベクトルの逆分析
  16. 5. 辞書の記述の標準化・正規化 日本語の「意味」の分類とはなにか? 埋め込みベクトル ( 共起情報)の観察からは、 • 実質語と形式語(助数詞・接頭辞・接尾辞) • 動き(用)と、もの・こと(体)

    • さま(相)と、もの・こと(体) • 時間と行為 • 身体と社会 などが重要なポイント( 他言語 との比較が必要・シンタクスか意味か?)