Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルを用いた意味分析による辞書記述への応用

Avatar for Yasuhiro Kondo Yasuhiro Kondo
November 19, 2023
1.5k

 大規模言語モデルを用いた意味分析による辞書記述への応用

2023年11月18日 近藤泰弘
語彙・辞書研究会シンポジウム「生成AI・大規模言語モデルの現状と日本語の辞書」発表スライド

Avatar for Yasuhiro Kondo

Yasuhiro Kondo

November 19, 2023
Tweet

More Decks by Yasuhiro Kondo

Transcript

  1. 発表の内容 0 はじめに 1 埋め込みベクトルについて 2 埋め込みベクトルの能力 3 単語ベクトルの可視化 4

    ベクトル表現の階層化 5 ベクトル表現にしたシソーラス 6 今後の課題
  2. ロジェ・シソーラス(1854再版) PLAN OF CLASSIFICATION 1 ABSTRACT RELATIONS (抽象的関係) 2 SPACE(空間)

    3 MATTER(事物) 4 INTELLECT(知恵) 5 VOLITION(意志) 6 AFFECTIONS(感情)
  3. 共起行列の考え方(6次元) 高い 長い 登る 流れる 頂上 橋 山 [ 1

    0 1 0 1 0 ] 川 [ 0 1 0 1 0 1 ] 山 [101010] 川 [010101] (ベクトル表現) 丘 [101000 ] 「川」より「山」に近い (分散表現・埋め込み表現、などとも)
  4. 単語頻度など TF−IDFなど 深層学習 word2vec, FastText など。3層 程度の浅いニューラルネットワ ークを用いて、共起情報を元に 、ベクトルを得ることができる。 トランスフォーマー

    SentenceBERT、GPTなどの、新型の深層学習 によるベクトル生成。非常に多くの階層をもった ネットワークとアテンション機構によるため、性 能が高い。 その他のベク トル生成
  5. OpenAIの埋め込みベクトル {"title": "1", "body": "¥u5e74¥u306e¥u3046¥u3061¥u306b¥u6625¥u306f¥u6765¥u306b¥ u3051¥u308a¥u3072¥u3068¥u3068¥u305b¥u3092¥u53bb¥u5e74¥u3068¥u3084¥u30 44¥u306f¥u3080¥u4eca¥u5e74¥u3068¥u3084¥u3044¥u306f¥u3080", "embedding": [- 0.0017322878120467067,

    -0.01955992728471756, 0.01636701636016369, 0.007083430420607328, 0.005423251539468765, 0.012832009233534336, -0.011832548305392265, - 0.01664874516427517, -0.018594004213809967, -0.013361925259232521, 0.014354678802192211, 0.005547345615923405, -0.009840333834290504, 0.009766547940671444, -0.0065032062120735645, -0.01993556320667267, 0.024657849222421646, -0.01984165422618389, , 0.011309340596199036, -0.0325193852186203, 0.017292693257331848, (以下略)
  6. 多言語能力(現代語と古典語) 質問文: 春の景色を見る 順位: 本文(コサイン類似度) 1: 春風は花のあたりをよきて吹け心づからやうつろふと見む (0.9169228780822233) 2: 見渡せば柳桜をこきまぜて都ぞ春の錦なりける

    (0.9146490876612831) 3: 春ごとに花のさかりはありなめどあひ見むことは命なりけり (0.9128745447403608) 4: 春の色のいたりいたらぬ里はあらじ咲ける咲かざる花の見ゆらむ (0.9124381248283752) 5: 春霞色のちくさに見えつるはたなびく山の花の影かも (0.911274297283942)
  7. 多言語能力(英語と古典日本語) 質問文: I lament how quickly the seasons change 順位:

    本文(コサイン類似度) 1: 秋風にあふ田の実こそ悲しけれわが身むなしくなりぬと思へば (0.8152505644733212) 2: 物ごとに秋ぞ悲しきもみぢつつ移ろひゆくを限りと思へば (0.8101851226217894) 3: 秋来ぬと目にはさやかに見えねども風の音にぞおどろかれぬる (0.8078393920033705) 4: おほかたの秋くるからにわが身こそ悲しきものと思ひ知りぬれ (0.8075361576183776) 5: 夕さればいとど干がたきわが袖に秋の露さへ置き添はりつつ (0.8066052282284499)
  8. 多言語能力(絵文字と古典日本語) 質問文: ☔ 順位: 本文(コサイン類似度) 1: 冬ながら空より花の散りくるは雲のあなたは春にやあるらむ (0.8145459921979219) 2: 雨降れど露ももらじを笠取の山はいかでかもみぢ染めけむ

    (0.813934018579619) 3: 風吹けど所もさらぬ白雲は世を経て落つる水にぞありける (0.8138760060886582) 4: 雪とのみ降るだにあるをさくら花いかに散れとか風の吹くらむ (0.8117699011541112) 5: 風吹けば落つるもみぢ葉水きよみ散らぬかげさへ底に見えつつ (0.8115558733685146)
  9. 人間以上の抽象化能力 質問文: カメラ 順位: 本文(コサイン類似度) 1: 涙川なに水上を尋ねけむ物思ふ時のわが身なりけり (0.8099566991252107) 2: うばたまのわが黒髪やかはるらむ鏡の影に降れる白雪

    (0.8092205559258623) 3: 雲晴れぬ浅間の山のあさましや人の心を見てこそやまめ (0.8090808874010651) 4: 年をへて花の鏡となる水はちりかかるをやくもるといふらむ (0.808340465836945) 5: 行く年の惜しくもあるかな真澄鏡見る影さへにくれぬと思へば (0.8061932929447349) 6: 色見えで移ろふものは世の中の人の心の花にぞありける (0.8039959198796928) 7: 秋の野になまめき立てる女郎花あなかしがまし花も一時 (0.8033866928888013)
  10. PCAの次元ごとの特性 • 1次元では「本、第、点、市、間」などの形式的なものと、「起き る 、掛かる、得る」などの実質的動詞が、正負に分離される。 • 2次元では「来る、 出る」などの「動き」と、「中央、地域,曜日、 歴史」などの「実質的な名詞」が分離される。 •

    3次元では、「作業、実施、活動」(名詞)と、「辛い、大きな、甘い 、思い」(形容詞など)が分離される。 • 4次元では「何時、今後、一昨日」(時間)とそうでないもの • 5次元では「鼻、髪、背中、花、虫」(身体・動物)とそうでないもの
  11. PCAの次元ごとの特性 1 形式—実質 2 もの—うごき 3 もの—さま 4 もの—とき 5

    もの—身体 6 かたち—時間 7 心理—地理 8 単位—自己 9 人称—空間 10 家屋—身体
  12. 多次元ベクトルシソーラス "body": "車", "pca_embedding": [ -0.018940224238679613, (形式・実質) -0.030544183990459547, (うごき) -0.016728742278582412,

    (さま) -0.05516813838116531, (とき・前後) 0.12781263473692778, (からだ・植物) -0.05270995502143154, (曜日) 0.08267572121057036, -0.0046889980652777405, 0.03343771227201657, -0.07776536060298282, (以下略)
  13. シソーラス(ツリー・ベクトルは等価だが、 ベクトルの方が拡張性が高い) (ツリー形式) 1 動物 ├── 1 哺乳類 │ ├──1犬

    │ └──2猫 └── 2 鳥 ├── 1 鶏 └── 2 鴨 (ベクトル形式) 動物: [1, 0, 0] 哺乳類: [1, 1, 0] 犬: [1, 1, 1] 猫: [1, 1, 2] 鳥: [1, 2, 0] 鶏: [1, 2, 1] 鴨: [1, 2, 2]
  14. ベクトルシソーラスの構想 小さい: [0 0 0 1 0] 狩る: [0 0

    0 0 1] 動物: [1 0 0 0 0] 哺乳類: [1 1 0 0 0] 犬: [1 1 1 0 0] 子犬: [1 1 1 1 0] 猟犬: [1 1 1 0 1] 猫: [1 1 2 0 0] 子猫: [1 1 2 1 0]
  15. 1. ベクトルの次元圧縮の方法(t-SNE, UMAP, NMF, ICA等)の試行 2. 上位語・下位語の取得方法の工夫。ベクト ルのノルム(長さ)の利用などが考えられ る。 3.

    ローカルマルチリンガルLLMの利用(埋め 込みの取得方法が異なる。OpenAIのものは 、デコーダーだが、ローカルで動くBERT 系のものはエンコーダーである。) 4. PCAの結果からのベクトルの逆分析
  16. 5. 辞書の記述の標準化・正規化 日本語の「意味」の分類とはなにか? 埋め込みベクトル ( 共起情報)の観察からは、 • 実質語と形式語(助数詞・接頭辞・接尾辞) • 動き(用)と、もの・こと(体)

    • さま(相)と、もの・こと(体) • 時間と行為 • 身体と社会 などが重要なポイント( 他言語 との比較が必要・シンタクスか意味か?)