Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Natural language processing tells us the shape of language

0fee20d8bbb7283e1887e7075f638f59?s=47 Sho Yokoi
March 13, 2022

Natural language processing tells us the shape of language

言葉の形を教えてくれる自然言語処理

2022-03-05 の IPSJ-ONE https://ipsj-one.org/2022/ でのトークスライドです
動画: https://www.youtube.com/watch?v=MAWfFasX-vQ&t=5087s

0fee20d8bbb7283e1887e7075f638f59?s=128

Sho Yokoi

March 13, 2022
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. ⾔葉の形を教えてくれる⾃然⾔語処理 横井 祥 (東北⼤学) ⾃然⾔語処理研究会 2022-03-05, IPSJ-ONE

  2. IPSJ-ONE は年に一度の情報科学の祭典 … 機械翻訳,チャットボット,かな漢字変換,⽂法チェッカー,… ⾃然⾔語処理︓⾔葉を扱う機械を作る IPSJ-ONE is an annual celebration

  3. 計算機は単語の意味すら知らない • “ଆପଣ ଏହି ବାକ* ବୁଝିପାରିେବ।” の意味は…︖ • o0( [23,

    851, 3048, 2209, 9] のイミは…? ) − 計算機は謎の単語 ID 列の処理を強いられている − ⼀番⼩さな単位である単語の意味から教える必要がある
  4. 「意味」の問題は難しい • “cat” の意味は︖

  5. 「意味」の問題は難しい • “cat” の意味は︖ • “beautiful” の意味は︖ “pretty” との違いは︖ •

    “意味” の意味は︖ “エモい” や “エグい” の意味は︖ • 計算機で扱いやすい⼀貫した定義を与えるのは極めて困難
  6. 単語ベクトル

  7. 単語の意味は周りに現れる単語で決まる • “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖

  8. 単語の意味は周りに現れる単語で決まる • “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖ • 単語の使われ⽅を⾒てみると… − 「⻯⾨早⽣の⽊を植える」 −

    「冷え冷えの⻯⾨早⽣のフレッシュジュースがうまい」 − 「**県は⻯⾨早⽣の⽣産⾼が⽇本⼀」 • 単語の意味は周りに現れる単語で決まる
  9. 単語ベクトル • 各単語を⾼次元のベクトルで表す 𝒗(cat) 𝒗(kitten) 「“cat” の周りに現れそうな単語は何︖」 という情報をぎゅっと詰め込んでおく

  10. 形 で⾒える ⾔葉の意味

  11. 単語ベクトルは⾯⽩い • 意味の問題を形の問題として扱えるようになった 意味の似た単語 “似た” ベクトル 𝒗(cat) 𝒗(kitten) “cat” “kitten”

  12. 単語の具体性はベクトルの⻑さを⾒るとわかる 具体性の度合い ベクトルの⻑さ gdi 国内総所得 10.13 78.2 phosphide リン化物 10.10

    82.2 tachycardia 頻脈 10.00 82.1 … of 0.09 1.2 and 0.08 0.9 the 0.08 1.0
  13. ⽂の意味の近さは影の形を⾒るとわかる • 2つの⽂の意味の近さを知りたい − “A boy is walking on the

    beach.” − “The child walks along the coast.” • ボールに映る影の形が似ている⽂は意味が似ている 𝒗(walks) 𝒗(walking) 𝒗(coast) 𝒗(beach)
  14. • 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ ⾔語が違っても単語の配置は似ている 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫)

    𝒗(⽝) 𝒗(科学) 𝒗(技術)
  15. • 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ ⾔語が違っても単語の配置は似ている 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫)

    𝒗(⽝) 𝒗(科学) 𝒗(技術)
  16. • 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ ⾔語が違っても単語の配置は似ている 𝒗(猫) 𝒗(cat)

  17. まとめ

  18. ⾔葉の形を教えてくれる⾃然⾔語処理 • ⾃然⾔語処理 − ⼈間の⾔葉を扱うことのできる計算機を作りたい − 問題︓⾔葉の「意味」をいかに表現するか • 単語ベクトル −

    周辺に出てくる単語の情報を⼀式詰め込んだベクトルを作る − 形の問題を通して意味の問題を扱えるようになった • 形でわかる⾔葉の意味 − 単語︓単語ベクトルの⻑さを⾒ると単語の具体性がわかる − ⽂ ︓ボールに映る影の形を⽐べると⽂の意味の近さがわかる − ⾔語︓ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通性を持つ 数学と⾔語の両⽅に興味がある皆さんぜひ将来この分野に遊びに来てください
  19. 謝辞 • スライドの美しいデザインと可視化は⾚間怜奈さん(東北⼤学)の⼿によるも のです. • オリア語の素敵な例⽂は佐藤雄太さん(東京外国語⼤学)に作っていただきま した. • ひとつめに紹介した “単語の⻑さ”

    の話は,京都⼤学 下平研究室の⼤⼭百々勢 さん・下平英寿さんとの共同研究です. • ふたつめに紹介した “⽂の影” の話は,東北⼤学 乾研究室・鈴⽊研究室の⾼橋 諒さん(現 LegalForce)・⾚間怜奈さん・鈴⽊潤さん・乾健太郎さんとの共 同研究です. • ⾃分の研究活動の⼒の源は,⾃然⾔語処理分野,周辺分野,そして遠くの分野 におられる広義同僚の皆さんとの⽇々の刺激的な議論です. みなさんに深く感謝します.