Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言葉の形を教えてくれる自然言語処理

 言葉の形を教えてくれる自然言語処理

2022-03-05 の IPSJ-ONE https://ipsj-one.org/2022/ で使ったスライドです.
動画はこちらに公開されています: https://www.youtube.com/watch?v=MAWfFasX-vQ&t=5087s

Sho Yokoi
PRO

March 13, 2022
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. ⾔葉の形を教えてくれる⾃然⾔語処理
    横井 祥 (東北⼤学)
    ⾃然⾔語処理研究会
    2022-03-05, IPSJ-ONE

    View Slide

  2. IPSJ-ONE は年に一度の情報科学の祭典 …
    機械翻訳,チャットボット,かな漢字変換,⽂法チェッカー,…
    ⾃然⾔語処理︓⾔葉を扱う機械を作る
    IPSJ-ONE is an annual celebration …

    View Slide

  3. 計算機は単語の意味すら知らない
    • “ଆପଣ ଏହି ବାକ* ବୁଝିପାରିେବ।” の意味は…︖
    • o0( [23, 851, 3048, 2209, 9] のイミは…? )
    − 計算機は謎の単語 ID 列の処理を強いられている
    − ⼀番⼩さな単位である単語の意味から教える必要がある

    View Slide

  4. 「意味」の問題は難しい
    • “cat” の意味は︖

    View Slide

  5. 「意味」の問題は難しい
    • “cat” の意味は︖
    • “beautiful” の意味は︖ “pretty” との違いは︖
    • “意味” の意味は︖ “エモい” や “エグい” の意味は︖
    • 計算機で扱いやすい⼀貫した定義を与えるのは極めて困難

    View Slide

  6. 単語ベクトル

    View Slide

  7. 単語の意味は周りに現れる単語で決まる
    • “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖

    View Slide

  8. 単語の意味は周りに現れる単語で決まる
    • “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖
    • 単語の使われ⽅を⾒てみると…
    − 「⻯⾨早⽣の⽊を植える」
    − 「冷え冷えの⻯⾨早⽣のフレッシュジュースがうまい」
    − 「**県は⻯⾨早⽣の⽣産⾼が⽇本⼀」
    • 単語の意味は周りに現れる単語で決まる

    View Slide

  9. 単語ベクトル
    • 各単語を⾼次元のベクトルで表す
    𝒗(cat)
    𝒗(kitten)
    「“cat” の周りに現れそうな単語は何︖」
    という情報をぎゅっと詰め込んでおく

    View Slide

  10. 形 で⾒える ⾔葉の意味

    View Slide

  11. 単語ベクトルは⾯⽩い
    • 意味の問題を形の問題として扱えるようになった
    意味の似た単語 “似た” ベクトル
    𝒗(cat)
    𝒗(kitten)
    “cat” “kitten”

    View Slide

  12. 単語の具体性はベクトルの⻑さを⾒るとわかる
    具体性の度合い ベクトルの⻑さ
    gdi 国内総所得 10.13 78.2
    phosphide リン化物 10.10 82.2
    tachycardia 頻脈 10.00 82.1

    of 0.09 1.2
    and 0.08 0.9
    the 0.08 1.0

    View Slide

  13. ⽂の意味の近さは影の形を⾒るとわかる
    • 2つの⽂の意味の近さを知りたい
    − “A boy is walking on the beach.”
    − “The child walks along the coast.”
    • ボールに映る影の形が似ている⽂は意味が似ている 𝒗(walks)
    𝒗(walking)
    𝒗(coast)
    𝒗(beach)

    View Slide

  14. • 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう
    • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ
    ⾔語が違っても単語の配置は似ている
    𝒗(cat)
    𝒗(dog)
    𝒗(science)
    𝒗(technology) 𝒗(猫)
    𝒗(⽝)
    𝒗(科学)
    𝒗(技術)

    View Slide

  15. • 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう
    • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ
    ⾔語が違っても単語の配置は似ている
    𝒗(cat)
    𝒗(dog)
    𝒗(science)
    𝒗(technology) 𝒗(猫)
    𝒗(⽝)
    𝒗(科学)
    𝒗(技術)

    View Slide

  16. • 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう
    • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ
    ⾔語が違っても単語の配置は似ている
    𝒗(猫)
    𝒗(cat)

    View Slide

  17. まとめ

    View Slide

  18. ⾔葉の形を教えてくれる⾃然⾔語処理
    • ⾃然⾔語処理
    − ⼈間の⾔葉を扱うことのできる計算機を作りたい
    − 問題︓⾔葉の「意味」をいかに表現するか
    • 単語ベクトル
    − 周辺に出てくる単語の情報を⼀式詰め込んだベクトルを作る
    − 形の問題を通して意味の問題を扱えるようになった
    • 形でわかる⾔葉の意味
    − 単語︓単語ベクトルの⻑さを⾒ると単語の具体性がわかる
    − ⽂ ︓ボールに映る影の形を⽐べると⽂の意味の近さがわかる
    − ⾔語︓ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通性を持つ
    数学と⾔語の両⽅に興味がある皆さんぜひ将来この分野に遊びに来てください

    View Slide

  19. 謝辞
    • スライドの美しいデザインと可視化は⾚間怜奈さん(東北⼤学)の⼿によるも
    のです.
    • オリア語の素敵な例⽂は佐藤雄太さん(東京外国語⼤学)に作っていただきま
    した.
    • ひとつめに紹介した “単語の⻑さ” の話は,京都⼤学 下平研究室の⼤⼭百々勢
    さん・下平英寿さんとの共同研究です.
    • ふたつめに紹介した “⽂の影” の話は,東北⼤学 乾研究室・鈴⽊研究室の⾼橋
    諒さん(現 LegalForce)・⾚間怜奈さん・鈴⽊潤さん・乾健太郎さんとの共
    同研究です.
    • JST ACT-X 数理・情報 領域からの研究⽀援に感謝します.
    • ⾃然⾔語処理分野,周辺分野,そして遠くの分野におられる広義同僚の皆さん
    との⽇々の刺激的な議論が⾃分の研究活動の⼒の源です.
    みなさんに深く感謝します.

    View Slide