2022-03-05 の IPSJ-ONE https://ipsj-one.org/2022/ で使ったスライドです. 動画はこちらに公開されています: https://www.youtube.com/watch?v=MAWfFasX-vQ&t=5087s
⾔葉の形を教えてくれる⾃然⾔語処理横井 祥 (東北⼤学)⾃然⾔語処理研究会2022-03-05, IPSJ-ONE
View Slide
IPSJ-ONE は年に一度の情報科学の祭典 …機械翻訳,チャットボット,かな漢字変換,⽂法チェッカー,…⾃然⾔語処理︓⾔葉を扱う機械を作るIPSJ-ONE is an annual celebration …
計算機は単語の意味すら知らない• “ଆପଣ ଏହି ବାକ* ବୁଝିପାରିେବ।” の意味は…︖• o0( [23, 851, 3048, 2209, 9] のイミは…? )− 計算機は謎の単語 ID 列の処理を強いられている− ⼀番⼩さな単位である単語の意味から教える必要がある
「意味」の問題は難しい• “cat” の意味は︖
「意味」の問題は難しい• “cat” の意味は︖• “beautiful” の意味は︖ “pretty” との違いは︖• “意味” の意味は︖ “エモい” や “エグい” の意味は︖• 計算機で扱いやすい⼀貫した定義を与えるのは極めて困難
単語ベクトル
単語の意味は周りに現れる単語で決まる• “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖
単語の意味は周りに現れる単語で決まる• “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖• 単語の使われ⽅を⾒てみると…− 「⻯⾨早⽣の⽊を植える」− 「冷え冷えの⻯⾨早⽣のフレッシュジュースがうまい」− 「**県は⻯⾨早⽣の⽣産⾼が⽇本⼀」• 単語の意味は周りに現れる単語で決まる
単語ベクトル• 各単語を⾼次元のベクトルで表す𝒗(cat)𝒗(kitten)「“cat” の周りに現れそうな単語は何︖」という情報をぎゅっと詰め込んでおく
形 で⾒える ⾔葉の意味
単語ベクトルは⾯⽩い• 意味の問題を形の問題として扱えるようになった意味の似た単語 “似た” ベクトル𝒗(cat)𝒗(kitten)“cat” “kitten”
単語の具体性はベクトルの⻑さを⾒るとわかる具体性の度合い ベクトルの⻑さgdi 国内総所得 10.13 78.2phosphide リン化物 10.10 82.2tachycardia 頻脈 10.00 82.1…of 0.09 1.2and 0.08 0.9the 0.08 1.0
⽂の意味の近さは影の形を⾒るとわかる• 2つの⽂の意味の近さを知りたい− “A boy is walking on the beach.”− “The child walks along the coast.”• ボールに映る影の形が似ている⽂は意味が似ている 𝒗(walks)𝒗(walking)𝒗(coast)𝒗(beach)
• 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう• ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ⾔語が違っても単語の配置は似ている𝒗(cat)𝒗(dog)𝒗(science)𝒗(technology) 𝒗(猫)𝒗(⽝)𝒗(科学)𝒗(技術)
• 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう• ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ⾔語が違っても単語の配置は似ている𝒗(猫)𝒗(cat)
まとめ
⾔葉の形を教えてくれる⾃然⾔語処理• ⾃然⾔語処理− ⼈間の⾔葉を扱うことのできる計算機を作りたい− 問題︓⾔葉の「意味」をいかに表現するか• 単語ベクトル− 周辺に出てくる単語の情報を⼀式詰め込んだベクトルを作る− 形の問題を通して意味の問題を扱えるようになった• 形でわかる⾔葉の意味− 単語︓単語ベクトルの⻑さを⾒ると単語の具体性がわかる− ⽂ ︓ボールに映る影の形を⽐べると⽂の意味の近さがわかる− ⾔語︓ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通性を持つ数学と⾔語の両⽅に興味がある皆さんぜひ将来この分野に遊びに来てください
謝辞• スライドの美しいデザインと可視化は⾚間怜奈さん(東北⼤学)の⼿によるものです.• オリア語の素敵な例⽂は佐藤雄太さん(東京外国語⼤学)に作っていただきました.• ひとつめに紹介した “単語の⻑さ” の話は,京都⼤学 下平研究室の⼤⼭百々勢さん・下平英寿さんとの共同研究です.• ふたつめに紹介した “⽂の影” の話は,東北⼤学 乾研究室・鈴⽊研究室の⾼橋諒さん(現 LegalForce)・⾚間怜奈さん・鈴⽊潤さん・乾健太郎さんとの共同研究です.• JST ACT-X 数理・情報 領域からの研究⽀援に感謝します.• ⾃然⾔語処理分野,周辺分野,そして遠くの分野におられる広義同僚の皆さんとの⽇々の刺激的な議論が⾃分の研究活動の⼒の源です.みなさんに深く感謝します.