Slide 1

Slide 1 text

⾔葉の形を教えてくれる⾃然⾔語処理 横井 祥 (東北⼤学) ⾃然⾔語処理研究会 2022-03-05, IPSJ-ONE

Slide 2

Slide 2 text

IPSJ-ONE は年に一度の情報科学の祭典 … 機械翻訳,チャットボット,かな漢字変換,⽂法チェッカー,… ⾃然⾔語処理︓⾔葉を扱う機械を作る IPSJ-ONE is an annual celebration …

Slide 3

Slide 3 text

計算機は単語の意味すら知らない • “ଆପଣ ଏହି ବାକ* ବୁଝିପାରିେବ।” の意味は…︖ • o0( [23, 851, 3048, 2209, 9] のイミは…? ) − 計算機は謎の単語 ID 列の処理を強いられている − ⼀番⼩さな単位である単語の意味から教える必要がある

Slide 4

Slide 4 text

「意味」の問題は難しい • “cat” の意味は︖

Slide 5

Slide 5 text

「意味」の問題は難しい • “cat” の意味は︖ • “beautiful” の意味は︖ “pretty” との違いは︖ • “意味” の意味は︖ “エモい” や “エグい” の意味は︖ • 計算機で扱いやすい⼀貫した定義を与えるのは極めて困難

Slide 6

Slide 6 text

単語ベクトル

Slide 7

Slide 7 text

単語の意味は周りに現れる単語で決まる • “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖

Slide 8

Slide 8 text

単語の意味は周りに現れる単語で決まる • “⻯⾨早⽣” (りゅうもんわせ) という単語の意味は︖ • 単語の使われ⽅を⾒てみると… − 「⻯⾨早⽣の⽊を植える」 − 「冷え冷えの⻯⾨早⽣のフレッシュジュースがうまい」 − 「**県は⻯⾨早⽣の⽣産⾼が⽇本⼀」 • 単語の意味は周りに現れる単語で決まる

Slide 9

Slide 9 text

単語ベクトル • 各単語を⾼次元のベクトルで表す 𝒗(cat) 𝒗(kitten) 「“cat” の周りに現れそうな単語は何︖」 という情報をぎゅっと詰め込んでおく

Slide 10

Slide 10 text

形 で⾒える ⾔葉の意味

Slide 11

Slide 11 text

単語ベクトルは⾯⽩い • 意味の問題を形の問題として扱えるようになった 意味の似た単語 “似た” ベクトル 𝒗(cat) 𝒗(kitten) “cat” “kitten”

Slide 12

Slide 12 text

単語の具体性はベクトルの⻑さを⾒るとわかる 具体性の度合い ベクトルの⻑さ gdi 国内総所得 10.13 78.2 phosphide リン化物 10.10 82.2 tachycardia 頻脈 10.00 82.1 … of 0.09 1.2 and 0.08 0.9 the 0.08 1.0

Slide 13

Slide 13 text

⽂の意味の近さは影の形を⾒るとわかる • 2つの⽂の意味の近さを知りたい − “A boy is walking on the beach.” − “The child walks along the coast.” • ボールに映る影の形が似ている⽂は意味が似ている 𝒗(walks) 𝒗(walking) 𝒗(coast) 𝒗(beach)

Slide 14

Slide 14 text

• 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ ⾔語が違っても単語の配置は似ている 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術)

Slide 15

Slide 15 text

• 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ ⾔語が違っても単語の配置は似ている 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術)

Slide 16

Slide 16 text

• 異なる⾔語の単語ベクトルたちは回転で綺麗に重なりあう • ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通点を持つ ⾔語が違っても単語の配置は似ている 𝒗(猫) 𝒗(cat)

Slide 17

Slide 17 text

まとめ

Slide 18

Slide 18 text

⾔葉の形を教えてくれる⾃然⾔語処理 • ⾃然⾔語処理 − ⼈間の⾔葉を扱うことのできる計算機を作りたい − 問題︓⾔葉の「意味」をいかに表現するか • 単語ベクトル − 周辺に出てくる単語の情報を⼀式詰め込んだベクトルを作る − 形の問題を通して意味の問題を扱えるようになった • 形でわかる⾔葉の意味 − 単語︓単語ベクトルの⻑さを⾒ると単語の具体性がわかる − ⽂ ︓ボールに映る影の形を⽐べると⽂の意味の近さがわかる − ⾔語︓ベクトルの相対的な配置(単語同⼠の役割分担)は⾔語を越えた共通性を持つ 数学と⾔語の両⽅に興味がある皆さんぜひ将来この分野に遊びに来てください

Slide 19

Slide 19 text

謝辞 • スライドの美しいデザインと可視化は⾚間怜奈さん(東北⼤学)の⼿によるも のです. • オリア語の素敵な例⽂は佐藤雄太さん(東京外国語⼤学)に作っていただきま した. • ひとつめに紹介した “単語の⻑さ” の話は,京都⼤学 下平研究室の⼤⼭百々勢 さん・下平英寿さんとの共同研究です. • ふたつめに紹介した “⽂の影” の話は,東北⼤学 乾研究室・鈴⽊研究室の⾼橋 諒さん(現 LegalForce)・⾚間怜奈さん・鈴⽊潤さん・乾健太郎さんとの共 同研究です. • JST ACT-X 数理・情報 領域からの研究⽀援に感謝します. • ⾃然⾔語処理分野,周辺分野,そして遠くの分野におられる広義同僚の皆さん との⽇々の刺激的な議論が⾃分の研究活動の⼒の源です. みなさんに深く感謝します.