単語埋め込みを用いた日本語オノマトペにおける有声・無声子音の対立による音象徴の分析

Slide 1

Slide 1 text

単語埋め込みを⽤いた⽇本語オノマトペにおける有声・無声⼦⾳の対⽴による⾳象徴の分析 2024年度⼈⼯知能学会全国⼤会（第38回）〇本村駿乃介1、久保裕貴1、野崎裕⼆1,2、坂本真樹1,2 (1. 感性AI株式会社、2. 電気通信⼤学) © Kansei AI Co.,Ltd. 1

Slide 2

Slide 2 text

[背景] オノマトペの⾳象徴と⾝体性オノマトペとは擬⾳語・擬態語を総称とされる語彙その⾳と意味の間に恣意的でない関連性（⾳象徴）を持つ。⾳象徴性を感じ取る理由として、⼈間が⾃らの⾝体性を通して⾳声の性質を感じ取っている。例：濁⾳の名前が持つ「⼤きい」「強い」イメージ • ⾳響⾳声学的仮説：聞いた時の聴覚的な感覚 • 調⾳⾳声学的仮説：発声した時の⼝の運動的な感覚 ⇒どちらにおいても⼈間の⾝体的な感覚が基盤となっている 2 © Kansei AI Co.,Ltd.

Slide 3

Slide 3 text

[背景] 機械の⾔語処理と⾝体性と⾳象徴⼀⽅、⼀般の⾃然⾔語処理モデルではそのような⾳象徴の処理構造は無い例：「キラキラ」と「ギラギラ」は単に別の語彙オノマトペの⾳象徴性の分析は、⾝体性の有無という差が⽣む⼈間と機械との⾔語処理プロセスの違いを明らかにする⼀⾯になると考えている。 3 © Kansei AI Co.,Ltd. ⼈間機械⾝体性有り⾝体性無しオノマトペの理解どのような違いがあるのか？⾳象徴

Slide 4

Slide 4 text

本研究の⽬的⽬的単語埋め込みにおける無声⼦⾳と有声⼦⾳のオノマトペの⾳象徴による意味的対⽴の分析 • 単語埋め込みはWord2Vecなどの静的単語埋め込みを対象（BERT等は⽂処理モデルであること、トークナイズの関係で不採⽤） • 無声⼦⾳と有声⼦⾳のオノマトペの対⽴とは、「キラキラ」と「ギラギラ」のようないわゆる清濁の対⽴貢献我々の知る限り、⾳象徴を対象にした⽇本語オノマトペの単語埋め込みの分析を⾏った初めての試み 4 © Kansei AI Co.,Ltd.

Slide 5

Slide 5 text

[先⾏研究] ⽇本語オノマトペの有声・無声⼦⾳の対⽴語頭における/b, g, d, z/などの阻害⾳の有声⼦⾳（例：ギラギラ）と /p, k, t, s/などの無声⼦⾳（例：キラキラ）の対⽴関係がアンケートや実験を元に知られている。有声-無声重い-軽い⼤きい-⼩さい粗い-細かい暗い-明るい強い-弱い⼒強い-繊細かたい-やわらかい乱れた調⼦-同じ調⼦男性的-⼥性的悪い-良いインフォーマル-フォーマルうるさい-静か鈍い-鋭い汚い-美しい濁った-澄んだ [浜野 14] ⽇本語のオノマトペ: ⾳象徴と構造 [篠原 13a] オノマトペ研究の射程: 近づく⾳と意味 [針⽣ 07] 有声⾳と無声⾳を⼤⼩に対応づける感覚の起源擬⾳語理解の⽇中⽐較 [⾬宮 06] ⽇本語オノマトペの基本感情次元と⽇本語⾳感素の基本レベルについて [Pantcheva 06] ⽇本語の擬声語・擬態語における形態と意味の相関についての研究 [平⽥ 13] バッと動かし, ギュッと押す!˜ 有声⼦⾳・無声⼦⾳と動作強度および⼤きさとの刺激反応適合性 [Iwasaki 07] What do English speakers know about gera-gera and yota-yota?: A cross-linguistic investigation of mimetic words for laughing and walking 5

Slide 6

Slide 6 text

[先⾏研究] 埋め込み空間の意味表現獲得 6 © Kansei AI Co.,Ltd. 埋め込み対象の語彙意味的対⽴関係⽅法 GloVe [Grand 22] 動物(bird, dog, monkey)や天候 (breeze, cloud, wind)など⼤きさ(large, small) や気温(hot, cold) など⼈間の主観評価との⼀貫性を確認 FastText, BERT [Nagatomo 21] ⽇本語の触覚を表すオノマトペ硬さやなめらかさを表す単語⼈間の主観評価との⼀貫性を確認 GloVe [Caliskan 17] 職業(executive, management)や家庭 (home, parents)など性別のバイアス（男性名と⼥性名）などバイアスを定量的に評価 [Grand 22] Semantic projection recovers rich human knowledge of multiple object features from word embeddings [Nagatomo 21] Unsupervised learning enables extraction of tactile information from text database [Caliskan 17] Semantics derived automatically from language corpora contain human-like biases

Slide 7

Slide 7 text

[実験] 使⽤したオノマトペ対象オノマトペリスト NINJAL-LWP for BCCWJのオノマトペ検索機能を利⽤して作成オノマトペの形態「キラキラ」のようなCVCV-CVCV型（C は⼦⾳、V は⺟⾳）に限定⽂字種ひらがな・カタカナ ⇒合計692個×2の1384個のオノマトペさらに、有声⼦⾳と無声⼦⾳の対⽴関係が成⽴している対（例：ギラギラ-キラキラ）で絞り込む⇒544個のオノマトペ 7 © Kansei AI Co.,Ltd.

Slide 8

Slide 8 text

本稿での呼称⼿法次元数提供元 wikientvec_300d skip-gram 300 東北⼤学 wikientvec_100d skip-gram 100 東北⼤学 shiroyagi - 50 ⽩ヤギコーポレーション chive skip-gram 300 ワークスアプリケーションズ・国語研 fasttext fastText 300 Meta Research wikipedia2vec skip-gram 300 Studio Ousia asahi_skipgram skip-gram 300 朝⽇新聞社・レトリバ asahi_cbow CBOW 300 朝⽇新聞社・レトリバ asahi_glove GloVe 300 朝⽇新聞社・レトリバ hotto_sns CBOW 200 ホットリンク hotto_wiki CBOW 100 ホットリンク [実験] 学習済み単語埋め込みモデル 8 © Kansei AI Co.,Ltd. ≒500 ＊fastText, GloVe以外はWord2Vec ≒50 対象オノマトペ語彙数

Slide 9

Slide 9 text

[リサーチクエスチョンと⽅法] 実験1 ＞実験1 • リサーチクエスチョン単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を有しているのかどうか • ⽅法単語埋め込みベクトルによって、有声・無声⼦⾳の分類が可能であるかを検証実験2 • リサーチクエスチョン実験1において単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を有している場合、それはどのようなものなのか • ⽅法形容詞対の単語埋め込みとの⽐較による分析 9 © Kansei AI Co.,Ltd.

Slide 10

Slide 10 text

[実験1] 設定分類対象各単語埋め込みモデルごとに、単語ベクトルを特徴量にしてオノマトペが有声⼦⾳か無声⼦⾳かを予測精度検証オノマトペ1語をテストにする leave-one-out交差検証を⾏い、その検証数のうち分類に正解した数を分類精度とした分類器線形判別分析 (LDA), ロジスティック回帰 (Logistic), 線形回帰 (Linear), リッジ回帰 (Ridge) の4つ 10 サクサクザクザクピカピカビカビカキラキラ ... ギラギラテスト訓練 © Kansei AI Co.,Ltd.

Slide 11

Slide 11 text

埋め込みモデル LDA Logistic Linear Ridge wikientvec_300d .591** .682** .591** .625** wikientvec_100d .634** .701** .634** .649** shiroyagi .360 .460 .600 .480 chive .641** .746** .537 .743** fasttext .589** .829** .589** .841** wikipedia2vec .656** .715** .573 .671** asahi_skipgram .518 .688** .518 .638** asahi_cbow .540 .707** .540 .575** asahi_glove .528 .641** .528 .616** hotto_sns .774** .793** .774** .783** hotto_wiki .688** .675** .688** .720** [実験1] 結果 11 （⼆項検定による統計検定, **: p < .01） l 最良で0.64~0.84の精度で分類された l [shiroyagi]では有意な分類がされなかった © Kansei AI Co.,Ltd.

Slide 12

Slide 12 text

埋め込みモデル LDA Logistic Linear Ridge wikientvec_300d .591** .682** .591** .625** wikientvec_100d .634** .701** .634** .649** shiroyagi .360 .460 .600 .480 chive .641** .746** .537 .743** fasttext .589** .829** .589** .841** wikipedia2vec .656** .715** .573 .671** asahi_skipgram .518 .688** .518 .638** asahi_cbow .540 .707** .540 .575** asahi_glove .528 .641** .528 .616** hotto_sns .774** .793** .774** .783** hotto_wiki .688** .675** .688** .720** [実験1] 議論 12 （⼆項検定による統計検定, **: p < .01） l 最良で0.64~0.84の精度で分類された ⇒ 有声・無声の⾳象徴性が反映された次元が存在している可能性 l [shiroyagi]では有意な分類がされなかった ⇒ 語彙数が50程度と少量だったから？ © Kansei AI Co.,Ltd.

Slide 13

Slide 13 text

[リサーチクエスチョンと⽅法] 実験2 実験1 • リサーチクエスチョン単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を有しているのかどうか • ⽅法単語埋め込みベクトルによって、有声・無声⼦⾳の分類が可能であるかを検証 >実験2 • リサーチクエスチョン実験1において単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を有している場合、それはどのようなものなのか • ⽅法形容詞対の単語埋め込みとの⽐較による分析 13 © Kansei AI Co.,Ltd.

Slide 14

Slide 14 text

[実験2] 設定⽐較対象 SD(Semantic Differential)法でよく使⽤される形容詞対尺度を37 対「明るい-暗い」「⼤きい-⼩さい」「軽い-重い」 etc. [井上 85] ⽇本における SD 法による研究分野とその形容詞対尺度構成の概観分析⼿法単語埋め込みが持つバイアスを評価する⼿法として考案された Word Embedding Association Test (WEAT)を利⽤した [Caliskan 17] Semantics derived automatically from language corpora contain human-like biases 例: 無声⼦⾳オノマトペ（サクサク、キラキラ）と有声⼦⾳オノマトペ（ザクザク、ギラギラ）に対して「軽い-重い」という観点でバイアスが存在しているのか 14 © Kansei AI Co.,Ltd.

Slide 15

Slide 15 text

[実験2] Word Embedding Association Test (WEAT) 15 例 ! = サクサク, キラキラ, … % = ザクザク, ギラギラ, … A = 軽い B = 重い ( サクサク, 軽い , 重い = )*+,-∈/ cos サクサク, 軽い − )*+,4∈5 cos(サクサク, 重い) ( ザクザク, 軽い , 重い = )*+,-∈/ cos ザクザク, 軽い − )*+,4∈5 cos(ザクザク, 重い) ⼤⼤⼩⼩ ⇒正の値 ⇒負の値 89:; !, %, :, < = = >∈? ((サクサク, 軽い , 重い ) − = @∈A ( ザクザク, 軽い , 重い ⇒正の値 89:; !, %, :, < = = >∈? ((B, :, <) − = @∈A ( C, :, < ( D, :, < = )*+,-∈/ cos D, ⃗ + − )*+,4∈5 cos(D, F) 無声オノマトペが軽い、有声オノマトペが重い場合、WEAT値は正の値

Slide 16

Slide 16 text

Slide 17

Slide 17 text

[実験2] 議論 17 © Kansei AI Co.,Ltd. この図⽰では左の形容詞と無声オノマトペ、右の形容詞と有声オノマトペの関連が強いほど正の⽅向に値が⼤きくなる「楽しい-苦しい」「優しい-怖い」「穏やか-激しい」「明るい-暗い」... ⇒主観評価の先⾏研究と⼀致「鋭い-鈍い」「強い-弱い」などは強い⼀貫した対⽴関係が⾒られなかった ⇒より細かい分析（例：複数の類義語を含めた WEAT値）や原因究明要

Slide 18

Slide 18 text

まとめ⽬的⽇本語オノマトペの語頭の有性⼦⾳・無声⼦⾳の対⽴を対象とした単語埋め込みの分析結果 • 実験1：⼦⾳の対⽴関係を分離できる情報が単語埋め込み空間に存在 • 実験2：それが特定の形容詞対の対⽴関係と⼀致している可能性展望⾝体性との関連を中⼼に、コーパス分析によるオノマトペ研究をより参照しながら、分析を深めていきたい • 『清⾳・濁⾳は、動作の軽微性、抽象的な変化』廉沢奇. "「⽇本語⽇常会話コーパス」に⾒る ABAB 型基本オノマトペの⾳韻パタン: ⽇本語教育の視点ら." 18 © Kansei AI Co.,Ltd.