Slide 1

Slide 1 text

単語埋め込みを⽤いた ⽇本語オノマトペにおける 有声・無声⼦⾳の対⽴による⾳象徴の分析 2024年度 ⼈⼯知能学会全国⼤会(第38回) 〇本村 駿乃介1、久保 裕貴1、野崎 裕⼆1,2、坂本 真樹1,2 (1. 感性AI株式会社、2. 電気通信⼤学) © Kansei AI Co.,Ltd. 1

Slide 2

Slide 2 text

[背景] オノマトペの⾳象徴と⾝体性 オノマトペとは擬⾳語・擬態語を総称とされる語彙 その⾳と意味の間に恣意的でない関連性(⾳象徴)を持つ。 ⾳象徴性を感じ取る理由として、 ⼈間が⾃らの⾝体性を通して⾳声の性質を感じ取っている。 例:濁⾳の名前が持つ「⼤きい」「強い」イメージ • ⾳響⾳声学的仮説:聞いた時の聴覚的な感覚 • 調⾳⾳声学的仮説:発声した時の⼝の運動的な感覚 ⇒どちらにおいても⼈間の⾝体的な感覚が基盤となっている 2 © Kansei AI Co.,Ltd.

Slide 3

Slide 3 text

[背景] 機械の⾔語処理と⾝体性と⾳象徴 ⼀⽅、⼀般の⾃然⾔語処理モデルではそのような⾳象徴の処理構造は無い 例:「キラキラ」と「ギラギラ」は単に別の語彙 オノマトペの⾳象徴性の分析は、⾝体性の有無という差が⽣む⼈間と機械 との⾔語処理プロセスの違いを明らかにする⼀⾯になると考えている。 3 © Kansei AI Co.,Ltd. ⼈間 機械 ⾝体性有り ⾝体性無し オノマトペの理解 どのような違いがあるのか? ⾳象徴

Slide 4

Slide 4 text

本研究の⽬的 ⽬的 単語埋め込みにおける無声⼦⾳と有声⼦⾳のオノマトペの ⾳象徴による意味的対⽴の分析 • 単語埋め込みはWord2Vecなどの静的単語埋め込みを対象 (BERT等は⽂処理モデルであること、トークナイズの関係で不採⽤) • 無声⼦⾳と有声⼦⾳のオノマトペの対⽴とは、 「キラキラ」と「ギラギラ」のようないわゆる清濁の対⽴ 貢献 我々の知る限り、⾳象徴を対象にした⽇本語オノマトペの単語埋め込み の分析を⾏った初めての試み 4 © Kansei AI Co.,Ltd.

Slide 5

Slide 5 text

[先⾏研究] ⽇本語オノマトペの有声・無声⼦⾳の対⽴ 語頭における/b, g, d, z/などの阻害⾳の有声⼦⾳(例:ギラギラ)と /p, k, t, s/などの無声⼦⾳(例:キラキラ)の対⽴関係がアンケートや実験 を元に知られている。 有声-無声 重い-軽い ⼤きい-⼩さい 粗い-細かい 暗い-明るい 強い-弱い ⼒強い-繊細 かたい-やわらかい 乱れた調⼦-同じ調⼦ 男性的-⼥性的 悪い-良い インフォーマル-フォーマル うるさい-静か 鈍い-鋭い 汚い-美しい 濁った-澄んだ [浜野 14] ⽇本語のオノマトペ: ⾳象徴と構造 [篠原 13a] オノマトペ研究の射程: 近づく⾳と意味 [針⽣ 07] 有声⾳と無声⾳を⼤⼩に対応づける感覚の起源 擬⾳語理解の⽇中⽐較 [⾬宮 06] ⽇本語オノマトペの基本感情次元と⽇本語⾳感素の基本レベルについて [Pantcheva 06] ⽇本語の擬声語・擬態語における形態と意味の相関についての研究 [平⽥ 13] バッと動かし, ギュッと押す!˜ 有声⼦⾳・無声⼦⾳と動作強度および⼤きさとの刺激反応適合性 [Iwasaki 07] What do English speakers know about gera-gera and yota-yota?: A cross-linguistic investigation of mimetic words for laughing and walking 5

Slide 6

Slide 6 text

[先⾏研究] 埋め込み空間の意味表現獲得 6 © Kansei AI Co.,Ltd. 埋め込み 対象の語彙 意味的対⽴関係 ⽅法 GloVe [Grand 22] 動物(bird, dog, monkey)や天候 (breeze, cloud, wind)など ⼤きさ(large, small) や気温(hot, cold) など ⼈間の主観評価との ⼀貫性を確認 FastText, BERT [Nagatomo 21] ⽇本語の触覚を表す オノマトペ 硬さやなめらかさを 表す単語 ⼈間の主観評価との ⼀貫性を確認 GloVe [Caliskan 17] 職業(executive, management)や家庭 (home, parents)など 性別のバイアス(男 性名と⼥性名)など バイアスを定量的に 評価 [Grand 22] Semantic projection recovers rich human knowledge of multiple object features from word embeddings [Nagatomo 21] Unsupervised learning enables extraction of tactile information from text database [Caliskan 17] Semantics derived automatically from language corpora contain human-like biases

Slide 7

Slide 7 text

[実験] 使⽤したオノマトペ 対象オノマトペリスト NINJAL-LWP for BCCWJのオノマトペ検索機能を利⽤して作成 オノマトペの形態 「キラキラ」のようなCVCV-CVCV型(C は⼦⾳、V は⺟⾳)に限定 ⽂字種 ひらがな・カタカナ ⇒合計692個×2の1384個のオノマトペ さらに、有声⼦⾳と無声⼦⾳の対⽴関係が成⽴している対 (例:ギラギラ-キラキラ)で絞り込む⇒544個のオノマトペ 7 © Kansei AI Co.,Ltd.

Slide 8

Slide 8 text

本稿での呼称 ⼿法 次元数 提供元 wikientvec_300d skip-gram 300 東北⼤学 wikientvec_100d skip-gram 100 東北⼤学 shiroyagi - 50 ⽩ヤギコーポレーション chive skip-gram 300 ワークスアプリケーショ ンズ・国語研 fasttext fastText 300 Meta Research wikipedia2vec skip-gram 300 Studio Ousia asahi_skipgram skip-gram 300 朝⽇新聞社・レトリバ asahi_cbow CBOW 300 朝⽇新聞社・レトリバ asahi_glove GloVe 300 朝⽇新聞社・レトリバ hotto_sns CBOW 200 ホットリンク hotto_wiki CBOW 100 ホットリンク [実験] 学習済み単語埋め込みモデル 8 © Kansei AI Co.,Ltd. ≒500 *fastText, GloVe以外はWord2Vec ≒50 対象オノマトペ 語彙数

Slide 9

Slide 9 text

[リサーチクエスチョンと⽅法] 実験1 >実験1 • リサーチクエスチョン 単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を 有しているのかどうか • ⽅法 単語埋め込みベクトルによって、有声・無声⼦⾳の分類が 可能であるかを検証 実験2 • リサーチクエスチョン 実験1において単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の 情報を有している場合、それはどのようなものなのか • ⽅法 形容詞対の単語埋め込みとの⽐較による分析 9 © Kansei AI Co.,Ltd.

Slide 10

Slide 10 text

[実験1] 設定 分類対象 各単語埋め込みモデルごとに、単語ベクトルを特徴量にして オノマトペが有声⼦⾳か無声⼦⾳かを予測 精度検証 オノマトペ1語をテストにする leave-one-out交差検証を⾏い、 その検証数のうち分類に正解した数を分類精度とした 分類器 線形判別分析 (LDA), ロジスティック回帰 (Logistic), 線形回帰 (Linear), リッジ回帰 (Ridge) の4つ 10 サクサク ザクザク ピカピカ ビカビカ キラキラ ... ギラギラ テスト 訓練 © Kansei AI Co.,Ltd.

Slide 11

Slide 11 text

埋め込みモデル LDA Logistic Linear Ridge wikientvec_300d .591** .682** .591** .625** wikientvec_100d .634** .701** .634** .649** shiroyagi .360 .460 .600 .480 chive .641** .746** .537 .743** fasttext .589** .829** .589** .841** wikipedia2vec .656** .715** .573 .671** asahi_skipgram .518 .688** .518 .638** asahi_cbow .540 .707** .540 .575** asahi_glove .528 .641** .528 .616** hotto_sns .774** .793** .774** .783** hotto_wiki .688** .675** .688** .720** [実験1] 結果 11 (⼆項検定による統計検定, **: p < .01) l 最良で0.64~0.84の精度 で分類された l [shiroyagi]では有意な 分類がされなかった © Kansei AI Co.,Ltd.

Slide 12

Slide 12 text

埋め込みモデル LDA Logistic Linear Ridge wikientvec_300d .591** .682** .591** .625** wikientvec_100d .634** .701** .634** .649** shiroyagi .360 .460 .600 .480 chive .641** .746** .537 .743** fasttext .589** .829** .589** .841** wikipedia2vec .656** .715** .573 .671** asahi_skipgram .518 .688** .518 .638** asahi_cbow .540 .707** .540 .575** asahi_glove .528 .641** .528 .616** hotto_sns .774** .793** .774** .783** hotto_wiki .688** .675** .688** .720** [実験1] 議論 12 (⼆項検定による統計検定, **: p < .01) l 最良で0.64~0.84の精度 で分類された ⇒ 有声・無声の⾳象徴性が 反映された次元が 存在している可能性 l [shiroyagi]では有意な 分類がされなかった ⇒ 語彙数が50程度と 少量だったから? © Kansei AI Co.,Ltd.

Slide 13

Slide 13 text

[リサーチクエスチョンと⽅法] 実験2 実験1 • リサーチクエスチョン 単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を 有しているのかどうか • ⽅法 単語埋め込みベクトルによって、有声・無声⼦⾳の分類が 可能であるかを検証 >実験2 • リサーチクエスチョン 実験1において単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の 情報を有している場合、それはどのようなものなのか • ⽅法 形容詞対の単語埋め込みとの⽐較による分析 13 © Kansei AI Co.,Ltd.

Slide 14

Slide 14 text

[実験2] 設定 ⽐較対象 SD(Semantic Differential)法でよく使⽤される形容詞対尺度を37 対 「明るい-暗い」「⼤きい-⼩さい」「軽い-重い」 etc. [井上 85] ⽇本における SD 法による 研究分野とその形容詞対尺度構成の概観 分析⼿法 単語埋め込みが持つバイアスを評価する⼿法として考案された Word Embedding Association Test (WEAT)を利⽤した [Caliskan 17] Semantics derived automatically from language corpora contain human-like biases 例: 無声⼦⾳オノマトペ(サクサク、キラキラ)と 有声⼦⾳オノマトペ(ザクザク、ギラギラ)に対して 「軽い-重い」という観点でバイアスが存在しているのか 14 © Kansei AI Co.,Ltd.

Slide 15

Slide 15 text

[実験2] Word Embedding Association Test (WEAT) 15 例 ! = サクサク, キラキラ, … % = ザクザク, ギラギラ, … A = 軽い B = 重い ( サクサク, 軽い , 重い = )*+,-∈/ cos サクサク, 軽い − )*+,4∈5 cos(サクサク, 重い) ( ザクザク, 軽い , 重い = )*+,-∈/ cos ザクザク, 軽い − )*+,4∈5 cos(ザクザク, 重い) ⼤ ⼤ ⼩ ⼩ ⇒正の値 ⇒負の値 89:; !, %, :, < = = >∈? ((サクサク, 軽い , 重い ) − = @∈A ( ザクザク, 軽い , 重い ⇒正の値 89:; !, %, :, < = = >∈? ((B, :, <) − = @∈A ( C, :, < ( D, :, < = )*+,-∈/ cos D, ⃗ + − )*+,4∈5 cos(D, F) 無声オノマトペが軽い、有声オノマトペが重い場合、WEAT値は正の値

Slide 16

Slide 16 text

[実験2] 結果 16 © Kansei AI Co.,Ltd. l 埋め込みモデルを 通して⼤⼩関係が⼀致 [縦] 形容詞対 [横] 埋め込みモデル (permutation test, ∗ : p < .05, ∗∗ : p < .01)

Slide 17

Slide 17 text

[実験2] 議論 17 © Kansei AI Co.,Ltd. この図⽰では左の形容詞と無声オノマトペ、右の形容詞と有声オノマトペ の関連が強いほど正の⽅向に値が⼤きくなる 「楽しい-苦しい」「優しい-怖い」「穏やか-激しい」「明るい-暗い」... ⇒主観評価の先⾏研究と⼀致 「鋭い-鈍い」「強い-弱い」などは強い⼀貫した対⽴関係が⾒られなかった ⇒より細かい分析(例:複数の類義語を含めた WEAT値)や原因究明要

Slide 18

Slide 18 text

まとめ ⽬的 ⽇本語オノマトペの語頭の有性⼦⾳・無声⼦⾳の対⽴を対象とした 単語埋め込みの分析 結果 • 実験1:⼦⾳の対⽴関係を分離できる情報が単語埋め込み空間に存在 • 実験2:それが特定の形容詞対の対⽴関係と⼀致している可能性 展望 ⾝体性との関連を中⼼に、コーパス分析によるオノマトペ研究をより 参照しながら、分析を深めていきたい • 『清⾳・濁⾳は、動作の軽微性、抽象的な変化』 廉沢奇. "「⽇本語⽇常会話コーパス」 に⾒る ABAB 型基本オノマトペの⾳韻パタン: ⽇本語教育の視点ら." 18 © Kansei AI Co.,Ltd.