Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[言語学フェス2025] 日本語と韓国語のオノマトペ:意味も音も似てるものを見つけたい
Search
Shunnosuke Motomura
January 30, 2025
Research
0
79
[言語学フェス2025] 日本語と韓国語のオノマトペ: 意味も音も似てるものを見つけたい
Shunnosuke Motomura
January 30, 2025
Tweet
Share
More Decks by Shunnosuke Motomura
See All by Shunnosuke Motomura
日本語・韓国語オノマトペにおける意味的・音韻的類似ペア抽出のための言語埋め込みを用いた分析
shunnosukemotomura
0
140
単語埋め込みを用いた日本語オノマトペにおける有声・無声子音の対立による音象徴の分析
shunnosukemotomura
0
800
Other Decks in Research
See All in Research
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
130
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
360
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
480
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
2.6k
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
400
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
110
音声感情認識技術の進展と展望
nagase
0
410
大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術:多様なセンサにもとづく個人情報に配慮した人物状態推定」
miso2024
0
190
超高速データサイエンス
matsui_528
1
320
単施設でできる臨床研究の考え方
shuntaros
0
3.3k
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
1.1k
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
170
Featured
See All Featured
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
37
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
69
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
28
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Paper Plane
katiecoart
PRO
0
44k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
400
How to Ace a Technical Interview
jacobian
281
24k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
330
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
110
Mind Mapping
helmedeiros
PRO
0
39
Thoughts on Productivity
jonyablonski
73
5k
Transcript
⽇本語と韓国語のオノマトペ: 意味も⾳も似てるものを⾒つけたい ⾔語学フェス2025 本村 駿乃介 (感性AI株式会社) © Kansei AI Co.,Ltd.
1 B-37 単語埋め込みを使って
所属・⾃⼰紹介 所属:感性AI株式会社 京王電鉄と電気通信⼤学坂本真樹教授との共同出資により設⽴ 感性の定量化を基盤としたサービス展開 ⾃⼰紹介:本村駿乃介(事業部・開発エンジニア) 昨年度から研究発表 "単語埋め込みを⽤いた⽇本語オノマトペにおける有声・無声⼦⾳の対⽴ による⾳象徴の分析." ⼈⼯知能学会全国⼤会論⽂集 第
38 回 (2024). 興味:⾳象徴(オノマトペ)、単語埋め込み、韓国語 [new] 2 © Kansei AI Co.,Ltd.
⽇本語と韓国語のオノマトペがときどき似てる!? • 동동 [ドンドン]: どんどん、とんとん、地団太を踏むさま • 부르릉 [ブルルン]:ぶるるん、ブルルン、ブーンと • 술술
[スルスル]:すらすら、どんどん • 쑥쑥 [スックスク]:すくすく、ぽこぽこと、ぐんぐん • 킁킁 [クンクン]:くんくん、くすんくすん 擬⾳語だけでなく擬態語も似てる例がある どうすればこういう例が⾒つかるのか? 3 © Kansei AI Co.,Ltd. https://www.youtube.com/watch?v=ekvJA3GZw1Y ※⽇本語翻訳: Kpedia その他の例:⽂慶喆. "⽇本語と韓国語における擬態語・擬⾳語について." 総 合政策論集: 東北⽂化学園⼤学総合政策学部紀要 13.1 (2014): 140-155.
ハングル 字⺟という単位を初声、中声、終声として組み合わせて1⽂字(≒1⾳節)ができる • ⺟⾳(V): ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ,
ㅜ, ㅠ, ㅡ, ㅣ, (⼆重) ㅐ, ㅔ, ㅘ, ㅙ, ㅚ, ㅝ, ㅞ, ㅟ, ㅢ, ㅒ, ㅖ • ⼦⾳(C): ㄱ, ㄷ, ㅂ, ㅈ, ㅅ, ㄴ, ㄹ, ㅁ, ㅎ, ㄲ, ㄸ, ㅃ, ㅉ, ㅆ, ㅋ, ㅌ, ㅍ, ㅊ, (ㅇ: 初声では⼦⾳無し) (C)Vパターン (C)VCパターン 4 © Kansei AI Co.,Ltd. 고 가 과 관 간 곤 긁 [ko] [ka] [kwa] 와 [wa] [kan] [kon] [kwan] [kɯk]
韓国語のオノマトペ 擬声語(擬⾳語)・擬態語の形態 としては右表のような構成となる • 反復の有無 • ⾳節数の単位 • 反復の範囲 •
反復のパターン(⺟⾳・⼦⾳交替) の要素がある 今回はハイライトされた範囲を 分析の対象とした(後述) 5 区分 単独形 形態 擬声語 擬態語 同⾳反復 ⾳節反復形 ⾳節反復形 ⾳節反復形 ⾳節 ⾳節 ⾳節 反 復 形 全体 反復 異⾳反復 ⺟⾳交替形 ⼦⾳交替形 ⾳節交替形 部分反復形 딩리민. “한국어 의성어 의태어의 교육 방안 연구.” 국내박사학위논문 청주대학교, 2017. 충청북도 より翻訳改変
韓国語のオノマトペ分析対象リスト 韓国国⽴国語院編集の標準国語⼤辞典編纂⽤擬声擬態語⽬録 <표준국어대사전 편찬용 의성의태어 목록> に収録の語彙から以下のパターンに 当てはまる語を対象とした • CV-CVC
(부엉) • 2⾳節単独 • CVC-CVC (덜컥, 깔깔) • 2⾳節単独、1⾳節反復 • CV-CVC-CV-CVC (꼬박꼬박) • 2⾳節反復 • CVC-CVC-CVC-CVC (꿀꺽꿀꺽) • 2⾳節反復 →合計1224個 (後述の単語埋め込みモデルに含まれるもの) 6 © Kansei AI Co.,Ltd. ⽂字数:パターンごとのオノマトペ語彙数
⽇本語のオノマトペ、分析対象リスト 以下の2種類の語根によるパターンに分かれる(⽂字や⻑⾳・発⾳の添加や反復) • CVパターン(ガン、ガッ、ガガッ、ガンガン、ガーッ) • CVCVパターン(ガタン、ガタッ、ガタガタ、ガタリ、ガッターン) 浜野祥⼦(2014)『⽇本語のオノマトペ-⾳象徴と構造』 くろしお出版 国⽴国語研究所が開発したNINJAL-LWP for
BCCWJのオノマトペ検索機能を⽤い、 • CVN-CVNパターン(ガンガン) • CVCV-CVCVパターン(ガタガタ) のパターンになるオノマトペを収集 →1240個 (後述の単語埋め込みモデルに含まれる、ひらがなカタカナのべ数) 7 © Kansei AI Co.,Ltd.
アプローチ ⽬的:⽇本語と韓国語のオノマトペのペアで⾳と意味の類似度の⾼いペアを⾒つける • ⾳の類似度 ローマ字表記上での⽂字列の類似度 ↓ある閾値以上の類似度を持った単語ペアを抽出 • 意味の類似度 単語埋め込みベクトルにおけるコサイン類似度 8
© Kansei AI Co.,Ltd. ⽇:ソウル→souru 韓:서울→seoul
⾳の類似度:ローマ字変換 (Romanization) ⽅針:⾳素の少ない⽇本語の表記に韓国語を合わせていく • 統⼀が簡単(複数パターンを1つに集約させる作業) • ⽇本⼈にとって近いと感じる⾳素列に対応させられる • ⽇本語:ヘボン式「くんくん→kunkun」 •
韓国語:Revised Romanization of Korean式をベースに⽇本語の⾳韻に合わせた独 ⾃の⽅式 1. ⺟⾳:ㅐ(ae)→e, ㅓ(eo)→o, ㅙ(wae)→we, ... 2. 終声のㅇ:ngをnに変更 「킁킁→(keungkeung)→(kungkung)→kunkun」 [Revised Romanization] [1.] [2.] 9 © Kansei AI Co.,Ltd.
⾳の類似度:レーベンシュタイン距離 ⽬的:ローマ字表記となった⽇本語と韓国語の2つの⽂字列の距離を測る →レーベンシュタイン距離(編集距離)を利⽤する ⽂字列Aから⽂字列Bに変換するときの⽂字の「追加」「削除」「置換」の回数を距離として算出 例:”kitten”と”sitting”の距離 「kitten → sitten (置換) →
sittin (置換) → sitting (追加)」の3回の操作 →距離3 このとき⽂字列が⻑いほど距離が⼤きくなる影響を相殺するため、 2つのうち⻑い⽅の⽂字列の⽂字数で割る正規化を⾏なった (例えば、”A”と”B”という⽂字のレーベンシュタイン距離は1だが、 ⽂字列全体が異なっているため最⼤の距離となるべき) 10 © Kansei AI Co.,Ltd.
意味の類似度:単語埋め込み、バイリンガル埋め込み Meta Research提供のfastTextを利⽤ ⽇本語と韓国語のモデルがそれぞれ存在 • コーパス:Common CrawlとWikipedia • 学習:CBOW •
次元:300 別⾔語で学習されたため対応関係がない ↓ 2⾔語で共通した単語に注⽬して対応関係 を作って変換を⾏う 11 © Kansei AI Co.,Ltd. Offline bilingual word vectors, orthogonal transformations and the inverted softmax Samuel L. Smith, David H. P. Turban, Steven Hamblin and Nils Y. Hammerla ICLR 2017 (conference track) 対応関係がなくコサイン類似度が≒0 対応関係が⽣まれコサイン類似度が正に
結果:⾳の類似度(距離)、意味の類似度の分布 • ⾳の⾮類似度(正規化レーベンシュタイン距離) 12 © Kansei AI Co.,Ltd. • 意味の類似度(単語埋め込みコサイン類似度)
←近い 遠い→ ←遠い 近い→ オノマトペのペアというだけでコサイン類似度の 平均が0.15ぐらいある
結果:⽇本語(CVN-CVN)とのペア 13 © Kansei AI Co.,Ltd. 正規化レーベンシュタイン距離0.3以下のペアをコサイン類似度順に表⽰した上位
結果:⽇本語(CVN-CVN)とのペアの抜粋 14 © Kansei AI Co.,Ltd. ⽇本語 韓国語 韓ローマ字 和訳
コサイン類似度 オンオン 엉엉 on on わあわあ。わんわん。ああんああん 0.433 ウンウン 응응 un un うんうん 0.298 ぽんぽん/ポンポン 뽕뽕 ppon ppon ぽっつりぽっつり ぽんぽん 0.280/0.249 びゅんびゅん/ビュンビュン 붕붕 bun bun ぶんぶん 0.271/0.270 ぽんぽん/ポンポン 퐁퐁 pon pon どくどく、ごぼごぼ、ぽんぽん、ぷうぷう 0.261/0.213 こんこん/コンコン 콩콩 kon kon とんとん、コンコン、どんどん 0.248/0.243 ぽんぽん/ポンポン 뻥뻥 ppon ppon ぱんぱん、ぽんぽん 0.227 クンクン 킁킁 kun kun くんくん 0.205 意味的に共通があるペアを主観で抜粋 • 擬⾳語がほとんど • コサイン類似度が⼤きいほど意味が近いというようにはあまりなっていない
結果:⽇本語(CVCV-CVCV)とのペア 15 © Kansei AI Co.,Ltd. 正規化レーベンシュタイン距離0.4以下のペアをコサイン類似度順に表⽰した上位
結果:⽇本語(CVCV-CVCV)とのペアの抜粋 意味的に共通があるペアを主観で抜粋 • 擬態語含め共通的なイメージを持っているものもある • コサイン類似度が⼤きいほど意味が近いというようにはあまりなっていない 16 © Kansei AI
Co.,Ltd. ⽇本語 韓国語 韓ローマ字 和訳 コサイン類似度 トボトボ/とぼとぼ 터벅터벅 tobok tobok とぼとぼ 0.380/0.369 じくじく 지끈지끈 jikkun jikkun ずきずき、ずきんずきん 0.353 すくすく/スクスク 쑥쑥 ssuk ssuk にょきにょき、すくすく 0.348/0.318 ポソポソ 푸석푸석 pusok pusok かさかさ、がさがさ、ぱさぱさ 0.344 パサパサ 바삭바삭 basak basak かさかさ、ばさばさ、ぱさぱさ 0.304 ぶるぶる/ブルブル 부들부들 budul budul (すべすべ)、ぶるぶる、がたがた 0.301/0.301 シャクシャク 삭삭 sak sak ちょきちょき、しゃきしゃき 0.295 プルプル 푸들푸들 pudul pudul ぶるぶる 0.287
議論・まとめ • 似ているペアをいくつか⾒つけることは可能であった • 効率的な探索に寄与できるようになる可能性 • 全ペアのコサイン類似度の平均が0以上 • ⽇韓オノマトペのペアというだけで埋め込み空間上の偏りを持ってしまっている •
意味が似ていないペアもコサイン類似度が⾼くなる • バイリンガル埋め込みの学習⼿法に課題 • 単語埋め込みとオノマトペの多義性の問題 • ⾳の類似度は⼿法的に本来似ているペアを⾒逃している可能性 • 似ている⾳素(例:/t/と/d/)も全く違うものとしての距離になる • 現状、客観的な評価を⾏えていない • ⽇韓学習教材をリファレンスにして対応を取ったものをベースにする 17 © Kansei AI Co.,Ltd.