Slide 1

Slide 1 text

1 音素の類似性による 対話型駄洒落の生成 Wang Yilin,山本岳洋,大島裕明(兵庫県立大学) 2025年3月1日 第17回データ工学と情報マネジメントに関するフォーラム(DEIM2025) [8H-02]

Slide 2

Slide 2 text

背景 1/4 2 校長先生絶好調1. 池に行け1. 布団が吹っ飛んだ1! 駄洒落とは,同じ或いは非常に似通った音を持つ言葉をかけて 遊ぶ一種の言葉遊び.(出典:Wikipedia) 1. Wikipediaから引用.

Slide 3

Slide 3 text

背景 2/4 3 本研究の対象:対話型駄洒落 わたくしー2. 誰がタクシー に乗るの? あら,かわいいよ2! 荒川の女の子 はどう? Your eye, dear[1]. What is the brightest idea in the world? 2. DajareStationとダジャレナビのデータを修正したものである. [1] Meri Giorgadze. Linguistic features of pun, its typology and classification. European Scientific Journal, ESJ, Vol. 10, No. 10, 2014.

Slide 4

Slide 4 text

背景 3/4 4 対話型駄洒落 対話型駄洒落を生成することができれば,雑談対話システムが人 間のように自然で面白い会話を再現できると考えている. 「元気で素直な子が多い イメージだよ3.」 「荒川の女の子はどう?」 「あら,可愛いよ. 」 「荒川の女の子はどう?」 一般的な対話 3. ChatGPTによって生成されたテキストである.

Slide 5

Slide 5 text

背景 4/4 5 5 対話型駄洒落の生成と評価に関する研究は少ない. [2]南智仁, 清雄一, 田原康之, 大須賀昭彦. 日本語の仮名表記を学習した言語モデルを用いた文章の言い換えによる駄洒落の生成.第38 回人工知能学会 全国大会, 2G5–GS–6–03, pp. 1–4, 2024. [3] 花房竜馬, 荒木健治. 駄洒落を含む対話における可読性と面白さの相関分析. 言語処理学会 第29回年次大会, 2023: 1063-1068. 駄洒落を含む対話に対して, 可読性と 面白さの評価を行った. 駄洒落を含む対話における 可読性と面白さの相関分析[3] 日本語の仮名表記を学習した 言語モデルを用いた文章の言い換え による駄洒落の生成[2] 日本語の読み方を学習したモデルを用 いて駄洒落の自動生成手法を提案した.

Slide 6

Slide 6 text

研究内容 6 任意の発話文に対して対話型駄洒落となる返答文を生成する. 発話文 「荒川の女の子はどう?」 入力: 返答文 「あら,かわいいよ.」 出力: 対 話 型 駄 洒 落

Slide 7

Slide 7 text

用語の定義 7 1. 駄洒落対象語 発話文から抽出される単語(荒川「あらかわ」,女の子「おんなのこ」). 本研究では名詞, 動詞, 形容詞, 形容動詞を対象とする. 2. 音類似フレーズ 駄洒落対象語と音韻(発音)が類似する単語やフレーズ(唐川「からかわ」, 「あら,かわいい」). 発話文:「荒川の女の子はどう?」 返答文:「あら,かわいいよ.」

Slide 8

Slide 8 text

提案手法 8 発話文 「荒川の女の子はどう?」 駄洒落対象語 (あらかわ)(おんなのこ) 「あら,かわいいよ!」 「唐川さんのことも気になるね! 」 音類似フレーズ (からかわ)(あら,かわいい) 返答文 「あら,かわいいよ!」 ①検索 ②生成 ③ランキング

Slide 9

Slide 9 text

検索段階 9 発話文 「荒川の女の子はどう?」 駄洒落対象語 (あらかわ)(おんなのこ) 音類似フレーズ (からかわ)(あら,かわいい) ①検索

Slide 10

Slide 10 text

1.検索 出力 n個の駄洒落対象語 入力 10 音類似フレーズの候補 10件の音類似フレーズ 発話文 ① ② ③ 目的:音素の類似性による発話文において駄洒落対象語は, それに 対応する音類似フレーズを見つける.

Slide 11

Slide 11 text

1.検索 1/3 11 n個の駄洒落対象語 発話文 形態素解析ツールMeCab[4]を用いて発話文に含まれる名詞,動詞, 形容詞,形容動詞のうち,モーラ数が3以上のものを全て駄洒落対象 語として抽出する. モーラとは,音節量を測るのに用いられる音節の単位である[5]. 1モーラは子音,半母音,母音の3つの要素で構成される. (例:「あ」「きょ」) 発話文:「荒川の女の子はどう?」 [4] Taku Kudo. Mecab : Yet another part-of-speech and morphological analyzer. 2005. [5] Haruo Kubozono. On the universality of mora and syllable(features on theories of syllable and mora). Journal of thePhonetic Society of Japan, Vol. 2, No. 1, pp. 5–15, 1998.

Slide 12

Slide 12 text

1.検索 2/3 12 音類似フレーズの定義 (1)駄洒落対象語と音韻が同じ単語 (2)駄洒落対象語と音韻が類似する単語 (3)駄洒落対象語を含む単語 (4)駄洒落対象語を含むフレーズ 例:荒川「あらかわ」 (1)新川「あらかわ」 (2)唐川「からかわ」 (3)荒川区「あらかわく」 (4)「あら,かわいい」 音類似フレーズの候補 n個の駄洒落対象語

Slide 13

Slide 13 text

検索手法 13 音韻の類似性 → 音素の類似性 音素はモーラの構成要素であり,音声上の最小単位である. (例:「きょ」→「kjo」→「k」「j」「o」) 単語の処理:カタカナ・ひらがな表記 → モーラ列 → 音素列 荒川:あらかわ → あ, ら, か, わ → __a,r_a,k_a,w_a MeCabのUniDic辞書を用いて音素列の編集距離と含意関係をもとに 音類似フレーズを検索

Slide 14

Slide 14 text

検索手法 14 編集距離:文字列1から文字列2への変換に必要な最小の操作回数. 検索ルール: 子音と半母音を合わせた全体の文字列間の編集距離が1以下であり,母音列間の編集 距離が0である. 荒川[__a,r_a,k_a,w_a] → 唐川[k_a,r_a,k_a,w_a](音類似フレーズ) 子音列間の編集距離:[__,r_,k_,w_]と[k_,r_,k_,w_] → 1 母音列間の編集距離:[a,a,a,a]と[a,a,a,a] → 0

Slide 15

Slide 15 text

検索手法 15 含意関係:駄洒落対象語の音素列を含む. 単語: 荒川[__a,r_a,k_a,w_a] → 荒川区[__a,r_a,k_a,w_a,k_u] フレーズ: 荒川[__a,r_a,k_a,w_a] → あら,かわいい[__a,r_a][k_a,w_a,__i,__i] 駄洒落対象語(あらかわ) 言葉1 言葉2 , 感動詞? 名詞 or 形容詞 or 形容動詞 あら かわいい ,

Slide 16

Slide 16 text

1.検索 3/3 16 10件の音類似フレーズ 音類似フレーズの候補 1.出現頻度によるフィルタリング BCCWJという単語の出現頻度に関する情報を含む辞書を用いたよく出現す る音類似フレーズ30件を選択する. 2.ランキング 類似度ランキング法 自然さランキング法

Slide 17

Slide 17 text

類似度ランキング法 17 発話文: 「加藤さん,この紅茶に砂糖を入れてくれる?」 返答文: 「私が加糖します4!」 加糖が砂糖と意味的に類似する 駄洒落対象語W 音類似フレーズP 埋め込みモデル intfloat/multilingual-e5-large Wの埋め込み Pの埋め込み コサイン 類似度 駄洒落対象語と意味的に類似性の高い音類似フレーズ10件を選定 4. DajareStationのデータを修正したものである.

Slide 18

Slide 18 text

自然さランキング法 18 発話文: 「ご声援をいただいてありがたかったね! 」 返答文: 「えっ!?五千円をもらったって5!? 」 置き換え後の文: 「五千円をいただいてありがたかったね! 」 発話文での駄洒落対象語W 置き換え後の文 音類似フレーズP 発話文 パープレキシティの計算 5. https://ameblo.jp/syunkon/entry-12835773522.html に掲載されている例に基づいて著者が作成したものである.

Slide 19

Slide 19 text

パープレキシティ パープレキシティは言語モデルが与えられたテキストをどれだけうまく 予測できるかを表す指標である. パープレキシティが小さいほど,そのテキストは自然な文章だと考えら れる. 最も自然な文(パープレキシティ結果の昇順で上位10件)の中から 音類似フレーズを選定

Slide 20

Slide 20 text

生成段階 20 「あら,かわいいよ!」 「唐川さんのことも気になるね! 」 音類似フレーズ (からかわ)(あら,かわいい) ②生成

Slide 21

Slide 21 text

2.生成 1/2 出力 10件の返答文 10件の音類似フレーズ 入力 大規模言語モデル 目的:音類似フレーズを含んだ返答文を生成するように指示したプロンプトを大 規模言語モデル(LLM)に入力することで,対話型駄洒落としての制約を満たした 返答文を生成する. 21

Slide 22

Slide 22 text

2.生成 2/2 22 次の条件を満たす返答文を生成してください. 条件 1.発話文S,駄洒落対象語W と 音類似フレーズP が与えられます. 2.生成する返答文には 音類似フレーズP を必ず含めてください. 3.発話文S に含まれる単語や表現は,できるだけ返答文に含めないようにしてください. 4.駄洒落対象語W は生成する返答文に表示されてはならない. 5.生成する返答文の長さは短く簡潔なものにしてください. 入力例1 発話文S:「先生は校長に昇進したようです!」 駄洒落対象語W:「校長」 音類似フレーズP:「好調」 理想的な出力1 「おお,それは好調なニュースだね!」 入力 発話文S:「{発話文}」 駄洒落対象語W:「{駄洒落対象語}」 音類似フレーズP:「{音類似フレーズ}」

Slide 23

Slide 23 text

2.生成 2/2 23 プロンプトの特徴: 1.返答文として含めるべき音類似フレーズを明示的にプロンプトに記載している. ・大規模言語モデルが音類似フレーズを含んだ返答文を生成する. 2.発話文に含まれる単語は返答文には含めないようにしている. ・発話文と返答文に同じ単語や表現が含まれることで,異なる意味を持つ単語を含め るという駄洒落の性質が満たされなくのを避ける. 3.返答文として短く簡潔なものを出力するように指示している. ・既存の駄洒落を分析した結果,駄洒落の多くは比較的短いテキストであった.

Slide 24

Slide 24 text

ランキング段階 24 「あら,かわいいよ!」 「唐川さんのことも気になるね! 」 返答文 「あら,かわいいよ!」 ③ランキング

Slide 25

Slide 25 text

3.ランキング 25 目的:得られた返答文候補をランキングすることで,対話型駄洒落として多くの 人にとって理解しやすい返答文を選択する. 出力 1件の返答文 10件の返答文 入力 テキストのパープレキシティの結果 発話文:「{発話文}」 返答文:「{生成した返答文}」 パープレキシティが一番低いテキストでの返答文を出力として選定

Slide 26

Slide 26 text

リサーチクエスション 26 RQ1:音類似フレーズ選択の違いが対話の面白さに影響を及ぼすのか? RQ2:大規模言語モデルを変えることによって生成結果の質が変わるのか? RQ3:提案手法により生成された返答文が対話型駄洒落として適切か?

Slide 27

Slide 27 text

実験計画 1/4 27 データ: 駄洒落関連のウェブサイト6,7から収集したデータを修正したものと,独自に作成し たデータを含め,合計50件の対話型駄洒落(発話文と返答文のペア)を用意. 6. https://dajare.jp/ Dajare Station 7. https://dajarenavi.net/ ダジャレナビ 発話文 返答文 先生は校長に昇進したようです!! おお,それは好調なニュースだね! 配送ですか? はい,そうです. 今日,すき家で御飯食べてきたんだ. おお,すき焼きも食べたくなっちゃうね! そのおでん,美味しそうだね! お,伝説級のうまさだよ!

Slide 28

Slide 28 text

実験計画 2/4 28 1.評価者 ・日本人男性:2名 ・兵庫県立大学の学生 2.モデル ・OpenAI API GPT-4o(GPT-4o) ・Llama-3.1-Swallow-8B-Instruct-v0.3(Llama-3.1-Swallow) 3.評価に用いた手法 ・人手で作成した理想例 ・GPT-4o(ベースライン) ・GPT-4o(類似度ランキング法) ・GPT-4o(自然さランキング法) ・Llama-3.1-Swallow(類似度ランキング法) ・Llama-3.1-Swallow(自然さランキング法)

Slide 29

Slide 29 text

GPT-4o (ベースライン) 29 次の条件を満たす返答文を生成してください. 条件 1.発話文S が与えられます. 2.生成する返答文には,発話文S に含まれる単語と音韻が類似する単語を用いて駄洒落 を作成してください. 3.発話文S に含まれる単語や表現は,できるだけ返答文に含めないようにしてください. 4.生成する返答文の長さは短く簡潔なものにしてください. 5.駄洒落に使用した音韻が類似する単語を明確に示してください. 入力例 発話文S:「先生は校長に昇進したようです!」 理想的な出力 「おお,それは好調なニュースだね!」 分析 「校長」と「好調」は音韻が類似しています. 入力 発話文S:「{発話文}」 駄洒落対象語と音類似 フレーズは含めない.

Slide 30

Slide 30 text

実験計画 3/4 30 4.評価項目 評価項目 解釈 結果 対話型駄洒落だと感じられるか (駄洒落の認識) 発話文に含まれる単語と音韻が類似する 言葉が返答文に含まれると認識できるか 0/1 自然な対話だと感じられるか (自然さ) 発話文と返答文のつながりがスムーズで, 論理的に自然であるか 0/1 面白い対話だと感じられるか (面白さ3段階) 返答文がどの程度面白さを持っているか (面白い,やや面白い,面白くない) 0/0.5/1

Slide 31

Slide 31 text

対話型駄洒落としての面白さ 31 「対話型駄洒落としての面白さ」とは,評価者の評価を基に,対話型駄洒落として 認識される対話の面白さについて評価した結果である. 「駄洒落の認識」について 0 をつけた場合は「面白さ」のスコアを 0 とし, 「駄洒落の認識」について 1 をつけた場合は「面白さ」のスコアをそのまま用いる.

Slide 32

Slide 32 text

実験計画 4/4 32 5.実験方法 ・評価者は,6つの手法によって生成された対話(発話文と返答文のペア)を,3つ の評価項目に基づいて独立して評価する. 6.評価基準 ・カッパ係数 2名の評価者の評価がどの程度一致するのかを検証するためである. ・平均スコア 評価項目の傾向を示すためである.

Slide 33

Slide 33 text

実験結果 1/3 33 「駄洒落の認識」と「自然さ」に関しては,κ係数が0.4を超え,中程度の一 致が見られた. 一方で,「面白さ3段階」のκ係数は0.34で一致度は低いものの,「面白さ2 段階」のκ係数は0.45で中程度の一致が見られた. 駄洒落の認識 自然さ 面白さ3段階 面白さ2段階 κ係数 0.48 0.44 0.34 0.45 面白さ2段階: 「面白さ2段階」とは,面白さ3段階が0.5と1の評価された場合は両者 とも1と扱った際の係数である.

Slide 34

Slide 34 text

実験結果 2/3 34 駄洒落の認識 自然さ 面白さ3段階 面白さ2段階 対話型駄洒落としての面白さ 理想例 0.93 0.66 0.34 0.50 0.32 GPT-4o (ベースライン) 0.44 0.30 0.10 0.17 0.09 GPT-4o (類似度ランキング法) 0.72 0.48 0.07 0.12 0.07 GPT-4o (自然さランキング法) 0.73 0.38 0.09 0.15 0.09 Llama-3.1-Swallow (類似度ランキング法) 0.72 0.40 0.05 0.09 0.05 Llama-3.1-Swallow (自然さランキング法) 0.84 0.28 0.10 0.16 0.10 「駄洒落の認識」と「自然さ」の項目においてベースラインよりも提案手法が優れ ていた.「面白さ」に関する項目で顕著な差は見られなかった.

Slide 35

Slide 35 text

実験結果 3/3 35 これらの結果はLlama-3.1-Swallow(類似度ランキング法)を除き,2名の評 価者とも「駄洒落の認識」に1を評価し,「面白さ2段階」に1を評価した. つまり,面白い対話型駄洒落として評価された例である. 発話文 返答文 GPT-4o (ベースライン) 今日の会議の焦点は何ですか? 焦点は「商店」でセール中です よ! GPT-4o (類似度ランキング法) 配送ですか? はい,操作はお任せください! GPT-4o (自然さランキング法) 今日の天気,すごくいいね! 今日の空はペンキで塗ったみたい にきれいだね! Llama-3.1-Swallow (類似度ランキング法) この店舗の改装が始まるんだ. お店の改造,楽しみだね! Llama-3.1-Swallow (自然さランキング法) オオカミが大好きだ.一緒に描こう. おー,紙芝居でオオカミを描くの はいいアイデアだね!

Slide 36

Slide 36 text

リサーチクエスション 36 RQ1:音類似フレーズ選択の違いが対話の面白さに影響を及ぼすのか?

Slide 37

Slide 37 text

RQ1の分析結果 37 単語選択の違いが対話の面白さに影響を及ぼすことが明らかになった. 駄洒落の認識 自然さ 面白さ3段階 面白さ2段階 対話型駄洒落としての面白さ GPT-4o (類似度ランキング法) 0.72 0.48 0.07 0.12 0.07 GPT-4o (自然さランキング法) 0.73 0.38 0.09 0.15 0.09 Llama-3.1-Swallow (類似度ランキング法) 0.72 0.40 0.05 0.09 0.05 Llama-3.1-Swallow (自然さランキング法) 0.84 0.28 0.10 0.16 0.10 自然さランキング法で生成された返答文は,対話型駄洒落として認識され やすく,面白さのスコアも類似度ランキング法より高い.

Slide 38

Slide 38 text

リサーチクエスション 38 RQ2:大規模言語モデルを変えることによって生成結果の質が変わるのか?

Slide 39

Slide 39 text

RQ2の分析結果 39 大規模言語モデルを変えることによって生成結果の質が変わった. 駄洒落の認識 自然さ 面白さ3段階 面白さ2段階 対話型駄洒落としての面白さ GPT-4o (類似度ランキング法) 0.72 0.48 0.07 0.12 0.07 Llama-3.1-Swallow (類似度ランキング法) 0.72 0.40 0.05 0.09 0.05 GPT-4o (自然さランキング法) 0.73 0.38 0.09 0.15 0.09 Llama-3.1-Swallow (自然さランキング法) 0.84 0.28 0.10 0.16 0.10 Llama-3.1-Swallowモデルは駄洒落として認識されやすく,GPT-4oモデルはよ り自然で論理的な返答文を生成するが,面白さの表現に顕著な差は見られな かった.

Slide 40

Slide 40 text

リサーチクエスション 40 RQ3:提案手法により生成された返答文が対話型駄洒落として適切か?

Slide 41

Slide 41 text

RQ3の分析結果 41 提案手法により生成された返答文が対話型駄洒落として適切である. 駄洒落の認識 自然さ 面白さ3段階 面白さ2段階 対話型駄洒落としての面白さ GPT-4o (ベースライン) 0.44 0.30 0.10 0.17 0.09 GPT-4o (類似度ランキング法) 0.72 0.48 0.07 0.12 0.07 GPT-4o (自然さランキング法) 0.73 0.38 0.09 0.15 0.09 Llama-3.1-Swallow (類似度ランキング法) 0.72 0.40 0.05 0.09 0.05 Llama-3.1-Swallow (自然さランキング法) 0.84 0.28 0.10 0.16 0.10 「駄洒落の認識」と「自然さ」の項目においてベースラインよりも提案手法が 優れていた.「面白さ」に関する項目で顕著な差は見られなかった.

Slide 42

Slide 42 text

考察 42 大規模言語モデルにおいて面白さの理解 大規模言語モデルを用いて得られた結果は,3つの評価項目において,人手で 作成した理想例の結果と明らかな違いが見られた. 特に,「対話型駄洒落としての面白さ」に関する項目において,理想例の0.32 と大規模言語モデルの最高結果である0.10との間には,依然として顕著な差が 存在している. 大規模言語モデルで面白い駄洒落を生成するには,対話型駄洒落の面白さはど のような要因によるものかをより具体的に明確化する必要がある.

Slide 43

Slide 43 text

まとめ 43 音素の類似性による対話型駄洒落の生成 提案: 1.様々な手法を用いて音類似フレーズの検索. 2.音類似フレーズのランキング手法の提案. 3.異なるモデルを使ってテキストの生成. 結果について: 提案手法は,「対話型駄洒落の認識度」と「対話の自然さ」が有効であることを検 証したが,「面白さ」に関する基準が不明確であり,生成モデルについての理解も 不十分であることがわかった.