Slide 1

Slide 1 text

参加報告LT ~RAGの生成評価と懇親戦略~ @NLP2024 参加報告会 presented by Money Forward Lab 日本経済新聞社 データサイエンティスト 増田 太郎 2024 年 4 月 8 日

Slide 2

Slide 2 text

自己紹介 -connpassページより引用- 2 ↑ アカウントの アイコン

Slide 3

Slide 3 text

自己紹介 3 音声信号処理の研究開発職など複数の職場を経験 したのち、2021年7月に現職であるメディア企業 に中途入社。 現在は法人向けプロダクトを扱う事業部にてデー タサイエンティストとして従事。 A/Bテストを中心とする統計解析・モデリングを通 じて種々の施策の効果検証・評価を手がけるだけ でなく、機械学習・自然言語処理を中心とする技 術を用いた新規機能・サービスの開発にも着手。 統計検定1級 / Kaggle Master。 自然言語処理 日本経済新聞社 増田太郎 0.7713* *intfloat/multilingual-e5-base の embedding のコサイン類似度

Slide 4

Slide 4 text

自己紹介 4 音声信号処理の研究開発職など複数の職場を経験 したのち、2021年7月に現職であるメディア企業 に中途入社。 現在は法人向けプロダクトを扱う事業部にてデー タサイエンティストとして従事。 A/Bテストを中心とする統計解析・モデリングを通 じて種々の施策の効果検証・評価を手がけるだけ でなく、機械学習・自然言語処理を中心とする技 術を用いた新規機能・サービスの開発にも着手。 統計検定1級 / Kaggle Master。 自然言語処理 日本経済新聞社 増田太郎 0.7816* *intfloat/multilingual-e5-base の embedding のコサイン類似度

Slide 5

Slide 5 text

自己紹介 5 音声信号処理の研究開発職など複数の職場を経験 したのち、2021年7月に現職であるメディア企業 に中途入社。 現在は法人向けプロダクトを扱う事業部にてデー タサイエンティストとして従事。 A/Bテストを中心とする統計解析・モデリングを通 じて種々の施策の効果検証・評価を手がけるだけ でなく、機械学習・自然言語処理を中心とする技 術を用いた新規機能・サービスの開発にも着手。 統計検定1級 / Kaggle Master。 自然言語処理 日本経済新聞社 増田太郎 0.8222* *intfloat/multilingual-e5-base の embedding のコサイン類似度

Slide 6

Slide 6 text

自己紹介 6 音声信号処理の研究開発職など複数の職場を経験 したのち、2021年7月に現職であるメディア企業 に中途入社。 現在は法人向けプロダクトを扱う事業部にてデー タサイエンティストとして従事。 A/Bテストを中心とする統計解析・モデリングを通 じて種々の施策の効果検証・評価を手がけるだけ でなく、機械学習・自然言語処理を中心とする技 術を用いた新規機能・サービスの開発にも着手。 統計検定1級 / Kaggle Master。 自然言語処理 日本経済新聞社 増田太郎 0.8175* *intfloat/multilingual-e5-base の embedding のコサイン類似度

Slide 7

Slide 7 text

自己紹介 7 音声信号処理の研究開発職など複数の職場を経験 したのち、2021年7月に現職であるメディア企業 に中途入社。 現在は法人向けプロダクトを扱う事業部にてデー タサイエンティストとして従事。 A/Bテストを中心とする統計解析・モデリングを通 じて種々の施策の効果検証・評価を手がけるだけ でなく、機械学習・自然言語処理を中心とする技 術を用いた新規機能・サービスの開発にも着手。 統計検定1級 / Kaggle Master。 自然言語処理 日本経済新聞社 増田太郎 *intfloat/multilingual-e5-base の embedding のコサイン類似度 もっと「自然言語処理の人」に 近づきたい🥹 懇親会やSNSなどでたくさんの 方と交流したいです🙏

Slide 8

Slide 8 text

RAG の生成評価について ※注 1  発表者独自の私見・視点・表現に基づいて説明するので,  (極力誤りは発信しないように気をつけていますが)   厳密性や正確性を必ずしも保証できない場合がありますことをご容赦いただければと思います.  正確な記述は引用元の文献をご覧ください. ※注 2  発表件数も多いため網羅的に調べられている保証もなく,あくまで一部の紹介となります.

Slide 9

Slide 9 text

P6-1 日本語文埋め込みの文書検索性能と検索補助付き生成での評価 矢野千紘, ○塚越駿, 笹野遼平, 武田浩一 (名大) ● 日本語 embedding の複数のモ デルについて,様々なデータ セットに対する検索や RAG の 性能を横断的に比較した研究 ● 公開モデルを活用する際は mE5が最も高い性能を出しやす いという知見が得られた ● 1問1答形式の正解評価は人間 と GPT-4 の評価が294/300 件ほど一致 9

Slide 10

Slide 10 text

P5-5 RAGにおけるLLMの学習と評価:FAQタスクへの応用 ○長澤春希, 戸田隆道 (AI Shift) ● FAQ タスクにおける RAG,Fine-tuning,LoRA などの手法 のパフォーマンスの比較をした論文 ● LLM 自身に生成文を評価させる手法・BertScore・情報検索 システムの評価指標 MRR を試したが, いずれもFAQタスク達成度を測る納得いく評価指標にはなっ ていないという結論 ○ 個人的な経験としても単一指標での評価は困難 という結論に行き着いており深く共感した 10

Slide 11

Slide 11 text

P6-24 RAG における自己認識的不確実性の評価 ○二宮大空, 戸田隆道 (AI Shift) ● RAG において、回答に十分な情報が検 索結果に含まれていない場合に LLMが正しく「答えられません」と 出力できる能力として定義された 「自己認識的不確実性」の指標を提案 ● 課題意識や評価指標の設定など共感で きる部分が多い 11 ● LLM 自身にプロンプトを与えて柔軟にカスタマイズ可能な 評価指標を定義する手法の有用性を感じる

Slide 12

Slide 12 text

A4-3 LLMの出力結果に対する人間による評価分析とGPT-4による自動 評価との比較分析 ○関根聡 (理研), 小島淳嗣, 貞光九月, 北岸郁雄 (マネーフォーワード) 12 ● LLM による自動評価と人間によ る手動評価に大きな乖離が生じ うるという報告 ● RAG の回答評価においても,タ スクに適した項目について事前 に人手評価と LLM の評価との 相関があるかチェックすべき ○ LLM を鵜呑みにすると危険 c.f. Position bias, Length bias, Self-enhancement bias など

Slide 13

Slide 13 text

(最近 NLP に join して知り合いが少ない人用の) 懇親戦略

Slide 14

Slide 14 text

 🤔・発表ネタもない   ・知り合いも少ない   ・NLP コミュニティ在籍歴も浅く年次大会初参加   ・会社はスポンサー申し込みに間に合わず    ブースも出展していない…  →アウェーであってもあらゆる手を使って   泥臭く懇親戦略を練る🔥

Slide 15

Slide 15 text

懇親戦略 ● 真っ当な技編 ○ 「懇親会初心者ツアー」に参加する(公式懇親会のみ) ○ 大会中に質問・コメントを積極的に発信する ○ NLPer の集いに足繁く通って覚えてもらう・知り合いを 増やす ● (裏|荒)技編 ○ X(Twitter) / Slackを活用 ○ 自分の ”ハッシュタグ” を増やす ○ ポジティブメンタルとコミュ強人格の憑依 15 交換した名刺の束

Slide 16

Slide 16 text

懇親戦略: 真っ当な技編 ● 「懇親会初心者ツアー」に参加する(公式懇親会のみ) ○ 最近 NLP に参画した人と業界著名人を繋ぐ神企画 ○ 来年以降も同様の取り組みがなされることを願う 16

Slide 17

Slide 17 text

懇親戦略: 真っ当な技編 ● 大会中に質問・コメントを 積極的に発信する →それきっかけで声をかけて もらえる.会社の宣伝にもなる ○ ただしポスターは人が多くて 思い通りに話せないことも… ○ 予習が大切 ■ 自分を追い込むため事前に 「気になる予稿読み終わるまで帰れま10」 を X (Twitter) スペースにて開催 17

Slide 18

Slide 18 text

懇親戦略: 真っ当な技編 ● NLPer の集いに足繁く通って覚えてもらう・知り合いを増やす ○ 夏 YANS シンポジウムが圧倒的おすすめ ■ 「YANS2023 @浅草橋以来ですね!」の 再会トークが多数発生 ■ そこから 1hop, 2hop とどんどん繋がれる 18

Slide 19

Slide 19 text

懇親戦略: 真っ当な技編 ● (増田は)上手く使えなかった技 ○ すでに顔の広い同僚経由で紹介してもらう ■ X(Twitter)の某有名アカウントの社員が 今年は現地参加しておらず… ■ 自分自身が有名になることの大事さを痛感 ○ アルコールの力を借りて人見知りのリミッターを解除🍻 ■ 遺伝の問題で無理だが逆にノンアル派の人と仲良くなれた🍰 ○ スポンサーブースが穴場かもしれない ■ 論文や資料に載り切らない企業ならではのこぼれ話も聞けるが, 口頭/ポスター発表が面白すぎて今回はあまり周れなかった🥺 ■ ポスターが混んでる分こっちの方が落ち着いて議論しやすそうな印象 19

Slide 20

Slide 20 text

懇親戦略: (裏|荒)技編 ● X(Twitter)/ Slack を活用 ○ 知り合いが多そう・繋げて くれそうな人と仲良くなる ■ 例)Iwamoto さんは神 ○ キャラ付けをしてSNSで目立つ & アイコン画像を名札に仕込む ○ 様々な非公式イベントに 早期に申し込むための監視 ■ 現地に着く前に 夜の予定を埋めてしまう 20

Slide 21

Slide 21 text

懇親戦略: (裏|荒)技編 21 #統計検定 #ベイズ #A/Bテスト #kaggle📊 #NLPおやつクラブ🍰 #フットサル ⚽ ● 自分の ”ハッシュタグ” を増やす ○ 話題のとっかかりをたくさん持っておく #RAG #学生インターン #採用情報👔 #学生󰳐 #業種分類・ML (DEIM2022) #企業・業界 動向抽出 (YANS2023)

Slide 22

Slide 22 text

懇親戦略: (裏|荒)技編 ● 究極的にはポジティブメンタルも大事 ○ 新参(1~2 回目)ならあまり多くの人と会話できなくても 落ち込まない ■ 期待を高く持ちすぎなくていい ■ 立食パーティで孤立する瞬間は誰にでもある(多分) ■ 最悪あまり盛り上がらなくても切り替えて次に行く ● コミュ強人格を憑依させる(人見知り向け) ○ 普段の自分よりもギアを上げ,割り切って別人格になりきる ○ こちらから積極的に話しかけにいけば 99% 喜ばれる 22

Slide 23

Slide 23 text

● RAG の生成評価は複数指標を組み合わせる & LLM による評価は有望だが人手評価との相関を必ずチェック ● 懇親戦略 ○ 真っ当な技編 ■ 「懇親会初心者ツアー」に参加する(公式懇親会のみ) ■ 大会中に質問・コメントを積極的に発信する ■ NLPer の集いに足繁く通って覚えてもらう・知り合いを増やす ○ (裏|荒)技編 ■ X(Twitter) / Slackを活用 ■ 自分の ”ハッシュタグ” を増やす ■ ポジティブメンタルとコミュ強人格の憑依 まとめ 23

Slide 24

Slide 24 text

ハッシュタグ #nikkei_tech_talk ● 一緒に自然言語処理技術の研究開発に取り組む仲間を募集中 ● カジュアル面談から気軽に話しましょう 私たちは NLPer を募集中です 技術ブログ 技術情報 X (Twitter) NLPエンジニア 求人情報 採用全体の情報