Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attend...

NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda

マネーフォワードさん主催の言語処理学会年次大会(NLP2024)アフターイベント
https://moneyforward.connpass.com/event/311295/
にてLT発表した時の資料です.
(当日のスライドから軽微な修正をしています)

Taro Masuda

April 08, 2024
Tweet

More Decks by Taro Masuda

Other Decks in Technology

Transcript

  1. 自己紹介 7 音声信号処理の研究開発職など複数の職場を経験 したのち、2021年7月に現職であるメディア企業 に中途入社。 現在は法人向けプロダクトを扱う事業部にてデー タサイエンティストとして従事。 A/Bテストを中心とする統計解析・モデリングを通 じて種々の施策の効果検証・評価を手がけるだけ でなく、機械学習・自然言語処理を中心とする技

    術を用いた新規機能・サービスの開発にも着手。 統計検定1級 / Kaggle Master。 自然言語処理 日本経済新聞社 増田太郎 *intfloat/multilingual-e5-base の embedding のコサイン類似度 もっと「自然言語処理の人」に 近づきたい🥹 懇親会やSNSなどでたくさんの 方と交流したいです🙏
  2. P6-1 日本語文埋め込みの文書検索性能と検索補助付き生成での評価 矢野千紘, ◦塚越駿, 笹野遼平, 武田浩一 (名大) • 日本語 embedding

    の複数のモ デルについて,様々なデータ セットに対する検索や RAG の 性能を横断的に比較した研究 • 公開モデルを活用する際は mE5が最も高い性能を出しやす いという知見が得られた • 1問1答形式の正解評価は人間 と GPT-4 の評価が294/300 件ほど一致 9
  3. P5-5 RAGにおけるLLMの学習と評価:FAQタスクへの応用 ◦長澤春希, 戸田隆道 (AI Shift) • FAQ タスクにおける RAG,Fine-tuning,LoRA

    などの手法 のパフォーマンスの比較をした論文 • LLM 自身に生成文を評価させる手法・BertScore・情報検索 システムの評価指標 MRR を試したが, いずれもFAQタスク達成度を測る納得いく評価指標にはなっ ていないという結論 ◦ 個人的な経験としても単一指標での評価は困難 という結論に行き着いており深く共感した 10
  4. P6-24 RAG における自己認識的不確実性の評価 ◦二宮大空, 戸田隆道 (AI Shift) • RAG において、回答に十分な情報が検

    索結果に含まれていない場合に LLMが正しく「答えられません」と 出力できる能力として定義された 「自己認識的不確実性」の指標を提案 • 課題意識や評価指標の設定など共感で きる部分が多い 11 • LLM 自身にプロンプトを与えて柔軟にカスタマイズ可能な 評価指標を定義する手法の有用性を感じる
  5. A4-3 LLMの出力結果に対する人間による評価分析とGPT-4による自動 評価との比較分析 ◦関根聡 (理研), 小島淳嗣, 貞光九月, 北岸郁雄 (マネーフォーワード) 12

    • LLM による自動評価と人間によ る手動評価に大きな乖離が生じ うるという報告 • RAG の回答評価においても,タ スクに適した項目について事前 に人手評価と LLM の評価との 相関があるかチェックすべき ◦ LLM を鵜呑みにすると危険 c.f. Position bias, Length bias, Self-enhancement bias など
  6. 懇親戦略 • 真っ当な技編 ◦ 「懇親会初心者ツアー」に参加する(公式懇親会のみ) ◦ 大会中に質問・コメントを積極的に発信する ◦ NLPer の集いに足繁く通って覚えてもらう・知り合いを

    増やす • (裏|荒)技編 ◦ X(Twitter) / Slackを活用 ◦ 自分の ”ハッシュタグ” を増やす ◦ ポジティブメンタルとコミュ強人格の憑依 15 交換した名刺の束
  7. 懇親戦略: 真っ当な技編 • NLPer の集いに足繁く通って覚えてもらう・知り合いを増やす ◦ 夏 YANS シンポジウムが圧倒的おすすめ ▪

    「YANS2023 @浅草橋以来ですね!」の 再会トークが多数発生 ▪ そこから 1hop, 2hop とどんどん繋がれる 18
  8. 懇親戦略: 真っ当な技編 • (増田は)上手く使えなかった技 ◦ すでに顔の広い同僚経由で紹介してもらう ▪ X(Twitter)の某有名アカウントの社員が 今年は現地参加しておらず… ▪

    自分自身が有名になることの大事さを痛感 ◦ アルコールの力を借りて人見知りのリミッターを解除🍻 ▪ 遺伝の問題で無理だが逆にノンアル派の人と仲良くなれた🍰 ◦ スポンサーブースが穴場かもしれない ▪ 論文や資料に載り切らない企業ならではのこぼれ話も聞けるが, 口頭/ポスター発表が面白すぎて今回はあまり周れなかった🥺 ▪ ポスターが混んでる分こっちの方が落ち着いて議論しやすそうな印象 19
  9. 懇親戦略: (裏|荒)技編 • X(Twitter)/ Slack を活用 ◦ 知り合いが多そう・繋げて くれそうな人と仲良くなる ▪

    例)Iwamoto さんは神 ◦ キャラ付けをしてSNSで目立つ & アイコン画像を名札に仕込む ◦ 様々な非公式イベントに 早期に申し込むための監視 ▪ 現地に着く前に 夜の予定を埋めてしまう 20
  10. 懇親戦略: (裏|荒)技編 21 #統計検定 #ベイズ #A/Bテスト #kaggle📊 #NLPおやつクラブ🍰 #フットサル ⚽

    • 自分の ”ハッシュタグ” を増やす ◦ 話題のとっかかりをたくさん持っておく #RAG #学生インターン #採用情報👔 #学生󰳐 #業種分類・ML (DEIM2022) #企業・業界 動向抽出 (YANS2023)
  11. 懇親戦略: (裏|荒)技編 • 究極的にはポジティブメンタルも大事 ◦ 新参(1~2 回目)ならあまり多くの人と会話できなくても 落ち込まない ▪ 期待を高く持ちすぎなくていい

    ▪ 立食パーティで孤立する瞬間は誰にでもある(多分) ▪ 最悪あまり盛り上がらなくても切り替えて次に行く • コミュ強人格を憑依させる(人見知り向け) ◦ 普段の自分よりもギアを上げ,割り切って別人格になりきる ◦ こちらから積極的に話しかけにいけば 99% 喜ばれる 22
  12. • RAG の生成評価は複数指標を組み合わせる & LLM による評価は有望だが人手評価との相関を必ずチェック • 懇親戦略 ◦ 真っ当な技編

    ▪ 「懇親会初心者ツアー」に参加する(公式懇親会のみ) ▪ 大会中に質問・コメントを積極的に発信する ▪ NLPer の集いに足繁く通って覚えてもらう・知り合いを増やす ◦ (裏|荒)技編 ▪ X(Twitter) / Slackを活用 ▪ 自分の ”ハッシュタグ” を増やす ▪ ポジティブメンタルとコミュ強人格の憑依 まとめ 23