Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ACL読み会2025@名大:Completing A Systematic Review in...

Avatar for RyokoTokuhisa RyokoTokuhisa
September 22, 2025
72

ACL読み会2025@名大:Completing A Systematic Review in Hours instead of Months with Interactive AI Agents

Avatar for RyokoTokuhisa

RyokoTokuhisa

September 22, 2025
Tweet

Transcript

  1. 自己紹介 1 2001年4月 豊田中央研究所 入所 2021年4月 東北大学准教授(クロスアポイントメント) 2024年4月 愛知工業大学情報科学部情報科学科着任 9月

    理化学研究所客員研究員 専門:自然言語処理・対話システム 学会活動: 人工知能学会対話システムシンポジウム実行委員 言語処理学会理事(若手担当) https://aitech.ac.jp/~nlplab/
  2. なぜこの論文を読んだのか? 2 ユーザ 従来の LLM これまでの生成AI ユーザの指示に正しく回答 ユーザ AI エージェント

    (LLM) AI エージェント 推論する+ツールを使う ツール (サービス) 推論 ◼ 生成AIからAIエージェントへのパラダイムチェンジが起きている ◼ ACLに通るようなAIエージェント論文はどんな論文なのか興味があった ◼ LongにAI agentと入っているものは1本しかなかった!?
  3. Introduction(2/4) 6 • システマティックレビュー(SR)のKey steps: • Research questionの定式化 • 文献コーパスの収集

    • 最後のレビューに加えるかどうかの判定* • 要約* • 知見を統合* • 最終的なレポートにまとめる • 初期の情報検索についてはNLP技術でサポート済み • *がボトルネックになっている • 現状SRは主に*のrecord screeningに焦点を当てて いるが、リコールにばらつきがあって現場での利用 は限定的 • 知見の統合ではChatCiteやAutoSurveyなどのツール も出ているが、重要な詳細を見逃してしまったり出 典を追従できないなど課題がある
  4. Introduction(4/4) 9 • 可視化によって各エージェントの読解の軌跡を直感的に把握 で切るので、さまざまな形で介入し、エージェントのFocus を調整可能 • 既存の15件のSRを対象に9名の専門家と医学生の協力を得て 実験。 •

    InsightAgentのマルチエージェント設計によりAutoSurveyよ り15.6%精度高 • 論文の同定確率はF1で47%、レビューの生成精度は27.2%、 ユーザ満足度は34.4%向上。平均で1.5時間でレビュー作成。 人間が執筆したレビューの79.7%の品質だった。
  5. Related Work(1/2) 10 • LLMを活用したサーベイに関する研究がある • AutoSurvey • ChatCite •

    LitLLM • ただし、いずれも完全自動でユーザのインタラクションがで きない • 人間が関与しない自律エージェントは、その意思決定プロセ スに対して一貫性や透明性を担保することが難しい →これをInsightAgentで解決
  6. Related Work(2/2) 11 • Visual Analytics for Information-seeking and Decision

    Making • 主に2つの目的で利用されている • 意味づけと解釈可能性 • 検索、分類、意思決定 • Sensemaking and Interpretability • ハイパーグラフで表現するとか、二次元レイアウトとか • Retrieval Classification and Decision-Making • インタラクティブな可視化によって、文書検索とか情報検索の RecallとPrecisionが向上することが知られている 知見としては前からあって、ちゃんと適用したところがえらい(?)
  7. InsightAgent(1/6) 12 • この節ではInsight Agentについて説明する • 人間中心というところがポイント • 次の3つのステージで実現 1.

    コーパスのマッピングと分割 2. レコードのスクリーニングと証拠の統合 3. 最終的な統合
  8. InsightAgent(2/6) 13 • ステージ1:Corpus Mapping& Partitioning • Corpus Mapping •

    論文を点で表示。中央に行けば行くほど近い • どこに配置されるかは右記の2つで決まる:(1)元の Research Questionが近いと中央に、(2)他の論文との近さ • Corpus Partitioning • K-meansでクラスタリングして意味的に異なるクラスタごと に分割する • コーパス分割によってノイズが減る+各エージェントの作業 負荷も軽減される
  9. InsightAgent(3/6) 14 • ステージ2:Reading and Evidence Synthesis • 各エージェントが割り当てられた論文の要約を作成する •

    Agent Setup and Record Screening • エージェントはコーパスのResearch Question、包含・除外の基準(例: Study type)、要約要件(望ましい詳細度など)を設定する • 各ステップで、エージェントは関連性保持マップの中で現在の文書に隣接 する領域から読んでいく。基本的には内側から外側にスクリーニング開始。 • 全てのエージェントの動作に一貫性を与えるために、近接8件を読む • 短期的な読解戦略に関しては動的に更新される
  10. InsightAgent(4/6) 15 ステージ2: Reading and Evidence Synthesisの続き • Summary Generation

    & Memory Mechanism • エージェントは各論文について、元のResearch Questionとどのように関 係するかを要約し、local memoryに記憶していく • 重複や矛盾を発見したら、これまでの結果を削除するのはなく統合・更新 していく • 重要なのは、各エージェントの結果は最終的に統合されるまで独立である ということ • Transparent Evidence Integration • ある結論がどのようにして導き出されたかをわかるように、全ての要約の 統合などをdependency graphとして記録 • 異なるエージェントからの結果は色分けして表示されるので、議論がある ようなところは後から人が精査できる
  11. InsightAgent(5/6) 16 ステージ2: Reading and Evidence Synthesisの続き • ユーザの介入:3種類の介入を許している •

    Path Navigation: 関連している論文で見逃されているものを追加 • Chat Navigation: 対話で介入 • Instruct Navigation: エージェントへのインストラクション書き換え • ユーザからインタラク ションされると”反省 フェーズ(reflection)” に入って、これまでの読解 を見直し
  12. Experiments(1/6) 18 関連する論文をどの程度取ってこれるかについての評価 • 補足 • 評価対象とした全てのSystematic Reviewが100件未 満の論文をまとめるものなので、実用的な基準に基 づいてBM25とAutoSurveyはトップ100に制限した

    • ChatCiteは検索機能は持たずユーザが指定した論文 を要約するシステムなので評価対象からは外されて いる • InsightAgent auto は全自動、何もついていないの は人手介入あり • 人手介入ありのInsightAgentは精度高い
  13. Experiments(3/6) 20 序論と研究背景 要約手法と方法論 網羅性と正確性 議論と今後の方向性 文章の質と流暢さ • ChatCite や

    AutoSurvey はスクリーニングの精度が低いので無関係な情報を含みがちなのに対し、InsightAgent は網羅的に正確な情報をまとめられる