ACL読み会2025@名大：Completing A Systematic Review in Hours instead of Months with Interactive AI Agents

読んだ人：愛知工業大学情報科学部徳久良子 https://github.com/OSU-NLP-Group/InsightAgent https://aclanthology.org/2025.acl-long.1523.pdf

自己紹介 1 2001年4月豊田中央研究所入所 2021年4月東北大学准教授（クロスアポイントメント） 2024年4月愛知工業大学情報科学部情報科学科着任 9月
理化学研究所客員研究員専門：自然言語処理・対話システム学会活動：人工知能学会対話システムシンポジウム実行委員言語処理学会理事（若手担当） https://aitech.ac.jp/~nlplab/

なぜこの論文を読んだのか？ 2 ユーザ従来の LLM これまでの生成AI ユーザの指示に正しく回答ユーザ AI エージェント
（LLM） AI エージェント推論する＋ツールを使うツール（サービス）推論 ◼ 生成AIからAIエージェントへのパラダイムチェンジが起きている ◼ ACLに通るようなAIエージェント論文はどんな論文なのか興味があった ◼ LongにAI agentと入っているものは１本しかなかった！？

Abstract（1/2） 3 • システマティックレビュー（SR）は重要だが専門的な知識が必要とされるので多大な労力が必要となる • LLMに基づく人間中心型のインタラクティブ AIエージェントInsightAgentを提案する

Abstract（2/2） 4 • InsightAgentは文献を意味に基づいて分割→分野ごとにエージェントが配置されて各分野を集中的に処理することで、SRの性能を上げる • InsightAgentは処理を可視化することでユーザがリアルタイムなフィードバックをしやすくしている点もポイント
• (SRの経験を持つ)医療専門家9名による評価の結果、 SRの性能が27.2%向上した

Introduction（1/4） 5 • システマティックレビュー（SR）はヘルスケアのようなエビデンスを必要とする分野では特に重要 • 1990年代は50以下だったSRが、2022年には約36000になっている •
以前として多くの労力がかかっていて、完成までに数ヶ月かかるものもある

Introduction（2/4） 6 • システマティックレビュー（SR）のKey steps: • Research questionの定式化 • 文献コーパスの収集
• 最後のレビューに加えるかどうかの判定＊ • 要約＊ • 知見を統合＊ • 最終的なレポートにまとめる • 初期の情報検索についてはNLP技術でサポート済み • ＊がボトルネックになっている • 現状SRは主に＊のrecord screeningに焦点を当てているが、リコールにばらつきがあって現場での利用は限定的 • 知見の統合ではChatCiteやAutoSurveyなどのツールも出ているが、重要な詳細を見逃してしまったり出典を追従できないなど課題がある

Introduction（3/4） 7 • 人間中心のフレームワークを提案する。これは、言語的なエージェント（Su2024）に以下の２点を加えたものである • 視覚的に表示することによりリアルタイムにユーザがフィードバックできるようにした • インタラクションを通じてユーザの専門知識を入れられ
るようにした • Figure1の説明は次のページ • それぞれの知見がどの論文に書いてあったかを辿れるようにしている点もポイント（要所要所で主張されている）

8 ②円形の関連性Map （Qiu 2024作成）中心にあるほど関連性高 ③意味が近い論文をクラスタ化 ①ユーザが調べたい内容を入力 ④各トピックに１名のエージェント
⑤エージェントごとに出力 ⑥統合 ⑦レポート作成これがポイント

Introduction（4/4） 9 • 可視化によって各エージェントの読解の軌跡を直感的に把握で切るので、さまざまな形で介入し、エージェントのFocus を調整可能 • 既存の15件のSRを対象に9名の専門家と医学生の協力を得て実験。 •
InsightAgentのマルチエージェント設計によりAutoSurveyより15.6%精度高 • 論文の同定確率はF1で47%、レビューの生成精度は27.2%、ユーザ満足度は34.4%向上。平均で1.5時間でレビュー作成。人間が執筆したレビューの79.7%の品質だった。

Related Work（1/2） 10 • LLMを活用したサーベイに関する研究がある • AutoSurvey • ChatCite •
LitLLM • ただし、いずれも完全自動でユーザのインタラクションができない • 人間が関与しない自律エージェントは、その意思決定プロセスに対して一貫性や透明性を担保することが難しい →これをInsightAgentで解決

Related Work（2/2） 11 • Visual Analytics for Information-seeking and Decision
Making • 主に２つの目的で利用されている • 意味づけと解釈可能性 • 検索、分類、意思決定 • Sensemaking and Interpretability • ハイパーグラフで表現するとか、二次元レイアウトとか • Retrieval Classification and Decision-Making • インタラクティブな可視化によって、文書検索とか情報検索の RecallとPrecisionが向上することが知られている知見としては前からあって、ちゃんと適用したところがえらい（？）

InsightAgent（1/6） 12 • この節ではInsight Agentについて説明する • 人間中心というところがポイント • 次の3つのステージで実現 1.
コーパスのマッピングと分割 2. レコードのスクリーニングと証拠の統合 3. 最終的な統合

InsightAgent（2/6） 13 • ステージ1：Corpus Mapping& Partitioning • Corpus Mapping •
論文を点で表示。中央に行けば行くほど近い • どこに配置されるかは右記の２つで決まる：(1)元の Research Questionが近いと中央に、(2)他の論文との近さ • Corpus Partitioning • K-meansでクラスタリングして意味的に異なるクラスタごとに分割する • コーパス分割によってノイズが減る＋各エージェントの作業負荷も軽減される

InsightAgent（3/6） 14 • ステージ2：Reading and Evidence Synthesis • 各エージェントが割り当てられた論文の要約を作成する •
Agent Setup and Record Screening • エージェントはコーパスのResearch Question、包含・除外の基準（例： Study type）、要約要件（望ましい詳細度など）を設定する • 各ステップで、エージェントは関連性保持マップの中で現在の文書に隣接する領域から読んでいく。基本的には内側から外側にスクリーニング開始。 • 全てのエージェントの動作に一貫性を与えるために、近接8件を読む • 短期的な読解戦略に関しては動的に更新される

InsightAgent（4/6） 15 ステージ2: Reading and Evidence Synthesisの続き • Summary Generation
& Memory Mechanism • エージェントは各論文について、元のResearch Questionとどのように関係するかを要約し、local memoryに記憶していく • 重複や矛盾を発見したら、これまでの結果を削除するのはなく統合・更新していく • 重要なのは、各エージェントの結果は最終的に統合されるまで独立であるということ • Transparent Evidence Integration • ある結論がどのようにして導き出されたかをわかるように、全ての要約の統合などをdependency graphとして記録 • 異なるエージェントからの結果は色分けして表示されるので、議論があるようなところは後から人が精査できる

InsightAgent（5/6） 16 ステージ2: Reading and Evidence Synthesisの続き • ユーザの介入：3種類の介入を許している •
Path Navigation: 関連している論文で見逃されているものを追加 • Chat Navigation: 対話で介入 • Instruct Navigation: エージェントへのインストラクション書き換え • ユーザからインタラクションされると”反省フェーズ（reflection）” に入って、これまでの読解を見直し

InsightAgent（6/6） 17 • ユーザが作ったテンプレートに沿って、複数のエージェントの結果をまとめたレポートを作成 • テンプレートには、Introduction, Study Designなどが含まれる
• Citation_numberで元の文献に辿れるようになっている

Experiments（1/6） 18 関連する論文をどの程度取ってこれるかについての評価 • 補足 • 評価対象とした全てのSystematic Reviewが100件未満の論文をまとめるものなので、実用的な基準に基づいてBM25とAutoSurveyはトップ100に制限した
• ChatCiteは検索機能は持たずユーザが指定した論文を要約するシステムなので評価対象からは外されている • InsightAgent auto は全自動、何もついていないのは人手介入あり • 人手介入ありのInsightAgentは精度高い

Experiments（2/6） 19 • 補足 • 生成したSystematic reviewを専門家が評価 • InsightAgentは従来手法より高精度 •
この表はOverallのスコアで、詳細な結果は図2にある

Experiments（3/6） 20 序論と研究背景要約手法と方法論網羅性と正確性議論と今後の方向性文章の質と流暢さ • ChatCite や
AutoSurvey はスクリーニングの精度が低いので無関係な情報を含みがちなのに対し、InsightAgent は網羅的に正確な情報をまとめられる

Experiments（4/6） 21 簡単に使えた推薦に満足した見た目わかりやすさガイドや修正能力全体 Autoはそもそも修正能力とかないので正当な評価ではない気もするけど、 GPT4o版はかなり良い精度

Experiments（5/6） 22 人の介入があると精度が上がる

Experiments（6/6） 23 • 人の介入があると精度が上がる • 人が主導していると感じさせると良いことがコメントからも分かる

まとめ ◼ ACLの「AI Agent論文」とはどのような論文なのかを読んでみました ◼ 一言で言うと：システマティックレビューをエージェントを使ってやるという論文 ◼ 人の介入を許す設計にした点がポイント 24

ACL読み会2025@名大：Completing A Systematic Review in...

ACL読み会2025@名大：Completing A Systematic Review in Hours instead of Months with Interactive AI Agents

RyokoTokuhisa

Featured

Transcript

読んだ人：愛知工業大学情報科学部徳久良子 https://github.com/OSU-NLP-Group/InsightAgent https://aclanthology.org/2025.acl-long.1523.pdf

自己紹介 1 2001年4月豊田中央研究所入所 2021年4月東北大学准教授（クロスアポイントメント） 2024年4月愛知工業大学情報科学部情報科学科着任 9月

なぜこの論文を読んだのか？ 2 ユーザ従来の LLM これまでの生成AI ユーザの指示に正しく回答ユーザ AI エージェント

Abstract（1/2） 3 • システマティックレビュー（SR）は重要だが専門的な知識が必要とされるので多大な労力が必要となる • LLMに基づく人間中心型のインタラクティブ AIエージェントInsightAgentを提案する

Introduction（1/4） 5 • システマティックレビュー（SR）はヘルスケアのようなエビデンスを必要とする分野では特に重要 • 1990年代は50以下だったSRが、2022年には約36000になっている •

Introduction（2/4） 6 • システマティックレビュー（SR）のKey steps: • Research questionの定式化 • 文献コーパスの収集

8 ②円形の関連性Map （Qiu 2024作成）中心にあるほど関連性高 ③意味が近い論文をクラスタ化 ①ユーザが調べたい内容を入力 ④各トピックに１名のエージェント

Introduction（4/4） 9 • 可視化によって各エージェントの読解の軌跡を直感的に把握で切るので、さまざまな形で介入し、エージェントのFocus を調整可能 • 既存の15件のSRを対象に9名の専門家と医学生の協力を得て実験。 •

Related Work（1/2） 10 • LLMを活用したサーベイに関する研究がある • AutoSurvey • ChatCite •

Related Work（2/2） 11 • Visual Analytics for Information-seeking and Decision

InsightAgent（1/6） 12 • この節ではInsight Agentについて説明する • 人間中心というところがポイント • 次の3つのステージで実現 1.

InsightAgent（2/6） 13 • ステージ1：Corpus Mapping& Partitioning • Corpus Mapping •

InsightAgent（3/6） 14 • ステージ2：Reading and Evidence Synthesis • 各エージェントが割り当てられた論文の要約を作成する •

InsightAgent（4/6） 15 ステージ2: Reading and Evidence Synthesisの続き • Summary Generation

InsightAgent（5/6） 16 ステージ2: Reading and Evidence Synthesisの続き • ユーザの介入：3種類の介入を許している •

InsightAgent（6/6） 17 • ユーザが作ったテンプレートに沿って、複数のエージェントの結果をまとめたレポートを作成 • テンプレートには、Introduction, Study Designなどが含まれる

Experiments（1/6） 18 関連する論文をどの程度取ってこれるかについての評価 • 補足 • 評価対象とした全てのSystematic Reviewが100件未満の論文をまとめるものなので、実用的な基準に基づいてBM25とAutoSurveyはトップ100に制限した

Experiments（2/6） 19 • 補足 • 生成したSystematic reviewを専門家が評価 • InsightAgentは従来手法より高精度 •

Experiments（3/6） 20 序論と研究背景要約手法と方法論網羅性と正確性議論と今後の方向性文章の質と流暢さ • ChatCite や

Experiments（4/6） 21 簡単に使えた推薦に満足した見た目わかりやすさガイドや修正能力全体 Autoはそもそも修正能力とかないので正当な評価ではない気もするけど、 GPT4o版はかなり良い精度

Experiments（5/6） 22 人の介入があると精度が上がる

Experiments（6/6） 23 • 人の介入があると精度が上がる • 人が主導していると感じさせると良いことがコメントからも分かる

まとめ ◼ ACLの「AI Agent論文」とはどのような論文なのかを読んでみました ◼ 一言で言うと：システマティックレビューをエージェントを使ってやるという論文 ◼ 人の介入を許す設計にした点がポイント 24