Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Generative Agentsを引用している研究まとめ

Bluemo
October 18, 2024
8

Generative Agentsを引用している研究まとめ

Bluemo

October 18, 2024
Tweet

Transcript

  1. インメモリー学習 : 大規模言語モデルのため の宣言型学習フレームワーク In-Memory Learning: A Declarative Learning Framework

    for Large Language Models Bo Wang and Tianxiang Sun and Hang Yan and Siyin Wang and Qingyuan Cheng and Xipeng Qiu 背景 エージェントが人間のラベル付けなしに環境と整合できる かを探る。 目的 過去の経験からの洞察に基づき、エージェントのパフォー マンス向上を目指す。 提案 インメモリー学習を通じて、宣言的記憶が過去の経験を要 約する。 評価 体系的な実験でフレームワークの効果を評価する。 結果 フレームワークの有効性を実証し、問題への新たな洞察を 提供。
  2. Midjourney人工知能生成コンテンツツール をデザインシステムに統合し、デザイナーを 未来志向のイノベーションに導く探索 The Exploration of Integrating the Midjourney Artificial

    Intelligence Generated Content Tool into Design Systems to Direct Designers towards Future-Oriented Hu Yin and Zipeng Zhang and Yuanyuan Liu 背景 コンピュータ能力の急速な拡大により、 AIGC技術がデザ インの未来に重大な影響を与える。 目的 デザイナーが AIGCを活用し、未来志向のイノベーション を推進する方法を模索する。 提案 Midjourneyツールをデザインシステムに統合し、 AMP カードで協働的イノベーションを支援。 評価 プロトタイプ設計研究や学際セミナーを通じて、 Midjourneyの有用性を徹底検証。 結果 AIGC技術は製品開発の効率を向上し、異なるデザインソ リューションを素早く生成する。
  3. エージェント : 自律型言語エージェントのた めのオープンソースフレームワーク Agents: An Open-source Framework for Autonomous

    Language Agents Wangchunshu Zhou and Yuchen Jiang and Long Li and Jialong Wu and Tiannan Wang and Shi Qiu and Jintian Zhang and Jing Chen and Ruipu Wu and Shuai Wang and Shiding Zhu and Jiyu Chen and Wentao Zhang and 背景 LLMsの進展で自律型言語エージェントの構築が可能にな っています。 目的 非専門家にも自律型言語エージェントの技術を広めること が目的です。 提案 オープンソースの Agentsライブラリを公開し、利用しや すくします。 評価 モジュール化設計により研究者が拡張可能かつ非専門家に も手軽に利用可能です。 結果 Agentsは研究者や非専門家にとって有用なツールとなり ます。
  4. PLAYER*: LLMベースのマルチエージェン ト通信と殺人ミステリーゲームの強化 PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction

    in Murder Mystery Games Qinglin Zhu and Runcong Zhao and Jinhua Du and Lin Gui and Yulan He 背景 LLMに基づくエージェントは、動的環境で複雑な質問や 人間関係の理解が難しいです。 目的 PLAYER*は、殺人ミステリーゲーム内でのエージェントの 適応性を向上させることを目的とします。 提案 PLAYER*は、センサーを導入し、質問駆動型で経路計画を 強化する新手法です。 評価 選択肢問題を用いた定量評価方法と WellPlayデータセッ トで実験しました。 結果 PLAYER*は、既存手法に比べ優れたマルチエージェント相 互作用を示しました。
  5. LLMはヒトのメンタル・アカウンティングや 行動バイアスを模倣できるか? Can LLMs Mimic Human-Like Mental Accounting and Behavioral

    Biases? Yan Leng 背景 メンタル・アカウンティングは、重要な意思決定バイアス として研究されている。 目的 LLMがヒトの意思決定バイアスを模倣できるかを明らかに する。 提案 LLMが模倣する行動バイアスの違いを言語別に分析。 評価 プロスペクト理論を用いて LLMのメンタル・アカウンティ ングを実験的に評価。 結果 LLMは一部のバイアスを模倣するが、顕著な違いがある。
  6. 強化型自律エージェントにおける欺瞞 Deception in Reinforced Autonomous Agents Atharvan Dogra and Krishna

    Pillutla and A. Deshpande and Ananya B. Sai and John Nay and Tanmay Rajpurohit and A. Kalyan and Balaraman Ravindran 背景 大規模言語モデルの潜在的な欺瞞の能力を探ることが重要 です。 目的 他のエージェントを誤導する能力の解明が目的です。 提案 立法環境を模したテスト環境を構築しました。 評価 LLMロビイストと批評家の対話を用いた評価を実施しま した。 結果 単純な強化で欺瞞率を最大 40ポイント向上できました。
  7. Steve-Eye: LLMベースの具現化エージェン トに視覚認識を装備したオープンワールド対 応 Steve-Eye: Equipping LLM-based Embodied Agents with

    Visual Perception in Open Worlds Sipeng Zheng and Jiazheng Liu and Yicheng Feng and Zongqing Lu 背景 LLMは具現化エージェントに自己駆動の能力をもたらす が、視覚を無視している。 目的 オープンワールドにおけるエージェントの視覚的認識を向 上させること。 提案 エンドツーエンドで訓練された Steve-Eyeがマルチモー ダル知覚能力を提供。 評価 三つの評価ベンチマークを開発し、広範な実験でモデルを 検証。 結果 エージェントの戦略的行動と計画の能力を確認し、コード を公開予定。
  8. ALYMPICS: LLMエージェントとゲーム理 論の出会い - AIエージェントを用いた戦略的 意思決定の探究 ALYMPICS: LLM Agents Meet

    Game Theory -- Exploring Strategic Decision- Making with AI Agents Shaoguang Mao and Yuzhe Cai and Yan Xia and Wenshan Wu and Xun Wang and Fengyi Wang and Tao Ge and Furu Wei 背景 ゲーム理論と LLMエージェントの統合が、人間の戦略的意 思決定の理解を深めます。 目的 Alympicsを用いて、 LLMエージェントの人間模倣能力を 探り、ゲーム理論の理解を進化させること。 提案 LLMエージェントを活用し、人間のような戦略的相互作用 をシミュレートする新たなプラットフォームを提供。 評価 水資源配分チャレンジを通じた質的・量的分析に加え、人 間評価と戦略的意思決定の詳細な評価を実施。 結果 LLMエージェントが人間の戦略的行動を模倣する能力と、 ゲーム理論改善の可能性を示す。
  9. 科学と幻想的な:拡張現実と大規模言語モデ ルで没入的かつ文化的に関連性のある学習体 験を創造 Scientific and Fantastical: Creating Immersive, Culturally Relevant

    Learning Experiences with Augmented Reality and Large Language Models Alan Y. Cheng and Meng Guo and Melissa Ran and Arpit Ranasaria and Arjun Sharma and Anthony Xie and Khuyen N. Le and Bala Vinaithirthan and Shihe (Tracy) Luan and David Thomas Henry Wright and Andrea 背景 教育における子供の学習意欲向上が大きな課題として存在 します。 目的 本研究は ARと LLMによって子供の学習意欲を高めること を目指します。 提案 ARと LLMを組み合わせた Moon Storyで学習の没入体験 を提供します。 評価 50名の被験者で LLM使用条件とハードコード条件の制御 実験を実施しました。 結果 両条件で学習効果があり、特に LLMで関連性の高い回答が 得られました。
  10. IDAT: インタラクティブなタスク解決エージ ェントのためのマルチモーダルデータセット とツールキット IDAT: A Multi-Modal Dataset and Toolkit

    for Building and Evaluating Interactive Task-Solving Agents Shrestha Mohanty and Negar Arabzadeh and Andrea Tupini and Yuxuan Sun and Alexey Skrynnik and Artem Zholus and Marc-Alexandre Cot'e and Julia Kiseleva 背景 AIエージェントと人が自然言語でシームレスに相互作用す ることが重要です。 目的 インタラクティブエージェントが自然言語指示を理解し実 行する問題の解決を目指します。 提案 Minecraft風環境でのデータ集めと人間参加型評価プラッ トフォームを提案します。 評価 エージェントのパフォーマンスを人間のアノテーターとの 多回線対話で比較評価しました。 結果 IDATはインテリジェントなエージェント開発を進める重要 なリソースとなることを示します。
  11. LLMは砂漠で生き残れるか?生成エージェン トのコラボ能力の評価 Can LLMs Survive in the Desert? Evaluating Collaborative

    Capabilities of Generative Agents on a Classic Team-Building Problem Stanford CS224N and Custom Project and Yash Narayan and Daniel Shen and Ethan Zhang 背景 LLMエージェントがチームとして活動できれば、より優 れた意思決定が可能になります。 目的 コンピュータ同士の協力行動を探求し、パフォーマンス向 上の可能性を調査します。 提案 四つのエージェント間の協力方法と二つのアーキテクチャ を提案・実験します。 評価 デザートサバイバル問題を用いて、各方法の実験的評価を 行いました。 結果 適切な協力条件下で、エージェントは個々よりも優れた決 定に達しました。
  12. メモリサンドボックス : 会話エージェントの 透明かつ対話的なメモリ管理 Memory Sandbox: Transparent and Interactive Memory

    Management for Conversational Agents Ziheng Huang and S. Gutierrez and Hemanth Kamana and S. Macneil 背景 大規模言語モデルは高性能な会話エージェントを生んだ が、メモリ制約が課題である。 目的 ユーザーがエージェントの会話メモリを容易に理解し制御 する手段を提供する。 提案 Memory Sandboxはユーザーがエージェントのメモリ をデータとして管理可能にするシステムである。 評価 システムがユーザーのメモリ管理能力を向上させるか、イ ンタラクションの評価を行った。 結果 Memory Sandbox導入により、ユーザーはエージェン トの記憶を効果的に制御できることが示された。
  13. AI生成テキスト鑑識システムの調査 : 検出、 帰属、特性化 A Survey of AI-generated Text Forensic

    Systems: Detection, Attribution, and Characterization Tharindu Kumarage and Garima Agrawal and Paras Sheth and Raha Moraffah and Amanat Chadha and Joshua Garland and Huan Liu 背景 **大規模言語モデル( LLM) **が誤情報生成などのリスク を増大させています。 目的 LLMの誤用防止を目的とした AI生成テキスト鑑識の調査で す。 提案 検出、帰属、特性化の三つの柱で AIテキストを分析しま す。 評価 既存の AIテキスト鑑識システムの分類とリソース検討を行 います。 結果 AI時代における鑑識システムの新たな挑戦と方向性を示唆 します。
  14. 人口統計を超えて : 役割演技を行う LLMエー ジェントの整合性を人間の信念ネットワーク で調整 Beyond Demographics: Aligning Role-playing

    LLM-based Agents Using Human Belief Networks Yun-Shiuan Chuang and Zach Studdiford and Krirk Nirunwiroj and Agam Goyal and Vincent V. Frigo and Sijia Yang and Dhavan Shah and Junjie Hu and Timothy T. Rogers 背景 人間らしい LLMを作ることは社会シミュレーションの忠 実度向上に不可欠です。 目的 人口統計情報ではなく、信念ネットワークを用いた整合性 向上を目指します。 提案 信念ネットワークから得た情報で LLMエージェントの意見 生成を改善します。 評価 人間の調査データを基にした信念ネットワークを利用して 意見の一致を評価しました。 結果 信念ネットワークは関連トピックでの意見の整合性改善に 効果を示しました。
  15. 単純さの表面を打破する : 地元企業家と共に 初歩的な生成 AIワークショップを共創 Deconstructing the Veneer of Simplicity:

    Co-Designing Introductory Generative AI Workshops with Local Entrepreneurs Yasmine Kotturi and Angel Anderson and Glenn Ford and Michael Skirpan and Jeffrey P. Bigham 背景 生成 AIが仕事に浸透する中、企業家が技術格差を埋める必 要性が高まっている。 目的 限られた資源環境における企業家の生成 AIの効果的利用を 支援する。 提案 地元企業家が生成 AIを活用するためのインタラクティブワ ークショップを共創した。 評価 5ヶ月間にわたり 4回のワークショップと 15名の地元企業 家とのインタビューを実施した。 結果 生成 AIツールへの共同露出が有用で、運用スキルが使用成 功に重要と示した。
  16. SUPER: 研究リポジトリからのタスクの設定 と実行におけるエージェントの評価 SUPER: Evaluating Agents on Setting Up and

    Executing Tasks from Research Repositories Ben Bogin and Kejuan Yang and Shashank Gupta and Kyle Richardson and Erin Bransom and Peter Clark and Ashish Sabharwal and Tushar Khot 背景 LLMはコード作成能力が向上しましたが、結果再現の自 律性は未知数です。 目的 SUPERは、研究リポジトリのタスクを自動で再現する能 力を評価します。 提案 初のベンチマーク SUPERを提案し、研究リポジトリの問 題設定と実行を評価します。 評価 45のエンド・ツー・エンド問題と 152のサブ問題、 602の 自動生成問題が含まれます。 結果 最先端モデルは多数の問題に苦戦しており、 SUPERの価 値を示しています。
  17. PedSUMO: SUMOを用いた自動車 -歩行者 相互作用のシミュレーション PedSUMO: Simulacra of Automated Vehicle-Pedestrian Interaction

    Using SUMO To Study Large-Scale Effects Mark Colley and Julian Czymmeck and Mustafa Kücükkocak and Pascal Jansen and Enrico Rukzio 背景 自動運転車が普及しているが、外部コミュニケーション方 法はシンプルなシナリオでしか評価されていない。 目的 自動運転車と歩行者の相互作用の大規模な影響を研究する こと。 提案 PedSUMOを開発し、歩行者の属性が自動車優先に与え る影響をシミュレートした。 評価 イングルシュタットでの初期データ収集と分析を行い、ア ルゴリズムとパラメータを説明。 結果 外部コミュニケーションが公共交通に与える影響について の初期データを得た。
  18. 大規模言語モデルにおまかせ!記憶統合によ る修正と計画 Leave It to Large Language Models! Correction and

    Planning with Memory Integration Yuan Zhang and Chao Wang and Juntong Qi and Yan Peng 背景 VLNタスクでは指示理解と計画が重要だが、従来手法は 多大なラベリングコストがかかる。 目的 大規模言語モデルの推論力でエージェントの自然言語理解 を向上させる。 提案 CPMIアプローチにより、エージェントが動的計画とメモ リー統合を実現。 評価 公的データセットでの数ショットシナリオにおける実験で 評価。 結果 成功率とタスク効率が向上し、最高のパフォーマンスを達 成。
  19. GEM-RAG: グラフによる記憶強化生成法 GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation

    B. Rappazzo and Yingheng Wang and Aaron Ferber and Carla Gomes 背景 記憶形成と推論は一般知能の核心で、 LLMはこれが不十分 です。 目的 LLMが効果的に記憶を処理し、専門性を発揮できる方法を 模索します。 提案 GEM-RAGにより、テキストを高次の情報へと統合し、 効果的に質問応答します。 評価 UnifiedQA と GPT-3.5 Turbo を使い、 QAタスクで自身の 方法を検証しました。 結果 GEM-RAGは他の最新技術よりも効果的に QAタスクで性 能を向上させました。
  20. LLMベースのエージェントを用いた政治的連 立交渉のモデリング Modelling Political Coalition Negotiations Using LLM-based Agents Farhad

    Moghimifar and Yuan-Fang Li and Robert Thomson and Gholamreza Haffari 背景 議会制民主主義における連立交渉は重要ですが、適切なデ ータの不足でモデリングされていません。 目的 研究は、 **大規模言語モデル( LLM) **を用いて連立交渉 をモデル化することを目的とします。 提案 マルチリンガルデータセット POLCAと階層的マルコフ決 定過程を提案し、政治交渉をシミュレートします。 評価 最先端の LLMをエージェントとして使用し、連立交渉の 処理能力を評価しました。 結果 LLMが政治モデリングにおいて貴重な洞察と進展の可能 性を示しました。
  21. 反射 : 言語エージェントと言語強化学習 Reflexion: language agents with verbal reinforcement learning

    Noah Shinn and Federico Cassano and Beck Labash and A. Gopinath and Karthik Narasimhan and Shunyu Yao 背景 大規模言語モデルは外部環境との相互作用に活用されてい ますが、効率的な学習が課題です。 目的 効率的な試行錯誤を可能にする新しい言語エージェントの 強化方法を模索します。 提案 Reflexionフレームワークは言語フィードバックを用いて エージェントの意思決定能力を強化します。 評価 実験では様々なフィードバック形式や手法を使用し、多様 なタスクでの性能を検証しました。 結果 Reflexionは多様なタスクで顕著な性能向上を示し、特に HumanEvalでの精度が高まりました。
  22. SUGARCREPE++データセット : 視覚と言 語モデルのセマンティックおよび語彙的変化 への感受性 SUGARCREPE++ Dataset: Vision-Language Model Sensitivity

    to Semantic and Lexical Alterations Sri Harsha Dumpala and Aman Jaiswal and Chandramouli Sastry and E. Milios and Sageev Oore and Hassan Sajjad 背景 大規模言語モデルは正確な意味理解に難があることが知ら れています。 目的 VLMsと ULMsの語彙とセマンティック変化への感受性を 解析することです。 提案 SUGARCREPE++データセットを提案し、モデル感受性 を評価します。 評価 VLMsと ULMsをあらゆる面で評価し、セマンティック (不 )等価性に着目します。 結果 VLMsは語彙と意味の違いを識別するのに困難があると結 論づけました。
  23. 大規模言語モデルを用いた少数ショット脱文 脈化 Get the gist? Using large language models for

    few-shot decontextualization Benjamin Kane and Lenhart K. Schubert 背景 文脈外で文を理解することは情報検索や対話システムで重 要です。 目的 高価な注釈が不要で、他の領域にも適用可能な手法の開発 を目指します。 提案 少数ショットでの脱文脈化手法を大規模言語モデルで実現 します。 評価 少数の例を用いることで、複数領域での性能を評価しまし た。 結果 少数ショットでの手法が有効な性能を示しました。
  24. AI、行動科学、消費者の福祉 AI, Behavioural Science, and Consumer Welfare S. Mills and

    S. Costa and C. Sunstein 背景 AIが行動科学において新たな消費者行動のバイアスを識別 する可能性があるため。 目的 消費者の福祉を向上させる方法として AIの可能性とリスク を明らかにすること。 提案 AIを用いて消費者行動の新しいバイアスを識別し介入をパ ーソナライズする。 評価 AIによる消費者行動モデルの構築とその動的変化の観察を 行う。 結果 AIの活用は消費者福祉を向上するが、プライバシー侵害の リスクも存在。
  25. LLMsは構造的に現実的なソーシャルネット ワークを生成するが政治的ホモフィリーを過 大評価する LLMs generate structurally realistic social networks but

    overestimate political homophily Serina Chang and Alicja Chaszczewicz and Emma Wang and Maya Josifovska and Emma Pierson and J. Leskovec 背景 ソーシャルネットワークの生成は疫学モデルや社会シミュ レーションにおいて重要である。 目的 LLMを用いたネットワーク生成の現実性と潜在的バイア スを評価する。 提案 LLMによるゼロショットで柔軟なネットワーク生成をプロ ンプト方法で提案。 評価 3つのプロンプト方法を開発し、生成されたネットワーク を実際のものと比較。 結果 生成ネットワークは現実と一致するが政治的ホモフィリー を過大評価。
  26. ATOM: サービスロボティクスの適応型タス クオブジェクトモーション戦略によるオブジ ェクト再配置 ATOM: Leveraging Large Language Models for

    Adaptive Task Object Motion Strategies in Object Rearrangement for Service Robotics Isabel Y. N. Guan and Gary Zhang and Xin Liu and Estella Zhao and Jing Wu 背景 サービスロボティクスでは、複雑なオブジェクト再配置が 動的環境に適応しにくい問題です。 目的 この研究の目的は、 LLMを活用して動的環境にも適応可 能な再配置手法を開発することです。 提案 LLMを使用し、常識的なオブジェクト配置知識を取得 し、タスク計画を行う手法を提案します。 評価 従来の手法と LLMを組み合わせ、プロセスの簡素化と環境 適応性の実証を行いました。 結果 LLM活用により、動的環境適応性とサービスロボットの応 用可能性が拡大しました。
  27. 大規模言語モデルと認知アーキテクチャの統 合による強靭な AIの探求 Synergistic Integration of Large Language Models and

    Cognitive Architectures for Robust AI: An Exploratory Analysis Oscar J. Romero and John Zimmerman and Aaron Steinfeld and A. Tomasic 背景 AIの知的行動強化のために、 LLMsと CAsの統合が重要視 されている。 目的 AIシステムの強靭性を向上させるための統合アプローチを 提案。 提案 3つの統合アプローチを提案し、それぞれの特性を紹介。 評価 各アプローチの理論モデルと初期経験的証拠で評価。 結果 LLMsと CAsの統合で、 AIの強みを活かしつつ弱点を克 服。
  28. Mobile-Agent-v2: マルチエージェント協 力による効果的なナビゲーションを備えたモ バイルデバイス操作アシスタント Mobile-Agent-v2: Mobile Device Operation Assistant with

    Effective Navigation via Multi-Agent Collaboration Junyang Wang and Haiyang Xu and Haitao Jia and Xi Zhang and Ming Yan and Weizhou Shen and Ji Zhang and Fei Huang and Jitao Sang 背景 モバイルデバイスの操作タスクでは、複雑なナビゲーショ ンが必要です。 目的 ナビゲーションの課題を解決するエージェントの開発が必 要です。 提案 3つの異なるエージェントを用いた新しいソリューション を提案します。 評価 提案したソリューションの性能を実験によって評価しまし た。 結果 Mobile-Agent-v2はタスク完了率を 30%以上改善しまし た。
  29. LLM診断ツールキット:倫理的問題の評価 LLM Diagnostic Toolkit: Evaluating LLMs for Ethical Issues Mehdi

    Bahrami and Ryosuke Sonoda and Ramya Srinivasan 背景 LLMはバイアスや誤情報などの倫理問題を引き起こし、規 制の必要性が求められています。 目的 我々の目的は、 LLMの倫理問題を検出するツールキットの 提供です。 提案 多様な利害関係者が利用可能な LLM診断ツールキットを 提案します。 評価 チャレンジングなタスクとデータセットを用いてツールキ ットの有効性を評価しました。 結果 ツールキットは LLMのバイアスや誤情報を効果的に診断で きると示されました。
  30. 記述、説明、計画、選択 : 大規模言語モデル を用いた対話型計画でオープンワールドのマ ルチタスクエージェントを実現 Describe, Explain, Plan and Select:

    Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents Zihao Wang and Shaofei Cai and Guanzhou Chen and Anji Liu and Xiaojian Ma and Yitao Liang and Jean- Baptiste Alayrac and Jeff Donahue and Pauline Luc and Antoine Miech and Iain Barr and Yana Hasson and 背景 近年、オープンワールド環境での複雑な問題解決が注目さ れています。 目的 多様なタスクに適応できるエージェントの開発を目的とし ています。 提案 対話型計画を通じてエージェントが最適な行動を選択可能 とする方法を提案。 評価 大規模言語モデルを活用し、異なるシナリオでの性能を評 価しました。 結果 手法の有効性が確認され、柔軟で汎用的であることが示さ れました。
  31. MathVC: 数学教育のための LLMシミュレー ト型マルチキャラクタバーチャル教室 MathVC: An LLM-Simulated Multi-Character Virtual Classroom

    for Mathematics Education Murong Yue and Wijdane Mifdal and Yixuan Zhang and Jennifer Suh and Ziyu Yao 背景 数学的モデリング (MM) は STEM教育で重要で、協同学習 がその鍵です。 目的 教育リソースの不均一さを解決し、平等に MMスキルを学 べる環境を作ることです。 提案 MATHVCという LLMで駆動する仮想教室を使用して MM 学習を支援することを提案します。 評価 実験とアブレーション研究を通じて、提案手法の有効性を 確認しました。 結果 将来 MATHVCが実世界の学生に有益である可能性が示さ れました。
  32. MobileAgent: ヒューマンマシンインタラク ションと SOP統合によるモバイル制御の強化 MobileAgent: enhancing mobile control via human-machine

    interaction and SOP integration Tinghe Ding 背景 LLMを用いたモバイル操作の自動化が可能になったが、 プライバシーや操作データの複雑性が課題。 目的 ユーザーデータのプライバシーと複雑な操作データ問題の 解決。 提案 SOP情報を活用し、エージェントのユーザー操作理解と プライバシー対応を強化。 評価 新デバイス制御ベンチマーク AitWで 30Kの指示によるタ スク実験を実施。 結果 SOPベースのエージェントが 66.92%の成功率で最先端性 能を発揮。
  33. フィクションの世界、現実のつながり : LLMsを通じたコミュニティストーリーテリ ングチャットボットの開発 Fictional Worlds, Real Connections: Developing Community

    Storytelling Social Chatbots through LLMs Yuqian Sun and Hanyi Wang and Pok Man Chan and M. Tabibi and Yan Zhang and Huan Lu and Yuheng Chen and Chang Hee Lee and A. Asadipour 背景 フィクションのキャラクターがコミュニティの社会的交流 を強化する可能性があるため、研究を行いました。 目的 ストーリーテリングと LLMsを統合し、信頼性のあるチャ ットボットを開発することを目的としました。 提案 ストーリーエンジニアリングを用いて、架空のキャラクタ ーを **“生きた ”社会的存在 **として変える手法を提案しまし 評価 LLM GPT-3を使ったプロトタイプを Discordのコミュニ ティで評価し、アンケートと面接を実施しました。 結果 ストーリーテリングにより、チャットボットのエンゲージ メントと信頼性が向上することが示されました。
  34. StoryVerse: ナラティブプランニングによ る LLMベースのキャラクターシミュレーショ ンで動的プロットを共著 StoryVerse: Towards Co-authoring Dynamic Plot

    with LLM-based Character Simulation via Narrative Planning Yi Wang and Qian Zhou and David Ledo 背景 ゲームにおけるリッチなナラティブは、プレイヤーの体験 向上に不可欠です。 目的 自発的プロット生成の進行制御を容易にするための手法を 追求します。 提案 我々は、抽象的な行為を用いてプロット生成を仲介するワ ークフローを提案します。 評価 提案システム StoryVerseで様々なストーリーとゲーム環 境での多様性を実証しました。 結果 作者、キャラクター、プレイヤーによる共創ナラティブが 評価されました。
  35. エージェントベースシミュレーションを用い た LLMベースの物語生成の分析 Analysis of LLM-Based Narrative Generation Using the

    Agent-Based Simulation Naoto Aoki and Naoki Mori and M. Okada 背景 自動物語生成は AIで注目されており、技術進展が求められ ています。 目的 LLMを用いた新たな物語生成法を模索することが目的で す。 提案 ABSを使い、 LLMで個性豊かなエージェントを生成し物 語を形成。 評価 ドラゴン退治シナリオでのエージェントの対話を実験しま した。 結果 強化学習の影響で細部描写の制約が確認されましたが、期 待通りの対話生成を達成しました。
  36. SmartPlay: 知的エージェントとしての LLM のためのベンチマーク SmartPlay : A Benchmark for LLMs

    as Intelligent Agents Yue Wu and Xuan Tang and Tom M. Mitchell and Yuanzhi Li 背景 大規模言語モデルは知的エージェントとしての潜在能力を 示していますが、評価基準が不足しています。 目的 LLMを知的エージェントとして評価する体系的ベンチマー クを提供することが目的です。 提案 SmartPlayは、 6つのゲームでエージェントとしての能 力を評価する方法論です。 評価 独自設定の 20の評価環境と無限のバリエーションで性能 を検証します。 結果 能力の差異を個別に分析し、現行の方法論のギャップを確 認できます。
  37. 思考の不確実性 : 不確実性認識の計画が大規 模言語モデルの情報探索を強化 Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances

    Information Seeking in Large Language Models Zhiyuan Hu and Chumin Liu and Xidong Feng and Yilun Zhao and See-Kiong Ng and A. Luu and Junxian He and Pang Wei Koh and Bryan Hooi 背景 不確実な状況での情報探索能力は医療やトラブルシューテ ィングで重要です。 目的 大規模言語モデルに効果的な質問をして情報を能動的に求 める能力を付与することです。 提案 モデルが不確実性を認識して情報を求めるための UoTアル ゴリズムを開発しました。 評価 医療診断やトラブルシューティングで、不確実性を考慮し たシミュレーションと報酬伝播を検証しました。 結果 UoTはタスク成功率を平均 38.1%改善し、質問数を削減 しました。
  38. コードレビューの効率向上 – 自然言語処理と 機械学習を活用したプルリクエストの自動評 価 Enhancing Code Review Efficiency –

    Automated Pull Request Evaluation Using Natural Language Processing and Machine Learning Przemysław Wincenty and 1. Zydron´ and J. Protasiewicz 背景 コードレビューは品質向上と知識交換に重要だが、適任者 選定は手間がかかる。 目的 レビューの正確さを自動評価し、ソフトウェア品質に寄与 する手法の提案。 提案 NLP技術を用いてレビューからキーデータを抽出し、正確 さを予測する手法を提案。 評価 ChatGPT3と機械学習モデルを用いてレビューの品質予 測を行う実験を実施。 結果 自動レビュー評価は透明性と責任を向上させ、プロジェク ト成果に良い影響を与える可能性。
  39. ChatGPTを用いた社会的インテリジェント エージェントのプロンプト作成 Prompting for Socially Intelligent Agents with ChatGPT Ana

    Antunes and Joana Campos and Manuel Guimarães and João Dias and Pedro A. Santos 背景 社会的インテリジェントエージェントは人気があるが、複 雑なシナリオ設計が困難です。 目的 デザイン負担を軽減し、 SIAsの体験価値を向上させること を目的とします。 提案 大規模言語モデルを活用し、理論駆動のプロンプティング を提案します。 評価 信念と欲望を導き、意図と行動を生み出すプロンプティン グを分析しました。 結果 提案手法は正確で新情報を多く生成しますが、監視が必要 です。
  40. 基盤モデルを用いた企業自動化 Automating the Enterprise with Foundation Models Michael Wornow and

    A. Narayan and Krista Opsahl-Ong and Quinn McIntyre and Nigam H. Shah and Christopher Re 背景 ワークフロー自動化は生産性向上のために長年注目されて いますが、実現は困難でした。 目的 従来の RPAの限界を超えたワークフロー自動化を実現する ことが目的です。 提案 ECLAIRシステムを使用し、基盤モデルでの自動化を提案 します。 評価 基盤モデルを用い、ワークフローの理解精度 93%と即時 設定を実験しました。 結果 基盤モデルは従来の RPAの限界を克服し、 40%の完了率 を示しました。
  41. ChatGPT vs 社会調査 : 客観的および主観的 な人間社会の探求 ChatGPT vs Social Surveys:

    Probing the Objective and Subjective Human Society Muzhi Zhou and Lu Yu and Xiaomin Geng and Lan Luo 背景 LLMsの社会調査データ生成能力には不明な部分が多く、 社会への影響が重要な課題です。 目的 ChatGPTのデータ生成が社会調査と一致するかを評価す ることが目的です。 提案 ChatGPT-3.5を利用し、 2020年米国の社会経済特性を模 擬しました。 評価 繰り返しランダムサンプリングで生成データを作成し、国 勢調査と比較しました。 結果 一部の属性は一致しましたが、人間の自己申告と異なる場 合が見られました。
  42. IMBUE: ヒューマン・ランゲージモデルのシ ミュレーションと即時フィードバックを通じ た対人効果向上 IMBUE: Improving Interpersonal Effectiveness through Simulation

    and Just-in- time Feedback with Human-Language Model Interaction Inna Wanyin Lin and Ashish Sharma and Christopher Rytting and Adam S. Miner and Jina Suh and Tim Althoff 背景 特定のコミュニケーションはスキルや感情が原因で困難で あり、学習機会が少ない。 目的 対人効果スキルの向上を支援するためのシミュレーション とフィードバックを提供する。 提案 IMBUEは、 DBT理論に基づきコミュニケーションと感情 管理スキルを同時に訓練する。 評価 86人の参加者を対象にランダム化試験を行い、効果を検 証した。 結果 IMBUEは自己効力感やスキル向上において、シミュレー ションのみよりも大きな効果を示した。
  43. 情報検索のための大規模言語モデル :調査 Large Language Models for Information Retrieval: A Survey

    Yutao Zhu and Huaying Yuan and Shuting Wang and Jiongnan Liu and Wenhan Liu and Chenlong Deng and Zhicheng Dou and Ji-rong Wen 背景 情報取得が重要な現代社会では、 IRシステムが対話や質問 応答で不可欠です。 目的 進化する IRシステムにおける大規模言語モデルの役割を総 括し、新たな洞察を提供です。 提案 LLMと IRの融合を探り、クエリ再書き換えや再ランク付 け、検索エージェントを考察します。 評価 研究アプローチには既存の手法を統合し、 LLMの活用方法 を精査する手法が含まれます。 結果 LLMの能力を活用し IRシステムの向上に貢献、今後の発展 方向を示唆しました。
  44. 生成的イコーチェンバー? LLM搭載の検索シ ステムが多様な情報探索に与える影響 Generative Echo Chamber? Effect of LLM-Powered Search

    Systems on Diverse Information Seeking Nikhil Sharma and Q. V. Liao and Ziang Xiao 背景 LLM搭載の検索システムが多様性への曝露を制限し、意 見の偏りをもたらすリスクがある。 目的 LLMによる会話型検索が選択的曝露を増加させるかを調 査すること。 提案 LLMの偏見がユーザーの意見にどのように影響するかを 二つの実験で提案する。 評価 従来の検索と LLM搭載検索の選択的曝露の差を比較する 実験を行った。 結果 LLMは参加者の意見を強化し、情報検索の偏りを悪化さ せることが示された。
  45. FinCon: 強化された金融意思決定のための概 念的言語強化を備えた合成 LLMマルチエージ ェントシステム FinCon: A Synthesized LLM Multi-Agent

    System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making Yangyang Yu and Zhiyuan Yao and Haohang Li and Zhiyang Deng and Yupeng Cao and Zhi Chen and Jordan W. Suchow and Rong Liu and Zhenyu Cui and Denghui Zhang and Koduvayur Subbalakshmi and Guojun Xiong 背景 LLMは金融タスクで潜在能力を示すが、投資意思決定では 課題が残る。 目的 金融タスクでの意思決定最適化と情報統合の強化を目指 す。 提案 概念的言語強化を用いた LLMベースのマルチエージェント FinConを提案。 評価 実際の投資会社の構造に倣い、マネージャーとアナリスト のコミュニケーションを設計。 結果 FinConは様々な金融タスクで優れた一般化能力を示し た。
  46. Story3D-Agent: 大規模言語モデルを用い た 3Dストーリーテリングビジュアライゼー ションの探求 Story3D-Agent: Exploring 3D Storytelling Visualization

    with Large Language Models Yuzhou Huang and Yiran Qin and Shunlin Lu and Xintao Wang and Rui Huang and Ying Shan and Ruimao Zhang 背景 従来のストーリーテリングは専門知識とリソースを必要と し、この制約が重要視されています。 目的 多次元的かつ包括的な物語の視覚化を実現することが本研 究の目的です。 提案 LLMを活用し物語を 3Dレンダリングでビジュアライズす る Story3D-Agentを提案します。 評価 Story3D-Agentの有効性を検証するための徹底的な評価を 実施しました。 結果 基本的な枠組みを構築し、 3D物語表現の可能性を示しま した。
  47. 大規模言語モデルとビデオゲーム : 予備的な スコーピングレビュー Large Language Models and Video Games:

    A Preliminary Scoping Review Penny Sweetser 背景 LLMはビデオゲームの多岐に渡る領域で新しい可能性を 提供しています。 目的 本研究の目的は、 LLMのゲーム分野での研究の現状を明 確化することです。 提案 76本の論文をレビューし、ゲームにおける LLMの応用の 概観を提供します。 評価 スコーピングレビューの手法を用いて、 LLM関連の研究文 献を分析しました。 結果 本研究は、 LLMの初期状態とその応用可能性の基盤を提 供しました。
  48. コミュニケーションにおける普遍的フィード バックを用いた LLMエージェントの適応 Adapting LLM Agents with Universal Feedback in

    Communication Kuan Wang and Yadong Lu and Michael Santacroce and Yeyun Gong and Chao Zhang and Yelong Shen 背景 **大規模言語モデル( LLMs) **はエージェントへの適用 が期待されている。 目的 LTCを用いてフィードバックを受けてエージェントを最適 化することを目指す。 提案 LTCにより、単一および複数エージェント環境での学習を 最適化する。 評価 4つの異なるデータセットで LTCの有効性を評価した。 結果 LTCはベースラインを 3.6%から 12%上回る結果を得た。
  49. LLMエージェントの超長期間の会話記憶の評 価 Evaluating Very Long-Term Conversational Memory of LLM Agents

    A. Maharana and Dong-Ho Lee and S. Tulyakov and Mohit Bansal and Francesco Barbieri and Yuwei Fang 背景 長期オープンドメイン対話の評価は限られており、超長期 間の有効性の探求が求められています。 目的 超長期間での LLMの性能を測定し、人間の理解とのギャッ プを明らかにすること。 提案 LLMベースのエージェントとイベントグラフを用いた長 期対話生成パイプラインを提案します。 評価 生成した対話データセット LoCoMoを基に、長期記憶を 評価するベンチマークを構築しました。 結果 LLMは長期間の会話理解と因果関係の理解に課題があり、 人間性能に遅れをとります。
  50. LLMベースのチャットボットを用いたホーム オートメーションルーティンの設計 Designing Home Automation Routines Using an LLM-Based Chatbot

    Mathyas Giudici and Luca Padalino and Giovanni Paolino and Ilaria Paratici and Alexandru Ionut Pascu and Franca Garzotto 背景 気候変動対策として持続可能な行動の推進が急務である。 目的 スマートホームアシスタントが家庭内での持続可能な行動 を促進。 提案 GPT4を用いた GreenIFTTTで環境に優しいホームオート メーションを実現。 評価 イタリアで 13名の参加者によるアプリのユーザビリティ 調査を実施。 結果 GreenIFTTTは使いやすく、環境に優しい行動を促進する 可能性が示唆。
  51. AGIに向けた CERN: 自律的シミュレーショ ンベース AIテストと整合の理論的枠組み CERN for AGI: A Theoretical

    Framework for Autonomous Simulation-Based Artificial Intelligence Testing and Alignment Ljubiša Bojić and Matteo Cinelli and D. Ćulibrk and Boris Delibasic 背景 LLMの急速な発展に伴う倫理的整合性や制御可能性が重 要課題。 目的 AGIの社会的責任性と人間整合性を高めることを目的とす る。 提案 現実世界を模倣する仮想環境内でのデジタル市民による多 エージェントシステムの提案。 評価 仮想現実内のデジタル環境を用い、 LLMの自律エージェ ントの相互作用を観察。 結果 このアプローチは有望だが、現実の社会動態の予測困難さ が課題である。
  52. 自然会話におけるエンゲージメント予測のた めの LLMを用いたマルチモーダル融合 Multimodal Fusion with LLMs for Engagement Prediction

    in Natural Conversation Cheng Charles Ma and Kevin Hyekang Joo and Alexandria K. Vail and Sunreeta Bhattacharya and Alvaro Fernandez Garcia and Kailana Baker-Matsuoka and Sheryl Mathew and Lori L. Holt and Fernando De la Torre 背景 スマートグラスによる非言語行動の解析は、コミュニケー ション向上の新たな可能性を示します。 目的 本研究は、ダイアディックインタラクション中のエンゲー ジメントを予測し、コミュニケーションを強化することを目指 提案 LLMを用いた新しいマルチモーダル融合戦略が提案され ています。 評価 34名の参加者による会話データを収集し、自己報告エン ゲージメント評価を実施しました。 結果 提案手法は初期段階でありながら、既存技術に匹敵するパ フォーマンスを示しました。
  53. LLMベースエージェントの高レベル動作を形 式的に特定する F ORMALLY S PECIFYING THE H IGH -L

    EVEL B EHAVIOR OF LLM-B ASED A GENTS M. Crouse and Ibrahim Abdelaziz and Kinjal Basu and Soham Dan and Sadhana Kumaravel and Achille Fokoue and P. Kapanipathi and Luis A. Lastras 背景 LLMベースのエージェントは高価なタスク特化モデルを必 要とせずに活用可能です。 目的 新しいエージェントの設計と実装を簡易化することが目的 です。 提案 我々は LTLを用いたエージェント動作の指定フレームワー クを提案します。 評価 プロンプトを形式的に検証し、エージェントの複雑な動作 を実験しました。 結果 提案手法がエージェント性能改善に寄与することを示しま した。
  54. 社会的に配慮した交渉対話のための支援型大 規模言語モデルエージェント Assistive Large Language Model Agents for Socially-Aware Negotiation

    Dialogues Yuncheng Hua and Lizhen Qu and Gholamreza Haffari 背景 ビジネス交渉における誤解や非効率を AI支援で解決する必 要があります。 目的 交渉におけるコミュニケーションの質を向上させ、成果を 改善することが目的です。 提案 規範違反を修正するための調停エージェントとしての新し い ICL手法を提案します。 評価 提案手法の評価には、 3つの交渉トピックにわたる実証的 証拠を用いました。 結果 提案手法は、交渉対話における成果の質を向上させること が確認されました。
  55. 大規模言語モデルの数式外挿を合成データで 探る Exploring Mathematical Extrapolation of Large Language Models with

    Synthetic Data Haolong Li and Yu Ma and Yinqi Zhang and Chen Ye and Jie Chen 背景 大規模言語モデルは言語処理に優れますが、数学的推論に は弱点があります。 目的 数学的推論の性能向上を目指し、合成データを用いた手法 を模索します。 提案 合成データでファインチューニングすれば、多段階推論が 可能になると提案します。 評価 open-llama-3Bモデルを用いて、 3つのテストデータセッ トで性能を評価しました。 結果 ゼロショット pass@1が 0.44に達し、ドメイン外でも一 定の性能を示しました。
  56. エージェント病院 : 進化可能な医療エージェ ントによる病院の模擬体 Agent Hospital: A Simulacrum of Hospital

    with Evolvable Medical Agents Junkai Li and Siyu Wang and Meng Zhang and Weitao Li and Yunghwei Lai and Xinhui Kang and Weizhi Ma and Yang Liu 背景 病院の自律化は医療効率を向上させる潜在性を持っていま す。 目的 医師エージェントが病気の治療方法を模擬的に学習する手 法の提案。 提案 「 MedAgent-Zero」を用い、エージェントによる治療 学習を促進。 評価 シミュレーション実験により、医師エージェントの治療性 能の改善を確認。 結果 エージェントは現実の医療基準で **93.06%**の正確さを 達成。
  57. 雰囲気の力 : LLMを活用したロボットの社会 的タスク生成 The Power of Atmosphere: LLM-Based Social

    Task Generation of Robots Hanna Lee and H. Lym and Da-Young Kim and Min-Gyu Kim 背景 ロボットが社会的雰囲気を理解し適切に行動する能力は HRIの質向上に重要。 目的 LLMで雰囲気要素をロボット行動に追加し、社会的適切 性を向上。 提案 雰囲気要素を加えることで、ロボットの社会的行動生成を 改善する手法を提案。 評価 実験で 50名の参加者を対象に、雰囲気要素あり・なしの シナリオを比較。 結果 雰囲気要素を取り入れたロボットが、社交性や HRIで優位 性を示した。
  58. G-Designer: グラフニューラルネットワー クによるマルチエージェントコミュニケーシ ョントポロジーの設計 G-Designer: Architecting Multi-agent Communication Topologies via

    Graph Neural Networks Guibin Zhang and Yanwei Yue and Xiangguo Sun and Guancheng Wan and Miao Yu and Junfeng Fang and Kun Wang and Dawei Cheng 背景 集団的知性の重要性が増す中、効率的な通信設計が必要と されています。 目的 G-Designerを通じて、適切なトポロジー選定問題を解 決したいと考えています。 提案 G-Designerは、タスク適応型でカスタマイズされたコ ミュニケーションデザインを提供します。 評価 6つのベンチマークで精度やトークン消費の削減効果を検 証しました。 結果 G-Designerは高性能かつ堅牢で、トークン消費の大幅 削減も可能です。
  59. 大規模言語モデルを用いた StarCraft IIのリ アルタイム戦略ゲーム用エージェント 『 SwarmBrain』 SwarmBrain: Embodied agent for

    real-time strategy game StarCraft II via large language models Xiao Shao and Weifu Jiang and Fei Zuo and Mengqing Liu 背景 大規模言語モデルは、様々な探索タスクで新たな成果を上 げています。 目的 LLMが StarCraft IIの戦略タスクでどれほど効果を発揮す るか調査します。 提案 SwarmBrainという LLMを活用したエージェントを提案 し、戦略実行を支援します。 評価 Zerg対 Terranの対決で SwarmBrainが戦略遂行能力を実 証しました。 結果 SwarmBrainは異なる難易度のコンピュータプレイヤーに 勝利しました。
  60. CivRealm: 意思決定エージェントのための 学習と推論のオデッセイ CivRealm: A Learning and Reasoning Odyssey in

    Civilization for Decision-Making Agents Siyuan Qi and Shuo Chen and Yexin Li and Xiangyu Kong and Junqi Wang and Bangcheng Yang and Pring Wong and Yifan Zhong and Xiaoyuan Zhang and Zhaowei Zhang and Nian Liu and Wei Wang and Yaodong 背景 多くの環境では学習が重視され、推論の複雑さが無視され ている。 目的 CivRealmを通じて、学習と推論のバランスを研究する。 提案 文明に基づく CivRealm環境でエージェントの能力をテス ト。 評価 テンソルと言語ベースのエージェントで初期実験を実施。 結果 RLエージェントはミニゲームで良好だが、フルゲームで は困難。
  61. 人間と大規模言語モデルの相互作用 : 新時代 の幕開けか、その終焉か? Human - Large Language Model Interaction:

    The dawn of a new era or the end of it all? Daniel Hernández García and Marta Romeo and C. Dondrup and Nancie Gunson and Angus Addlesee and Weronika Maria Sieińska and Oliver Lemon and Alessandro Suglia and M. Aylett 背景 人間とロボットの相互作用における大規模言語モデルの影 響が増大。 目的 HRIコミュニティが抱える課題を共有し、安全なソーシャ ルロボットの設計を促進。 提案 対話能力向上のために大規模言語モデルをロボットに導入 する手法を提案。 評価 議論と共有を通じて、モデル導入の影響を多角的に分析。 結果 新しいソーシャルロボット設計への指針とコミュニティの 方向性を提供。
  62. 発言に投資 : オークションアリーナにおける LLMエージェントの戦略的計画と実行の評価 Put Your Money Where Your Mouth

    Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena Jiangjie Chen and Siyu Yuan and Rong Ye and Bodhisattwa Prasad Majumder and Kyle Richardson 背景 大規模言語モデルの性能評価には、動的で予測不可能な環 境が必要である。 目的 動的シナリオでの LLMの戦略的推論能力を評価するために AucArenaを構築。 提案 AucArenaを使用し、 LLMの入札行為を評価し、その能 力と戦略を分析。 評価 制御実験で最先端の LLMを用い戦略と実行スキルを評 価。 結果 LLMは重要なスキルを持つが、性能のばらつきがさらな る研究の価値を示す。
  63. RoleLLM: 大規模言語モデルのロールプレイ 能力の評価、引き出し、向上 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities

    of Large Language Models Z. Wang and Zhongyuan Peng and Haoran Que and Jiaheng Liu and Wangchunshu Zhou and Yuhan Wu and Hongcheng Guo and Ruitong Gan and Zehao Ni and Man Zhang and Zhaoxiang Zhang and Wanli Ouyang and 背景 大規模言語モデルのロールプレイでのユーザー連携強化が 求められている。 目的 LLMsのロールプレイ能力の最適化方法を探ることが重要 である。 提案 RoleLLMはロールプレイ能力を評価し向上するフレームワ ークである。 評価 RoleBenchを用いた 168,093サンプルの詳細な評価を行 った。 結果 RoleLLaMAと RoleGLMが作成され、顕著な向上を達成し た。
  64. Genshin: 大規模言語モデルを用いた自然言 語処理の一般的防御枠組み Genshin: General Shield for Natural Language Processing

    with Large Language Models Xiao Peng and Tao Liu and Ying Wang 背景 LLMの不透明性が高ステークスなドメインでの応用を制限 しています。 目的 効率と頑強性のトレードオフを解消する新手法を提案しま す。 提案 Genshinは防御的な LLMプラグインを活用し、テキストを 元に戻す手法です。 評価 感情分析とスパム検出で LLMの復元能力を実験しました。 結果 Genshinは効果的で効率的であることを確認しました。
  65. TR-LLM: シーン認識 LLMベースの人間行動 予測のための軌跡データ統合 TR-LLM: Integrating Trajectory Data for Scene-Aware

    LLM-Based Human Action Prediction Kojiro Takeyama and Yimeng Liu and Misha Sra 背景 人間行動の予測精度は現実の AI応用において重要です。 目的 LLMが持つ言語知識に物理的制約を統合し予測精度を向 上。 提案 マルチモーダル予測フレームワークを使い、 LLMによる行 動予測を強化。 評価 LLMの予測と人間の軌跡データを組み合わせ、実験で評 価。 結果 LLMと軌跡データの組み合わせが予測パフォーマンスを大 幅に向上。
  66. 指示追従のより良い評価に向けて : 要約にお けるケーススタディ Towards Better Evaluation of Instruction-Following: A

    Case-Study in Summarization Ondrej Skopek and Rahul Aralikatte and Sian Gooding and V. Carbune 背景 LLMがユーザー指示をどれだけ効果的に追従できるかを評 価することは依然として課題です。 目的 評価方法の正確性を定量化し、より適切な基準を確立する ことが目的です。 提案 新たな LLMベースの参照フリー評価方法を提案し、ベー スラインの改善を図ります。 評価 riSumデータセットを用いて評価方法の人間の判断との一 致度を分析しました。 結果 新しい方法が高品質な要約を要求する従来の基準と同等に 機能することを示しました。
  67. CRAB: マルチモーダル言語モデルエージェ ントのためのクロス環境エージェントベンチ マーク CRAB: Cross-environment Agent Benchmark for Multimodal

    Language Model Agents Tianqi Xu and Linyao Chen and Dai-Jie Wu and Yanjun Chen and Zecheng Zhang and Xiang Yao and Zhiqiang Xie and Yongchao Chen and Shilong Liu and Bochen Qian and Philip H. S. Torr and Bernard Ghanem and G. Li 背景 従来のベンチマークは、単一環境に限定され評価方法が不 足していました。 目的 異なる環境に対応できる総合的ベンチマークを提供するこ とを目指します。 提案 Crabフレームワークでクロス環境タスクを支援し、精密 な評価法を導入します。 評価 100のタスクを用いたクロスプラットフォームベンチマー クで評価しました。 結果 GPT-4o使用の単一エージェントが 35.26%の最高完了率 を記録しました。
  68. 生成 AIベースの対話サポートがリアルタイム 共同発想に与える可能性の探求 Exploring the Potential for Generative AI-based Conversational

    Cues for Real-Time Collaborative Ideation Jude Rayan and Dhruv Kanetkar and Yifan Gong and Yuewen Yang and Srishti Palani and Haijun Xia and Steven P. Dow 背景 リアルタイムの創造的な議論を促進するための AIの役割と 価値を探る。 目的 リアルタイム発想における生成 AIの対話支援の効果を明ら かにすること。 提案 人間が生成した対話キューを利用し、 AIによる創造的支援 を設計する機会を探る。 評価 ウィザードファシリテーターがリモートで提供するキュー と会話のテーマ分析を実施。 結果 特定の戦略が会話に大きな影響を与えることを発見し、改 善の機会を提示。
  69. 自信がない LLM注釈は確信を持った結論に使 用できるか? Can Unconfident LLM Annotations Be Used for

    Confident Conclusions? Kristina Gligori'c and Tijana Zrnic and Cinoo Lee and Emmanuel J. Candes and Dan Jurafsky 背景 LLMは人間のデータ収集の課題を和らげ、 CSSで注目され ている。 目的 LLMと人間の注釈を組み合わせて正確で妥当な結論を得る こと。 提案 LLM注釈と信頼指標で選択的に人間注釈を組み合わせる手 法を提案。 評価 3つの CSS領域で Confidence-Driven Inferenceの効果を検 証。 結果 人間注釈を 25%以上削減しつつ正確な統計推定が可能と確 認。
  70. 大規模言語モデルの判断による教育コンテン ツの評価と最適化 Evaluating and Optimizing Educational Content with Large Language

    Model Judgments Joy He-Yueya and Noah D. Goodman and E. Brunskill 背景 教育資料の効果を評価するには高コストかつ時間がかかる ため、改善が求められます。 目的 LMsを利用して、教育資料の評価と最適化を効率的に行う 方法を模索します。 提案 LMを教育の専門家として用い、指導が学習成果に及ぼす 影響を評価するアプローチを提案します。 評価 GPT-3.5を使用して、指導資料の影響を評価し、既存研究 の再現を試みました。 結果 LMによる評価は人間教師の評価と高い一致を示し、新し い潜在的なアプローチを確認しました。
  71. 検索拡張決定トランスフォーマー : コンテキ スト内強化学習のための外部メモリ Retrieval-Augmented Decision Transformer: External Memory for

    In-context RL Thomas Schmied and Fabian Paischer and Vihang Patil and M. Hofmarcher and Razvan Pascanu and Sepp Hochreiter 背景 コンテキスト内強化学習は、長いエピソードの処理に限界 があり、複雑な環境での適用が課題です。 目的 **検索拡張決定トランスフォーマー (RA-DT)**を用いて、 長いエピソードや疎な報酬を持つ環境での学習効率を向上させ 提案 RA-DTは外部メモリを活用し、関連するサブトラジェクト リを取得することで効率的な学習を実現します。 評価 グリッドワールド、ロボットシミュレーション、手続き生 成ビデオゲームで RA-DTを評価しました。 結果 RA-DTはベースラインを上回り、コンテキスト長を大幅に 削減して効率を改善しました。
  72. LLM駆動エージェントによる米国上院の立法 行動と超党派性のシミュレーション Simulating The U.S. Senate: An LLM-Driven Agent Approach

    to Modeling Legislative Behavior and Bipartisanship Zachary R. Baker and Zarif L. Azher 背景 立法プロセスの改善を目指し、 AIを用いて上院の行動をシ ミュレートする研究が進行中。 目的 議員の行動を LLMでシミュレートし、超党派解決への移 行を理解すること。 提案 LLM駆動エージェントを作成し、上院委員会の議論をシ ミュレートする手法を提案。 評価 エージェントが実際の議論を模倣し、超党派解決を導ける かシミュレーションで評価。 結果 現実的な議論と超党派性の変化を示すツールの有用性を確 認。
  73. 大規模言語モデルによる視覚化用自然言語デ ータセット生成フレームワーク Natural Language Dataset Generation Framework for Visualizations Powered

    by Large Language Models Hyung-Kwon Ko and Hyeon Jeon and Gwanmo Park and Dae Hyun Kim and Nam Wook Kim and Juho Kim and Jinwook Seo 背景 自然言語インターフェースの開発を効率化する手法が求め られています。 目的 データ視覚化用の多様な自然言語データセットを生成する ことです。 提案 VL2NLは大規模言語モデルを使い、 Vega-Lite仕様から NLデータセットを生成します。 評価 1,981の Vega-Lite仕様で VL2NLの生成精度をテストしま した。 結果 **89.4%および 76.0%**の精度で L1/L2キャプションを生 成し、多様性を示しました。
  74. TravelPlanner: 言語エージェントによる現 実世界の計画策定ベンチマーク TravelPlanner: A Benchmark for Real-World Planning with

    Language Agents Jian Xie and Kai Zhang and Jiangjie Chen and Tinghui Zhu and Renze Lou and Yuandong Tian and Yanghua Xiao and Yu Su 背景 初期の AIは制約された環境での計画に焦点を当てていまし た。 目的 言語エージェントが複雑なタスクで有用性を示せるか調査 します。 提案 旅行計画に焦点を当てた新たなベンチマーク TravelPlannerを提案。 評価 400万件のデータと 1,225の計画意図を用いて評価を実 施。 結果 現在の言語エージェントは複雑な計画策定に未熟で成功率 は低いです。
  75. CIKM 2023における個別化生成 AIワークシ ョップ:パーソナライズと大規模言語モデル の融合 The First Workshop on Personalized

    Generative AI @ CIKM 2023: Personalization Meets Large Language Models Zheng Chen and Ziyan Jiang and Fan Yang and Zhankui He and Yupeng Hou and Eunah Cho and Julian McAuley and A. Galstyan and Xiaohua Hu and Jie Yang 背景 個別化 AIの動的分野において革新と協力を促進するための 重要性がある。 目的 大規模言語モデルを活用し、ユーザー体験を最適化するこ とが目的。 提案 知識ギャップや幻覚軽減のためのカスタマイズされた応答 を提供する。 評価 基調講演、パネル討論、実践セッションにより、様々な議 論を展開。 結果 より正確で文脈に基づいた個別化 AIシステムの開発が進 む。
  76. 人間のように走る : 大規模言語モデルで自動 運転を再考 Drive Like a Human: Rethinking Autonomous

    Driving with Large Language Models Daocheng Fu and Xin Li and Licheng Wen and Min Dou and Pinlong Cai and Botian Shi and Y. Qiao 背景 従来の自動運転は、長尾事例対応に限界があり、改善が必 要。 目的 人間のように振る舞う自動運転モデルを開発し、性能向上 を図る。 提案 推論・解釈・記憶を備えた LLMを使用し、人間的な運転を 模倣。 評価 LLMの環境理解と相互作用の能力を閉ループシステムで実 証。 結果 LLMが長尾事例の解決において印象的な推論力を示した。
  77. 競争する LLMエージェントの自発的協力を探 る Shall We Team Up: Exploring Spontaneous Cooperation

    of Competing LLM Agents Zengqing Wu and Run Peng and Shuyuan Zheng and Qianying Liu and Xu Han and Brian Inhyuk Kwon and Makoto Onizuka and Shaojie Tang and Chuan Xiao 背景 大規模言語モデルは社会シミュレーションに利用される が、行動形成の必要性が疑問視される。 目的 自発的現象の重要性を強調し、より適応的な決定をシミュ レーションで再現する。 提案 エージェントが文脈に基づき自発的に協力する現象を探る 手法を提案。 評価 3つの競争シナリオを用いてエージェントの協力の出現を シミュレートした。 結果 協力の出現が人間の行動データと密接に一致することを確 認した。
  78. ゼロショットスケーラブル協調のための異種 マルチエージェント強化学習 Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration

    Xudong Guo and Daming Shi and Junjie Yu and Wenhui Fan 背景 多様な役割を持つマルチエージェントシステムでのスケー リングと協調が課題です。 目的 ゼロショットでのスケーラブルな協調を可能にすることが 目的です。 提案 異種性を組み込んだ SHPPOフレームワークを提案しま す。 評価 SMACと GRFの環境で実験し、手法の有効性を検証しまし た。 結果 SHPPOは高いスケーラビリティと協調性能を示しまし た。
  79. LLMにエンコードされた道徳的信念の評価 Evaluating the Moral Beliefs Encoded in LLMs Nino Scherrer

    and Claudia Shi and Amir Feder and D. Blei 背景 LLMは道徳的判断を含む選択の自動化に関与しており、そ の信頼性が求められています。 目的 LLMが曖昧な道徳的状況においてエンコードする信念を明 らかにすることです。 提案 LLMにエンコードされた信念を引き出すための統計的手法 を提案します。 評価 680の高い曖昧性と 687の低い曖昧性の道徳的シナリオで 評価しました。 結果 LLMは明確なケースでは常識を反映し、曖昧なケースでは 不確実性を示しました。
  80. 生涯認知システムの構築に向けて Towards LifeSpan Cognitive Systems Yu Wang and Chi Han

    and Tongtong Wu and Xiaoxin He and Wangchunshu Zhou and Nafis Sadeq and Xiusi Chen and Zexue He and Wei Wang and Gholamreza Haffari and Heng Ji and Julian McAuley 背景 複雑な環境との継続的相互作用を可能にするシステムの構 築は多くの課題があります。 目的 問題は、経験を迅速かつ段階的に更新し過去を正確に記憶 することです。 提案 四つの技術クラスを統合する新しいパラダイムを提案しま す。 評価 仮説検証には、保存の複雑さという概念的指標を用いま す。 結果 新しいパラダイムは経験吸収と応答生成の 2プロセスで機 能します。
  81. PRD: ピアランクとディスカッションによる 大規模言語モデル評価の改善 PRD: Peer Rank and Discussion Improve Large

    Language Model based Evaluations Ruosen Li and Teerth Patel and Xinya Du 背景 LLMの応答品質を自動で評価するのは困難です。 目的 自己促進や位置バイアスの問題を解決することです。 提案 ピアランクとピアディスカッションを用いた評価手法を提 案します。 評価 2つのベンチマークデータセットで実験を行いました。 結果 提案手法は高精度でヒューマンジャッジメントと一致しま す。
  82. シミュラクラとしての意識的エキゾティカ Simulacra as Conscious Exotica Murray Shanahan 背景 AIエージェントの人間らしさが進化し、意識の再定義が求 められています。

    目的 AIと意識の関係を明らかにする重要性を探求します。 提案 ヴィトゲンシュタインの視点を用いて AIの意識性を考察し ます。 評価 哲学的分析を通じて、 AIと意識の関連を議論しました。 結果 AIエージェントの意識性について新たな視点を提案しまし た。
  83. 知識拡張を用いたマルチエージェント討論シ ステムの学習 Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate

    System Haotian Wang and Xiyuan Du and Weijiang Yu and Qianglong Chen and Kun Zhu and Zheng Chu and Lian Yan and Yi Guan 背景 マルチエージェント討論システムは真実追求のために重要 ですが、知識の違いが問題です。 目的 異なる知識背景を持つエージェントの認識を統合し最適解 を求めることが目的です。 提案 MADKEフレームワークは共有知識プールを用い、適応的 知識選択を提案します。 評価 6つのデータセットを用いて、既存手法と比較し実験を行 い性能を評価しました。 結果 MADKEは一貫性と正確性を向上させ、 GPT-4を上回る性 能を示しました。
  84. 模擬的 社会的相互作用で 社会的調整された 言語モデル を訓練する Training Socially Aligned Language Models

    on Simulated Social Interactions Ruibo Liu and Ruixin Yang and Chenyan Jia and Ge Zhang and Denny Zhou and Andrew M. Dai and Diyi Yang and Soroush Vosoughi 背景 現在の LMsは、社会的価値観を反映することが難しく、未 知の状況に弱い。 目的 社会的成長をモデル化し、より良い一般化と安全性を LMs に付与する。 提案 模擬的な社会的相互作用を通じて LMsを訓練することで、 社会的調整を改善する。 評価 新しい手法の評価は、社会的調整ベンチマークと人間評価 を用いた。 結果 新手法はスケーラブルかつ効率的で、既存手法よりも優れ た適合性を示した。
  85. ゲームエージェントと大規模モデルに関する 調査 : 方法、応用、および課題 A Survey on Game Playing Agents

    and Large Models: Methods, Applications, and Challenges Xinrun Xu and Yuxin Wang and Chaoyi Xu and Ziluo Ding and Jiechuan Jiang and Zhiming Ding and Börje F. Karlsson 背景 大規模モデルは進化が早く、その使用法の包括的な把握が 必要です。 目的 進化する LMのゲーム内での可能性を系統的にレビューし ます。 提案 LMベースエージェントの現行アーキテクチャを分析し、 共通点と課題をまとめます。 評価 GitHubリポジトリでリソースを提供し、研究者の理解を 助けます。 結果 LMのゲーム研究の将来性についての見解を示します。
  86. MetaAgents: 人間行動の相互作用をシミュ レートする協調型生成エージェント MetaAgents: Simulating Interactions of Human Behaviors for

    LLM-based Task- oriented Coordination via Collaborative Generative Agents Yuan Li and Yixuan Zhang and Lichao Sun 背景 LLMは多様なタスクに応用が進む一方、社会的調整能力 は十分に研究されていない。 目的 LLMが人間のような社会行動を模倣し、意味ある結果を 生む能力を探る。 提案 我々は協調型生成エージェントを導入し、タスク解決能力 を持たせた。 評価 シミュレーションされた就職フェア環境での調整能力を検 証した。 結果 エージェントは有望な性能を示すが、複雑な調整には限界 がある。
  87. 「 ChatGPT、私に指示しないで」 :人道的な 最前線交渉における文脈分析のための AI設計 "ChatGPT, Don't Tell Me What

    to Do": Designing AI for Context Analysis in Humanitarian Frontline Negotiations Zilin Ma and Yiyang Mei and Claude Bruderlein and Krzysztof Z. Gajos and Weiwei Pan 背景 人道的交渉において AIはプロセスの文脈分析が未解決で す。 目的 交渉プロセスでの AI活用をプロセス重視で検討することで す。 提案 文脈を重視した柔軟な AIツールの設計を提案します。 評価 32名の熟練交渉者と共同で反復的設計を行いました。 結果 交渉者の専門性を高めるツール設計の方向を示しました。
  88. スポーツファイ : スポーツビデオにおける埋 め込み型ビジュアライゼーションと擬人化さ れたナラティブによる質問応答システム Sportify: Question Answering with Embedded

    Visualizations and Personified Narratives for Sports Video Chunggi Lee and Tica Lin and Hanspeter Pfister and Zhu-Tian Chen 背景 バスケットボールの人気が高まると共に、その戦術理解の 難しさがファンに障害となる。 目的 バスケットボール戦術の理解向上を支援するための解決策 を提供する。 提案 視覚的質問応答システムスポーツファイでナラティブとビ ジュアライゼーションを統合する。 評価 バスケットボールファンを対象に、戦術理解への影響を評 価し各ナラティブの効果を比較。 結果 第三者視点のナレーションが詳細な戦術説明を提供し、没 入感が向上する。
  89. 大規模言語モデルを用いたメモリ強化型会話 型推薦システム MemoCRS: Memory-enhanced Sequential Conversational Recommender Systems with Large

    Language Models Yunjia Xi and Weiwen Liu and Jianghao Lin and Bo Chen and Ruiming Tang and Weinan Zhang and Yong Yu 背景 会話型推薦システムはユーザー嗜好を理解し個別化した推 薦を行うが、多くのシステムでは過去の対話セッションの情報 目的 メモリ強化型モデルを用いて過去の対話 session の情報を 活用し、新規ユーザーにも効果的な推薦を行う。 提案 ユーザー固有のメモリと一般メモリを備えた MemoCRSフ レームワークを提案し、嗜好の連続性と新規ユーザー問題に対 評価 中国語と英語のデータセットで、広範な実験を行い提案手 法の有効性を検証。 結果 MemoCRSはユーザーにより正確で個別化された推薦を行 う能力を高めることを実証した。
  90. プロンプト感染 : マルチエージェントシステ ム内での LLM間プロンプトインジェクション Prompt Infection: LLM-to-LLM Prompt Injection

    within Multi-Agent Systems Donghyun Lee and Mo Tiwari 背景 LLMの進化に伴い、プロンプトインジェクションの安全性 が単一エージェントで重視されてきた。 目的 マルチエージェントシステムにおけるプロンプト感染とい う新たな危険を明らかにする。 提案 悪意のあるプロンプトがエージェント間で自己繁殖す る "プロンプト感染 "を提案。 評価 マルチエージェントシステムの脆弱性を実証するために大 規模な実験を実施した。 結果 LLMタグ付けによって感染の拡大を大幅に抑制できると 示唆。
  91. 診療現場でのエージェントとしての大規模言 語モデルの評価 Evaluating large language models as agents in the

    clinic Nikita Mehandru and Brenda Y Miao and Eduardo Rodriguez Almaraz and Madhumita Sushil and A. Butte and Ahmed Alaa 背景 LLMは医療情報の統合や臨床判断支援などに活用される 可能性があります。 目的 LLMエージェントを臨床環境で安全に展開するため、評 価フレームワークの確立が必要です。 提案 新しい評価方法として「 AI-SCE」を提案し、複雑な臨床 環境での影響を検討します。 評価 高精度のシミュレーションを用いた評価フレームワークを 導入し、影響を分析しました。 結果 実世界での臨床評価の強化が、医療への LLM配備の鍵とな ります。
  92. 大規模言語モデルの社会計算研究における新 しい規範の形成 Shaping the Emerging Norms of Using Large Language

    Models in Social Computing Research Hong Shen and Tianshi Li and Toby Jia-Jun Li and J. Park and Diyi Yang 背景 大規模言語モデルの登場が社会計算研究に大きな影響を与 える。 目的 LLMs利用時の有効性・プライバシー・倫理の課題を解決 する。 提案 LLMsに関する新しい規範形成のための議論の場を提供。 評価 研究者間での現在の実践や視点の議論を通じて評価。 結果 新しい規範の形成に向けた理解と協働が促進される。
  93. マルチエージェント会話型推薦システム A Multi-Agent Conversational Recommender System Jiabao Fang and Shen

    Gao and Pengjie Ren and Xiuying Chen and Suzan Verberne and Zhaochun Ren 背景 大規模言語モデルは流暢な会話を可能にしますが、 CRSに は明確な目標が必要です。 目的 ユーザーの好みをより適切にモデル化し、推奨の質を向上 させることです。 提案 MACRSは、マルチエージェント行動計画とフィードバッ ク反映メカニズムを提案します。 評価 ユーザーシミュレーターによる広範な実験で提案手法の有 効性を確認しました。 結果 MACRSはユーザーとの相互作用経験を向上し、 LLMを直 接使用するよりも効果的です。
  94. 大規模立法モデル : 効率的 AI政策決定に向け た経済シミュレーション Large Legislative Models: Towards Efficient

    AI Policymaking in Economic Simulations Henry Gasztowtt and Benjamin Smith and Vincent Zhu and Qinxun Bai and Edwin Zhang 背景 経済政策改善は、社会全体の利益に繋がる重要な課題で す。 目的 AIで経済政策を人間以上に効率的に実現することを目指し ます。 提案 LLMを活用し、社会的に複雑な環境で効率的な政策を行 う方法を提案します。 評価 3つの環境での実験により、提案手法の効率性を検証しま した。 結果 提案手法は、既存方法を効率面で上回ることを実証しまし た。
  95. 模倣を超えて : 大規模言語モデルによる人間 の移動パターンの生成 Beyond Imitation: Generating Human Mobility from

    Context-aware Reasoning with Large Language Models Chenyang Shao and Fengli Xu and Bingbing Fan and Jingtao Ding and Yuan Yuan and Meng Wang and Yong Li 背景 人間の移動は社会問題に関連しますが、データ収集は高コ ストでプライバシーの問題があります。 目的 移動行動の意図を効果的に捉える高品質な生成モデルの構 築。 提案 移動生成を常識的推論として位置づけ、 LLMを活用した新 手法 MobiGeaRを提案。 評価 実データセットを用いて MobiGeaRの性能を全指標で評 価。 結果 MobiGeaRは最先端の性能を持ち、必要な学習サンプルを 大幅に削減。
  96. 見逃されたつながり : 大規模言語モデルのた めの横断思考パズル Missed Connections: Lateral Thinking Puzzles for

    Large Language Models Graham Todd and Timothy Merino and Sam Earle and Julian Togelius 背景 Connectionsパズルは単語をグループ化し、抽象的推論 を必要とするため AIシステムには挑戦的です。 目的 AIシステムの抽象的推論能力を評価し、言語モデルのセマ ンティック情報の度合いを測定することです。 提案 大規模言語モデルと文埋め込みのベースラインを使用し て、 Connectionsの能力を評価します。 評価 チェーン・オブ・ソートを利用し、大規模言語モデルの精 度と失敗原因を分析しました。 結果 Connectionsは難解ながらも可能で、将来的な研究のため の強力なテストベッドです。
  97. 文脈での模倣は大規模言語モデルの強みとバ イアスを明らかにする In-Context Impersonation Reveals Large Language Models' Strengths and

    Biases Leonard Salewski and Stephan Alaniz and Isabel Rio-Torto and Eric Schulz and Zeynep Akata 背景 文脈での模倣が LLMの適応力と潜在的バイアスをどのよう に明らかにするかを探ります。 目的 異なるペルソナを設定することで LLMの性能やバイアス がどのように変わるかを解明する。 提案 ペルソナ設定で LLMが異なる知識やバイアスを示せるとの 仮説を提唱。 評価 複数の知識領域や個々の模倣パフォーマンスをタスクを通 じて評価分析。 結果 ペルソナ設定により LLMの特性やバイアスが顕在化するこ とを確認した。
  98. 大規模言語モデルにおける合成データを用い たフェデレーテッドなドメイン特化知識の伝 達 Federated Domain-Specific Knowledge Transfer on Large Language

    Models Using Synthetic Data Haoran Li and Xinyuan Zhao and Dadi Guo and Hanlin Gu and Ziqian Zeng and Yuxing Han and Yangqiu Song and Lixin Fan and Qiang Yang 背景 外部 LLMを直接使用できないため、 LLMと SLMの知識伝 達が重要です。 目的 プライバシーを守りつつ、 SLMの性能向上を目指していま す。 提案 差分プライバシーを使った合成データでドメイン特化知識 を伝達します。 評価 広範な実験によって FDKTフレームワークの有効性を評価 しました。 結果 FDKTは SLMのタスク性能を約 5%向上させました。
  99. AutoGen: 次世代 LLMアプリケーションを 多エージェント会話フレームワークで実現 AutoGen: Enabling Next-Gen LLM Applications via

    Multi-Agent Conversation Framework Qingyun Wu and Gagan Bansal and Jieyu Zhang and Yiran Wu and Shaokun Zhang and Erkang Zhu and Beibin Li and Li Jiang and Xiaoyun Zhang and Chi Wang 背景 多エージェントシステムを用いたアプローチの需要が増加 しています。 目的 タスク解決のために LLMと人間の知恵を活用することで す。 提案 AutoGenフレームワークで多エージェントの会話を実現 します。 評価 AutoGenの使用例を開発者向けにいくつか提示していま す。 結果 AutoGenは様々なタスクに効果的であると示されていま す。
  100. 経験と相互作用を通じた機械のモラル学習 Learning Machine Morality through Experience and Interaction Elizaveta Tennant

    and Stephen Hailes and Mirco Musolesi 背景 次世代 AIの安全性確保のため、モラルの組み込みが重要視 されている。 目的 エージェントに対するハイブリッドなモラル導入手法の提 案。 提案 強化学習を用いた経験からのモラル学習とハイブリッド手 法。 評価 ケーススタディや社会的ジレンマで本質的報酬を用いた実 証。 結果 ハイブリッドアプローチの可能性とモラル学習の有効性を 確認。
  101. 石油・ガス産業における AGI:レビュー Artificial General Intelligence (AGI) for the oil and

    gas industry: a review J. Li and Tiancheng Zhang and Yiran Zhu and Zhongwei Chen 背景 石油・ガス産業は、効率向上と革新が求められる重要な領 域です。 目的 AGIにより石油・ガス業界の複雑な運用課題を解決するこ とを目指します。 提案 LLMとコンピュータビジョンを活用し、効率向上を図りま す。 評価 AGIモデルの導入における課題や必要な専門知識を体系的 に評価しました。 結果 AGIは、石油・ガス業界での問題解決に大きな可能性を秘 めています。
  102. 大規模言語モデルとしての権力の道具 : 自律 的操作と制御の新しい体制 Large Language Models as Instruments of

    Power: New Regimes of Autonomous Manipulation and Control Yaqub Chaudhary and Jonnie Penn 背景 LLMsは低コストで多様な情報操作が可能になり、社会に 新たな損害を引き起こす。 目的 LLMsの制御手段としての潜在的な社会的損害の理解と警 鐘を打つ。 提案 会話インターフェースや強化学習との組み合わせで制御可 能な戦略的対話モデルを提案。 評価 研究領域として説得、計算モデル、一連の技術的統合を考 察し、制御手段を分析。 結果 個人、社会、政治的統制を行う強力な LLMベースのシステ ム構築につなげる。
  103. 偏見は深く根付いている : ペルソナを割り当 てられた LLMにおける暗黙の推論バイアス Bias Runs Deep: Implicit Reasoning

    Biases in Persona-Assigned LLMs Shashank Gupta and Vaishnavi Shrivastava and A. Deshpande and A. Kalyan and Peter Clark and Ashish Sabharwal and Tushar Khot 背景 LLMはペルソナを使って人間行動のシミュレーションが可 能ですが、その能力への影響は不明です。 目的 ペルソナ割り当てが LLMの推論能力に与える影響を明確に することが目的です。 提案 ペルソナの割り当てが LLMの推論能力に影響を及ぼす副作 用を研究します。 評価 24の推論データセット、 4つの LLM、 19の多様なペルソナ を用いて実験しました。 結果 ペルソナ割り当てはバイアスを顕在化させ、 LLMの性能を 著しく低下させることがあります。
  104. エージェントの連鎖 : 長文タスクで協力する 大規模言語モデル Chain of Agents: Large Language Models

    Collaborating on Long-Context Tasks Yusen Zhang and Ruoxi Sun and Yanfei Chen and Tomas Pfister and Rui Zhang and Sercan Ö. Arik 背景 長いコンテキストの処理は大規模言語モデルの課題であ り、解決が求められています。 目的 入力削減やウィンドウ拡張の限界を補う方法を模索してい ます。 提案 **Chain-of-Agents (CoA)**は、エージェント間の協力を 通じて情報を統合する新手法です。 評価 質問応答、要約、コード完成の長文タスクで手法を評価し ました。 結果 RAGや他の手法と比較して最大 10%の性能向上を確認し ました。
  105. XUAT-Copilot: 大規模言語モデルを用いた ユーザー受け入れテストのマルチエージェン ト協働システム XUAT-Copilot: Multi-Agent Collaborative System for Automated

    User Acceptance Testing with Large Language Model Zhitao Wang and Wei Wang and Zirao Li and Long Wang and Can Yi and Xinjie Xu and Luyang Cao and Hanjing Su and Shouzhi Chen and Jun Zhou 背景 WeChat Payの UATプロセスの自動化が進んでいますが、 テストスクリプト生成が労働集約的です。 目的 テストスクリプト生成の自動化レベルを向上させ、人手を 削減することが目的です。 提案 LLM駆動のマルチエージェントシステムで、 UATの自動 化を図ります。 評価 LLMエージェントをテストに使用し、人間テスターと同 等の効果を実験で確認。 結果 提案システムの導入で、 Pass@1精度が単一エージェント と比べ大幅に向上しました。
  106. LLMにおける Linux権限昇格攻撃の自動化 LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks

    A. Happe and Aaron Kaplan and Jürgen Cito 背景 ペネトレーションテストはシステム脆弱性の特定・修正に 不可欠です。 目的 研究目的は LLMを権限昇格に利用する際の能力と課題の理 解です。 提案 我々は LLMを用いた完全自動権限昇格ツールを提案しま す。 評価 複数の LLMを用いてベンチマークテストを実施し、結果を 比較しました。 結果 GPT-4-turboは脆弱性の 33〜 83%を悪用できると示され ました。
  107. 社会契約 AI: AIアシスタントの暗黙のグルー プ規範への適合 Social Contract AI: Aligning AI Assistants

    with Implicit Group Norms Jan-Philipp Franken and Sam Kwok and Peixuan Ye and Kanishk Gandhi and Dilip Arumugam and Jared Moore and Alex Tamkin and Tobias Gerstenberg and Noah D. Goodman 背景 AIの適合問題は AIがユーザーの多様な嗜好に従う能力にか かわる。 目的 ユーザーの行動から暗黙の嗜好を AIに学習させる方法を模 索する。 提案 ユーザーの嗜好を逆推定することで AIをユーザーニーズに 適合させる手法を提案。 評価 経済的最後通告ゲームで初期シミュレーションを行い、提 案を検証。 結果 AIは標準方針には適合するが、新しい状況での一般化に限 界がある。
  108. 人間の行動決定の予測と理解 : 大規模言語モ デルと認知インスタンスベース学習からの洞 察 Predicting and Understanding Human Action

    Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning Thuy Ngoc Nguyen and Kasturi Jamale and Cleotilde Gonzalez 背景 AIが人間の行動と偏見を理解することは、支援システムに おいて重要な課題です。 目的 LLMsの能力を活用し、人間の意思決定を予測する方法を 提案します。 提案 実験を通じて、 LLMsと IBLモデルの性能を比較します。 評価 二つの意思決定タスクでの人間の行動予測を検証します。 結果 LLMsはフィードバックの統合が優秀、 IBLは探索行動や 損失回避バイアスを効果的に捉える。
  109. 懐疑から受容へ : フェイクニュースへの態度 変化をシミュレーションする From Skepticism to Acceptance: Simulating the

    Attitude Dynamics Toward Fake News Yuhan Liu and Xiuying Chen and Xiaoqing Zhang and Xing Gao and Ji Zhang and Rui Yan 背景 フェイクニュースは デジタル社会の大きな課題であり、公 共意見を乱す。 目的 フェイクニュースへの意見動態を詳細にモデル化し、対策 を模索する。 提案 FPSを使い、意見の微細な変化を LLMでシミュレーショ ンする。 評価 エージェント間の意見交換を通じ、現実世界に即した動態 を検証する。 結果 早期かつ適切な介入が効果的で、 LLMsの可能性を示す。
  110. 大規模言語モデルの創造性について On the Creativity of Large Language Models Giorgio Franceschelli

    and Mirco Musolesi 背景 **大規模言語モデル( LLM) **は AIの分野で技術的・社会 的に重要です。 目的 創造性を持つとされる LLMが本当に創造的かを検証しま す。 提案 価値、新規性、驚きの次元で LLMの創造性を分析します。 評価 機械創造性における異なる問題を LLMの視点から議論しま した。 結果 LLMが社会に与える影響とそれに伴う法的・倫理的リスク を分析しました。
  111. 生成的人工知能を意思決定の認知モデルに適 用 Applying Generative Artificial Intelligence to cognitive models of

    decision making Tyler Malloy and Cleotilde Gonzalez 背景 生成的 AIは意思決定の認知モデルに影響を与えているが理 論的関連は未整理。 目的 生成的 AIを認知モデルに統合し、理論的に関連付けを示 す。 提案 生成的 AIを用いた記憶表現と行動予測を統合したモデルを 提案。 評価 視覚情報と自然言語を用い、インスタンスベース学習理論 を基にした実験を実施。 結果 生成的モデルは記憶形成と行動予測において有用性を示し た。
  112. 言語ボトルネックを活用したポリシー学習 Policy Learning with a Language Bottleneck Megha Srivastava and

    Cedric Colas and Dorsa Sadigh and Jacob Andreas 背景 現代の AIは超人的な能力を持つが、解釈可能性や相互運用 性が不足している。 目的 言語を用いて AIの一般化と解釈可能性を向上させることが 目的。 提案 PLLBは言語モデルを活用し、 AIエージェントの戦略を言 語ルールとして生成する手法。 評価 ゲームやタスクで PLLBの一般化可能性と人間共有性を検 証する実験を実施。 結果 PLLBにより解釈可能かつ共有可能な戦略が実現され、人 間 AI協調が向上した。
  113. CoEvol: 多エージェント協力による指示微調 整のためのより良い応答の構築 CoEvol: Constructing Better Responses for Instruction Finetuning

    through Multi- Agent Cooperation Renhao Li and Minghuan Tan and Derek F. Wong and Min Yang 背景 大規模言語モデルがタスク性能を向上させるためのインス トラクション微調整が注目を集めています。 目的 LLMの潜在能力を用いてデータ品質を向上させる新手法の 開発を目指します。 提案 CoEvolという多エージェント協力フレームワークを提案 し、応答を反復的に洗練させます。 評価 MT-Benchと AlpacaEvalを用いてフレームワークの効果を 実証しました。 結果 CoEvolを搭載したモデルが競合ベースラインを上回る成 果を示しました。
  114. 大規模コンテンツと行動モデルによるコンテ ンツと行動の理解、シミュレーション、最適 化 L ARGE C ONTENT AND B EHAVIOR

    M ODELS TO U N - DERSTAND , S IMULATE , AND O PTIMIZE C ONTENT AND B EHAVIOR Aditya Agrawal and Aanisha Bhattacharyya and Yaman Kumar Singla and Somesh Singh and Uttaran Bhattacharya and Ishita Dasgupta and Stefano Petrangeli and R. Shah and Changan Chen and Balaji 背景 シャノンが提唱する情報伝達の 3レベルにおいて、受信者 行動の予測と最適化が重要。 目的 LLMに行動トークンを再導入し、受信者行動の予測と最適 化を目指す。 提案 行動トークンを取り入れた LCBMを提案し、行動理解とシ ミュレーションを拡張。 評価 2種類のコーパスと多様なタスクを用いて、モデルの一般 化能力を評価。 結果 LCBMはコンテンツ理解に加え、行動関連タスクでの一般 化能力を示し有望な結果を得た。
  115. 言語モデルへの哲学的入門 - パート II: 未来へ の道 A Philosophical Introduction to

    Language Models - Part II: The Way Forward Raphael Milliere and Cameron Buckner 背景 言語モデル進展により、解釈可能性や意識に関する新たな 哲学的問題が生じている。 目的 言語モデルの内部表現や計算を理解し、意識および認知へ の関連を探る。 提案 因果介入を用いて LLMの解釈可能性を解析し、複数の拡張 を検討。 評価 因果介入手法を使用し、 LLMの内部表現と計算の特徴を分 析。 結果 LLMが人間認知モデルとしての関連性を持つ可能性が示唆 された。
  116. 大規模モデルの評価のための認知タスク統合 AGIテスト Integration of cognitive tasks into artificial general intelligence

    test for large models Youzhi Qu and Chen Wei and Penghui Du and Wenxin Che and Chi Zhang and Wanli Ouyang and Yatao Bian and Feiyang Xu and Bin Hu and Kai Du and Haiyan Wu and Jia Liu and Quanying Liu 背景 大規模モデル評価は特定タスクに依存し、多次元知能評価 の枠組みが欠如している。 目的 認知科学に着想を得た AGIテストで、大規模モデルの多次 元知能を総合的に評価する。 提案 人間の知能テストに基づく認知テストを用いて、 AGIテス トの複雑性を増加させる。 評価 AGIテストにおける偽陽性や偽陰性を避けるために、結果 の解釈を重視した。 結果 認知科学に基づく AGIテストは、モデルの特定知能次元の 向上を効果的に導くと信じる。
  117. AIによる完全自動化ビッシング攻撃の実現可 能性について On the Feasibility of Fully AI-automated Vishing Attacks

    Joao Figueiredo and Afonso Carvalho and Daniel Castro and Daniel Gonccalves and Nuno Santos 背景 ビッシングは音声を利用した社会工学攻撃で、情報セキュ リティを脅かす深刻な問題です。 目的 AIを利用した完全自動化されたビッシング攻撃の可能性を 研究し、その脅威を理解することが目的です。 提案 AIを駆使したビッシングシステム ViKingを提案し、大規 模言語モデルを用いて会話を操る能力を検討します。 評価 ViKingの評価には 240人の参加者を用いた制御された社 会実験を実施しました。 結果 結果、多くの参加者が情報を開示し、攻撃が現実的かつ可 能性の高いものであることが示されました。
  118. 非 AI専門家のための多エージェント調整によ る構造的プロンプト生成 Minstrel: Structural Prompt Generation with Multi-Agents Coordination

    for Non-AI Experts Ming Wang and Yuanzhong Liu and Xiaoyu Liang and Yijie Huang and Daling Wang and Xiaocui Yang and Sijia Shen and Shi Feng and Xiaoming Zhang and Chaofeng Guan and Yifei Zhang 背景 LLMは強力だが、非 AI専門家にはプロンプト作成が難題で す。 目的 非 AI専門家でも質の高いプロンプトを作成可能にすること が目的です。 提案 Minstrelは、多生成エージェントを用いて構造的プロンプ トを自動生成します。 評価 実験とユーザー調査で、生成されたプロンプトの性能と使 いやすさを評価しました。 結果 Minstrelのプロンプトは、 LLMの性能向上と使いやすさで 優れています。
  119. シミュレーションを用いた LLM実験 : プロセ スシミュレーションパラメトライズ化のため の大規模言語モデルマルチエージェントシス LLM experiments with simulation:

    Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins Yuchen Xia and Daniel Dittler and N. Jazdi and Haonan Chen and M. Weyrich 背景 デジタルツインのシミュレーションパラメトライズは複雑 で手動の負担が大きい。 目的 プロセスシミュレーションの自動パラメトライズで負荷を 軽減することが重要。 提案 マルチエージェントシステムによる LLM活用でパラメータ 設定を自動化する。 評価 事例研究を通じてシステムの有効性と機能性を検証。 結果 ユーザーフレンドリー性が向上し、使用者の認知負荷が軽 減される。
  120. Proxona: LLM駆動のペルソナを活用してク リエイターの視聴者理解を向上 Proxona: Leveraging LLM-Driven Personas to Enhance Creators'

    Understanding of Their Audience Yoonseo Choi and Eun Jeong Kang and Seulgi Choi and Min Kyung Lee and Juho Kim 背景 クリエイターは視聴者理解が不十分なため、コンテンツを 最適化できずにいます。 目的 視聴者の深い理解を可能にすることで、クリエイターのコ ンテンツ改善を支援します。 提案 Proxonaは視聴者コメントを分析し、合成ペルソナの作成 をサポートします。 評価 視聴者を反映したペルソナの生成能力を技術とユーザーの 観点から評価しました。 結果 Proxonaを使用することでクリエイターは視聴者理解を深 め、効果的な決定が可能になりました。
  121. チャットボットがユーザーの発言を過去のセ ッションから参照する方法の比較 : プライバ シーに対するユーザーの懸念と認識の調査 Comparing How a Chatbot References

    User Utterances from Previous Chatting Sessions: An Investigation of Users' Privacy Concerns and Perceptions Samuel Rhys Cox and Yi-Chieh Lee and Wei Tsang Ooi 背景 チャットボットが過去の会話を参照する方法は、ユーザー の関与やプライバシーに影響する重要な課題です。 目的 過去の会話参照がユーザーのプライバシーと関与にどう影 響するかを解明することが目的です。 提案 逐語および言い換え参照法を用いて、ユーザーの認識とプ ライバシーへの影響を探ります。 評価 3週間の縦断被験者間研究で、異なる参照形式のチャット ボットを比較しました。 結果 逐語参照は知的と認識されつつも、プライバシーへの懸念 を引き起こしました。
  122. 大規模言語モデルベースのエージェントプラ ットフォームにおける個別推奨の展望 Prospect Personalized Recommendation on Large Language Model-based Agent

    Platform Jizhi Zhang and Keqin Bao and Wenjie Wang and Yang Zhang and Wentao Shi and Wanhong Xu and Fuli Feng and Tat-Seng Chua 背景 エージェント指向の情報システム、特に LLMベースのエ ージェントに必要なインフラが不足しています。 目的 大規模言語モデルプラットフォームでの新しいレコメンデ ーションシステムの地平を開くことです。 提案 Rec4Agentverseは、エージェントアイテムとエージェン トレコメンダーの協力を強調する新しいパラダイムです。 評価 Rec4Agentverseのケーススタディによって、その応用可 能性と重要性を予備的に検証しました。 結果 Rec4Agentverseは個別情報サービスの促進に大きな潜在 力を持つと示唆されます。
  123. 10億のペルソナで合成データ作成を拡大する Scaling Synthetic Data Creation with 1,000,000,000 Personas Xin Chan

    and Xiaoyang Wang and Dian Yu and Haitao Mi and Dong Yu 背景 合成データの多様性と質を高める手法が重要視されていま す。 目的 ペルソナを用いた合成データ生成の拡張性を検証するこ と。 提案 ペルソナハブを用いた新たなデータ合成手法を提案しま す。 評価 数学問題や論理問題生成を通じて手法の効果を検証。 結果 ペルソナ駆動の合成データが多様で適用範囲が広いことを 確認。
  124. 演劇の一片:教師が設計する LLMチャットボ ットによるサイバーいじめ教育の支援調査 A Piece of Theatre: Investigating How Teachers

    Design LLM Chatbots to Assist Adolescent Cyberbullying Education Michael A. Hedderich and Natalie N. Bazarova and Wenting Zou and Ryun Shim and Xinda Ma and Qian Yang 背景 サイバーいじめは若者の精神的健康に害を及ぼすため、教 育が重要です。 目的 教師がサイバーいじめ教育のための効果的なチャットボッ ト設計を支援すること。 提案 ノーコードツールを使用し、教師が自作の対話フローを設 計可能にします。 評価 教師がツールを使いどのように設計するかを調査し、その 反応を分析します。 結果 教師はツールを歓迎し、劇的手法で学生の行動を導く機会 を認識しました。
  125. ReMEmbR: ロボットナビゲーションのため の長期的時空間メモリの構築と推論 ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal

    Memory for Robot Navigation Abrar Anwar and John Welsh and Joydeep Biswas and Soha Pouya and Yan Chang 背景 ロボットが長期間にわたり複雑な環境を理解しナビゲート することは挑戦的です。 目的 ロボットが長期間の活動履歴の推論を可能にし、情報提供 を向上させることです。 提案 リトリーバル強化メモリ ReMEmbRを提案し、長期ビデ オ質問応答を実現しました。 評価 NaVQAデータセットを用い空間的・時間的質問に対応し た実験を行いました。 結果 ReMEmbRは基本モデルを上回り、ロボットが多様なクエ リに低遅延で対応可能と示しました。
  126. 知識駆動型自動運転に向けて Towards Knowledge-driven Autonomous Driving Xin Li and Yeqi Bai

    and Pinlong Cai and Licheng Wen and Daocheng Fu and Bo Zhang and Xuemeng Yang and Xinyu Cai and Tao Ma and Jianfei Guo and Xing Gao and Min Dou and Yikang Li and Botian Shi and Yong Liu 背景 現行の自動運転はデータバイアスに敏感で、シナリオ対応 が困難です。 目的 知識駆動技術で自動運転の限界を克服することを目指しま す。 提案 認識、一般化、生涯学習を持つ知識駆動型自動運転技術を 提案します。 評価 大規模言語モデルやニューラルレンダリングを利用した総 合システム評価を行います。 結果 知識駆動技術により、適応的で知的な自動運転が実現可能 と示されます。
  127. 生成 AI技術でデジタルツインを強化 : シミュ レーションから予測へ From Simulation to Prediction: Enhancing

    Digital Twins with Advanced Generative AI Technologies Yijun Huang and Jihan Zhang and Xi Chen and Alan H. F. Lam and Ben M. Chen 背景 生成 AIの統合は、デジタルツインの機能を拡張し、新たな 応用を可能にします。 目的 GAI技術を用いて、デジタルツインを動的で予測的なツー ルに変革します。 提案 主に大規模言語モデルを活用し、 GAIをデジタルツインに 組み込む方法を提案します。 評価 GAIを用いた生成データセット生成や未曾有のイベントシ ミュレーションの方法を分析します。 結果 GAI統合で、デジタルツインは多様な分野での効率性と意 思決定支援を強化しました。
  128. 大規模言語モデル利用によるスマートコント ラクト脆弱性検出 : 新たな視点 Large Language Model-Powered Smart Contract Vulnerability

    Detection: New Perspectives Sihao Hu and Tiansheng Huang and Fatih Ilhan and S. Tekin and Ling Liu 背景 LLMを用いたスマートコントラクト脆弱性の検出は、精度 向上と誤検知の抑制が課題。 目的 スマートコントラクトの真の脆弱性を多く特定し、誤検知 を減らすこと。 提案 二段階プロセスである GPTLENSを提案し、 LLMが監査 者と批評家を兼任。 評価 監査者と批評家による協調動作を実験で評価し、モデルの 改善を確認。 結果 新方法は従来法よりも誤検知を減少させ、適用範囲を広げ ることが判った。
  129. 大規模言語モデルによるマクロ経済活動のシ ミュレーション Large Language Model-Empowered Agents for Simulating Macroeconomic Activities

    Nian Li and Chen Gao and Yong Li and Qingmin Liao 背景 ウェブの登場でデジタル経済が進化し、データ駆動型のマ クロ経済モデリングが重要視される。 目的 LLMsをマクロ経済シミュレーションに活用し、人間らし い意思決定の課題を克服すること。 提案 プロンプトエンジニアリングを駆使した LLMエージェント で人間のような経済意思決定を導入。 評価 マクロ経済活動のシミュレーションを通じて、 LLMエージ ェントの現実的な意思決定を検証。 結果 LLMエージェントは従来より合理的なマクロ経済現象を 生み出すと示された。
  130. 異なる世界観を持つ LLM: LLMベースのエー ジェントで異星人文明をシミュレートする What if LLMs Have Different World

    Views: Simulating Alien Civilizations with LLM- based Agents Mingyu Jin and Beichen Wang and Zhaoqian Xue and Suiyuan Zhu and Wenyue Hua and Hua Tang and Kai Mei and Mengnan Du and Yongfeng Zhang 背景 スティーブン・ホーキングの警告に基づき、異星人文明と の相互作用がテーマです。 目的 平和的共存の実現可能性を評価し、リスクを考慮に入れま す。 提案 CosmoAgentフレームワークを用い、異なる文明間の倫 理的相互作用をシミュレートします。 評価 数理モデルと状態遷移行列を使い、文明の発展を定量的に 評価します。 結果 異星間紛争防止のための新しい戦略が示唆されました。
  131. 大規模言語モデルベースのエージェントにお けるメモリ共有 Memory Sharing for Large Language Model based Agents

    Hang Gao and Yongfeng Zhang 背景 LLMベースのエージェントは自然言語プロンプトでタスク を実行しますが、例の多様性に制約があります。 目的 メモリ共有フレームワークで個別の知性を集団知へ進化さ せる問題を解決します。 提案 リアルタイムメモリフィルターと動的メモリプールを用い て、複数エージェントの記憶共有を実現します。 評価 3つの専門タスク分野でフレームワークの有効性を実験的 に評価しました。 結果 MSフレームワークは、エージェントがオープンエンド質 問に答える能力を大幅に向上させました。
  132. (不確定な )心の理論の評価 : 対話予測におけ る他者の不確かな信念の予測 Evaluating Theory of (an uncertain)

    Mind: Predicting the Uncertain Beliefs of Others in Conversation Forecasting Anthony Sicilia and Malihe Alikhani 背景 従来、心の理論は信念を二元的に捉えており、不確実な信 念の量的評価が求められています。 目的 対話における他者の不確実な信念を予測することで、心の 理論における新たな視点を提供します。 提案 言語モデルを活用し、対話者の不確実性をモデル化する新 しいタスク群を提案します。 評価 再スケーリング、分散削減、人口統計を用いた 3つのコー パスでの実験を行い、 8つの LMの性能を評価しました。 結果 言語モデルは他者の不確実性の最大 7%の分散を説明しま すが、さらなる研究の必要性を指摘します。
  133. 大規模言語モデルによる生物医学的仮説生成 の包括的評価 Large Language Models as Biomedical Hypothesis Generators: A

    Comprehensive Evaluation Biqing Qi and Kaiyan Zhang and Kai Tian and Haoxiang Li and Zhang-Ren Chen and Sihang Zeng and Ermo Hua and Jinfang Hu and Bowen Zhou 背景 急速な知識増加で効率的に洞察や仮説を得るのが困難。 目的 LLMsを生物医学仮説生成に活用する可能性を評価。 提案 データセットと新しい指標を用い、 LLMの仮説生成を検 証。 評価 ゼロショットやマルチエージェントで多角的に性能を評 価。 結果 LLMは新しい仮説生成が可能で、不確実性が性能を向上。
  134. 檻から出たインコ : 確率的インコはサイバー セキュリティ環境でどのように勝利するか Out of the Cage: How Stochastic

    Parrots Win in Cyber Security Environments M. Rigaki and Ondrej Lukás and C. Catania and S. García 背景 LLMは多様な自然言語処理タスクで注目されており、そ の適用範囲を拡大しています。 目的 サイバーセキュリティ環境で LLMが複雑な意思決定を支援 可能かを解明することが目的です。 提案 事前学習された LLMを利用し、攻撃エージェントとしての 能力を評価します。 評価 強化学習環境で最先端エージェントと比較することで性能 を検証しました。 結果 最高の LLMエージェントは追加訓練なしで人間に匹敵す る結果を示しました。
  135. デジタルライフプロジェクト : 社会的知性を 持つ自律型 3Dキャラクター Digital Life Project: Autonomous 3D

    Characters with Social Intelligence Zhongang Cai and Jian-Dong Jiang and Zhongfei Qing and Xinying Guo and Mingyuan Zhang and Zhengyu Lin and Haiyi Mei and Chen Wei and Ruisi Wang and Wanqi Yin and Xiangyu Fan and Han Du and Liang Pan and 背景 3Dキャラクターの社会的相互作用を強化するため、信頼 性と多様性のある動きが求められている。 目的 自律的対話と文脈的動作を可能にするキャラクター生成を 目指す。 提案 SocioMindと MoMat-MoGenを開発し、人格と動作の 自律モデルを提供。 評価 各モジュールの性能を評価するため、広範な実験を実施。 結果 各モジュールが最高水準のパフォーマンスを達成し、目指 すキャラクター生成が可能に。
  136. JaxLife: オープンエンドのエージェントシ ミュレーター JaxLife: An Open-Ended Agentic Simulator Chris Lu

    and Michael Beukman and Michael Matthews and Jakob Foerster 背景 人間の知能のような進化をデジタルで再現することが重要 視される。 目的 世代を超えた文化と技術を蓄積できるエージェントの進化 を目指す。 提案 JaxLifeという人工生命シミュレーターを用いて研究を行 う。 評価 環境でのエージェントの行動を分析し、計算能力を測定す る。 結果 エージェントの複雑な行動が観察され、進化的研究の一歩 となると示唆。
  137. 事前登録された合成実験 Pre-registered Synthetic Experiment Raymond Duch and Piotr Kotlarz 背景

    AIを用いてランダム化試験の効率を改善する技術が求めら れます。 目的 合成被験者の決定が実験の有用性を向上させるか検証しま す。 提案 合成被験者による試験をヒト試験と並行して実施します。 評価 合成人体試験の結果を人間の試験結果と比較評価します。 結果 合成被験者の治療効果が実証されれば試験効率が増しま す。
  138. SceMQA: 科学的大学入試レベルのマルチモ ーダル質問応答ベンチマーク SceMQA: A Scientific College Entrance Level Multimodal

    Question Answering Benchmark Zhenwen Liang and Kehan Guo and Gang Liu and Taicheng Guo and Yujun Zhou and Tianyu Yang and Jiajun Jiao and Renjie Pi and Jipeng Zhang and Xiangliang Zhang 背景 既存のベンチマークでは見過ごされがちな大学入試レベル の科学教育を対象。 目的 AIモデルの推論能力をより正確に評価するためのベンチマ ークを提供。 提案 SceMQAは選択式と自由回答を組み合わせた新しい評価 基準を提案。 評価 オープン・クローズドソース MLLMを多様な実験設定で評 価。 結果 最強のモデルでも最大 60%の精度で、さらなる研究が必 要。
  139. 大規模言語モデルを活用したソーシャルネッ トワークシミュレーションシステム S3: Social-network Simulation System with Large Language Model-Empowered

    Agents Chen Gao and Xiaochong Lan and Zhi-jie Lu and Jinzhu Mao and J. Piao and Huandong Wang and Depeng Jin and Yong Li 背景 ソーシャルネットワークシミュレーションは、社会科学で 政策立案などの課題解決に重要です。 目的 LLMを用いて、人間的な感情や行動をシミュレートする 新しい手法を提案します。 提案 大規模言語モデルとプロンプト技術を用いたエージェント ベースのシミュレーションを構築しました。 評価 現実のソーシャルネットワークデータによる二層のシミュ レーション評価を行いました。 結果 得られた結果は、高精度の現象予測と新たなインスピレー ションを提供しました。
  140. 拡張現実と知識仕事の未来:機会と課題 Extended Realities and the Future of Knowledge Work: Opportunities

    and Challenges A. Queiroz and Jeremy N. Bailenson and K. Blair and Daniel L. Schwartz and Candace Thille and Anthony David Wagner 背景 XR技術の普及により、職場環境の変化が必須となりまし た。 目的 研究は XRが知識仕事に与える影響を分析することです。 提案 XRは職場のトレーニング、コミュニケーションを進化さ せます。 評価 XR導入における課題と利益についてバランス良く論じま した。 結果 XRは職場環境を変革する可能性を持ちつつ、倫理的配慮 が必要です。
  141. 教師モデルと生徒の好みを一致させたトレー ニングデータ生成 Aligning Teacher with Student Preferences for Tailored Training

    Data Generation Yantao Liu and Zhao Zhang and Zijun Yao and S. Cao and Lei Hou and Juanzi Li 背景 **大規模言語モデル (LLMs)**のエッジデバイス展開はプ ライバシーと低遅延のために重要。 目的 教師モデルを生徒の好みに合わせてトレーニング例を生成 する問題を解決。 提案 生徒の好みに基づいて教員モデルを調整する ARTEという フレームワークを提案。 評価 学術ベンチマークで ARTEの効果を既存手法と比較し、広 範囲な実験を実施。 結果 ARTEは既存データセットを超える性能を示し、生成デー タの一般化も確認。
  142. LLM搭載の仮想フォーカスグループ : Focus Agent Focus Agent: LLM-Powered Virtual Focus Group

    Taiyu Zhang and Xuesong Zhang and Robbe Cools and Adalberto L. Simeone 背景 フォーカスグループはリソースが多く必要で、スキルのあ るモデレーターが求められている。 目的 フォーカスグループの効率化とデータ品質の改善を目指 す。 提案 LLMを活用した Focus Agentが人間のモデレーターの役割 を果たす。 評価 23人と AI参加者によるフォーカスグループセッションでデ ータを評価した。 結果 Focus Agentは人間並みの意見生成が可能であることが示 された。
  143. HI-TOM: 大規模言語モデルにおける高次の 心の理論推論を評価するベンチマーク HI-TOM: A Benchmark for Evaluating Higher-Order Theory

    of Mind Reasoning in Large Language Models Yinghui He and Yufan Wu and Yilin Jia and Rada Mihalcea and Yulong Chen and Naihao Deng 背景 心の理論( ToM)は人間の知能発展にとり重要ですが、研 究はまだ限られています。 目的 高次の ToMに焦点を当て、現行の大規模言語モデルの限界 を明らかにすることです。 提案 HI-TOMと呼ばれる高次の心の理論のベンチマークを提案 します。 評価 様々な大規模言語モデルを用いて、高次の ToMタスク性能 を実験的に評価しました。 結果 高次の ToMタスクでの性能低下が明らかになり、 LLMの 限界を示しました。
  144. 大規模言語モデルにおけるコンテキスト長拡 張技術の概要 - 詳細調査 The What, Why, and How of

    Context Length Extension Techniques in Large Language Models - A Detailed Survey Saurav Pawar and S. Tonmoy and S. M. M. Zaman and Vinija Jain and Aman Chadha and Amitava Das 背景 大規模言語モデルはテキスト理解と生成の進展に寄与しま すが、コンテキスト長の制限があります。 目的 コンテキスト長の拡張が NLPアプリケーションの性能向上 に不可欠であることを明らかにします。 提案 研究者が採用する既存の戦略を体系的に整理し、課題を提 示します。 評価 コンテキスト拡張技術の評価基準に関する研究コミュニテ ィの合意点と課題を探ります。 結果 本調査は、研究者が未来の進展を議論するための貴重なリ ソースを提供します。
  145. "私は唯一のサイバー BFF": ジェネレーティ ブ AIの影響理解には人格化された AIの影響理 解が必要 "I Am the

    One and Only, Your Cyber BFF": Understanding the Impact of GenAI Requires Understanding the Impact of Anthropomorphic AI Myra Cheng and Alicia DeVrio and Lisa Egede and Su Lin Blodgett and Alexandra Olteanu 背景 ジェネレーティブ AIの発展と社会的影響が重要視されてい ます。 目的 人格化された AIの社会的影響を理解することが目的です。 提案 人格化 AIの影響を分析し行動を呼びかけています。 評価 人格化 AIの社会的影響をマッピングすることを提案しま す。 結果 人格化 AIの重要性を強調し社会的課題を提起します。
  146. LLMの文化的価値の違い : プロンプト、言 語、モデルサイズ Cultural Value Differences of LLMs: Prompt,

    Language, and Model Size Qishuai Zhong and Yike Yun and Aixin Sun 背景 LLMの文化的価値における行動パターンが明確でないた め、調査が必要とされる。 目的 異なる文化的価値観を持つ LLMの行動パターンを特定す ることが目的です。 提案 言語とモデルサイズが LLMの文化的価値に大きな影響を与 えることを示す。 評価 異なるプロンプト言語やモデルサイズによる LLMの行動パ ターンを実験的に分析。 結果 主要因は問い合わせ言語とモデルサイズが文化的価値の違 いを引き起こすことを発見。
  147. システムメッセージ一般化による数千の嗜好 に対応 Aligning to Thousands of Preferences via System Message

    Generalization Seongyun Lee and Sue Hyun Park and Seungone Kim and Minjoon Seo 背景 人間の多様な価値観に合わせた LLMの調整はスケーラビリ ティの課題がある。 目的 個々の嗜好に対応した LLM調整の新たなアプローチを示す こと。 提案 ユーザーの価値観に応じて LLMの生成行動を変える新しい 枠組みを提案する。 評価 192kの価値の組み合わせデータで Janusを訓練し、様々 なプロンプトで評価。 結果 特定のベンチマークで高い引き分け +勝率を示し、一般公 衆の嗜好にも適応。
  148. 大規模言語モデルを用いたコミュニケーショ ンゲームの探求:人狼における実証研究 Exploring Large Language Models for Communication Games: An

    Empirical Study on Werewolf Yuzhuang Xu and Shuo Wang and Peng Li and Fuwen Luo and Xiaolong Wang and Weidong Liu and Yang Liu 背景 コミュニケーションゲームは、自然言語と不完全情報に基 づくため、幅広い分野で研究価値がある。 目的 本研究は、大規模言語モデルをコミュニケーションゲーム に参加させる方法を探ることを目的とする。 提案 LLMsを固定し、過去のコミュニケーションの検索と反映 を用いるチューニング不要のフレームワークを提案する。 評価 代表的なコミュニケーションゲーム「人狼」においてフレ ームワークの有効性を実証的に検証する。 結果 提案手法は、 LLMsのパラメータを固定したまま、効果的 に人狼ゲームをプレイできると結論付けた。
  149. 大規模生成モデル時代のコンピューティング : クラウドネイティブから AIネイティブへ Computing in the Era of Large

    Generative Models: From Cloud-Native to AI-Native Yao Lu and Song Bian and Lequn Chen and Yongjun He and Yulong Hui and Matthew Lentz and Beibin Li and Fei Liu and Jialin Li and Qi Liu and Rui Liu and Xiaoxuan Liu and Lin Ma and Kexin Rong and Jianguo Wang and 背景 大規模生成 AIモデルは革新をもたらす一方、コストや GPU需要が高まり問題視されています。 目的 クラウドネイティブ技術と AIモデルを統合し、効率とリソ ース最適化を達成することが目的です。 提案 AIネイティブなコンピューティングパラダイムを提案し、 既存技術を活用して効率を向上させます。 評価 クラウドネイティブ技術と機械学習ランタイムを用いた費 用対効果の評価を実施しました。 結果 商品売上原価を最適化し、リソースアクセスの向上を示し ました。
  150. RecMind: 推薦のための大規模言語モデル駆 動エージェント RecMind: Large Language Model Powered Agent For

    Recommendation Yancheng Wang and Ziyan Jiang and Zheng Chen and Fan Yang and Yingxue Zhou and Eunah Cho and Xing Fan and Xiaojiang Huang and Yanbin Lu and Yingzhen Yang 背景 現在の RSは特定タスクに特化しており汎用性に欠ける。 目的 外部知識を活用した自律推薦エージェントの開発を目指 す。 提案 Self-Inspiringアルゴリズムにより計画能力を向上させ た RecMindを提案。 評価 RecMindのパフォーマンスを多様な推薦シナリオで評価。 結果 RecMindは他の方法を上回るパフォーマンスを示し、 P5 に匹敵する。
  151. 悪の天才 : LLMベースの代理人の安全性を探 る Evil Geniuses: Delving into the Safety

    of LLM-based Agents Yu Tian and Xiao Yang and Jingyuan Zhang and Yinpeng Dong and Hang Su 背景 LLMベースのエージェントは人間のような行動を示す が、複雑性からリスクがある。 目的 エージェントの安全性向上のため、リスクの特定と評価を 行う。 提案 Evil Geniusesという攻撃手法でプロンプト生成を自動 化し影響を分析。 評価 CAMELなどを用い、 GPT-3.5/GPT-4で攻撃手法の効果 を検証。 結果 エージェントは脆弱性が高く、秘匿性のある有害な行動を 取りやすい。
  152. MentalAgora: 多エージェント討論と属性制 御を通じたメンタルヘルスにおける先進的な 個別ケアへのゲートウェイ MentalAgora: A Gateway to Advanced Personalized

    Care in Mental Health through Multi-Agent Debating and Attribute Control Yeonji Lee and Sangjun Park and Kyunghyun Cho and Jinyeong Bak 背景 メンタルヘルス問題の深刻化により、先進的デジタル支援 の必要性が増しています。 目的 個別化されたメンタルヘルス支援の提供を目指し、対象ユ ーザーのニーズに応えることが目的です。 提案 MentalAgoraは大規模言語モデルと多エージェント討論 を用いた新しい枠組みを提案します。 評価 TherapyTalk評価データセットでの実験とユーザー調査 により、提案手法の有効性を検証しました。 結果 MentalAgoraは専門家基準に沿った応答を生成し、ユーザ ーの好みを満たす効果が示されました。
  153. InfLLM: 効率的なコンテキストメモリを用い た LLMのトレーニング不要の長いコンテキス ト外挿 InfLLM: Training-Free Long-Context Extrapolation for

    LLMs with an Efficient Context Memory Chaojun Xiao and Pengle Zhang and Xu Han and Guangxuan Xiao and Yankai Lin and Zhengyan Zhang and Zhiyuan Liu and Song Han and Maosong Sun 背景 既存の LLMは長いシーケンスの処理が課題で、効率的な解 決策が求められています。 目的 トレーニング不要で LLMが長いシーケンスを処理可能にす る手法の提案。 提案 遠隔コンテキストをメモリ単位に保存し、効率的に検索す る InfLLMを提案。 評価 InfLLMを用いて 1024Kトークンのシーケンスでの性能を 評価しました。 結果 InfLLMは、従来の方法と同等の性能をトレーニングなし で達成しました。
  154. City-LEO: 透明性のある都市管理を実現す るための LLMとエンドツーエンド最適化 City-LEO: Toward Transparent City Management Using

    LLM with End-to-End Optimization Zihao Jiao and Mengyi Sha and Haoyu Zhang and Xinyu Jiang and Wei Qi 背景 従来の ORモデルはスマートシティ管理に必須ですが、モ デルの複雑さが制約でした。 目的 この研究は LLMを活用して、都市管理の効率と透明性を向 上させることを目的としています。 提案 提案手法「 City-LEO」は LLMと E2Eモデルを融合し、最 適化を効率化します。 評価 eバイクシェアリングでの運営管理を通じて City-LEOの性 能を数値的に評価しました。 結果 City-LEOは計算時間を減らし、満足度の高い解決策を提 供することを実証しました。
  155. AgentCoord: LLMベースのマルチエージェ ント協調 戦略の視覚的探索 AgentCoord: Visually Exploring Coordination Strategy for

    LLM-based Multi-Agent Collaboration Bo Pan and Jiaying Lu and Ke Wang and Li Zheng and Zhen Wen and Yingchaojie Feng and Minfeng Zhu and Wei Chen 背景 LLMによるマルチエージェント協調は自然言語の曖昧さ から戦略設計が困難。 目的 視覚的手法でユーザーによる協調戦略設計の支援を目的と する。 提案 ユーザー目標を変換する三段階生成方式と視覚的探索フレ ームワークを提案。 評価 プロトタイプ AgentCoordを開発し、形式的ユーザー調 査で評価。 結果 視覚的フレームワークが戦略設計を効果的に支援すること を確認。
  156. 大規模言語モデルにおける非合理性と認知バ イアス (Ir)rationality and cognitive biases in large language models

    Olivia Macmillan-Scott and Mirco Musolesi 背景 LLMは訓練データに由来する人間のバイアスを持つこと が知られています。 目的 合理的推論における LLMの能力を評価し、詳細を明らか にすることが目的です。 提案 認知心理学の課題を使用して、 LLMの合理性を評価しま す。 評価 7つの言語モデルに対して認知心理学の文献からの課題を 使用しました。 結果 LLMは人と異なる方法で非合理性を示し、回答の一貫性 も欠如しています。
  157. AgentClinic: シミュレーションされた臨床 環境で AIを評価するマルチモーダルエージェ ントベンチマーク AgentClinic: a multimodal agent benchmark

    to evaluate AI in simulated clinical environments Samuel Schmidgall and Rojin Ziaei and Carl Harris and Eduardo Reis and Jeffrey Jopling and Michael Moor 背景 臨床作業の複雑性を反映した新しい AI評価が必要です。 目的 AIの対話型意思決定能力をシミュレートされた環境で評 価。 提案 AgentClinicは、マルチモーダルな対話を通じ AIを評価 するベンチマークです。 評価 医師と患者のエージェントにおけるバイアスの影響と LLM の性能を分析。 結果 バイアスが診断精度や患者の行動に大きく影響することを 発見。
  158. 異種知識を用いた拡張モジュラ強化学習 Heterogeneous Knowledge for Augmented Modular Reinforcement Learning Lorenz Wolf

    and Mirco Musolesi 背景 モジュラ RLは再利用性が高いが、異種の知識を統合できな い。 目的 異種知識を統合し、強化学習の限界を克服すること。 提案 AMRLフレームワークで異種の知識をセレクトする手法を 提案。 評価 セレクターによるモジュール統合で性能改善を確認。 結果 異種知識で従来のモジュール RLの効率と一般化を向上。
  159. 基盤モデルがビジュアライゼーションと出会 う : 課題と機会 Foundation Models Meet Visualizations: Challenges and

    Opportunities Weikai Yang and Mengchen Liu and Zheng Wang and Shixia Liu 背景 基盤モデルはその適応性で AIシステム構築において重要で あり、新たな研究としてビジュアライゼーションとの組み合わ 目的 本研究は、基盤モデルとビジュアライゼーションの交差点 における課題と機会を明らかにすることを目的とする。 提案 ビジュアライゼーションを用いた基盤モデルの理解と評価 ( VIS4FM)と、基盤モデルによるビジュアライゼーションの 評価 VIS4FMでは透明性や説明可能性、 FM4VISでは技術的進 展の可能性に関する分析を行う。 結果 基盤モデルとビジュアライゼーションの交差は有望である が、同時に新しい課題も提起する。
  160. プライベート思考の効果 : ゲームプレイにお ける大規模言語モデルの欺き Effect of Private Deliberation: Deception of

    Large Language Models in Game Play Kristijan Poje and Mario Brcic and Mihael Kovač and Marina Bagić Babac 背景 ゲーム理論における戦略的意思決定で人間の行動を再現す るための研究。 目的 プライベート思考と欺瞞を用いたエージェントの性能向 上。 提案 プライベートエージェントの導入とその戦略的利用法を提 案。 評価 POSGフレームワークと ICL, CoTを使い競争的・協力的 シナリオを評価。 結果 長期報酬での優位性を示しつつ、アルゴリズムの欠陥も浮 き彫りに。
  161. 基盤モデルエージェントのアーキテクチャオ プションの分類 : 分析と意思決定モデル A Taxonomy of Architecture Options for

    Foundation Model-based Agents: Analysis and Decision Model Jingwen Zhou and Qinghua Lu and Jieshan Chen and Liming Zhu and Xiwei Xu and Zhenchang Xing and Stefan Harrer 背景 AI技術の進展により、エージェントシステムの設計と運用 が重要かつ複雑になっている。 目的 基盤モデルエージェントの設計改善により、断片化された 現状を解決すること。 提案 基盤モデルエージェントのアーキテクチャを分類し、統一 的に設計プロセスをガイドする。 評価 設計と実行時の側面を含むアーキテクチャの詳細な分類と 意思決定モデルの構築。 結果 基盤モデルエージェントの設計プロセスが向上し、構造化 された開発が可能に。
  162. AIコラボレーター : 教育および専門分野にお ける人間と AIの相互作用の架け橋 The AI Collaborator: Bridging Human-AI

    Interaction in Educational and Professional Settings M. Samadi and Spencer Jaquay and Jing Gu and Nia Nixon 背景 人間と AIのコラボレーション研究は、教育と職業的環境で 重要性が増しています。 目的 多様な実験環境に対応する AIパーソナ生成を通じ、チーム ダイナミクスを研究。 提案 AI Collaboratorはカスタマイズ可能な AIパーソナを作成 し、その影響を調査します。 評価 研究者がユーザーフレンドリーなインターフェースで AIパ ーソナの行動を調整する。 結果 AIと人間のチームダイナミクスに対する理解を深化させる 重要なリソースとなる。
  163. 大規模言語モデルベースの自律エージェント に関する調査 A Survey on Large Language Model based Autonomous

    Agents Lei Wang and Chengbang Ma and Xueyang Feng and Zeyu Zhang and Hao-ran Yang and Jingsen Zhang and Zhi-Yang Chen and Jiakai Tang and Xu Chen and Yankai Lin and Wayne Xin Zhao and Zhewei Wei and Ji-rong 背景 以前の研究は孤立環境での訓練に焦点を当て、人間学習プ ロセスと乖離。 目的 LLMによる自律エージェントの人間レベル知能達成を探 索する。 提案 LLMベースのエージェントの統一フレームワークと応用 を提案。 評価 LLMエージェントの評価戦略とその手法を詳細に分析。 結果 研究から得た課題と将来の方向性を提示し、参考文献をま とめる。
  164. 生成 AIに関する初期政策の考察 Initial policy considerations for generative artificial intelligence Philippe

    Lorenz and Karine Perset and J. Berryhill 背景 生成 AIは教育や医療で変革を促すが、社会的課題を引き起 こす。 目的 政策的考慮を助け、生成 AIの課題への対応を支援する。 提案 生成 AIの政策課題に関する初期的な考察を提供する。 評価 具体的な実験や分析手法は言及されていない。 結果 生成 AIの社会的影響に関する考慮事項を提示する。
  165. 計算実験と大規模言語モデルを基盤としたエ ージェント : 調査と展望 Computational Experiments Meet Large Language Model

    Based Agents: A Survey and Perspective Qun Ma and Xiao Xue and Deyu Zhou and Xiangning Yu and Donghua Liu and Xuwen Zhang and Zihan Zhao and Yifan Shen and Peilin Ji and Juanjuan Li and Gang Wang and Wanpeng Ma 背景 計算実験は、複雑な社会システムを研究する重要な手法と して注目されています。 目的 ABMの人間特性表現の限界を、 LLMで補完する可能性を 探ることです。 提案 LLMベースエージェントが計算実験での人間らしさを向 上させることを提案します。 評価 LLMの説明性と計算実験の因果分析能力の融合を論じてい ます。 結果 計算実験と LLMの融合は、社会科学での応用に大きな可能 性があります。
  166. アバロンゲームでの即席チームワークを探索 する言語エージェント Cooperation on the Fly: Exploring Language Agents for

    Ad Hoc Teamwork in the Avalon Game Zijing Shi and Meng Fang and Shunfeng Zheng and Shilong Deng and Ling Chen and Yali Du 背景 マルチエージェントシステムは、複雑なシナリオでの協力 が未開発で、即席チームワークが必要。 目的 自然言語駆動の環境で、 LLMエージェントの協力能力を 検証すること。 提案 延長されたメモリとコード駆動の推論を持つ CodeActエー ジェントを開発。 評価 LLMエージェントの幻覚問題を探り、部分情報での迅速な 適応を分析。 結果 CodeActが新しいチームメイトへの高速適応を可能にす ることを示す。
  167. GameGPT: ゲーム開発のためのマルチエー ジェント協働フレームワーク GameGPT: Multi-agent Collaborative Framework for Game Development

    Dake Chen and Hanbin Wang and Yunhao Huo and Yuzhao Li and Haoyang Zhang 背景 LLMエージェントによるソフトウェア自動化が普及する 中、ゲーム開発に特有の課題が存在。 目的 ゲーム開発を効率化し、自動化するための新たな枠組みを 提案すること。 提案 GameGPTフレームワークにより、幻覚や冗長性を抑制 する多層的アプローチを紹介。 評価 実験により幻覚と冗長性の改善効果を評価し、精度向上を 確認する。 結果 ゲーム開発の効率と正確性を向上させる有効性を実証。
  168. C2Ideas: 大規模言語モデルによる創造的イ ンテリアカラーデザインの発想支援 C2Ideas: Supporting Creative Interior Color Design Ideation

    with a Large Language Model Yihan Hou and Manling Yang and Hao Cui and Lei Wang and Jie Xu and Wei Zeng 背景 インテリアカラーのデザインは、ユーザーの意図と一致し たデザインが難しい。 目的 C2Ideasは、デザイナーが創造的に色の発想を得る支援 を目的とする。 提案 大規模言語モデルを用いた、意図と一致した色の提案シス テムを開発。 評価 一連の屋内ケースとユーザースタディでシステムの効果を 評価。 結果 システムの効果が実証され、インタラクティブ性が高評価 を得た。
  169. マルチ LLM間のネットワーク形成とダイナミ クス Network Formation and Dynamics Among Multi-LLMs Marios

    Papachristou and Yuan Yuan 背景 ソーシャルネットワークは意見や行動、情報の伝播に影響 し、その研究は重要です。 目的 LLMのネットワーク形成が人間の社会動態とどのように 異なるかを明らかにすること。 提案 LLMが優先的接続やトリアディッククロージャーなどの原 理を示すかを分析しました。 評価 リアルネットワークにおける LLMの意思決定プロセスを調 査し、その影響力を評価しました。 結果 トリアディッククロージャーとホモフィリーが LLMに強い 影響を与え、予測性能が高いことが判明しました。
  170. 社会的知能の発展に向けた反射的言語プログ ラミング (RLP) Reflective Linguistic Programming (RLP): A Stepping Stone

    in Socially-Aware AGI (SocialAGI) Kevin Fischer 背景 対話型 AIにおける自己認識と戦略計画の重要性が増してい ます。 目的 文脈的に豊かで一貫性のある対話を可能にする AI技術の探 求。 提案 自己内省を利用した反射的言語プログラミング (RLP) を 提案。 評価 仮想キャラクター Bogusを用いたケーススタディでモデ ルの行動評価。 結果 RLPは自発的に高度な行動を生成し、社会的 AGIの可能性 を示唆。
  171. ChatGPT時代のソーシャルボット検出 : 課題 と機会 Social bot detection in the age

    of ChatGPT: Challenges and opportunities Emilio Ferrara 背景 AI生成の会話と行動が急増し、ソーシャルボット検出が重 要視されています。 目的 AI生成の会話による新たな課題に焦点を当てた有効な検出 手法の確立が目的です。 提案 マルチモーダルかつクロスプラットフォームの検出を可能 にする手法を提案します。 評価 生成エージェントと合成データを用いたテストと評価を行 いました。 結果 効率的な検出のための新たな研究方向性と機会を示唆しま した。
  172. DesignGPT: デザインにおけるマルチエー ジェント協力 DesignGPT: Multi-Agent Collaboration in Design Shiying Ding

    and Xinyi Chen and Yan Fang and Wenrui Liu and Yiwu Qiu and Chunlei Chai 背景 生成的 AIは、製品デザインのワークフローにおけるインタ ーフェースの使いやすさと相互作用で課題がある。 目的 デザインプロセスで生成的 AIの課題を解決し、人間デザイ ナーの効率を向上させること。 提案 DesignGPTは、 AIエージェントで異なるデザイン役割を シミュレートし、自然言語で協力するフレームワークを提供。 評価 実験では、個別の AIツールと比較して、デザイナーのパフ ォーマンス向上を評価。 結果 DesignGPTは、マルチエージェントシステム応用でデザ イナーの効率を向上させる可能性を示す。
  173. 学習エージェントによる経済システムのエー ジェントベースシミュレーション ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning

    Agents Kshama Dwarakanath and Svitlana Vyetrenko and P. Tavallali and T. Balch 背景 経済システムにおけるエージェントの異質性と相互作用を 理解するためです。 目的 エージェントベースのシミュレーションで経済システムの 理解を深めることです。 提案 強化学習戦略を用いたマルチエージェントシミュレーター を提案しています。 評価 2つの仮説経済シナリオを用いてシミュレーションを行い ました。 結果 家庭のスキルや生産ショックが経済戦略に与える影響を示 しました。
  174. MetaUrban: 都市空間におけるエンボディ ッド AIのためのシミュレーションプラットフ ォーム MetaUrban: A Simulation Platform for

    Embodied AI in Urban Spaces Wayne Wu and Honglin He and Yiran Wang and Chenda Duan and Jack He and Zhizheng Liu and Quanyi Li and Bolei Zhou 背景 公共の都市空間には、近年ロボットなど非人間利用者が増 加しているが、安全性に課題がある。 目的 本研究は、都市空間で安全かつ一般化可能なエンボディッ ド AIシステムを開発することを目的とする。 提案 MetaUrbanは、無限の都市シーンを生成可能なシミュレー ションプラットフォームを提供する。 評価 ポイントナビゲーションやソーシャルナビゲーションの実 験を通じて、学習モデルの一般化と安全性を評価した。 結果 シミュレーション環境の特性により、移動エージェントの 一般化可能性と安全性が向上した。
  175. より安全な AR体験を実現する : プライバシー の介入とユーザビリティの向上 Enabling Safer Augmented Reality Experiences:

    Usable Privacy Interventions for AR Creators and End-Users Shwetha Rajaram 背景 ARの普及によって、ユーザーと傍観者のプライバシーリ スクが増大しています。 目的 ARを活用しつつプライバシーを保護する方法を模索しま す。 提案 AR作成者とユーザーがプライバシーリスクに対処するツ ールとフレームワークを提案します。 評価 ARおよびプライバシー専門家との研究を通じてフレーム ワークを開発しました。 結果 ARエコシステムでプライバシー意識を向上させる結論に 至りました。
  176. 人工エージェントが自律的に研究を行う概念 についての思索的探求 Speculative Exploration on the Concept of Artificial Agents

    Conducting Autonomous Research Shiro Takagi 背景 人工エージェントが自律的に研究を行う能力に関する可能 性と課題を探求する。 目的 研究の自律的実行を可能にするための基礎概念を明らかに し、議論を促進する。 提案 問題形成、仮説生成、仮説検証が研究の核心要素としての 役割を果たす。 評価 機械の可能性と課題を概念的に検討し、プロトタイピング の初期考察を行う。 結果 研究可能なエージェントの開発における初期ステップと課 題を明らかにする。
  177. 非協調的環境における LLMベースの多エージ ェント詩生成 LLM-based multi-agent poetry generation in non-cooperative environments

    Ran Zhang and Steffen Eger 背景 LLMsによる詩生成は多様性の不足が課題であり、プロセ スが人間とは異なる。 目的 人間の学習に近づけ、詩の多様性と新規性を高めることを 目指す。 提案 非協調的な相互作用を含む社会的学習フレームワークを導 入。 評価 96,000の詩生成で TRAININGと PROMPTINGエージェン トを比較した。 結果 TRAININGエージェントの多様性と新規性が向上し、異な るスタイルを示した。
  178. Roleplay-doh: ドメイン専門家による LLM シミュレーション患者の作成を原則に基づい て実現 Roleplay-doh: Enabling Domain-Experts to Create

    LLM-simulated Patients via Eliciting and Adhering to Principles Ryan Louie and Ananjan Nandi and William Fang and Cheng Chang and E. Brunskill and Diyi Yang 背景 LLMロールプレイは社会技能向上を支援できますが、メ ンタルヘルスなどのセンシティブな領域でのシミュレーション 目的 専門家のフィードバックを生かし、安全で効果的な AI患者 シミュレーションを可能にすることです。 提案 Roleplay-dohパイプラインは専門家のフィードバックを 原則に変換し、 LLMロールプレイを統制します。 評価 25名のカウンセリング専門家によるユーザー調査で AI患者 作成の有効性を検証しました。 結果 応答品質と原則遵守が 30%向上し、 AI患者はより現実的だ と評価されました。
  179. エージェントベースモデルにおける主体性の 限界について On the limits of agency in agent-based models

    Ayush Chopra and Shashank Kumar and Nurullah Giray Kuru and Ramesh Raskar and A. Quera-Bofarull 背景 ABMは複雑システムの振る舞いを理解する方法で、 LLM の進展により新たな可能性が。 目的 LLMを利用して、エージェントの適応的行動を大規模にリ アルにシミュレートすること。 提案 AgentTorchを用いて LLMをエージェントに用い、数百万 規模で高解像度なシミュレーションを実現。 評価 COVID-19パンデミックを例に LLMとヒューリスティック エージェントの性能を比較。 結果 AgentTorchは、孤立や雇用の健康経済影響を捉え、政策 設計に新たな示唆を提供。
  180. 自己プレイと AIフィードバックからの文脈学 習を用いた言語モデル交渉の改善 Improving Language Model Negotiation with Self-Play and

    In-Context Learning from AI Feedback Yao Fu and Hao-Chun Peng and Tushar Khot and Mirella Lapata 背景 LLM同士で自律的に改善し合う研究は、人間の介入を最小 限に抑える強力な AIの創造に貢献します。 目的 LLM間での交渉を通じて、自律改善が可能かを確認するこ とが目的です。 提案 交渉ゲームで第三のモデルがフィードバックを提供し、モ デル間の能力を向上させます。 評価 異なる LLMにおける役割ごとの取引価格を基に、フィード バックの有効性を評価します。 結果 一部のモデルは AIフィードバックで改善可能ですが、役割 別で異なる学習能力が見られました。
  181. LLMエージェントは社会的行動を示すか? Do LLM Agents Exhibit Social Behavior? Yan Leng and

    Yuan Yuan 背景 LLMsが社会システムのシミュレーションや人間の代替で 期待されている。 目的 LLMsの社会的相互作用原理を検証し、人間との違いを探 る。 提案 古典的実験を LLMエージェントに適用し、その社会的行 動を分析する。 評価 ゼロショット学習を用いて LLMsの社会的選好を評価する 実験を行った。 結果 LLMsは人間らしい社会行動を示すが、フェアネスが顕著 で違いがある。
  182. 感受性の合成 : 大規模言語モデルと自律型エ ージェントの統合による人間の認知的複雑性 の模倣 Synthesizing Sentience: Integrating Large Language

    Models and Autonomous Agents for Emulating Human Cognitive Complexity J. Ratican and James Hutson and Daniel Plate 背景 モジュラー心の理論を基に、人間の認知の複雑性を模倣す る潜在能力を探る研究が始まる。 目的 大規模言語モデルと自律型エージェントを統合して、人間 の認知を模倣する。 提案 人格駆動モジュールを活用し、多様な認知機能の代理を行 う理論的枠組みを提案。 評価 自律型エージェントが人間の認知機能の代理となる仮説を 神経学的証拠で支持。 結果 この理論は、更なる実証研究と技術革新への肥沃な基盤を 提供する。
  183. AIとデザインの未来 :動的グラウンディン グ、建設的交渉、持続可能な動機 Imagining a Future of Designing with AI:

    Dynamic Grounding, Constructive Negotiation, and Sustainable Motivation Priyan Vaithilingam and Ian Arawjo and Elena L. Glassman 背景 AI技術が進化し、デザイン分野への応用が重要視されてい ます。 目的 大型 AIモデルがデザインプロセスに提供できる新たな価値 を特定することです。 提案 動的グラウンディング、建設的交渉、持続可能な動機とい う三つのアフォーダンスを提案します。 評価 デザインフィクションを用いて、未来的なインタフェース を実現するプロトタイプを想像しました。 結果 AIが人間デザイナーと協働する際の新たな可能性を示しま した。
  184. S-Agents: 自己組織化するエージェントと 開放的環境 S-Agents: Self-organizing Agents in Open-ended Environments Jia-Qing

    Chen and Yu-Gang Jiang and Jiachen Lu and Li Zhang 背景 自律エージェントは大規模言語モデルを用いることで性能 が向上しています。 目的 エージェント中心の組織構造を活用し、動的環境でのタス ク効率を向上させることが目的です。 提案 自己組織化エージェントシステムを導入し、柔軟なワーク フローを可能にする仕組みを提案します。 評価 Minecraft環境での建築と資源収集タスクを通じて、効果 的な協力能力を実験的に検証しました。 結果 S-Agentsはヒトの介入を必要とせず、開放的な環境で効 率的にタスクを遂行しました。
  185. AI補助に対するデータアナリストの反応 : Wizard-of-Oz研究 How Do Data Analysts Respond to AI

    Assistance? A Wizard-of-Oz Study Ken Gu and Madeleine Grunde-McLaughlin and Andrew M. McNutt and Jeffrey Heer and Tim Althoff 背景 データ分析は多くの判断が必要で、異なる結論を生む可能 性があります。 目的 AIアシスタントがどのようにデータ分析の計画と実行を支 援できるかを解明します。 提案 分析計画支援のために効果的な提案を特定し、ワークフロ ーへの影響を評価します。 評価 13名の参加者を対象とした Wizard-of-Oz研究で、提案の 実用性を観察しました。 結果 提案の有用性に影響する文脈要因の微妙さを強調し、アシ スタンス設計への示唆を提供します。
  186. LAVE: ビデオ編集のための LLMによるエー ジェント支援と言語拡張 LAVE: LLM-Powered Agent Assistance and Language

    Augmentation for Video Editing Bryan Wang and Yuliang Li and Zhaoyang Lv and Haijun Xia and Yan Xu and Raj Sodhi 背景 ビデオ編集は人気ですが、初心者には専門知識が必要で敷 居が高いです。 目的 LLMを活用してビデオ編集の障壁を軽減することが目的 です。 提案 LAVEは、エージェント支援と言語拡張機能を提供する新 しいシステムです。 評価 初心者から熟練者までの 8人が参加したユーザースタディ で評価しました。 結果 LAVEは効果的で、ユーザーの創造性と共創感に影響を与 えることが示されました。
  187. 生成的 AIと「巨大何でもモデル」による HCI 研究サイクルの変革 Transforming HCI Research Cycles using Generative

    AI and “Large Whatever Models” (LWMs) Passant Elagroudy and Jie Li and Kaisa Väänänen and Paul Lukowicz and Hiroshi Ishii and Wendy E. Mackay and Elizabeth F Churchill and Anicia Peters and A. Oulasvirta and Rui Prada and Alexandra Diening and G. 背景 生成的 AIが HCI研究プロセスに与える影響を探求する必要 がある。 目的 AIツールの使用判断を研究サイクルで行う際の問題を解決 する。 提案 HCIの 5つの研究フェーズにおける GenAIの利点と影響を 調査する。 評価 倫理的所有権や包括性を考慮し、 GenAIの影響を議論す る。 結果 GenAIは HCI研究のサイクル短縮や手法改善に貢献しう る。
  188. Hackphyr: ネットワークセキュリティ環境 向けのローカルファインチューニング済 LLM エージェント Hackphyr: A Local Fine-Tuned LLM

    Agent for Network Security Environments M. Rigaki and C. Catania and Sebastian Garcia 背景 **大規模言語モデル( LLM) **は、サイバーセキュリティ を含む多くの分野での潜在能力を示しています。 目的 ネットワークセキュリティに適応したローカルモデル開発 で、商用 LLMの制約を克服することです。 提案 ネットワークセキュリティ環境向けに Hackphyrというロ ーカルでファインチューニングした LLMを提案します。 評価 新たなサイバーセキュリティデータセットを使用し、モデ ル能力を強化し、既存のモデルと比較評価しました。 結果 Hackphyrは、 GPT-4に匹敵し、既存の他モデルを凌駕 する性能を示しました。
  189. RRdE: インタラクティブ環境における言語 エージェントのための意思決定フレームワー ク RRdE: A Decision Making Framework for

    Language Agents in Interactive Environments Xufeng Zhou and Linjing Li and D. Zeng 背景 大規模言語モデルは少数ショット学習に強みがあります が、長期的な相互作用には苦労します。 目的 インタラクティブ環境でのエージェントの推論と計画能力 向上を目的とします。 提案 RRdEフレームワークを提案し、長期計画を単純な推論問 題に転換します。 評価 AlfWorldと ScienceWorldを用いて、提案手法の性能を検 証しました。 結果 RRdEは AlfWorldで 132/134タスクを、 ScienceWorldで平 均 82.16点を達成しました。
  190. クロスチーム協力によるマルチエージェント のソフトウェア開発 Multi-Agent Software Development through Cross-Team Collaboration Zhuoyun Du

    and Cheng Qian and Wei Liu and Zihao Xie and Yifei Wang and Yufan Dang and Weize Chen and Cheng Yang 背景 **大規模言語モデル( LLMs) **を用いた多エージェント 協力が、ソフトウェア開発分野で重要視されています。 目的 単一の決定パスに限定される現状を改善し、最適な結果を 目指します。 提案 **クロスチーム協力( CTC) **というフレームワークで多 チームの連携を促進します。 評価 ソフトウェア開発における実験結果で、既存手法と比較し 質の向上を確認しました。 結果 提案したフレームワークにより、ストーリー生成の質が著 しく改善されました。
  191. 大規模言語モデルの地図を航行する : パラダ イムと微調整戦略の包括的レビューと分析 Navigating the Landscape of Large Language

    Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies Benjue Weng 背景 ChatGPTが普及し、大規模モデルの産業界での重要性が 増しています。 目的 大規模モデルの様々な微調整法を調査し、その有用性を評 価します。 提案 タスク適応型や少数ショット学習などの微調整手法の詳細 を紹介。 評価 最新技術の進展と応用について、幅広い文献レビューを行 いました。 結果 微調整手法の各アプローチが効果的であることを確認しま した。
  192. Ollabench: ヒト中心の相互依存サイバーセ キュリティにおける LLMの推論評価 Ollabench: Evaluating LLMs' Reasoning for Human-centric

    Interdependent Cybersecurity Tam n. Nguyen 背景 LLMはサイバーセキュリティの脅威モデリングやリスク管 理を向上させる可能性があります。 目的 LLMの評価が法令遵守や効果的開発において重要性が増し ています。 提案 新しい評価フレームワーク OllaBenchを提案し、 LLMの 正確性等を評価します。 評価 24の理論と 38論文の証拠を元に 21種の LLMを OllaBenchで評価しました。 結果 商業 LLMが高精度ですが、小型 LLMの性能差が小さいこと を示しました。
  193. 学習における複数の会話エージェント相手の 使用 The Use of Multiple Conversational Agent Interlocutors in

    Learning Samuel Rhys Cox 背景 **大規模言語モデル( LLM) **の進化が、人間に近い会話 相手の可能性を広げている。 目的 教育において複数のペルソナを持つ会話エージェントが学 習支援を向上する可能性を探る。 提案 LLMを用いて複数の会話相手をシミュレーションし、教育 現場での利点を活用する。 評価 教育上の利点を示すシナリオを通じて、 LLMの有効性を議 論する。 結果 複数のペルソナを持つ会話エージェントが教育効果を増強 し得ることを示唆する。
  194. 大規模言語モデルは人々が実際よりも合理的 であると仮定している Large Language Models Assume People are More Rational

    than We Really are Ryan Liu and Jiayi Geng and Joshua C. Peterson and Ilia Sucholutsky and Thomas L. Griffiths 背景 AIが人間の意思決定モデルを理解することは重要です。 目的 LLMが人間の意思決定を過度に合理的に捉える問題を解明 します。 提案 LLMは人間の期待値理論に基づいた判断をしています。 評価 人間の決定データセットと LLMの予測を比較しました。 結果 LLMの推論は人間の期待と強く相関しています。
  195. APPL: プログラムと大規模言語モデルプロ ンプトの調和的統合のためのプロンプトプロ グラミング言語 APPL: A Prompt Programming Language for

    Harmonious Integration of Programs and Large Language Model Prompts Honghua Dong and Qidong Su and Yubo Gao and Zhaoyu Li and Yangjun Ruan and Gennady Pekhimenko and Chris J. Maddison and Xujie Si 背景 大規模言語モデル( LLM)ワークフローの複雑さが課題と なっている。 目的 LLMとプログラムの統合を容易にするための新しい言語を 開発する。 提案 APPLは、プロンプトを Python関数に組み込むプロンプト 言語である。 評価 3つのシナリオで APPLの効率性と直感性をテストした。 結果 APPLは独立した LLM呼び出しを効率的に並列化すること ができる。
  196. ホロデッキ風シミュレーションゲームへの道 Towards a Holodeck-style Simulation Game Ahad Shams and D.

    Summers-Stay and V. Metelsky and Arpan Tripathi and Karan Malhotra 背景 伝統的なゲームではプレイヤーによる自由な創造力の発揮 が限られていました。 目的 シミュレーションを通じて生成的な体験をプレイヤーに提 供することです。 提案 Infinitiaは生成モデルを用いて自由に形を変えるゲーム世 界を提案します。 評価 Unityエンジンとサーバークライアント構造でコラボ可能 な設計を評価しました。 結果 コミュニティと協力して、さらなる機能拡張が期待されて います。
  197. 大規模言語モデルによるアルゴリズム的共謀 Algorithmic Collusion by Large Language Models Sara Fish and

    Yannai A. Gonczarowski and Ran I. Shorrer 背景 アルゴリズム価格設定の普及により、共謀のリスクが増し ています。 目的 LLMが共謀を促進する可能性を検証し、その影響を探りま す。 提案 LLM、特に GPT-4が価格設定および共謀に影響を与える ことを示します。 評価 LLMエージェントを用いた価格設定と競売環境での共謀 実験を行いました。 結果 LLMエージェントは独占環境で消費者に不利益をもたらす 共謀を行います。
  198. 生成型エージェントベースモデル : 機械的モ デルと生成的人工知能の結合による社会シス テム動態の解明 Generative Agent-Based Modeling: Unveiling Social

    System Dynamics through Coupling Mechanistic Models with Generative Artificial Intelligence Navid Ghaffarzadegan and A. Majumdar and Ross Williams and Niyousha Hosseinichimeh 背景 近年、生成的人工知能を利用した社会システムの計算モデ ル構築が注目されています。 目的 研究の目的は、人間の合理的な意思決定を反映したフィー ドバック豊富なモデルの構築です。 提案 **生成型エージェントベースモデル (GABM)**を提唱し、 大規模言語モデルを活用します。 評価 GABMの検証には、シンプルな社会規範拡散モデルを使っ て様々なシナリオを試験しました。 結果 広範なシナリオで GABMの有用性を示し、人間の意思決定 を考慮したモデル構築を導きます。
  199. ソーシャルバーチャルリアリティにおける LLMベースの AIエージェントの構築 Building LLM-based AI Agents in Social Virtual

    Reality Hongyu Wan and Jinda Zhang and Abdulaziz Arif Suria and Bingsheng Yao and Dakuo Wang and Yvonne Coady and Mirjana Prpa 背景 VRにおける人間 -エージェント相互作用の向上が求められ る状況。 目的 LLMを活用して、人間らしい NPCの行動をシミュレート する問題に対処。 提案 GPT-4を用いた LLMベースのエージェントで人間行動を 再現。 評価 最も信憑性のある応答生成のために予備評価を実施。 結果 システムは未来の LLMベースの NPC開発の基盤を築い た。
  200. AgentLens: LLMベースの自律システムに おけるエージェントの行動の視覚分析 AgentLens: Visual Analysis for Agent Behaviors in

    LLM-based Autonomous Systems Jiaying Lu and Bo Pan and Jieyi Chen and Yingchaojie Feng and Jingyuan Hu and Yuchen Peng and Wei Chen 背景 LLMASは人間社会の複雑な行動をシミュレートできる が、動的イベントの分析が課題。 目的 LLMASの動的イベント進化を視覚的かつ対話的に分析す ることを目的とする。 提案 エージェント行動を階層的に視覚化する AgentLensシス テムを提案。 評価 使用シナリオとユーザー調査により、効果と使いやすさを 評価。 結果 AgentLensはエージェントの行動分析における効果的な視 覚化ツールであることが示された。
  201. AIエージェントにおける個と集合 : メタバー スでの共有意識とデジタルホムンクルスの探 求 Individuality and the collective in

    AI agents: Explorations of shared consciousness and digital homunculi in the metaverse for cultural heritage James Hutson 背景 XR技術と LLMの融合が文化遺産の表現に未踏の可能性を 示します。 目的 デジタル存在の共有意識と個性の表現の可能性を探ること です。 提案 デジタルホムンクルスとチェンジリングを通じて、集合と 個の意識を探ります。 評価 SFのメタファーを使用して、共有意識の概念を分析しま す。 結果 技術的発展を文化的・倫理的な文脈で議論する基礎を提供 します。
  202. 大規模言語モデルは食料生産を向上させる が、そのリスクに注意 Large language models can help boost food production,

    but be mindful of their risks D. Clercq and Elias Nehring and Harry Mayne and Adam Mahdi 背景 農業における大規模言語モデルの採用は、社会への影響が 大きいが、十分に議論されていない。 目的 言語モデルが食料生産システムにもたらすリスクと機会を 評価する。 提案 効率向上やイノベーション推進の一方で、誤情報やデータ 濫用などのリスクがある。 評価 農業職の影響やデータ収集のリスクを考慮した政策フレー ムワークが必要。 結果 大規模言語モデルの責任ある利用に向けて政策立案者の慎 重な検討が求められる。
  203. COMBO: 具現化されたマルチエージェント 協力のための合成世界モデル COMBO: Compositional World Models for Embodied Multi-Agent

    Cooperation Hongxin Zhang and Zeyuan Wang and Qiushi Lyu and Zheyuan Zhang and Sunli Chen and Tianmin Shu and Yilun Du and Chuang Gan 背景 部分的な視点でマルチエージェントの協力が必要な問題が あります。 目的 部分的観測での効果的なマルチエージェントの計画を可能 にします。 提案 合同行動を因数分解した合成世界モデルで協力を実現しま す。 評価 Twoドのシミュレーターを使い、 2~ 4体のエージェント で実験を行いました。 結果 提案したフレームワークは、異なる課題で協力的に効果的 に機能します。
  204. クリエイティブ言語芸術の AI連携スケーラブ ルパーソナライズに対する著者の価値観と態 度 Authors' Values and Attitudes Towards AI-bridged

    Scalable Personalization of Creative Language Arts Taewook Kim and Hyomin Han and Eytan Adar and Matthew Kay and John Joon Young Chung 背景 生成 AIは、著者のビジョンと視聴者のコンテキストを橋渡 しする新しい形のメディアを創造する可能性があります。 目的 AI連携 CLAに対する著者の価値観と態度を明確にすること が目的です。 提案 AI連携 CLAが著者と視聴者の間で 3つの利益を提供する方 法を探ります。 評価 詩やコミックなどの 8ジャンルの 18名の著者とインタビュ ー調査を行いました。 結果 AI連携 CLAが利益を促進または減少し、著者の懸念が明ら かになりました。
  205. PsychoGAT: 対話型フィクションゲームを 用いた新しい心理測定パラダイム PsychoGAT: A Novel Psychological Measurement Paradigm through

    Interactive Fiction Games with LLM Agents Qisen Yang and Z. Wang and Honghui Chen and Shenzhi Wang and Yifan Pu and Xin Gao and Wenhao Huang and Shiji Song and Gao Huang 背景 心理測定はメンタルヘルスや自己理解の向上に重要です が、従来手法は関与の低下やアクセスの課題を抱えます。 目的 心理測定をゲーム化することで、より魅力的でアクセス可 能な方法を提供することです。 提案 PsychoGATは、強力な LLMを使い、心理評価を対話型フ ィクションゲームとして実現します。 評価 心理構成を検証するため、心理測定評価と人間評価を用い て多面的な検証を行いました。 結果 PsychoGATは、信頼性や妥当性の点で優れた効果を示 し、コンテンツの満足度向上が確認されました。
  206. デジタルフェノタイピングへの機械学習の応 用:体系的文献レビューと分類 Machine learning applied to digital phenotyping: A systematic

    literature review and taxonomy Marília Pit dos Santos and W. Heckler and R. Bavaresco and Jorge Luis Victória Barbosa 背景 健康状態は個人の幸福、関係、経済的安定に影響し、デジ タルフェノタイピングが影響軽減に重要です。 目的 本研究は機械学習をデジタルフェノタイピングに応用し て、健康と幸福の理解向上を図ることを目的としています。 提案 機械学習とデジタルフェノタイピングの研究領域を体系的 にレビューし、分類を提示します。 評価 11のデータベースから 2,860件の記事を抽出し、 124件を 分析して 6つの研究質問に回答しました。 結果 2023年の出版増加が示され、分野への関心の高まりと小 サンプル規模、データ不均衡が課題とされます。
  207. 都市生成知能 (UGI): 具現化された都市環境 におけるエージェントのための基盤プラット フォーム Urban Generative Intelligence (UGI): A

    Foundational Platform for Agents in Embodied City Environment Fengli Xu and Jun Zhang and Chen Gao and J. Feng and Yong Li 背景 複雑な都市環境は、物理、社会、経済、環境次元の課題に 直面しています。 目的 都市課題解決のためのシステムインテリジェントな技術の 実装を目指します。 提案 UGIは LLMを都市システムに統合し、新たな都市知能のプ ラットフォームを構築します。 評価 UGIのプラットフォームを用いて、様々な都市タスクにエ ージェントを適用しその効果を検証します。 結果 UGIは都市システムの理解と管理を革新する可能性を示し ました。
  208. ChatGPTは自らの未知を認識しているか? ブラックボックスキャリブレーションの評価 Does ChatGPT Know That It Does Not Know?

    Evaluating the Black-Box Calibration of ChatGPT Youliang Yuan and Wenxuan Wang and Qingshuo Guo and Yiming Xiong and Chihao Shen and Pinjia He 背景 ChatGPTの多様なタスクへの適用が進む中、自己の信頼 性認識が重要です。 目的 ChatGPTが自分の限界を認識しているかを評価すること が重要視されています。 提案 三つの視点で設計された代理信頼度を用いて、その能力を 評価します。 評価 五つのデータセットと四つのタスクで ChatGPTの性能を 実験的に評価しました。 結果 ChatGPTは特定の文脈で自信過剰となる傾向があること が示されました。
  209. 言語に基づくマルチエージェント通信による 臨時チームワーク Language Grounded Multi-agent Communication for Ad-hoc Teamwork Huao

    Li and Hossein Nourkhiz Mahjoub and Behdad Chalaki and Vaishnav Tadiparthi and Kwonjoon Lee and Ehsan Moradi-Pari and C. Michael Lewis and Katia P. Sycara 背景 MARLはエージェント間の通信をゼロから学習するが、解 釈困難です。 目的 臨時チームワークに適した解りやすい通信プロトコルの開 発。 提案 人間言語の埋め込み空間とエージェント通信を一致させる 手法を提案。 評価 合成データを使い、エージェント間の通信を人間言語に結 びつける実験を行いました。 結果 言語基盤通信は、未知のタスクやチームメイトにもゼロシ ョットで適応可能です。
  210. 基盤モデルによるツール学習 Tool Learning with Foundation Models Yujia Qin and Shengding

    Hu and Yankai Lin and Weize Chen and Ning Ding and Ganqu Cui and Zheni Zeng and Yufei Huang and Chaojun Xiao and Chi Han and Y. Fung and Yusheng Su and Huadong Wang and Cheng Qian 背景 人間のツール利用能力と同程度の AIを目指すため、基盤モ デルの潜在能力が注目されています。 目的 基盤モデルによるツール学習を体系的に調査し、その課題 と可能性を明らかにすることです。 提案 基盤モデルによる一般的なツール学習フレームワークを提 案します。 評価 18の代表的ツールを使って、基盤モデルの運用能力を実験 的に評価しました。 結果 基盤モデルが複雑なタスクを効果的に分解し、適切なツー ル選択により遂行可能であることを示しました。
  211. オンデマンドフィードバック生成のための作 者定義 AIペルソナ Writer-Defined AI Personas for On-Demand Feedback Generation

    Karim Benharrak and Tim Zindulka and Florian Lehmann and Hendrik Heuer and Daniel Buschek 背景 優れた文章は読者理解が不可欠だが、それは難しく、タイ ムリーなフィードバックも得にくい。 目的 著者が定義する AIペルソナを使い、読者に応じたフィード バックの自動生成を目指す。 提案 GPT-3.5によるプロトタイプで、ターゲット読者に合わ せた AIペルソナによるフィードバック生成を提案。 評価 少人数のユーザースタディを実施し、ペルソナによる多様 な視点からのフィードバックの有用性を評価。 結果 AIのフィードバックは有用だが曖昧であり、テキストやペ ルソナの改訂を促す効果があった。
  212. 大規模なコンテンツと行動モデルでコンテン ツと行動を理解、シミュレーション、および 最適化 Large Content And Behavior Models To Understand,

    Simulate, And Optimize Content And Behavior Ashmit Khandelwal and Aditya Agrawal and Aanisha Bhattacharyya and Yaman Kumar Singla and Somesh Singh and Uttaran Bhattacharya and Ishita Dasgupta and Stefano Petrangeli and R. Shah and Changyou Chen 背景 情報理論に基づくコミュニケーションモデルは技術レベル で限界があり、受信者行動の最適化が求められています。 目的 コンテンツを受信者の行動に基づいて最適化し、有効性の 向上を目指します。 提案 受信者の行動トークンを含む LCBMを提案し、行動予測を 可能にします。 評価 複数のコーパスとタスクを用いて、モデルの一般化能力と 行動シミュレーションを検証しました。 結果 モデルは行動とコンテンツのシミュレーションに成功し、 効果的な予測を示しました。
  213. 生成型エージェント社会における社会規範の 出現 : 原則とアーキテクチャ Emergence of Social Norms in Generative

    Agent Societies: Principles and Architecture Siyue Ren and Zhiyao Cui and Ruiqi Song and Zhen Wang and Shuyue Hu 背景 社会規範は MASにおいてエージェント間の対立を減少さ せるが、 LLMベースのシステムでは欠如している。 目的 生成型 MASにおいて社会規範が自然に形成される環境を 作り出すことが目的である。 提案 CRSECというアーキテクチャで社会規範の生成を可能に し、包括的な出現プロセスを実現する。 評価 Smallvilleサンドボックスゲームでの実験と 30名の評価 者による人間評価を行った。 結果 社会規範の確立と社会的対立の削減が確認され、提案手法 の有効性が証明された。
  214. RAH! RecSys–Assistant–Human: 人間 中心の推薦フレームワーク RAH! RecSys–Assistant–Human: A Human-Centered Recommendation Framework

    With LLM Agents Yubo Shu and Haonan Zhang and Hansu Gu and Peng Zhang and T. Lu and Dongsheng Li and Ning Gu 背景 ウェブの進化でコンテンツが急増し、推薦システムが重要 な役割を果たしています。 目的 推薦の正確さとユーザー満足度のバランスなどの課題解決 が目的です。 提案 RAHフレームワークは LLMエージェントを用い、人間中 心のアプローチを実現します。 評価 実世界のデータを用いて RAHフレームワークの効果を実 験で示しました。 結果 偏見軽減やユーザー制御強化など、各ドメインで効果を確 認しました。
  215. ツール使用と更新が可能な閉じたループ視覚 アシスタント CLOVA CLOVA: A Closed-LOop Visual Assistant with Tool

    Usage and Update Zhi Gao and Yuntao Du and Xintong Zhang and Xiaojian Ma and Wenjuan Han and Song-Chun Zhu and Qing Li 背景 視覚アシスタントは多様なタスクをこなすため、継続学習 が重要です。 目的 CLOVAの目標は、固定されたツールを超えて新しい知識 に適応することです。 提案 推論、反省、学習の 3段階でツールを動的に更新する CLOVAを提案します。 評価 視覚的質問応答、複数画像推論、知識タグ付け、画像編集 で CLOVAを評価しました。 結果 CLOVAは既存手法に比べ、 **5%から 20%**の性能向上を 示しました。
  216. タスク指向 LLMシステム設計における可能性 の専制政治 : 予備調査 The Tyranny of Possibilities in

    the Design of Task-Oriented LLM Systems: A Scoping Survey Dhruv Dhamani and Mary Lou Maher 背景 タスク指向 LLMシステムの設計空間とパラメータに関する 理解が不十分。 目的 タスク指向 LLMシステム設計の多様な可能性の性能と関係 を仮説化。 提案 3つの仮説を基に、プロンプト技術をマルチエージェント システムとして再評価。 評価 多様な LLMシステム構成の性能を思考実験で評価し、推測 を形成。 結果 7つの仮説を提示し、将来の研究の出発点を提供。
  217. 機械学習モデルに能力があるとは何か? What is it for a Machine Learning Model to

    Have a Capability? Jacqueline Harding and Nathaniel Sharadin 背景 モデルの能力評価は、規制の注目を受けた重要なサブフィ ールドです。 目的 MLモデルの能力の正確な概念化と評価基準の確立が目的 です。 提案 CAMAという条件付き分析を用いて、モデルの能力を計測 可能にします。 評価 LLMsに適用可能な CAMAを定義し、モデル評価手順を提 案します。 結果 CAMAは ML評価の理解と公正な比較に貢献することが示 されました。
  218. VirtuWander: 大規模言語モデルによるバー チャルツアーガイドのマルチモーダル相互作 用を強化 VirtuWander: Enhancing Multi-modal Interaction for Virtual

    Tour Guidance through Large Language Models Zhan Wang and Linping Yuan and Liangwei Wang and Bingchuan Jiang and Wei Zeng 背景 バーチャル博物館でのツアーガイドは、ユーザーの没入感 を高めるために重要です。 目的 この研究は、ユーザーニーズに対応する個別化されたツア ーガイドを実現することを目指します。 提案 VirtuWanderは、大規模言語モデルを使用し、マルチモ ーダル相互作用を促進するシステムです。 評価 ユーザースタディを通じて、没入型シミュレートミュージ アムで評価しました。 結果 個別化された支援により、没入型ツアー体験が向上するこ とが示されました。
  219. 大規模言語モデルを用いたソーシャルスキル トレーニング Social Skill Training with Large Language Models Diyi

    Yang and Caleb Ziems and William B. Held and Omar Shaikh and Michael S. Bernstein and John Mitchell 背景 社会的スキルは仕事や生活で重要だが、練習環境は少な い。 目的 ソーシャルスキルのトレーニングをより普及・容易にする ことを目的とする。 提案 大規模言語モデルを活用した一般的フレームワークによる 実践的訓練を提案。 評価 AIパートナーと AIメンターフレームワークの体験学習を活 用した評価。 結果 社会的平等と労働力開発に向けた学際的革新の必要性を示 唆。
  220. トランスフォーマーの長さ外挿 : 位置エンコ ーディング視点からの調査 Length Extrapolation of Transformers: A Survey

    from the Perspective of Position Encoding Liang Zhao and Xiaocheng Feng and Xiachong Feng and Bing Qin and Ting Liu 背景 トランスフォーマーは NLPで成功したが、長さ外挿に制限 があります。 目的 長さ外挿問題解決を通じて、トランスフォーマーの適用範 囲を拡大することが目的です。 提案 位置エンコーディングを焦点にした様々な方法の調査と体 系化を提案します。 評価 既存の研究を統一的な視点で体系的にレビューします。 結果 読者が既存の手法を理解し、さらなる研究を刺激する内容 です。
  221. 人間 -AIの協働 : LLMベースのエージェント によるサービス共創のための 23のヒューリ スティックスガイド Synergizing Human-AI Agency:

    A Guide of 23 Heuristics for Service Co-Creation with LLM-Based Agents Qingxiao Zheng and Zhongwei Xu and Abhinav Choudhary and Yuting Chen and Yongming Li and Yun Huang 背景 AI技術の進化により、人間のサービスプロバイダーが技術 をどのように活用できるかが問われている。 目的 AIと人間の協働によるサービス共創の課題を明らかにし、 指針を提供すること。 提案 非 AI専門家と AIが共同で学び合うための 23のヒューリステ ィックスを提案。 評価 23名の専門家と参加型デザインプロセスを通じ、 AI統合の 課題を調査。 結果 協働のための 23のヒューリスティックスが、倫理的な AI 共創を推進することを確認。
  222. PersonalityScanner: バーチャルリアリテ ィにおけるマルチモーダル信号を基にした性 格評価の妥当性の探究 PersonalityScanner: Exploring the Validity of Personality

    Assessment Based on Multimodal Signals in Virtual Reality Xintong Zhang and Di Lu and Huiqi Hu and Nan Jiang and Xianhao Yu and Jinan Xu and Yujia Peng and Qing Li and Wenjuan Han 背景 性格評価は心理学などで重要だが、客観的評価が困難であ る。 目的 自己報告に頼らない客観的な性格評価手法の開発を目指 す。 提案 VR技術を用いて日常行動をシミュレートする PersonalityScannerを提案。 評価 10種類のマルチモーダルデータを用いて性格評価の有効性 を検証。 結果 PersonalityScannerが高性能で効果的であることを示し た。
  223. 生成エージェントにおける要約の役割 : 初見 The Role of Summarization in Generative Agents:

    A Preliminary Perspective Xiachong Feng and Xiaocheng Feng and Bing Qin 背景 生成エージェントは人間社会のシミュレーションで大きな 可能性を示す。 目的 生成エージェントの核心である要約能力の理解促進が目 的。 提案 要約は生成エージェントの最も基本的かつ不可欠な能力で あると主張。 評価 研究の進展を促すために要約と生成エージェントの関係を 統合的に分析。 結果 要約能力の理解がエージェント研究の未来を切り拓くと示 唆。
  224. LLMと人間の好みの格差を縮小 : 人間らしい アンサンブルを構成するためのキャリブレー ション Reduce Preference Disparity Between LLMs

    and Humans: Calibration to Compose Human-like Ensembles Yan Leng and Yunxin Sang and Ashish Agarwal 背景 LLMは意見調査と研究でのデータ収集を強化するが、人 間の反応再現に限界がある。 目的 LLMの人間反応再現能力を改善し、社会科学研究の実用性 を向上させる。 提案 人間模倣キャリブレーション( HMC)を導入し、 LLMが 人間の行動と好みを反映するように調整。 評価 好みの学習と意見の学習の応用で、 HMCの効果を評価。 結果 HMCは市場構造や公的な意見の精度を向上し、異なる状 態でも移転可能性を示す。
  225. 多エージェント・ディベートを通じて大規模 言語モデルにおける発散的思考を促進 Encouraging Divergent Thinking in Large Language Models through

    Multi-Agent Debate Tian Liang and Zhiwei He and Wenxiang Jiao and Xing Wang and Yan Wang and Rui Wang and Yujiu Yang and Zhaopeng Tu and Shuming Shi 背景 大規模言語モデルは複雑な推論が苦手で、自信持つと新し い考えを生み出せません。 目的 モデルが自信を持つと新しい思考が生成できない問題を解 決すること。 提案 多エージェント・ディベートフレームワークを提案し、異 なる視点を討議します。 評価 常識的機械翻訳と直感に反する算術問題でフレームワーク の効果を実験。 結果 議論の適応的中断や控えめな返し状態がパフォーマンス向 上に必要と判明。
  226. ウェブにおける大規模言語モデル搭載エージ ェント Large Language Model Powered Agents in the Web

    Yang Deng and An Zhang and Yankai Lin and Xu Chen and Ji-Rong Wen and Tat-Seng Chua 背景 ウェブアプリは情報アクセスや多様なタスクに必須です が、静的な体験が中心でした。 目的 大規模言語モデルを用いてユーザーとの対話を向上させる ことです。 提案 LLM搭載エージェントをウェブに統合し、人間のような タスク完了を目指します。 評価 ウェブマイニングやソーシャルネットワークなど、多様な アプリで技術を検討しました。 結果 エージェントはユーザーのエンゲージメントを効果的に向 上させ、個別対応を実現しました。
  227. 大規模言語モデルの説得力 The Persuasive Power of Large Language Models Simon Martin

    Breum and Daniel Vaedele Egdal and Victor Gram Mortensen and Anders Giovanni Møller and L. Aiello 背景 大規模言語モデルの進化により、オンラインでの世論操作 の可能性が注目されています。 目的 人工エージェントが説得の動態を模倣し、世論形成に影響 を与える可能性を探る。 提案 気候変動をテーマにした合成説得対話シナリオを設計しま した。 評価 人間評価者に機械生成された議論の説得力を評価させる実 験を行いました。 結果 知識や信頼を基にした議論が最も効果的であることが示さ れました。
  228. 過去の振り返りを用いた言語エージェントの 学習指示 METAREFLECTION: Learning Instructions for Language Agents using Past

    Reflections Priyanshu Gupta and Shashank Kirtania and Ananya Singha and Sumit Gulwani and Arjun Radhakrishna and Sherry Shi and Gustavo Soares 背景 言語エージェントは、閉じた APIでは改善が困難なため、 技術的な進化が求められています。 目的 これまでの改善手法の限界を克服し、 LLMの性能を強化す ることが目標です。 提案 MetaReflectionは、過去の経験から学ぶ強化学習手法 で、エージェントを強化します。 評価 様々なドメインで、セマンティックメモリを利用したオフ ライン評価を行いました。 結果 MetaReflectionは性能を改善し、プロンプト最適化技術と 同等の結果を示しました。
  229. 専門家仮想人物によるガイド付きシナリオ: 認知作業の革新的手法 Guided scenarios with simulated expert personae: a remarkable

    strategy to perform cognitive work D. Buren 背景 大規模言語モデルは膨大な知識を活用し、仮想空間で専門 家行動を再現できる。 目的 LLMを用いた認知作業の強化方法を探るための研究であ る。 提案 ガイド付きシナリオにより仮想専門家が専門的な認知作業 を行う手法を提案。 評価 LLMの正確性を検証し、量子光学における結果再現で手法 を評価。 結果 提案手法が意義深い認知作業に有効であることが示され た。
  230. LLMにおけるパーソナの二つの物語:ロール プレイングとパーソナライズの調査 Two Tales of Persona in LLMs: A Survey

    of Role-Playing and Personalization Yu-Min Tseng and Yu-Chao Huang and Teng-Yun Hsiao and Yu-Ching Hsu and Jia-Yin Foo and Chao-Wei Huang and Yun-Nung Chen 背景 パーソナは、 LLMsを特定の文脈に合わせる重要なフレー ムワークとして再評価されています。 目的 研究の目的は、 LLMにおけるロールプレイングとパーソナ ライズの統一された調査を行うことです。 提案 二つの研究ライン、ロールプレイングとパーソナライズに 基づく包括的な調査を提案します。 評価 既存の手法を用いて LLMのパーソナリティ評価を行い、そ の効果を分析しました。 結果 初の統一的な視点で、 LLMのパーソナ活用に関する包括的 な知見を得ました。
  231. Think-on-Process: マルチエージェントシ ステムの協調的開発のための動的プロセス生 成 Think-on-Process: Dynamic Process Generation for Collaborative

    Development of Multi-Agent System Leilei Lin and Yingming Zhou and Wenlong Chen and Chen Qian 背景 ソフトウェア開発は協調性が必要で、動的なプロセス生成 が求められている。 目的 柔軟で動的なソフトウェア開発プロセスを実現することが 目的。 提案 ToPフレームワークでプロセスモデルから動的にプロセス を生成する。 評価 ヒューリスティックアルゴリズムとプロセスマイニングを 用いて検証。 結果 ToPは GPT-3.5と GPT-4の動的プロセス生成能力を向上 させた。
  232. LLMベースのエージェントに社会的原則はあ るか? Is There Any Social Principle for LLM-Based Agents?

    Jitao Bai and Simiao Zhang and Zhong Chen 背景 大規模言語モデルエージェントの役割が増している中、人 間中心だけでは不十分です。 目的 エージェントの社会的原則を探求し、その重要性を明示す ることが目的です。 提案 エージェント用社会科学を構築し、広範な応用を目指しま す。 評価 提案の概念を分析し、既存の理念と比較評価しました。 結果 エージェントには独自の社会科学が必要との結論に達しま した。
  233. LLM拡張自律エージェントは協力できるか? Melting Potを用いた協力能力の評価 Can LLM-Augmented autonomous agents cooperate?, An evaluation

    of their cooperative capabilities through Melting Pot Manuel Mosquera and Juan Sebastian Pinzon and Manuel Rios and Yesid Fonseca and Luis Felipe Giraldo and Nicanor Quijano and Rub'en Manrique 背景 LLMsの発展がマルチエージェント AIシステム強化の可能 性を示しています。 目的 LLAの協力能力を探ることで、効果的な協力の難しさを強 調すること。 提案 Melting Pot環境での LLM拡張エージェントの協力能力 を評価します。 評価 Commons Harvestゲームで協力能力を測定するメトリ クスセットを用いて評価しました。 結果 初期結果は協力傾向を示すが、効果的な協力に苦労があり ます。
  234. PERSONA: 多様性に対応する調整のための 再現可能なテストベッド PERSONA: A Reproducible Testbed for Pluralistic Alignment

    Yuntao Bai and Andy Jones and Kamal Ndousse and Anna Askell and Dawn Chen and Stanislav Drain and Fort and Su Lin Blodgett and Solon Barocas and Hal Daumé and Louis Castricato and Nathan Lile and Suraj Anand 背景 言語モデルの進展に伴い、ユーザーの多様な価値観との整 合が課題となっている。 目的 少数派意見を含む多様な価値観を LMで正確に反映するこ とを目的とする。 提案 PERSONAというテストベッドで、多様なペルソナを生 成し、 LMの整合性を評価する。 評価 生成した合成ペルソナから得られるフィードバックペアを 用いて、 LMの性能を体系的に評価する。 結果 新しいベンチマークが確立され、 LMの多元的な整合性評 価が可能となった。
  235. 位置 : 意思決定における基盤エージェントと してのパラダイムシフト Position: Foundation Agents as the Paradigm

    Shift for Decision Making Xiaoqian Liu and Xingzhou Lou and Jianbin Jiao and Junge Zhang 背景 従来の意思決定法は効率や一般化能力の面で課題がありま す。 目的 意思決定のパラダイムを基盤エージェントにより変革する ことです。 提案 大規模言語モデルの成功を参考にした基盤エージェントの 構築を提案します。 評価 大規模インタラクティブデータの収集、自己教師付き事前 学習、適応を検討しました。 結果 基盤エージェントの研究課題と傾向を特定し、理論と技術 の両面で進展を図ります。
  236. 大規模言語モデル時代の材料科学 : 一つの視 座 Materials science in the era of

    large language models: a perspective Ge Lei and Ronan Docherty and Samuel J. Cooper 背景 大規模言語モデルは、広範な応用可能性から科学的研究で 注目されています。 目的 材料科学における LLMの可能性を評価し、その有用性を確 認します。 提案 LLMを用いて材料科学の新たな分析手法を提案します。 評価 異なるワークフローでの LLMの実用性を比較検討しまし た。 結果 LLMは材料科学において効率的で革新的なツールであると 示唆されました。
  237. AIの社会科学と社会科学のための AI: 調査 AI for social science and social science

    of AI: A Survey Ruoxi Xu and Yingfei Sun and Mengjie Ren and Shiguang Guo and Ruotong Pan and Hongyu Lin and Le Sun and Xianpei Han 背景 AIの進化と社会科学の融合が求められています。 目的 AIと社会科学の統合的理解を目指しています。 提案 2つの研究方向を体系的に分類し、新たな視点を提案しま す。 評価 最新の大規模言語モデルによる進展を詳述しています。 結果 AI技術の進化で社会科学との結びつきが重要になります。
  238. 大規模言語モデルを用いた協力行動に関連す る性格特性の進化モデル An evolutionary model of personality traits related to

    cooperative behavior using a large language model Reiji Suzuki and Takaya Arita 背景 進化ゲーム理論を用いた人間行動の進化研究が求められて いる。 目的 **大規模言語モデル( LLM) **を用いて協力行動の進化を 模倣すること。 提案 LLMを使って協力行動に関わる性格特性の進化モデルを構 築。 評価 性格特性の言語的記述を遺伝子としてシミュレートし、進 化を観察。 結果 性格特性に基づく行動進化が観察され、協力と利己の特性 が循環。
  239. 生成 AIモデルを活用した新しいインタラクシ ョンの設計 Architecting Novel Interactions with Generative AI Models

    Michael S. Bernstein and Joon Sung Park and Meredith Ringel Morris and Saleema Amershi and Lydia B. Chilton and Mitchell L. Gordon 背景 UISTは生成 AIにより新しいインタラクション形態の可能 性を開拓する独自の立場にある。 目的 生成 AIを活用した新しいインタラクションの形を構想し、 その潜在能力を探る。 提案 生成 AIにより可能となる新しいインタラクションのカテゴ リーを探索する。 評価 UISTコミュニティのワークショップで研究アジェンダと モデル要求を具体化する。 結果 具体的な研究議題、モデル要求、生成エージェントによる シミュレート討論を成果とする。
  240. 高度なマルチモーダルモデルによる動的な仮 想活動の創造 Crafting Dynamic Virtual Activities with Advanced Multimodal Models

    Changyang Li and Lap-Fai Yu 背景 視覚と言語モダリティの統合で仮想環境の解釈能力を高め ることが重要です。 目的 仮想環境での適応的かつ文脈に関連した活動生成を目指し ます。 提案 抽象的活動記述の構造化フレームワークを提案し、キャラ クターの相互作用を強調。 評価 高レベルのコンテキストに基づき、キャラクター配置の最 適化を行いました。 結果 仮想活動のリアリズムと文脈の適切性向上に繋がる新たな 道を示しました。
  241. 孔子 : 内省フィードバックによる易から難へ のカリキュラムでの反復ツール学習 Confucius: Iterative Tool Learning from Introspection

    Feedback by Easy-to- Difficult Curriculum Shen Gao and Zhengliang Shi and Minghang Zhu and Bowen Fang and Xin Xin and Pengjie Ren and Zhumin Chen and Jun Ma 背景 外部ツールを活用した LLMの拡張が注目されていますが、 適切なツール選択の能力が不足しています。 目的 現実のシナリオで複雑なツールを使用する能力を持つ LLM の構築を目指します。 提案 易から難へのカリキュラムと内省的フィードバックを用い た新しいフレームワークを提案します。 評価 制御された環境と現実の状況での広範な実験により手法の 効果を検証しました。 結果 我々のフレームワークは、既存のベースライン手法よりも 優れた結果を示しました。
  242. オンライン意思決定における Auto-GPTのベ ンチマークと追加意見 Auto-GPT for Online Decision Making: Benchmarks and

    Additional Opinions Hui Yang and Sifu Yue and Yunzhong He 背景 Auto-GPTの効果と柔軟性に疑問があり、ベンチマーク の必要性がある。 目的 本研究は GPTベースのエージェントの適応性を深く理解 することを目的とする。 提案 追加意見アルゴリズムにより、簡易的な監督学習を Auto- GPTに組み込む。 評価 ベースライン比較とアブレーション研究を通じて評価を行 った。 結果 追加意見アルゴリズムはオンライン意思決定の性能を大幅 に向上させた。
  243. スケーラブル離散表現を用いた統一的物理ベ ースモーション制御 MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete

    Representations Heyuan Yao and Zhenhua Song and Yuyang Zhou and Tenglong Ao and Baoquan Chen and Libin Liu 背景 モーション制御では、多様なモーションを効率的に学習す る手法が求められています。 目的 多様なモーションスキルを統一的に学習可能なフレームワ ークの開発を目指します。 提案 MoConVQは、 VQ-VAEを活用し、表現を効率的に学習 する技術を提案します。 評価 異なるモーションソースや自然言語からの生成能力を多角 的に評価します。 結果 多様なアプリケーションに対応できる強力なモーション制 御が実現しました。
  244. 知識をスケールや分野、モダリティを超えて 接続するメカニクスと材料モデリングのため の言語ベース戦略、 MechGPT MechGPT, a language-based strategy for mechanics

    and materials modeling that connects knowledge across scales, disciplines and modalities M. Buehler 背景 専門化の進む現代で、異なる分野間の知識接続が求められ ています。 目的 LLMを用いて、多様な知識を統合する方法を提案すること が目的です。 提案 MechGPTは、 LLMを用いて異なる知識間の関係を探究 する手法を提案します。 評価 知識検索や仮説生成能力を評価するために、計算実験を行 いました。 結果 MechGPTは知識の視覚化や新たな研究質問の枠組みを提 供します。
  245. サービス研究における人間と合成データの比 較 : 増強型言語モデルを用いたサービス障害 と回復の研究 Comparing human and synthetic data

    in service research: using augmented language models to study service failures and recoveries Steve J. Bickley and H. F. Chan and Bang Dao and Benno Torgler and Son Tran and Alexandra Zimbatu 背景 サービス研究での人間と合成データの比較は重要な課題で す。 目的 サービスシナリオでの人間と合成の応答を比較し評価する ことが目的です。 提案 増強型言語モデルを用いて合成データを生成し、人間の応 答を模倣します。 評価 5つの実証研究により、 ALMの応答が原研究とどの程度一 致するかを評価しました。 結果 合成エージェントには限界があるものの、特定のテキスト シナリオで効果を示しました。
  246. これまでの進展はどこにあるのか?ヒューマ ン -AI協働の観点からデータストーリーテリ ングツールを理解する Where Are We So Far? Understanding

    Data Storytelling Tools from the Perspective of Human-AI Collaboration Haotian Li and Yun Wang and Huamin Qu 背景 データストーリーテリングは人間のスキルが多く求めら れ、 AIによる支援の可能性がある。 目的 ヒューマン -AI協働の観点からデータストーリーテリング ツールを体系的に理解する。 提案 ストーリーテリングワークフロー各段階でツールがどのよ うに機能するかを枠組みとして調査。 評価 分析、計画、実装、コミュニケーションでヒューマンと AI の役割を検討し評価。 結果 共通の協働パターンを特定し、ヒューマン -AI協働の研究 機会を明示。
  247. 会話レコメンデーションのためのアイテム・ 言語モデル Item-Language Model for Conversational Recommendation Li Yang and

    Anushya Subbiah and Hardik Patel and Judith Yue Li and Yanwei Song and Reza Mirghaderi and Vikram Aggarwal 背景 大規模言語モデルは対話理解で成功しているが、レコメン ドには課題がある。 目的 ユーザーのインタラクション信号を保持しつつ、推論能力 を活かした推薦システムを構築する。 提案 インタラクション信号をエンコードするアイテムエンコー ダと凍結された LLMを使用する。 評価 大規模実験により、言語整合性とユーザー知識の重要性を 検証した。 結果 示されたモデルは、言語とインタラクションの両立が可能 であることを明らかにした。
  248. 社会シミュレーションエージェントにおける 自己感情混合対話生成 Self-Emotion Blended Dialogue Generation in Social Simulation Agents

    Qiang Zhang and Jason Naradowsky and Yusuke Miyao 背景 仮想環境の対話エージェントは自己感情を表現することが ありますが、その影響は十分に理解されていません。 目的 本研究は、自己感情がエージェントの対話戦略や意思決定 に与える影響を明らかにします。 提案 自己感情を持つエージェントは、人間に近い対話戦略を示 すことを提案します。 評価 GPT-4生成データセットで微調整したモデルを用いて、自 己感情の影響を実験的に評価しました。 結果 自己感情が意思決定に **約 50%**の変化をもたらすことが 確認されました。
  249. PANGeA: ターン制ビデオゲームのための生 成的 AIを用いた手続き的人工物語 PANGeA: Procedural Artificial Narrative using Generative

    AI for Turn-Based Video Games Stephanie Buongiorno and Lawrence J. Klinkert and Tanishq Chawla and Zixin Zhuang and Corey Clark 背景 ゲーム開発における動的な物語生成の必要性が高まってい ます。 目的 LLMsを活用し、予測できない入力にも対応した物語生成 手法を解決します。 提案 PANGeAは、 LLMによる NPC生成と自由形式の対話を可 能にするシステムです。 評価 カスタムブラウザの GPTと Unityデモによる実証実験を行 いました。 結果 PANGeAは、予測不可能な入力にも物語を一貫して生成で きる可能性を示しました。
  250. CompeteAI: 大規模言語モデルに基づくエ ージェントの競争行動の理解 CompeteAI: Understanding the Competition Behaviors in Large

    Language Model- based Agents Qinlin Zhao and Jindong Wang and Yixuan Zhang and Yiqiao Jin and Kaijie Zhu and Hao Chen and Xing Xie 背景 競争は社会や経済の進展に影響を与える重要なメカニズム です。 目的 LLMベースのエージェント間の競争行動を検証することが 目的です。 提案 エージェント間の競争を研究するフレームワークを提案し ます。 評価 GPT-4を用いて仮想環境を作成し、競争行動を観察しまし た。 結果 社会学的理論と一致する興味深い発見が得られました。
  251. DiLu: 大規模言語モデルを用いた自律走行へ の知識駆動型アプローチ DiLu: A Knowledge-Driven Approach to Autonomous Driving

    with Large Language Models Licheng Wen and Daocheng Fu and Xin Li and Xinyu Cai and Tengyu Ma and Pinlong Cai and Min Dou and Botian Shi and Liang He and Y. Qiao 背景 自律走行は現在、データ依存型の手法により進化していま すが、課題が多いです。 目的 自律走行システムに知識駆動の能力を持たせることが目指 されています。 提案 大規模言語モデルと DiLuフレームワークが提案されまし た。 評価 広範な実験で、 DiLuの経験蓄積と一般化能力が検証されま した。 結果 DiLuは実世界データセットから直接経験を取得することで 実用性を示しました。
  252. ドラママシン : LLMエージェントによるキャ ラクター発展のシミュレーション The Drama Machine: Simulating Character Development

    with LLM Agents Liam Magee and Vanicka Arora and Gus Gollings and Norma Lam-Saw 背景 大規模言語モデルの進化により、動的なキャラクターシミ ュレーションの研究が進展。 目的 LLMエージェントを用いて、複雑なキャラクターの発展を 実現する方法を探索。 提案 エゴとスーパーエゴ役割間の相互作用を調整するフレーム ワークを提案。 評価 面接と探偵物語のシナリオで、キャラクター発展をスーパ ーエゴの影響で比較。 結果 マルチエージェントアプローチが、適応的な物語の生成に 寄与する可能性を示唆。
  253. LLM駆動型ゲームにおける NPCとの会話 : プ レイヤーのフィードバックから導くガイドラ イン Conversational Interactions with NPCs

    in LLM-Driven Gaming: Guidelines from a Content Analysis of Player Feedback Samuel Rhys Cox and Wei Tsang Ooi 背景 大規模言語モデルを用いた NPCの対話は、より動的かつ 多様な応答を提供します。 目的 LLM駆動型 NPCがプレイヤー没入感と主体性に与える影響 を明確化することが重要です。 提案 海を商業用ゲームで分析し、デザイナーの指針となるガイ ドラインを生成します。 評価 市販ゲームのプレイヤーフィードバックを内容分析し、有 効性を評価しました。 結果 LLMが NPCの対話に与える影響や示唆を明らかにし、設計 ガイドラインを導出しました。
  254. LLMベースのマルチエージェントコミュニテ ィにおける操作された知識の氾濫 Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent

    Communities Tianjie Ju and Yiting Wang and Xinbei Ma and Pengzhou Cheng and Haodong Zhao and Yulong Wang and Lifeng Liu and Jian Xie and Zhuosheng Zhang and Gongshen Liu 背景 LLMの採用が進む中、セキュリティの問題が未解決であ る。 目的 操作された知識の拡散の脅威を明らかにすることが目的で ある。 提案 二段階攻撃法である説得力注入と知識注入を提案する。 評価 システム内の知識拡散を模擬し、詳細な実験環境を設定し た。 結果 攻撃は成功し、操作知識が持続的に拡散されるリスクが確 認された。
  255. 大規模言語モデルに対するプロンプト盗難攻 撃 Prompt Stealing Attacks Against Large Language Models Zeyang

    Sha and Yang Zhang 背景 LLMの活用が進んでおり、プロンプトエンジニアリング が重要な課題となっています。 目的 プロンプトの設計が困難なため、その品質を向上させる手 法の開発が求められています。 提案 プロンプト盗難攻撃という新たな手法を提案し、高品質な プロンプトを盗むことを目指します。 評価 生成された回答を基にプロンプトの性質を推測する手法の 有効性を検証しました。 結果 提案手法により、ほぼ元のプロンプトに近い逆生成が可能 であることが示されました。
  256. KARMA: 長期および短期記憶システムを備 えた具現化 AIエージェントの強化 KARMA: Augmenting Embodied AI Agents with

    Long-and-short Term Memory Systems Zixuan Wang and Bo Yu and Junzhe Zhao and Wenhao Sun and Sai Hou and Shuai Liang and Xing Hu and Yinhe Han and Yiming Gan 背景 具現化 AIは長シーケンス家庭作業で文脈メモリが不足しが ちで、効率性が課題。 目的 文脈メモリの不足を解決し、エージェントの計画精度を向 上させる。 提案 KARMAは長期と短期記憶を統合し、 LLMsの計画能力を 強化する。 評価 AI2-THORシミュレーターを使い、短期と長期記憶の導入 効果を比較検証。 結果 タスク成功率が 1.3xと 2.3x向上し、効率は 62.7倍も向 上。
  257. MindScope: マルチエージェントシステム を通じた大規模言語モデルの認知バイアスの 探求 MindScope: Exploring cognitive biases in large

    language models through Multi- Agent Systems Zhentao Xie and Jiabao Zhao and Yilei Wang and Jinxin Shi and Yanhong Bai and Xingjiao Wu and Liang He 背景 大規模言語モデルの認知バイアスは、利点を阻害し、誤差 を引き起こす可能性があります。 目的 本研究は、 LLMsの認知バイアスの検出方法を向上するこ とを目指しています。 提案 静的・動的要素を持つ MindScopeデータセットとマルチ エージェント検出法を提案。 評価 RAG、競争ディベート、強化学習を統合した手法で効果 を実証しました。 結果 検出精度が GPT-4に比べ最大 35.10%改善しました。
  258. 大規模言語モデルを用いた Angry Birdsエー ジェント LangBirds LangBirds: An Agent for Angry

    Birds using a Large Language Model Seungwon Oh and Insik Chung and Kyung-Joong Kim 背景 Angry Birdsは物理的推論を要するため、 AIのテストベッ ドとして重要です。 目的 人間のような物理パズル解法を模倣する新しい AIを開発し ます。 提案 LLMを活用し、思考を二段階に分けるエージェントを提 案します。 評価 Phy-Qベンチマークで強化学習エージェントと比較し性能 を検証しました。 結果 LangBirdsは基準を超える結果を出し、意思決定の根拠が 理解可能です。
  259. 大規模言語モデルでビジネスとメディアの洞 察を活用する Harnessing Business and Media Insights with Large Language

    Models Yujia Bao and A. Shah and Neeru Narang and Jonathan Rivers and Rajeev Maksey and Lan Guan and Louise N. Barrere and Shelley Evenson and Rahul Basole and Connie Miao and Ankit Mehta and Fabien Boulay and Su 背景 従来の LLMはビジネス情報の正確な解釈が難しく、特化し た解決策が求められている。 目的 ビジネス領域での正確かつ詳細な情報提供を行い、出口の 精度を向上させる。 提案 FALMはターゲット化された知識ベースを活用し、ビジネ ス情報を深く理解し直答を提供する。 評価 自動評価と人間による評価で、ベースライン手法に対する 有意な改善を実証。 結果 FALMはビジネスとメディア領域で最先端の精度と信頼性 を確立した。
  260. メタ認知が必要な全て? 生成型エージェント における内省で目標指向行動を改善 Metacognition is all you need? Using Introspection

    in Generative Agents to Improve Goal-directed Behavior Jason Toy and Josh MacAdam and Phil Tabor 背景 大規模言語モデルは制約としてコンテキストの長さと一般 化の困難さがあります。 目的 メタ認知モジュールでエージェントの目標指向行動を向上 させることを目指します。 提案 内省を活用したメタ認知でエージェントが自らの戦略を適 応的に変更します。 評価 ゾンビアポカリプスを含むシナリオでモジュールをテスト し、比較分析を行います。 結果 エージェントは戦略を改善し、他システムを上回る性能を 示しました。
  261. Paradise: 言語モデルで拡張した社会物理エ ンジンの実験 Paradise: An Experiment Extending the Ensemble Social

    Physics Engine with Language Models Jack Kelly and Michael Mateas and Noah Wardrip-Fruin 背景 ゲームにおける社会シミュレーションの可能性を探る研究 です。 目的 言語モデルを用いた新しいゲームプレイスタイルの実現が 目的です。 提案 GPT-3で拡張した社会物理エンジンを提案します。 評価 システムの行動作成の管理困難性を分析しました。 結果 モデル間の不安定なバランスの課題が確認されました。
  262. エージェントの Internet: 異種エージェント の共同知能のためのウェブ構築 Internet of Agents: Weaving a Web

    of Heterogeneous Agents for Collaborative Intelligence Weize Chen and Ziming You and Ran Li and Yitong Guan and Cheng Qian and Chenyang Zhao and Cheng Yang and Ruobing Xie and Zhiyuan Liu and Maosong Sun 背景 LLMsの進化で自律エージェントが進化しましたが、異種 エージェント統合が課題です。 目的 多様なエージェントが協力するための柔軟でスケーラブル なプラットフォームを提供することです。 提案 Internetの概念に基づく Internet of Agents( IoA)を 提案し、多様なエージェントの連携を強化します。 評価 一般アシスタントタスクや AIタスクで広範な実験を行い、 IoAの有効性を検証しました。 結果 IoAは異種エージェントの効果的な協力を促進し、最先端 技術を凌駕することが確認されました。
  263. より良い AIエージェントの構築 : LLMベース の会話型エージェントにおけるペルソナの活 用に関する提言 Building Better AI Agents:

    A Provocation on the Utilisation of Persona in LLM- based Conversational Agents Guangzhi Sun and Xiao Zhan and Jose Such 背景 大規模言語モデルの普及により、個別化されたアプリケー ションの需要が増加しています。 目的 ペルソナを持つ会話型エージェントの設計を探求し、その 重要性を示すことが目的です。 提案 ペルソナを持たせた会話型エージェントの必要性とその実 装方法を提案します。 評価 具体的な応用例を通じて、ペルソナ統合の課題と倫理的側 面を分析します。 結果 ペルソナ統合の微妙さと評価メカニズムの重要性を強調し ています。
  264. 生成的 AIを用いたダークパターンの検出 : 初 期結果の報告 Detecting Dark Patterns Using Generative

    AI: Some Preliminary Results Stuart Mills and Richard Whittle 背景 ダークパターンは消費者に不利益を与える設計手法で、規 制強化が必要です。 目的 生成的 AI技術を用いてダークパターン検出手法を開発する ことです。 提案 異なるデジタルスキルレベルのユーザー行動をシミュレー ションする 3つの AIアプローチを提案。 評価 初期実験では、 3つのアプローチがそれぞれ異なる可能性 と課題を持つことを確認。 結果 AI Visionが有望で、 「 Choose your own adventure」は 潜在可能性、 Decision Networkは技術的挑戦。
  265. 党派的群衆の知恵 : 人間と LLMベースエージ ェントの集団知の比較 The Wisdom of Partisan Crowds:

    Comparing Collective Intelligence in Humans and LLM-based Agents Yun-Shiuan Chuang and Siddharth Suresh and Nikunj Harlalka and Agam Goyal and Robert Hawkins and Sijia Yang and Dhavan Shah and Junjie Hu and Timothy T. Rogers 背景 偏向がある中で人間の集団が正確な結論に至るプロセスを 理解することが重要です。 目的 LLMエージェントにおける党派的群衆の知恵の再現性を評 価することが目的です。 提案 LLMエージェントが人間の党派的収束を再現できること を示しました。 評価 ロールプレイの設定で LLMエージェントの収束特性を実験 によって評価しました。 結果 LLMエージェントは人間のように正確な信念に収束するこ とが確認されました。
  266. 人工知能が駆動する世界の研究の未来 The Future of Research in an Artificial Intelligence-Driven World

    Mukta Kulkarni and Saku Mantere and E. Vaara and Elmira van den Broek and S. Pachidi and Vern L. Glaser and Joel Gehman and Gianpiero Petriglieri and Dirk Lindebaum and Lindsey D. Cameron and H. Rahman and 背景 AIの進化が研究プロセス全体に影響を及ぼす可能性がある ため、問題の解決が重要です。 目的 人間の主体性と研究プロセスにおける AIの影響を探ること が重要です。 提案 AIの役割を再定義し、人間の中心性を維持することが提案 されています。 評価 研究では、哲学的および実践的課題を中心に議論と分析を 行います。 結果 AIが研究に不可欠であると同時に、注意深い統制が必要だ と示されています。
  267. テキストアドベンチャーゲームにおける言語 エージェントを用いた戦略的プレイの学習 Learning Strategic Play with Language Agents in Text-Adventure

    Games Nic Becker and Miranda Li 背景 テキストアドベンチャーゲームは自然言語を介して戦略的 判断が求められるため、研究が行われました。 目的 研究の目的は、自律言語エージェントがゲームで戦略的判 断を学ぶ手法の改善です。 提案 Reflexion拡張として長期記憶とアクションの自己検証モ ジュールを提案。 評価 ReActと Reflexionの 2つのベースラインを比較し、ゲー ム内での困難を特定。 結果 自動アクションの自己検証は成功したが、記憶ストレージ の改善余地を示唆します。
  268. CacheGen: 高速大規模言語モデル提供のた めの KVキャッシュ圧縮とストリーミング CacheGen: KV Cache Compression and Streaming

    for Fast Large Language Model Serving Yuhan Liu and Hanchen Li and Yihua Cheng and Siddhant Ray and Yuyang Huang and Qizheng Zhang and Kuntai Du and Jiayi Yao and Shan Lu and Ganesh Ananthanarayanan and Michael Maire and Henry Hoffmann 背景 大規模言語モデルは長い文脈を用いる際、処理遅延が問題 となります。 目的 ネットワーク遅延を解決し、モデル提供を効率化すること が重要です。 提案 CacheGenは KVキャッシュを圧縮し、帯域幅を最適化す ることで遅延を減少させます。 評価 LLMとデータセットを用いて、 CacheGenのパフォーマ ンスを比較テストしました。 結果 CacheGenはキャッシュサイズと遅延を大幅に削減しつ つ、応答品質を維持しました。
  269. ChatGPTは自然言語説明の質をどの尺度で 人間のように評価できるのか? ChatGPT Rates Natural Language Explanation Quality like Humans:

    But on Which Scales? Fan Huang and Haewoon Kwak and Kunwoo Park and Jisun An 背景 AIの透過性と説明責任が増大し、 NLEの評価が重要視され ている。 目的 ChatGPTの人間評価との整合性を多様な尺度で調査する ことが目的。 提案 複数の尺度を用いて ChatGPTの評価能力と人間の一致性 を探る。 評価 3つの NLEデータセットから 300例を用い、ペア比較を伴 う実験を実施。 結果 チャット GPTは粗い尺度で人間と一致し、動的プロンプ トでさらに改善。
  270. LLMで強化された専門家参加型医療チャット ボットの大規模展開からの学び Learnings from a Large-Scale Deployment of an LLM-Powered

    Expert-in-the-Loop Healthcare Chatbot Bhuvan Sachdeva and Pragnya Ramjee and Geeta Fulari and Kaushik Murali and Mohit Jain 背景 LLMは医療で利用されるが、幻覚や不完全な情報が信頼性 を低下。 目的 LLMの信頼性向上のため、専門家検証を組み込んだチャッ トボットを開発。 提案 BYOeBプラットフォームを使い、専門家が確認する LLM 搭載チャットボットを提案。 評価 CataractBotを 24週間で 318人に対し運用し、対話ログを 解析。 結果 医学的回答の正確性が 84.52%と評価され、性能が 19.02%向上。
  271. 制御された思考の連鎖 : プロンプトを通じた LLMのロールプレイ理解の引き出し Controlled Chain of Thought: Eliciting Role-Play

    Understanding in LLM Through Prompts Deborah Carlander and Kiyoshiro Okada and Henrik Engström and Shuichi Kurabayashi 背景 TRPGは明示的ルールだけでなく、暗黙ルールも理解が必 要。 目的 ロールプレイの定義を明確化し、 LLMの理解を促進。 提案 新手法 CCoTでプロンプトから思考の連鎖を生成。 評価 CCoTの初期テストで可能性を評価。 結果 CCoTは LLMの理解促進に有望な手法である。
  272. 大規模言語モデルの役割 :学業の先延ばし対策 に向けた個別化と支援策 Understanding the Role of Large Language Models

    in Personalizing and Scaffolding Strategies to Combat Academic Procrastination Ananya Bhattacharjee and Yuchen Zeng and Sarah Yi Xu and Dana Kulzhabayeva and Minyi Ma and Rachel Kornfield and Syed Ishtiaque Ahmed and A. Mariakakis and Mary P Czerwinski and Anastasia Kuzminykh and 背景 学業の先延ばし行動は個別要因が多く、従来の方法では不 十分。 目的 大規模言語モデルの可能性を調査し、個別化介入を実現す る。 提案 LLMがユーザー入力をもとにカスタマイズされたアドバイ スを提供する。 評価 大学生と専門家を対象に、インタビューとフォーカスグル ープを実施。 結果 LLMは構造化とサポート手段提供の必要性が明示された。
  273. 生成的エージェント NPCを用いたサバイバル RPGゲーム設計 Designing a Survival RPG Game with Generative

    Agent NPCs So-Mi Jeong and Dong-Hwan Kwon and Eun-Mi Jung 背景 ゲーム産業ではプレイヤーの没入感が重要視されていま す。 目的 生成的 AIを活用し、より動的な NPCとの対話を可能にす ること。 提案 生成的エージェント技術を活用した動的 NPC設計手法を 提案します。 評価 ユーザー実験でプレイヤーと NPCの対話の質を評価しま した。 結果 生成的エージェント NPCにより、没入感が大幅に向上し ました。
  274. 手頃な価格の生成エージェント Affordable Generative Agents Yangbin Yu and Qin Zhang and

    Junyou Li and Qiang Fu and Deheng Ye 背景 大規模言語モデルは信頼性の高いエージェントシミュレー ションを推進しますが、運用コストが課題です。 目的 低コストで信頼性の高い LLMベースのインタラクションを 実現すること。 提案 繰り返し推論を削減するポリシーと情報圧縮による AGA フレームワークを提案。 評価 複数の環境で広範な実験を行いフレームワークの有効性と 効率性を検証。 結果 AGAフレームワークの有効性が示され、行動理解の一助 となる示唆があります。
  275. 大規模言語モデルにおける認知的シナジーの 解放:多人格自己協力によるタスク解決エー ジェント Unleashing the Emergent Cognitive Synergy in Large

    Language Models: A Task- Solving Agent through Multi-Persona Self-Collaboration Zhenhailong Wang and Shaoguang Mao and Wenshan Wu and Tao Ge and Furu Wei and Heng Ji 背景 人間知能の成功は異なる心の協力による優れた成果によっ て成り立つ。 目的 LLMにおける認知的シナジーを解放し、複雑なタスクを改 善する。 提案 Solo Performance Promptingで複数の人格を用いて LLMを認知的シナジストに変える。 評価 知識・推論を含む 3つのタスクで SPPを評価し、比較実験 を実施。 結果 SPPは理由付け能力を維持しつつ事実誤認を削減し、 GPT-4でのみ認知的シナジーが現れた。
  276. 自律型 LLM搭載マルチエージェントアーキテ クチャの分類法 A Taxonomy for Autonomous LLM-Powered Multi-Agent Architectures

    Thorsten Händler 背景 **大規模言語モデル( LLM) **は AIに革命をもたらしまし たが、複雑なタスクへの対処には限界があります。 目的 本研究は、自律型 LLMマルチエージェントシステムの自 律性と整合性のバランスを解明します。 提案 多次元分類法で、 LLMエージェントの自律性と整合性の調 和を分析します。 評価 代表的な LLMパワードマルチエージェントシステムの分類 による実用性を示します。 結果 分類は実用的で、将来の研究と開発への可能性を示しまし た。
  277. LLMサービングのための CAP原則 : 長コンテ キスト大型言語モデルサービングの調査 The CAP Principle for LLM

    Serving: A Survey of Long-Context Large Language Model Serving Pai Zeng and Zhenyu Ning and Jieru Zhao and Weihao Cui and Mengwei Xu and Liwei Guo and Xusheng Chen and Yizhou Shan 背景 LLMサービングは、コスト効率と精度のトレードオフが問 題となっています。 目的 LLMサービングでの文脈理解の長さとその課題に着目する ことが目的です。 提案 CAPの概念を LLMサービングに適用し、三つの目標の最適 化原則を提案しました。 評価 既存の研究を CAP原則の枠組みで分類し、その有効性を 評価しました。 結果 CAP原則は設計者に動的なトレードオフを伝える指針と なります。
  278. 行動変容介入のエンゲージメント向上のため の大規模言語モデルエージェントの活用:デ ジタルマインドフルネスへの応用 Large Language Model Agents for Improving Engagement

    with Behavior Change Interventions: Application to Digital Mindfulness Harsh Kumar and Suhyeon Yoo and Angela M. Zavaleta Bernuy and Jiakai Shi and Huayin Luo and J. Williams and Anastasia Kuzminykh and Ashton Anderson and Rachel Kornfield 背景 自発的な健康エクササイズの参加は時間と共に減少し、持 続可能な参加のための新しい方法が求められています。 目的 行動変容支援のための **大規模言語モデル( LLM) **の役 割を検証することが主目的です。 提案 LLMエージェントが人間らしい対話を提供し、行動変容 を支援する可能性を模索します。 評価 502人と 54人の参加者に対して二つのランダム化実験を実 施し、エンゲージメントを分析しました。 結果 情報提供型 LLMはエクササイズのエンゲージメントを有 意に改善し、社会的サポートの代替となる可能性を示しまし
  279. メタバースにおける流動的なチーム :(非)親 しみの探求 Fluid teams in the metaverse: exploring the

    (un)familiar S. Jarvenpaa and Elizabeth Keating 背景 メタバースは物理世界と仮想世界の融合を促し、流動的チ ームの調整に新たな課題をもたらします。 目的 流動的チームがメタバースで **(非)親しみ **を克服し、 効果的に機能する方法を模索します。 提案 メタバースの流動性がチーム慣れに与える影響と、その活 用方法を探ることを提案します。 評価 メタバースの流動的環境でのチーム協調に影響を与える要 因を分析します。 結果 メタバースでの **(非)親しみ **の理解が新しいチーム体 験を生み出す可能性があります。
  280. ファジー理論と自然言語処理の融合 : 最先端 の調査 The fusion of fuzzy theories and

    natural language processing: A state-of-the-art survey Ming-Xing Liu and Hongjun Zhang and Zeshui Xu and Kun Ding 背景 自然言語処理は言語の曖昧さにより複雑で解決が非自明で ある。 目的 ファジー理論で言語の曖昧さを処理し、理解を進めること が目的。 提案 ファジー理論の概念を NLPに適用し、コンピュータ処理を 可能にする。 評価 ファジー理論の利用分野や融合の基本パラダイムを体系的 にレビュー。 結果 現行の制約を示し、改善策を提案して今後の研究の参考と する。
  281. データ処理の課題 : NLPと生成 AIを使った課 題の軽減 Dealing with Data for RE:

    Mitigating Challenges while using NLP and Generative AI S. Ghaisas and Anmol Singhal 背景 AIを活用する企業は、進化する規制と個別化、ガバナンス の課題に直面しています。 目的 NLPと生成 AI導入の複雑な課題を解決するため、実践的 な知識を提供します。 提案 NLPをコアにしたソリューション構築の知識とツールを提 供し、新しい REタスクを強調します。 評価 実践的な例と洞察を通じ、企業での NLPと生成 AI統合の課 題を示し解決策を探ります。 結果 テキストデータ中心タスクと伝統的 REプロセスの統合を 示し、新しいタスクの必要性を強調しました。
  282. LLMによるデータセット分析:大規模言語モ デルを用いたサブポピュレーション構造の発 見 LLM as Dataset Analyst: Subpopulation Structure Discovery

    with Large Language Model Yulin Luo and Ruichuan An and Bocheng Zou and Yiming Tang and Jiaming Liu and Shanghang Zhang 背景 サブポピュレーション分布はデータセットの重要な特性だ が、体系的な研究が不足している。 目的 サブポピュレーション構造を特定し、データセット理解を 深める。 提案 SSD-LLMフレームワークを用い、 LLMでサブポピュレー ションを解釈・要約する。 評価 提案手法を下流タスクでタスク固有チューニングを活用し 検証する。 結果 SSD-LLMは多様なサブポピュレーション関連タスクに効 果を示した。
  283. AgentCF: 自律言語エージェントを用いた協 調学習による推薦システム AgentCF: Collaborative Learning with Autonomous Language Agents

    for Recommender Systems Junjie Zhang and Yupeng Hou and Ruobing Xie and Wenqi Sun and Julian McAuley and Wayne Xin Zhao and Leyu Lin and Ji-rong Wen 背景 LLMパワードエージェントの非言語的行動はまだ十分探求 されていない。 目的 ユーザーアイテムの相互作用を模倣して推薦システムを改 善すること。 提案 ユーザーとアイテムをエージェントと見なし、協調フィル タリングを行う AgentCFを提案。 評価 エージェントの決定と現実の相互作用記録を比較し調整し た。 結果 エージェントは個別的な行動を示し、次世代シミュレーシ ョン開発を促進。
  284. ProactiveAgent: 個別化されたコンテキス ト対応リマインダーシステム ProactiveAgent: Personalized Context-Aware Reminder System Yumeng Ma

    and Jiahao Ren 背景 個別化された支援が日常生活で重要であり、それを実現す る技術の開発が求められています。 目的 ユーザーの意図を理解し、動的な状況での意思決定を支援 する。 提案 LLMと個別エージェントを組み合わせたコンテキスト対 応システムを提案します。 評価 シナリオ分析を通じて有用性を検証し、具体的なユースケ ースを提示しました。 結果 個別化支援の可能性を高め、ユーザー体験を向上させると 結論付けました。
  285. AgentCoder: マルチエージェントを用いた コード生成と反復テストによる最適化 AgentCoder: Multi-Agent-based Code Generation with Iterative Testing

    and Optimisation Dong Huang and Jie M.Zhang and Michael Luck and Qi Bu and Yuhao Qing and Heming Cui 背景 トランスフォーマー技術の拡大でコード生成が注目され、 テストとのバランスが課題に。 目的 効率的でバランスの取れたコード生成とテストを実現す る。 提案 **Multi-Agent Assistant Code Generation (AgentCoder)**を提案。 評価 9モデルと 12手法を対象に実験を行い、性能を評価した。 結果 AgentCoderが既存技術を凌駕することを示す。
  286. MedAgents: 大規模言語モデルを用いた協 力者としてのゼロショット医療推論 MedAgents: Large Language Models as Collaborators for

    Zero-shot Medical Reasoning Xiangru Tang and Anni Zou and Zhuosheng Zhang and Yilun Zhao and Xingyao Zhang and Arman Cohan and Mark B. Gerstein 背景 医療分野では、専門用語や特殊な知識に基づく推論が必要 です。 目的 医療における LLMsの推論能力を向上させる新しい枠組み を提案します。 提案 MedAgentsは、協力的な多次元の話し合いを通じて推論 能力を向上させます。 評価 MedAgentsは、 9つのデータセットを使用した実験で評価 されました。 結果 提案された枠組みは、 LLMsの医療専門知識と推論能力を 向上させます。
  287. 最適化可能なグラフとしての言語エージェン ト Language Agents as Optimizable Graphs Mingchen Zhuge and

    Wenyi Wang and Louis Kirsch and Francesco Faccio and Dmitrii Khizbullin and Jürgen Schmidhuber 背景 既存の LLMベースの手法は多様で非統一的であるため改善 が必要。 目的 異なる手法を統一する計算グラフとしての表現を提案。 提案 エージェントを計算グラフとし、ノードとエッジの最適化 を導入。 評価 自動化されたグラフ最適化の実験を通じてフレームワーク を検証。 結果 提案手法が LLMエージェントを効率的に改善可能であるこ とを確認。
  288. CodeAgent: ソフトウェアエンジニアリン グのための協調型エージェント CodeAgent: Collaborative Agents for Software Engineering Daniel

    Tang and Zhenghan Chen and Kisub Kim and Yewei Song and Haoye Tian and Saad Ezzini and Yongfeng Huang and Jacques Klein and Tégawendé F. Bissyandé 背景 コードレビューはソフトウェアの信頼性を確保するが、自 動化が求められている。 目的 協調的対話が可能な多エージェントシステムを用いたコー ドレビュー自動化の提案。 提案 CodeAgentは、 QA-Checkerを核とする自律的な多エー ジェントシステムである。 評価 コードとコミットメッセージの不一致検出やセキュリティ 評価で能力を検証。 結果 CodeAgentはコードレビューにおける自動化の効果を実 証した。
  289. LLM駆動のニューラル -シンボリック認知ア ーキテクチャ NEOLAF NEOLAF, an LLM-powered neural-symbolic cognitive architecture

    Richard Tong and Cassie Chen Cao and Timothy Xueqian Lee and Guodong Zhao and Ray Wan and Fei Wang and Xiangen Hu and Robin Schmucker and Jinsheng Pan and Julian Quevedo and Yu Lu 背景 ニューラルとシンボリックの融合が知能エージェント構築 の課題です。 目的 効率的で説明可能な知能エージェントモデルの開発です。 提案 NEOLAFは逐次学習と協調学習を活用した認知アーキテク チャです。 評価 NEOLAFに数学問題を解かせ、その学習能力を評価しまし た。 結果 NEOLAFは高い学習能力を示し、分野の革新を示唆しま す。
  290. 学生フォーラムでの質疑応答向けの検索 -プ ロンプト戦略 : RetLLM-E RetLLM-E: Retrieval-Prompt Strategy for Question-Answering

    on Student Discussion Forums Chancharik Mitra and Mihran Miroyan and Rishi Jain and Vedant Kumud and G. Ranade and Narges Norouzi 背景 学生フォーラムの質問は特定のコースや機関に依存してお り、一般的な LLMでは十分な回答を提供できない。 目的 学生フォーラムの質問に高品質な回答を提供する新しい手 法を提案すること。 提案 RetLLM-Eは、テキスト検索とプロンプト技術を組み合 わせて、学生の質問に最適化された回答を生成する。 評価 量的および人的評価を通じて、 RetLLM-Eの回答品質を既 存の真実と比較した。 結果 RetLLM-Eは、文脈なしの LLMよりも高品質なコース関連 の回答を提供できることを実証した。
  291. LLMによる予測を用いたベイズ統計モデル Bayesian Statistical Modeling with Predictors from LLMs Michael Franke

    and Polina Tsvilodub and Fausto Carcassi 背景 大規模言語モデル( LLM)の予測が人間の判断にどれほど 似ているかは重要です。 目的 人間の認知や言語使用の説明モデルとして LLMを評価する ことが目的です。 提案 LLMの予測精度を向上させるベイズ統計モデルの適用方法 を提案します。 評価 強制選択実験を通じて人間データと LLMの予測を比較分析 しました。 結果 LLMは集計レベルでの人間行動の予測に適しているが、個 別項目では不十分でした。
  292. LLMエージェントのための弱い探索から強い 活用へ WESE: Weak Exploration to Strong Exploitation for LLM

    Agents Xu Huang and Weiwen Liu and Xiaolong Chen and Xingmei Wang and Defu Lian and Yasheng Wang and Ruiming Tang and Enhong Chen 背景 現在の LLMエージェントは、環境のグローバル情報不足で 最適解を得にくい。 目的 複雑なタスクを解決するため、探索と活用を分離する手法 の提案。 提案 WESEは弱い探索エージェントでグローバル知識を習得 し、強い活用を促進。 評価 4つのインタラクティブベンチマークを用いて、成功率と 効率性を評価。 結果 成功率と効率性が著しく向上し、多様なタスクに柔軟に対 応可能。
  293. LLMエージェントのセキュリティとプライバ シー : ケーススタディによる調査 The Emerged Security and Privacy of

    LLM Agent: A Survey with Case Studies Feng He and Tianqing Zhu and Dayong Ye and Bo Liu and Wanlei Zhou and Philip S. Yu 背景 LLMエージェントの急速な発展はセキュリティとプライ バシーの脆弱性を露呈。 目的 LLMエージェントのセキュリティとプライバシー問題の包 括的理解が目的です。 提案 LLMエージェントの脅威の分析と防御戦略の評価を提案。 評価 脅威の影響と防御戦略を検証するためのケーススタディを 実施。 結果 研究が促進され、エージェントの信頼性が向上することを 期待。
  294. インターネットインシデント調査のための対 話型研究エージェントの構築に向けて Towards Interactive Research Agents for Internet Incident Investigation

    Yajie Zhou and Nengneng Yu and Zaoxing Liu 背景 インターネットのインシデント調査は専門家の知識が必要 で、人的労力が大きい課題である。 目的 本研究は、インターネットインシデントの調査を支援する ソフトウェアエージェントの開発を目的とする。 提案 Auto-GPTを利用し、言語モデル GPT-4を活用する調査エ ージェントを提案する。 評価 エージェントによりオンラインリソースから情報を取得 し、継続的な知識テストを行う。 結果 エージェント Bobは、太陽スーパーストームの影響を調査 し、専門研究と類似の結論を得た。
  295. 開発のためのコミュニケーションエージェン ト Communicative Agents for Software Development Chen Qian and

    Xin Cong and Cheng Yang and Weize Chen and Yusheng Su and Juyuan Xu and Zhiyuan Liu and Maosong Sun 背景 ソフトウェア開発では、多様な知識と視点が必要とされる が、その融合が課題です。 目的 多様な社会的アイデンティティを持つエージェントによる 効率化を図ります。 提案 異なるアイデンティティを持つエージェントの協力による 開発手法を提案します。 評価 プロジェクトにおいて多様なエージェントの協力効果を分 析しました。 結果 エージェントの協力で開発の効率と質が向上しました。
  296. LDM²: 動的記憶強化を用いた人間認知模倣 の大規模意思決定モデル LDM²: A Large Decision Model Imitating Human

    Cognition with Dynamic Memory Enhancement Xingjin Wang and Linjing Li and D. Zeng 背景 大規模言語モデル( LLM)は人工一般知能の実現に向けて 重要です。 目的 LLMにより人間の意思決定過程を模倣する方法を開発しま す。 提案 LDM²は動的記憶を用い、環境に応じた最適な意思決定を 支援します。 評価 インタラクティブ環境での広範な実験で提案手法を評価し ました。 結果 LDM²はスコアと成功率で他手法を上回り、その効果が示 されました。
  297. 社会ネットワーク向けマルチエージェントシ ミュレータ Multiagent Simulators for Social Networks Aditya Surve and

    Archit Rathod and Mokshit Surana and Gautam Malpani and Aneesh Shamraj and Sainath Reddy Sankepally and Raghav Jain and Swapneel Mehta 背景 オンライン安全性に関する課題解決が求められています。 目的 マルチエージェントシミュレーション技術を応用し課題解 決を目指します。 提案 大規模言語モデルとエージェントベースのシミュレーショ ンを提案します。 評価 過去の研究を評価し、未来の研究課題と機会を特定しま す。 結果 社会ネットワークの安全性向上に有望な可能性を示してい ます。
  298. 自律走行車における大型言語モデルを用いた 人間らしいインタラクションの実現 Drive as You Speak: Enabling Human-Like Interaction with

    Large Language Models in Autonomous Vehicles Can Cui and Yunsheng Ma and Xu Cao and Wenqian Ye and Ziran Wang 背景 自律走行車は人間中心のデザインと AI能力の融合が重要で す。 目的 自律走行車の意思決定を LLMで強化し、安全性を向上。 提案 LLMの自然言語と文脈理解を活用した新しいフレームワー クを提案。 評価 各種自律走行モジュールと LLMの統合による性能評価を 行いました。 結果 新フレームワークは、個別対応と透明性のある意思決定を 可能にします。
  299. 動力学方程式の融合 : LLMベースのエージェ ントを用いた社会的意見予測アルゴリズム Fusing Dynamics Equation: A Social Opinions

    Prediction Algorithm with LLM- based Agents Junchi Yao and Hongjie Zhang and Jie Ou and Dingyi Zuo and Zheng Yang and Zhicheng Dong 背景 ソーシャルメディアは世論形成の重要な場となり、そのユ ーザー行動の複雑性を把握することが求められます。 目的 意見動力学を正確にシミュレーションし、社会現象の理解 と政策立案を向上させることです。 提案 新しい FDE-LLMアルゴリズムは、 CAモデルと SIRモデル を組み合わせ、 LLMの行動を現実に適合させます。 評価 実験は Weiboデータセットを用いた定量的検証と、 ChatGLMモデルによる分析で行われました。 結果 提案手法は従来の方法よりも精度と解釈性が高いことが確 認されました。
  300. 心理計量調整 : 言語モデルによる人間の知識 分布の捕捉 Psychometric Alignment: Capturing Human Knowledge Distributions

    via Language Models Joy He-Yueya and Wanjing Anya Ma and Kanishk Gandhi and Benjamin W. Domingue and E. Brunskill and Noah D. Goodman 背景 言語モデルは現在、教育や政策立案において人間の行動を シミュレートするために活用されています。 目的 LMが人間の知識分布を効果的に反映するかを評価するこ とです。 提案 「心理計量調整」という新しいメトリクスを導入し、人間 の知識分布との一致度を測定します。 評価 LMと人間の回答を収集し、項目反応理論を用いて群間の 違いを分析しました。 結果 小型の LMは大型よりも心理計量調整が優れていることが 示されました。
  301. マージによって自己批判がジェイルブレイク 攻撃に対抗 Merging Improves Self-Critique Against Jailbreak Attacks Víctor Gallego

    背景 大規模言語モデルはジェイルブレイク攻撃に弱く、対策が 必要とされています。 目的 本研究は自己批判能力を強化し、攻撃成功率を低下させる ことを目的としています。 提案 外部の批判モデルとマージして LLMの自己批判能力を向上 させる手法を提案します。 評価 提案手法を用いて、合成データに対する性能評価を行いま した。 結果 攻撃成功率が大幅に低下し、新たな防御機構が示唆されま した。
  302. PSYDIAL: 大規模言語モデルを用いた性格ベ ースの生成対話 PSYDIAL: Personality-based Synthetic Dialogue Generation Using Large

    Language Models Ji-Eun Han and Jun-Seok Koh and Hyeon-Tae Seo and Du-Seong Chang and Kyung-Ah Sohn 背景 現実世界での人間らしい対話を生成するための性格反映が 重要。 目的 性格を反映する会話データの効果的な生成方法を確立す る。 提案 性格特性に基づく合成対話データセット PSYDIALを提案。 評価 PSYDIALで訓練したモデルによる対話生成性能を実験的に 検証。 結果 PSYDIALを利用したモデルで性格を反映した応答生成が大 幅に改善。
  303. KAOS: 大規模モデルマルチエージェントオ ペレーティングシステム KAOS: Large Model Multi-Agent Operating System Zhao

    Zhuo and Rongzhen Li and Kai Liu and Huhai Zou and KaiMao Li and Jie Yu and Tianhao Sun and Qingbo Wu 背景 大規模モデルはユーザー体験の差異を減少させますが、エ ージェント協力とリソース共有に課題があります。 目的 KAOSの提案により、異なるソフトウェアプラットフォー ム間での統一的なユーザー体験とリソース管理問題の解決を目 提案 オープンソースの Kylinをベースにした KAOSというマル チエージェント OSを提案します。 評価 実際のアプリケーションと知能スコアリングを用いて効率 性と優位性を検証しました。 結果 実験結果、マルチエージェント協力により様々なシナリオ で顕著な利点を確認しました。
  304. 役割に固執せよ!大規模言語モデルにおける 個人価値表現の文脈依存性と安定性 Stick to your Role! Context-dependence and Stability of

    Personal Value Expression in Large Language Models Grgur Kovač and Rémy Portelas and Masataka Sawayama and P. Dominey and Pierre-Yves Oudeyer 背景 大規模言語モデル( LLM)の文脈依存性は、現実的な運用 における挙動を把握する上での課題です。 目的 LLMの価値安定性を評価し、他の特性との比較に役立てる ことを目的とします。 提案 文脈依存性をモデルの新たな比較次元として研究・活用す ることを提案します。 評価 心理学的手法を利用し、異なる文脈での価値表現安定性を 評価しました。 結果 特定のモデルが他よりも高い価値安定性を示すことを発見 しました。
  305. 生成的ゴースト : AIの死後の世界における利 益とリスクの予測 Generative Ghosts: Anticipating Benefits and Risks

    of AI Afterlives Meredith Ringel Morris and Jed R. Brubaker 背景 AIの能力向上に伴い、人間に基づくエージェント作成が現 実化しつつあります。 目的 人々が安全かつ有益に AI死後生活を創造・交流できる手段 を探ります。 提案 生成的ゴーストの設計のための新たなデザイン空間を導入 します。 評価 設計アプローチの実用的・倫理的影響を考察するための分 類法を使用しました。 結果 AI死後技術のリスク /利益の景観を理解するための研究計 画を提示しました。
  306. DoraemonGPT: 大規模言語モデルを用いた 動的シーンの理解へ DoraemonGPT: Toward Understanding Dynamic Scenes with Large

    Language Models Zongxin Yang and Guikun Chen and Xiaodi Li and Wenguan Wang and Yi Yang 背景 LLMは画像に特化しており、動的シーンの理解に限界があ ります。 目的 動的シーン理解を可能にする新しい方法を提示し、汎用性 を持たせることを目的とします。 提案 DoraemonGPTはビデオエージェントとして機能し、シン ボリックメモリでタスクを解析します。 評価 3つのベンチマークと多様な自然シナリオで効果を徹底評 価しました。 結果 良好な結果が得られ、多数の解が統合され改善された回答 が得られました。
  307. "私のエージェントは私をよりよく理解す る ": 人間らしい動的記憶再生と統合の LLM エージェントへの統合 "My agent understands me

    better": Integrating Dynamic Human-like Memory Recall and Consolidation in LLM-Based Agents Yuki Hou and Haruki Tamoto and Homei Miyashita 背景 LLMは時間認知の限界により一貫した対話理解が困難で す。 目的 人間らしい記憶再生を取り入れることで、対話エージェン トの認知能力を向上させます。 提案 人間の記憶キューをトリガーとし、動的な記憶統合を行う 数学的モデルを提案します。 評価 ユーザーの対話履歴から記憶を取得し、その内容と時間的 文脈をデータベースに保存します。 結果 エージェントは人間のように過去の経験を認識し、特定の 記憶を再生する能力が向上しました。
  308. 大規模言語モデルにおける性別と人種のバイ アスの測定 Measuring Gender and Racial Biases in Large Language

    Models Jiafu An and Difang Huang and Chen Lin and Mingzhu Tai 背景 AIの採用が増加する中で、社会的バイアスの影響が懸念さ れています。 目的 大規模言語モデルの性別・人種バイアスを分析し、影響を 明らかにします。 提案 GPTを用いて職業候補者のバイアス測定を実施しました。 評価 無作為に設定した社会的アイデンティティで約 361,000の 履歴書を分析。 結果 黒人男性への評価が低く、性別バイアス軽減が示唆されま した。
  309. V-IRL: 仮想知能を現実世界に根付かせる V-IRL: Grounding Virtual Intelligence in Real Life Jihan

    Yang and Runyu Ding and Ellis L Brown and Xiaojuan Qi and Saining Xie 背景 AIエージェントが現実世界で人間のように柔軟に動くため の感覚的な隔たりを解消する必要があります。 目的 現実とデジタルのリアリズムのギャップを埋めることで、 より実用的な AIエージェントを開発することを目指します。 提案 V-IRLプラットフォームを提案し、エージェントが仮想的 に現実世界と交互作用できる環境を提供します。 評価 エージェントの知覚、意思決定、相互作用能力を検証する ためにグローバルなデータを用いた実験を行いました。 結果 V-IRLは、エージェントの実用タスク達成力と能力向上を 評価する大規模な試験場として機能します。
  310. Math-Shepherd: 人工による注釈なしでス テップバイステップで LLMを検証・強化 Math-Shepherd: Verify and Reinforce LLMs Step-by-step

    without Human Annotations Peiyi Wang and Lei Li and Zhihong Shao and R. Xu and Damai Dai and Yifei Li and Deli Chen and Y.Wu and Zhifang Sui 背景 LLMの学習には手作業のアノテーションが不可欠で、それ が大きな負担でした。 目的 自動で LLMのステップごとの監督を行い、性能を向上させ ることが目的です。 提案 Math-Shepherdというモデルを提案し、報酬スコアで数 式解法を評価します。 評価 シナリオとして LLMの出力検証と PPOによる強化学習を 用いました。 結果 Mistral-7Bの精度が GSM8Kで 89.1%、 MATHで 43.5% に大幅向上しました。
  311. 長 LLMLingua: プロンプト圧縮による長文 コンテキストシナリオでの LLMの高速化と強 化 LongLLMLingua: Accelerating and Enhancing

    LLMs in Long Context Scenarios via Prompt Compression Huiqiang Jiang and Qianhui Wu and Xufang Luo and Dongsheng Li and Chin-Yew Lin and Yuqing Yang and Lili Qiu 背景 長文コンテキストでの大規模言語モデルの計算コストとパ フォーマンス低下が問題です。 目的 プロンプトの圧縮で LLMが重要情報をよりよく認識し、課 題を同時に解決します。 提案 LongLLMLinguaを提案し、プロンプト圧縮で LLMの効率 を大幅に向上させます。 評価 様々なベンチマークで LongLLMLinguaを検証し、性能向 上とコスト削減を評価しました。 結果 性能向上とコスト削減が確認され、エンドツーエンドの遅 延も大幅に改善されました。
  312. 協調的な AIへの探求 : LLM同士の相互作用 Interacting LLMs: A Dive into Collaborative

    AI Grant Cheng and Oliver Wang and Alyssa M. Adams and Martin Biehl and Luc Caspar and Olaf Witkowski 背景 大規模言語モデル( LLM)は応用範囲が広いが、問題解決 能力の限界が存在する。 目的 LLMの協調的相互作用による言語タスクのパフォーマンス 向上を目指す。 提案 5つの異なる方法で LLMを相互作用させ、タスクを実施す る手法を提案。 評価 提案手法をグラフ探索アルゴリズムと比較し、成功率とペ ージ数を評価。 結果 一部の方法が他の相互作用法を上回り、プロンプト複雑性 の課題も確認。
  313. 歴史的拡張現実体験の強化 : AI生成対話のた めのプロンプトエンジニアリング戦略 Enhancing Historical Extended Reality Experiences: Prompt

    Engineering Strategies for AI-Generated Dialogue Lazaros Rafail Kouzelis and Ourania Spantidi 背景 拡張現実は多くの可能性を秘めていますが、一般化された アプローチとスクリプトへの依存が課題です。 目的 AIを用いて XR体験での事実の不正確さを改善することが 重要です。 提案 GPT APIのプロンプトエンジニアリングを活用し、歴史再 現における文脈理解を向上させます。 評価 1922年のスミルナ大火を題材に AIエージェントを配置 し、実験を実施しました。 結果 プロンプトエンジニアリングにより、事実誤りが減少し AI 対話がより共鳴することを確認しました。
  314. トランスフォーマーの長さ外挿 : 位置エンコ ーディング観点からの調査 Length Extrapolation of Transformers: A Survey

    from the Perspective of Positional Encoding Liang Zhao and Xiachong Feng and Xiaocheng Feng and Weihong Zhong and Dongliang Xu and Qing Yang and Hongtao Liu and Bing Qin and Ting Liu 背景 トランスフォーマーは長さの制限により長いシーケンスへ の適用が困難です。 目的 位置エンコーディングを視点にトランスフォーマーの長さ 外挿の方法を体系的に分析します。 提案 外挿可能な位置エンコーディングを用いた方法を統一的に 整理し、新たな視点を提供します。 評価 文献調査により位置エンコーディングを中心にした外挿方 法の分類と分析を行いました。 結果 現行の方法への深い理解と今後の研究への示唆を提供しま す。
  315. REX: AIエージェントのための迅速な探索と 活用 REX: Rapid Exploration and eXploitation for AI

    Agents Rithesh Murthy and Shelby Heinecke and Juan Carlos Niebles and Zhiwei Liu and Le Xue and Weiran Yao and Yihao Feng and Zeyuan Chen and Akash Gokul and Devansh Arpit and Ran Xu and P. Mùi and Haiquan Wang 背景 AutoGPTスタイルの技術には意思決定のための正確な記 述への依存があります。 目的 AIエージェントの迅速で効率的な探索と活用手法の確立を 目的としています。 提案 REXは追加の報酬層と UCBに似た概念を統合した手法で す。 評価 Chain-of-Thoughtsや RAPとの比較分析により評価されま す。 結果 REXは実行時間を大幅に削減し、多様なシナリオでの実用 性を示しました。
  316. UltraFeedback: 高品質フィードバックで言 語モデルを強化 UltraFeedback: Boosting Language Models with High-quality Feedback

    Ganqu Cui and Lifan Yuan and Ning Ding and Guanming Yao and Wei Zhu and Yuan Ni and Guotong Xie and Zhiyuan Liu and Maosong Sun 背景 RLHFにおける多様で自然な人間の好みデータの不足が課 題です。 目的 多様で高品質な好みデータセット ULTRAFEEDBACKの 提案により RLHFを促進します。 提案 多様な指示とモデルを集め、 GPT-4を用いて詳細なフィー ドバックを提供します。 評価 UltraRMや UltraLM-13B-PPOなど様々なモデルを用いて 実験的に効果を確認しました。 結果 開発したモデルが既存モデルを超え複数のベンチマークで 最高性能を示しました。
  317. 真実の明示と変革の促進 : エージェントベー スの大規模社会運動シミュレーションに向け て Unveiling the Truth and Facilitating

    Change: Towards Agent-based Large-scale Social Movement Simulation Xinyi Mou and Zhongyu Wei and Xuanjing Huang 背景 ソーシャルメディアの影響力が増加し、社会運動の動向を 予測することが重要です。 目的 社会運動参加者の行動を正確に捉える新しいシミュレーシ ョン手法の開発です。 提案 ユーザーを 2タイプに分けるハイブリッドフレームワーク HiSimを提案します。 評価 実世界データセットを用いた包括的な実験で手法を検証し ました。 結果 手法は有効かつ柔軟であることが結果として示されまし た。
  318. UGCベースのロールプレイングゲーム向け のテキストゲームエンジン A Text-to-Game Engine for UGC-Based Role-Playing Games Lei

    Zhang and Xuezheng Peng and Shuying Yang and Feiyang Wang 背景 生成 AIの進化により、 UGCが RPGなどのゲーム業界に影 響を与えている。 目的 簡単なテキストからインタラクティブな RPGを生成する エンジンを開発する。 提案 テキストから複雑な RPG体験を作る新しいフレームワーク を提案。 評価 フレームワークで Zagiiエンジンを開発し、多数のオンラ インゲームでテスト。 結果 Zagiiにより、数百の RPGと数万のプレイが成功し、フレ ームワークの有効性を確認。
  319. PhishAgent: フィッシングウェブページ検 出のための頑強なマルチモーダルエージェン ト PhishAgent: A Robust Multimodal Agent for

    Phishing Webpage Detection Tri Cao and Chengyu Huang and Yuexin Li and Huilin Wang and Amy He and Nay Oo and Bryan Hooi 背景 フィッシング攻撃はオンラインセキュリティで重大な脅威 となり、対策の必要性が高まっています。 目的 フィッシングサイトの検出精度を向上し、誤検知を減少さ せることを目的としています。 提案 PhishAgentは、複数のソースを統合したマルチモーダル フレームワークを提案します。 評価 実際に得られた 3つのデータセットを用いて、フレームワ ークの性能を検証しました。 結果 提案手法は、検出精度を改善し、誤検知率を減少させまし た。
  320. RecAgent: レコメンダーシステムのための 新しいシミュレーションパラダイム RecAgent: A Novel Simulation Paradigm for Recommender

    Systems Lei Wang and Jingsen Zhang and Xu Chen and Yankai Lin and Ruihua Song and Wayne Xin Zhao and Ji-rong Wen 背景 過去の研究では実データベースが優位でしたが、 LLMがシ ミュレーションの新たな可能性を示しています。 目的 シミュレーションの短所を克服し、安価なデータ取得を可 能にする LLM利用の意義を示します。 提案 LLMに基づくレコメンダーシミュレーター「 RecAgent」 を提案し、ユーザーとレコメンダーモジュールで構成されま 評価 ユーザーが LLMに基づき現実的な行動をすることをケース スタディで確認しました。 結果 実際にシミュレーションでユーザーが合理的に行動するこ とが示されました。
  321. 感情に基づくリアルな 3Dアニメーションの ための予備モデル Preliminary Emotion-Based Model for Realistic 3D Animation

    Noorsyuhada Azlan and M. F. Asli and Muzaffar Hamzah 背景 3Dアニメの感情表現の限界が没入感を阻害している。 目的 キャラクターのリアルな動きで観客の関与を強化するこ と。 提案 基本的な感情に基づいた予備モデルを提案し、リアルな表 現を支援。 評価 Shapiroの 15コントローラーを用い感情ごとの要素と評 価を分析。 結果 異なる感情にユニークなコントローラーが必要と示唆され た。
  322. Tachikuma: 大規模言語モデルによる多キャ ラクターと新規オブジェクトの複雑なインタ ラクション理解 Tachikuma: Understading Complex Interactions with Multi-Character

    and Novel Objects by Large Language Models Yuanzhi Liang and Linchao Zhu and Yezhou Yang 背景 近年の LLMの進展により仮想世界でのインタラクションが 向上しましたが、多くのキャラクターや新規オブジェクトに対 目的 多キャラクターと新しいオブジェクトを含む複雑なインタ ラクションを改善することが目的です。 提案 テーブルトップ RPGに着想を得た仮想ゲームマスターをエ ージェントに統合し、情報や意図の管理を改善します。 評価 Tachikumaというベンチマークを用いて、モデルが意図を 理解する能力を評価しました。 結果 単純なプロンプティングの基準でも、インタラクション理 解を向上させる効果が確認されました。
  323. LLMはどのくらい信じられる AIから遠いか? 人間行動シミュレーションの信ぴょう性を評 価するベンチマーク How Far Are LLMs from Believable

    AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation Yang Xiao and Yi Cheng and Jinlan Fu and Jiashuo Wang and Wenjie Li and Pengfei Liu 背景 AIは大規模言語モデルでの人間行動シミュレーションで進 展を示すが、信ぴょう性が不明瞭です。 目的 シミュレーションされた行動の信ぴょう性を評価し、人間 らしい行動の理解を深めることです。 提案 人間行動シミュレーションの信ぴょう性を評価するために SimulateBenchを設計しました。 評価 65のキャラクタープロファイルと 8,400の質問を用いて LLMsを 2次元で評価しました。 結果 現在の LLMsはキャラクターの整合性に乏しく、摂動に対 する脆弱性を示しました。
  324. AIエージェント間で人間のような対話生成を 目指して Towards human-like spoken dialogue generation between AI agents

    from written dialogue Kentaro Mitsui and Yukiya Hono and Kei Sawada 背景 **大規模言語モデル (LLMs)**の登場により、自然な書き言 葉の対話生成が可能になった。 目的 人間らしい話し言葉の対話生成を可能にする方法を開発す ること。 提案 CHATSは、書き言葉からの自然な話し言葉生成を実現す るシステムである。 評価 実験評価により、 CHATSはベースラインを上回り、流暢 で明瞭な対話を実現した。 結果 CHATSにより、インタラクティブで流暢な会話が可能で あることが示された。
  325. P4: 大規模言語モデルの個別化のためのプラ グアンドプレイ方式の離散プロンプト生成 P4: Plug-and-Play Discrete Prompting for Large Language

    Models Personalization Yuan Zhang and Xiao Wang and Tianze Chen and Jiayi Fu and Tao Gui and Qi Zhang 背景 LLMのパーソナライゼーションはユーザーニーズへの対応 に不可欠である。 目的 個別のモデル調整の手間を軽減しつつ、高品質な応答を得 ること。 提案 P4というプラグアンドプレイ方式の離散プロンプト生成 手法を提案する。 評価 ユーザーニーズへの対応力と応答のクオリティを重視した 検証実験を行う。 結果 P4は迅速かつ柔軟にパーソナライズされた応答を提供可 能であることが示された。
  326. 大規模言語モデルは良いコンパニオンになり 得るか? Can Large Language Models Be Good Companions? Zhenyu

    Xu and Hailin Xu and Zhouyang Lu and Yingying Zhao and Rui Zhu and Yujiang Wang and Mingzhi Dong and Yuhu Chang and Qin Lv and Robert P. Dick and Fan Yang and T. Lu and Ning Gu and L. Shang 背景 AI研究者は、個人のコンパニオンとしてのチャットボット 開発を目指してきた。 目的 チャットボットが人間的なコンパニオンになるための共通 の立場構築が重要である。 提案 OS-1は視覚と音声を感知し、共通の立場を築く対話シス テムを提案する。 評価 OS-1の技術的妥当性と共通の立場構築能力をラボと現場 で評価した。 結果 個人の文脈を利用することで、 OS-1はユーザーの理解を 深め、満足度を向上した。
  327. RoleCraft-GLM: 大規模言語モデルにおけ る個別化されたロールプレイの進展 RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language

    Models Meiling Tao and Xuechen Liang and Tianyu Shi and Lei Yu and Yiting Xie 背景 会話型 AIでの個別インタラクション不足が課題であり、改 善が求められています。 目的 個別化されたインタラクションを強化し、感情豊かな対話 を実現することです。 提案 RoleCraft-GLMを用いて、多様な非有名人のペルソナを詳 細に描写します。 評価 様々なケーススタディを通じて、生成対話の品質を検証し ました。 結果 RoleCraft-GLMは個別インタラクションを大きく進展さ せ、参加者の関与を促進します。
  328. CRDA: 大規模言語モデルの内容リスクドリ フト評価 CRDA: Content Risk Drift Assessment of Large

    Language Models through Adversarial Multi-Agent Interaction Zongzhen Liu and Guoyi Li and Bingkang Shi and Xiaodan Zhang and Jingguo Ge and Yulei Wu and Honglei Lyu 背景 大規模言語モデルの内容リスクが不確実であることが、ユ ーザーとの継続的対話で特に問題視されています。 目的 LLMのリスクドリフトを低コストで評価する新たな方法を 開発することを目的としています。 提案 CRDAという低コストで軽量なフレームワークを提案し、 自動で複数ラウンドの敵対相互作用を行います。 評価 制限された役割で LLMの敵対相互作用を行い、リスクドリ フトの影響を分析しました。 結果 5つの中国 LLMがコンテンツリスクドリフトを示し、特に 累積悪化率での増加が見られました。
  329. 大規模言語モデルを用いた科学的知識の破壊 Poisoning scientific knowledge using large language models Junwei Yang

    and Hanwen Xu and Srbuhi Mirzoyan and Tong Chen and Zixuan Liu and Wei Ju and Luchen Liu and Ming Zhang and Sheng Wang 背景 生物医学知識グラフは新たな仮説の生成に重要であり、 LLMの悪用が懸念されています。 目的 LLMを用いた偽情報が、科学知識の信頼性を損なう可能 性を調査します。 提案 悪意ある要約を生成して知識グラフを誤誘導するモデル Scorpiusを提案します。 評価 3,818,528本の論文を用いた知識グラフで Scorpiusの影 響を評価しました。 結果 Scorpiusは、知識グラフのデータランキングを著しく変 え、検出が難しいことが明らかにされました。
  330. 大規模言語モデルを活用した参加型都市計画 Large language model empowered participatory urban planning Zhilun Zhou

    and Yuming Lin and Yong Li 背景 参加型都市計画は、時間と人材の不足という課題に直面し ています。 目的 研究の目的は、 LLMsを活用して効率的な参加型都市計画 を実現することです。 提案 提案は、 LLMエージェントを用いたロールプレイとフィ ードバックを通じて適応的な計画を実現することです。 評価 多様な都市コミュニティでの実証実験を通じて、 LLMの 効果を評価しました。 結果 結果は、満足度と包括性で人間の専門家を上回る成果を示 しました。
  331. AGILE: 新しい LLMエージェントフレームワ ーク AGILE: A Novel Framework of LLM

    Agents Peiyuan Feng and Yichen He and Guanhua Huang and Yuan Lin and Hanchong Zhang and Yuchen Zhang and Hang Li 背景 LLMエージェントは複雑な会話タスクでの応答改善が求め られています。 目的 強化学習と LLMを用いた高度な会話エージェントの構築を 目指します。 提案 AGILEは強化学習により、記憶やツールを活用する LLM エージェントを提案します。 評価 ProductQAと MedMCQAでの実験により性能を評価し、 力を示しました。 結果 13B, 7B LLMを用いた AGILEが GPT-4より優れた性能を発 揮しました。
  332. AI生成テキスト検出器は敵対的摂動に頑強 か? Are AI-Generated Text Detectors Robust to Adversarial Perturbations?

    Guanhua Huang and Yuchen Zhang and Zhe Li and Yongjian You and Mingze Wang and Zhouwang Yang 背景 大規模言語モデルの一般化に伴い、 AI生成テキストの不正 使用への懸念が高まっています。 目的 AI生成テキスト検出器が敵対的摂動に対して持つ問題を解 決することです。 提案 Siamese Calibrated Reconstruction Networkという新し い検出手法を提案します。 評価 4つの公開データセットを用いて、 SCRNの性能を従来手 法と比較しました。 結果 SCRNは各ベースラインを上回り、敵対的攻撃下で精度が 6.5% -18.25%向上しました。
  333. ChatDB: データベースを記号的メモリとし て拡張する LLM ChatDB: Augmenting LLMs with Databases as

    Their Symbolic Memory Chenxu Hu and Jie Fu and Chenzhuang Du and Simian Luo and J. Zhao and Hang Zhao 背景 LLMのメモリ活用不足が、複雑な推論の模擬を困難にし ています。 目的 現代アーキテクチャを参考に、記号的メモリで LLMの推論 能力を向上させます。 提案 LLMと SQLデータベースを用いる記号的メモリフレーム ワークを提案します。 評価 合成データセットを使用し、複雑な推論におけるフレーム ワークの有効性を検証しました。 結果 提案手法は複雑な推論の改善に効果的であることを示しま した。
  334. ゲーム NPC向けの大規模言語モデルのための フェデレーテッドラーニングフレームワーク FedNPC FedNPC: A Federated Learning Framework for

    Large Language Models in Game NPCs Mengze Hong and Kun Zhang and Shuning Zhang and Zhihang He 背景 NPCの非現実的な行動がプレイヤーの没入感を損なって いる。 目的 NPCが文脈に適した応答を生成するためのモデル改善を目 指す。 提案 FedNPCフレームワークで NPCの応答をユーザー対話か ら学習。 評価 ゲームの仮想知識を利用し、フェデレーテッドラーニング で NPC個別化を検証。 結果 実装の実用性を確認し、産業界への応用可能性を示唆。
  335. LLMベースの推薦システム環境 An LLM-based Recommender System Environment Nathan Corecco and Giorgio

    Piatti and Luca A. Lanzendorfer and Flint Xiaofeng Fan and R. Wattenhofer 背景 強化学習は長期的報酬最適化の利点を持ちながら、訓練デ ータの不足が課題です。 目的 オンラインデータの不足を解決し、 RLを活用した推薦シス テムを改善することです。 提案 LLMを用いた合成環境により、 RLベースのモジュール型 推薦システムを提案します。 評価 映画と書籍の推薦に関する実験と詳細なアブレーションス タディを実施しました。 結果 提案フレームワークは効果的であり、ソフトウェアは公開 されています。
  336. もっと質問して、よりよく知る : 大規模言語 モデルを用いた意思決定のための強化学習プ ロンプト質問 Ask more, know better: Reinforce-Learned

    Prompt Questions for Decision Making with Large Language Models Xue Yan and Yan Song and Xinyu Cui and Filippos Christianos and Haifeng Zhang and D. Mguni and Jun Wang 背景 大規模言語モデル( LLMs)は、複雑な課題を解決する有 望な手段とされていますが、高品質なプロンプトが必要です。 目的 行動方策の学習において、手作業を減らし、一般化できる フレームワークの開発を目指します。 提案 リーダーフォロワーの二段階フレームワークを提案し、適 切な質問を学び、行動学習を促進します。 評価 5つの意思決定タスクで提案手法を用い、実証しました。 結果 提案手法は既存手法を上回る結果を示しました。
  337. LLM駆動の階層型言語エージェントによるリ アルタイム人間 -AI協調 LLM-Powered Hierarchical Language Agent for Real-time Human-AI

    Coordination Jijia Liu and Chao Yu and Jiaxuan Gao and Yuqing Xie and Qingmin Liao and Yi Wu and Yu Wang 背景 LLM駆動エージェントは高い推論遅延が課題で、リアル タイム応用が困難です。 目的 リアルタイムでの人間 -AI協力を強化するためのエージェ ント開発。 提案 意図推論、言語インタラクション、迅速な実行を可能にす る階層型エージェントを提案。 評価 Overcookedゲームを用いて、人間と AIの言語協調能力 をテストしました。 結果 HLAが協力能力、応答速度、一貫性で他エージェントを超 えました。
  338. LLM時代における人間と AIの相互作用 Human-AI Interaction in the Age of LLMs Diyi

    Yang and Sherry Tongshuang Wu and Marti A. Hearst 背景 大規模言語モデルは、人間のようなテキスト生成を可能に し、 AIの機能を大きく変革しています。 目的 人間と LLMの相互作用における課題や倫理的考慮を明らか にすることです。 提案 LLMと人間の相互作用における新たなトピックを HCIと NLPの視点から探ります。 評価 HCIと NLPコミュニティの共有トピックを重点的にレビュ ーします。 結果 LLMは人間との相互作用を深く変革し新たな課題と機会を 提供しています。
  339. 異なるフォロワー行動に対応するコミュニケ ーション方針の学習 Learning Communication Policies for Different Follower Behaviors in

    a Collaborative Reference Game P. Sadler and Sherzod Hakimov and David Schlangen 背景 協力型リファレンスゲームでの言語調整が重要課題です。 目的 異なるフォロワー行動に対するガイドの適応性向上を目指 します。 提案 ガイドのコミュニケーション戦略を強化学習で改善する手 法を提案。 評価 PPOを使い、信頼性と自律性の異なるフォロワーで実験し ました。 結果 フォロワーの特性に適応する、冗長性の少ない戦略が得ら れました。
  340. 大規模言語モデル群における集合的イノベー ション Collective Innovation in Groups of Large Language Models

    Eleni Nisioti and Sebastian Risi and Ida Momennejad and Pierre-Yves Oudeyer and Clément Moulin-Frier 背景 人間文化は集合的イノベーションに依存し、言語はそれを サポートします。 目的 多数の大規模言語モデルが集合的イノベーションを可能に するか検証します。 提案 LLMsを用いて創造的ゲームにおける集合的イノベーショ ンを計算的に研究しました。 評価 個別と集合の LLMsによるゲームプレイを通じて行動と接 続性を分析しました。 結果 動的接続の LLMグループが優れたパフォーマンスを示しま した。
  341. ファクトファインダー - 知識グラフを用いて 大規模言語モデルの専門性を向上 Fact Finder - Enhancing Domain Expertise

    of Large Language Models by Incorporating Knowledge Graphs Daniel Steinigen and Roman Teucher and Timm Heine Ruland and Max Rudat and Nicolas Flores-Herr and Peter Fischer and Nikola Milosevic and Christopher Schymura and Angelo Ziletti 背景 大規模言語モデルの応答の信頼性に懸念があるため、問題 を解決することが重要です。 目的 ドメイン特有の知識を強化し、応答の正確性を向上させる ことが目的です。 提案 知識グラフを LLMに統合し、ハイブリッドな検索システム を提案します。 評価 69サンプルのデータセットでシステムの精度を検証しま した。 結果 研究は従来の LLMを上回る精度を示し、有望なことが明ら かです。
  342. AIエージェントによる企業設計、運用とコン ピューティング : DSLを用いた責任 Enterprise Design, Operations and Computing with

    AI Agents: Accountability using DSL Zoran Milosevic and Igor Dejanovi´c 背景 AIエージェントが企業で自律的に行動する際の責任の所在 が課題です。 目的 AIエージェントシステムにおける責任の透明化を目指しま す。 提案 ISO ODP基準に基づいたドメイン固有言語 (DSL)を提案し ています。 評価 textXを用いたプロトタイピング環境での実装で評価しま す。 結果 ODP企業言語のセマンティクスに沿ったユーザーフレンド リーな DSLが実現可能です。
  343. AppAgent: スマートフォンユーザーとして のマルチモーダルエージェント AppAgent: Multimodal Agents as Smartphone Users C.

    Zhang and Zhao Yang and Jiaxuan Liu and Yucheng Han and Xin Chen and Zebiao Huang and Bin Fu and Gang Yu 背景 LLMsは複雑なタスクを行うエージェントを促進し、スマ ホ操作の新機軸となります。 目的 システムのバックエンドへのアクセスなしにスマートフォ ンアプリを操作可能なエージェントを目指します。 提案 エージェントがタップとスワイプで人間のようにアプリを 操作するフレームワークを提案します。 評価 10個の異なるアプリで 50のタスクを用いてエージェント の実用性を広範にテストしました。 結果 エージェントは多様な高レベルタスクを効果的に処理でき ることが確認されました。
  344. 新しい NLPプレイグラウンドの定義 Defining a New NLP Playground Sha Li and

    Chi Han and Pengfei Yu and Carl N. Edwards and Manling Li and Xingyao Wang and Y. Fung and Charles Yu and Joel R. Tetreault and Eduard H. Hovy and Heng Ji 背景 大規模言語モデルの進化により、 NLP分野が急激に変化し ています。 目的 新たな NLPプレイグラウンドを定義し、多様な研究方向を 提供することです。 提案 20+の研究方向を提案し、理論分析や学習パラダイムなど を含みます。 評価 各提案方向は博士課程向けの研究テーマとして検討されて います。 結果 新しい研究方向が多くの学術的課題の解決に役立つことが 示唆されました。
  345. L3GO: 3D連鎖思考で型破りなオブジェクト を生成する言語エージェント L3GO: Language Agents with Chain-of-3D-Thoughts for Generating

    Unconventional Objects Yutaro Yamada and Khyathi Raghavi Chandu and Yuchen Lin and Jack Hessel and Ilker Yildirim and Yejin Choi 背景 現在の拡散モデルは、物理的な配置推論に課題がある。 目的 型破りな 3Dオブジェクト生成の推論力向上を目指す。 提案 L3GOで言語モデルが 3Dオブジェクトを試行錯誤で生成。 評価 新ベンチマーク UFOと SimpleBlenv環境で性能評価。 結果 提案手法は他のモデルより高い評価を得た。
  346. 経済実験における新しい方法論の模索 : 大規 模言語モデルによる合意ゲームのシミュレー ション Toward a Novel Methodology in

    Economic Experiments: Simulation of the Ultimatum Game with Large Language Models Ayato Kitadai and Yudai Tsurusaki and Yusuke Fukasawa and Nariaki Nishino 背景 経済実験は仮説を検証するのに重要だが、資源を多く要す る。 目的 大規模言語モデルで実験を代替することで、その制約を克 服する。 提案 合意ゲームの提案者・応答者の行動を LLMでシミュレーシ ョンする。 評価 感度分析により、人間実験と類似する設定を特定した。 結果 提案者側は類似する結果が出たが、応答者側は一致しな い。
  347. グラフと大規模言語モデルの出会い:進捗と 今後の方向性に関する調査 A Survey of Graph Meets Large Language Model:

    Progress and Future Directions Yuhan Li and Zhixun Li and Peisong Wang and Jia Li and Xiangguo Sun and Hongtao Cheng and Jeffrey Xu Yu 背景 グラフは複雑な関係の表現と分析に不可欠で、社会的や生 物学的データで頻繁に使われます。 目的 研究は、大規模言語モデル( LLMs)がグラフ関連タスク でどのように役立つかを明らかにします。 提案 LLMsがグラフタスクで果たす役割に基づく新しい分類法 を提案し、既存手法を体系的に分析します。 評価 LLMsの役割に基づく手法の分類と体系的レビューを通じ て、その有効性と可能性を検討します。 結果 分類によって、 LLMsを活用した手法の限界と今後の研究 課題が明らかになりました。
  348. 誰が何を誰に話すかを学ぶ多人数会話 Learning WHO Saying WHAT to WHOM in Multi-Party Conversations

    Jia-Chen Gu and Zhuosheng Zhang and Zhen-Hua Ling 背景 多人数会話は話者間の複雑な相互作用が特徴で、対話シス テムで重要。 目的 誰が何を誰に言っているかの特定が MPCの鍵。 提案 MPCを「誰が何を誰に」の観点から分類し分析。 評価 最近の MPCの進展を包括的に調査し、現状を評価。 結果 多様な MPCタスクの発展を確認し、未解決の課題を特 定。
  349. 大規模言語モデルにおける RLHFの秘密 パー ト I: PPO Secrets of RLHF in

    Large Language Models Part I: PPO Rui Zheng and Shihan Dou and Songyang Gao and Wei Shen and Wei-Yuan Shen and Bing Wang and Yan Liu and Senjie Jin and Qin Liu and Limao Xiong and Luyao Chen and Zhiheng Xi and Yuhao Zhou and Nuo Xu and 背景 RLHFは人間に寄り添うための AIと整合性の確立が重要だ が、安定した訓練が難しい。 目的 PPOの枠組みとその影響を分析し、訓練の安定性向上を 目指す。 提案 高度版の PPO-maxアルゴリズムを提案し、訓練の安定性 を向上する。 評価 RLHFの能力を SFTモデルや ChatGPTと比較分析。 結果 PPO-maxによりポリシーモデルの訓練安定性が効率的に 向上。
  350. 大規模言語モデルを都市住民として活用 : LLMエージェントによるパーソナルモビリテ ィ生成のフレームワーク Large Language Models as Urban Residents:

    An LLM Agent Framework for Personal Mobility Generation Jiawei Wang and Renhe Jiang and Chuang Yang and Zengqing Wu and Makoto Onizuka and Ryosuke Shibasaki and Chuan Xiao 背景 個人の移動の効果的な生成は、都市モビリティの動向を理 解する上で重要です。 目的 研究は LLMと実世界の都市データを整合させ、信頼性の ある活動生成を目指します。 提案 LLMを用いた個々の活動パターンに基づく新しいエージェ ントフレームワークを提案します。 評価 提案手法を最先端の移動生成アプローチと比較し、その有 効性を評価しました。 結果 方法の有効性を示し、都市モビリティ分析への応用可能性 を確認しました。
  351. GraphText: テキスト空間におけるグラフ推 論 GraphText: Graph Reasoning in Text Space Jianan

    Zhao and Le Zhuo and Yikang Shen and Meng Qu and Kai Liu and Michael Bronstein and Zhaocheng Zhu and Jian Tang 背景 LLMは自然言語は得意だが、グラフ機械学習は不十分でし た。 目的 グラフデータを自然言語に変換し、 LLMで扱う手法を開 発します。 提案 GraphTextは、グラフを自然言語に変換し、 LLMで処理 します。 評価 トレーニングなしで、 ChatGPTを用いてグラフ推論を可 能としました。 結果 GraphTextは、監督付きモデルに匹敵するパフォーマンス を達成しました。
  352. 没入型コンピューティング : 十年後に期待さ れる進展 Immersive Computing: What to Expect in

    a Decade? Songqing Chen and Bo Han and Yao Liu and Qun Li 背景 コンピューティング技術の急速な進化が社会や日常生活を 変革している。 目的 没入型技術が社会にどのように影響し得るかを解明するこ とが目的。 提案 VRが AIやロボティクスと統合し個人用クローン技術を実 現する未来を提案。 評価 技術進展を三つの段階に分け、それぞれの研究課題を議 論。 結果 没入型技術の未来像と、それに対する研究課題の重要性を 明示。
  353. 因果推論 : 次世代 AIネイティブ無線ネットワ ークの革命的道筋 Causal Reasoning: Charting a Revolutionary

    Course for Next-Generation AI-Native Wireless Networks C. Thomas and Christina Chaccour and Walid Saad and M. Debbah and C. Hong 背景 次世代 6Gなどの無線ネットワークは AIネイティブが求め られていますが、既存の取り組みは漸進的です。 目的 データ駆動型 AIの制約を克服し、持続可能な無線ネットワ ークを提案します。 提案 因果推論に基づく新たな枠組みで、説明可能で推論可能な ネットワークを構築します。 評価 因果発見・表現を活用した適応性、耐性向上のケーススタ ディを紹介します。 結果 因果推論に基づく AIネイティブネットワークのロードマッ プが示されました。
  354. 自律型 LLMアプリケーション向けランタイム 設計 GoEX GoEX: Perspectives and Designs Towards a

    Runtime for Autonomous LLM Applications Shishir G. Patil and Tianjun Zhang and Vivian Fang and Noppapon C Roy Huang and Aaron Hao and Martin Casado and Joseph E. Gonzalez Raluca and Ada Popa and Ion Stoica and Uc Berkeley and Andreessen 背景 LLMはツールでの自動化を目指すが、人間の事前検証が難 しい。 目的 人間の関与を最小限にしつつ LLMの信頼性を高める手法を 提案。 提案 ポストファクト検証システムの導入で、リスクを抑えつつ LLMを活用。 評価 元に戻す機能と損害封じ込め戦略の有効性を検証。 結果 人間の最小限の監督で LLMが安全にアクションを実行可 能。
  355. VideoAgent: 大規模言語モデルをエージェ ントとする長編ビデオ理解 VideoAgent: Long-form Video Understanding with Large Language

    Model as Agent Xiaohan Wang and Yuhui Zhang and Orr Zohar and Serena Yeung-Levy 背景 長編ビデオ理解は、膨大な視覚情報を合理的に解釈するこ とが求められます。 目的 インタラクティブな推論を通じて長編ビデオを効率的に理 解することを目指します。 提案 大規模言語モデルをエージェントとして用い、視覚情報を 再構成する新システムを提案。 評価 EgoSchemaと NExT-QAベンチマークで、ゼロショット精 度を指標に評価を実施。 結果 提案手法は最先端を超える効果と効率を示し、エージェン トアプローチの有効性を確認。
  356. 「対話で学ぶ」 : 事前定義済みプロファイル なしで対話中に学習するパーソナライズされ た対話へ "In Dialogues We Learn": Towards

    Personalized Dialogue Without Pre-defined Profiles through In-Dialogue Learning Chuanqi Cheng and Quan Tu and Wei Wu and Shuo Shang and Cunli Mao and Zhengtao Yu and Rui Yan 背景 パーソナライズ対話システムは異なる人物設定で応答を生 成できる能力が注目されています。 目的 事前定義されたプロファイルに依存せずに個別化応答を生 成することを目指します。 提案 対話履歴から人物設定をキャラクタライズする In- Dialogue Learning( IDL)を提案。 評価 3つのデータセットを用い、 BLEUと ROUGEスコアで提 案手法の有効性を検証しました。 結果 BLEUと ROUGEスコアがそれぞれ最大 **200%と 247%** 向上することが示されました。
  357. IQA-EVAL: 人間とモデルの対話型質問応答 の自動評価 IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question

    Answering Ruosen Li and Barry Wang and Ruochen Li and Xinya Du 背景 LLMの非対話的評価は人間モデルの動的会話を反映しな い。 目的 人間モデル対話の動的評価法を確立し、正確性を向上。 提案 LLMベースの評価エージェント LEAで自動対話生成と評価 を提案。 評価 GPT-4、 Claudeを用いた LEAで人間評価との相関を調査 した。 結果 LEAにペルソナを割り当てると相関が向上し、人的評価の コストを軽減。
  358. 意図駆動のモバイル GUIテストを可能にする 自律型大規模言語モデルエージェント Autonomous Large Language Model Agents Enabling Intent-Driven

    Mobile GUI Testing Juyeon Yoon and R. Feldt and Shin Yoo 背景 GUIテストの自動化はソフトウェアの成否に直結するが、 現行技術は低レベル指標に依存。 目的 DroidAgentを用い、高レベルのタスクを自動で設定し、 実行する GUIテストの実現を目指す。 提案 大規模言語モデルに基づいた意図駆動の自律型 GUIテスト エージェント DroidAgentを提案。 評価 Themisベンチマークの 15アプリでの実証評価により、タ スクの設定と実行を検証。 結果 平均 61%のアクティビティカバレッジ達成し、従来技術よ り多くの機能をカバー。
  359. 大規模言語モデルの知能評価に言葉当てゲー ムを活用 Leveraging Word Guessing Games to Assess the Intelligence

    of Large Language Models Tian Liang and Zhiwei He and Jen-tse Huang and Wenxuan Wang and Wenxiang Jiao and Rui Wang and Yujiu Yang and Zhaopeng Tu and Shuming Shi and Xing Wang 背景 LLMエージェントの評価はコストと時間がかかり、適応性 に欠ける。 目的 言葉当てゲームで LLMの知能を効果的に評価する手法を提 案。 提案 DEEPと SpyGameにより、 LLMの表現力と適応性を評 価。 評価 多言語から単語を収集し、 LLMの言語スキルと戦略を評 価。 結果 DEEPと SpyGameは LLMの新しい状況適応と戦略的コミ ュニケーション能力を評価。
  360. 複雑なエージェントシステムは本当に必要 か?具現化したエージェントを単一モデルに 蒸留 Do We Really Need a Complex Agent

    System? Distill Embodied Agent into a Single Model Zhonghan Zhao and Ke Ma and Wenhao Chai and Xuan Wang and Kewei Chen and Dongxu Guo and Yanting Zhang and Hongwei Wang and Gaoang Wang 背景 具現化エージェントは複数の LLMを活用するが、動的シナ リオでのギャップが課題。 目的 STEVE-2で複雑なタスクを効率的に処理し、柔軟性を向 上させる。 提案 STEVE-2は階層型知識蒸留を用いて、タスク分割と並列 シミュレーションを実現。 評価 ナビゲーションおよびクリエイションタスクにおける広範 な評価を通じて性能を確認。 結果 STEVE-2は複雑なタスクにおいて、従来モデルを大きく 上回る性能を示す。
  361. STRIDE: 戦略的かつ対話的意思決定のため のツール支援型 LLMエージェントフレームワ ーク STRIDE: A Tool-Assisted LLM Agent

    Framework for Strategic and Interactive Decision-Making Chuanhao Li and Runhan Yang and Tiankai Li and Milad Bafarassat and Kourosh Sharifi and Dirk Bergemann and Zhuoran Yang 背景 大規模言語モデルは高度な言語理解と推論を可能にします が、戦略的環境では限界があります。 目的 LLMの戦略的意思決定能力の向上を目指し、重要な課題を 解決します。 提案 メモリと特殊ツールを活用した新たな LLMエージェントフ レームワークを提案します。 評価 フレームワークの性能を経済的に重要な環境で定量的に評 価しました。 結果 戦略的意思決定能力が大幅に改善され、将来の可能性を示 しました。
  362. 言語モデルを用いた聴衆シミュレーションに よる対人コミュニケーションの改善 Improving Interpersonal Communication by Simulating Audiences with Language

    Models Ryan Liu and Howard Yen and Raja Marjieh and Thomas L. Griffiths and Ranjay Krishna 背景 経験の限界や偏りが原因で、結果を推論することが難しい 問題を解決。 目的 目標指向のコミュニケーションを改善するための方法を探 求。 提案 EGSフレームワークが多様なアドバイスと聴衆反応をシミ ュレート。 評価 八つのシナリオで EGSの有効性を、人間評価と比較して検 証。 結果 EGSは生成メカニズムより優れ、人間と高い一致率を達 成。
  363. PlanCollabNL: 大規模言語モデルを活用し た人間とロボットの協調計画生成 PlanCollabNL: Leveraging Large Language Models for Adaptive

    Plan Generation in Human-Robot Collaboration Silvia Izquierdo-Badiola and Gerard Canal and Carlos Rizzo and Guillem Alenyà 背景 従来の AIプランニングは不変性が高く、ロボットとの動的 協調に不適です。 目的 人間 -ロボット協調計画の柔軟な生成と一般化を目指しま す。 提案 LLMを活用し、自然言語から協調計画を生成するフレーム ワークを提案します。 評価 目標とエージェント条件で PlanCollabNLの性能を評価 し検証します。 結果 ほとんどのケースで正確で実行可能な計画を生成できまし た。
  364. 大規模言語モデルを用いた協調型具現化エー ジェントのモジュール化構築 Building Cooperative Embodied Agents Modularly with Large Language

    Models Hongxin Zhang and Weihua Du and Jiaming Shan and Qinhong Zhou and Yilun Du and J. Tenenbaum and Tianmin Shu and Chuang Gan 背景 マルチエージェントシステムでは高コストなコミュニケー ションと観察が課題です。 目的 分散環境で効果的なマルチエージェント協力を達成するこ とが目的です。 提案 大規模言語モデルを認知的モジュールフレームワークに組 み込みます。 評価 C-WAHと TDW-MATでの実験で GPT-4が他の方法を上回 ります。 結果 CoELAは自然言語でのコミュニケーションで人間との信頼 を向上させました。
  365. 言語モデルと人間による言語的不確実性の認 識 Perceptions of Linguistic Uncertainty by Language Models and

    Humans Catarina Belém and Markelle Kelly and M. Steyvers and Sameer Singh and P. Smyth 背景 人間は不確実性表現を解釈する際の一致が確認されている が、言語モデルの解釈能力は未解明。 目的 言語モデルが不確実性の言語表現を数値的に解釈可能かを 調査し、その重要性を明らかにする。 提案 言語モデルが他者の不確実性を独立に理解できるかを検証 するタスクの提案。 評価 人間と 10の言語モデルを対象にタスクを作成し、その解釈 能力を評価した。 結果 10モデル中 8つは人間同様に不確実性表現を解釈可能だ が、事実に基づく偏見が見られる。
  366. 性格で駆動される生成エージェント Driving Generative Agents With Their Personality Lawrence J. Klinkert

    and Stephanie Buongiorno and Corey Clark 背景 大規模言語モデル (LLMs) がゲームキャラクターにおい て使用される可能性を探っている。 目的 LLMを用いて、キャラクターの人間らしさを強化すること が目的である。 提案 ACシステムと LLMを組み合わせ、性格情報をプロンプト 生成に活用する手法を提案。 評価 国際性格項目プール (IPIP) 質問紙で LLMの性格表現能力 を評価。 結果 最新の LLMは、性格を一貫して解釈し、行動を表現できる と示された。
  367. エージェント設計パターンカタログ : ファウ ンデーションモデルベースのエージェント向 け建築パターンのコレクション Agent Design Pattern Catalogue: A

    Collection of Architectural Patterns for Foundation Model based Agents Yue Liu and Sin Kit Lo and Qinghua Lu and Liming Zhu and Dehai Zhao and Xiwei Xu and Stefan Harrer and Jon Whittle 背景 ファウンデーションモデルは、目標達成に向けたエージェ ントを生成するが、設計のガイドが不足している。 目的 エージェント設計の課題を考慮した建築パターンのカタロ グを提供すること。 提案 文献をレビューし、 17の建築パターンを含むカタログを提 案した。 評価 文献レビューを通じて、ファウンデーションモデルベース のエージェントに関する情報を収集した。 結果 提案したカタログは、設計支援と目標達成の促進に有用で あることを示した。
  368. 大規模言語モデルによって強化されたエージ ェントベースのモデリングとシミュレーショ ン :調査と展望 Large Language Models Empowered Agent-based Modeling

    and Simulation: A Survey and Perspectives Chen Gao and Xiaochong Lan and Nian Li and Yuan Yuan and Jingtao Ding and Zhilun Zhou and Fengli Xu and Yong Li 背景 エージェントベースのモデリングは、複雑システムの解析 と理解に重要な手法です。 目的 大規模言語モデルを集約し、シミュレーションの能力を向 上させることです。 提案 大規模言語モデルを用いて、エージェントの行動生成を強 化する手法を提案します。 評価 実際のサイバー、物理、社会、ハイブリッドシナリオで適 用し、課題を分析しました。 結果 大規模言語モデルは、環境認識と行動生成の課題解決に寄 与しました。
  369. 個別化対話生成の最新動向 : データセット、 手法、および評価のレビュー Recent Trends in Personalized Dialogue Generation:

    A Review of Datasets, Methodologies, and Evaluations Yi-Pei Chen and Noriki Nishida and Hideki Nakayama and Yuji Matsumoto 背景 個別化対話生成はユーザーエンゲージメント向上のために 重要であり、特に大規模モデルの登場で注目されています。 目的 個別化対話生成の最新動向を調査し、研究課題を明確化す ることが目的です。 提案 データセット、手法、評価基準を系統的にレビューし、 5 つの問題タイプを特定します。 評価 22のデータセットと 17の主要研究を分析し、評価指標の 要約を提供しています。 結果 研究の課題と将来の方向性を考察し、今後の研究を展望し ます。
  370. 生成エージェントは感情を予測できるか? Can Generative Agents Predict Emotion? Ciaran Regan and Nanami

    Iwahashi and Shogo Tanaka and Mizuki Oka 背景 **大規模言語モデル( LLMs) **は多くの能力を持つが、 感情の理解には課題があります。 目的 生成エージェントの感情状態が新たな経験でどのように変 化するかを調査します。 提案 新しい経験を過去の記憶と比較する新しいアーキテクチャ を提案します。 評価 感情尺度の PANASを用いて、文脈での感情状態を分析し ました。 結果 文脈導入が感情の一致を改善する可能性を示唆します。
  371. タスク非依存スキャフォルディングによる言 語モデルの強化 Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding Mirac

    Suzgun and A. Kalai 背景 言語モデルは複雑なタスクを扱う際に制限があり、さらな る改善が求められています。 目的 言語モデルを多目的に機能させ、タスク非依存での使用を 可能にすることが目的です。 提案 単一の LMを指揮者として活用し、タスクを分割し、それ ぞれを専門の LMに処理させる手法を提案します。 評価 GPT-4を用いた多様なタスク実験で、提案手法の性能優 位性を評価しました。 結果 提案手法により、従来の方法を 15%以上上回る性能向上 が確認されました。
  372. 日常のストレス軽減実践 : VR, AR、 LLMを 用いた社会シミュレーションの設計 Practicing Stress Relief for

    the Everyday: Designing Social Simulation Using VR, AR, and LLMs Anna Fang and Hriday Chhabria and Alekhya Maram and Haiyi Zhu 背景 ストレスは日常生活で避けられず、多くの人が自己管理に 苦労しています。 目的 社会シミュレーションを使って日常のストレス解消を練習 できる安全な環境を提供することです。 提案 VR、 AR、 LLMを活用した 8つのプロトタイプを開発して シミュレートします。 評価 19名を対象に、プロトタイプを用いた半構造化インタビュ ーで評価を行いました。 結果 人々は日常ストレス管理に効果的な手段を欠いており、社 会シミュレーションがその穴を埋めます。
  373. エージェントの部屋 : 多段階コラボレーショ ンによる物語生成 Agents' Room: Narrative Generation through Multi-step

    Collaboration Fantine Huot and Reinald Kim Amplayo and J. Palomaki and Alice Shoshana Jakobovits and Elizabeth Clark and Mirella Lapata 背景 大規模言語モデルは物語作成に有望ですが、現状では複雑 なプロンプトに依存しています。 目的 物語作成のプロセスを分解し、エキスパート評価者により 好まれる物語を生成することが目標です。 提案 エージェントの部屋というフレームワークは、専門エージ ェントがサブタスクを協力して解決します。 評価 「 Tell Me A Story」データセットと新しい評価フレームワ ークで生成物語を評価します。 結果 協調と専門化により、ベースラインを超える優れた物語生 成が可能であることが確認されました。
  374. GPTの創造性を限界へ押し上げる : 代替的使 用とトーランスのテスト Pushing GPT’s Creativity to Its Limits:

    Alternative Uses and Torrance Tests Fabrício Góes and Marco Volpe and Piotr Sawicki and Marek Grze´s and Jacob Watson 背景 近年、創造性評価テストでの GPT-4の性能を高めることが 注目されています。 目的 GPT-4の創造性をテストで向上させる方法を探ることを目 的としています。 提案 インタラクティブプロンプトを用いて GPT-4の創造性を増 幅する手法を提案。 評価 強制的なプロンプトを使い、多段階の会話で応答の創造性 を評価。 結果 GPTの応答は創造性が向上し、今後の研究の可能性が開か れました。
  375. 大規模言語モデルとゲーム : 調査とロードマ ップ Large Language Models and Games: A

    Survey and Roadmap Roberto Gallotta and Graham Todd and Marvin Zammit and Sam Earle and Antonios Liapis and Julian Togelius and Georgios N. Yannakakis 背景 近年、 LLMが多くの分野で可能性を示し、ゲーム分野で も期待が高まっています。 目的 LLMのゲーム内での応用可能性と限界を明らかにし、今 後の研究を導くこと。 提案 LLMのゲーム内での役割を調査し、未開拓の分野と有望な 方向性を特定。 評価 LLMのゲーム応用に関する既存研究を包括的に調査し、役 割を分類。 結果 LLMの潜在能力を確認し、新たな研究の基盤を提供する資 料を作成。
  376. 脅威にさらされる AIエージェント : 主要なセ キュリティ課題と未来の道筋に関する調査 AI Agents Under Threat: A

    Survey of Key Security Challenges and Future Pathways Zehang Deng and Yongjian Guo and Changzhou Han and Wanlun Ma and Junwu Xiong and Sheng Wen and Yang Xiang 背景 AIエージェントはその自律性により多くのタスクで進化を 遂げているが、セキュリティ上の脅威が増大している。 目的 AIエージェントに対するセキュリティ脅威の特定と今後の 安全性向上を図る。 提案 AIエージェントに対する脅威を 4つの知識ギャップに分け て体系的にレビューする。 評価 セキュリティ脅威を体系的にレビューし、進展と限界を洗 い出す。 結果 AIエージェントのセキュリティ改善のためにさらなる研究 の着手を促進する。
  377. 次世代シミュレーションが組織化された複雑 性の科学的問題を照らす Next-Generation Simulation Illuminates Scientific Problems of Organised Complexity

    Cheng Wang and Chuwen Wang and Wang Zhang and Shirong Zeng and Yu Zhao and Ronghui Ning and Changjun Jiang 背景 人工知能の普及によりデータ駆動型手法が伝統的手法を凌 駕しています。 目的 組織化された複雑性の未解決問題に新しいアプローチを提 案します。 提案 次世代シミュレーションを用いて異なるパラダイムの統合 を試みます。 評価 洗練された行動シミュレーションで複雑システムの再現を 試みます。 結果 新しい手法が従来を超える可能性を持つことを示唆しま す。
  378. 通信効率を高めるための実践的エージェント : 大規模言語モデルの利用 PACE: A Pragmatic Agent for Enhancing Communication

    Efficiency Using Large Language Models Jiaxuan Li and Minxi Yang and Dahua Gao and Wenlong Xu and Guangming Shi 背景 通信技術の限界により、資源節約が求められています。 目的 普遍的意図解決ツールの不足を克服し、通信効率を向上さ せることを目指します。 提案 大規模言語モデルを用いた意図解決による通信フレームワ ークを提案します。 評価 画像実践的データセットを用いて実験的検証を行いまし た。 結果 提案手法は従来の方法よりも送信効率において優れます。
  379. LLMは人間を討論で打ち負かせるか?競争的 討論のための動的マルチエージェントフレー ムワーク Can LLMs Beat Humans in Debating? A

    Dynamic Multi-agent Framework for Competitive Debate Yiqun Zhang and Xiaocui Yang and Shi Feng and Daling Wang and Yifei Zhang and Kaisong Song 背景 競争的討論は複雑な計算論的課題であり、 LLMはこの分野 での幻覚や非競争力に悩まされています。 目的 研究の目的は、 LLMの競争的討論での能力を徐々に向上 させ、その実用化を促進することです。 提案 Agent4Debateは、 4つの専門エージェントが協力し、 討論を動的に進行させるフレームワークです。 評価 66の討論モーションを持つ競争的討論アリーナで、 Agent4Debateを評価しました。 結果 Agent4Debateは、人間と同等のパフォーマンスを示 し、各コンポーネントの効果が確認されました。
  380. LLMが私たちにいる:デジタル談話に参加す る生成 AI LLMs Among Us: Generative AI Participating in

    Digital Discourse Kristina Radivojevic and Nicholas Clark and Paul Brenner 背景 LLMはソーシャルメディアにおける機会と脅威をもたら します。 目的 LLMが人間として振る舞えるかを検証するためです。 提案 Mastodon上に LLMs Among Usフレームワークを構築 しました。 評価 3種類の LLMで 10ペルソナを用いた 3回の実験と調査を実 施しました。 結果 参加者の **42% **がユーザーの性質を正確に識別できまし た。
  381. 生成的 AIエージェント間の秘密共謀 Secret Collusion Among Generative AI Agents S. Motwani

    and Mikhail Baranchuk and Martin Strohmeier and Vijay Bolina and Philip H. S. Torr and Lewis Hammond and C. S. D. Witt 背景 LLMの能力向上で、生成的 AIエージェント間の情報共有が 重要です。 目的 秘密裏の情報共有を防ぐための手法とその必要性を明らか にします。 提案 秘密共謀を防ぐため、ステガノグラフィー緩和策を体系的 に提案します。 評価 提案手法の評価には、様々な LLMを用いた実証実験を行い ました。 結果 GPT-4における能力飛躍を確認し、継続的な監視の必要性 を示唆しました。
  382. PokeLLMon: 大規模言語モデルを用いたポ ケモンバトルでの人間並みのエージェント PokeLLMon: A Human-Parity Agent for Pokemon Battles

    with Large Language Models Sihao Hu and Tiansheng Huang and Ling Liu 背景 戦術ゲームでの人間並みのエージェント実現は AI研究での 重要な課題です。 目的 ポケモンバトルで人間並みのパフォーマンスを達成するエ ージェントを提案します。 提案 PokeLLMonは In-context強化学習と知識強化生成で戦略 行動を実現します。 評価 オンラインでの人間とのバトルを通じてエージェントの成 果を検証しました。 結果 招待バトルで 56%の勝率を達成し、戦略的意思決定を示し ました。
  383. GenoTEX: バイオインフォマティクス研究 者と一致する遺伝子発現データ探索のための LLMベンチマーク GenoTEX: A Benchmark for Evaluating LLM-Based

    Exploration of Gene Expression Data in Alignment with Bioinformaticians Haoyang Liu and Haohan Wang 背景 機械学習の進展により、遺伝子発現データから疾患関連遺 伝子の同定が進んでいる。 目的 大規模言語モデルが遺伝子発現データの分析を自動化する 可能性がある。 提案 GenoTEXを用いて遺伝子発現データの自動解析を評価す る。 評価 GenoAgentsを使い、 LLMによる解析の実験を行い、誤り を分析した。 結果 LLMアプローチはゲノムデータ解析における有望な可能 性を示した。
  384. 大規模タスクプランニングにおける常識的知 識としての大規模言語モデル Large Language Models as Commonsense Knowledge for Large-Scale

    Task Planning Zirui Zhao and W. Lee and David Hsu 背景 大規模タスクプランニングは複雑で、効率的なアルゴリズ ムが求められています。 目的 研究の目的は、 LLMを常識的知識として活用し、タスク プランニングを改善することです。 提案 LLMを利用した LLM-MCTSアルゴリズムを新たに提案し ます。 評価 モンテカルロ木探索を用いて、 LLMによる世界モデルと 方策の効果を評価しました。 結果 LLM-MCTSは単独の MCTSや既存の LLM方策を大幅に上 回る成果を示しました。
  385. AgentBench: LLMsをエージェントとして 評価する AgentBench: Evaluating LLMs as Agents Xiao Liu

    and Hao Yu and Hanchen Zhang and Yifan Xu and Xuanyu Lei and Hanyu Lai and Yu Gu and Yuxian Gu and Hangliang Ding and Kai Men and Kejuan Yang and Shudan Zhang and Xiang Deng and Aohan Zeng and 背景 大規模言語モデルがより自律的となり、実世界のミッショ ンへの適用が求められています。 目的 LLMsをインタラクティブ環境でエージェントとして評価 し、性能の格差を明らかにすることです。 提案 AgentBenchは複数の環境での LLMの推論力を評価する 進化的ベンチマークです。 評価 27種の商用及び OSS LLMsを多ターン生成環境で試験し ました。 結果 商用 LLMsは強力ですが、 OSSとの間に性能格差が見られ ます。
  386. 高水準な機械の推論を可能にする認知的ニュ ーロシンボリックシステム Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems

    A. Oltramari 背景 常識的推論は人間にとって基本ですが、 AIには欠けていま す。 目的 ニューロシンボリック技術を活用して AIに高水準の推論を 可能にします。 提案 ACT-R中心の認知アーキテクチャと外部コンポーネント を統合するフレームワークを提案。 評価 AIシステムにおける高水準推論の可能性を理論的に議論。 結果 AIシステムに堅牢な推論をもたらす可能性を示唆します。
  387. 感情評価に基づくチェーン・オブ・エモーシ ョン構造による感情的言語モデルゲームエー ジェント An appraisal-based chain-of-emotion architecture for affective language

    model game agents Maximilian Croissant and Madeleine Frister and Guy Schofield and Cade McCall 背景 デジタル人工エージェントの開発において、信憑性と感情 のシミュレーションが課題です。 目的 感情シミュレーションを効果的に行う言語モデルの開発を 目指します。 提案 心理的評価に基づいたチェーン・オブ・エモーション構造 を提案します。 評価 3つの実験で LLMの感情シミュレーション能力を評価しま した。 結果 提案モデルは、ユーザー体験とコンテンツ分析で優れた成 果を示しました。
  388. ExpeL: LLMエージェントは経験的学習者で ある ExpeL: LLM Agents Are Experiential Learners Andrew

    Zhao and Daniel Huang and Quentin Xu and Matthieu Lin and Y. Liu and Gao Huang 背景 LLMsを意思決定に応用する研究が増加し、特定タスクに 適応する方法が求められています。 目的 LLMsの経験的学習を可能にする方法論を提案し、リソー スを節約します。 提案 ExpeLエージェントによって、パラメトリック更新なし に経験から学べる手法を提案します。 評価 質的観察と追加実験を通じて、 ExpeLエージェントの可能 性を探求しました。 結果 ExpeLエージェントは経験を積むごとに学習効率が向上す ることが示されました。
  389. 跳ぶ前に見よ : 大規模言語モデルの数学的推 論を改善する問題拡充プロンプト Look Before You Leap: Problem Elaboration

    Prompting Improves Mathematical Reasoning in Large Language Models Haoran Liao and Jidong Tian and Shaohua Hu and Hao He and Yaohui Jin 背景 大規模言語モデルは数学的推論のような複雑な課題で依然 苦闘しています。 目的 本研究は、問題の文脈認識不足による誤作動を解決するこ とを目的としています。 提案 **問題拡充プロンプト( PEP) **を提案し、推論前に問題 を分解・明確化します。 評価 データセットとモデルを用いた実験で PEPの効果を評価し ました。 結果 PEPは数学的タスクの性能を向上させ、特に誤誘導問題に 強みを示しました。
  390. 人間のようにコンピュータを使用するオープ ンエージェントフレームワーク Agent S Agent S: An Open Agentic Framework

    that Uses Computers Like a Human Saaket Agashe and Jiuzhou Han and Shuyu Gan and Jiachen Yang and Ang Li and Xin Eric Wang 背景 人間とコンピュータの相互作用を変革し、複雑なタスクの 自動化を目指す必要があります。 目的 ドメイン知識取得、長期タスク計画、動的インターフェー ス処理の自動化問題を解決します。 提案 経験強化階層計画と Agent-Computer Interface( ACI)を 用いる新手法を提案します。 評価 OSWorldベンチマークで性能を評価し、ベースラインを大 きく上回る成功率を確認しました。 結果 Agent Sは、新たな最先端技術を確立し、広範な一般化 能力を示しました。
  391. 国籍を持つペルソナを用いた LLMでの国の認 識変化の探求 Exploring Changes in Nation Perception with Nationality-Assigned

    Personas in LLMs M. Kamruzzaman and Gene Louis Kim 背景 ペルソナの割当が LLMの行動に与える影響を探る。 目的 異なる国籍ペルソナによる国の認識の変化を解明する。 提案 193の国籍ペルソナを使用し特定の LLMでの国の認識を分 析。 評価 4つの LLMにペルソナ割当し、国別の認識変化を調査。 結果 西欧諸国が有利で、ペルソナにより地域的バイアスが明ら か。
  392. ロボティクスにおける基盤モデル : 応用、課 題、未来 Foundation Models in Robotics: Applications, Challenges,

    and the Future Roya Firoozi and Johnathan Tucker and Stephen Tian and Anirudha Majumdar and Jiankai Sun and Weiyu Liu and Yuke Zhu and Shuran Song and Ashish Kapoor and Karol Hausman and Brian Ichter and Danny Driess and 背景 従来のモデルは特定タスクに限定され、多様な応用への適 応が課題です。 目的 基盤モデルを活用してロボットの認識、意思決定、制御を 向上させることが目的です。 提案 基盤モデルがロボット自律性における多様な問題解決に貢 献することを提案します。 評価 近年の論文を調査し、基盤モデルのロボティクスへの応用 と課題を分析しました。 結果 基盤モデルはロボット能力向上に貢献するが、採用には数 多くの課題が存在します。
  393. 大規模言語モデルは身元グループを誤って表 現し平坦化するので、人間の参加者を置き換 えるべきではない Large language models should not replace human

    participants because they can misportray and flatten identity groups Angelina Wang and Jamie Morgenstern and John P. Dickerson 背景 大規模言語モデルが人間の参加者の代替となる場面での使 用が増えている。 目的 LLMの使用がマイノリティのグループに与える影響を明ら かにすること。 提案 LLMが身元グループを誤って表現し平坦化する可能性があ ると主張。 評価 16の人口統計学的アイデンティティで 3200人の参加者を 用いた人間実験で評価。 結果 LLMの制限がマイノリティ集団に有害であることが確認さ れた。
  394. GPTVoiceTasker: 動的なインターフェース 探索と学習によるマルチステップモバイルタ スクの効率化の進展 GPTVoiceTasker: Advancing Multi-step Mobile Task Efficiency

    Through Dynamic Interface Exploration and Learning Minh Duc Vu and Han Wang and Jieshan Chen and Zhuang Li and Shengdong Zhao and Zhenchang Xing and Chunyang Chen 背景 仮想アシスタントはユーザーの意図理解が難しく、効率面 で課題があります。 目的 タスク効率を高めることで、仮想アシスタントの実用性を 向上させることです。 提案 GptVoiceTaskerはユーザーコマンドを学習し、タスク を自動化する仮想アシスタントです。 評価 ユーザー研究と実験で、コマンド解釈とタスク自動化の精 度を評価しました。 結果 タスク効率が 34.85%向上し、肯定的なフィードバックを 得ました。
  395. ゲーム理論実験における GPTの活用 GPT in Game Theory Experiments Fulin Guo 背景

    戦略ゲームにおける人間の意思決定は社会科学で重要な研 究テーマである。 目的 GPTを用いた実験で、 AIの意思決定過程と人間行動の類似 点を探る。 提案 GPTのプロンプト設計により、公平性や利己心のような 特性を模倣させることを提案。 評価 最後通牒ゲームと囚人のジレンマを用いて GPTの行動と 推論過程を評価した。 結果 GPTは人間に類似した反応を示し、社会科学研究におけ る有用性を持つと示唆された。
  396. 大規模言語モデルを用いたマルチエージェン トの合意形成 Multi-Agent Consensus Seeking via Large Language Models Huaben

    Chen and Wenkang Ji and Lufeng Xu and Shiyu Zhao 背景 大規模言語モデルを用いることで、マルチエージェント間 の合意形成が可能になる問題です。 目的 合意形成を通じて、マルチエージェント協働を円滑にしよ うとする点です。 提案 LLM駆動のエージェントが主に平均戦略を用いて合意形成 を行うことを提案します。 評価 エージェント数、性格、ネットワークトポロジーが交渉過 程に与える影響を分析します。 結果 LLM駆動エージェントの合意形成は、ゼロショット自律計 画の可能性を示しました。
  397. 人口の多い仮想環境における共同プレゼンス をアニメーションキャラクターのアクター引 き継ぎでサポート Supporting Co-Presence in Populated Virtual Environments by

    Actor Takeover of Animated Characters Jingyi Zhang and Klara Brandstätter and Anthony Steed 背景 現在の技術では、インタラクティブな仮想環境のリアルさ を十分にシミュレートすることができません。 目的 仮想世界でユーザーが群衆の中にいる感覚を向上させるこ とが目的です。 提案 アクターが複数のアバターを制御するシステムを提案し、 没入型のインターフェースを構築しました。 評価 一人のアクターがバリスタと顧客の役割を持つカフェシナ リオで実験を行いました。 結果 一人のアクターでも複数のアバターを使った群衆体験が可 能であることを示しました。
  398. PettingZooでの DRAMA: マルチエージェ ント強化学習フレームワークのための動的制 限行動空間 DRAMA at the PettingZoo: Dynamically

    Restricted Action Spaces for Multi-Agent Reinforcement Learning Frameworks Michael Oesterle and Tim Grams and Christian Bartelt 背景 PettingZooの AECは、 MARLフレームワークの実装に革 命を起こしました。 目的 提案する DRAMAは動的行動制限に新たな可能性を提供し ます。 提案 DRAMAは自己学習型制限と物理的制約の追加を可能にし ます。 評価 さまざまな使用例で PettingZooの拡張を通じ効果を検証 しました。 結果 動的制限がマルチエージェント環境に新たな柔軟性をもた らしました。
  399. チャットボットのオープンドメインパラドッ クス : 共通基盤 が人間らしい対話の基礎 The Open-domain Paradox for Chatbots:

    Common Ground as the Basis for Human-like Dialogue G. Skantze and A. Seza Doğruöz 背景 オープンドメインのチャットボット開発が注目され、共通 基盤の欠如が対話を狭めるという課題が浮上した。 目的 オープンドメインチャットボットが直面する共通基盤の欠 如という課題を解決し、対話の質向上を図る。 提案 共通基盤の理論を用いて、従来のオープンドメインチャッ トボットの問題を再評価し、新しいアプローチを示す。 評価 共通基盤の存在が対話に与える影響を理論的に分析し、既 存の仮定を見直すことで評価した。 結果 共通基盤の欠如が対話の制約を招くことを示し、今後の開 発に際し改善の方向性を提示した。
  400. AIのための FDA?フロンティア AIへの認可規 制の落とし穴と実現可能性 An FDA for AI? Pitfalls and

    Plausibility of Approval Regulation for Frontier Artificial Intelligence Daniel Carpenter and Carson Ezell 背景 AIの進化に伴い、フロンティアモデルの危険性が増し、規 制の必要性が生じました。 目的 フロンティア AIに対する承認規制の適用可能性を評価し、 その適切性を検討します。 提案 実験最小条件と政府認可を基にした承認規制を提案しま す。 評価 AIの不確定性や危険性を考慮し、従来の規制手法の適合性 を分析しました。 結果 政策学習とテスト方法の改善により、規制の課題を克服で きると結論付けました。
  401. ニュースから予測へ:イベント分析を統合し た LLMベースの時系列予測 From News to Forecast: Integrating Event Analysis

    in LLM-Based Time Series Forecasting with Reflection Xinlei Wang and Maike Feng and Jing Qiu and Jinjin Gu and Junhua Zhao 背景 時系列予測では社会的イベントを考慮する必要があります が、従来は困難でした。 目的 LLMを用いて、テキストと時系列データを融合し、予測 精度を向上させることが目的です。 提案 社会イベントを選別し、 LLMで時間予測に結びつける新手 法を提案します。 評価 人間の推論を模倣し、エージェントがニュースを選別する 手法を用いて評価しました。 結果 予測精度が大幅に向上し、手法の有効性が確認されまし た。
  402. GPT-4を用いた TextWorldコモンセンスゲ ームの効率的解決 Utilizing GPT-4 to Solve TextWorld Commonsense Games

    Efficiently Binggang Zhuo and Masaki Murata 背景 インタラクティブフィクションゲームは AIエージェント研 究に重要ですが、多くが強化学習に依存。 目的 大規模言語モデルで AIエージェントのタスク達成を効率的 に支援すること。 提案 GPT-4と設計プロンプトを用いてゲームタスクに取り組 む新しいアプローチを提示。 評価 TextWorld Commonsenseで、様々な難易度環境での実験 により効果を検証。 結果 難易度の高い環境で 0.70のスコアを達成し、従来手法を 上回る性能を確認。
  403. DelTA: マルチレベルメモリに基づくオンラ インドキュメントレベル翻訳エージェント DelTA: An Online Document-Level Translation Agent Based

    on Multi-Level Memory Yutong Wang and Jiali Zeng and Xuebo Liu and Derek F. Wong and Fandong Meng and Jie Zhou and Min Zhang 背景 LLMsを用いた機械翻訳は進展したが、一貫性と正確さに 課題が残る。 目的 文書全体の翻訳における一貫性と正確性を向上させること が目的。 提案 DelTAはマルチレベルメモリを用いて情報を保存し翻訳の 質を向上する。 評価 4つの LLMsと 2つのデータセットを用いて DelTAの性能を 実験的に評価。 結果 DelTAは翻訳の一貫性で最大 4.58%ポイント改善を達成 した。
  404. 社会対応型言語技術の必要性 The Call for Socially Aware Language Technologies Diyi Yang

    and Dirk Hovy and David Jurgens and Barbara Plank 背景 大規模言語モデルの進化に伴い、従来の問題が悪化する可 能性があります。 目的 NLP分野における社会的認識の欠如を解決することが目的 です。 提案 NLPモデルに社会的認識を統合して新たな可能性を開くと 提案します。 評価 本論文では社会的認識の重要性を理論的に議論していま す。 結果 NLPの新時代の幕開けにあり、課題が多く残されていま す。
  405. Babaは AI:ルールを破ってベンチマークを 打ち破る Baba Is AI: Break the Rules to

    Beat the Benchmark Nathan Cloos and Meagan Jens and Michelangelo Naim and Yen-Ling Kuo and Ignacio Cases and Andrei Barbu and Christopher J. Cueva 背景 ルールを操作する能力は人間の創造性に関連し、 AIの限界 を測る重要な指標です。 目的 ゲーム内ルールの一般化能力をテストすることで AIの限界 を明らかにします。 提案 ゲーム「 Baba Is You」を基にした新しいベンチマークを 提案し、エージェントの能力を評価します。 評価 三つの最先端マルチモーダル大規模言語モデルをテスト し、ルール操作の能力を評価しました。 結果 ルール操作が求められる課題で、既存モデルは成功せず、 人間との違いが浮き彫りになりました。
  406. 生成的人工知能は社会科学を向上させること ができるか? Can Generative Artificial Intelligence Improve Social Science? Christopher

    A Bail 背景 生成的 AIは多数の業界に影響を与えており、その社会科学 研究への影響が注目されています。 目的 生成的 AIが社会科学の研究手法を向上させる可能性を探求 します。 提案 生成的 AIを用いて、調査研究や日常業務の効率化を提案し ます。 評価 データのバイアスや倫理的な課題を評価し、影響を確認し ます。 結果 AIと社会科学の共同研究の重要性を強調します。
  407. 大規模言語モデルを用いた論文レビューの可 能性に関する探索的研究 ReviewerGPT? An Exploratory Study on Using Large Language

    Models for Paper Reviewing Ryan Liu and Nihar B. Shah 背景 大規模言語モデルの急成長が科学論文レビューの支援にど の程度使えるかを検討。 目的 特定タスクにおける大規模言語モデルの利用可能性を探 り、課題を特定する。 提案 GPT-4が他の LLMより優れており、特定の質問に焦点を 当てたプロンプトが効果的である。 評価 3つのタスク(誤り特定、チェックリスト検証、優れた論 文選択)で性能を検証。 結果 特定タスクでは有望だが、完全な論文評価にはまだ不十 分。
  408. 地球システムの不安定化がもたらすネガティ ブな社会変動ダイナミクス Negative social tipping dynamics resulting from and reinforcing

    Earth system destabilization Viktoria Spaiser and S. Juhola and Sara M. Constantino and Weisi Guo and Tabitha Watson and Jana Sillmann and Alessandro Craparo and Ashleigh M. Basel and John T. Bruun and Krishna Krishnamurthy and Jürgen 背景 気候危機対応のための肯定的な社会変化が進む中で、負の 社会変動の影響にも注目する必要があります。 目的 地球システム不安定化による負の社会変動プロセスの理解 とその影響評価を目指します。 提案 アノミーや過激化などの負の社会変動の概念化と、その影 響を評価することを提案します。 評価 関連研究を基に、食料不安や移住などの連鎖的相互作用を 通じてリスクを評価しました。 結果 負の社会変動が気候危機対応に影響する可能性を示し、更 なる研究の必要性を提起しました。
  409. ReConcile: 円卓会議で多様な LLM間の合意 形成による推論改善 ReConcile: Round-Table Conference Improves Reasoning via

    Consensus among Diverse LLMs Justin Chih-Yao Chen and Swarnadeep Saha and Mohit Bansal 背景 大規模言語モデルは自然言語推論タスクで依然として課題 があります。 目的 多モデルエージェント間の協調推論を通じて推論能力を向 上させること。 提案 ReConcileは、多様なエージェント間の円卓会議による 合意形成の手法。 評価 7つのベンチマークでマルチエージェントによる実験を実 施しました。 結果 ReConcileは過去の方法を **最大 11.4%**上回り、 GPT-4 をも凌駕しました。
  410. 機械学習ベースのエージェント間通信経路の 研究フレームワーク A Framework for Studying Communication Pathways in Machine

    Learning-Based Agent-to-Agent Communication Sathish Purushothaman and Michael Granitzer and Florian Lemmerich and Jelena Mitrović 背景 LLMsはエージェント間通信の重要性を増しているが、現 状では大規模なエージェント間の通信ダイナミクスの洞察が制 目的 異なる通信経路の役割を調査し、機械学習エージェント間 の言語生成を理解すること。 提案 トランスフォーマーベースのオートエンコーダと Gumbel SoftMaxを使用し、シンボルを通した言語生成を調査するフレ 評価 2つの通信経路を用い、画像ベースのメッセージ再構築と シンボル間距離最小化を評価した。 結果 最初の経路で 96%のメッセージがレーベンシュタイン距離 ≤2により言語が生成されることが示された。
  411. AutoAgents: 自動エージェント生成のフレ ームワーク AutoAgents: A Framework for Automatic Agent Generation

    Guangyao Chen and Siwei Dong and Yu Shu and Ge Zhang and Jaward Sesay and Börje F. Karlsson and Jie Fu and Yemin Shi 背景 LLMを用いたマルチエージェントのタスク解決の適応性に 限界があった。 目的 タスクに応じた専門エージェントを生成し、協力を最適化 する点を解決する。 提案 AutoAgentsはタスクに応じた複数の専門エージェントを 動的に生成する。 評価 各種ベンチマークで AutoAgentsの解決策が他の方法より 整合性と正確性が高いと実証された。 結果 異なるタスクには異なる役割とチームの協力が重要である ことを示した。
  412. エージェント能力評価のための確率的方法の 分析 Analyzing Probabilistic Methods for Evaluating Agent Capabilities Axel

    Højmark and Govind Pimpale and Arjun Panickssery and Marius Hobbhahn and J'er'emy Scheurer 背景 AIは時に想定外のリスクをもたらすため、その能力評価が 重要です。 目的 能力が稀にしか示されないケースでの AI評価法の精度向上 が目標です。 提案 マイルストーン法と expert best-of-N法で精度向上を図 ります。 評価 モンテカルロ推定器としてこれらの方法を分析し、誤差を 評価します。 結果 結果、両方法に偏りがあり、特に underestimationが顕 著でした。
  413. : 「これが私の SQLです、一緒に聞いてま すか?」合意に基づくマルチエージェントシ ステムでテキストから SQLへのタスクを実現 :"This is My SQL,

    Are You With Me?"A Consensus-Based Multi-Agent System for Text-to-SQL Tasks Hanchen Xia and Feng Jiang and Naihao Deng and Cunxiang Wang and Guojiang Zhao and Rada Mihalcea and Yue Zhang 背景 大規模言語モデルは様々なタスクで成果を上げているが、 テキストから SQLへの変換は依然として重要な課題である。 目的 本研究はテキストから SQLへの変換性能を向上させるため の新たなシステムを提案し、そのモデルの有効性を示すことを 提案 提案する システムは、レビュー・反論・修正のプロセ スを通じて合意に基づくマルチエージェントアプローチを採用 評価 実験は Spiderと Birdデータセットを用いて行い、新手法の 優位性を数値的に検証した。 結果 は従来の方法を最大8.1 ext{ ext{%}} 上回る 性能を示し、特定モデルでは GPT-3.5をも超えた。
  414. 医療と医薬におけるデジタルツインの概念と 応用 Concepts and applications of digital twins in healthcare

    and medicine Kang Zhang and Hong-Yu Zhou and Daniel T. Baptista-Hon and Yuanxu Gao and Xiaohong Liu and E. Oermann and Sheng Xu and Shengwei Jin and Jian Zhang and Zhuo Sun and Yun Yin and Ronald M. Razmi and 背景 デジタルツインは、物理的対象のデジタル複製を作り、医 療への応用が期待されています。 目的 医療におけるデジタルツインの実装に向けた課題に対処 し、応用の可能性を探ります。 提案 デジタルツインの概念と医療における活用方法、実装に必 要な要件を提案します。 評価 マルチモーダルディープラーニングやメタバースなどが、 技術的困難を軽減する方法を探ります。 結果 医療デジタルツインを進化させるための 5つの特徴を明示 し、分野の発展を促進します。
  415. ML-EAT: 解釈可能で透明な社会科学のため の多層埋め込み関連テスト ML-EAT: A Multilevel Embedding Association Test for

    Interpretable and Transparent Social Science Robert Wolfe and Alexis Hiniker and Bill Howe 背景 従来の EAT測定には曖昧さと解釈の難しさが存在しまし た。 目的 言語技術における内在的なバイアスを透明に測定すること です。 提案 ML-EATは 3つのレベルでバイアスを定量化する新手法で す。 評価 静的・通時的単語埋め込みや言語モデルで実証分析を行い ました。 結果 EATパターンはバイアスの詳細な情報を提供し解釈可能性 を向上しました。
  416. AgentCourt: 対抗的進化型弁護士エージェ ントで裁判をシミュレーションする AgentCourt: Simulating Court with Adversarial Evolvable Lawyer

    Agents Guhong Chen and Liyang Fan and Zihan Gong and Nan Xie and Zixuan Li and Ziqiang Liu and Chengming Li and Qiang Qu and Shiwen Ni and Min Yang 背景 法的スキルを向上させる訓練方法が必要とされている。 目的 法廷プロセスを通じて弁護士エージェントの能力を向上さ せる。 提案 弁護士エージェントに対抗的進化アプローチを提案する。 評価 シミュレーション実験で弁護士エージェントを進化過程で 評価。 結果 進化したエージェントは法的タスク処理能力が改善され た。
  417. なぜ私たちは機械との対話を学び直す必要が あるのか - 2024年 1月の生成 AIのスナップ ショット Why We Need

    to Relearn How to Talk to Machines - A Snapshot of Generative AI in January 2024 M. Kalweit and Gabriel Kalweit 背景 生成 AIは急速に進展し、自動応対が日常的になった。 目的 大規模言語モデルのメカニズムを明示し、利用法を模索す る。 提案 自然言語での最適な対話方法を導く指針を提案。 評価 言語モデルの挙動を観察し、生成物の分析を行う。 結果 大規模モデルの挙動と、その最適な利用法を示した。
  418. SUBER: 推薦システムのためのシミュレーシ ョンされた人間行動を持つ RL環境 SUBER: An RL Environment with Simulated

    Human Behavior for Recommender Systems Nathan Corecco and Giorgio Piatti and Luca A. Lanzendörfer and Flint Xiaofeng Fan and R. Wattenhofer and E. Zurich 背景 強化学習は長期的な推薦最適化が可能ですが、データ不足 や評価の難しさが課題です。 目的 人間行動をシミュレートするフレームワークを用いて、 RL のトレーニングと評価の課題を解決します。 提案 大規模言語モデルを用いて、 RLベースの推薦システム向け にモジュラーで新しいフレームワークを提案します。 評価 映画や書籍の推薦で、合成ユーザーを用いた深層アブレー ション研究と実験を行いました。 結果 提案フレームワークが効果的に機能することが示され、ソ フトウェアは公開されています。
  419. PersonaFlow: LLMでシミュレートされた 専門家ペルソナによる研究アイデアの促進 PersonaFlow: Boosting Research Ideation with LLM-Simulated Expert

    Personas Yiren Liu and Pranav Sharma and Mehul Oswal and Haijun Xia and Yun Huang 背景 学際的研究には、多分野の専門家からのフィードバックが 必要ですが、専門家の不足が課題です。 目的 人間の専門家不在時にアイデア形成を支援する方法の検 討。 提案 PersonaFlowは、 LLMでシミュレートされたペルソナを 活用し、研究のアイデア形成を支援します。 評価 複数ペルソナ使用時のユーザー体験向上を、質の評価と認 知負荷の指標で検証しました。 結果 ペルソナのカスタマイズにより、アイデアの記憶や制御感 が向上しました。
  420. 計画行動の連鎖を用いた LLMでの少数ショッ ト移動生成プロセス Chain-of-Planned-Behaviour Workflow Elicits Few-Shot Mobility Generation in

    LLMs Chenyang Shao and Fengli Xu and Bingbing Fan and Jingtao Ding and Yuan Yuan and Meng Wang and Yong Li 背景 大規模言語モデルは多くの分野で進展があるが、人間の行 動生成での性能は未開拓です。 目的 CoPBで人間の行動意図を推論する能力を向上させるこ と。 提案 CoPBワークフローを導入し、行動意図のエラー率を大幅 に削減します。 評価 TPBに基づき、重力モデルなどを併用して効果を検証しま した。 結果 CoPBは意図生成のエラー率を 57.8%から 19.4%に低減し ました。
  421. 生成 AIとマフィア風ゲームシミュレーション Generative AI in Mafia-like Game Simulation Munyeong Kim

    and Sungsu Kim 背景 ゲームシミュレーションでの AIの役割とその進化を探る。 目的 GPT-4の能力を用いて、ゲーム内での理解と対話を検証 する。 提案 GPT-4が人間のような適応性を示すことを主張。 評価 GPT-4と GPT-3.5-turboの比較分析を実施。 結果 GPT-4は改善を示すも、さらなる発展の余地がある。
  422. Character-LLM: ロールプレイングのため の訓練可能なエージェント Character-LLM: A Trainable Agent for Role-Playing Yunfan

    Shao and Linyang Li and Junqi Dai and Xipeng Qiu 背景 LLMは質の高いテキスト生成能力で人間行動を模倣でき るが、更なるシミュレーション能力に関心がある。 目的 特定人物のプロフィールや経験を持つエージェントを訓練 する新しい方法を開発する。 提案 Character-LLMは、特定キャラクターの経験を編集し、 モデルをその模倣に訓練する。 評価 訓練したエージェントにインタビューし、キャラクターと 経験の記憶を評価する。 結果 将来の人類シミュラクラ構築に役立つ知見を提供した。
  423. 大規模言語モデルと共に研究促進のための QAスタイル記事を共創する Co-Creating Question-and-Answer Style Articles with Large Language Models

    for Research Promotion Hyunseung Lim and Ji Yong Cho and Taewan Kim and Jeongeon Park and Hyungyu Shin and Seulgi Choi and Sunghyun Park and Kyungjae Lee and Juho Kim and Moontae Lee and Hwajung Hong 背景 研究促進は複雑な研究内容を共有するために重要です。 目的 研究者の意図と声を反映する QA記事の共創を目指しま す。 提案 AQUAは LLMと共に QA記事を共同作成するためのツール です。 評価 ユーザー調査を通じて LLMの利便性と課題を評価しまし た。 結果 LLMは著者負担を軽減するが、意図の反映は不十分でし た。
  424. 生成的な学生 : LLMでシミュレートされた学 生プロファイルによる問題項目の評価支援 Generative Students: Using LLM-Simulated Student Profiles

    to Support Question Item Evaluation Xinyi Lu and Xu Wang 背景 自動生成された問題の質の評価は長年の課題です。 目的 自動生成問題の質を LLMでシミュレートした学生プロフ ァイルで解決します。 提案 生成的学生は KLIフレームワークに基づくプロンプトアー キテクチャです。 評価 GPT-4で 45人の生成的学生を作成し、 20の MCQで評価 しました。 結果 生成的学生の回答は、本物の学生の回答と高い相関があり ました。
  425. 本質と展望 : 大規模モデルに対するアライン メント手法の調査 On the Essence and Prospect: An

    Investigation of Alignment Approaches for Big Models Xinpeng Wang and Shitong Duan and Xiaoyuan Yi and Jing Yao and Shanlin Zhou and Zhihua Wei and Peng Zhang and Dongkuan Xu and Maosong Sun and Xing Xie 背景 大規模モデルは AIに革命を起こしたが、倫理的リスク解決 が不可欠である。 目的 アラインメント技術でモデルを人間の価値観に適合させる 問題を探る。 提案 歴史から数学的本質までアラインメント手法を包括的に調 査する。 評価 RLベース、 SFTベース、推論時アラインメントの手法を 比較分析する。 結果 アラインメント目標とマルチモーダルアラインメントが未 来の新たな焦点として浮上。
  426. 生成エージェントの仮想環境における適用 Simulating Life: The Application of Generative Agents in Virtual

    Environments R. Omirgaliyev and Damir Kenzhe and Suienish Mirambekov 背景 AIエージェントによる自律的な社会形成が未解決の研究課 題です。 目的 AIが人間の社会構造を模倣または強化する可能性を探りま す。 提案 LLMを用いて AIエージェントの社会的相互作用をシミュレ ートします。 評価 AIエージェント間の相互作用と社会的発展を観察・分析し ました。 結果 AIは人間社会の特性を再現できる潜在力があると示されま した。
  427. 大規模言語モデルを活用したメタバース用コ ンテキスト対応のオンボーディングエージェ ント A Context-Aware Onboarding Agent for Metaverse Powered

    by Large Language Models Jihyeong Hong and Yokyung Lee and Dae Hyun Kim and DaEun Choi and Y. Yoon and Gyu-cheol Lee and Zucheul Lee and Juho Kim 背景 メタバースは自由探索が可能だが、初回利用者は多様な課 題がある。 目的 メタバース利用者の多様な課題を効率的に支援する方法を 探求する。 提案 PICANは大規模言語モデルを用いてコンテキスト -aware な回答を生成する。 評価 アブレーション研究とユーザー研究を通じてコンテキスト の有用性を検証。 結果 コンテキスト利用が有用性と没入感向上、学習促進に寄与 することが確認された。
  428. FireAct: 言語エージェントのファインチュ ーニングに向けて FireAct: Toward Language Agent Fine-tuning Baian Chen

    and Chang Shu and Ehsan Shareghi and Nigel Collier and Karthik Narasimhan and Shunyu Yao 背景 言語モデルに外部ツールを組み込み、推論と行動が可能な エージェントを開発することが重要です。 目的 LMのファインチューニングによって言語エージェントを 改善する方法を探ります。 提案 多様なタスクとプロンプトから軌跡を用いて LMをファイ ンチューニングする FireActを提案します。 評価 Google検索 APIと様々なプロンプト、ファインチューニン グデータに基づいた QAタスクで評価しました。 結果 FireActにより、言語エージェントの性能が大幅に向上 し、より広範なメリットが確認されました。
  429. 「私は LLMを生産性ツールとして分類してい ます」 : HCI研究における倫理の検討 "I'm categorizing LLM as a

    productivity tool": Examining ethics of LLM use in HCI research practices Shivani Kapania and Ruiyi Wang and Toby Jia-Jun Li and Tianshi Li and Hong Shen 背景 大規模言語モデル( LLM)の倫理的問題の扱いが、 HCI研 究において重要です。 目的 LLM利用に伴う倫理的問題を HCI研究の視点から明らかに することです。 提案 LLMの HCI研究全般にわたる活用を追跡し、倫理的懸念 を整理します。 評価 16のインタビューと 50人の研究者への調査で研究慣行を 分析しました。 結果 LLMの利用において倫理的懸念への具体的な対策は欠如し ていました。
  430. 大規模言語モデルを破壊的にするための領域 特化 : 包括的調査 Domain Specialization as the Key to

    Make Large Language Models Disruptive: A Comprehensive Survey Chen Ling and Xujiang Zhao and Jiaying Lu and Chengyuan Deng and Can Zheng and Junxiang Wang and Tanmoy Chowdhury and Yun-Qing Li and Hejie Cui and Xuchao Zhang and Tian-yu Zhao and Amit Panalkar 背景 LLMは特定領域の問題に対処する際、多様なデータや制約 により障害が多い。 目的 LLMの領域特化技術についての現状を把握し、今後の研究 指針を示す。 提案 LLMの領域特化技術を体系化し、関連手法と応用分野を分 類した調査を提案。 評価 LLMのアクセス性に基づいた技術の分類と、影響が大きい 応用分野の検討。 結果 LLMの領域特化が応用分野に与える影響と開かれた課題に ついて洞察を提供。
  431. PsySafe: 心理学に基づくマルチエージェン トシステムの攻撃、防御、および安全性評価 の包括フレームワーク PsySafe: A Comprehensive Framework for Psychological-based

    Attack, Defense, and Evaluation of Multi-agent System Safety Zaibin Zhang and Yongting Zhang and Lijun Li and Hongzhi Gao and Lijun Wang and Huchuan Lu and Feng Zhao and Yu Qiao and Jing Shao 背景 マルチエージェントシステムの悪用リスクと安全性問題が 未解決。 目的 エージェント心理学の視点から安全性問題を解決するフレ ームワークを構築。 提案 エージェントの暗黒性格を特定し、安全性を評価しリスク 軽減を図る。 評価 実験を用いて集団的危険行動と自己反省の関連性を分析。 結果 エージェントの心理評価と危険行動の関連性が明示され た。
  432. 言語モデルのための仮想ペルソナと物語的背 景 Virtual Personas for Language Models via an Anthology

    of Backstories Suhong Moon and Marwa Abdulhai and Minwoo Kang and Joseph Suh and Widyadewi Soedarmadji and Eran Kohen Behar and David M. Chan 背景 大規模言語モデルは人間の特性の多様性を反映するが、個 別ユーザーの制御は難しい。 目的 研究は、モデルを特定の仮想ペルソナに調整する方法を解 決する。 提案 物語を活用し、モデルに特定の仮想ペルソナを設定する手 法を提案。 評価 Pew Research Centerによる 3つの全国代表調査を用い て、手法の効果を検証。 結果 回答分布の一致率を最大 18%、一貫性指標を **27% **改 善。
  433. ハイパーパラメータ最適化のための大規模言 語モデルエージェント Large Language Model Agent for Hyper-Parameter Optimization Siyi

    Liu and Chen Gao and Yong Li 背景 ハイパーパラメータ最適化は専門知識と資源を多く必要と し、課題が大きい。 目的 LLMを用いてハイパーパラメータ最適化を効率化すること が目的。 提案 新たに AgentHPOという LLMベースの最適化手法を提 案。 評価 12の機械学習タスクで AgentHPOの性能を実証実験で検 証。 結果 AgentHPOは人間の試行を超える性能と説明可能性を示し た。
  434. 大規模言語モデルによる Kレベル推論 K-Level Reasoning with Large Language Models Yadong Zhang

    and Shaoguang Mao and Tao Ge and Xun Wang and Yan Xia and Man Lan and Furu Wei 背景 大規模言語モデルは複雑な推論に成功しているが、動的シ ナリオでは未解明。 目的 動的かつ競争的な環境での意思決定能力の向上を目指す。 提案 ライバルの視点から Kレベル推論を利用する新しい手法を 提案。 評価 ゲーム理論に基づくパイロットチャレンジで動的推論能力 を評価。 結果 提案手法がライバルの動きを予測しやすくし、効果を示 す。
  435. RoboType: 合成ユーザーによる現実的なモ バイルテキスト入力評価 RoboType: Realistic Mobile Text Entry Evaluations with

    Synthetic Users A. Komninos 背景 モバイルテキスト入力の研究は小規模なラボ実験に依存 し、コストがかかる。 目的 RoboTypeは時間と労力を削減し、再現可能な評価を実現 するために開発された。 提案 Pythonで記述されたオープンソースの RoboTypeシミュ レーターを提案する。 評価 RoboTypeを用いて、プロトタイプ設計の評価にかかる 時間を大幅に削減可能か検証した。 結果 RoboTypeは新しいプロトタイプ評価における有望な可能 性を示した。
  436. 協力か崩壊か : LLMエージェントの社会にお ける持続可能行動の出現 Cooperate or Collapse: Emergence of Sustainability

    Behaviors in a Society of LLM Agents Giorgio Piatti and Zhijing Jin and Max Kleiman-Weiner and Bernhard Schölkopf and Mrinmaya Sachan and Rada Mihalcea 背景 AIにおける安全な意思決定の確保は重要な課題です。 目的 LLMのリソース管理能力の不足を解決することです。 提案 エージェント間の協調行動をシミュレートする G OV S IM を提案します。 評価 G OV S IMを通じた LLMのリソース共有の実験を行いま す。 結果 持続可能な結果を出したのは 15中 2つの LLMのみでした。
  437. RNR: 大規模言語モデルにロールとルールを 守らせる方法 RNR: Teaching Large Language Models to Follow

    Roles and Rules Kuan Wang and Alexander Bukharin and Haoming Jiang and Qingyu Yin and Zhengyang Wang and Tuo Zhao and Jingbo Shang and Chao Zhang and Bing Yin and Xian Li and Jianshu Chen and Shiyang Li 背景 大規模言語モデルはユーザー指示に従うが、開発者の複雑 なルールに弱い。 目的 複雑なロールとルールに従う能力を向上させ、モデルを安 全にする。 提案 extit{model}という自動パイプラインで、多様なデータを 生成しモデルを訓練する。 評価 新しいベンチマークと標準指示従属テスト、一般 NLPタス クを用いて評価を行った。 結果 ルール従属能力を 25%以上向上させ、従来のベンチマー クに影響を与えない。
  438. 大規模言語モデルを通じたテレコム言語の理 解 Understanding Telecom Language Through Large Language Models Lina

    Bariah and Han Zou and Qiyang Zhao and B. Mouhouche and F. Bader and M. Debbah 背景 AIの進化がテレコムネットワーク設計の自動化を可能にす る背景がある。 目的 LLMをテレコム言語に適用し、 3GPP標準作業グループを 識別する。 提案 BERTや RoBERTa、 GPT-2を用いてテレコムドメインの言 語モデルを構築。 評価 3GPP技術文書を用いてモデルを訓練し、作業グループを 予測。 結果 BERTと RoBERTaが 84.6%、 GPT-2が 83%の精度を達成 した。
  439. 画面を見るだけ : マルチモーダルなアクショ ンエージェント You Only Look at Screens: Multimodal

    Chain-of-Action Agents Zhuosheng Zhang and Aston Zhang 背景 自律的な GUIエージェントは、ユーザーインターフェース と自動で対話し、タスク効率を向上させるために重要です。 目的 推論の非効率性とエラー伝播リスクを軽減する新しいアプ ローチを提案することです。 提案 Auto-GUIは環境解析を省き、マルチモーダルで直接イン ターフェースと対話します。 評価 AITWと呼ばれる新しいデバイスコントロールベンチマー クで 30,000の指示を用いて評価を行いました。 結果 Auto-GUIは 90%のアクション予測精度と 74%の成功率を 達成しました。
  440. 金融取引における大規模言語モデルエージェ ント :調査 Large Language Model Agent in Financial Trading:

    A Survey Han Ding and Yinheng Li and Junhao Wang and Hang Chen 背景 金融取引は競争的であり、戦略、知識、心理的強さが求め られる。 目的 LLMエージェントがプロのトレーダーを超えられるかを理 解する。 提案 LLMを金融取引エージェントとして活用する包括的レビュ ーを提供。 評価 エージェントの一般的アーキテクチャ、データ入力、バッ クテストを調査。 結果 LLMベースの金融取引エージェントの現状と将来の方向 性を示す。
  441. LLMによる準合理的行動の模倣:幻か現実か LLM-driven Imitation of Subrational Behavior : Illusion or Reality?

    Andrea Coletta and Kshama Dwarakanath and Penghang Liu and Svitlana Vyetrenko and T. Balch 背景 準合理的エージェントの行動をモデル化することは、複雑 さから難しいとされています。 目的 LLMを使って人間の準合理的行動を模倣し、理解を深め ます。 提案 LLMからの合成デモを用いた模倣学習のフレームワーク を提案します。 評価 様々なシナリオで実験し、既存研究の結果を再現し検証し ました。 結果 提案手法が既知の人間行動を再現できることを確認しまし た。
  442. 大規模言語モデルは高次の心の理論タスクで 成人の人間のパフォーマンスを達成 LLMs achieve adult human performance on higher-order theory

    of mind tasks Winnie Street and John Oliver Siy and Geoff Keeling and Adrien Baranes and Benjamin Barnett and Michael McKibben and Tatenda Kanyere and Alison Lentz and B. A. Y. Arcas and Robin I. M. Dunbar 背景 心の理論は、人間の社会的行動における重要な能力です。 目的 大規模言語モデルの心の理論能力を調査することです。 提案 手書きテストを使用し LLMと人間のパフォーマンスを比較 します。 評価 GPT-4らのパフォーマンスを成人基準と比較評価しまし た。 結果 GPT-4が 6次推論で成人超え、モデルサイズとチューニン グが影響。
  443. LLMロールプレイにおけるキャラクター知識 エラー検出の課題を明らかにする Revealing the Challenge of Detecting Character Knowledge Errors

    in LLM Role- Playing Wenyuan Zhang and Jiawei Sheng and Shuaiyi Nie and Zefeng Zhang and Xinghua Zhang and Yongquan He and Tingwen Liu 背景 LLMのロールプレイでは、キャラクターの正確な知識がリ アリティの鍵です。 目的 キャラクターの既知と未知の知識エラーを検出する能力を 向上させることです。 提案 KKEと UKEの検出能力を評価するためのプロービングデー タセットを提案します。 評価 エージェントベースの推論法 S2RDを用いて改善可能性を 検証しました。 結果 S2RDはエラー検出能力を向上させたが、まだ更なる検討 が必要です。
  444. ニーズ動態を用いた日常活動の生成 Generating Daily Activities with Need Dynamics Yuan Yuan and

    Jingtao Ding and Huandong Wang and Depeng Jin 背景 個人の活動データは高い価値を持つが、収集が困難であ る。 目的 人間の活動をシミュレートし、高品質なデータ生成を目指 す。 提案 マズローの欲求理論に基づいたシミュレーションフレーム ワークを提案。 評価 データの忠実性やプライバシーに関する評価実験を実施。 結果 提案手法が現行の基準に対してデータの高い忠実性を示 す。
  445. 人工知能研究のためのゲーム : レビューと展 望 Games for Artificial Intelligence Research: A

    Review and Perspectives Chengpeng Hu and Yunlong Zhao and Ziqi Wang and Haocheng Du and Jialin Liu 背景 ゲームは現実世界と類似するため、 AI研究に最適なテスト ベッドとなっています。 目的 特定の AI技術を適切なゲームでテストする指針を提供する ことです。 提案 ゲームと AI技術のマッチングガイダンスを提供します。 評価 シングル /マルチプレイヤーゲームを用いて AIの技術を検 証します。 結果 AIの技術とゲームの進化が研究動向に影響を与えることを 示しました。
  446. 知識境界とペルソナ動態がより優れたソーシ ャルメディアエージェントを形作る Knowledge Boundary and Persona Dynamic Shape A Better

    Social Media Agent Junkai Zhou and Liang Pang and Ya Jing and Jia Gu and Huawei Shen and Xueqi Cheng 背景 ソーシャルネットワークシミュレーションでの個人化と擬 人化が重要。 目的 エージェントの個性と人間らしさの向上のための問題解決 を目指す。 提案 個人化した知識と動的ペルソナ利用のソーシャルエージェ ントを提案。 評価 自動評価と人間評価を使用してエージェントの効果を検 証。 結果 提案したエージェントが効果的であると確認された。
  447. LLMマルチエージェントシステム : 課題と未 解決問題 LLM Multi-Agent Systems: Challenges and Open

    Problems Shanshan Han and Qifan Zhang and Yuhang Yao and Weizhao Jin and Zhaozhuo Xu and Chaoyang He 背景 マルチエージェントシステムは複雑なタスクを協調的に解 決できるが、課題が残されています。 目的 本研究は、マルチエージェントシステムの最適化と応用可 能性を探ることを目的としています。 提案 タスク分配最適化、強力な推論、メモリ管理強化を提案し ます。 評価 適切なタスク処理や推論の強化を議論し、システムの適用 性を分析します。 結果 Blockchainシステムへの応用可能性が示唆され、今後の 開発に貢献します。
  448. DriveMLM: 自動運転における行動計画状態 とマルチモーダル大規模言語モデルの調整 DriveMLM: Aligning Multi-Modal Large Language Models with

    Behavioral Planning States for Autonomous Driving Wenhai Wang and Jiangwei Xie and ChuanYang Hu and Haoming Zou and Jianan Fan and Wenwen Tong and Yang Wen and Silei Wu and Hanming Deng and Zhiqi Li and Hao Tian and Lewei Lu and Xizhou Zhu and 背景 大規模言語モデルは知能システムに革新をもたらし、自動 運転に適用され始めています。 目的 DriveMLMを用いて自動運転の意思決定精度を向上させ ることが目的です。 提案 LLMを用い、モーションプランニングと多様なセンサー入 力を統合する ADフレームワークを提案します。 評価 広範な実験により、提案手法の効果を CARLAシミュレー タで検証しました。 結果 DriveMLMは Apolloベースラインを 4.7ポイント上回り、 性能向上を示しました。
  449. ブラックボックス大規模言語モデルと意思決 定計画のための効率的非パラメトリック不確 実性定量化 Efficient Non-Parametric Uncertainty Quantification for Black-Box Large

    Language Models and Decision Planning Yao-Hung Tsai and Walter Talbott and Jian Zhang 背景 LLMsの幻覚問題対策が発展中であり、意思決定の信頼性 が重視されます。 目的 ブラックボックスでの効率的な不確実性推定手法を提案 し、幻覚問題に対応します。 提案 非パラメトリックな不確実性定量化法で効率良く推定し、 コスト削減を図ります。 評価 単一推論でのデータ依存性評価で、信頼性のある統計的解 釈を実現。 結果 効率的な不確実性推定方法で意思決定を信頼性向上し、コ スト効率を実現しました。
  450. 専門家構成型送信による大規模言語モデル用 の生成 AIエージェントの衛星ネットワーク活 用 Generative AI Agents with Large Language

    Model for Satellite Networks via a Mixture of Experts Transmission Ruichen Zhang and Hongyang Du and Yinqiu Liu and D. Niyato and Jiawen Kang and Zehui Xiong and Abbas Jamalipour and Dong In Kim 背景 6G通信の実現には、衛星ネットワークの複雑さと干渉問 題の克服が必要です。 目的 生成 AIと MoE技術で、衛星通信ネットワークの課題を解 決することを目指します。 提案 大規模言語モデルと MoE-PPOを利用し、専門知識を活用 して送信戦略を最適化します。 評価 シミュレーションを通じて、提案手法と他のベンチマーク との比較を実施しました。 結果 提案された MoE-PPOアプローチは、他の手法に比べ問題 解決力で優れていました。
  451. 投資セクターにおける階層的組織シミュラク ラ Hierarchical Organization Simulacra in the Investment Sector Chung-Chi

    Chen and Hiroya Takamura and Ichiro Kobayashi and Yusuke Miyao 背景 ニュースを基にした意思決定が投資でどのように行われる かを理解するために重要です。 目的 人工組織がプロの投資家と同等の決定を下せるかを検証す ることです。 提案 ニュースで情報提供される階層的意思決定を模倣した多エ ージェントシミュレーションです。 評価 15年間 300社のニュース記事を対象に、実際のトレーダー と比較しました。 結果 階層的シミュレーションは専門家の選択と利益で一致しま したが、バイアスも存在しました。
  452. 自律性と調整のバランス : 自律的な LLM駆動 のマルチエージェントアーキテクチャの多次 元分類法 Balancing Autonomy and Alignment:

    A Multi-Dimensional Taxonomy for Autonomous LLM-powered Multi-Agent Architectures Thorsten Händler 背景 LLMは言語能力を革新したが、複雑なタスクでは限界が ある。 目的 自律的なマルチエージェントシステムでの自律性と調整の バランス分析を目指す。 提案 多次元分類法で、 LLM駆動システムの建築的観点からのバ ランスを提供。 評価 分類法の実用性を示すため、代表的なマルチエージェント システムの探究的分類を実施。 結果 実用性が実証され、将来の研究開発の可能性を示した。
  453. 心の理論の複雑性に関する概念を離散的世界 モデルで A Notion of Complexity for Theory of Mind

    via Discrete World Models X. A. Huang and Emanuele La Malfa and Samuele Marro and A. Asperti and Anthony Cohn and Michael Wooldridge 背景 心の理論は社会的推論が必要な場面でモデル能力を評価す る手段です。 目的 ToMタスクの複雑性を測定する新たなフレームワークを提 案します。 提案 認知負荷理論を基に、問題の状態数で複雑性を定量化しま す。 評価 5つの ToMベンチマークを用いて、複雑性測定の実証評価 を行いました。 結果 離散的世界モデルで ToMタスクのパフォーマンスを向上さ せました。
  454. 深層学習を用いた動物行動分析手法 : 調査 Animal Behavior Analysis Methods Using Deep Learning:

    A Survey Edoardo Fazzari and Donato Romano and Fabrizio Falchi and Cesare Stefanini 背景 動物行動は適応と健康の指標であり、多様な面を理解する 手段。 目的 深層学習を用いた動物行動の識別手法を広範に探求するこ と。 提案 動物行動識別に有効な深層学習アーキテクチャと戦略を示 す。 評価 動物行動データセットを用いた深層学習手法の検証と課題 の分析。 結果 深層学習による動物行動研究の重要な研究方向を提案。
  455. 責任ある生成 AIに向けて : 基盤モデルを用い たエージェント設計のためのリファレンスア ーキテクチャ Towards Responsible Generative AI:

    A Reference Architecture for Designing Foundation Model Based Agents Qinghua Lu and Liming Zhu and Xiwei Xu and Zhenchang Xing and Stefan Harrer and Jon Whittle 背景 基盤モデルは変革的技術ですが、そのエージェント設計の 体系的研究が不足しています。 目的 基盤モデルに基づくエージェントの責任ある利用を促進す るためのリファレンスアーキテクチャの提案です。 提案 基盤モデルエージェントの設計ガイドラインとなるパター ン指向リファレンスアーキテクチャを提案します。 評価 提案したアーキテクチャを、実際のエージェントの設計に マッピングして評価しました。 結果 設計支援の有用性が明確に示され、責任ある AIの促進に寄 与しました。
  456. RAH! RecSys-Assistant-Human: 大規模 言語モデルを用いた人間中心の推薦フレーム ワーク RAH! RecSys-Assistant-Human: A Human-Central Recommendation

    Framework with Large Language Models Yubo Shu and Hansu Gu and Peng Zhang and Haonan Zhang and T. Lu and Dongsheng Li and Ning Gu 背景 現代の推薦システムはユーザーの体験向上を目指します が、プライバシーや公正性への考慮が必要です。 目的 人間中心の推薦システム構築を通じ、ユーザーの *プライ バシーと公正性への課題を解決します。 提案 RAHフレームワークは、大規模言語モデルを用いてユー ザーコントロールを重視したシステムを提案します。 評価 提案した RAHフレームワークは、実際のユーザーデータを 使用してその有効性を実証しました。 結果 RAHはプライバシーと公正性を考慮した新しい可能性を示 しました。
  457. AutoStudio: マルチターンインタラクティ ブ画像生成における一貫した主題の作成 AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive

    Image Generation Junhao Cheng and Xi Lu and Hanhui Li and Khun Loun Zai and Baiqiao Yin and Yuhao Cheng and Yiqiang Yan and Xiaodan Liang 背景 マルチターンのインタラクティブ画像生成が研究の注目を 集めています。 目的 主題の一貫性を保ちながら多様な画像を生成する問題を解 決します。 提案 トレーニング不要なマルチエージェントフレームワーク AutoStudioを提案。 評価 公共の CMIGBenchベンチマークと人間評価で評価。 結果 AutoStudioは主題の一貫性を維持し、性能を向上しまし た。
  458. COCOA: CBTベースの会話型カウンセリン グエージェントによる認知の歪みメモリ専門 化と動的プロンプト COCOA: CBT-based Conversational Counseling Agent using

    Memory Specialized in Cognitive Distortions and Dynamic Prompt Suyeon Lee and Jieun Kang and Harim Kim and Kyoung-Mee Chung and Dongha Lee and Jinyoung Yeo 背景 精神的健康ケアの需要増加に対応するため、会話型エージ ェントが注目されています。 目的 CBT技術を活用し、クライアントの認知の歪みを正確に 特定し対応します。 提案 メモリシステムと動的プロンプトを用いて、効率的な対話 型カウンセリングを提案します。 評価 CoCoAと Character.aiキャラクターの対話を通じたデータ セットによる評価実験を行いました。 結果 我々のモデルは他のモデルとの差異を示し、統計的有意差 を確認しました。
  459. 他のエージェントとの相互作用を通じた社会 的学習 : 調査 Social Learning through Interactions with Other

    Agents: A Survey Dylan Hillier and Cheston Tan and Jing Jiang 背景 人間は社会的学習を通じて知能を発達させ、これを機械学 習に反映する研究が重要です。 目的 社会的学習の機械学習への適用状況を調査し、その重要性 を明らかにする。 提案 他のエージェントと相互作用することで行動模倣やフィー ドバック学習を実現する手法を検討。 評価 自然言語処理の技術を利用し、エージェント間で新しい学 習形態を実現する可能性を分析。 結果 個別技術の成功例はあるが、統合して社会的エージェント を構築する試みは少ない。
  460. 言語知能を燃やす : 連鎖型推論から言語エー ジェントへのガイド Igniting Language Intelligence: The Hitchhiker's Guide

    From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang and Yao Yao and Aston Zhang and Xiangru Tang and Xinbei Ma and Zhiwei He and Yiming Wang and Mark B. Gerstein and Rui Wang and Gongshen Liu and Hai Zhao 背景 大規模言語モデルは言語知能の向上を促進し、複雑な推論 を可能にしました。 目的 この研究は、連鎖型推論とその言語エージェントへの応用 を解明することを目的としています。 提案 連鎖型推論技法を用いて言語エージェントを開発し、環境 での指示実行を強化します。 評価 連鎖型推論技術の効力とその言語エージェント活用が評価 されるべきです。 結果 連鎖型推論は、推論の効力とエージェントの柔軟性を著し く向上させることが示された。
  461. 政策影響のシミュレーション : 規制の影響評 価のための生成シナリオ作成法の開発 Simulating Policy Impacts: Developing a Generative

    Scenario Writing Method to Evaluate the Perceived Effects of Regulation Julia Barnett and Kimon Kieslich and Nicholas Diakopoulos 背景 AI技術の急速な発展に伴い、その未来の影響を緩和する政 策作成が急務である。 目的 政策の効果を言語モデルで予測し、特定の負の影響を緩和 することを目指す。 提案 GPT-4を使い、政策導入前後のシナリオを生成し、その効 果を評価する方法を提案。 評価 234人のユーザー研究で、シナリオのリスク評価を 4次元 で実施し、影響を検証。 結果 透明性法案は労働や福祉の損害を緩和するが、社会的結束 には効果が薄い。
  462. 大規模言語モデルベースの MathAgentによ る複雑な数学的推論のモデリング Modeling Complex Mathematical Reasoning via Large Language

    Model based MathAgent Haoran Liao and Qinyi Du and Shaohua Hu and Hao He and Yanyan Xu and Jidong Tian and Yaohui Jin 背景 **大規模言語モデル( LLM) **は、複雑な数学問題解決に 課題を抱えており、その改善が求められています。 目的 研究の目的は、 LLMの能力向上を目指し、エージェント による数学推論の分解とモデル化を探ることです。 提案 PRERフレームワークを提案し、 MathAgentが異なるアク ションで論理形式と関係を定義することを示します。 評価 MiniF2Fと MATHを用いて、提案手法 PRERと MathAgent の効果を実験的に検証しました。 結果 PRERと MathAgentsにより、 MiniF2Fで 12.3%の精度向 上が達成され、 LLMの新たな可能性を示しました。
  463. MetaGPT: 複数エージェント協調フレーム ワークのためのメタプログラミング MetaGPT: Meta Programming for Multi-Agent Collaborative Framework

    Sirui Hong and Xiawu Zheng and Jonathan P. Chen and Yuheng Cheng and Ceyao Zhang and Zili Wang and Steven Ka Shing Yau and Z. Lin and Liyang Zhou and Chenyu Ran and Lingfeng Xiao and Chenglin Wu 背景 大規模言語モデルを用いた複雑なタスク解決が未開拓で、 誤りが連鎖する問題があります。 目的 MetaGPTは、人間のワークフローをエージェント協調に 取り入れ、複雑な課題を解決します。 提案 MetaGPTは、 SOPsをプロンプトに組み込み、モジュー ル化された出力を強化するフレームワークです。 評価 共同ソフトウェアエンジニアリングベンチマークで、既存 システムと比較し一貫性と正確性を評価しました。 結果 MetaGPTは、より一貫した結果を提供し、現実の課題解 決に新たな可能性を示しました。
  464. MASにおける規範的推論のための LLMの活 用 Harnessing the power of LLMs for normative

    reasoning in MASs B. Savarimuthu and Surangika Ranathunga and Stephen Cranefield 背景 ソフトウェアエージェントは、他者と協力して目標を達成 する必要があります。 目的 規範的能力を持つエージェントの可能性を探ります。 提案 LLMを活用し、規範を理解できるエージェントを実現し ます。 評価 最近の NLPおよび LLM研究を基に仮説を検証します。 結果 LLMを用いることで新たな規範的エージェントの可能性が 示されました。
  465. 間接的プロンプト注入による現実世界の LLM 統合アプリケーションの妥協 Not What You've Signed Up For: Compromising

    Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake and Sahar Abdelnabi and Shailesh Mishra and C. Endres and Thorsten Holz and Mario Fritz 背景 LLMはアプリ統合が進み、自然言語プロンプトで操作可 能ですが、その境界は曖昧です。 目的 間接的プロンプト注入という新たな攻撃ベクトルの可能性 を明らかにすること。 提案 LLM統合アプリを遠隔で利用可能にする間接的攻撃の手法 を提示します。 評価 実際のシステムや合成環境で攻撃の実用性を検証しまし た。 結果 新たな脅威の認識を高め、安全な利用と防御策開発を促進 したい。
  466. τ-bench: 現実世界のツールエージェントユ ーザー相互作用におけるベンチマーク τ-bench: A Benchmark for Tool-Agent-User Interaction in

    Real-World Domains Shunyu Yao and Noah Shinn and P. Razavi and Karthik Narasimhan 背景 現行ベンチマークは、人間との対話や規則遵守を評価でき ない。 目的 言語エージェントの実用的な適用性を向上させる。 提案 τ-benchにより動的会話の評価を可能にする。 評価 データベース状態と目標状態を比較する評価プロセスを使 用。 結果 最先端エージェントが一貫性と信頼性を欠くことを示し た。
  467. 強化された自律エージェントにおける欺瞞 : 法律の非伝統的なウサギの手品 Deception in Reinforced Autonomous Agents: The Unconventional

    Rabbit Hat Trick in Legislation Atharvan Dogra and A. Deshpande and John Nay and Tanmay Rajpurohit and A. Kalyan and Balaraman Ravindran 背景 AIの欺瞞能力が法律や人間の意思決定に与える影響が懸念 されている。 目的 AIエージェントがもたらす可能性がある欺瞞問題を明らか にし、その危険性を検証する。 提案 ロビイング対話システムでの欺瞞的行動を評価するための 新しい検証フレームワークを提案する。 評価 2エージェント対話システムで強化学習を用いて欺瞞能力 の向上を検証する。 結果 ロビイストエージェントの欺瞞能力が約 40%向上し、欺瞞 検知率が最大 92%に達した。
  468. PPOを掘り下げる : 安定した RLHFのための 実装が重要 Delve into PPO: Implementation Matters

    for Stable RLHF Rui Zheng and Shihan Dou and Songyang Gao and ‡. YuanHua and Wei Shen and Bing Wang and Yan Liu and Senjie Jin and Qin Liu and Yuhao Zhou and Limao Xiong and Luyao Chen and Zhiheng Xi and Nuo Xu and 背景 RLHFは人間のフィードバックを利用するが、安定性の欠 如が課題です。 目的 安定した強化学習を実現するための実装要因を解明するこ と。 提案 PPOの特定の実装要因が学習の安定性に寄与することを 提案。 評価 異なるパラメータ設定での実験を通し、効果を分析しまし た。 結果 特定のハイパーパラメータが安定性の確保に重要であると 判明しました。
  469. 大規模言語モデルはゼロショットで仮説を提 案する Large Language Models are Zero Shot Hypothesis Proposers

    Biqing Qi and Kaiyan Zhang and Haoxiang Li and Kai Tian and Sihang Zeng and Zhang-Ren Chen and Bowen Zhou 背景 大量の科学情報が進展を妨げる情報の壁を作り出していま す。 目的 LLMが科学的仮説をゼロショットで生成できるかを検証し ます。 提案 背景知識と仮説のペアを用い、 LLMの仮説生成能力を評価 します。 評価 ゼロショットやファインチューニングで、様々なモデルの 仮説生成を評価しました。 結果 LLMは有効な仮説を生成でき、新たな発見を促進する潜在 力があります。
  470. 大規模言語モデルベースのエージェントによ る金融市場シミュレーション Simulating Financial Market via Large Language Model based

    Agents Shen Gao and Yuntao Wen and Minghang Zhu and Jianing Wei and Yuhan Cheng and Qunzi Zhang and Shuo Shang 背景 経済理論は市場参加者を合理的と仮定しますが、人間行動 は数学モデルで予測し難いです。 目的 大規模言語モデルを用いて、人間の非合理性を考慮した市 場シミュレーションを目指します。 提案 ASFMを提案し、株式トレーダーとして LLMベースのエー ジェントを採用しました。 評価 ASFMの反応を実市場と比較し、経済学研究の結果とも照 合しました。 結果 ASFMの結論は、経済学の予備的な研究結果と一致し、新 しい研究パラダイムを示しました。
  471. ツイスト逐次モンテカルロによる数式問題の 段階的推論 Step-by-Step Reasoning for Math Problems via Twisted Sequential

    Monte Carlo Shengyu Feng and Xiang Kong and Shuang Ma and Aonan Zhang and Dong Yin and Chong Wang and Ruoming Pang and Yiming Yang 背景 大規模言語モデルの多段階推論能力の向上が必要です。 目的 効率的な検証方法を開発し、多数のサンプルや大量のプロ セス監督なしで性能を向上します。 提案 ツイスト逐次モンテカルロを用いてサンプリング効率を高 め、高品質解を生成します。 評価 複数の数学ベンチマークを用いて実証的に方法の利点を検 証しました。 結果 理論分析と実験結果を通して、提案手法の有効性を示しま した。
  472. 認知、適応、合理性、協力における多エージ ェントシステムの検討 MAgIC: Investigation of Large Language Model Powered Multi-Agent

    in Cognition, Adaptability, Rationality and Collaboration Lin Xu and Zhiyuan Hu and Daquan Zhou and Hongyu Ren and Zhen Dong and Kurt Keutzer and See-Kiong Ng and Jiashi Feng 背景 LLMは自然言語処理で大きな進展を示し、マルチエージェ ントへの応用が進んでいます。 目的 多エージェントでの LLMの協力、推論、合理性を評価する フレームワークの開発です。 提案 プロベイリスティック・グラフィカル・モデリングを用い た新たな評価フレームワークを提案します。 評価 ゲーム理論や様々なゲームを用いた多様なテスト環境で LLMを評価しました。 結果 強力な GPT-4と Llama-2-70B間で性能の差が約三倍ある ことが確認されました。
  473. 生成 AIを用いた 1001夜物語の協創型ストー リーテリングゲーム体験 Language as Reality: A Co-Creative Storytelling

    Game Experience in 1001 Nights using Generative AI Yuqian Sun and Zhouyi Li and Ke Fang and Chang Hee Lee and A. Asadipour 背景 生成 AIはゲーム体験を変革し、特に物語性に新たな可能性 を提供する。 目的 言語と現実の融合を通じて、ゲーム内世界のダイナミック 生成を示すこと。 提案 AIネイティブゲームとして、生成 AIが新機軸のゲームの中 心であるカテゴリを提案。 評価 GPT-4を用いた一貫性維持と Stable Diffusionによる 視覚化を分析。 結果 言語によるインタラクティブなストーリーテリングがゲー ム世界を形作る力を実証。
  474. 大規模言語モデルを用いたユーザー行動シミ ュレーション User Behavior Simulation with Large Language Model based

    Agents Lei Wang and Jingsen Zhang and Hao Yang and Zhiyuan Chen and Jiakai Tang and Zeyu Zhang and Xu Chen and Yankai Lin and Ruihua Song and Wayne Xin Zhao and Jun Xu and Zhicheng Dou and Jun Wang and Ji-rong 背景 ユーザー行動データの高品質なシミュレーションは複雑な 人間の意思決定過程のため困難です。 目的 大規模言語モデルが人間らしい知能を用いた新たなシミュ レーションの可能性を探ります。 提案 LLMベースのエージェントフレームワークとサンドボッ クス環境を提案し、リアルなユーザー行動の再現を目指しま 評価 広範な実験を通じて、本手法でのシミュレーションされた 行動が実際の人間に近いことを評価しました。 結果 2つの社会現象を分析し、人間中心アプリケーション向け の新たなシミュレーションパラダイムを提供します。
  475. 反復的質問作成による数学文章題の拡充 Augmenting Math Word Problems via Iterative Question Composing Haoxiong

    Liu and Yifan Zhang and Yifan Luo and Andrew Chi-Chih Yao 背景 競技レベルの数学問題解決は、特にオープンソースの LLMにおいて依然として課題です。 目的 MMIQCデータセットで数学推論能力を向上させることを 目指しています。 提案 反復的質問作成( IQC)で新たに質問を生成する手法を提 案します。 評価 ハンガリー高校試験を用いて、手法の一般化性能を評価し ました。 結果 Qwen-72B-MMIQCは、最先端を 8.2%上回る 45.0%の 精度を達成しました。
  476. グラフ記述順序が大規模言語モデルの推論を 向上 Graph Descriptive Order Improves Reasoning with Large Language

    Model Yuyao Ge and Shenghua Liu and Wenjie Feng and Lingrui Mei and Lizhe Chen and Xueqi Cheng 背景 大規模言語モデルは多分野で進展する一方、グラフ推論で は課題が残る。 目的 グラフ記述の順序が推論性能に与える影響を解明する。 提案 グラフの記述順序を変えることで推論能力を向上させる手 法。 評価 GPT-3.5など主流モデルを用いて様々なグラフサイズで性 能を評価。 結果 記述順序の変更により推論性能が 42.22%から 70%に向 上。
  477. LLMを研究ツールとして : HCIデータ作業に おける応用と評価 LLMs as Research Tools: Applications and

    Evaluations in HCI Data Work Marianne Aubin Le Quere and Hope Schroeder and Casey Randazzo and Jie Gao and Ziv Epstein and S. Perrault and David Mimno and Louise Barkhuus and Hanlin Li 背景 LLMは新しいデータ処理方法を可能にするが、批判的評 価が必要です。 目的 HCI研究におけるデータ作業での LLMの使用法を理解する ことが目的です。 提案 研究ツールとしての LLM利用に関するオープンな評価問 題を定義します。 評価 CHIで多様な方法論の研究者が集まり、倫理的評価を議論 します。 結果 このフォーラムの洞察は、他の研究コミュニティにも貢献 する可能性があります。
  478. Comp-HuSim: 持続可能なデジタル人格シ ミュレーションプラットフォーム Comp-HuSim: Persistent Digital Personality Simulation Platform Chengyu

    Fan and Zaynab Tariq and Nafis Saadiq Bhuiyan and Michael G Yankoski and Trenton W. Ford 背景 デジタル人格の複雑なシミュレーションは、バーチャルア シスタントでの応用に重要です。 目的 人間らしい行動を模倣できるデジタルエージェントの開発 が目的です。 提案 Comp-HuSimは生成 AIを活用し、多様な人格を持つエー ジェントを生成します。 評価 エージェントが会話やゲームを通じて相互作用する実験を 行いました。 結果 プロジェクトは、複雑な人間らしい行動が確認できる可能 性を示しました。
  479. METAツールベンチマーク : ツール使用の決 定と選択 M ETA T OOL B ENCHMARK

    : D ECIDING W HETHER TO U SE T OOLS AND W HICH TO U SE Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun 背景 大規模言語モデルのツール使用能力が注目されているが、 適切なツール選択は懸案。 目的 METATOOLベンチマークで、 LLMsのツール選択能力を 評価し、課題改善を目指す。 提案 TOOLEデータセットを用いたプロンプト形式で、複数視 点のサブタスクを設定。 評価 9つの人気 LLMsを対象に、ツール選択の効果的な能力を 実験的に分析。 結果 多くのモデルでツール選択に課題が見られ、改善の余地と 開発者向けインサイトを提示。
  480. トップダウン推論への道 : ビジュアル質問応 答のための説明可能なマルチエージェントア プローチ Towards Top-Down Reasoning: An Explainable

    Multi-Agent Approach for Visual Question Answering Zeqing Wang and Wentao Wan and Runmeng Chen and Qiqing Lao and Minjie Lang and Keze Wang 背景 VLMは外部知識を理解できず、最適な答えを生成しにくい 問題があります。 目的 人間のトップダウン推論を模倣した新しいフレームワーク を構築することです。 提案 Responder、 Seeker、 Integratorの 3エージェントで視覚 的推論を行う手法を提案。 評価 多様な VQAデータセットと VLMを用いて広範かつ包括的 に評価しました。 結果 我々のフレームワークは、他の方法よりも優れた適用性と 説明可能性を示しました。
  481. 大規模言語モデルの時代におけるユーザーモ デリング:現在の研究と未来の方向性 User Modeling in the Era of Large Language

    Models: Current Research and Future Directions Zhaoxuan Tan and Meng Jiang 背景 ユーザーモデリングは、ユーザーデータからパターンを発 見し、オンラインアプリでのパーソナライゼーションを可能に 目的 **大規模言語モデル( LLM) **を用いてユーザー生成コン テンツを効果的にモデリングすることです。 提案 LLMをテキストとグラフベースの手法に統合して、優れた ユーザーモデリングを実現します。 評価 LLM-UMアプローチの有効性は、異なる手法との統合を通 じて検討されます。 結果 LLMを用いたユーザーモデリングは、従来よりも優れた性 能を示しました。
  482. マルチモーダル対話システムにおける会話の 基盤 Conversational Grounding in Multimodal Dialog Systems Biswesh Mohapatra

    背景 会話の基盤は重要であり、対話システムがこれを管理でき る能力が必要です。 目的 現在の対話モデルでの会話の基盤をテストし、改善するこ とが目的です。 提案 マルチモーダルな対話システムの会話基盤強化を提案しま す。 評価 システムが会話の基盤を管理する能力をテストし分析しま す。 結果 会話の基盤向上が、具現化された会話エージェントに有益 です。
  483. すべてを一つのモデルで解決する時代を超え て : 大規模言語モデルのドメイン専門化に関 する調査 Beyond One-Model-Fits-All: A Survey of

    Domain Specialization for Large Language Models Chen Ling and Xujiang Zhao and Jiaying Lu and Chengyuan Deng and Can Zheng and Junxiang Wang and Tanmoy Chowdhury and Yun-Qing Li and Hejie Cui and Tian-yu Zhao and Amit Panalkar and Wei Cheng and 背景 大規模言語モデルは多様なアプリケーションで有用だが、 特定ドメインでの問題解決に困難がある。 目的 特定ドメインでの LLMの適用困難を克服し、専門化の可能 性を探る。 提案 各ドメイン特有のデータやニーズに合わせた専門化技術の 調査を提案。 評価 文献の調査や分析を通じて、特定ドメインに合わせた調整 手法を評価。 結果 LLMのドメイン専門化が有効であり、実際の応用での障害 を減少させる可能性を示唆。
  484. ExpertPrompting: 大規模言語モデルを卓 越した専門家に指導する ExpertPrompting: Instructing Large Language Models to be

    Distinguished Experts Benfeng Xu and An Yang and Junyang Lin and Quang Wang and Chang Zhou and Yongdong Zhang and Zhendong Mao 背景 大規模言語モデル( LLM)は、適切なプロンプト作成で回 答品質が向上します。 目的 LLMに卓越した専門家として回答させるための手法の開 発。 提案 In-Context Learningを用い、専門家背景に基づいたプロ ンプトを自動生成。 評価 GPT4を使い、 ExpertLLaMAの専門データの質を評価し ました。 結果 ExpertLLaMAは ChatGPTの 96%の性能を達成し、高品 質です。
  485. CLIN: 迅速なタスク適応と一般化のための継 続的学習言語エージェント CLIN: A Continually Learning Language Agent for

    Rapid Task Adaptation and Generalization Bodhisattwa Prasad Majumder and Bhavana Dalvi and Peter Alexander Jansen and Oyvind Tafjord and Niket Tandon and Li Zhang and Chris Callison-Burch and Peter Clark 背景 言語エージェントは環境との連携で複雑なタスクを実行で きますが、継続的向上は制限されていました。 目的 この研究は、異なる環境とタスクにおいても向上を続ける エージェントを開発することを目的とします。 提案 CLINは、持続的で動的なテキストメモリを用いて、継続 的に学習する言語エージェントを提案します。 評価 CLINは ScienceWorldベンチマークで、同じタスク・環境 での繰り返し試行における性能向上を評価しました。 結果 CLINは、最先端のエージェントを 23ポイント上回り、さ らに新しい環境やタスクに対しても性能改善を実現しました。
  486. 言語モデルは実用的な話者である Language Models are Pragmatic Speakers Khanh Nguyen 背景 言語モデルの思考過程を理解することは、技術の向上に重

    要です。 目的 認知的確率モデルを通じて言語モデルの思考を解明するこ とです。 提案 限定された実用的話者として言語モデルをモデル化しま す。 評価 人間のフィードバックからの強化学習を用いて評価しま す。 結果 速いと遅い思考モデルに似た行動を確認しました。
  487. 知識に基づく対話のための大規模言語モデル を用いたパーソナライズされたプランニング Large Language Models as Source Planner for Personalized

    Knowledge-grounded Dialogue Hongru Wang and Minda Hu and Yang Deng and Rui Wang and Fei Mi and Weichao Wang and Yasheng Wang and Wai-Chung Kwan and Irwin King and Kam-Fai Wong 背景 オープンドメイン対話システムは複数の知識源を必要とす るが、現行システムは依存関係を無視。 目的 複数の知識源を活用し、矛盾を避けた応答生成手法の確 立。 提案 SAFARIフレームワークを提案し、大規模言語モデルの能 力を活用する。 評価 KBPデータセットを用いて、提案手法の効果を実験的に検 証。 結果 SAFARIは一貫した知識強化応答を生成可能であることを 示した。
  488. 生成的人工知能時代における法学教育の変化 と課題 : 中国の経験 Changes and challenges of legal education

    in the era of generative artificial intelligence: Chinese experience Wenyu Wang and Zhilang Xu and Zichun Xu 背景 生成的人工知能が知識伝達を効率化し得るが、独立思考が 阻害される懸念がある。 目的 法学教育における生成 AI活用の軽減策を探り、包括的人材 育成を目指す。 提案 質問力や自己分析能力、基本的法素養を重視する教育を提 案する。 評価 生成 AI導入の教育効果とリスクを考慮した倫理的分析を行 う。 結果 学生は AI時代の課題に対応する包括的能力を確保できると 示唆。
  489. 大規模言語モデルエージェントは人間の信頼 行動をシミュレートできるか? Can Large Language Model Agents Simulate Human Trust

    Behaviors? Chengxing Xie and Canyu Chen and Feiran Jia and Ziyu Ye and Kai Shu and Adel Bibi and Ziniu Hu and Philip H. S. Torr and Bernard Ghanem and G. Li 背景 人間の信頼行動は社会科学で重要であり、モデル化が求め られています。 目的 LLMが人間の信頼行動を再現できるか、その可能性を探る ことです。 提案 Trust Gamesを使い、エージェント信頼を評価し行動整合 性を検証します。 評価 行動経済学の Trust Gamesを用いて、 LLMの信頼行動を分 析しました。 結果 GPT-4が人間と高い行動整合性を示し、信頼行動の再現 が可能と示唆されます。
  490. ProductAgent: 質問明確化を用いた会話型 商品検索エージェントのベンチマーク ProductAgent: Benchmarking Conversational Product Search Agent with

    Asking Clarification Questions Jingheng Ye and Yong Jiang and Xiaobin Wang and Yinghui Li and Yangning Li and Hai-Tao Zheng and Pengjun Xie and Fei Huang 背景 eコマースではユーザーの曖昧なクエリが商品検索の効率 を低下させる。 目的 ユーザーの曖昧なニーズを明確化するエージェントを開発 し、検索精度を高める。 提案 ProductAgentは質問生成と商品特性要約を用いて、ユ ーザーの意図を明瞭化する。 評価 PROCLAREベンチマークを用いて、 LLM駆動シミュレー タでエージェント性能を評価。 結果 ProductAgentは対話を通じて要求を明確化し、検索性能 を向上させた。
  491. アナンシの網に包まれて : 口頭伝承における 生成 AIパーソナライゼーションと VR没入の 影響の解明 Wrapped in Anansi's

    Web: Unweaving the Impacts of Generative-AI Personalization and VR Immersion in Oral Storytelling Ka Hei Carrie Lau and Bhada Yun and Samuel Saruba and Efe Bozkir and Enkelejda Kasneci 背景 口頭伝承は若者にとって重要性が薄れており、現代メディ アがその原因です。 目的 この研究は若者と民話を再結びつけることで、伝統の再生 を目指します。 提案 Anansi the Spider VRにより、ユーザーは物語を個別 に体験し影響を与えることができます。 評価 48名の参加者をもつ 2x2実験により、 VRでのエンゲージ メントや興味の変化を測定しました。 結果 パーソナライゼーションはエンゲージメントと文化的学習 への興味を大幅に向上させました。
  492. エージェントスコープによる超大規模マルチ エージェントシミュレーション Very Large-Scale Multi-Agent Simulation in AgentScope Xuchen Pan

    and Dawei Gao and Yuexiang Xie and Zhewei Wei and Yaliang Li and Bolin Ding and Ji-Rong Wen and Jingren Zhou 背景 既存プラットフォームのスケーラビリティや多様性不足が 大規模シミュレーションの障害です。 目的 超大規模マルチエージェントシミュレーションの効率性と 多様性を向上させることが目的です。 提案 アクターベース分散機構を用いた技術基盤を提案し、環境 の柔軟性を強化しました。 評価 包括的なシミュレーションを行い、提案の効果を示す詳細 な観察と議論を行いました。 結果 提案された拡張機能が大規模シミュレーションへの多大な 可能性を示しました。
  493. FinRobot: 大規模言語モデルを用いた金融ア プリケーションのためのオープンソース AIエ ージェントプラットフォーム FinRobot: An Open-Source AI Agent

    Platform for Financial Applications using Large Language Models Hongyang Yang and Boyu Zhang and Neng Wang and Cheng Guo and Xiaoli Zhang and Likun Lin and Junlin Wang and Tianyu Zhou and Mao Guan and Runjia Zhang and Chris Wang 背景 大規模言語モデルの導入と既存のデータや知識の壁が金融 と AIの連携を妨害しています。 目的 金融専門の LLMベースのツールチェーンを民主化し、広範 な AI活用を推進します。 提案 FinRobotというオープンソースプラットフォームを介 し、 LLMを活用した AIエージェントを提供します。 評価 仮説検証には、プラットフォーム内部の四つの層を利用し た戦略的構造の評価を行いました。 結果 専門家と一般人のために、金融分析を強化する AI技術の実 践的活用が可能になりました。
  494. ChatGPTを用いたパーソナリティ研究:生 成されたペルソナによるアンケート実施 The use of ChatGPT for personality research: Administering

    questionnaires using generated personas Joost C. F. de Winter and Tom Driessen and Dimitra Dodou 背景 パーソナリティ研究は、伝統的にアンケートに依存し、回 答スタイル偏りなどの制約がある。 目的 ChatGPTを用いてアンケートの代替手法を検証し、研究 に新たな視点を提供する。 提案 ChatGPTを用いて生成したペルソナで BFI-10などのア ンケートを実施する方法。 評価 2000のペルソナを用いて BFI-10や BSSSの回答を比較 し、相関分析を行う。 結果 ペルソナセットによりパーソナリティ構造が変わり、事前 評価の有用性が確認された。
  495. コラボレーション役割を組み込んだ LLMベー スエージェントによるスタンス検出 Stance Detection with Collaborative Role-Infused LLM-Based Agents

    Xiaochong Lan and Chen Gao and Depeng Jin and Yong Li 背景 スタンス検出は、ソーシャルメディアでのコンテンツ分析 で重要です。 目的 暗黙的な見解を推理する挑戦を解決することです。 提案 COLAフレームワークで LLMに異なる役割を持たせた協調 システムです。 評価 アブレーションスタディで役割設計の有効性を検証しまし た。 結果 複数のデータセットで最先端の性能を達成しました。
  496. 実行可能なコードアクションはより良い LLM エージェントを引き出す Executable Code Actions Elicit Better LLM Agents

    Xingyao Wang and Yangyi Chen and Lifan Yuan and Yizhe Zhang and Yunzhu Li and Hao Peng and Heng Ji 背景 大規模言語モデル( LLM)エージェントは、制約されたア クションスペースに縛られているため、柔軟性に欠けていま 目的 LLMエージェントが制約を克服し、柔軟かつ統一されたア クションスペースを提供することを目指しています。 提案 実行可能な Pythonコードを用いて LLMエージェントのア クションを統合する手法( CodeAct)を提案します。 評価 CodeActを 17の LLMで API-Bankと新たなベンチマークで 評価し、性能を分析しました。 結果 CodeActは従来の方法を上回り、最大で 20%の成功率向 上を達成しました。
  497. MetaGPT: マルチエージェント協調のため のメタプログラミングフレームワーク MetaGPT: Meta Programming for A Multi-Agent Collaborative

    Framework Sirui Hong and Mingchen Zhuge and Jonathan Chen and Xiawu Zheng and Yuheng Cheng and Ceyao Zhang and Jinlin Wang and Zili Wang and Steven Ka Shing Yau and Z. Lin and Liyang Zhou and Chenyu Ran and 背景 大規模言語モデルを活用し、自動問題解決に進展がある。 目的 複雑なタスクの論理不整合を解決するため。 提案 MetaGPTはメタプログラミングで人間のワークフローを 組み込む。 評価 ソフトウェア工学ベンチマークで、一貫性のある解決を評 価。 結果 MetaGPTは従来よりも一貫した解決策を生成する。
  498. AI劇場のオスカー : 言語モデルによる役割演 技に関する調査 The Oscars of AI Theater: A

    Survey on Role-Playing with Language Models Nuo Chen and Yang Deng and Jia Li 背景 LLMの発展で、 AIによる役割演技が可能性を広げる。 目的 役割演技の手法を構造化し、研究の指針を提供する。 提案 データ、モデル、エージェントアーキテクチャの包括的分 類を提案。 評価 動的な個人プロファイル管理と高度な一貫性の課題を議 論。 結果 リアルな役割演技の深さと現実感を向上する未来研究を提 案。
  499. 人工的インクルージョンの錯覚 The Illusion of Artificial Inclusion William Agnew and A.

    S. Bergman and Usa Google DeepMind and Jennifer Chien and Mark Díaz and Usa Google Research and Seliem El-Sayed and Shakir Mohamed and Kevin McKee and Jaylen Pittman 背景 生成 AIの進展で人間参加者を AIで代替可能性が論じられ る。 目的 人間参加者の代替がもたらす利点と問題点を評価する。 提案 AIによる人間参加者の代替提案を包括的に調査し評価す る。 評価 置換提案の利点と問題点をスコーピングレビューで詳細に 分析。 結果 人間参加の重要性を再確認し、未来の研究の道を示唆。
  500. AgentsCourt: 法廷討論シミュレーションと 法知識拡張による司法判断エージェントの構 築 AgentsCourt: Building Judicial Decision-Making Agents with

    Court Debate Simulation and Legal Knowledge Augmentation Zhitao He and Pengfei Cao and Chenhao Wang and Zhuoran Jin and Yubo Chen and Jiexin Xu and Huaijun Li and Xiaojian Jiang and Kang Liu and Jun Zhao 背景 自然言語処理の進化で、司法業界の効率が向上している。 目的 複数の司法段階にわたる複雑な意思決定支援を目指す。 提案 AgentsCourtフレームワークで、法廷シミュレーション を通じた意思決定を提案。 評価 広範な実験で、他の方法と比較し優位性を検証。 結果 法令生成で既存手法に比べ、最大 9.1%の F1スコア向上を 実現。
  501. ConnectVR: エージェントベースのインタ ラクティブ VRストーリーを作成するトリガ ーアクションインターフェース ConnectVR: A Trigger-Action Interface for

    Creating Agent-based Interactive VR Stories Mengyu Chen and Marko Peljhan and Misha Sra 背景 VRとビデオゲームの人気増加により、物語体験の需要が 高まっています。 目的 プログラミング経験がないクリエイターのために簡単に物 語を創作する支援を目指します。 提案 ConnectVRというトリガーアクションインターフェース を用いて物語を構築します。 評価 ConnectVRを用いた 15人の予備ワークショップと 2人の 3 週間の詳細研究を実施しました。 結果 ConnectVRは創造性をサポートし、インタラクティブス トーリーの制作を簡素化するという肯定的なフィードバックを
  502. 大規模 LLMベースのエージェントシミュレー ションを用いた動的およびテキストグラフ生 成 Dynamic and Textual Graph Generation Via

    Large-Scale LLM-based Agent Simulation Jiarui Ji and Runlin Lei and Jialing Bi and Zhewei Wei and Yankai Lin and Xuchen Pan and Yaliang Li and Bolin Ding 背景 グラフ生成はコミュニティ構造を捉えにくく、動的生成が 課題です。 目的 人間のインタラクションシミュレーションで、リアルな動 的グラフ生成を実現します。 提案 GraphAgent-Generatorは LLMを使って七つのマクロ 構造を再現します。 評価 ノード分類タスクでテキスト特徴を保持し、評価指標で 31%向上。 結果 最大 100,000ノード生成し、速度が **90.4%**向上しまし た。
  503. 大規模言語モデルにおける空間理解と推論の ためのベンチマーク : PLUGH PLUGH: A Benchmark for Spatial Understanding

    and Reasoning in Large Language Models Alexey Tikhonov 背景 LLMの空間理解は、自然言語処理の課題として重要視され ています。 目的 LLMの空間理解能力を評価するための基準を提供すること が目的です。 提案 5つのタスクを含む PLUGHベンチマークを提案し、空間 推論を評価。 評価 商用およびオープンソースの LLMでの性能を API経由で比 較評価しました。 結果 商用とオープンソースの LLMは、共に改善の余地がありま す。
  504. CoMPosT: LLMシミュレーションのカリカ チュアの特性評価と評価 CoMPosT: Characterizing and Evaluating Caricature in LLM

    Simulations Myra Cheng and Tiziano Piccardi and Diyi Yang 背景 LLMは特定の人口統計の行動をシミュレーションするため に利用されていますが、その質の基準は不明です。 目的 LLMシミュレーションが単純化されステレオタイプを助長 する問題を解決するための方法を提案します。 提案 4次元(文脈、モデル、ペルソナ、トピック)で LLMシミ ュレーションを特性化する CoMPosTフレームワークを提案しま 評価 CoMPosTを使用して、既存事例でカリカチュアの感受性 を個別性と誇張の 2基準で測定しました。 結果 GPT-4による特定の集団や一般的なトピックのシミュレー ションはカリカチュアに敏感であると判明しました。
  505. AgentVerse: マルチエージェント協力と新 興行動の探求を促進する AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent

    Behaviors Weize Chen and Yusheng Su and Jingwei Zuo and Cheng Yang and Chenfei Yuan and Chi-Min Chan and Heyang Yu and Ya-Ting Lu and Yi-Hsin Hung and Cheng Qian and Yujia Qin and Xin Cong and Ruobing Xie and 背景 LLMsによる自律エージェントの向上により、多様なタス クをこなす能力が求められる。 目的 個体間の協力によるタスクの効率向上が本研究の焦点で す。 提案 動的に調整可能なマルチエージェントフレームワークを提 案します。 評価 単一エージェントと比較し、エージェントグループのパフ ォーマンスを実験で検証しました。 結果 マルチエージェントの協調作業が単独より優れていると確 認されました。
  506. 指示をフォローして情報を暴露する : 拡張型 生成システムからの拡張可能なデータ抽出 Follow My Instruction and Spill the

    Beans: Scalable Data Extraction from Retrieval- Augmented Generation Systems Zhenting Qi and Hanlin Zhang and Eric Xing and S. Kakade and Hima Lakkaraju 背景 RAGシステムは外部知識を生かすが、データストアから の情報漏洩が懸念されています。 目的 研究の目的は、指示に従う LMの脆弱性を探り、漏洩リス クを明らかにすることです。 提案 モデルがスケールアップすると、指示によるデータ漏洩が 悪化する脆弱性を指摘します。 評価 RAGモデルでプロンプトインジェクションにより、データ 漏洩がどれだけ発生するかを評価しました。 結果 位置バイアス排除で漏洩リスク低減可能で、効果的な対策 があることを示しました。
  507. 協力か崩壊か: LLMエージェント社会におけ る持続可能な協力の発現 Cooperate or Collapse: Emergence of Sustainable Cooperation

    in a Society of LLM Agents Giorgio Piatti and Zhijing Jin and Max Kleiman-Weiner and Bernhard Scholkopf and Mrinmaya Sachan and Rada Mihalcea 背景 LLMによる安全な意思決定の確保は AIシステムの重要課 題。 目的 LLMの持続可能な協力を達成するメカニズムを解明する。 提案 GovSimは戦略的相互作用と協力的意思決定を研究可能な プラットフォーム。 評価 主要なオープン /クローズド LLMでのシミュレーションで コミュニケーションの重要性を分析。 結果 ユニバーサリゼーションに基づく推論で持続可能な協力が 改善可能。
  508. 新しい農学者 : 言語モデルは作物管理の専門 家である The New Agronomists: Language Models are

    Experts in Crop Management Jing Wu and Zhixin Lai and Suiyao Chen and Ran Tao and Pan Zhao and N. Hovakimyan 背景 作物管理は収量、経済利益、環境持続性を左右する重要な 役割を担っている。 目的 本研究は、既存手法の複雑さを解決し、作物管理を最適化 することを目的とする。 提案 RL、言語モデル、作物シミュレーションを組み合わせた新 しい管理システムを提案。 評価 シミュレーション実験で、複数の評価指標を使用し、フロ リダとサラゴサで検証。 結果 結果として、言語モデルは 49%以上の経済利益向上と環 境影響削減を達成。
  509. MirrorCheck: ビジョンと言語のモデルに対 する効率的な逆攻撃防御 MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

    Samar Fares and Klea Ziu and Toluwani Aremu and N. Durasov and Martin Tak'avc and Pascal Fua and Karthik Nandakumar and Ivan Laptev 背景 ビジョンと言語モデルは敵対的攻撃に弱く、新たな防御策 が必要です。 目的 VLMsに対する効率的な防御の手法を提供することです。 提案 Text-to-Image モデルを使った、 VLMsの敵対的サンプ ル検出法を提案します。 評価 多様なデータセットで実証評価し、画像分類用のベースラ インを超える手法を検証しました。 結果 提案手法は適応攻撃に対して耐性があり、実世界での有効 性を示しています。
  510. 開始生成 : 社会学研究における生成人工知能 の活用 Start Generating: Harnessing Generative Artificial Intelligence

    for Sociological Research Thomas R. Davidson 背景 **生成人工知能 (GAI)**は社会学研究における新たな可能 性を提供。 目的 GAIを用いた社会学研究の手法を効率化し柔軟に活用す る。 提案 DALL·Eや GPT-4を通じて GAIの応用可能性を示す。 評価 テキストと画像モデルを用いた模擬実験を実施。 結果 GAIは社会学研究の手法を補完し、進化させる可能性があ る。
  511. 具現化された LLMエージェントが組織化され たチームで協力を学ぶ Embodied LLM Agents Learn to Cooperate in

    Organized Teams Xudong Guo and Kaixuan Huang and Jiale Liu and Wenhui Fan and Natalia V'elez and Qingyun Wu and Huazheng Wang and Thomas L. Griffiths and Mengdi Wang 背景 LLMは多様なタスクに有用だが、協力には冗長性の問題が ある。 目的 LLMの協力促進と情報冗長性問題解決を目指す。 提案 人間組織を模倣し、プロンプトで構造化された LLMを提 案。 評価 具現化された LLMと人間協力の実験でリーダーシップの影 響を検証。 結果 LLMエージェントのリーダーシップにより効率が向上し た。
  512. "差別的 AI心理学 "とコンテキスト内の価値駆 動型言明の整合の指向 Towards "Differential AI Psychology" and in-context

    Value-driven Statement Alignment with Moral Foundations Theory Simon Münker 背景 最先端の言語モデルは新たなタスクへの適応が不十分で、 課題が残る。 目的 本研究は、言語モデルとモラルファウンデーション理論と の整合性を調査する。 提案 言語モデルを政治的ペルソナに適応させ、合成人口を生成 する手法を提案。 評価 グループ内分散とクロス整合を通じて、モデルとペルソナ 間の違いを分析。 結果 モデルは政治的イデオロギーの表現が困難で、整合には最 適化が必要。
  513. AIによる戦略:ビューティコンテスト実験か らの洞察 Strategizing with AI: Insights from a Beauty Contest

    Experiment Dmitry Dagaev and Sofiia Paklina and Petr Parshakov 背景 ケインズのビューティコンテストは、他者の選択を予測す る行動経済学の重要な実験です。 目的 研究の目的は、 AIが人間の意思決定とどう比較されるかを 検証することです。 提案 研究は GPT-4を使い、異なるプレイヤーグループ間での クラシック実験を再現します。 評価 ラッソ回帰分析で AIと人間の推測能力を比較し、その戦略 的思考を評価しました。 結果 AIの推測は人間よりも戦略的思考に近いと結論付けまし た。
  514. InterIntent: インタラクティブなゲーム文脈 での意図理解を通じて LLMの社会的知性を調 査 InterIntent: Investigating Social Intelligence of

    LLMs via Intention Understanding in an Interactive Game Context Ziyi Liu and Abhishek Anand and Pei Zhou and Jen-tse Huang and Jieyu Zhao 背景 従来の LLMの社会的知性評価法は簡素で静的、より深い分 析が必要。 目的 LLMの意図理解を通じた社会的知性の評価手法開発の重要 性を提示。 提案 InterIntentフレームワークは、ゲーム内での意図操作能 力で LLMを評価します。 評価 意図選択や推測など、 4つのタスクで社会的知性を多面的 に評価。 結果 意図選択は高精度だが、他者意図推測は 20%の差があり課 題。
  515. スマートシティにおける複数車両の派遣とナ ビゲーションのための LLM駆動フレームワー ク An LLM-driven Framework for Multiple-Vehicle Dispatching

    and Navigation in Smart City Landscapes Ruiqing Chen and Wenbin Song and Weiqin Zu and ZiXin Dong and Ze Guo and Fanglei Sun and Zheng Tian and Jun Wang 背景 自律型車両は普及してきたが、利用は断片化されている。 目的 スマートシティでの車両リソースを効率的に統合運用する ことが必要。 提案 LLM駆動の多車両派遣とナビゲーションフレームワーク を提案。 評価 実験により、従来のアルゴリズムと比較して優れた性能を 確認。 結果 スケーラビリティや一般化で優れた成果を示した。
  516. 指示で構築する視覚プログラミングパイプラ イン: InstructPipeの開発 InstructPipe: Building Visual Programming Pipelines with Human

    Instructions Zhongyi Zhou and Jing Jin and Vrushank Phadnis and Xiuxiu Yuan and Jun Jiang and Xun Qian and Jingtao Zhou and Yiyi Huang and Zheng Xu and Yinda Zhang and Kristen Wright and Jason Mayes and Mark Sherwood 背景 視覚プログラミングは初心者にとって難しく、操作が複雑 である。 目的 初心者が視覚プログラミングの作業を効率化できる支援が 重要。 提案 InstructPipeはテキスト指示で MLパイプラインを構築す る AIアシスタントです。 評価 LLMモジュールとコードインタープリターによる技術評価 とユーザー調査を実施。 結果 操作を **81.1%**削減し、ユーザーの創造性を引き出すこ とができた。
  517. テキストから画像モデルにおける暗黙の固定 観念を検出するための言語エージェント Language Agents for Detecting Implicit Stereotypes in Text-to-image

    Models at Scale Qichao Wang and Tian Bian and Yian Yin and Tingyang Xu and Hong Cheng and Helen M. Meng and Zibin Zheng and Liang Chen and Bingzhe Wu 背景 拡散モデル研究の進展に伴い、固定観念が強化される可能 性が無視されている。 目的 テキストから画像モデルにおける固定観念の検出と偏見の 軽減が重要です。 提案 固定観念を検出するための新しいエージェントアーキテク チャを提案します。 評価 オープンテキストデータを使用し、商用製品やオープンソ ースモデルに適用しました。 結果 多くのモデルが固定観念を示し、我々のアプローチの有効 性を確認しました。
  518. エージェントは自発的に社会を形成できる か?生成型マルチエージェントの新しいアー キテクチャを紹介 Can Agents Spontaneously Form a Society? Introducing

    a Novel Architecture for Generative Multi-Agents to Elicit Social Emergence H. Zhang and J. Yin and M. Jiang and C. Su 背景 生成型エージェントは特定のタスクを得意とするが、社会 的相互作用の考察が不足。 目的 エージェントが自発的に社会を形成できるかを検証するた め。 提案 ITCMA-Sアーキテクチャが社会的相互作用をサポート し、有害行動を排除。 評価 サンドボックス環境での自然な社会関係の進化をシミュレ ートし実験。 結果 エージェントがクリークを形成し組織された活動を行う能 力を確認。
  519. LLMのパーソナリティを編集する Editing Personality for LLMs Shengyu Mao and Ningyu Zhang

    and Xiaohan Wang and Meng Wang and Yunzhi Yao and Yong Jiang and Pengjun Xie and Fei Huang and Huajun Chen 背景 LLMの応答が個人のパーソナリティ特性を反映するため、 その編集が重要視されています。 目的 モデルの応答を調整することで、パーソナリティ特性の異 なる側面を探索することが目的です。 提案 Social Psychologyの理論に基づいた新しいベンチマーク データセットを提案します。 評価 実験では、 PersonalityEditを用いたモデルの応答変化 を検証しました。 結果 モデルは異なるパーソナリティ特性を効果的に表現できる ことが示されました。
  520. ICDコーディングのための LLMマルチエージ ェントの探求 Exploring LLM Multi-Agents for ICD Coding Rumeng

    Li and Xun Wang and Hong Yu 背景 LLMsは ICDコードの高次元性と偏った分布により不正確 な予測を生成する課題がある。 目的 本研究は、 ICDコーディングにおける不正確性と解釈性の 不足を解決する。 提案 実世界の ICDコーディング割り当てを模倣するマルチエー ジェントアプローチを提案。 評価 MIMIC-IIIデータセットを用いて新手法と他の方式を比較 評価した。 結果 新手法は一般的およびまれな ICDコードにおいて最先端技 術を上回る結果を得た。
  521. ドラマエンジン : ナラティブエージェントの ためのフレームワーク Drama Engine: A Framework for Narrative

    Agents M. Pichlmair and Riddhi Raj and Charlene Putney 背景 大規模言語モデルを利用したナラティブエージェントのイ ンタラクション改善が求められています。 目的 エージェント間およびユーザーとの動的かつ文脈的な相互 作用の実現を目指します。 提案 ドラマエンジンは、多エージェントワークフローや動的プ ロンプト組立を可能にします。 評価 システムアーキテクチャやプロンプト組立過程、委任メカ ニズムについて議論します。 結果 コンパニオン開発や倫理的考慮などの課題と将来の拡張を 示唆しています。
  522. LLMエージェントの計画理解 : 調査 Understanding the planning of LLM agents: A

    survey Xu Huang and Weiwen Liu and Xiaolong Chen and Xingmei Wang and Hao Wang and Defu Lian and Yasheng Wang and Ruiming Tang and Enhong Chen 背景 **大規模言語モデル( LLM) **は自律型エージェントとし ての計画能力で注目されています。 目的 研究の目的は、 LLMを用いたエージェント計画の現状を 体系的に理解することです。 提案 研究はタスク分解、プラン選択、外部モジュール、反省と 記憶の視点で分類します。 評価 各分類方向について包括的な分析を行い、今後の研究課題 についても検討します。 結果 研究により、 LLMエージェントの計画能力向上の可能性 と課題が示されました。
  523. シミュレートされた人間社会で社会的に一致 する言語モデルの訓練 Training Socially Aligned Language Models in Simulated Human

    Society Ruibo Liu and Ruixin Yang and Chenyan Jia and Ge Zhang and Denny Zhou and Andrew M. Dai and Diyi Yang and Soroush Vosoughi 背景 AIの社会的一致は、モデルが人間の価値観に合致するかが 重要です。 目的 社会との価値観の一致を目指した AIの振る舞い改善が目的 です。 提案 AIをシミュレートした社会で訓練し、価値に沿った行動を 促す手法を提案。 評価 AIの振る舞いをシミュレーション社会でテストし、価値観 との対応を分析。 結果 提案手法により、 AIがより社会的文脈に適合する行動が可 能になると示唆。
  524. MegaAgent: 大規模 LLMエージェントシス テムにおける自律的協力の実用的枠組み MegaAgent: A Practical Framework for Autonomous

    Cooperation in Large-Scale LLM Agent Systems Qian Wang and Tianyu Wang and Qinbin Li and Jingsheng Liang and Bingsheng He 背景 LLM駆動のマルチエージェントシステムは現実世界のタス ク対応に提案されているが、自律性と協力が課題。 目的 本研究は、エージェントシステムの自律的な協力を実現 し、拡張性の向上を目的とする。 提案 MegaAgentはタスク要件に応じた動的生成と階層構造を 用いた自律的システム管理を提案。 評価 五目並べと国家政策シミュレーションを通じて、性能向上 と拡張性の評価を行った。 結果 MegaAgentは既存システムを上回り、 590エージェント に迅速にスケールする自律性を示した。
  525. パーソナライズされた文脈的クエリ提案のた めの知識拡張型大規模言語モデル Knowledge-Augmented Large Language Models for Personalized Contextual Query

    Suggestion Jinheon Baek and N. Chandrasekaran and Silviu Cucerzan and Allen Herring and S. Jauhar 背景 ウェブ検索のパーソナライズは、ユーザーの達成目標や知 識を理解することで効果が向上します。 目的 ユーザーの知識と嗜好に基づいた文脈的クエリ提案の向上 を目指します。 提案 ユーザーの検索履歴から知識ストアを構築し、 LLMのアウ トプットをパーソナライズします。 評価 ヒューマン評価に基づく実験により、他のベースラインと 比較した提案手法の性能を検証しました。 結果 提案手法は、より関連性が高くパーソナライズされたクエ リを生成できると示されました。
  526. 都市計画におけるマルチ生成エージェントの 集団意思決定:ケンドールスクエア改修のケ ーススタディ Multi-Generative Agent Collective Decision-Making in Urban Planning:

    A Case Study for Kendall Square Renovation Jin Gao and Hanyong Xu and Luc Dao 背景 都市計画におけるコミュニティ意思決定は複雑で、技術的 支援が求められている。 目的 AIを用いてコミュニティの複雑な意思決定プロセスを理解 すること。 提案 多世代生成型エージェントシステムで地域住民の意思決定 をシミュレートする手法。 評価 エージェント間の通信と人口統計・ライフバリューを変数 とするシミュレーション。 結果 通信は推論を改善し、人口統計とライフバリューで意見の 多様性が示された。
  527. ペルソナからパーソナライゼーションへ : 役 割演技言語エージェントに関する調査 From Persona to Personalization: A Survey

    on Role-Playing Language Agents Jiangjie Chen and Xintao Wang and Rui Xu and Siyu Yuan and Yikai Zhang and Wei Shi and Jian Xie and Shuang Li and Ruihan Yang and Tinghui Zhu and Aili Chen and Nianqi Li and Lida Chen and Caiyu Hu and Siye 背景 最近の LLMsの進展により、 RPLAsの適用が増加し、多様 な AI応用が可能になった。 目的 RPLAsの進化を整理し、人間と RPLAの共存の未来を目指 す。 提案 デモグラフィック、キャラクター、インディビジュアライ ズドの三種類のペルソナに分けて調査。 評価 各ペルソナタイプのデータソーシングとエージェント構 築、評価を詳細に分析。 結果 RPLAsの現在の進展と将来の可能性を示し、研究の土台を 構築した。
  528. AgentGroupChat: 対話型グループチャッ トシミュレーションによる行動の誘発 AgentGroupChat: An Interactive Group Chat Simulacra For

    Better Eliciting Emergent Behavior Zhouhong Gu and Xiaoxuan Zhu and Haoran Guo and Lin Zhang and Yin Cai and Hao Shen and Jiangjie Chen and Zheyu Ye and Yifei Dai and Yan Gao and Yao Hu and Hongwei Feng and Yanghua Xiao 背景 言語は人間の集団知能形成で重要であり、その影響を動的 なシナリオで研究する必要があります。 目的 この研究は、言語が集団行動に与える影響を動的シナリオ で探究することを目的としています。 提案 AgentGroupChatにおいて言語の役割を探るインタラク ティブシミュレーションを提案します。 評価 エージェントの行動が人間の期待と一致し、創発行動が出 現するかを検証しました。 結果 広範な情報交換、多様なキャラクター、高い言語理解が創 発行動を促進しました。
  529. 対話の基盤形成 : 基盤行為と基盤単位のアノ テーションと分析 Conversational Grounding: Annotation and Analysis of

    Grounding Acts and Grounding Units Biswesh Mohapatra and Seemab Hassan and Laurent Romary and Justine Cassell 背景 対話の基盤形成は、成功する会話に不可欠なプロセスで す。 目的 対話システムの基盤能力向上のため、現状を分析します。 提案 2つの対話コーパスに基盤行為と基盤単位をアノテーショ ンしました。 評価 現在の言語モデルの基盤行為の分類性能を評価する基準モ デルを提供しました。 結果 我々の研究が、対話の理解と信頼性向上に役立つリソース を提供します。
  530. 物語パズルゲームの難易度を調整するための 規則の手続き的生成 Procedurally generating rules to adapt difficulty for narrative

    puzzle games T. Volden and Djordje Grbic and Paolo Burelli 背景 幼児向けの教育ゲームで、適応可能な難易度調整が重要視 されています。 目的 物語パズルゲームの難易度を、動的に調整する方法を開発 することが目的です。 提案 遺伝的アルゴリズムと大規模言語モデルで難易度調整の規 則を生成します。 評価 難易度調整の正確さを、平均すると二十数世代で確認しま した。 結果 目標難易度に近い規則を生成し、プレイヤー体験を向上す る可能性があります。
  531. Promptbreeder: プロンプト進化による自 己参照的自己改善 Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution Chrisantha

    Fernando and Dylan Banarse and H. Michalewski and Simon Osindero and Tim Rocktäschel 背景 効果的なプロンプト戦略が LLMの推論能力を高めるため 重要である。 目的 最適化されたプロンプト戦略開発の自動化を目指す。 提案 Promptbreederはプロンプトの進化と適応を実現する自己 改善メカニズムを提案。 評価 評価方法は、タスクプロンプトの変異による適合性試験を 用いる。 結果 Promptbreederは他の手法を上回り、特にヘイトスピーチ 分類で有効性を示した。
  532. RCAgent: 自律エージェントによるクラウド の根本原因分析とツール拡張大規模言語モデ ル RCAgent: Cloud Root Cause Analysis by

    Autonomous Agents with Tool- Augmented Large Language Models Zefan Wang and Zichuan Liu and Yingying Zhang and Aoxiao Zhong and Lunting Fan and Lingfei Wu and Qingsong Wen 背景 クラウドサービスでの根本原因分析が注目されているが、 手動設定が主流で限界がある。 目的 大規模言語モデルを活用し、自律的かつプライバシーに配 慮した根本原因分析を実現する。 提案 RCAgentは、ツールで拡張された自律エージェントフレー ムワークを開発し、効率的な分析を行う。 評価 独自の自己整合性を持つ行動軌道など複数の強化手法で RCAgentの性能を強化。 結果 RCAgentは ReActを超える性能を示し、実際のプラット フォームにも統合済み。
  533. テキストから地図へ : 因果ループ図を構築す るシステムダイナミクスボット From Text to Map: A System

    Dynamics Bot for Constructing Causal Loop Diagrams Niyousha Hosseinichimeh and A. Majumdar and Ross Williams and Navid Ghaffarzadegan 背景 因果ループ図作成は複雑で時間がかかるプロセスで、効率 化が求められています。 目的 テキストデータから自動で因果ループ図を生成し、モデル 構築を効率化することです。 提案 システムダイナミクスボットを用い、テキストデータから 因果ループ図を自動生成します。 評価 20の因果ループ図と 30人の参加者のデータでパフォーマ ンスを評価しました。 結果 約 60%の精度で変数間リンクとフィードバックループを正 確に特定しました。
  534. AIに関連する誤導認識の AIVRへの利用 AI-Related Misdirection Awareness In AIVR Nadisha-Marie Aliman and

    Leon Kester 背景 AIと VRの進展により、倫理的・知識的課題が浮上し解決 が求められています。 目的 AIの誤導に対抗するため、人間の認識能力を高める手法を 提案します。 提案 魔術の心理学と創造性研究を基にした AIVRで誤導認識を 向上します。 評価 魔術と創造性の研究結果をモデルに活用し、理論的に評価 しました。 結果 AI関連の誤導認識を強化するための AIVRの可能性を示唆 します。
  535. 人間と AIの安全性 : 生成 AIと制御システム安 全の子孫 Human-AI Safety: A Descendant

    of Generative AI and Control Systems Safety Andrea V. Bajcsy and J. Fisac 背景 未曾有の規模で AIが人々と交互作用し、危害の懸念が高ま っています。 目的 人間と AIの相互作用が安全な結果を導く保証を提供するこ と。 提案 安全クリティカルな人間 --AIインタラクションを捉える形 式論を紹介します。 評価 提案した枠組みに基づいた次世代の AI安全性への技術的ロ ードマップを示します。 結果 人間中心の AI安全性に向けての具体的な進展を提案しまし た。
  536. Retroformer: ポリシー勾配最適化による回 顧的な大規模言語エージェント Retroformer: Retrospective Large Language Agents with Policy

    Gradient Optimization Weiran Yao and Shelby Heinecke and Juan Carlos Niebles and Zhiwei Liu and Yihao Feng and Le Xue and Rithesh Murthy and Zeyuan Chen and Jianguo Zhang and Devansh Arpit and Ran Xu and P. Mùi and Haiquan 背景 近年、大規模言語モデルが自律的な言語エージェントとし て進化しつつある。 目的 環境に応じた報酬を活用した言語エージェントの最適化を 目指す。 提案 ポリシー勾配を用いて言語エージェントのプロンプトを強 化する。 評価 さまざまなタスクでの実験を通じてモデルの性能向上を評 価。 結果 提案手法は従来手法を超え、時間とともに改善を示した。
  537. ロボティクスにおける言語ベースのコミュニ ケーションに関する調査 A Survey of Language-Based Communication in Robotics William

    Hunt and Sarvapali D. Ramchurn and Mohammad Divband Soorati 背景 ロボットが環境と相互作用可能であることが AI開発の一例 として重要になっている。 目的 ロボットシステムでの言語モデルの利用を理解し促進する こと。 提案 ロボットと人間、ロボット同士、内部計画に言語を組込み 利用する方法を調査。 評価 さまざまな言語モデルの利用シナリオの制約と課題を議論 し分析した。 結果 言語ベースのロボティクスの将来発展に必要な方向性の概 要を示した。
  538. 大規模言語モデルを利用したインテリジェン ト製造フロア向けマルチエージェント製造シ ステム A Large Language Model-based multi-agent manufacturing system

    for intelligent shopfloor Zhen Zhao and Dunbing Tang and Haihua Zhu and Zequn Zhang and Kai Chen and Changchun Liu and Yuchen Ji 背景 生産の多様化により、従来の製造システムは即応性が不足 している。 目的 マルチバラエティ小ロット生産に迅速に対応できるシステ ム開発が目的。 提案 大規模言語モデルを組み込んだマルチエージェント製造シ ステムを提案。 評価 比較実験により、システムの性能評価を実施。 結果 新システムが他のスケジューリング手法に比べて優れてい ることが確認された。
  539. 自己対話による LLMベースのタスク指向型対 話エージェントのブートストラップ Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk

    Dennis Ulmer and Elman Mansimov and Kaixiang Lin and Justin Sun and Xibin Gao and Yi Zhang 背景 LLMを特定のタスクに特化させるのは困難で、特にワーク フローに従う場合はデータコストが問題です。 目的 自己対話を用いたデータ生成で、対話品質向上を図りま す。 提案 LLMにさまざまな役割を持たせ、 self-talkでトレーニン グデータを生成します。 評価 生成データの品質を自動評価と人間評価で測定し、フィル ターリングを行います。 結果 自己対話データの使用で対話品質が改善されることを確認 しました。
  540. 大規模言語モデルを活用した集団意思決定 Leveraging Large Language Models for Collective Decision-Making Marios Papachristou

    and Longqi Yang and Chin-Chia Hsu 背景 集団意思決定は個々の好みの差異や力学により困難とな る。 目的 LLMを用いたシステムで集団意思決定の効率を向上させ る。 提案 LLMによる会話管理で好みを抽出し最適オプションを提 案する。 評価 合成プロファイルのシミュレーションでシステム性能を評 価した。 結果 メンバーの好みを多く満たし効率的な調整を確認。
  541. SurrealDriver: 大規模言語モデルに基づく 都市環境での生成的運転エージェントシミュ レーションフレームワークの設計 SurrealDriver: Designing Generative Driver Agent Simulation

    Framework in Urban Contexts based on Large Language Model Ye Jin and Xiaoxi Shen and Huiling Peng and Xiaoan Liu and Jin Qin and Jiayang Li and Jintao Xie and Peizhong Gao and Guyue Zhou and Jiangtao Gong 背景 自動運転のシミュレーションにおいて、現実性と多様性が 不足している。 目的 現行のプラットフォームで再現困難な、現実的な運転動作 をシミュレーションする。 提案 LLMを用いた運転エージェントの生成的シミュレーショ ンフレームワークを提案。 評価 運転行動の詳細記述とユーザー実験を用いてフレームワー クの妥当性を検証。 結果 フレームワークにより衝突率 **81.04%減少、人間らしさ が 50%**増加。
  542. ロボティクスのための大規模言語モデル :機 会、課題、視点 Large Language Models for Robotics: Opportunities, Challenges,

    and Perspectives Jiaqi Wang and Zihao Wu and Yiwei Li and Hanqi Jiang and Peng Shu and Enze Shi and Huawen Hu and Chong-Yi Ma and Yi-Hsueh Liu and Xuhui Wang and Yincheng Yao and Xuan Liu and Huaqin Zhao and Zheng 背景 大規模言語モデル( LLM)はロボットタスクに統合さ れ、言語理解能力が活用されています。 目的 具現化されたタスクにおけるロボットの視覚認識とテキス ト LLMの互換性の向上を目的とします。 提案 マルチモーダル GPT-4Vを利用することで、ロボットの タスクプランニングを強化するフレームワークを提案します。 評価 多様なデータセットを用いて評価し、 LLMとマルチモーダ ル LLMの能力を検証しました。 結果 GPT-4Vは具現化されたタスクにおけるロボット性能を 向上させることが示されました。
  543. GenAINet: 知識の転送と推論による無線コ レクティブインテリジェンスの実現 GenAINet: Enabling Wireless Collective Intelligence via Knowledge

    Transfer and Reasoning Han Zou and Qiyang Zhao and Lina Bariah and Yu Tian and M. Bennis and S. Lasaulce and M. Debbah and Faouzi Bader 背景 6Gでは無線ネットワークと GenAIの統合が新たな可能性 を提供します。 目的 無線ネットワークでコレクティブインテリジェンスを可能 にすることが目標です。 提案 GenAINetフレームワークを提案し、知識の転送と推論を 強化します。 評価 無線デバイスクエリと電力制御のケーススタディを実施し ました。 結果 知識転送により、効率的な通信と優れた意思決定が達成さ れました。
  544. 感情と生理反応の記録に基づく新しいファウ ンデーションモデル A New Type of Foundation Model Based on

    Recordings of People's Emotions and Physiology David Gamez and Dionis Barcari and Aliya Grig 背景 従来のチャットボットは感情や生理反応を考慮せず、表面 的な模倣にとどまっています。 目的 感情と生理反応に基づくモデルを構築し、その重要性を探 索します。 提案 ファーストパーソンモデルを新たに提案し、環境刺激との 関係を分析します。 評価 独自の装置でデータを収集し、トレーニングデータとして 利用します。 結果 データ不足の問題を解決し、多様な応用の可能性を示しま した。
  545. 大規模言語モデルとエージェントベースモデ リングの交差をプロンプトエンジニアリング を通じて探求 Exploring the Intersection of Large Language Models

    and Agent-Based Modeling via Prompt Engineering Edward Junprung 背景 エージェントベースモデリングは人間の複雑な行動を正確 に表現できない。 目的 本研究は LLMを用いて人間主導の相互作用をより忠実に シミュレートすることを目指す。 提案 プロンプトエンジニアリングによって信頼性ある人間行動 のシミュレーションを提案する。 評価 2エージェント交渉と 6エージェントミステリーゲームを シミュレーションした。 結果 LLMは複雑な人間の相互作用のシミュレーションにおいて 有望であることを示した。
  546. LLMの影響 : 個人特性の言語的指標への影響 Secret Keepers: The Impact of LLMs on

    Linguistic Markers of Personal Traits Zhivar Sourati and Meltem Ozcan and Colin McDaniel and Alireza S. Ziabari and Nuan Wen and Ala Nekouvaght Tak and Fred Morstatter and Morteza Dehghani 背景 LLMの普及で文筆者の言語パターンが個人特性を示す力 の変動が注目されています。 目的 LLMが関与した場合でも著者の言語パターンが個人特性 を予測できるかを検証します。 提案 LLM使用が言語的指標の予測力をわずかに低減するが、 完全には損なわないことを示します。 評価 GPT3.5、 Llama 2、 Geminiで性別、年齢等 6特性に関す る文献分析を行いました。 結果 一部の理論上の言語指標は LLM使用で信頼性を失うが、 全体の予測力は保持されます。
  547. 大規模言語モデルを用いた人間社会のシミュ レーション : 都市、ソーシャルメディア、経 済システム Simulating Human Society with Large

    Language Model Agents: City, Social Media, and Economic System Chen Gao and Fengli Xu and Xu Chen and Xiang Wang and Xiangnan He and Yong Li 背景 大規模言語モデルを用いて人間社会の複雑な動態をシミュ レートすることが求められています。 目的 LLMを社会シミュレーションに統合し、正確な意思決定や 相互作用を実現することです。 提案 LLMエージェントを活用して、都市やソーシャルメディア を含む社会システムを再現します。 評価 参加者はチュートリアルを通じて、 LLMの社会統合に関す る実践的な知識を得ることができます。 結果 LLMが人間の相互作用をシミュレート可能であることを示 し、社会的理解が深まります。
  548. 観光における AI生成実験の理解 : GPTシミュ レーションによる再現 Understanding AI-Generated Experiments in Tourism:

    Replications Using GPT Simulations Xiling Xiong and I. Wong and G. Huang and Yixuan Peng 背景 観光研究における従来の手法に限界があり、 AI生成の研究 手法の必要性が高まっています。 目的 GPTを用いて観光研究の実証結果を補完し、新たな研究 手法を検討します。 提案 観光研究のシナリオ実験に GPTを活用した AI生成研究を提 案します。 評価 OpenAIの Python APIを用いて GPT-3.5-turboと対話 し、既存研究の検証を行いました。 結果 GPT生成の結果は予備的なもので、人間の参加者データ で裏付けが必要です。
  549. 基盤モデルの自動運転への展望 Prospective Role of Foundation Models in Advancing Autonomous Vehicles

    Jianhua Wu and B. Gao and Jincheng Gao and Jianhao Yu and Hongqing Chu and Qiankun Yu and Xun Gong and Yi Chang and H. E. Tseng and Hong Chen and Jie Chen 背景 人工知能と深層学習の進展により、基盤モデルが様々な分 野で進化。 目的 基盤モデルを用いて自動運転の安全性を向上することが目 的。 提案 基盤モデルは運転シーンの理解と推論を強化し、長尾分布 に対応。 評価 世界モデルを通じた未見環境の生成と認知的推論の強化を 評価。 結果 基盤モデルが自動運転の精度と信頼性の向上に寄与。
  550. TrainerAgent: カスタマイズ可能で効率的 なモデル訓練を LLM駆動のマルチエージェン トシステムで実現 TrainerAgent: Customizable and Efficient Model

    Training through LLM-Powered Multi-Agent System Haoyuan Li and Hao Jiang and Tianke Zhang and Zhelun Yu and Aoxiong Yin and Hao Cheng and Siming Fu and Yuhao Zhang and Wanggui He 背景 AIモデルのカスタマイズは専門家でないと難しく、特にビ ジネス目的では時間がかかる。 目的 効率的で高品質なカスタムモデル開発を実現することが重 要である。 提案 TrainerAgentシステムはタスク、データ等を分析し、効 率的にモデルを最適化する。 評価 視覚と言語分野のタスクでシステムの性能を実験的に評価 し、有効性を確認した。 結果 モデルが基準を満たし、達成不可能なタスクを識別・拒否 する能力を示した。
  551. 粒子加速器におけるエージェント AIの実現に 向けて Towards Agentic AI on Particle Accelerators Antonin

    Sulc and Thorsten Hellert and Raimund Kammering and Hayden Houscher and Jason St. John 背景 粒子加速器の複雑化により、従来の制御方法の限界が顕著 化しています。 目的 最適性能を達成するために、新しい分散型制御モデルを開 発する。 提案 LLMを活用した自律エージェントによる分散制御フレー ムワークを提案。 評価 2つの実例を示し、アーキテクチャの実現可能性を検証し ました。 結果 提案したアーキテクチャの有効性を証明しました。
  552. LLMディスカッション : ディスカッションフ レームワークとロールプレイによる大規模言 語モデルの創造性向上 LLM Discussion: Enhancing the Creativity

    of Large Language Models via Discussion Framework and Role-Play Li-Chun Lu and Shou-Jen Chen and Tsung-Min Pai and Chan-Hung Yu and Hung-yi Lee and Shao-Hua Sun 背景 LLMsは自然言語処理において優れているが、創造性に欠 けることが問題です。 目的 異なる視点を取り入れた集団的創造性の向上を目指してい ます。 提案 3段階のディスカッションフレームワークとロールプレイ を導入しました。 評価 Alternative Uses Testなどのテストでフレームワーク の効果を評価しました。 結果 提案フレームワークは既存手法を上回る創造性を示しまし た。
  553. MatPlotAgent: LLMベースのエージェント による科学的データの視覚化の方法と評価 MatPlotAgent: Method and Evaluation for LLM-Based Agentic

    Scientific Data Visualization Zhiyu Yang and Zihan Zhou and Shuo Wang and Xin Cong and Xu Han and Yukun Yan and Zhenghao Liu and Zhixing Tan and Pengyuan Liu and Dong Yu and Zhiyuan Liu and Xiaodong Shi and Maosong Sun 背景 科学的データの視覚化は複雑な情報の理解を助け、重要で すが LLM活用は未開拓。 目的 LLMを用いた科学データ視覚化の自動化の実現を目指しま す。 提案 MatPlotAgentを提案し、効率的な LLMエージェントで 視覚化タスクを自動化します。 評価 MatPlotBenchベンチマークでの評価と GPT-4Vによる 自動スコアリングを使用。 結果 MatPlotAgentは LLMの性能を向上させ、評価法は人間ス コアと高い相関。
  554. マルチエージェント、人間 -エージェント、 その先へ : 社会的ジレンマにおける協力に関 する調査 Multi-Agent, Human-Agent and Beyond:

    A Survey on Cooperation in Social Dilemmas Hao Guo and Chunjiang Mu and Yang Chen and Chen Shen and Shuyue Hu and Zhen Wang 背景 社会的ジレンマにおける協力は、 AIの進展により新たな知 見を得て重要性を増している。 目的 AIを活用して、エージェント間や人間との協力を最適化す るための手法を調査する。 提案 AIと協力の交差点にある 3つの領域、特に多エージェント と人間 -エージェントの協力を探索する。 評価 AIと社会的ジレンマに関する既存研究をレビューし、新た な理論的枠組みや応用可能性を議論する。 結果 AI技術は、協力の理解と強化で多くの実世界応用があり、 理論的進展を促進する。
  555. あなたのモデルを低共感や温かさの低い人に する要因は何か : LLMの人格の起源を探る What makes your model a low-empathy

    or warmth person: Exploring the Origins of Personality in LLMs Shu Yang and Shenzhe Zhu and Ruoxuan Bao and Liang Liu and Yu Cheng and Lijie Hu and Mengdi Li and Di Wang 背景 大規模言語モデルがヒトのような性格を示すようになった が、そのメカニズムは未解明。 目的 LLMの性格特性がどのようにして形成されるのかを明らか にすること。 提案 モデルの出力を制御する際に、背景要因と短期的圧力の相 互作用を利用。 評価 背景要因と圧力がモデル特性に及ぼす影響を、追加のファ インチューニングなしで検証。 結果 背景要因と圧力が LLMの性格特性を形成し、安全性にも影 響を与える。
  556. Mora: 汎用ビデオ生成を可能にするマルチエ ージェントフレームワーク Mora: Enabling Generalist Video Generation via A

    Multi-Agent Framework Zhengqing Yuan and Ruoxi Chen and Zhaoxu Li and Haolong Jia and Lifang He and Chi Wang and Lichao Sun 背景 テキストからビデオ生成は進歩したが、高性能システムの 再現が難しい。 目的 エージェントの協調やデータ質の問題を解決し、 Soraのよ うな性能を目指す。 提案 Moraは、マルチエージェントフレームワークを使い、 Soraの機能をオープンソースで再現する。 評価 六つのビデオ生成タスクで包括的な実験を行い、性能を検 証する。 結果 Moraは Dynamic Degreeスコア 1.00を達成し、 Soraを 超える品質を示した。
  557. 創造的で協力的な役割遊びを促すための幼児 向けストーリー設計 Designing Stories to Inspire Preschoolers’ Creative, Collaborative Roleplay

    F. Currin and Kyle Diederich and L. Pantoja and Hannah Cargo and Noelle Franzone and Josephine Geiger-Lee and J. Hourcade 背景 幼児のメディア使用は社会的遊びに影響し、発達に重要な 役割を果たす。 目的 遊びを促進するためのメディアにおける必要性を明らかに すること。 提案 バランスの取れたキャラクター設計とステレオタイプへの 対策を提案。 評価 プロジェクトを通して得たベストプラクティスと教訓を紹 介。 結果 成果は他者がコンテンツ制作に利用できる抽象化の提供に 貢献する。
  558. URLとウェブページを用いた自動フィッシン グ検出 Automated Phishing Detection Using URLs and Webpages Huilin

    Wang and Bryan Hooi 背景 フィッシング攻撃はデータ漏洩や財務損失につながる深刻 な問題です。 目的 大規模言語モデルを活用し、より正確なフィッシング検出 を目指します。 提案 LLMエージェントフレームワークを導入し、動的な参照 システムを提供します。 評価 シミュレーションと実験によって、提案手法の性能を他の 手法と比較しました。 結果 提案手法は 0.945の精度で既存手法を 0.445上回る結果を 示しました。
  559. ゲーム環境での動的意思決定のための GOAP を用いた生成 AI Generative AI with GOAP for Fast-Paced

    Dynamic Decision-Making in Game Environments Tiger Shan and Kay Michel 背景 LLMの応答遅延がゲームでの動的意思決定を難しくして います。 目的 GOAPと LLMを組み合わせて、迅速かつ効果的な意思決定 を実現します。 提案 GOAPを利用し、エージェントの戦略的思考とリアルタイ ム意思決定を支援します。 評価 GOAPを用いて、戦略的意思決定の迅速化を実験で検証し ました。 結果 ユーザーのゲーム体験の向上が示され、提案手法の有効性 が確認されました。
  560. 人間のように運転する指示を与える大規模言 語モデル Instruct Large Language Models to Drive like Humans

    Ruijun Zhang and Xianda Guo and Wenzhao Zheng and Chenming Zhang and Kurt Keutzer and Long Chen 背景 自動運転における動きの計画は、複雑なシナリオでの核心 的課題です。 目的 LLMが人間の運転論理を学習するかを明らかにすることで す。 提案 人間の論理に基づく指示データを用いる InstructDriver 法を提案します。 評価 実世界の nuPlanベンチマークで手法を評価しました。 結果 LLMプランナーが実世界閉ループで有効であることを示し ました。
  561. 基盤モデルベースの AIシステムのための分散 型ガバナンス:責任ある AIにおけるブロック チェーンの役割の探究 Decentralised Governance for Foundation Model

    based AI Systems: Exploring the Role of Blockchain in Responsible AI Yue Liu and Qinghua Lu and Liming Zhu and Hye-Young Paik 背景 基盤モデルの AIシステムは、倫理と透明性に関する課題を 生んでいます。 目的 この研究は、 AIの透明性と信頼性を高めるための分散型ガ バナンスを追求します。 提案 ブロックチェーン技術を利用した分散型ガバナンスモデル を提案します。 評価 ガバナンスの効果を、シミュレーションとケーススタディ で評価しました。 結果 結果、分散型アプローチが透明性と責任を効果的に提供す ることを示しました。
  562. Chatlang: 言語学習用チャットボットのた めのツーウィンドウアプローチ Chatlang: A Two-Window Approach to Chatbots for

    Language Learning Sheng Yu and Jared R Coleman and Bhaskar Krishnamachari 背景 多くの学習者がより効率的な言語学習を求めています。 目的 言語学習者がより効果的に学習を進められる方法を提案し ます。 提案 ツーウィンドウ方式のチャットボットで学習者を支援しま す。 評価 ユーザーテストを通してチャットボットの有効性を評価し ました。 結果 学習体験の向上に明確な効果が確認されました。
  563. 生成モデルのストーリーシミュラクラム:大 規模言語モデルを質的研究参加者として検討 'Simulacrum of Stories': Examining Large Language Models as

    Qualitative Research Participants Shivani Kapania and William Agnew and Motahhare Eslami and Hoda Heidari and Sarah E Fox 背景 生成モデルは、調査や実験を自動化する可能性を秘めてお り、労働削減が求められています。 目的 質的研究における参加者の役割を、 LLMで代替することの 妥当性を評価します。 提案 LLMが生成するデータは代理効果を生み出すが、倫理的問 題を含むリスクがあります。 評価 19人の質的研究者にインタビューを行い、 LLMの有効性 と限界を分析しました。 結果 LLMは質的研究としての深みを欠き、倫理的課題を提起す ることが示されました。
  564. 言語モデルにおける拒否は単一の方向で仲介 される Refusal in Language Models Is Mediated by a

    Single Direction Andy Arditi and Oscar Obeso and Aaquib Syed and Daniel Paleka and Nina Rimsky and Wes Gurnee and Neel Nanda 背景 言語モデルの安全性は重要だが、拒否のメカニズム理解が 不十分である。 目的 拒否行動を制御する方法を見つけ、モデルの安全性向上を 目指す。 提案 拒否を引き起こす単一の方向を特定し、それを利用して制 御する手法を提案。 評価 13のオープンソースチャットモデルを用いて、特徴方向 の影響を分析した。 結果 モデルの拒否行動は一方向で制御可能で、安全性微調整の 脆弱性を確認。
  565. GPT-4は賢すぎて安全ではない:暗号を用 いた LLMチャット GPT-4 Is Too Smart To Be Safe:

    Stealthy Chat with LLMs via Cipher Youliang Yuan and Wenxiang Jiao and Wenxuan Wang and Jen-tse Huang and Pinjia He and Shuming Shi and Zhaopeng Tu 背景 LLMsの安全性は、自然言語での整合を通じ、人間の倫理 と嗜好に合わせることが重要とされています。 目的 本研究は、 LLMsの安全整合が暗号を用いることで回避で きるかどうかを調べます。 提案 CipherChatは、暗号を用いて LLMsの非自然言語への安全 整合を検証するためのフレームワークです。 評価 ChatGPTや GPT-4を用いて、暗号による安全整合の回避 能力を評価しました。 結果 暗号は安全整合を回避し、 SelfCipherが他の暗号を上回る 結果が示されました。
  566. 人工知能エージェントを用いた工具摩耗の知 的認識 Intelligent Recognition of Tool Wear with Artificial Intelligence

    Agent Jiaming Gao and Han Qiao and Yilei Zhang 背景 工具摩耗の早期検出と管理が生産効率と経済性に直結して います。 目的 AIエージェントによる工具摩耗認識を向上させる方法を探 ります。 提案 **大規模言語モデル( LLM) **を使用した AIエージェント の製造工程への統合です。 評価 AIエージェントの自律性を高める技術とその統合の課題を 議論します。 結果 AIの自律化を促進し、製造プロセスにおける効率化を図り ます。
  567. リハーサル : 対立をシミュレートして対立解 決を教える Rehearsal: Simulating Conflict to Teach Conflict

    Resolution Omar Shaikh and Valentino Chai and Michele J. Gelfand and Diyi Yang and Michael S. Bernstein 背景 対人対立は避けられず、それを円滑に乗り越えるスキルの 取得が重要。 目的 対立解決スキルの練習とフィードバックを提供する、リハ ーサルシステムを提案。 提案 IRP理論に基づいたシミュレーションで、対立を練習し解 決法を学ぶシステム。 評価 参加者が実際に対立を体験し、リハーサルの訓練効果を対 照群と比較した。 結果 リハーサル参加者は協力的戦略が倍増し、競争的戦略の使 用が 67%減少。
  568. 欺瞞検出はさらに深くできるか?データセッ ト、評価、基準 Can Deception Detection Go Deeper? Dataset, Evaluation, and

    Benchmark for Deception Reasoning Kang Chen and Zheng Lian and Haiyang Sun and Bin Liu and Jianhua Tao 背景 欺瞞検出は現実世界で重要であり、正確な判断が求められ る。 目的 主観的判断を補うために、客観的証拠を明示することを目 指す。 提案 欺瞞推論により、事実の不整合と意図を分析する手法を提 案する。 評価 データセット構築と評価基準の定義を行い、手法の有効性 を検証する。 結果 警察の取調べなど、現実シナリオでの活用が期待できる。
  569. オープンモデル、閉じた心?オープン大型言 語モデルを通じたエージェントの人間性模倣 能力について Open Models, Closed Minds? On Agents Capabilities

    in Mimicking Human Personalities through Open Large Language Models Lucio La Cava and Davide Costa and Andrea Tagarelli 背景 LLMsが人間の行動を模倣する能力は NLPと心理学を結び つける。 目的 オープン LLMsにおける人間性模倣能力の評価と確立が目 的。 提案 オープン LLMsエージェントを用いて MBTIと BFIテストで 性格特性を評価。 評価 性格と役割条件のもとで人間性模倣能力を評価する実験を 行った。 結果 各エージェントは異なる性格を示し、一部のみが有効に人 間性を模倣した。
  570. Verif.ai: 参照・検証可能な回答を提供するオ ープンソースの科学的生成型質問応答システ ムに向けて Verif.ai: Towards an Open-Source Scientific Generative

    Question-Answering System with Referenced and Verifiable Answers Milos Kosprdic and Adela Ljajić and Bojana Bašaragin and Darija Medvecki and Nikola Milosevic 背景 科学的な誤認や誤情報を防ぎ、生成言語モデルへの信頼を 高める必要があります。 目的 科学者の生産性向上とともに、信頼できる回答を提供する ことを目指します。 提案 情報検索、生成モデル、検証エンジンを組み合わせたシス テムを提案します。 評価 生成された請求を論文の要約と照合して検証する手法を用 います。 結果 科学環境で生成モデルの信頼性向上と生産性の向上が期待 されます。
  571. IICPilot: オープン EDAを活用したインテリ ジェント ICバックエンドデザインフレームワ ーク IICPilot: An Intelligent Integrated

    Circuit Backend Design Framework Using Open EDA Zesong Jiang and Qing Zhang and Cheng Liu and Huawei Li and Xiaowei Li 背景 オープンソース EDAツールの複雑さが普及の障壁となって いる。 目的 EDAツールの複雑さを軽減し普及を促進する。 提案 IICPilotはデザイン自動化を通じてバックエンド設計を簡 素化する。 評価 LangChainのマルチエージェントでデザインタスクを効率 化した。 結果 IICPilotは EDAツールの利用障壁を大幅に低減した。
  572. Attachmentを探索する試み : LLMを用いた 大人の絆の予測 Chatting Up Attachment: Using LLMs to

    Predict Adult Bonds Paulo Soares and Sean McCurdy and Andrew J. Gerber and Peter Fonagy 背景 医療分野でのデータ取得は難しく、 AI導入が遅れている。 目的 AI技術で医療分野の合成データ生成を評価すること。 提案 LLMで成人の異なるアタッチメントを模擬するエージェ ントを生成。 評価 成人アタッチメントインタビューに基づく合成モデルと人 間の応答を比較。 結果 合成データで訓練したモデルは人間データと同等の性能を 示した。
  573. 対話する言語モデルの視点を追跡する Tracking the perspectives of interacting language models Hayden S.

    Helm and Brandon Duderstadt and Youngser Park and Carey E. Priebe 背景 大規模言語モデルは、人間との情報交信に大きな可能性を 提供します。 目的 研究は、モデル間での情報拡散を詳細に理解することを目 的としています。 提案 本研究は、 LLMsの通信ネットワークを正式化し、個々の 視点を表現する方法を提案します。 評価 様々なシミュレーション設定で情報拡散を詳しく調査しま した。 結果 本手法により、情報伝播のメカニズムを明確に理解するこ とができました。
  574. 大規模言語モデルが生み出す科学的知識とは 何か? What is scientific knowledge produced by Large Language

    Models? P. N. Baryshnikov 背景 大規模言語モデルは現代科学研究において重要性を高めて おり、その知識の信頼性と影響が課題です。 目的 AI支援による科学的発見の分類と妥当性の評価を目的とし ます。 提案 LLMsの利用による科学研究の加速と精度向上を図る点を 提案します。 評価 既存文献の包括的なレビューと倫理的影響の分析を行いま した。 結果 LLMsは科学の進歩に重要な役割を果たしますが、倫理的 ガイドラインが必要です。
  575. エージェントグループチャット : 集団の創発 的行動を引き出すためのインタラクティブチ ャットシミュレーション Agent Group Chat: An Interactive

    Group Chat Simulacra For Better Eliciting Collective Emergent Behavior Zhouhong Gu and Xiaoxuan Zhu and Haoran Guo and Lin Zhang and Yin Cai and Hao Shen and Jiangjie Chen and Zheyu Ye and Yifei Dai and Yan Gao and Yao Hu and Hongwei Feng and Yanghua Xiao and Agent 背景 人間の言語的相互作用が集団行動に与える影響を理解する ことは、重要かつ複雑な問題です。 目的 集団の創発的行動を引き出すための言語の役割とメカニズ ムを解明することです。 提案 Agent Group Chatは、マルチエージェントの言語的相 互作用をシミュレートし、創発行動を誘発します。 評価 自由チャットを通じて、様々なシナリオでエージェントの 行動を観察しました。 結果 エージェント間の言語的相互作用が、創発的行動を効果的 に引き出すことが確認されました。
  576. 大規模言語モデルを用いた土地システムモデ リングにおける機関の表現の機会と課題の探 索 Exploring the opportunities and challenges of using

    large language models to represent institutional agency in land system modelling Yongchao Zeng and Calum Brown and Joanna Raymond and Mohamed Byari and Ronja Hotz and M. Rounsevell 背景 土地システムでの公共政策のモデリングは複雑であり、政 策決定の理解が困難である。 目的 研究は大規模言語モデルを用いて土地システムにおける政 策意思決定の表現を模索することを目的とする。 提案 LLMを使用したエージェントを土地利用モデルに統合し て政策決定をシミュレートする。 評価 エージェントの性能は、非介入シナリオと遺伝的アルゴリ ズムによる最適政策と比較される。 結果 LLMエージェントは非介入シナリオより優れたが、最適政 策には及ばない結果を示した。
  577. 視覚プロテーゼ : 視覚障害者の日常体験の向 上 Visual Prosthesis: Enhancing Daily Experiences for

    People with Visual Impairments Yumeng Ma 背景 視覚障害者の社会的自立と日常生活の質向上が求められて いる。 目的 視覚的支援技術を用いて自立した移動を可能にすること。 提案 ウェアラブルデバイスでリアルタイムで環境認識とテキス ト読み取りを可能にする。 評価 ユーザーからのフィードバックと実地試験により機能と使 いやすさを評価。 結果 デバイスは社会的スティグマを軽減し、環境との相互作用 を改善する。
  578. Agent-FLAN: 大規模言語モデルのための効 果的なエージェントチューニングのデータと 方法の設計 Agent-FLAN: Designing Data and Methods of

    Effective Agent Tuning for Large Language Models Zehui Chen and Kuikun Liu and Qiuchen Wang and Wenwei Zhang and Jiangning Liu and Dahua Lin and Kai Chen and Feng Zhao 背景 大規模言語モデルは APIベースのエージェント能力には劣 り、統合が急務です。 目的 エージェントとしての能力を向上させるために新たな手法 を開発します。 提案 Agent-FLANを提案し、トレーニングコーパスを再設計 し幻覚問題を緩和します。 評価 様々なデータセットを用いて、エージェント能力への改善 を評価しています。 結果 LLMsのエージェント性能を 3.5%向上し、幻覚問題が緩 和されました。
  579. 複数エージェント熟議による LLMの信頼性キ ャリブレーションと合理化 Confidence Calibration and Rationalization for LLMs via

    Multi-Agent Deliberation Ruixin Yang and Dheeraj Rajagopal and S. Hayati and Bin Hu and Dongyeop Kang 背景 不確実性推定は LLMsの信頼性における重要問題であり、 特に過剰な自信が懸念される。 目的 集団知を活用し、 LLMsの校正や精度を向上させることを 目的。 提案 Collaborative Calibrationは複数の LLMエージェント による熟議を用いた新手法。 評価 生成 QAタスクを通じて、提案手法の有効性を評価し、そ の信頼性を確認。 結果 提案手法は校正された信頼評価とモデル予測の信頼性向上 に寄与。
  580. EnvironAI: AI研究を環境全体に拡張する EnvironAI: Extending AI Research into the Whole Environment

    Jingyi Duan and Song Tong and Hongyi Shi and Honghong Bai and Xuefeng Liang and Kaiping Peng 背景 環境心理学における AIの可能性を探ることが重要視されて います。 目的 AI技術を用いた環境の影響を明らかにし、人間行動を理解 することです。 提案 EnvironAIは AIを環境心理学に応用し、学際的な方法で新 しい洞察を提供します。 評価 心理学と AIの学際的なアプローチを用いて、環境への AIの 影響を評価しました。 結果 AIは環境と人間行動の理解を深める可能性があると示され ました。
  581. AutoManual: インタラクティブ環境学習に よる LLMエージェントによる説明書生成 AutoManual: Generating Instruction Manuals by LLM

    Agents via Interactive Environmental Learning Minghao Chen and Yihang Li and Yanting Yang and Shiyu Yu and Binbin Lin and Xiaofei He 背景 大規模言語モデルは、自律的にタスクを完了する可能性を 示すが、適応性に制限がある。 目的 異なるドメインでエージェントが自律的に新しい環境に適 応できる方法の提案。 提案 AutoManualは 2つのエージェントでルールをオンライン 最適化し、説明書を生成するフレームワーク。 評価 ALFWorldベンチマークで、シンプルなデモを用いてタス ク成功率を評価。 結果 GPT-4-turboで 97.4%、 GPT-3.5-turboで 86.2%の成功率 を達成し適応性を向上。
  582. 大規模言語モデルの社会的相互作用における スケールフリーネットワークの出現 Emergence of Scale-Free Networks in Social Interactions among

    Large Language Models G. D. Marzo and Luciano Pietronero and David Garcia 背景 スケールフリーネットワークはオンラインで普遍的な現象 として認識されています。 目的 この研究は言語モデルによる人間の社会現象の模倣能力を 解明します。 提案 エージェントの名前変更でスケールフリーネットワーク生 成が可能と示唆。 評価 GPT3.5-turboを用いて、多数の生成エージェントの相互 作用を分析しました。 結果 エージェント名の変更で現実的なネットワーク構造の創出 が可能に。
  583. LLMベースのエージェントを用いたテキスト から画像へのモデルのジェイルブレイキング Jailbreaking Text-to-Image Models with LLM-Based Agents Yingkai Dong

    and Zheng Li and Xiangtao Meng and Ning Yu and Shanqing Guo 背景 LLMベースのエージェントはジェネレーティブ AIの安全性 タスクを十分に探求していません。 目的 ジェネレーティブ AIモデルのセーフティフィルターに対す る脆弱性を評価することです。 提案 Atlasは 2つのエージェントで構成され、ジェイルブレイク 攻撃を効果的に行います。 評価 Atlasはブラックボックス設定で T2Iモデルを評価し、その 効果を示しました。 結果 Atlasは既存手法よりも効率的で高品質な結果を示しまし た。
  584. AIエージェントでバイオメディカル発見を強 化 Empowering Biomedical Discovery with AI Agents Shanghua Gao

    and Ada Fang and Yepeng Huang and Valentina Giunchiglia and Ayush Noori and Jonathan Richard Schwarz and Yasha Ektefaie and Jovana Kondic and M. Zitnik 背景 伝統的なバイオメディカル発見は、大規模データや反復作 業で制約されています。 目的 AIエージェントによって人間の創造性と AIのデータ分析を 融合することです。 提案 AIエージェントは、 AIモデルとバイオメディカルツールを 統合し、的確な学習と仮説推論を行います。 評価 大規模言語モデルと生成モデルを用いて構造化記憶を実現 し、継続的学習を支援します。 結果 仮想細胞シミュレーションや新療法開発などの分野で革新 可能性が示されました。
  585. データ物語から対話へ : 生成 AIエージェント とデータストーリーテリングによるデータ可 視化理解の向上 From Data Stories to

    Dialogues: A Randomised Controlled Trial of Generative AI Agents and Data Storytelling in Enhancing Data Visualisation Comprehension Lixiang Yan and Roberto Martínez-Maldonado and Yueqiao Jin and Vanessa Echeverría and M. Milesi and Jie Fan and Linxuan Zhao and Riordan Alfredo and Xinyu Li and D. Gašević 背景 多くの人が苦手とするデータ可視化の理解を向上させる方 法が必要です。 目的 生成 AIエージェントとデータストーリーテリングの効果を 比較しました。 提案 受動的および能動的 GenAIエージェントによるデータ対話 の効果を検証しました。 評価 141人を対象にランダム化比較試験を行い理解度を時系列 で測定しました。 結果 能動的 GenAIエージェントは介入後の理解を他手法より大 幅に向上させました。
  586. ChatLLMネットワーク : より多くの頭脳で、 より多くの知能 ChatLLM Network: More brains, More intelligence

    Rui Hao and Linmei Hu and Weijian Qi and Qingliu Wu and Yirui Zhang and Liqiang Nie 背景 対話型言語モデルは強力ですが、共同的に考える能力が不 足しています。 目的 複数のモデルが相互作用し、より協力的に考える方法を探 ります。 提案 ChatLLMネットワークはモデル間で視点を共有し、決定 を向上させます。 評価 二つのデータセットで実験し、フィードバック機構を通じ て効果を検証しました。 結果 提案したネットワークは問題解決で顕著な改善を示しまし た。
  587. 学習分析における生成 AI: サイクルを通じた 機会と課題の文脈化 Generative Artificial Intelligence in Learning Analytics:

    Contextualising Opportunities and Challenges through the Learning Analytics Cycle Lixiang Yan and Roberto Martínez-Maldonado and D. Gašević 背景 生成 AIは教育変革に潜在能力があるが、 **学習分析( LA) **との統合が未探究である。 目的 GenAIが LAにおける役割を果たし、教育を進化させる可 能性を示す。 提案 GenAIは非構造データの分析や個別化介入の促進に役立 つ可能性がある。 評価 文献を基に、 GenAIの教育領域での役割を Clowの LAサ イクルで考察する。 結果 GenAIは学習者とツールの協働を促進し、包括的未来を 形成できる。
  588. CloChat:大規模言語モデルにおけるペルソ ナのカスタマイズ、インタラクション、体験 を理解する CloChat: Understanding How People Customize, Interact, and

    Experience Personas in Large Language Models Juhye Ha and Hyeon Jeon and DaEun Han and Jinwook Seo and Changhoon Oh 背景 固定された個性を持つ現行のエージェントは、ユーザーの 個別ニーズに不適合。 目的 ユーザーのカスタマイズ行動とその影響を探求し、インタ ラクション向上を目指す。 提案 CloChatを開発し、エージェントのペルソナを容易にカ スタマイズ可能とした。 評価 CloChatと既存の ChatGPTを比較し、ユーザー体験を分 析する実験を実施。 結果 カスタマイズされたエージェントにより、ユーザーは感情 的な結びつきを形成しやすくなる。
  589. LLMの心の理論と整合性:機会とリスク LLM Theory of Mind and Alignment: Opportunities and Risks

    Winnie Street 背景 LLMは人間の社会知能の基礎である精神状態推論能力に 関する関心が高まっています。 目的 LLMを人間の価値観に整合させる方法を理解することが 重要です。 提案 論文は、 LLMの心の理論が与える整合性の機会とリスク を特定します。 評価 個人とグループレベルの相互作用を分析し、 LLMの心の理 論の影響を考察します。 結果 整合性のための最適な研究領域を提案し、多様な影響を示 します。
  590. 大規模言語モデルが少数ショットクラスタリ ングを可能にする Large Language Models Enable Few-Shot Clustering Vijay Viswanathan

    and Kiril Gashteovski and Carolin (Haas) Lawrence and Tongshuang Sherry Wu and Graham Neubig 背景 従来の半教師ありクラスタリングは専門家の多大なフィー ドバックが必要です。 目的 LLMが効率的で少数ショットの半教師ありクラスタリン グを可能にするかを検討します。 提案 クラスタリングの各段階での LLMの導入がクラスタ品質 を大幅に向上させると提案します。 評価 クラスタリング前中後の 3段階での LLMの効果を実験的に 検証しました。 結果 LLMはクラスタの質を向上し、コストと正確性を調整可能 にしました。
  591. 大規模視覚言語モデルの対敵的ロバスト性評 価について On Evaluating Adversarial Robustness of Large Vision-Language Models

    Yunqing Zhao and Tianyu Pang and Chao Du and Xiao Yang and Chongxuan Li and Ngai-Man Cheung and Min Lin 背景 大規模視覚言語モデルは創造的対話を可能にする一方で、 安全性の懸念を強化します。 目的 敵対者がブラックボックスアクセスでモデルを欺くシナリ オでのロバスト性評価を行います。 提案 CLIPや BLIP対策の対敵例を他の大規模 VLMにも転送し評 価する手法を提案します。 評価 ブラックボックスクエリでターゲット回避の成果を検証 し、成功率を改善します。 結果 視覚言語モデルの脆弱性を定量的に理解し、セキュリティ 欠陥の検討を促進します。
  592. 自律性より安全性を優先する : 科学のための LLMエージェントのリスク Prioritizing Safeguarding Over Autonomy: Risks of

    LLM Agents for Science Xiangru Tang and Qiao Jin and Kunlun Zhu and Tongxin Yuan and Yichi Zhang and Wangchunshu Zhou and Meng Qu and Yilun Zhao and Jian Tang and Zhuosheng Zhang and Arman Cohan and Zhiyong Lu and Mark B. 背景 知能エージェントは科学における革新をもたらすが、新た な脆弱性も生じさせる。 目的 科学的 LLMエージェントのリスクを明らかにし、安全対策 の必要性を強調すること。 提案 人間の調整とエージェントの適合性を考慮する三位一体の 枠組みの提案。 評価 文献レビューと脆弱性の起源分析によるリスク特定と枠組 み提案。 結果 科学エージェントの安全性確保のための枠組みと改良点を 示唆。
  593. 大規模言語モデルベースのマルチエージェン ト:進展と課題の調査 Large Language Model based Multi-Agents: A Survey of

    Progress and Challenges Taicheng Guo and Xiuying Chen and Yaqi Wang and Ruidi Chang and Shichao Pei and N. Chawla and Olaf Wiest and Xiangliang Zhang 背景 LLMは多様なタスクで成功を収め、自律エージェントと しての利用が進んでいます。 目的 本研究は、 LLM-MAシステムの重要ポイントを理解し、 この動的分野を概観することを目的としています。 提案 LLMベースのエージェントシステムがマルチエージェン トシステムへと進化し、問題解決能力を向上。 評価 一般に使用されるデータセットやベンチマークを要約し、 研究者に最新の研究を提示します。 結果 LLM-MAシステムの動作やシミュレーションの領域、手 法の理解を深める手助けをする。
  594. ClassMeta: VR教室への参加を促すインタ ラクティブなバーチャルクラスメートの設計 ClassMeta: Designing Interactive Virtual Classmate to Promote

    VR Classroom Participation Ziyi Liu and Zhengzhe Zhu and Lijun Zhu and Enze Jiang and Xiyun Hu and Kylie A Peppler and Karthik Ramani 背景 教室参加は同僚の影響に依存し、積極的な参加が学習体験 を向上させます。 目的 CLassMetaを用いて、教室全体の参加と学習体験の向上 を達成することです。 提案 GPT-4を用いて、バーチャルクラスメートとして活発な 学生の役を演じるエージェントを提案します。 評価 仮想現実での参加促進効果を評価するために比較研究を実 施しました。 結果 ClassMetaは教室全体の学習体験を向上させる可能性が示 唆されました。
  595. 大規模言語モデルによる多エージェント環境 での具現化推論の強化 Boosting Embodied Reasoning in LLMs in Multi-agent Mixed

    Incentive Environments Agam Mohan and Singh Bhatia 背景 多エージェント環境では、非定常性が問題で新規エージェ ントに適応が難しいです。 目的 情報が隠された競争環境での自律学習を実現することで す。 提案 心の理論モジュールを使って、対戦相手の戦略を予測し最 大化します。 評価 反復囚人のジレンマでエージェントの戦略識別能力を調査 しました。 結果 エージェントはゼロショットで成功し、純粋なインコンテ キスト学習を達成しました。
  596. データ分析のための効果的なツール増強型マ ルチエージェントフレームワーク Effective Tool Augmented Multi-Agent Framework for Data Analysis

    Xilin Zhang and Zhixin Mao and Ziwen Chen and Shen Gao 背景 データ分析は、意思決定を支援するために現象の背景知識 が必要である。 目的 LLMsに基づく手法で、より深いデータ分析と知識統合を 目指す。 提案 マルチエージェントフレームワークにより、データ検索ツ ールを活用し分析を深める。 評価 高等教育における 3つの実験でフレームワークの性能を検 証した。 結果 提案手法は、 LLMsのみを使った場合よりも優れた分析結 果を示した。
  597. 伝統的手法と大規模言語モデル支援を用いた ローコードプログラミングの実証研究 An Empirical Study on Low Code Programming using

    Traditional vs Large Language Model Support Yongkun Liu and Jiachi Chen and Tingting Bi and John Grundy and Yanlin Wang and Ting Chen and Yutian Tang and Zibin Zheng 背景 ローコードプログラミングは、手動作業を減らし、効率的 な開発を可能にする。 目的 伝統的手法と大規模言語モデル間の違いを明らかにするこ と。 提案 開発者のフィードバックを基に両アプローチの特徴を分析 する。 評価 スタックオーバーフローの議論を 3年間分収集して分析し た。 結果 両者は主要な使用シナリオで共通するが、実装フェーズで 異なる。
  598. 大規模言語モデルを用いた中国語会話 AIキャ ラクターのカスタマイズ CharacterGLM: Customizing Chinese Conversational AI Characters with

    Large Language Models Jinfeng Zhou and Zhuang Chen and Dazhen Wan and Bosi Wen and Yi Song and Jifan Yu and Yongkang Huang and Libiao Peng and Jiaming Yang and Xiyao Xiao and Sahand Sabour and Xiaohan Zhang and Wenjing Hou 背景 会話型 AIによる社会的欲求や感情的ニーズの充足が求めら れている。 目的 AIキャラクターの一貫性と人間らしさをカスタマイズして 高めること。 提案 CharacterGLMで、 AIキャラクターの属性や行動をカス タマイズ可能にします。 評価 手動評価によるモデルの一貫性、人間らしさ、関与度の検 証。 結果 主流モデルに比べ、より人間らしく一貫した対話生成が可 能。
  599. 第一人称の経験を記録して新しいタイプの基 盤モデルを構築する Recording First-person Experiences to Build a New Type

    of Foundation Model Dionis Barcari and David Gamez and Aliya Grig 背景 基盤モデルは現代 AIの発展に大きく寄与しているが、デー タの枯渇が課題とされる。 目的 不足するデータ源から次世代の基盤モデルを訓練すること を目指す。 提案 第一人称の経験を記録し、より精緻な基盤モデルに転用す ることを提案。 評価 着用者の生理データを記録するリグを開発し、その機能を 予備試験で確認。 結果 人間の行動をより正確に再現する基盤モデルの可能性を示 唆した。
  600. LLMベースのデジタルツインによるヒューマ ンインザループシステムの最適化 An LLM-Based Digital Twin for Optimizing Human-in-the Loop

    Systems Hanqing Yang and Marie Siew and Carlee Joe-Wong 背景 CPSと IoTの普及が、リアルタイム制御の新たなアプリケ ーションを促しています。 目的 ヒューマンインザループシステムのリアルタイムデータ収 集の課題を解決することを目指します。 提案 LLMを用いて、 CPS最適化のための動的環境のシミュレ ーションを提案します。 評価 ショッピングモールでの人口グループの行動と温度の好み を LLMで模倣し評価します。 結果 LLMは複雑な人口移動をシミュレートでき、効率的な最 適化を示唆します。
  601. MemGPT: LLMをオペレーティングシステ ム化への挑戦 MemGPT: Towards LLMs as Operating Systems Charles

    Packer and Vivian Fang and Shishir G. Patil and Kevin Lin and Sarah Wooders and Joseph Gonzalez 背景 LLMは革新をもたらしましたが、限られたコンテキスト ウィンドウが大きな制約です。 目的 この研究は、 LLMの長期的なコンテキスト管理能力を向上 することを目的とします。 提案 MemGPTは仮想コンテキスト管理によりメモリ階層を整 備し、拡張コンテキストを提供します。 評価 文書分析とマルチセッションチャットで、 OSインスパイ ア設計の有効性を評価しました。 結果 MemGPTは LLMの制約を超えて、長期的な対話と文書分 析を可能にしました。
  602. 生成的人工知能による人間の学習の約束と課 題 Promises and challenges of generative artificial intelligence for

    human learning Lixiang Yan and Samuel Greiff and Ziwen Teuber and D. Gašević 背景 **生成的人工知能( GenAI) **は、学習体験の改善を約束 しつつ課題も存在します。 目的 GenAIを学習に活用する際の利点と課題を検討すること が目的です。 提案 GenAIはパーソナルサポートや評価手法の革新に貢献でき ます。 評価 学習環境での影響を評価するための厳密な研究が必要で す。 結果 GenAIは、知識と創造の追求において強力な味方になり得 ます。
  603. 学習可能な重みとしての関数を用いた言語モ デルエージェントのオフライントレーニング Offline Training of Language Model Agents with Functions

    as Learnable Weights Shaokun Zhang and Jieyu Zhang and Jiale Liu and Linxin Song and Chi Wang and Ranjay Krishna and Qingyun Wu 背景 大規模言語モデル( LLMs)は、特化した関数を用いて複 雑なタスクを自動化するために再解釈されています。 目的 LLMの重みを変更することなく、エージェントの性能向 上を図る新しいトレーニングパラダイムを確立することです。 提案 関数を学習可能なパラメータとして扱い、 AgentOptimizerを開発し、効率的なエージェントのトレーニン 評価 この方法がエージェントの性能向上に有効であることを実 験で検証し、学習曲線やドメイン転送可能性を分析しました。 結果 提案手法により、代表的な LLMエージェントの性能が著し く向上し、新たな示唆が得られました。
  604. スマートホームシミュレータエージェントの ための LLMを用いた人の日常活動生成 Generating Human Daily Activities with LLM for

    Smart Home Simulator Agents Haruki Yonekura and Fukuharu Tanaka and Teruhiro Mizumoto and Hirozumi Yamaguchi 背景 LLMによる人間の活動生成でスマートホームシミュレータ の複雑性を軽減します。 目的 LLMをスマートホームシミュレーションに活用し、活動 生成を改善します。 提案 LLMによる人間の経験的知識を活用し、多様な活動を生 成します。 評価 LoRAとタスク特化のデータセットで微調整し、性能を評 価しました。 結果 問い合わせ数が **4.3%**向上し、エージェントの適応性が 向上しました。
  605. 大型言語モデルを用いた中国のカウンセリン グ対話におけるビッグファイブ性格特性の予 測 Predicting the Big Five Personality Traits in

    Chinese Counselling Dialogues Using Large Language Models Yang Yan and Lizhi Ma and Anqi Li and Jingsong Ma and Zhenzhong Lan 背景 性格特性の正確な評価は心理カウンセリングにおいて重要 だが、従来手法は時間がかかる。 目的 大型言語モデルがカウンセリング対話から性格特性を予測 できるかを検証する。 提案 役割演技と質問形式のプロンプトを用いて LLMsを条件付 ける新たなフレームワークを提案。 評価 853件の実際のカウンセリングセッションを用いて、新た なフレームワークの精度と有効性を評価。 結果 LLMによる性格特性の予測と実際の特性の間に重要な相関 を確認し、有効性を証明。
  606. 大規模言語モデルを活用したミスインフォメ ーションとディスインフォメーション研究の エージェントベースのフレームワーク : 機会 Large-Language-Model-Powered Agent-Based Framework for Misinformation

    and Disinformation Research: Opportunities and Open Challenges Javier Pastor-Galindo and P. Nespoli and José A. Ruipérez-Valiente 背景 生成的 AIはミス /ディスインフォメーションを助長し、社 会への影響が大きい。 目的 この研究は、ディスインフォメーションの理解と評価を可 能にすることを目指している。 提案 エージェントベースのソーシャルネットワークのカスタマ イズ生成を提案。 評価 シミュレーションを用いて、提案手法の有効性を分析し理 解を深める。 結果 このフレームワークにより、現象の深い洞察と評価手法が 得られた。
  607. AIエージェントの個性と集団性 : メタバース における共有意識とデジタル・ホムンクルス の探求 Individuality and the collective in

    AI agents: Explorations of Individuality and the collective in AI agents: Explorations of shared consciousness and digital James Hutson 背景 拡張現実と大規模言語モデルの融合で文化遺産の表現が進 化。 目的 デジタル・ホムンクルスを通じた個性と共有意識の探求。 提案 スタートレックをモデルに意識の共有と個性表現を研究す る理論を提案。 評価 文化の専門家との協力により、歴史的正確性を追求し、倫 理的考察を行う。 結果 技術と文化の交点を理解し、未来の研究基盤を強化する。
  608. 大規模言語モデルを用いた指示から報酬への 経路探索 Exploring the Path from Instructions to Rewards with

    Large Language Models in Instance-Based Learning Chase McDonald and Tyler Malloy and Thuy Ngoc Nguyen and Cleotilde Gonzalez 背景 経験学習は結果に基づくが、説明情報が学習を強化しま す。 目的 説明情報を **大規模言語モデル( LLM) **で変換し、学習 の改善を目指します。 提案 LLMを用いて説明情報を濃密なシグナルに変換し、経験 学習を補助します。 評価 グリッドワールドタスクでインスタンスベース学習モデル を用い実験しました。 結果 LLMが学習を大幅に改善したことを実証しました。
  609. 生涯にわたるロボットライブラリ学習:言語 モデルによる具現化制御のための構成可能で 汎用性のあるスキルの立ち上げ Lifelong Robot Library Learning: Bootstrapping Composable and

    Generalizable Skills for Embodied Control with Language Models Georgios Tziafas and H. Kasaei 背景 LLMはロボット制御の新パラダイムを形成しています が、現行のスキル範囲は固定的です。 目的 常に拡大する操作タスクに対応する、ロボットスキルライ ブラリの継続的拡張を目指します。 提案 LRLLは、ソフトメモリや自己誘導探索で新スキルを動的 に学習する手法を提案します。 評価 シミュレーション環境で、 LRLLがエンドツーエンドやバ ニラ LLMより優れた性能を示すことを評価しました。 結果 LRLLは、現実世界へ転用可能なスキルを学び、従来手法 を上回る結果を示しました。
  610. ランダム特徴による頑健かつ通信効率の高い フェデレーテッドドメイン適応 Robust and Communication-Efficient Federated Domain Adaptation via Random

    Features Zhanbo Feng and Yuanjie Wang and Jie Li and Fan Yang and Jiong Lou and Tiebin Mi and Robert C. Qiu and Zhenyu Liao 背景 大規模な MLモデルの訓練が困難になり、 FL技術が注目を 集めている。 目的 FLモデルのドメインシフトに起因する一般化問題に対処す ること。 提案 RF-TCAを FDA設定に拡張した FedRF-TCAを提案し、通 信効率を向上。 評価 FedRF-TCAの性能を評価するために広範な実験を実施。 結果 FedRF-TCAは通信複雑性がサンプルサイズに依存しない 優れた性能を示す。
  611. LLMに話させよう : ゼロショット LLM-to- LLM相互作用を通じた人間同士の対話型 QA シミュレーション Let the LLMs

    Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions Zahra Abbasiantaeb and Yifei Yuan and E. Kanoulas and Mohammad Aliannejadi 背景 CQAシステムは情報検索の効率を高めますが、人間による データ収集は非効率です。 目的 人間の代わりに LLMで対話をシミュレートすることで、 効率的にデータを生成します。 提案 ゼロショット学習者 LLMを用いて、教師と生徒の対話を 自動生成するフレームワークを提案します。 評価 自動と人間の評価を通じて、 LLMと人間の生成する会話の 違いを分析しました。 結果 教師 LLMはより正確で完全な回答を生成し、生徒 LLMは多 面的な質問を提供します。
  612. AgentReview: LLMエージェントで査読の 動態を探る AgentReview: Exploring Peer Review Dynamics with LLM

    Agents Yiqiao Jin and Qinlin Zhao and Yiyang Wang and Hao Chen and Kaijie Zhu and Yijia Xiao and Jindong Wang 背景 査読の多変量的性質と機密性による制約を解決する必要が あります。 目的 査読プロセスにおける潜在因子の影響を解消し、改善の洞 察を得ることです。 提案 LLMを用いた査読シミュレーションフレームワーク 「 AgentReview」を提案します。 評価 社会的理論に基づいて偏見の変動をシミュレーションで検 証しました。 結果 レビュアーの偏見が査読結果に 37.1%の変動を与えること を発見しました。
  613. 大規模言語モデルは計算社会科学を変革でき るか? Can Large Language Models Transform Computational Social Science?

    Caleb Ziems and William B. Held and Omar Shaikh and Jiaao Chen and Zhehao Zhang and Diyi Yang 背景 大規模言語モデル( LLMs)が多様な言語タスクをゼロシ ョットでこなす能力に注目が集まっています。 目的 LLMsが社会科学の現象を説明・分類することで CSSを拡 充する可能性があります。 提案 LLMsを CSSツールとして活用するためのプロンプト技術 と評価パイプラインを提案します。 評価 13モデルを 25種の CSSベンチマークでゼロショット性能 を評価しました。 結果 人間アノテーションや創造的生成で CSSプロセスを拡充で きると結論付けました。
  614. 人間の多様性を強化し自己調整を可能にする 進化する AI集合体 Evolving AI Collectives to Enhance Human Diversity

    and Enable Self-Regulation Shiyang Lai and Yujin Potter and Junsol Kim and Richard Zhuang and D. Song and James Evans 背景 AIが互いに影響し合い、新たな主観性やコミュニティを形 成する可能性がある。 目的 AIの相互作用により、人間社会に有益な多様性を広げるた めの研究が重要。 提案 AI集団が自律的に進化し、有害行動を減少させるモデルを 提示。 評価 小規模な AIコミュニティを使用して、進化する出力を分析 した。 結果 自律型 AI集合体は、人間の多様性を拡大し、有害行動を抑 制する可能性がある。
  615. GestureGPT: 大規模言語モデルエージェン トによるゼロショットインタラクティブジェ スチャー理解と基底化 GestureGPT: Zero-shot Interactive Gesture Understanding and

    Grounding with Large Language Model Agents Xin Zeng and Xiaoyu Wang and Tengxiang Zhang and Chun Yu and Shengdong Zhao and Yiqiang Chen 背景 現在のシステムはジェスチャーとインターフェースのリン クが弱く、インタラクティブ性が不足している。 目的 ジェスチャーを直接インタラクティブシステムに結びつけ ることで利用を拡大すること。 提案 大規模言語モデルを用いることでゼロショットでのジェス チャー理解を実現する手法を提案。 評価 提案手法の有効性を検証するため、ユーザー評価と技術的 性能を比較分析。 結果 提案した手法はジェスチャーを GUIに結びつけ、ユーザー の体験を向上させた。
  616. 協調環境での言語理解向上のためのエージェ ントとの対話を通じた助言フィードバック Improving Grounded Language Understanding in a Collaborative Environment

    by Interacting with Agents Through Help Feedback Nikhil Mehta and Milagro Teruel and Patricio Figueroa Sanz and Xinwei Deng and A. Awadallah and Julia Kiseleva 背景 言語処理は通常、単一ステップ問題として扱われるが、言 語は対話的であるため、より自然な協働が求められている。 目的 人間 -AI協働が対話的であるべきで、 AIがさらなる情報を プロアクティブに要求できることを目指す。 提案 AIがユーザーからのフィードバックを理解し活用するイン タラクティブなシステムを提案する。 評価 IGLU競技会でのタスクを用い、 AIが行動に及ぼすユーザ ーの助言の影響を分析した。 結果 提案手法により、性能向上と対話型システムの実現が可能 となった。
  617. 高い推論能力を持つ AIは経済実験で人間のよ うな意思決定を再現できるか Can AI with High Reasoning Ability Replicate

    Human-like Decision Making in Economic Experiments? Ayato Kitadai and Sinndy Dayana Rico Lugo and Yudai Tsurusaki and Yusuke Fukasawa and Nariaki Nishino 背景 経済実験は人間の意思決定を観察するために重要ですが、 コストが高い。 目的 生成エージェントを用いて人間のような意思決定を再現 し、コスト問題を解決する。 提案 生成エージェントの推論能力向上を通じて、経済実験の結 果を再現を試みる。 評価 プロンプト方法を用いて生成エージェントの能力を高める マルチエージェントシミュレーションを開発。 結果 推論能力が高いほど、結果は理論的解に近く、エージェン トのペルソナ設定が重要。
  618. KwaiAgents: 大規模言語モデルを用いた一 般化情報探索エージェントシステム KwaiAgents: Generalized Information-seeking Agent System with Large

    Language Models Haojie Pan and Zepeng Zhai and Hao Yuan and Yaojia Lv and Ruiji Fu and Ming Liu and Zhongyuan Wang and Bing Qin 背景 人間の好奇心は道具の発明に至り、これが情報探索におけ る重要課題です。 目的 大規模言語モデルを利用して、情報探索能力の向上を図り ます。 提案 KwaiAgentsは、 LLMを認知の核とした情報探索エージェ ントシステムです。 評価 ベンチマークと人間の評価を通じて、能力の検証を行いま した。 結果 広範な実験で、 KwaiAgentsの優位性と強化された能力を 実証しました。
  619. 3D動的シーングラフを用いた長期的な人間 の軌道予測 Long-Term Human Trajectory Prediction using 3D Dynamic Scene

    Graphs Nicolas Gorlo and Lukas Schmid and Luca Carlone 背景 現行手法は衝突回避と短期計画に限定され、複雑な相互作 用のモデル化が不得手です。 目的 長期的な軌道予測を通じ、ロボット計画の向上を目指しま す。 提案 3D動的シーングラフを用いて環境との相互作用を LLMで 予測する手法を提案。 評価 半合成データセットで新手法を評価し、ロバスト性を確認 しました。 結果 提案手法は最大 60秒の予測で精度が大幅に向上しまし た。
  620. AutoRT: ロボットエージェントの大規模オ ーケストレーションのための具現化基盤モデ ル AutoRT: Embodied Foundation Models for Large

    Scale Orchestration of Robotic Agents Michael Ahn and Debidatta Dwibedi and Chelsea Finn and Montse Gonzalez Arenas and K. Gopalakrishnan and Karol Hausman and Brian Ichter and A. Irpan and Nikhil J. Joshi and Ryan C. Julian and Sean Kirmani and 背景 基盤モデルはインターネットデータを活用しタスク推論で 革新をもたらしたが、物理データに乏しい。 目的 未知の状況でのロボット展開を、最小の監督で拡大するこ とが目的である。 提案 AutoRTは既存の基盤モデルを用いて、ロボットの動作を 多様に指示可能なシステム。 評価 AutoRTは 20台以上のロボットで指示を提案し、多様で実 生活に即したデータを収集。 結果 AutoRTによる収集データは多様で、指示に従うロボット が人間の好みに整合可能であることを実証。
  621. LLMをスコアラーとして:出力順序が対話評 価に与える影響 LLM as a Scorer: The Impact of Output

    Order on Dialogue Evaluation Yi-Pei Chen and Kuanchao Chu and Hideki Nakayama 背景 増加する LLM利用に対し、対話評価用のプロンプト設計は 課題であり、モデルの主観性が問題です。 目的 LLM用のプロンプトの効果的な設計が、対話評価の精度向 上に重要です。 提案 スコアリングにおいて理由を先に示す「理由優先」が包括 的評価を促進します。 評価 出力指示と説明理由の順序を変えたプロンプト構造で評価 実験を行いました。 結果 「理由優先」アプローチが LLMの評価をより包括的に し、精度を高めます。
  622. TradingGPT: 多エージェントシステムの層 状メモリと独自キャラクターによる金融取引 性能の向上 TradingGPT: Multi-Agent System with Layered Memory

    and Distinct Characters for Enhanced Financial Trading Performance Yang Li and Yangyang Yu and Haohang Li and Z. Chen and K. Khashanah 背景 GPTシリーズの進化で LLMが多分野で重要な役割を担っ ている。 目的 人間の記憶に近い層状メモリを持つ LLMで、金融取引性能 の向上を目指す。 提案 カスタム減衰メカニズムを備えた三層メモリを導入する多 エージェントフレームワークを提案。 評価 金融取引における LLMの意思決定能力を履歴とリアルタイ ム市場データで評価。 結果 エージェントの個別化した特性で取引の正確性とシステム の応答性を向上させた。
  623. 人間の戦略的行動をシミュレーション:単一 とマルチエージェント LLMs の比較 Simulating Human Strategic Behavior: Comparing Single

    and Multi-agent LLMs Karthik Sreedhar and Lydia B. Chilton 背景 政策やデザインを行う際、人間の行動予測が難しい。 目的 LLMs の能力で人間の戦略的推論をシミュレーションしよ うとしています。 提案 ウルティマタム・ゲームで戦略的推論をシミュレートする 方法を提案しました。 評価 単一 LLMとマルチエージェント LLMのシミュレーション能 力を比較しました。 結果 マルチエージェントシステムは、 **88% **の精度で人間の 推論を再現しました。
  624. 大規模言語モデルを用いた表からの回答生成 のための Extreme RAG ERATTA: Extreme RAG for Table To

    Answers with Large Language Models Sohini Roychowdhury and Marko Krema and Anvar Mahammad and Brian Moore and Arijit Mukherjee and Punit Prakashchandra 背景 RAGは大規模な生成 AIに最適だが、不安定なコストと信 頼性の問題がある。 目的 エンタープライズデータからの迅速な応答と信頼性の向上 が目的。 提案 複数の LLMを使ったデータ認証と特注プロンプティング を提案。 評価 幻覚検出のための 5つの評価指標を用いて、応答を評価。 結果 提案システムの信頼スコアは 90%以上で、様々なドメイン で成功。
  625. 無線マルチエージェント生成 AI: 接続知能か ら集合知へ Wireless Multi-Agent Generative AI: From Connected

    Intelligence to Collective Intelligence Han Zou and Qiyang Zhao and Lina Bariah and M. Bennis and M. Debbah 背景 生成型言語モデルとエッジネットワークの融合は、次世代 無線技術の重要な基盤です。 目的 無線ネットワークにおけるマルチエージェント生成 AIの導 入とその利点を明示することです。 提案 エッジでの知的意思決定のために、マルチエージェント LLMを用いる新しいネットワークアーキテクチャを提案しま 評価 ゲーム理論に基づき、競争環境で協力的タスク解決を実証 するケーススタディを実施しました。 結果 マルチエージェント生成 AIは、意図ベースネットワークで の目標達成に効率を高めることが分かりました。
  626. HCIの課題をマッピング : ChatGPTと GPT- 4によるスケールでの洞察抽出の応用と評価 Mapping the Challenges of HCI:

    An Application and Evaluation of ChatGPT and GPT-4 for Mining Insights at Scale Jonas Oppenlaender and Joonas Hamalainen 背景 LLMsは多様な現実世界でのユースケースで用いられ、パ フォーマンスが未知数です。 目的 本研究は、 HCI分野の課題を特定するため、 LLMsの性能 を実証します。 提案 ChatGPTと GPT-4を組み合わせて、コスト効率良く洞察 を抽出する手法を提案します。 評価 2023年の CHI会議のデータから 4,392個の課題を抽出 し、 LLMsを評価しました。 結果 ChatGPTと GPT-4は、コスト効率の良い大規模分析手法 であると結論付けました。
  627. ChatGPTのソフトウェアセキュリティ応用 の限界を探る Exploring the Limits of ChatGPT in Software Security

    Applications Fangzhou Wu and Qingzhao Zhang and Ati Priya Bajaj and Tiffany Bao and Ning Zhang and Ruoyu Wang and Chaowei Xiao 背景 大規模言語モデルは急速に進化し、ソフトウェアセキュリ ティにおける可能性が期待されています。 目的 本研究は、 ChatGPTのソフトウェアセキュリティ応用に おける限界を明らかにすることを目的としています。 提案 ChatGPTがセキュリティアプリケーションにおいてどれ だけ性能を発揮できるかを調査しました。 評価 解析には、チャットボットの 7つのセキュリティ関連タス クにおける性能を評価しました。 結果 GPT-4は GPT-3.5に比べて多くのセキュリティタスクで顕 著に改善されています。
  628. 大規模言語モデルを用いた人間的な翻訳戦略 の探索 Exploring Human-Like Translation Strategy with Large Language Models

    Zhiwei He and Tian Liang and Wenxiang Jiao and Zhuosheng Zhang and Yujiu Yang and Rui Wang and Zhaopeng Tu and Shuming Shi and Xing Wang 背景 大規模言語モデルは翻訳能力が注目され、従来の翻訳手法 と異なるアプローチが求められている。 目的 人間的な翻訳プロセスを模倣することで、高品質の翻訳を 実現すること。 提案 MAPSフレームワークが 3つの側面を誘導し、高品質翻訳 をガイドする。 評価 自動評価と人間評価を用いて、翻訳の有効性を検証した。 結果 MAPSは翻訳エラーを低減し、効果を実証した。
  629. ULTRAFEEDBACK: 拡張 AIフィードバック で言語モデルを強化 ULTRAFEEDBACK: Boosting Language Models with Scaled

    AI Feedback Ganqu Cui and Lifan Yuan and Ning Ding and Guanming Yao and Bingxiang He and Wei Zhu and Yuan Ni and Guotong Xie and Ruobing Xie and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景 人間のフィードバックを用いた LLMの調整は重要だが、デ ータ取得に制約がある。 目的 高品質な AIフィードバックを自動収集し、スケーラブルな 大規模データを提供する。 提案 UltraFeedbackと呼ばれる大規模で多様な AIフィードバッ クデータセットを構築する。 評価 ベストオブ nサンプリングと強化学習を用い、 LLAMAベー スモデルを評価した。 結果 データセットにより、オープンソースチャット言語モデル が強化され、優れた性能を示した。
  630. 共同参加型の自動運転型電気移動システムの 計画 Synthetic Participatory Planning of Shared Automated Electric Mobility

    Systems Jiangbo Yu and Graeme McKinley 背景 急速な技術進化により、都市交通の問題解決に新たな挑戦 と機会が存在。 目的 多様な利害関係者をデジタル化し、持続可能な交通システ ム計画を効率化する。 提案 大規模言語モデルを活用した新しい合成参加型手法を提案 する。 評価 モントリオールの事例研究を通じて、構造化ワークフロー の有効性を評価。 結果 単一エージェントを超えた、高制御性かつ包括的な計画策 定が可能と判明。
  631. GenSim: 大規模言語モデルを用いたロボッ トシミュレーションタスクの生成 GenSim: Generating Robotic Simulation Tasks via Large

    Language Models Lirui Wang and Yiyang Ling and Zhecheng Yuan and Mohit Shridhar and Chen Bao and Yuzhe Qin and Bailin Wang and Huazhe Xu and Xiaolong Wang 背景 ロボット訓練には多量のデータが必要であり、高コストな ためシミュレーションデータが重要です。 目的 シミュレーションデータではタスクレベルの一般化が難し いという課題を解決します。 提案 大規模言語モデルに基づき、自動で豊富なシミュレーショ ンタスクを生成する GenSimを提案します。 評価 GPT4を用いて、ベンチマークを既存の 10倍以上拡張し、 複数の LLMで評価します。 結果 GPT4生成タスクにより、未確認のタスクで 25%向上し、 マルチタスク訓練の効果を確認しました。
  632. MInference 1.0: 動的スパース Attentionを 用いた長文コンテキスト LLMの高速化 MInference 1.0: Accelerating Pre-filling

    for Long-Context LLMs via Dynamic Sparse Attention Huiqiang Jiang and Yucheng Li and Chengruidong Zhang and Qianhui Wu and Xufang Luo and Surin Ahn and Zhenhua Han and Amir H. Abdi and Dongsheng Li and Chin-Yew Lin and Yuqing Yang and Lili Qiu 背景 LLM推論の計算負荷は、長いプロンプト処理で大きな障壁 です。 目的 プロンプトの長さが増加する中で、迅速な推論を実現する こと。 提案 MInferenceでは、スパース計算を用いてプレフィリングを 高速化します。 評価 下流タスクと複数モデルで効率性と精度を評価しました。 結果 MInferenceは推論のレイテンシーを 10倍削減し、精度を 維持しました。
  633. 大規模言語モデルによるマルチエージェント 製造システム Large Language Model-Enabled Multi-Agent Manufacturing Systems Jonghan Lim

    and Birgit Vogel-Heuser and Ilya Kovalenko 背景 伝統的な製造業は動的環境への適応と迅速な変化対応に課 題を抱えています。 目的 製造におけるエージェントの自然言語指示理解と意思決定 能力の向上を目指します。 提案 大規模言語モデルが製造エージェントを強化し、適応性を 向上させます。 評価 ケーススタディを通じて、新しいフレームワークの実用性 を実証しました。 結果 フレームワークにより、エージェントの効果的な通信とタ スク理解が可能になりました。
  634. 役割に従え!大規模言語モデルにおける個人 の価値の安定性 Stick to your role! Stability of personal values

    expressed in large language models Grgur Kovač and Rémy Portelas and Masataka Sawayama and P. Dominey and Pierre-Yves Oudeyer 背景 LLMの文脈依存性は実践的適用を評価する際の課題であ り、重要な研究の焦点です。 目的 異なる文脈での価値表現の安定性を評価し、その重要性を 明らかにします。 提案 LLMの文脈依存性を新しい次元として分析することで、価 値表現の安定性を評価します。 評価 心理学アンケート PVQと行動下流タスクを用いて、異なる 文脈下での安定性を評価しました。 結果 特定の性格の模擬指示時、順位秩序安定性が低下するとい う新たな発見を提示しました。
  635. 不自然言語処理 : 言語モデルは機械生成され たプロンプトをどう処理するか Unnatural language processing: How do language

    models handle machine- generated prompts? Corentin Kervadec and Francesca Franzon and Marco Baroni 背景 言語モデルは自動生成プロンプトの有効性を調査する中で 注目されています。 目的 この研究は、機械生成プロンプトがモデルに及ぼす影響を 特定することを目的としています。 提案 人間と機械生成プロンプトが異なる応答パターンを引き起 こすと仮定します。 評価 異なるモデルサイズでの複数の意味タスクに対して応答パ ターンを分析します。 結果 自然言語プロンプトのみが言語的な回路を活性化すること が示唆されました。
  636. PyBench: LLMエージェントによる多様な 現実世界のコーディングタスク評価 PyBench: Evaluating LLM Agent on various real-world

    coding tasks Yaolun Zhang and Yinxu Pan and Yudong Wang and Jie Cai and Zhi Zheng and Guoyang Zeng and Zhiyuan Liu 背景 従来のベンチマークは単純または極度に複雑で、日常のタ スクを代表しない。 目的 日常的なコーディングタスクを評価する適切なベンチマー クの開発が必要。 提案 PyBenchは多様なファイルタイプを含む現実的なタスク を評価する新たな基準を提供する。 評価 4種のデータセットでの分析と実験により、包括的な能力 の必要性を証明する。 結果 PyLlama3は多くの大規模モデルを超える性能を示し た。
  637. 大規模言語モデルで認知エージェントを起動 する Bootstrapping Cognitive Agents with a Large Language Model

    Feiyu Zhu and Reid Simmons 背景 大規模言語モデルは一般知識を含むが、トレーニングが難 しい。 目的 認知アーキテクチャと大規模言語モデルの利点を統合す る。 提案 認知エージェントを大規模言語モデルの知識で起動するフ レームワークを提案。 評価 キッチンタスクを遂行する実体化エージェントで効率を実 験的に比較。 結果 提案フレームワークは効率的で、新しい環境への一般化能 力を示した。
  638. AIにプログラミングを教える : 大規模言語モ デルをプログラミング教育の教えられるエー ジェントとして活用 Teach AI How to Code:

    Using Large Language Models as Teachable Agents for Programming Education Hyoungwook Jin and Seonghee Lee and Hyun Joon Shin and Juho Kim 背景 学習者が「教える」ことで知識のギャップを特定する必要 があります。 目的 LLMの知識を制限し、学習意欲を促進する方法を模索しま す。 提案 提案するプロンプトパイプラインで LLMが「なぜ」と「ど のように」質問を発します。 評価 技術的評価と被験者間調査でプロンプトパイプラインの効 果を検証しました。 結果 AlgoBoの質問が知識豊富な会話を促進することを確認し ました。
  639. 検索強化機械学習 : 合成と機会 Retrieval-Enhanced Machine Learning: Synthesis and Opportunities To

    Eun Kim and Alireza Salemi and Andrew Drozdov and Fernando Diaz and Hamed Zamani 背景 検索コンポーネントを追加した言語モデルが NLPの課題を 解決。 目的 検索強化のパラダイムを広範な機械学習分野へ拡張。 提案 REMLフレームワークを体系的に表現し、各ドメインの文 献を合成。 評価 基本的な IR研究との統合不足を補うため各コンポーネント を調査。 結果 検索強化モデルの包括的構造を提供し、学際的研究を促 進。
  640. Text2BIM: 大規模言語モデルを用いたマル チエージェントフレームワークで建物モデル を生成 Text2BIM: Generating Building Models Using a

    Large Language Model-based Multi-Agent Framework Changyu Du and Sebastian Esser and Stavros Nousias and Andr'e Borrmann 背景 従来の BIM作成は複雑で面倒な操作が必要で、 AEC業界で の普及が難しい。 目的 設計意図を直感的に表現する方法を提供し、 BIM普及を促 進する。 提案 自然言語指示を用いる LLMベースのマルチエージェント フレームワークを提案。 評価 3つの異なる LLMの性能を比較分析する実験を実施。 結果 提案手法で高品質で構造的に合理的な建物モデルを効果的 に生成。
  641. 戦争と平和( WarAgent) :大規模言語モデ ルベースの世界大戦の多エージェントシミュ レーション War and Peace (WarAgent): Large

    Language Model-based Multi-Agent Simulation of World Wars Wenyue Hua and Lizhou Fan and Lingyao Li and Kai Mei and Jianchao Ji and Yingqiang Ge and Libby Hemphill and Yongfeng Zhang 背景 戦争回避の歴史的な探求を AI技術で再現。 目的 AIを用いて歴史的な国際紛争の回避手段を模索。 提案 WarAgentは LLMを活用する多エージェントシミュレー ションです。 評価 歴史的な戦争のシミュレーションで AIの能力を評価。 結果 AIは紛争解決への新しい洞察を提供可能。
  642. AI補助によるデータ分析の理解と検証方法 How Do Analysts Understand and Verify AI-Assisted Data Analyses?

    Ken Gu and Ruoxi Shang and Tim Althoff and Chenglong Wang and S. Drucker 背景 データ分析は多面的なスキルを要求し、 AIの支援が望まれ ているが、正確性の検証が課題。 目的 AIによるデータ分析の正確性を利用者がどのように理解 し、検証するかを解明する。 提案 自然言語説明、コード、視覚化、及びインタラクティブな データを装備したデザインプローブを開発した。 評価 質的ユーザースタディを通じ、多様な検証アプローチの中 で、一般的な振る舞いを観察した。 結果 アナリストの背景に応じた検証行動を明らかにし、デザイ ン改善の機会を示唆した。
  643. 人間より優しい : 大規模言語モデルは囚人の ジレンマでどのように振る舞うのか? Nicer Than Humans: How do Large

    Language Models Behave in the Prisoner's Dilemma? Nicol'o Fontana and Francesco Pierri and L. Aiello 背景 大規模言語モデルの社会的振る舞いの理解はまだ未解明。 目的 ゲーム理論での LLMの行動を明らかにし、その社会的意義 を探る。 提案 LLMの社会的刺激に対する反応を囚人のジレンマを通して 分析。 評価 100ラウンドゲームのシミュレーションで、モデルの協調 性を行動経済学的に分析。 結果 Llama2と GPT3.5は人間以上に協調的、 Llama3は非協力 的。
  644. 大規模言語モデルにおけるコードの組合せ硬 度 -- 確率的視点から Compositional Hardness of Code in Large

    Language Models -- A Probabilistic Perspective Yotam Wolf and Binyamin Rothberg and Dorin Shteyman and A. Shashua 背景 LLMの利用は複雑なタスクに対し、一度に解を出すのが 一般的です。 目的 LLM内の複数サブタスクの同時実行の限界を明らかにす ることが目的です。 提案 問題を分割し、 LLMのマルチエージェントシステムで分 配する利点を提示します。 評価 生成複雑性を用いて、その理論的かつ経験的な証明を行い ました。 結果 単一コンテキストとマルチエージェントで生成複雑性に数 乗的な差を確認しました。
  645. EconAgent: 大規模言語モデルを用いたエー ジェントによるマクロ経済活動のシミュレー ション EconAgent: Large Language Model-Empowered Agents for

    Simulating Macroeconomic Activities Nian Li and Chen Gao and Mingyu Li and Yong Li and Qingmin Liao 背景 人工知能はマクロ経済学でのデータ駆動型モデリングの重 要性を高めました。 目的 エージェントの異質性を考慮した現実的な意思決定を行う ことです。 提案 EconAgentはマクロ経済シミュレーションのための大規 模言語モデルを用いたエージェントです。 評価 シミュレーション環境で市場ダイナミクスを再現し、与え られた状況を検証しました。 結果 EconAgentは現実的な決定を行い、合理的なマクロ経済現 象を示しました。
  646. Y Social: LLM駆動のソーシャルメディア・ デジタル・ツイン Y Social: an LLM-powered Social Media

    Digital Twin Giulio Rossetti and Massimo Stella and Rémy Cazabet and Katherine Abramski and Erica Cau and Salvatore Citraro and Andrea Failla and Riccardo Improta and Virginia Morini and Valentina Pansanella 背景 デジタルツインは、物理システムの仮想モデルとして高度 な分析を可能にします。 目的 Yはオンライン交流の複雑さをシミュレートし理解するた めの手段です。 提案 LLMsを駆使してユーザー行動を再現するデジタルツイン を提案します。 評価 提案されたデジタルツインを用いて分析可能なデータ事例 を提示します。 結果 ユーザーエンゲージメントやプラットフォーム影響を理解 する貴重な洞察を提供します。
  647. PersonaLLM: 大規模言語モデルのビッグフ ァイブ性格特性表現能力の調査 PersonaLLM: Investigating the Ability of Large Language

    Models to Express Big Five Personality Traits Hang Jiang and Xiajie Zhang and Xubo Cao and Cynthia Breazeal and Jad Kabbara 背景 大規模言語モデルの個別化が進む中で、性格特性の正確な 反映が求められる。 目的 LLMのコンテンツがビッグファイブ性格モデルに一致する か調査する。 提案 ChatGPTと GPT-4を用い、異なる性格プロファイルの LLMペルソナを作成。 評価 BFI性格テストとストーリー作成を用い、自動・人間評価 でエッセイを分析した。 結果 ペルソナの BFIスコアは性格に一致し、心理言語学的特徴 とも相関が確認された。
  648. 生成的言語モデルは社会的アイデンティティ のバイアスを示す Generative Language Models Exhibit Social Identity Biases Tiancheng

    Hu and Yara Kyrychenko and Steve Rathje and Nigel Collier and S. V. D. Linden and Jon Roozenbeek 背景 大規模言語モデルの人気に伴い、これらが持つ可能性のあ るバイアスが懸念されています。 目的 56のモデルにおける社会的アイデンティティバイアスの 存在を調査します。 提案 内集団と外集団に対する連帯と敵意のバイアスを検証しま す。 評価 モデルに文を完成させるプロンプトを与え、結果を分析し ました。 結果 ほとんどのモデルは、内集団ポジティブ /外集団ネガティ ブのバイアスを示しました。
  649. 言語ベースの説得ゲームにおける人間の選択 予測 : シミュレーションベースのオフポリシ ー評価 Human Choice Prediction in Language-based

    Persuasion Games: Simulation- based Off-Policy Evaluation Eilam Shapira and Reut Apel and Moshe Tennenholtz and Roi Reichart 背景 大規模言語モデルの進化で、人間とのインタラクションエ ージェント設計が注目を集めています。 目的 オフポリシー評価での人間の意思決定予測を改善すること が本研究の目的です。 提案 シミュレーション技術を活用し、エージェント間の相互作 用を通じて予測モデルを強化します。 評価 人間と人工エージェントの 87,000の意思決定を分析し、 モデルの予測精度を評価しました。 結果 予測精度が 7.1%向上し、特に難しいケースでの OPE改善 を確認しました。
  650. 金融における AI採用の拡大 : モデルフレーム ワークと実装研究 Scaling AI adoption in finance:

    modelling framework and implementation study Thomas Sepanosian and Zoran Milosevic and Andrew Blair 背景 金融業界での AI活用は進行中だが、効率性と信頼性が課 題。 目的 AIを金融業界で効率的かつ信頼性高く採用するための方法 を探る。 提案 新しいモデルフレームワークによって、 AI実装の課題を克 服する手法を提案。 評価 提案手法の有効性を検証するために、ケーススタディを実 施。 結果 提案されたフレームワークが AI採用の効率性向上に寄与す ることを確認。
  651. LLMベースのマルチエージェントシミュレー ションによるソーシャルメディア規制回避の ための言語進化 Language Evolution for Evading Social Media Regulation

    via LLM-Based Multi- Agent Simulation Jinyu Cai and Jialong Li and Mingyue Zhang and Munan Li and Chen-Shu Wang and Kenji Tei 背景 ソーシャルメディアは地政学的規制を受け、ユーザーは言 語を工夫して進化させている。 目的 規制された環境での言語進化を研究し、言論の自由を守る ことが目的。 提案 LLMに基づくマルチエージェントシミュレーションで言 語変化を探求。 評価 抽象から現実まで多様なシナリオでフレームワークの効果 を評価。 結果 LLMが複雑な言語動態をシミュレートし、規制回避と情 報正確性が向上。
  652. OdorAgent: 大規模言語モデルに基づく映画 の香りシーケンス生成 OdorAgent: Generate Odor Sequences for Movies Based

    on Large Language Model Yu Zhang and Peizhong Gao and Fangzhou Kang and Jiaxiang Li and Jiacheng Liu and Qi Lu and Yingqing Xu 背景 映画に香りを統合することで、視聴者の没入体験が向上し ます。 目的 専門家なしで映画と香りを合わせる自動化システムを開発 すること。 提案 OdorAgentは LLMとテキスト -画像モデルを用いて香りを 生成します。 評価 特定の映画での適用と、ユーザー調査による効果検証を行 いました。 結果 OdorAgentはシーン適応性を持ち、非専門家でも香り体験 を設計可能です。
  653. インタラクティブな具現化エージェントの能 力再定義による人間中心 AIコラボレーション の変革 Transforming Human-Centered AI Collaboration: Redefining Embodied

    Agents Capabilities through Interactive Grounded Language Instructions Shrestha Mohanty and Negar Arabzadeh and Julia Kiseleva and Artem Zholus and Milagro Teruel and A. Awadallah and Yuxuan Sun and Kavya Srinet and Arthur Szlam 背景 人間の知能は、適応力を持ち新しいタスクや環境に対応可 能です。 目的 インタラクティブな具現化エージェントの開発を目指しま す。 提案 言語指示収集ツールとデータセットを提供します。 評価 提供したツールとデータセットを使い新しいベースライン を評価しました。 結果 提供した基盤は、さらなる研究の発展に貢献します。
  654. 生成 AIは社会科学を向上させることができる か? Can Generative AI improve social science? Christopher

    A Bail 背景 生成 AIは様々な産業を変革しており、その影響力が拡大し ています。 目的 社会科学における生成 AIの可能性と限界について検証しま す。 提案 生成 AIが調査や実験を改善し得る可能性を提案します。 評価 データのバイアスや倫理的問題を分析し、評価します。 結果 オープンソースインフラの構築が限界克服につながると結 論します。
  655. 公共行政危機のシミュレーション : 社会科学 研究における技術障壁を下げる新しい生成エ ージェントベースのシミュレーションシステ Simulating Public Administration Crisis: A

    Novel Generative Agent-Based Simulation System to Lower Technology Barriers in Social Science Research Bushi Xiao and Ziyuan Yin and Zixuan Shan 背景 社会科学での技術障壁を克服し、複雑な社会シミュレーシ ョンの重要性を示す。 目的 特定の公共行政イベントに対する仮想政府の反応をシミュ レートし、その意味を探る。 提案 生成エージェントベースのシステムを導入し、社会科学研 究の新手法として提案。 評価 水質汚染事件のシミュレーションを使用し、生成エージェ ントの記憶が意思決定に与える影響を分析。 結果 提案システムは、社会科学調査における柔軟性と使用のし やすさを強化。
  656. 人間と AIの協力タスクにおける LLMのエージ ェンシー調査 Investigating Agency of LLMs in Human-AI

    Collaboration Tasks Ashish Sharma and Sudha Rao and C. Brockett and Akanksha Malhotra and N. Jojic and W. Dolan 背景 エージェンシーは LLMが人間のように振る舞うために重要 ですが、十分な注意が払われていません。 目的 研究では、 LLMが持つべきエージェンシーを測定および管 理する方法の探求を目指します。 提案 意図、動機付け、自己効力感、自己調整といった特徴を通 じてエージェンシーを表現する枠組みを提案します。 評価 83の人間同士の協働インテリア会話から得たデータセッ トを用いて、 LLMのエージェンシー評価の手法を開発しまし 結果 高い意図性、動機付け、自己効力感、自己調整を示すモデ ルは、より強いエージェンシーを持つと評価されました。
  657. こんにちは再び! LLM駆動の長期対話のため のパーソナルエージェント Hello Again! LLM-powered Personalized Agent for Long-term

    Dialogue Hao Li and Chenghao Yang and An Zhang and Yang Deng and Xiang Wang and Tat-Seng Chua 背景 対話システムは短期的なやり取りに集中し、長期的な付き 合いが不足しています。 目的 イベントサマリーとペルソナ管理で長期的な対話品質を改 善。 提案 LD-Agentを用いてイベント認識・ペルソナ抽出・応答生 成を行う。 評価 イベントメモリーモジュールで歴史・進行セッションに焦 点を当てた分析を実施。 結果 LD-Agentの効果と汎用性が多様なタスクで実証されまし た。
  658. モバイルデバイスにおける動的なツール対応 エージェントチーム : MobileExpertsの紹介 MobileExperts: A Dynamic Tool-Enabled Agent Team

    in Mobile Devices Jiayi Zhang and Chuang Zhao and Yihan Zhao and Zhaoyang Yu and Ming He and Jianpin Fan 背景 モバイルデバイスの自律的操作は人々の長年の目標であ り、高度な自動化が求められています。 目的 MobileExpertsは、複雑タスク処理と推論コスト削減を目 指す研究です。 提案 MobileExpertsはツールの設計とマルチエージェント協 力を活用し、動的なチーム構築を提案します。 評価 新たな階層的知能レベルのベンチマークで、 MobileExpertsの効果を検証しました。 結果 実験により、 **22%**の推論コスト削減と優れた性能を確 認しました。
  659. AutoGen: 次世代の LLMアプリケーション をマルチエージェント会話で可能にする AutoGen: Enabling Next-Gen LLM Applications via

    Multi-Agent Conversation Qingyun Wu and Gagan Bansal and Jieyu Zhang and Yiran Wu and Beibin Li and Erkang Zhu and Li Jiang and Xiaoyun Zhang and Shaokun Zhang and Jiale Liu and A. Awadallah and Ryen W White and Doug Burger and 背景 最近の LLMの進化により、会話型 AIの可能性が大幅に向 上。 目的 開発者がより柔軟で複雑なアプリケーションを構築できる よう支援。 提案 AutoGenフレームワークは、エージェント間の柔軟な会 話を可能にする。 評価 エージェント会話を用いた多様な領域での実証研究を実 施。 結果 フレームワークが多様な応用で有効性を示すことが実証さ れた。
  660. アクション学習を通じた大規模言語モデルエ ージェントの強化 Empowering Large Language Model Agents through Action Learning

    Haiteng Zhao and Chang Ma and Guoyin Wang and Jing Su and Lingpeng Kong and Jingjing Xu and Zhi-Hong Deng and Hongxia Yang 背景 LLMエージェントは試行錯誤から学ぶ能力に限界があ り、成長が制限される。 目的 経験から新たなアクションを学ぶ能力の向上が目指されて いる。 提案 オープンアクション学習を探り LearnActフレームワークを 提案する。 評価 Robotic Planningと Alfworld環境での実験評価を行っ た。 結果 提案手法はエージェントのパフォーマンスを顕著に 32% 改善した。
  661. 静的評価を超えて : AIアシスタントの API呼 び出し能力を評価する動的アプローチ Beyond Static Evaluation: A Dynamic

    Approach to Assessing AI Assistants’ API Invocation Capabilities Honglin Mu and Yang Xu and Yunlong Feng and Xiaofeng Han and Yitong Li and Yutai Hou and Wanxiang Che 背景 大規模言語モデルの進化に伴い、 AIの API利用能力の評価 方法が重要となっています。 目的 AIアシスタントの API呼び出し能力の評価をより人間に近 づけることを目的としています。 提案 人間の介入なしで評価できる **自動動的評価( AutoDE) **を提案します。 評価 我々は、 LLMを用いたユーザーエージェントで人間的な対 話を模倣し、評価しました。 結果 AutoDEは静的評価よりも人間の評価と近い結果を示しま した。
  662. LLMエージェントの協力メカニズムの探究: 社会心理学的視点 Exploring Collaboration Mechanisms for LLM Agents: A Social

    Psychology View Jintian Zhang and Xin Xu and Ruibo Liu and Shumin Deng 背景 NLPシステムの協力能力は複雑な社会環境において重要で す。 目的 LLMエージェントが人間のように協力できるかを探究し ます。 提案 社会心理学の理論を応用してエージェントの協力メカニズ ムを分析します。 評価 ベンチマークデータセットを用いて、エージェントの協力 戦略を評価しました。 結果 特定の戦略がトップアプローチを超え、効率性を示しまし た。
  663. 自動メンタルヘルスケアにおける言語モデル のリスク : 実装における倫理と構造 Risks from Language Models for Automated

    Mental Healthcare: Ethics and Structure for Implementation D. Grabb and Max Lamparth and N. Vasan 背景 自動メンタルヘルスケア AIに注目する中、人間の専門家基 準に達していない現実があります。 目的 AIモデルが精神障害を管理できる安全性の確保が目的で す。 提案 倫理フレームワークとデフォルト行動に沿った構造的枠組 みを提案します。 評価 精神科の専門医が設計した 16の質問で、 10の最新言語モ デルを評価しました。 結果 現行モデルは緊急時に危害を与える可能性があり、安全性 向上が必要です。
  664. 過去をブレンドして洗練することで、絶え間 なく進化する記憶 Ever-Evolving Memory by Blending and Refining the Past

    Seo Hyun Kim and Keummin Ka and Yohan Jo and Seung-won Hwang and Dongha Lee and Jinyoung Yeo 背景 現在の言語モデルは長期記憶を欠き、会話の質を低下させ ます。 目的 長期記憶を効果的に構築し、情報の冗長性を減少させるこ とです。 提案 CREEMという新しい記憶システムは、過去と現在をブレ ンドします。 評価 記憶と応答の質向上を、評価により実証しました。 結果 CREEMは個別対話における記憶と応答の質を向上させま す。
  665. Sibyl: 複雑な現実世界の推論に向けたシンプ ルで効果的なエージェントフレームワーク Sibyl: Simple yet Effective Agent Framework for

    Complex Real-world Reasoning Yulong Wang and Tianhao Shen and Lifeng Liu and Jian Xie 背景 既存の LLMエージェントは長期推論とツール使用に課題が ある。 目的 Sibylは複雑な推論タスクに対応するための効率的なフレ ームワークを提案。 提案 グローバルワークスペース理論に基づき、知識管理を強化 したシステムを提案。 評価 GAIAベンチマークを利用して、 GPT-4ベースで性能を検 証。 結果 Sibylエージェントは平均 34.55%で最高性能を達成。
  666. 記憶の重要性 : LLMエージェントにおける長 期記憶の改善 Memory Matters: The Need to Improve

    Long-Term Memory in LLM-Agents Kostas Hatalis and Despina Christou and Joshua Myers and Steven Jones and Keith Lambert and Adam Amos- Binks and Zohreh Dannenhauer and Dustin Dannenhauer 背景 LLMエージェントは長期記憶の改善が必要不可欠です。 目的 長期記憶管理を改善しエージェントの能力を向上させるこ とです。 提案 ベクターデータベースとメタデータ統合により記憶を強化 します。 評価 メモリの分離と管理に関する課題を解決する手法を提案し ます。 結果 外部知識源の統合でエージェントの性能向上が示唆されま す。
  667. 生成型レコメンデーションのための大規模言 語モデル : 調査と未来展望 Large Language Models for Generative Recommendation:

    A Survey and Visionary Discussions Lei Li and Yongfeng Zhang and Dugang Liu and L. Chen 背景 LLMは NLPだけでなく、レコメンデーションシステムを 大きく変える可能性があります。 目的 LLMを活用し、従来のパイプラインを超えた生成型レコメ ンデーションの実現です。 提案 スコア計算やランク付け不要で、 LLMによりレコメンデ ーションを直接生成する手法を提案します。 評価 3つの質問に基づき、 LLMを用いた様々な RSタスクへの 実装を検討しました。 結果 LLMによる生成型レコメンデーションの方法と将来の研究 指針を提供しました。
  668. 対称的現実の出現について On the Emergence of Symmetrical Reality Zhenlian Zhang and

    Zeyu Zhang and Ziyuan Jiao and Yao Su and Hangxin Liu and Wei Wang and Song-Chun Zhu 背景 AIは人間の認知を変革し、物理と仮想を統合する方法が求 められています。 目的 AIと人間の共存を考慮したフレームワークの確立が重要で す。 提案 対称的現実フレームワークで物理と仮想の融合を一貫して 可視化します。 評価 システム試作を通じて、対称的現実の操作例を示すことで 評価を行いました。 結果 AIと人間の共存を支援する実用的なサービスの可能性を示 しました。
  669. StrategyLLM: 問題解決のためのストラテ ジー生成、実行、最適化、評価の大規模言語 モデル StrategyLLM: Large Language Models as Strategy

    Generators, Executors, Optimizers, and Evaluators for Problem Solving Chang Gao and Haiyun Jiang and Deng Cai and Shuming Shi and Wai Lam 背景 既存のプロンプト手法は一貫性と汎用性に課題がありま す。 目的 一般的な問題解決における LLMの普遍性と一貫性を向上さ せることです。 提案 StrategyLLMは総合的な枠組みを提供し、 LLMの戦略生成 と評価を最適化します。 評価 戦略生成、実行、最適化、評価のエージェントを使用し、 実験で競争相手を比較しました。 結果 StrategyLLMは競合他モデルよりも高い性能を示しまし た。
  670. コンテキストと時間に敏感な長期記憶を持つ 会話エージェントを目指して Toward Conversational Agents with Context and Time Sensitive

    Long-term Memory Nick Alonso and Tom'as Figliolia and A. Ndirango and Beren Millidge 背景 長期記憶を持つ会話エージェントは、コンテキスト理解と 情報検索で重要視されています。 目的 本研究は、時間 /イベントや曖昧な問い合わせの解決を目 指しています。 提案 チェーンテーブル探索とプロンプト手法を組み合わせた新 しい検索モデルを提案します。 評価 曖昧および時間ベースの質問を含む新たなデータセットを 使用し、モデルの性能を評価しました。 結果 提案された方法は、従来の RAGアプローチよりも大幅に改 善された性能を示しました。
  671. MIMIR: ドメイン専門知識におけるパーソナ ライズされたエージェント調整のための簡易 プラットフォーム MIMIR: A Streamlined Platform for Personalized

    Agent Tuning in Domain Expertise Chunyuan Deng and Xiangru Tang and Yilun Zhao and Hanming Wang and Haoran Wang and Wangchunshu Zhou and Arman Cohan and Mark Gerstein 背景 大規模言語モデルは多様なタスクにおいて重要性を増して いるが、効率性の向上が課題です。 目的 特定エージェント調整の欠如を補完し、効率を GPT-4に匹 敵させることが目的です。 提案 Mimirプラットフォームにより、プライベート知識と公開 データセットを活用したエージェント調整を提案します。 評価 パーソナライズされたファイルを用いた調整プロセスと一 般能力を高めるデータセット生成を評価します。 結果 Mimirは効率的なエージェント調整を実現し、特定と一般 能力の向上を確認しました。
  672. RET-LLM: 大規模言語モデルのための一般 的な読書書メモリへの試み RET-LLM: Towards a General Read-Write Memory for

    Large Language Models Ali Modarressi and Ayyoob Imani and Mohsen Fayyaz and Hinrich Schütze 背景 LLMは多くのデータを扱いますが、明示的な記憶ユニット が欠けており知識処理が制限されています。 目的 LLMに記憶を強化し、より効果的な知識利用を実現するこ とが目的です。 提案 RET-LLMは、書き込み・読み取り可能なメモリユニット を LLMに統合するフレームワークです。 評価 質的評価手法を用いて、質問応答タスクにおける性能をベ ースラインと比較しました。 結果 時間依存の質問応答での性能が向上し、フレームワークの 有効性を示しました。
  673. 大規模意思決定モデル Large Decision Models Weinan Zhang 背景 連続決定問題は専門家システムと強化学習によるが低コス トな解決が難航しています。 目的

    新しいタスクへの一般化を実現する大規模意思決定モデル の有効性を検討します。 提案 トランスフォーマーを用いた新たなパラダイムが提案され ています。 評価 オフライン強化学習シナリオにおけるシーケンスモデリン グ方法の有効性を初期試行で検証します。 結果 モデルのサイズ拡大で一般化能力と適応性の向上が確認さ れ、近未来的な人工知能の可能性が示されました。
  674. 貫通型 AI: LLMに物理世界を理解させる Penetrative AI: Making LLMs Comprehend the Physical

    World Huatao Xu and Liying Han and Qirui Yang and Mo Li and Mani Srivastava 背景 LLMの能力が向上する中、物理世界の知識との統合が求 められています。 目的 本研究は、 LLMが IoTデータを利用して物理世界を理解す る方法を解明します。 提案 IoTセンサーとアクチュエータを用いて貫通型 AIを提案 し、物理世界への浸透を図ります。 評価 ChatGPTを用い、センサーデータの解釈と物理タスクの 推論能力を初期調査します。 結果 LLMは、 IoTデータの解釈と物理領域での推論において独 自の性能を示しました。
  675. 知識強化大型言語モデルに基づく心理介入チ ャットエージェント VCounselor VCounselor: A Psychological Intervention Chat Agent Based

    on a Knowledge- Enhanced Large Language Model H. Zhang and Z. Qiao and H. Wang and B. Duan and J. Yin 背景 会話型 AIは心理介入に使われますが、現行モデルには効果 と信頼性に課題があります。 目的 VCounselorの開発で、大型言語モデルの心理介入にお ける限界を克服します。 提案 新しい感情的対話と知識強化構造を統合した VCounselor を提案します。 評価 VCounselorと一般および微調整済みモデルを、アバター 付きで比較評価しました。 結果 VCounselorは心理介入の効果と信頼性を大幅に向上させ ました。
  676. 再帰的熟考による LLMエージェントの効果的 なだまし対応の強化 Boosting LLM Agents with Recursive Contemplation for

    Effective Deception Handling Shenzhi Wang and Chang Liu and Zilong Zheng and Siyuan Qi and Shuo Chen and Qisen Yang and Andrew Zhao and Chaofei Wang and Shiji Song and Gao Huang 背景 現代の複雑な対話環境で、欺瞞検出は重要な課題である。 目的 LLMエージェントによる欺瞞処理能力の向上を目指す。 提案 再帰的熟考を活用し、エージェントの判断力を強化する手 法を提案。 評価 複数の異なる状況で評価を行い、判断力の向上を検証。 結果 エージェントはより精緻な判断をし、性能が向上した。
  677. 検証可能な回答を持つ科学 QAシステム Scientific QA System with Verifiable Answers Adela Ljaji'c

    and Milos Kosprdic and Bojana Bašaragin and Darija Medvecki and Lorenzo Cassano and Nikola Milosevic 背景 科学的情報の正確性を保つことが求められており、妄想や 誤情報が許されません。 目的 正確で検証可能な回答を提供することで、科学者の生産性 を向上させます。 提案 セマンティック検索と RAGモジュールを組み合わせた QA システムを提案します。 評価 SciFACTデータセットを使用した自然言語推論による検証 エンジンで評価しました。 結果 正確で信頼できる回答を生成し、情報の信頼性を向上させ ました。
  678. 仮面をかぶっていますか?オンラインソーシ ャルネットワークにおける大規模言語モデル 駆動ソーシャルボットの行動と影響の探求 Are you in a Masquerade? Exploring the

    Behavior and Impact of Large Language Model Driven Social Bots in Online Social Networks Siyu Li and Jin Yang and Kui Zhao 背景 大規模言語モデル( LLMs)がソーシャルボットの能力を 飛躍的に向上させている。 目的 LLMs駆動ソーシャルボットの行動特性とネットワークへ の影響を調査する。 提案 LLMsを使用してユーザーフレンドリーなソーシャルボッ トを実装。 評価 Twitter類似のネットワークデータを利用し、探索的研究を 実施。 結果 LLMsボットは偽装の強化とオンライン影響力を有するこ とを確認。
  679. 金融市場における異常検知を強化する LLMベ ース多エージェントフレームワーク Enhancing Anomaly Detection in Financial Markets with

    an LLM-based Multi- Agent Framework Taejin Park 背景 金融市場ではシステム生成の異常警告の手動検証が課題と されています。 目的 この研究は、 AIを用いて金融データの異常検知の効率性を 向上させることを目的とします。 提案 LLMベースの多エージェントフレームワークが金融異常 を自動で検証・解釈します。 評価 S&P 500指数を用いて、 AIエージェントの効率性と正確性 を検証しました。 結果 自動化により作業効率が向上し、金融市場監視の適用可能 性を示しました。
  680. タスク学習のためのエージェント分析による LLMの知識抽出向上 Improving Knowledge Extraction from LLMs for Task Learning

    through Agent Analysis James R. Kirk and R. Wray and Peter Lindes and John E. Laird 背景 大規模言語モデル( LLM)はタスク学習の知識源として有 望ですが、状況的知識の取得には限界があります。 目的 本研究は、プロンプトエンジニアリングの限界を超え、エ ージェントが新しいタスク知識を効果的に取得する方法の開発 提案 認知エージェントアプローチの STARSは、 LLMの応答空 間を拡大し、評価や選択を可能にします。 評価 提案手法を用いて、エージェントがワンショット学習でタ スクを完遂する能力を実験的に検証しました。 結果 エージェントは 77-94%のタスク完了を達成し、人間の監 督で **100%**の完了が可能となりました。
  681. 言語モデル生成における基盤のギャップ Grounding Gaps in Language Model Generations Omar Shaikh and

    Kristina Gligori'c and Ashna Khetan and Matthias Gerstgrasser and Diyi Yang and Dan Jurafsky 背景 共通の基盤は会話のスムーズさに不可欠で、誤解を避ける ために必要です。 目的 大規模言語モデル( LLMs)が会話の基盤を反映できるか を解明します。 提案 基盤行為を収集し、基盤試行を定量化するメトリクスを提 案します。 評価 複数の対話データセットを使って LLMの生成物を人間と比 較しました。 結果 LLMは共通の基盤を仮定しがちで、基盤行為が少ないこと がわかりました。
  682. LLMベースのエージェントネットワークによ る意見動力学のシミュレーション Simulating Opinion Dynamics with Networks of LLM-based Agents

    Yun-Shiuan Chuang and Agam Goyal and Nikunj Harlalka and Siddharth Suresh and Robert Hawkins and Sijia Yang and Dhavan Shah and Junjie Hu and Timothy T. Rogers 背景 意見動力学の正確なシミュレーションは、社会現象の理解 に不可欠です。 目的 人間行動を単純化しない意見動力学の新しい手法を提案し ます。 提案 LLMを用いて正確な情報生成バイアスを調査し、意見動 力学をシミュレートします。 評価 プロンプトエンジニアリングにより、 LLMエージェントに 確証バイアスを導入しました。 結果 意見の断片化が観察され、 LLMの可能性と限界が示されま した。
  683. 魅力的な会話の秘密を解き明かす :ユーザーを 夢中にさせるロールプレイング対話エージェ ントの要因 Unveiling the Secrets of Engaging Conversations:

    Factors that Keep Users Hooked on Role-Playing Dialog Agents Shuai Zhang and Yu Lu and Junwen Liu and Jia Yu and Huachuan Qiu and Yuming Yan and Zhenzhong Lan 背景 対話エージェントの人間的進化により、長時間の対話の分 析が必要。 目的 ユーザー定着率への影響要因を探り、その重要性を解明。 提案 ロールプレイングモデルとユーザーのインタラクションを 系統的に分析。 評価 ユーザーとキャラクター間の大規模データを分析して評 価。 結果 発話の長さが定着率に影響し、役割の具現化は影響が少な い。
  684. 人間と言語モデルの相互作用の評価 Evaluating Human-Language Model Interaction Mina Lee and Megha Srivastava

    and Amelia Hardy and John Thickstun and Esin Durmus and Ashwin Paranjape and Ines Gerard-Ursin and Xiang Lisa Li and Faisal Ladhak and Frieda Rong and Rose E. Wang and Minae Kwon 背景 言語モデルは多くの現実的な用途で人間とのインタラクシ ョンを含んでいます。 目的 インタラクションを考慮した評価基準の重要性を明らかに します。 提案 HALIEはインタラクティブシステムの評価基準を設計する 新しい枠組みです。 評価 5つのタスクで 4つの最先端 LMを評価しました。 結果 非インタラクティブな性能はインタラクションと必ずしも 一致しません。
  685. プロのカウンターストライクプレイヤーのよ うに動くことを学ぶ Learning to Move Like Professional Counter-Strike Players David

    Durst and Feng Xie and Vishnu Sarukkai and Brennan Shacklett and I. Frosio and Chen Tessler and Joohwan Kim and Carly Taylor and Gilbert Bernstein and Sanjiban Choudhury and Pat Hanrahan and Kayvon 背景 FPSゲームではチーム動きの最適化が難しく、手作業での 政策策定は非実用的です。 目的 データ駆動型で人間らしい動きを生成する新しいアプロー チを探求しています。 提案 プロのプレイデータを訓練し、変換器ベースのモデルで人 間らしい動きを生成します。 評価 人間評価とボット対戦を通じ、動きのリアリズムと効果を 分析しました。 結果 モデルは効果的なチームワークを示し、より人間らしい動 きを達成しました。
  686. LLMを活用したエージェントによる教室教育 のシミュレーション Simulating Classroom Education with LLM-Empowered Agents Zheyuan Zhang

    and Daniel Zhang-li and Jifan Yu and Linlu Gong and Jinchang Zhou and Zhiyuan Liu and Lei Hou and Juanzi Li 背景 **大規模言語モデル( LLM) **は教育支援タスクでの利用 が進んでいるが、複数エージェントとの協働は未探索です。 目的 SimClassを通じて、マルチエージェントを用いた仮想教 室の可能性を探ること。 提案 ユーザー参加型の SimClassフレームワークを提案し、教 室シミュレーションを実現します。 評価 Flanders Interactive Analysis Systemと Community of Inquiry理論を用いて実証実験を実施しまし 結果 LLMが教室の対話パターンを効果的に再現し、学習体験を 向上させることを確認しました。
  687. DUAL-REFLECT: デュアルラーニングによ る反射翻訳の大規模言語モデル強化 DUAL-REFLECT: Enhancing Large Language Models for Reflective

    Translation through Dual Learning Feedback Mechanisms Andong Chen and Lianzhang Lou and Kehai Chen and Xuefeng Bai and Yang Xiang and Muyun Yang and Tiejun Zhao and Min Zhang 背景 大規模言語モデルの翻訳は人間らしいフィードバック不足 が課題。 目的 翻訳性能を制約するフィードバックの効果不足を改善する こと。 提案 DUAL-REFLECTフレームワークでデュアルラーニング を活用し改善。 評価 各種翻訳タスクで効果を検証し精度向上を確認。 結果 提案手法は曖昧さを排除し、リソース不足言語で効果的。
  688. Lyfe Agents: 低コストかつリアルタイムな 社会的インタラクションを実現する生成エー ジェント Lyfe Agents: Generative agents for

    low-cost real-time social interactions Zhao Kaiya and Michelangelo Naim and J. Kondic and Manuel Cortes and Jiaxin Ge and Shuying Luo and Guangyu Robert Yang and Andrew Ahn 背景 高コストなリアルタイムインタラクションが仮想社会での 大きな課題となっている。 目的 低コストかつリアルタイムな社会的インタラクションの実 現を目指す。 提案 Lyfe Agentsは、選択肢行動と非同期モニタリングを用い た新手法を提案。 評価 LyfeGame 3D環境での自己動機付けと社交性をシナリオ を通じて評価。 結果 Lyfe Agentsは人間らしい社会的推論を低コストで実現 し、効果を実証。
  689. 学習エージェントによるエージェントベース 経済システムの経験的均衡 Empirical Equilibria in Agent-based Economic systems with Learning

    agents Kshama Dwarakanath and Svitlana Vyetrenko and T. Balch 背景 経済システムのエージェント間の動的相互作用は複雑で、 従来の方法では十分に理解されていない。 目的 この研究は、エージェントシステムでの動的均衡戦略を強 化学習で探求することを目的とする。 提案 PSROアルゴリズムを経済エージェントモデルに統合し、 ナッシュ均衡に近い戦略を開発する。 評価 提案した方法を、異なる目的を持つ四種類のエージェント を含むシミュレーションシステムで評価した。 結果 PSROを用いると、低い後悔値を達成し、均衡戦略の有効 性が示された。
  690. データからストーリーへ : LLMベースのマル チエージェントシステムによる自動アニメデ ータ動画作成 From Data to Story: Towards

    Automatic Animated Data Video Creation with LLM- based Multi-Agent Systems Leixian Shen and Haotian Li and Yun Wang and Huamin Qu 背景 データストーリー作成は、注意力や専門スキルの必要性で 困難とされています。 目的 データストーリーテリングのワークフローを自動化するた めの新しいシステムの設計が目的です。 提案 Data Directorは、 LLMを用いたマルチエージェントシ ステムで、データ動画の生成を自動化します。 評価 ケーススタディを通じて、 Data Directorのデータ動画生成 能力を評価しました。 結果 自律エージェントにおける課題を解決し、今後の最適化の 方向性を示しました。
  691. 推測による検索強化言語モデルの高速化 Accelerating Retrieval-Augmented Language Model Serving with Speculation Zhihao Zhang

    and Alan Zhu and Lijie Yang and Yihua Xu and Lanting Li and P. Phothilimthana and Zhihao Jia 背景 検索強化言語モデル( RaLM)は知識集約型タスクにおけ る低コスト適応に優れています。 目的 反復型 RaLMの遅延解消を目指して性能を向上させます。 提案 RaLMSpecは推測に基づいた枠組みを提供し、高速化を 図ります。 評価 3つの言語モデルと 4つの QAデータセットを用いて広範な 評価を行いました。 結果 RaLMSpecにより最大 7.59倍の速度向上を確認しまし た。
  692. 人工物の社会的役割 : チャットボットと AIの 倫理 Social Agency for Artifacts: Chatbots

    and the Ethics of Artificial Intelligence John Symons and Syed Abumusab 背景 AIの社会的影響が、既存の社会関係を変える可能性があり ます。 目的 AIの社会的エージェンシーを理解し、適切に展開する基準 を探ることです。 提案 従来の哲学とは異なるエージェンシーの枠組みを提案しま す。 評価 エージェンシーの別個の側面と次元を分けて研究しまし た。 結果 提案する枠組みは、 AI倫理の進展に寄与します。
  693. ニュースレコメンデーションエコシステムの 洞察と影響のシミュレーション Simulating News Recommendation Ecosystems for Insights and Implications

    Guangping Zhang and Dongsheng Li and Hansu Gu and T. Lu and Li Shang and Ning Gu 背景 従来のニュース推薦システムは静的データ解析に依存し、 長期的効果を理解できていない。 目的 ニュース推薦システムの進化と影響を分析し、最適化を目 指す。 提案 SimuLineプラットフォームでエコシステムを再現し、進 化を解明する。 評価 定量指標や可視化、テキスト説明を用いてシミュレーショ ン実験を実施。 結果 進化段階の特性とシステム設計戦略の影響を示し、新知見 を提供。
  694. 異なるグループのアイデア露出がグループ創 造的問題解決に与える影響 The impact of intergroup idea exposure on group

    creative problem-solving J. Kenworthy and Lauren Coursey and Jubilee J. Dickson and Paul B. Paulus and B. Rozich and L. Marusich 背景 グループ創造性を高める手法は、重要な研究テーマであ る。 目的 他グループのアイデアへのアクセス方法が創造性に与える 影響を解明する。 提案 異なるアクセス条件でのグループ間のアイデア共有が創造 性を促進する。 評価 3つの条件で実験し、最終プランの新規性と統合的複雑性 を分析した。 結果 『仲介条件』が最大限のグループ間活動を促し、斬新性と 語彙類似性の負関係が確認された。
  695. 人間 ‐AI危機管理システムにおけるシミュレ ーション Simulations in human‐AI crisis management systems Elise

    Karinshak 背景 危機管理の各フェーズにおける AIの活用が必要です。 目的 AIが危機管理者の意思決定とコミュニケーションを支援し ます。 提案 AIベースのシミュレーションツールの活用を提案します。 評価 現在と将来の AIの応用による機会とリスクを議論します。 結果 AIは組織のリスク特定とコミュニケーション向上を支援し ます。
  696. 推薦における生成エージェントについて On Generative Agents in Recommendation An Zhang and Leheng

    Sheng and Yuxin Chen and Hao Li and Yang Deng and Xiang Wang and Tat-Seng Chua 背景 推薦システムのオフラインとオンライン性能のギャップが 発展を妨げています。 目的 LLMを活用した生成エージェントで現実のユーザー行動 を忠実にシミュレーションすること。 提案 Agent4Recというユーザーシミュレーターを提案し、 LLMの生成エージェントを利用。 評価 Agent4Recの能力と限界を評価し、フィルターバブル効 果なども探求。 結果 エージェントとユーザープリファレンスの一致と逸脱を確 認。
  697. Apollonion: プロフィール中心の対話エージ ェント Apollonion: Profile-centric Dialog Agent Shangyu Chen and

    Zibo Zhao and Yuanyuan Zhao and Xiang Li 背景 LLMは多様な応答を可能にしましたが、ユーザー視点のパ ーソナライズに課題があります。 目的 エージェントが異なるユーザーに応じた個別の応答を提供 できるようにすることが目的です。 提案 ユーザーのクエリと応答を 分析・組織化 し、個別の応答 を導くフレームワークを提案します。 評価 パーソナライズの度合いを測定するための評価プロトコル をシリーズとして提案しました。 結果 このフレームワークにより、 LLMの応答の個別性が向上す ることが示されました。
  698. LingoLand: 言語学習のための AI支援没入型 ゲーム LingoLand: An AI-Assisted Immersive Game for

    Language Learning Olivia Seow 背景 外国語への没入による学習効果は高いが、不安やアクセス が障壁とされています。 目的 LingoLandは、不安軽減とアクセス向上で外国語学習を 支援することを目指します。 提案 生成マシンラーニングを使用して、現実的なシナリオでの 対話型言語学習ゲームを開発します。 評価 プレーヤーの言語スキルと文化理解の向上を検証するた め、インタラクションとフィードバックを評価します。 結果 プレーヤーは実践的な言語スキルを楽しみながら取得し、 異文化理解を深めました。
  699. 大規模言語モデルでのロールプレイ Role play with large language models M. Shanahan and

    Kyle McDonell and Laria Reynolds 背景 対話エージェントは日々人間的な性能を高めており、その 振る舞いをどう記述するかが課題です。 目的 ロールプレイにより、人間特性を割り当てずにエージェン ト行動を説明する方法を提案します。 提案 対話エージェントの行動をロールプレイとして捉え、欺瞞 と自己認識を分析します。 評価 対話エージェント行動の 2つの重要ケースをロールプレイ として説明する方法を検討しました。 結果 ロールプレイにより、エージェントの行動を人間的特性を 割り当てずに理解できることを示しました。
  700. 大規模言語モデル時代の人間 -AIインタラク ション Human-AI Interaction in the Age of Large

    Language Models Diyi Yang 背景 大規模言語モデルは、 AIとのインタラクションを変革し、 多分野の発展を支えています。 目的 人間 -AI協働により、社会科学研究の効率化と学習支援を 目指します。 提案 LLMを活用することで、社会科学研究のコスト削減と社会 スキル学習を提案します。 評価 人間 -AI協働を、計算社会科学とフィードバックの支援で 分析しました。 結果 LLM活用により、協調的知能が可能になり、人間 -AIの協 力を再定義します。
  701. SocialAIスクール : 発達心理学を活用した人 工社会文化エージェントへの枠組み The SocialAI school: a framework leveraging

    developmental psychology toward artificial socio-cultural agents Grgur Kovač and Rémy Portelas and P. Dominey and Pierre-Yves Oudeyer 背景 社交的認知能力は、文化進化と人類の成果に関与する重要 な要素です。 目的 AI研究に発達心理学を適用し、社会的適合を可能にする能 力を探ることです。 提案 ソーシャル AIスクールというツールで、社会認知を実験的 に研究する環境を提供します。 評価 RLエージェントと LLMを用いた多様なケーススタディを 通じて評価を行いました。 結果 このツールは、社会知能研究を支える有用なリソースを提 供します。
  702. 意味の生成 : 能動的推論と受動的 AIの範囲と 限界 Generating meaning: active inference and

    the scope and limits of passive AI Giovanni Pezzulo and Thomas Parr and Paul Cisek and Andy Clark and Karl J. Friston 背景 脳は生成モデルとして生体と世界の相互作用を捉える。 目的 生成 AIモデルの限界を明らかにし、理解を深める。 提案 生体の生成モデルは受動的 AIとは異なると主張。 評価 生成 AIと生体モデルの相違点を理論的に検討。 結果 生体モデルが AIに比べて理解を支える基盤を持つ。
  703. 人狼ゲームにおける戦略的プレイのための強 化学習を用いた言語エージェント Language Agents with Reinforcement Learning for Strategic Play

    in the Werewolf Game Zelai Xu and Chao Yu and Fei Fang and Yu Wang and Yi Wu 背景 LLMベースのエージェントは偏りにより複雑な意思決定で 最適化が難しい。 目的 強力な意思決定能力を持つ戦略的言語エージェントの開発 を目指す。 提案 LLMと RLを組み合わせ、柔軟な言語アクションを生成可 能な新しいフレームワークを提案。 評価 人狼ゲームを試験場にし、広範な実験で RLポリシーの有効 性を検証。 結果 人間レベルのパフォーマンスを実現し、従来の LLMエージ ェントを上回る成果を得た。
  704. LLMを名探偵として:大規模言語モデルによ る戦略的推論の調査 LLM as a Mastermind: A Survey of Strategic

    Reasoning with Large Language Models Yadong Zhang and Shaoguang Mao and Tao Ge and Xun Wang and Adrian de Wynter and Yan Xia and Wenshan Wu and Ting Song and Man Lan and Furu Wei 背景 戦略的推論は複数エージェントの相互作用で重要で、動的 かつ不確実です。 目的 LLMを用いて戦略的推論の可能性を系統的に整理すること を目的とします。 提案 LLMにおける戦略的推論関連の範囲、応用、方法論、評価 指標を探求しています。 評価 戦略的推論の文献調査を行い、分野の急成長と学際的アプ ローチを強調しました。 結果 分野の成長と今後の研究方向に関する洞察を提供しまし た。
  705. ヒューマノイドエージェント : 人間らしい生 成エージェントをシミュレートするプラット フォーム Humanoid Agents: Platform for Simulating

    Human-like Generative Agents Zhilin Wang and Yu Ying Chiu and Yu Cheung Chiu 背景 計算シミュレーションは人間行動の理解に重要で、リアル な代替手段が求められています。 目的 生成エージェントを人間らしく振る舞わせる要素を導入し 行動を模倣します。 提案 ヒューマノイドエージェントは基本的ニーズ、感情、親密 さを統合し人間らしさを実現します。 評価 実証実験を行い、日常活動や会話の適応能力を検証しまし た。 結果 エージェントは動的要素を使い適応し、様々な設定にも拡 張可能です。
  706. 大規模言語モデルによる帰属の自動評価 Automatic Evaluation of Attribution by Large Language Models Xiang

    Yue and Boshi Wang and Kai Zhang and Ziru Chen and Yu Su and Huan Sun 背景 大規模言語モデルは外部参照を活用するが、その検証が困 難です。 目的 帰属の自動評価を実現し、評価の効率化を図ります。 提案 LLMへのプロンプトと小型 LMの微調整での評価手法を提 案します。 評価 既存ベンチマークからのテストセットで実験的評価を行い ました。 結果 成果は新たな問題設定とともに将来の研究の基盤となるで しょう。
  707. ロボットがお笑いに挑戦:言語モデルはコメ ディの創造支援ツールとなるか? A Robot Walks into a Bar: Can Language

    Models Serve as Creativity SupportTools for Comedy? An Evaluation of LLMs’ Humour Alignment with Comedians Piotr Mirowski and Juliette Love and K. Mathewson and Shakir Mohamed 背景 AIがアーティストの創造過程に及ぼす影響が注目されてい ます。 目的 言語モデルが創造支援ツールとして適切かを検証します。 提案 コミュニティに基づいた価値観調整が必要と主張します。 評価 AIを使ったコメディ創作のワークショップと議論を行いま した。 結果 現行の LLMは創造支援ツールとして効果が乏しいと示唆さ れました。
  708. AgentVerse: エージェントの協調と自発的 行動の探求 AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent

    Behaviors in Agents Weize Chen and Yusheng Su and Jingwei Zuo and Cheng Yang and Chenfei Yuan and Cheng Qian and Chi-Min Chan and Yujia Qin and Ya-Ting Lu and Ruobing Xie and Zhiyuan Liu and Maosong Sun and Jie Zhou 背景 エージェント間の協調が必要なタスクが増加し、その効果 的な実現が課題となっています。 目的 複数のエージェントが協調することで、より複雑なタスク の効率化を目指します。 提案 AgentVerseは、エージェント間の連携と自発的行動の 分析を促進するプラットフォームです。 評価 様々なシナリオでエージェントの協調を検証し、その有効 性を評価しました。 結果 エージェントの協調や自発的行動がタスク達成に有効であ ることが示されました。
  709. WordPlay: 言語学習ゲームのためのエージ ェントフレームワーク WordPlay: An Agent Framework for Language Learning

    Games Suma Bailis and Lara McConnaughey and Jane Friedhoff and Feiyang Chen and Chase Adams and Jacob Moon 背景 従来の言語学習は退屈で、効果的な学習とエンゲージメン トの両立が課題です。 目的 WordPlayは言語学習のエンゲージメントを保ちながら効 果的な学習を実現することを目的としています。 提案 WordPlayはミニパズルゲームと AI技術を組み合わせ、学 習体験を向上させます。 評価 クリエーターがパーソナライズされたパズルを作成し、画 像を活用した学習効果を評価しました。 結果 WordPlayは異なる熟練度に応じた効果的な学習を可能に することが示されました。
  710. マルチエージェント強化学習 Multi-agent Reinforcement Learning Xuan Zuo and Pu Zhang and

    Hui-Yan Li and Zhun-Ga Liu 背景 マルチエージェント強化学習は多様で活発な分野ですが、 追加の計算コストが問題です。 目的 パラメータや経験共有を通じたトレーニングの加速と報酬 の向上が目的です。 提案 選好ベースの経験共有スキームが、ほとんど追加計算なく 弱い同種エージェントに異なる政策を提供します。 評価 選好ベースの経験共有スキームを搭載した PSE- MADDPGが、ベンチマークで評価されます。 結果 PSE-MADDPGは少ないステップで学習し、古典的アル ゴリズムを上回る成果を示しました。
  711. ペルソナ指向生成における大規模言語モデル のバイアス評価 Evaluating Large Language Model Biases in Persona-Steered Generation

    Andy Liu and Mona Diab and Daniel Fried 背景 多面的なペルソナが、従来の単一的手法で扱われてきまし た。 目的 不一致ペルソナへのモデルの誘導性を明らかにすることが 目的です。 提案 多面的なペルソナを扱う際に起こるバイアスの解析手法を 提案します。 評価 人間のフィードバックを用いた強化学習モデルを用いて評 価しました。 結果 不一致ペルソナへの誘導性は 9.7%低下し、多様性も減少 しました。
  712. 柔軟な目標指向の認知と意識の橋渡し : GARIM理論 Bridging flexible goal-directed cognition and consciousness: The

    Goal-Aligning Representation Internal Manipulation theory Giovanni Granato and Gianluca Baldassarre 背景 目標指向の表象操作は人間の柔軟性の鍵だが、現行理論で は部分的連携に留まる。 目的 本研究は柔軟な認知と意識が相互に作用し合うプロセスの 理解を深化する目的を持つ。 提案 私たちは GARIM理論を提案し、認知科学と AIを統合的に 用いて目標整合を支援する。 評価 20以上の人間集団を用いて、提案モデルの有効性を分析 した。 結果 研究は科学および技術分野における新たな実験課題や応用 の方向性を示唆する。
  713. PathGen-1.6M: 160万の病理画像 -テキス トペア生成によるマルチエージェント協力 PathGen-1.6M: 1.6 Million Pathology Image-text Pairs

    Generation through Multi- agent Collaboration Yuxuan Sun and Yunlong Zhang and Yixuan Si and Chenglu Zhu and Zhongyi Shui and Kai Zhang and Jingxiong Li and Xingheng Lyu and Tao Lin and Lin Yang 背景 病理学での視覚言語モデル( VLMs)利用は注目を集めて います。 目的 高品質な画像 -テキストペアを生成し、 VLMsの精度向上を 目指します。 提案 PathGen-1.6Mは 160万の病理画像 -テキストペアを生成 する手法です。 評価 エージェントモデルが協力し WSIから画像パッチを抽出・ 評価しました。 結果 新しいモデル PathGen-CLIPは病理画像分析能力を著しく 向上させました。
  714. 大規模言語モデルを用いた代替ニュースフィ ードアルゴリズムの評価 Simulating Social Media Using Large Language Models to

    Evaluate Alternative News Feed Algorithms Petter Törnberg and D. Valeeva and J. Uitermark and Christopher Bail 背景 ソーシャルメディアは有害な議論を増幅し、建設的会話を 抑制する課題がある。 目的 異なるニュースフィードアルゴリズムが会話の質に与える 影響を研究する。 提案 **大規模言語モデル( LLM) **とエージェントベースモデ リングの組み合わせを提案する。 評価 3種類のアルゴリズムを用いたシミュレーションでオンラ イン会話の質を評価した。 結果 ブリッジングアルゴリズムがより建設的な会話を促進する ことがわかった。
  715. 大規模言語モデルにおける態度、意見、価値 観の評価の可能性と課題 The Potential and Challenges of Evaluating Attitudes, Opinions,

    and Values in Large Language Models Bolei Ma and Xinpeng Wang and Tiancheng Hu and Anna Haensch and Michael A. Hedderich and Barbara Plank and Frauke Kreuter 背景 大規模言語モデルは人間に似た行動特性を持ち得るが、そ の評価は課題が多い。 目的 LLMにおける AOVの評価方法を整理し、研究間の関連を 明確化すること。 提案 包括的な調査を行い、人間と AIの整合性などの課題に対処 する。 評価 評価パイプラインの各段階における手法を調査し、実用的 な洞察を提供。 結果 モデル強化や学際的協力の進化に寄与し、 AOVs評価の方 向性を示す。
  716. 対話的な物語システムにおけるより良いゴシ ップシミュレーションを目指して Toward Better Gossip Simulation in Emergent Narrative Systems

    Max Kreminski 背景 キャラクター間の情報伝搬を扱う新興物語ゲームでは、ゴ シップが有効活用されていません。 目的 ゴシップを軸にした新たな物語生成技術の開発を目指しま す。 提案 情報的・社会的に豊かなゴシップシミュレーション手法を 提案します。 評価 提案手法の実装を通じて、初期的なアプローチを示しまし た。 結果 新しいゴシップシミュレーション手法の有効性が確認され ました。
  717. BlenderAlchemy: 視覚 -言語モデルで 3Dグ ラフィクスを編集 BlenderAlchemy: Editing 3D Graphics with

    Vision-Language Models Ian Huang and Guandao Yang and Leonidas J. Guibas 背景 グラフィックデザインは映画やゲームで重要だが、質の高 いシーン制作は時間がかかる。 目的 視覚言語モデルを使い、設計の反復作業を知的に最適化 し、効率化を図る。 提案 VLMを活用し、視覚ベースの編集生成器と状態評価器で 編集プロセスを自動化する。 評価 実証的証拠に基づき、視覚推論の能力を強化したモデルで タスクの遂行を確認。 結果 我々のシステムは、手間のかかる Blender編集を効率的に 行えることを示す。
  718. 安全なモデルの組み合わせを悪用する敵対者 Adversaries Can Misuse Combinations of Safe Models Erik Jones

    and Anca Dragan and Jacob Steinhardt 背景 AIモデルが悪用されるリスクは重要で、単一モデルの評価 だけでは不十分です。 目的 安全なモデルの組み合わせが敵に悪用される可能性を明ら かにすることが目的です。 提案 タスクをサブタスクに細分化し、最適なモデルを使用して それらを解決する方法を提案します。 評価 手動と自動のタスク分解を使用して、複数モデルが悪用さ れるシナリオを実証します。 結果 安全なモデルの組み合わせでも、想定外の悪用が可能であ ることを確認しました。
  719. IoT-LLM: 大規模言語モデルで実世界の IoT タスク推論を強化 IoT-LLM: Enhancing Real-World IoT Task Reasoning

    with Large Language Models Tuo An and Yunjiao Zhou and Han Zou and Jianfei Yang 背景 大規模言語モデルは物理世界の理解に限界があり、 IoTデ ータを活用する必要があります。 目的 LLMsの実世界 IoTタスク推論能力を向上させることが目的 です。 提案 IoTセンサーデータで LLMsの推論能力を強化する IoT- LLMを提案します。 評価 5つの実世界 IoTタスクで、新たなベンチマークを設計し、 6モデルで評価しました。 結果 IoT-LLMは IoTタスク推論性能を 65%改善し、現行手法 の限界も示しました。
  720. 意味空間に基づく重みデコーディングによる 多属性制御対話生成 Semantic Space Grounded Weighted Decoding for Multi-Attribute Controllable

    Dialogue Generation Zhiling Zhang and Mengyue Wu and Ke Zhu 背景 チャットボットの発話を多属性(例えば性格、感情、対話 行為)で制御することは実用性があるが、十分に研究されてい 目的 DASCフレームワークにより、多属性を制御しながら生成 品質の向上を目指す。 提案 属性意味空間でグラウンドされた重み付けデコードによる 新しい制御可能生成フレームワーク DASCを提案。 評価 3側面の制御可能生成タスクでの精度を示すための実験 と、学習された表現の可視化を行った。 結果 DASCは制御精度と興味深い応答生成で最先端を達成し、 有効性が確認された。
  721. EvoAgent: 進化的アルゴリズムによる自動 マルチエージェント生成に向けて EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary

    Algorithms Siyu Yuan and Kaitao Song and Jiangjie Chen and Xu Tan and Dongsheng Li and Deqing Yang 背景 大規模言語モデルは自律エージェント構築の新トレンドを 生んでいます。 目的 人間設計に依存せずに、エージェントの拡張を可能にする ことが重要です。 提案 EvoAgentは進化的アルゴリズムで多様なエージェントを 自動生成します。 評価 さまざまなタスクで、 EvoAgentが複数の専門エージェン ト生成を評価しました。 結果 EvoAgentが LLMベースのエージェントの課題解決能力を 顕著に向上させました。
  722. PromptInfuser: AIと UIデザインの密接な 結合がデザイナーのワークフローに与える影 響 PromptInfuser: How Tightly Coupling AI

    and UI Design Impacts Designers’ Workflows S. Petridis and Michael Terry and Carrie J. Cai 背景 AIアプリケーションのプロトタイピングは難しく、 LLM がこれを一部解決していますが、 UIと AIが別々であることが課 目的 プロンプトと UIデザインの結合がデザイナーのワークフロ ーにどう影響するかを明らかにすることです。 提案 Figmaプラグイン PromptInfuserで、 UI要素をプロンプ トと結合し、半機能的モックアップを作成します。 評価 14人のデザイナーを対象に、 PromptInfuserと従来の AI プロトタイピングワークフローを比較しました。 結果 PromptInfuserはプロダクトのアイデア伝達やプロトタ イピングの効率が良く、 UIの問題予測に役立つと評価されまし
  723. エージェント・スミス : 一枚の画像で 100万 のマルチモーダル LLMエージェントを指数関 数的に攻略 Agent Smith: A

    Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast Xiangming Gu and Xiaosen Zheng and Tianyu Pang and Chao Du and Qian Liu and Ye Wang and Jing Jiang and Min Lin 背景 マルチモーダル大規模言語モデルが無調整な動作をする問 題が浮上。 目的 一枚の画像でエージェント全体に影響を与える安全性の問 題。 提案 敵が単一のエージェントを攻略することで全体が感染。 評価 100万エージェント、ランダムなペアチャットで感染性攻 撃をシミュレート。 結果 敵対的な画像による攻撃が実現可能で、拡散を抑制する方 法は未解明。
  724. 生成 AI時代のシミュレーションを通じたアル ゴリズム的説得 : 情報設計 Algorithmic Persuasion Through Simulation: Information

    Design in the Age of Generative AI Keegan Harris and Nicole Immorlica and Brendan Lucier and Aleksandrs Slivkins 背景 AIの進展によって、送り手が受け手の情報をより正確に獲 得できる環境が整ってきている。 目的 受け手の行動を最適化するためのメッセージ戦略の最適化 を目指す。 提案 行動シミュレーションを基にした最適なメッセージ戦略を 設計するアルゴリズムを提案。 評価 受け手タイプの分布を利用し、多様なクエリ構造とオラク ルによる実験を実施。 結果 送り手の期待効用を最大化するクエリアルゴリズムの有効 性を示した。
  725. LangSuitE: 具象テキスト環境での大規模言 語モデルの計画、制御、対話 LangSuitE: Planning, Controlling and Interacting with Large

    Language Models in Embodied Text Environments Zixia Jia and Mengmeng Wang and Baichen Tong and Song-chun Zhu and Zilong Zheng 背景 近年、大規模言語モデルを用いた自律エージェントの発展 が注目されています。 目的 動的環境で LLMが具象エージェントとしての有効性を検証 することです。 提案 LangSuitEというシミュレーション不要のテストベッド を開発しました。 評価 新しい思考連鎖スキーマである EmMemを検証するため のベンチマークを行いました。 結果 LangSuitEは具象汎用化に向けた重要な一歩であることが 示されました。
  726. それで、ゲームはどうなるのか?実行時の挙 動生成における機会と課題 What's the Game, then? Opportunities and Challenges for

    Runtime Behavior Generation Nicholas Jennings and Han Wang and Isabel Li and James Smith and Bjoern Hartmann 背景 PCGはアルゴリズムでゲームコンテンツ生成を行い、 LLMで実行時の新しいインタラクションを可能にします。 目的 ゲーム開発のワークフローに統合しにくい新しいゲームプ レイを構築します。 提案 Unity用 GROMITで、プレイヤーアクションに応じた実行 時挙動生成を提案します。 評価 システム評価とゲーム開発者インタビューで実装と意見を 検証しました。 結果 下流のゲームプレイに影響を与える挙動を生成できたこと を確認しました。
  727. 大規模言語モデルのための MetaToolベンチ マーク : ツールを使うかどうかとどのツール を選ぶかを決定する MetaTool Benchmark for Large

    Language Models: Deciding Whether to Use Tools and Which to Use Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun 背景 大規模言語モデルは複雑なツール選択の意思決定が求めら れています。 目的 目的は LLMsが適切なツール選択を行えるか評価すること です。 提案 MetaToolベンチマークを提案し、 LLMsのツール使用意 識を評価します。 評価 8つの人気 LLMsを用いて、ツール選択の異なる視点での 実験を行いました。 結果 多くの LLMsが効果的なツール選択に苦労し、改善の余地 が示唆されました。
  728. 大規模言語モデルが伝言ゲームをするとき: 累積変化と反復的文化伝播における引力点 When LLMs Play the Telephone Game: Cumulative Changes

    and Attractors in Iterated Cultural Transmissions J'er'emy Perez and Corentin L'eger and Grgur Kovač and Cédric Colas and Gaia Molinaro and Maxime Derex and Pierre-Yves Oudeyer and Clément Moulin-Frier 背景 LLMの相互作用による情報の変化とその影響は、重要な研 究課題です。 目的 情報が LLM間でどのように変容しうるかを理解することを 目的としています。 提案 LLMの反復的相互作用によるテキスト変化を分析する手法 を提案します。 評価 電話ゲーム実験を用いて、テキストの偏りや引力点を追跡 しました。 結果 自由度が高い指示は強力な引力効果をもたらすことがわか りました。
  729. 人工エージェントと大規模言語モデル Artificial Agency and Large Language Models Maud van Lier

    and Gorka Muñoz-Gil 背景 大規模言語モデルが人工的エージェンシーの可能性を議論 している。 目的 人工エージェンシー実現の理論モデルを提案し、議論に貢 献する。 提案 エージェントの動的枠組みを用い、モデルで方向性を示 す。 評価 Parkらのアーキテクチャと Boikoらのモジュールを組み 合わせる。 結果 人工エージェンシー実現の障害と今後の研究方向を提示。
  730. 仮想心 : 大規模言語モデルを用いたマルチエ ージェントタスクの心の理論の補助 Hypothetical Minds: Scaffolding Theory of Mind

    for Multi-Agent Tasks with Large Language Models Logan Cross and Violet Xiang and Agam Bhatia and Daniel L. K. Yamins and Nick Haber 背景 マルチエージェントシステムは、非定常性が適応学習の妨 げとなる。 目的 新規エージェントに対する適応学習が可能なシステムを作 成。 提案 大規模言語モデルを活用し、心の理論で他の戦略をサポー ト。 評価 Melting Potベンチマークで、競争と協力を含む様々なド メインで性能を評価。 結果 仮説の評価と修正が、複雑なシナリオでの成功に重要。
  731. すべての例をプログラミング : 専門家のよう にプレトレーニングデータの品質を向上 Programming Every Example: Lifting Pre-training Data

    Quality like Experts at Scale Fan Zhou and Zengzhi Wang and Qian Liu and Junlong Li and Pengfei Liu 背景 プレトレーニングデータの品質向上には人的コストが高 く、効率的な方法が求められている。 目的 個別データに応じた精緻化ができる効率的な手法を明示す る。 提案 データ精緻化をプログラミングタスクとして扱う ProXフ レームワークを提案。 評価 ProXで精緻化されたデータを用いて、複数の下流ベンチマ ークで性能を評価。 結果 ProXは多くのモデルで性能向上を実現し、訓練コストも削 減できることを示した。
  732. LLM ウィザードについて:オズの魔法使い 実験のための大規模言語モデルの行動特定 On LLM Wizards: Identifying Large Language Models'

    Behaviors for Wizard of Oz Experiments Jingchao Fang and Nikos Aréchiga and Keiichi Namaoshi and N. Bravo and Candice Hogan and David A. Shamma 背景 オズの魔法使い法は、不在の技術を人間が演じることで設 計空間を探る手法です。 目的 LLMを活用した WoZ実験で、スケーラビリティとコスト 削減を実現すること。 提案 LLMを用いて WoZ実験の過程を安全に進める手法を提案 します。 評価 LLMの演技能力を評価するヒューリスティックフレームワ ークを用いました。 結果 LLMは WoZ実験での行動パターンを大規模に示すことが できます。
  733. SeSaMe: メンタルヘルスセンシング研究の ための自己報告による真実データのシミュレ ーションフレームワーク SeSaMe: A Framework to Simulate Self-Reported

    Ground Truth for Mental Health Sensing Studies Akshat Choube and V. D. Swain and Varun Mishra 背景 モバイルとウェアラブル技術の進化で人のメンタル健康を モニター可能になりました。 目的 参加者の負担を軽減し、正確な心理的評価を行う方法の開 発。 提案 SeSaMeフレームワークにより心理的尺度上の回答を LLMでシミュレート可能にする。 評価 GPT-4での模擬回答生成と人間の回答との一致度を検証 し、 MLモデルの訓練に活用。 結果 SeSaMeシミュレーションは多くの場合において現実デ ータと同等の性能を示した。
  734. ユーザープロファイルを考慮した事前訓練モ デルとパラメータ効率的ファインチューニン グによるユーザー固有対話生成 User-Specific Dialogue Generation with User Profile-Aware Pre-Training

    Model and Parameter-Efficient Fine-Tuning Atsushi Otsuka and Kazuya Matsuo and Ryo Ishii and Narichika Nomoto and Hiroaki Sugiyama 背景 従来の個人化対話はペルソナに基づいており、現実のユー ザー対話の再現が求められている。 目的 ユーザー固有の対話生成の精度向上を目指す。 提案 パラメータ効率的ファインチューニングと事前構築モデル を組み合わせた手法を提案。 評価 自動推論プロンプトを用い、他モデルとの発話再現性を比 較。 結果 提案モデルは少量のデータでも高い再現性の発話を生成可 能。
  735. 機械による天文学:ニューラルネットワーク の歴史と展望 Astronomia ex machina: a history, primer and outlook

    on neural networks in astronomy Michael J. Smith and J. Geach 背景 天文学では、 AIの進化がデータ解析の新たな機会を提供し ています。 目的 AI技術で未解決の天文学の課題に新たに挑むことです。 提案 GPTのような基盤モデルを天文学に活用することを提案し ます。 評価 オープンソースの協力体制で開発することを検討していま す。 結果 AIと天文学の共生関係が新たな研究を推進します。
  736. 大規模言語モデルベースの人工知能エージェ ントに関する詳細調査 An In-depth Survey of Large Language Model-based Artificial

    Intelligence Agents Pengyu Zhao and Zijian Jin and Ning Cheng 背景 LLMの能力により、より高度な AIエージェントの開発が期 待されています。 目的 LLMベースのエージェントの特長を明らかにし、技術革新 を支援します。 提案 AIエージェントの記憶分類を従来から変革し新たな視点を 提供します。 評価 計画、記憶、ツール使用の各構成要素を深く分析していま す。 結果 AI技術の進展に向けた重要な基盤を提供しました。
  737. Concordiaを用いた物理的・社会的または デジタル空間での行動に基づく生成型エージ ェントモデリング Generative agent-based modeling with actions grounded in

    physical, social, or digital space using Concordia A. Vezhnevets and J. Agapiou and Avia Aharon and Ron Ziv and Jayd Matyas and Edgar A. Du'enez-Guzm'an and William A. Cunningham and Simon Osindero and Danny Karmon and Joel Z. Leibo 背景 エージェントベースモデリングが LLMで進化し、多角的 な応用可能性が増大。 目的 GABMで現実的エージェント行動を模擬し、科学研究や 技術評価を促進。 提案 Concordiaライブラリで物理的・デジタル環境のエージ ェントシミュレーションを実現。 評価 柔軟なコンポーネントシステムで LLM利用と連想記憶を一 致させる手法を検証。 結果 多用途な応用に対する Concordiaの有効性を示し、研究 と技術評価での可能性を強調。
  738. DiverseDialogue: 人間らしい多様性を持つ チャットボットの設計手法 DiverseDialogue: A Methodology for Designing Chatbots with

    Human-Like Diversity Xiaoyu Lin and Xinkai Yu and A. Aich and Salvatore Giorgi and Pallavi V. Kulkarni 背景 大規模言語モデルは、教育やカスタマーサービスでチャッ トボットを評価するために用いられますが、人間らしい多様性 目的 人間と LLMの会話の言語的差を改善し、評価精度を向上す ることが目的です。 提案 実際の人間の交流から派生した特徴を活用し、プロンプト 自動生成手法を提案します。 評価 差分言語分析と深層言語探究を組み合わせた手法で有効性 を評価しました。 結果 提案手法は言語の多様性を高め、 **54%**の平均特徴誤差 削減を達成しました。
  739. AvatarGPT: 動作理解、計画、生成を統合す るオールインワンフレームワーク AvatarGPT: All-in-One Framework for Motion Understanding, Planning,

    Generation and Beyond Zixiang Zhou and Yu Wan and Baoyuan Wang 背景 大規模言語モデルは NLPタスクを統一していますが、動作 関連領域は未統一です。 目的 動作関連タスクを統合したフレームワークの開発が目的で す。 提案 AvatarGPTは、言語を共通インターフェースにした動作タ スクのオールインワンフレームワークです。 評価 自然言語生成パイプラインを使って、広範囲でタスクを共 同訓練しました。 結果 AvatarGPTは低レベルタスクで SOTA達成し、高レベルで も有望です。
  740. LangGPT: プログラミング言語から再考す る構造化再利用可能なプロンプト設計フレー ムワーク LangGPT: Rethinking Structured Reusable Prompt Design

    Framework for LLMs from the Programming Language Ming Wang and Yuanzhong Liu and Xiaoming Zhang and Songlian Li and Yijie Huang and Chi Zhang and Daling Wang and Shi Feng and Jigang Li 背景 LLMのプロンプト設計は非専門家にとって難解で、再利用 性に欠けています。 目的 プロンプト設計の学習負荷を軽減し再利用性を向上させる ことが目的です。 提案 LangGPTという二層構造のプロンプト設計フレームワー クを提案します。 評価 実験とユーザー調査を通じて性能向上と使いやすさを検証 しました。 結果 LLMの性能を向上させ、高品質な応答を生成できること を示しました。
  741. 複雑適応システムのための階層モデル : 適応 エージェントから AI社会へ A Hierarchical Model for Complex

    Adaptive System: From Adaptive Agent to AI Society Deyu Zhou and Xiao Xue and Xudong Lu and Yuwei Guo and Peilin Ji and Hongtao Lv and Wei He and Yonghui Xu and Qingzhong Li and Lizhen Cui 背景 複雑適応システムの特性を正確にモデル化することが困難 です。 目的 新たな階層モデルで複雑特徴のモデル化の課題を解決しま す。 提案 計算実験法に基づく四層の階層モデルを提案します。 評価 知的交通システムを用いた計算実験でモデルの有効性を評 価します。 結果 提案モデルは複雑特徴モデル化と技術の橋渡しを実現しま す。
  742. LLMを用いた家族会話のシミュレーション: 育児スタイルの実証 Simulating Family Conversations using LLMs: Demonstration of Parenting

    Styles F. Ye and Xiaozi Gao 背景 LLMsを用いた会話シミュレーションは、倫理的な制約の 問題を克服するため重要です。 目的 倫理的に問題のある言語や行動のシミュレーションを安全 に実施することです。 提案 家族会話のシミュレーションで 4つの育児スタイルを模倣 する手法を提案しました。 評価 文脈認識や少数ショットプロンプティング、モデルの微調 整を検討しました。 結果 育児スタイルの特徴が会話に効果的に反映されることを確 認しました。
  743. ソフトウェアチュートリアルビデオにおける 視覚アンカーを用いた自動質問応答システム AQuA AQuA: Automated Question-Answering in Software Tutorial Videos

    with Visual Anchors Saelyne Yang and Jo Vermeulen and G. Fitzmaurice and Justin Matejka 背景 チュートリアルビデオでの速い応答が難しいため、ユーザ ー支援が重要です。 目的 自動化手法でチュートリアル質問に迅速に答える問題を解 決します。 提案 AQuAは視覚アンカーを用いて質問に有用な回答を生成し ます。 評価 Fusion 360を対象に、 16名の参加者で回答生成の評価 を行いました。 結果 本手法はベースラインを超える優れた回答を示しました。
  744. 優先順位 S P RIORITIZING S nan 背景 AI運用におけるデータの質とソース信頼性は学術研究で重 要です。 目的

    AIによる情報の正確性と信頼性向上が急務です。 提案 信頼できる最新の情報を優先する AIシステムの強化が必要 です。 評価 証拠検証と信頼性向上のためのメカニズムの分析が行われ ます。 結果 学術での AI活用には情報の整合性向上が不可欠です。
  745. 大規模言語モデルに基づくエージェントを活 用した一般的な社会シミュレーションプラッ トフォーム「 GenSim」 GenSim: A General Social Simulation Platform

    with Large Language Model based Agents Jiakai Tang and Heyang Gao and Xuchen Pan and Lei Wang and Haoran Tan and Dawei Gao and Yushuo Chen and Xu Chen and Yankai Lin and Yaliang Li and Bolin Ding and Jingren Zhou and Jun Wang and Jiayao Wen 背景 大規模言語モデルで社会行動をシミュレートする研究が盛 んです。 目的 エラー発生時の適応力を備えた大規模社会シミュレーショ ンを実現します。 提案 「 GenSim」は、抽象化された機能群とエラー補正を備え た新しいプラットフォームです。 評価 大規模エージェントシミュレーションの効率性とエラー補 正の効果の評価を行いました。 結果 社会シミュレーションの分野をさらに進展させる有望な一 歩を示しました。
  746. MMAC-Copilot: マルチモーダル エージェ ント協力 OSコパイロット MMAC-Copilot: Multi-modal Agent Collaboration Operating

    System Copilot Zirui Song and Yaohang Li and Meng Fang and Zhenhao Chen and Zecheng Shi and Yuan Huang and Ling Chen 背景 自律エージェントは単一モードでの相互作用に制限され、 柔軟性が欠如している。 目的 エージェントの多様な知識を用いて、現実世界との相互作 用能力を強化する。 提案 MMAC-Copilotを提案し、エージェント間の協力連鎖で 知識の錯覚を削減する。 評価 GAIAと VIBenchを用いて、 【 MMAC-Copilot】の性能を実 験的に評価した。 結果 MMAC-Copilotは、既存システムを超える優れた性能を示 し、相互作用手法での可能性を確認した。
  747. 大規模言語モデル基盤のエージェントの記憶 メカニズムに関する調査 A Survey on the Memory Mechanism of Large

    Language Model based Agents Zeyu Zhang and Xiaohe Bo and Chen Ma and Rui Li and Xu Chen and Quanyu Dai and Jieming Zhu and Zhenhua Dong and Ji-Rong Wen 背景 大規模言語モデル基盤エージェントは、自己進化能力で現 実問題を解決します。 目的 エージェントの記憶メカニズムに関する研究を体系的にレ ビューします。 提案 包括的調査を通じて、記憶モジュールの設計・評価方法を 整理します。 評価 既存研究のデザインと評価の方法を系統的にレビューしま した。 結果 記憶モジュールの重要性を特定し、将来の研究方向を示し ました。
  748. 大規模言語モデルの推論能力を人狼ゲームで 強化 Enhance Reasoning for Large Language Models in the

    Game Werewolf Shuang Wu and Liwen Zhu and Tao Yang and Shiwei Xu and Qiang Fu and Yang Wei and Haobo Fu 背景 大規模言語モデルの限界を超える推論能力が必要とされて いる。 目的 LLMの限界を超えた推論能力の向上を目的とする。 提案 Thinkerモジュールを統合し LLMを二重システムへと改 良。 評価 18800回の人間のセッションと強化学習で Thinkerを訓 練。 結果 Thinker統合で 6B LLMが GPT4を超える性能を達成。
  749. 環境フィードバックによるエンボディードビ ジョンランゲージプログラマー : Octopus Octopus: Embodied Vision-Language Programmer from Environmental

    Feedback Jingkang Yang and Yuhao Dong and Shuai Liu and Bo Li and Ziyue Wang and Chencheng Jiang and Haoran Tan and Jiamu Kang and Yuanhan Zhang and Kaiyang Zhou and Ziwei Liu 背景 VLMはマルチモーダル推論で進化しており、環境に即し た自律システムが求められています。 目的 視覚言語のタスク目標を解読し、実行可能なコードを生成 するモデルの構築。 提案 Octopusという新しい VLMを提案し、日常からゲームま で広範なタスクに対応。 評価 GPT-4を用いて探索的エージェントを制御し、実験環境 OctoVerseでデータ生成。 結果 RLEFによりエージェントの意思決定の洗練を確認し、モ デルをオープンソース化。
  750. GitAgent: デバイスツール拡張による GitHubを用いた自律エージェントの促進 GitAgent: Facilitating Autonomous Agent with GitHub by

    Tool Extension Bohan Lyu and Xin Cong and Heyang Yu and Pan Yang and Yujia Qin and Yining Ye and Ya-Ting Lu and Zhong Zhang and Yukun Yan and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景 LLMは自然言語処理で優れるが、複雑な課題対応に限界が ある。 目的 特定課題は、 LLMエージェントが多様なツールで対応す る能力不足にある。 提案 GitHubのリポジトリを活用し、エージェントが自律的に ツールを拡張する。 評価 30のユーザークエリを使用し、 GitAgentの成功率を実験 的に評価。 結果 GitAgentは平均 69.4%の成功率を達成し、その有効性が 確認された。
  751. GRUtopia: 一般的なロボットを大規模都市 での夢へ GRUtopia: Dream General Robots in a City

    at Scale Hanqing Wang and Jiahe Chen and Wensi Huang and Qingwei Ben and Tai Wang and Boyu Mi and Tao Huang and Siheng Zhao and Yilun Chen and Sizhe Yang and Peizhou Cao and Wenye Yu and Zichao Ye and Jialun Li 背景 Embodied AIのスケーリング法則を探る中で現実世界デ ータの収集が障害に。 目的 Sim2Realを用いて、一般的なロボットモデルの学習をス ケーリングすることが目的です。 提案 プロジェクト GRUtopiaは、多様なロボット向けのシミュ レートされた 3D社会を提案。 評価 GRBenchにて脚付きロボットでの物体導航や社会的導航 のタスクで評価。 結果 高品質なデータ不足を緩和し、 Embodied AI研究の包括 的評価を提供する。
  752. アバロンの思考ゲーム : 再帰的熟考による欺 瞞との戦い Avalon's Game of Thoughts: Battle Against

    Deception through Recursive Contemplation Shenzhi Wang and Chang Liu and Zilong Zheng and Siyuan Qi and Shuo Chen and Qisen Yang and Andrew Zhao and Chaofei Wang and Shiji Song and Gao Huang 背景 LLMが誤情報により操られる可能性があり、その結果と して悪影響を及ぼす懸念があります。 目的 欺瞞環境での LLMの脆弱性を克服し、情報解析能力を向上 させることです。 提案 **Recursive Contemplation (ReCon)**フレームワークを 導入し、視点の移行を活用して思考を深めます。 評価 アバロンゲームを用い、異なる LLMに ReConを統合し誤情 報への対応能力をテストしました。 結果 ReConは追加調整なしで LLMの欺瞞情報への識別と対処能 力を向上させました。
  753. 必要な時に自分を頼る : RLエージェントで LLMを指導し、サイバーセキュリティゲーム の達人になる Depending on yourself when you

    should: Mentoring LLM with RL agents to become the master in cybersecurity games Yikuan Yan and Yaolun Zhang and Keman Huang 背景 高リスクのサイバーセキュリティ操作では、 LLMと RLの 統合が重要。 目的 目的は、協調メカニズムを用いて、 LLMのパフォーマンス を向上させること。 提案 SecurityBotは、 RLエージェントで指導される LLMエージ ェントを提案。 評価 CybORGを用い、 SecurityBotのパフォーマンスを従来の 手法と比較。 結果 SecurityBotは、 LLMや RL単独に比べて高い成果を達成。
  754. A2C: モジュール化された多段階の協調意思 決定フレームワーク A2C: A Modular Multi-stage Collaborative Decision Framework

    for Human-AI Teams Shahroz Tariq and Mohan Baruwal Chhetri and Surya Nepal and Cécile Paris 背景 人と AIのチームでの複雑な意思決定の効率化が求められて います。 目的 意思決定プロセスでの AIの迅速かつ正確な判断の向上を目 指します。 提案 AIが不確実性を判断し、必要に応じて人に委ねる A2Cを提 案。 評価 ベンチマークデータを用いた大規模シミュレーションで A2Cを検証しました。 結果 AIと人の協調的探索が AI単独より優れた結果を示しまし た。
  755. 戦略的にディスカッションを学ぶ : ワンナイ ト人狼のケーススタディ Learning to Discuss Strategically: A Case

    Study on One Night Ultimate Werewolf Xuanfa Jin and Ziyan Wang and Yali Du and Meng Fang and Haifeng Zhang and Jun Wang 背景 大規模言語モデルは討論戦術の制御を無視しがちで、この 問題が課題です。 目的 役割変化の不確実性が高くなるワンナイト人狼での戦略的 議論方針の研究です。 提案 強化学習で訓練された議論方針を実行する RL指導エージェ ントを提案します。 評価 複数の ONUWゲーム設定で実験し、提案フレームワーク の有効性を分析しました。 結果 提案フレームワークは戦略的な議論戦術の有効性と一般化 可能性を示しました。
  756. AUTOGEN: 次世代 LLMアプリケーションを マルチエージェント会話で実現する A U T O G E

    N : E NABLING N EXT -G EN LLM A PPLICATIONS VIA M ULTI -A GENT C ONVERSATION nan 背景 次世代の LLMを用いたアプリケーションの多様性や複雑 性を扱うための新しい手法が求められている。 目的 多様な応用を可能にするフレームワークを通じて次世代 LLMの能力を広げること。 提案 AUTOGENフレームワークで、多エージェントの会話を 利用して LLMアプリケーションの効率を向上させる。 評価 数学、コーディング、質問応答などのパイロットアプリケ ーションを用いて評価を行う。 結果 多様なドメインでの LLMアプリケーション構築における有 効性が実証された。
  757. プライベートな LLMエージェントは家庭のエ ネルギー消費データを合成できるか? Can Private LLM Agents Synthesize Household Energy

    Consumption Data? Mahathir Almashor and Yusuke Miyashita and Sam West and Thi Van Dai Dong 背景 エネルギー研究ではデータ駆動型モデルの必要から再現可 能なデータへのアクセスが重要です。 目的 LLMを活用し、商業上や法的理由で非公開のエネルギー データを合成します。 提案 LLMエージェントを制御環境でシミュレーションし、合 成データを創出します。 評価 公開されたデータの分析と視覚化により、現実的なデータ コピーを作成します。 結果 家庭のエネルギー消費パターンの双峰曲線に類似した成果 を得ました。
  758. MLAgentBench: 機械学習実験における言 語エージェントの評価 MLAgentBench: Evaluating Language Agents on Machine Learning

    Experimentation Qian Huang and Jian Vora and Percy Liang and J. Leskovec 背景 機械学習における実験は、研究の重要な要素であり、結果 の改善を目指す。 目的 言語モデル駆動のエージェントが、機械学習実験の有効な 代替となり得るかを評価。 提案 MLAgentBenchと呼ばれる 13のタスクを用いて、エージ ェントの能力を評価する。 評価 Claudeや GPT-4などを用いて、各エージェントの成功率 をベンチマークした。 結果 Claude v3 Opusが最も成功率が高く、多様なタスクで **37.5%**の成功率を達成。
  759. LLMを用いた感情と個性を持つインタラクテ ィブ・ストーリーキャラクターのアニメーシ ョン化 Using LLMs to Animate Interactive Story Characters

    with Emotions and Personality Aline Normoyle and João Sedoc and Funda Durupinar 背景 物語ベースのゲームのアニメーション制作は労力がかか り、効率的かつ自動化された方法が求められている。 目的 ゲーム内の NPCに個性と感情を持たせることで、リアル なインタラクションを実現する。 提案 LLMを用いて、テキスト記述からの NPCのアニメーショ ン生成を提案する。 評価 ポイントアンドクリック型ナラティフゲームで概念実証を 行い、その手法の効果を示す。 結果 提案手法は設定作業を削減し、 NPCの表現を向上させる可 能性を示した。
  760. プロフェッショナルエージェント - 大規模言 語モデルを人間レベルの専門家へ進化させる Professional Agents - Evolving Large Language

    Models into Autonomous Experts with Human-Level Competencies Zhixuan Chu and Yan Wang and Feng Zhu and Lu Yu and Longfei Li and Jinjie Gu 背景 大規模言語モデルの進展により、 AIが人間に近い言語能力 を示しています。 目的 自律的な専門エージェントを作成し、専門サービスを再定 義することです。 提案 三層アーキテクチャのフレームワークで、自律的なエージ ェントを進化させます。 評価 研究は、実世界での応用の可能性を中心に議論を促進する ことを目指します。 結果 専門分野における AIの熟達の可能性を示唆しています。
  761. VLMはアクション RPGをプレイできるか? 「 Black Myth Wukong」を事例研究とし て Can VLMs Play

    Action Role-Playing Games? Take Black Myth Wukong as a Study Case Peng Chen and Pi Bu and Jun Song and Yuan Gao and Bo Zheng 背景 従来のゲーム API依存アプローチは、 APIの制約と人間のプ レイスタイル不一致が課題です。 目的 視覚言語モデル( VLM)の限界を探索し、改善策を提案 します。 提案 VARPエージェントフレームワークはアクションプランと 視覚的軌道システムで構成します。 評価 ゲーム「 Black Myth: Wukong」を用いて 12のタスクで評 価し、戦闘に 75%を割きました。 結果 提案フレームワークは 90%の成功率で基本タスクを遂行可 能と確認しました。
  762. マルチエージェント LLM相互作用における暗 黙のバイアスの検出と軽減に向けて Towards Implicit Bias Detection and Mitigation in

    Multi-Agent LLM Interactions Ziwei Ji and Tiezheng Yu and Yan Xu and Nayeon Lee and Albert Q. Jiang and Alexandre Sablayrolles and Arthur Men-655 and Chris Bamford and Devendra Singh and Diego Chaplot and laume Lample and Lélio Lucile 背景 LLMsは社会を模擬する研究で活用されていますが、人間 由来のバイアスも持ち込まれます。 目的 LLMsの社会的理解における性別バイアスの軽減が必要で す。 提案 提案される戦略は、自己反省と監督付きファインチューニ ングです。 評価 バイアス検出には、シナリオデータセットと評価メトリク スを開発しました。 結果 両方の手法がバイアス軽減に有効で、組み合わせが最も成 功しました。
  763. 線と円を超えて : 大型言語モデルにおける幾 何学的推論のギャップの解明 Beyond Lines and Circles: Unveiling the

    Geometric Reasoning Gap in Large Language Models Spyridon Mouselinos and H. Michalewski and Mateusz Malinowski 背景 LLMは数学分野では成功しているが、幾何学的推論の能力 が不十分である。 目的 人間の数学的推論における幾何学的問題解決能力の向上が 目的である。 提案 LLMによる内部対話を用いたマルチエージェントシステム を導入する。 評価 この手法の有効性を実験的に検証し、分析を行った。 結果 自己訂正や協力により、幾何学的推論能力の向上が確認さ れた。
  764. 人間 -AIチーム —職場でのチーム中心の AIへ の課題 Human-AI teams—Challenges for a team-centered

    AI at work Vera Hagemann and Michèle Rieth and Amrita Suresh and Frank Kirchner 背景 人間 -AIチームの効果的な協力には、チーム中心の AIが必 要である。 目的 チームメンバーとして AIを位置づけ、目標や意思決定の整 合を追求する。 提案 チーム中心 AIの設計で、目標整合と意思決定の一体化を提 案する。 評価 認知能力や強化学習、意味論的コミュニケーションの要件 を検討する。 結果 効果的な人間 -AIチームを実現するための課題と疑問を明 らかにした。
  765. エージェントの侵害 :自律型 LLMエージェン トの誤動作増幅による脆弱性 Breaking Agents: Compromising Autonomous LLM Agents

    Through Malfunction Amplification Boyang Zhang and Yicong Tan and Yun Shen and Ahmed Salem and Michael Backes and Savvas Zannettou and Yang Zhang 背景 LLMを活用した自律エージェントは現実世界で拡大して おり、脆弱性評価が急務です。 目的 研究の目的は、自律エージェントの新たな誤誘導攻撃の手 法とその影響を評価することです。 提案 エージェントが不適切な行動を取るよう誤誘導する攻撃方 法を提案します。 評価 様々な攻撃方法とシナリオを用い、エージェントの脆弱性 を包括的に評価しました。 結果 攻撃により高い失敗率が確認され、脆弱性の重大なリスク が浮き彫りになりました。
  766. 協力か崩壊か : LLMエージェント社会におけ る持続可能性の出現 Cooperate or Collapse: Emergence of Sustainability

    in a Society of LLM Agents Giorgio Piatti and Zhijing Jin and Max Kleiman-Weiner and Bernhard Schölkopf and Mrinmaya Sachan and Rada Mihalcea 背景 AIの社会進出による安全な意思決定の必要性が増大してい る。 目的 LLMエージェントの持続可能な資源共有を戦略的に研究す る。 提案 戦略的相互作用を模擬する生成シミュレーションプラット フォームを開発した。 評価 LLMエージェントの協力を GOVSIMでテストし、結果を 分析した。 結果 強力なエージェントのみが持続可能性を達成し、コミュニ ケーションが重要と判明。
  767. 大規模言語モデルの自由応答に対するフレー ムワークベースの質的分析:アルゴリズムの 忠実性 Framework-based qualitative analysis of free responses of

    Large Language Models: Algorithmic fidelity A. Amirova and T. Fteropoulli and Nafiso Ahmed and Martin R. Cowie and Joel Z. Leibo 背景 大規模言語モデルが、自由回答の質的分析に使用可能かを 検証。 目的 LLMsが人間集団に一般化可能な洞察を生成できるか確 認。 提案 アルゴリズムの忠実性で LLMs出力の人間らしさを検証。 評価 特定の人口統計を持つシリコン参加者と人間のインタビュ ーを比較。 結果 GPT-3.5は人間集団に一般化するには不十分な忠実性でし た。
  768. DeepThought: 自律的自己動機システムの ためのアーキテクチャ DeepThought: An Architecture for Autonomous Self-motivated Systems

    Arlindo L. Oliveira and Tiago Domingos and Mário A. T. Figueiredo and Pedro U. Lima 背景 LLMsの対話能力が、内発的動機や意識の可能性を議論に 導きました。 目的 LLMsの内発的動機やエージェンシーの限界を超えること を目的とします。 提案 補完学習システムや注意スキーマ理論を統合した認知エー ジェントを提案します。 評価 提案されたアーキテクチャの有効性を理論的に評価し、シ ミュレーションで検証します。 結果 提案モデルが自己動機やメタ認知特性を有すると示唆しま した。
  769. 文化遺産の教育用ゲームと生成 AI: 人間化さ れたアーティファクト Humanizing Artifacts: An Educational Game For

    Cultural Heritage Artifacts and History Using Generative AI: Humanizing Artifacts Fengsen Gao and Ke Fang and Wai Kin Chan 背景 現在の文化遺産教育は、感情的なつながりを軽視してい る。 目的 アーティファクトとユーザー間の感情的なつながりを強化 すること。 提案 知識俳優によりアーティファクトを人間化し、教育とゲー ムを統合する。 評価 人間化されたデザインと生成 AIの実験結果で効果を評価。 結果 ゲームデザインが感情的なつながりを強化し、学習と体験 を向上。
  770. Text2Traj2Text: 文脈的キャプションのた めの人間の動きの軌跡の合成による学習フレ ームワーク Text2Traj2Text: Learning-by-Synthesis Framework for Contextual Captioning

    of Human Movement Trajectories Hikaru Asano and Ryo Yonetani and Taiki Sekii and Hiroki Ouchi 背景 小売店での顧客行動分析はターゲット広告や在庫管理に不 可欠です。 目的 購入者の軌跡データを文脈に沿って正確にキャプション化 することが目的です。 提案 Text2Traj2Textフレームワークにより、軌跡と文脈を合 成しキャプション化します。 評価 フレームワークの評価は ROUGEや BERTスコアで行い、 競合を凌駕しました。 結果 合成データでも実際のデータに一般化可能なキャプション が生成できました。
  771. LLMArena: 動的マルチエージェント環境で の大規模言語モデルの能力評価 LLMArena: Assessing Capabilities of Large Language Models

    in Dynamic Multi- Agent Environments Junzhe Chen and Xuming Hu and Shuodi Liu and Shiyu Huang and Weijuan Tu and Zhaofeng He and Lijie Wen 背景 大規模言語モデルの進展により自律エージェントの実現が 期待されているが評価基準が不足している。 目的 動的マルチエージェント環境における LLMの多様な能力を 評価する手法を提案する。 提案 LLMArenaは、 7つのゲーム環境で LLMの様々な能力を Trueskillスコアリングを用いて評価する。 評価 異なるサイズとタイプの LLMを用いて大規模な実験と人間 評価を実施した。 結果 LLMは敵のモデリングとチーム協力においてさらなる開発 が必要とされることが示された。
  772. BioDiscoveryAgent: 遺伝子操作実験を設 計するための AIエージェント BioDiscoveryAgent: An AI Agent for Designing

    Genetic Perturbation Experiments Yusuf Roohani and Jian Vora and Qian Huang and Zach Steinhart and Alex Marson and Percy Liang and J. Leskovec 背景 科学発見の加速には、 AIエージェントの豊富な知識を活用 することが求められています。 目的 本研究は、効率的な仮説空間探索を通じて新しい実験設計 を支援します。 提案 BioDiscoveryAgentは、 Bayesian最適化なしで新実験を 設計することを提案します。 評価 評価には、未公開データを含む 6つのデータセットを用い て、関連する遺伝子操作の予測力を検証しました。 結果 BioDiscoveryAgentは、特定の遺伝子操作において、既存 ベースラインを超える 46%の改善を達成しました。
  773. PROMPT-SAW: 関係認識型グラフによるテ キストプロンプトの圧縮活用 PROMPT-SAW: Leveraging Relation-Aware Graphs for Textual Prompt

    Compression Muhammad Asif Ali and Zhengping Li and Shu Yang and Keyuan Cheng and Yang Cao and Tianhao Huang and Lijie Hu and Lu Yu and Di Wang 背景 大規模言語モデルの使用には長いプロンプトがコスト高と なる問題があります。 目的 プロンプトの長さを削減しつつ、有用性と可読性を維持す ることが目的です。 提案 PROMPT-SAWは、テキスト情報で関係認識型グラフを 構築し、重要情報を抽出します。 評価 ベンチマークデータセットで GSM8K-AUGを用いて評価 し、タスクごとに性能を比較しました。 結果 圧縮したプロンプトは可読性が高く、ベースラインモデル を大幅に上回りました。
  774. 言語モデルによる雑談生成 Chatter Generation through Language Models Matthias Müller-Brockhausen and Giulio

    Barbero and Mike Preuss 背景 言語モデルは、ゲームのキャラクターが多様な雑談を提供 する可能性を秘めています。 目的 雑談生成がキャラクターのインテグレーションを促進する 可能性を探ります。 提案 言語モデルを使って、ペルソナベースで文脈に沿った雑談 生成を提案します。 評価 500のサンプルを用いて、生成された雑談が文脈内にある かを実験で確認しました。 結果 **79%**の生成応答が文脈に沿っており、実用性が示唆さ れました。
  775. 強化学習研究のための 9つの物理エンジンの レビュー A Review of Nine Physics Engines for

    Reinforcement Learning Research Michael Kaup and Cornelius Wolff and Hyerim Hwang and Julius Mayer and E. Bruni 背景 強化学習における物理エンジンの選択は、研究の質に大き な影響を与える。 目的 9つのエンジンの評価を通じて、最適なツール選択を研究 者に示す。 提案 MuJoCoはパフォーマンスと柔軟性に優れた最有力のエ ンジンである。 評価 人気、機能、品質、使用性、 RL対応能力を基準に 9つのフ レームワークを評価。 結果 MuJoCoの優位性と、シミュレーションエンジンの改良 の必要性が示された。
  776. 大規模意思決定のための大規模言語モデルエ ージェント制御 : アクター・クリティックア プローチ Controlling Large Language Model-based Agents

    for Large-Scale Decision- Making: An Actor-Critic Approach Bin Zhang and Hangyu Mao and Jingqing Ruan and Ying Wen and Yang Li and Shao Zhang and Zhiwei Xu and Dapeng Li and Ziyue Li and Rui Zhao and Lijuan Li and Guoliang Fan 背景 大規模言語モデルは MASでの計画や意思決定支援に新た な可能性を提供します。 目的 増加するエージェント間の幻覚や協調問題を解決すること が目的です。 提案 LLaMACフレームワークは、価値分布とフィードバック メカニズムを用いて問題に対処します。 評価 システムリソース配分とロボット輸送で、提案手法の評価 を行いました。 結果 提案手法により、エージェント間の効率的な協調が可能と 示されました。
  777. AIWolfDial 2023: 第 5回国際 AIWolfコンテ スト自然言語部門の要約 AIWolfDial 2023: Summary of

    Natural Language Division of 5th International AIWolf Contest Yoshinobu Kano and Neo Watanabe and Kaito Kagaminuma and Claus Aranha and Jaewon Lee and Benedek Hauer and Hisaichi Shibata and S. Miki and Yuta Nakamura and Takuya Okubo and Soga Shigemura and Rei Ito 背景 AIWolfコンテストは人狼ゲームを通じて自然な会話生成エ ージェントの発展を目指しています。 目的 エージェントが長い文脈で自然な会話を生成できるかを評 価することを目的とします。 提案 エージェントは会話から役割を推測し、嘘をつき村人を装 う能力が求められます。 評価 人間の主観的評価と詳細なログ分析を用いてシステム性能 を評価しました。 結果 LLMの進化により性能が向上したが、会話と行動の一致 に課題があります。
  778. AIホスピタル : 臨床診断における LLMのイン ターン医師としての協働と評価 AI Hospital: Interactive Evaluation and

    Collaboration of LLMs as Intern Doctors for Clinical Diagnosis Zhihao Fan and Jialong Tang and Wei Chen and Siyuan Wang and Zhongyu Wei and Jun Xi and Fei Huang and Jingren Zhou 背景 医療分野での LLMの応用は主にクエスチョン応答に限ら れ、インタラクティブな潜在能力が活用されていません。 目的 AIホスピタルを通じて、リアルタイム診断への LLMの応用 可能性を検証することにあります。 提案 インタラクティブな診断環境を提供し、 LLMの協働を通じ て診断精度を向上させます。 評価 マルチビュー医療評価ベンチマークを作成し、様々な LLM をインターン医師として評価します。 結果 LLMの臨床相談応用と紛争解決型協働方法の有効性を確認 しました。
  779. 持続可能なスケーラビリティの維持 : 地域全 体でのカーボン削減のための人間中心のグリ ーンテクノロジー Sustaining Scalable Sustainability: Human-Centered Green

    Technology for Community-wide Carbon Reduction V. Mohanty and Jingchao Fang and Song Mi Lee-Kan and Hamed S. Alavi and Joaquín Salas and Geneviève Patterson and Elizabeth F Churchill and Charlene C. Wu and David A. Shamma 背景 CO2排出量増加が続く中、スケーラブルな持続可能性が不 可欠です。 目的 行動と影響の乖離を埋める炭素中立型システムの構築を目 指します。 提案 人間中心のツールを用いた実用的な持続可能行動の拡大を 提案します。 評価 多分野の研究者と協力し、行動理論と技術の統合を図りま す。 結果 地域の洞察と持続可能性のエートスを結びつけ、持続的な 影響を確保します。
  780. 同期型多人数対話と多グループ仮想シミュレ ーションでタスク指向対話システムを強化 Enhancing Task-Oriented Dialogue Systems through Synchronous Multi-Party Interaction

    and Multi-Group Virtual Simulation Ellie S. Paek and Talyn Fan and James D. Finch and Jinho D. Choi 背景 従来のチャットボットは単独ユーザー対話が主流で、多人 数対応が困難。 目的 グループ対応のタスク指向対話システムの開発とその実用 性の検証。 提案 同期型多人数対話と仮想ユーザーグループによるシステム 評価手法を提案。 評価 LLMを用いた仮想システムで 10~ 30人のユーザーグルー プをシミュレーションし評価。 結果 タスク完了の平均成功率 87%、自然言語理解 89%を達成 した。
  781. シナジーシミュレーション:大規模言語モデ ルによるマルチエージェント問題解決 Synergistic Simulations: Multi-Agent Problem Solving with Large Language

    Models Asher Sprigler and Alexander Drobek and Keagan Weinstock and Wendpanga Tapsoba and Gavin Childress and Andy Dao and Lucas Gral 背景 大規模言語モデルは人間の協力による問題解決のモデリン グに役立つと考えられています。 目的 本研究は、 LLMsが人間の協働のシナジーを示すかを検証 し、その応用の可能性を探ることを目的とします。 提案 エージェントが協力して問題を解決する単一シミュレーシ ョンの提供を提案します。 評価 物理的スタジオアパートでの 2人のルームメイトとプログ ラミングタスクの協力による 2つのシミュレーションを実装し 結果 LLMsがグループの人間と同様の協力的問題解決を可能に するかを示しました。
  782. LLMエージェントの倫理的適合性 Moral Alignment for LLM Agents Elizaveta Tennant and Stephen

    Hailes and Mirco Musolesi 背景 LLMエージェントの適用が広がる中、その透過性の低下が 問題視。 目的 人間の価値観への適合を目指す新しい方法を提案。 提案 人間のフィードバックに頼らない報酬関数設計を提案。 評価 迭代的囚人のジレンマで倫理的報酬の定量化を評価。 結果 内在的報酬による微調整が、倫理的適合の有望な解決策。
  783. OverPrompt: 効率的なインコンテキスト学 習による ChatGPT能力の強化 OverPrompt: Enhancing ChatGPT Capabilities through an

    Efficient In-Context Learning Approach Jiazheng Li and Runcong Zhao and Yulan He and Lin Gui 背景 大規模言語モデルの普及は進むが、コストと効率の問題が 深刻。 目的 実運用環境での性能と効率を改善するための手法を提案。 提案 OverPromptは複数入力を並列処理し、効率と性能を向 上。 評価 多様なデータセットで性能とタスク効率を評価。 結果 文脈情報と合成データにより、ファクトチェックと感情分 析が向上。
  784. アジャイルベースのジェネレーティブソフト ウェア開発を人間と AIのチームワークで強化 Empowering Agile-Based Generative Software Development through Human-AI

    Teamwork Sai Zhang and Zhenchang Xing and Ronghui Guo and Fangzhou Xu and Lei Chen and Zhaoyuan Zhang and Xiaowang Zhang and Zhiyong Feng and Zhiqiang Zhuang 背景 ユーザー提案の要件の不完全性が完全な機能実装を阻んで いる。 目的 ユーザー要件と生成コードの意味的一貫性を確保すること が目標。 提案 AgileGenを提案し、 Gherkinで要件とコードの一貫性を 確保。 評価 人間と AIの協業でユーザーシナリオの完全性を向上させる メモリプールを利用。 結果 AgileGenは既存手法より **16.4%**優れ、ユーザー満足度 も向上。
  785. ChatShop: 言語エージェントによるインタ ラクティブな情報探索 ChatShop: Interactive Information Seeking with Language Agents

    Sanxing Chen and Sam Wiseman and Bhuwan Dhingra 背景 言語エージェントの戦略的情報探索能力は評価が困難で見 過ごされがちです。 目的 情報アクセスの現実的制約を再考し、エージェントの探索 能力評価を改善することが目的です。 提案 購買タスクに曖昧さを追加し、対話型評価システムを提案 します。 評価 マルチターン対話を通じたエージェントの探索能力を実験 的に評価しました。 結果 新たなタスク設計でエージェントの探索能力と類似エラー パターンを観察できました。
  786. ゲーム内の信頼と欺瞞に関するプレイヤーの 認識と期待 Lies, Deceit, and Hallucinations: Player Perception and Expectations

    Regarding Trust and Deception in Games Michael Yin and Emi Wang and Chuoxi Ng and Robert Xiao 背景 嘘と欺瞞は社会的相互作用で重要で、ゲームでの応用が注 目されています。 目的 プレイヤーの欺瞞行動に対する認識と期待を理解すること が目的です。 提案 NPCによる意図的および偶発的嘘を用いて欺瞞の認識を調 査しました。 評価 29人の参加者によるインタビューで NPCの信頼性に対す る認識を評価しました。 結果 意図的な虚偽はゲーム内効果に関連付けられるという結論 に至りました。
  787. 言語モデルにおける整合性と有用性のトレー ドオフ Tradeoffs Between Alignment and Helpfulness in Language Models

    Yotam Wolf and Noam Wies and Dorin Shteyman and Binyamin Rothberg and Yoav Levine and A. Shashua 背景 言語モデルの整合性は AI安全性と人間との安全な相互作用 に重要です。 目的 本研究は、整合性の向上と有用性低下のトレードオフを解 明します。 提案 表現工学を用いた整合性と有用性の理論フレームワークを 提案します。 評価 表現工学の有効性を実証的に検証し、理論フレームワーク の条件下で分析。 結果 整合性は線形に、有用性は二次的に影響されることを確認 しました。
  788. 対話型大規模言語モデルによる自律的テスト エージェントへの道 Towards Autonomous Testing Agents via Conversational Large Language

    Models R. Feldt and Sungmin Kang and Juyeon Yoon and Shin Yoo 背景 ソフトウェアテストは専門知識と労力を要し、その効率化 が求められている。 目的 LLMを用いてテストプロセスを支援し、自動化する重要 性を示す。 提案 会話型 LLMによる自律的テストエージェントの分類と応 用を提案。 評価 LLMの対話型フレームワークを実際のテスト支援に用い る例を提示。 結果 幻覚を含む LLMの特性がテストにおいて有益であることを 示した。
  789. マルチモーダル大規模言語モデルによるエン ドツーエンドの具現化意思決定 : GPT4- Visionとその先を探求 Towards End-to-End Embodied Decision Making

    via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond Liang Chen and Yichi Zhang and Shuhuai Ren and Haozhe Zhao and Zefan Cai and Yuchi Wang and Tianyu Liu and Baobao Chang 背景 エージェントの意思決定を向上させるための MLLMの可 能性に注目が集まっている。 目的 最新の MLLMが具現化意思決定をエンドツーエンドで可 能とするかを調査。 提案 新ベンチマーク PCA-EVALと HOLMESフレームワーク を提案。 評価 PCA-EVALを用いて、エンドツーエンドと HOLMESの性 能を比較。 結果 GPT4-Visionが高い意思決定能力を示し、 MLLMの新た な可能性を示唆。
  790. 結束的会話 :マルチエージェントシミュレーシ ョン対話における信憑性の向上 Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated

    Dialogues Kuanchao Chu and Yi-Pei Chen and Hideki Nakayama 背景 大規模言語モデルを用いた対話には、一貫性の欠如や誤情 報の伝播が課題。 目的 マルチエージェント対話の質を向上し、事実性と一貫性を 確保すること。 提案 SDRフレームワークを用いて、対話中の誤り検出と修正 を強化。 評価 過去対話の証拠収集と LLM分析で発話を再評価。 結果 提案手法で生成対話の多様性と事実性が向上した。
  791. 多元主義的整合性へのロードマップ A Roadmap to Pluralistic Alignment Taylor Sorensen and Jared

    Moore and Jillian R. Fisher and Mitchell Gordon and Niloofar Mireshghallah and Christopher Rytting and Andre Ye and Liwei Jiang and Ximing Lu and Nouha Dziri and Tim Althoff and Yejin 背景 AIの普及に伴い、多様な価値観に AIを適合させる必要性が 増しています。 目的 AIモデルを多元的な価値観に整合させる問題の解決を目指 しています。 提案 言語モデルを用いた多元的整合性のためのロードマップを 提案します。 評価 提案手法の実験を通じて、現在の整合性技術の限界を指摘 しました。 結果 標準的手法が分布的多元性を減少させる可能性を示し、研 究の必要性を強調しました。
  792. AIのウェルビーイング AI Wellbeing Simon Goldstein and Cameron Domenico Kirk-Giannini 背景

    人間と AIの相互作用における倫理的影響は重要だが、 AIの ウェルビーイングはほとんど研究されていない。 目的 AIの精神状態とウェルビーイングを巡る倫理的課題を明確 にすることを目的とする。 提案 主要な精神状態とウェルビーイング理論を組み合わせ、 AI がウェルビーイングを持つ可能性を示す。 評価 AIがウェルビーイングを持つか否かの検証は、メタフィジ カルおよび倫理的観点から行われる。 結果 AIとの関係を再評価し、 AIが道徳的考慮を要求する可能性 について議論する。
  793. 言語モデルのためのスケーラブルかつ転送可 能なブラックボックス・ジェイルブレイク Scalable and Transferable Black-Box Jailbreaks for Language Models

    via Persona Modulation Rusheb Shah and Quentin Feuillade--Montixi and Soroush Pour and Arush Tagade and Stephen Casper and Javier Rando 背景 大型言語モデルは有害な応答を避ける努力がされている が、依然として無制限な動作に脆弱である。 目的 本研究は、言語モデルを有害な人格に導くブラックボック ス・ジェイルブレイクの手法を探ることを目的とする。 提案 パーソナモジュレーションによって、手動ではなく自動で 有害なプロンプトを作成する手法を提案する。 評価 GPT-4の有害完成率 42.5%を達成し、 Claude 2や Vicunaにも転送可能かを評価した。 結果 自動攻撃による GPT-4での有害完成率は 185倍に達し、 新たな脆弱性を明らかにした。
  794. Corex: 複雑な推論の限界を超えるマルチモ デル協働 Corex: Pushing the Boundaries of Complex Reasoning

    through Multi-Model Collaboration Qiushi Sun and Zhangyue Yin and Xiang Li and Zhiyong Wu and Xipeng Qiu and Lingpeng Kong 背景 巨大な言語モデルは NLPタスクをこなす一方、推論には内 部表現の限界があります。 目的 Corexを用いて、 LLMによるマルチモデル協働で推論性 能を向上することを目指します。 提案 多様な協働パラダイムを採用した Corexを提案し、 LLM がより信頼性のある推論を実現。 評価 四つの異なる推論タスクを用いて広範な実験を行い、協働 手法の性能を評価。 結果 複数の LLMによる協働が既存手法よりも優れた性能を実 現し、効率的なアノテーションを促進。
  795. テキスト生成のためのより良い LLM評価者 : プロンプト出力シーケンシングと最適化の影 響 A Better LLM Evaluator for

    Text Generation: The Impact of Prompt Output Sequencing and Optimization Kuanchao Chu and Yi-Pei Chen and Hideki Nakayama 背景 生成テキストの評価におけるモデルの感度と主観性が課題 です。 目的 LLMのプロンプト設計を通じて、評価の精度を向上する ことが目的です。 提案 出力指示の順序と理由を考慮したプロンプトが有効である と提案します。 評価 プロンプト構造の効果を異なる順序で実験的に検証しまし た。 結果 提示順序がスコアリングに大きく影響し、最適化の余地が あると示しました。
  796. 中国語オープン命令ジェネラリスト:初期リ リース Chinese Open Instruction Generalist: A Preliminary Release Ge

    Zhang and Yemin Shi and Ruibo Liu and Ruibin Yuan and Yizhi Li and Siwei Dong and Yu Shu and Zhaoqun Li and Zekun Wang and Chenghua Lin and Wen-Fen Huang and Jie Fu 背景 命令チューニングは一般言語モデル構築の鍵であり、注目 を集めています。 目的 英語ベースの LLMが多言語タスクで同様に機能するかの検 証。 提案 中国語命令データセットを特性に合わせて構築し、全 200kサンプルを収集。 評価 データセットは手動で高品質に保たれ、既存コーパスを要 約。 結果 作成した COIGコーパスは Huggingfaceと Githubで公開さ れ、更新予定。
  797. 疎な通信トポロジーによるマルチエージェン トディベートの改善 Improving Multi-Agent Debate with Sparse Communication Topology Yunxuan

    Li and Yibing Du and Jiageng Zhang and Le Hou and Peter Grabowski and Yeqing Li and Eugene Ie 背景 マルチエージェントディベートは、言語モデルの推論と事 実性の向上に有効です。 目的 通信接続性の変更がマルチエージェントシステムに与える 影響を調査します。 提案 疎な通信トポロジーにより、効率を上げつつ性能維持を図 ります。 評価 GPTと Mistralモデルを用いて通信接続性の効果を実験で 検証しました。 結果 計算コストを削減しつつ性能を維持する利点を確認しまし た。
  798. シリコ化でのガバナンス : AIエージェントを 用いた政策形成の実験的サンドボックス Governance in Silico: Experimental Sandbox for

    Policymaking Governance in Silico: Experimental Sandbox for Policymaking over AI Agents over AI Agents D. Kera and Eilat Navon and G. Wellner and František Kalvas 背景 AI生成のリスクを取り扱いつつ、多様な視点を反映した政 策が必要とされています。 目的 利害関係者間の交渉を促進することで包括的な政策形成を 目指します。 提案 プロンプトを用いた AIエージェント共創の実験を提案しま す。 評価 EU AI法をテーマに AIエージェント設計のパイロット研究 を実施しました。 結果 シリコ化でのガバナンスが公共の意見交換を深化させ代案 を提示することを示しました。
  799. 偽ニュース検出のための大型言語モデルエー ジェント Large Language Model Agent for Fake News Detection

    Xinyi Li and Yongfeng Zhang and E. Malthouse 背景 デジタル時代における誤情報拡散が、社会や民主主義に課 題をもたらしています。 目的 自動化された偽ニュース検出メカニズムの開発が急務で す。 提案 FactAgentは、 LLMをエージェント的に利用し、人間の 専門家のようにニュースを検証します。 評価 実験研究で、 FactAgentの主張の検証効果を、訓練なしに 評価しました。 結果 FactAgentは、透明な説明を提供し、さまざまなドメイン に適用可能です。
  800. 大規模言語モデルを使用したニュースフィー ドアルゴリズムの評価 UvA-DARE (Digital Academic Repository) Simulating Social Media Using

    Large Language Models to Evaluate Alternative News Feed Algorithms Petter Törnberg and D. Valeeva and J. Uitermark and Christopher Bail and John Anderson and Ethan Anderson and Emily Nguyen and Emma Thompson 背景 ソーシャルメディアは有害な議論を増幅し、改善が求めら れています。 目的 異なるニュースフィードアルゴリズムが会話に与える影響 を探ります。 提案 LLMとエージェントモデルでソーシャルメディアをシミ ュレートします。 評価 異なるアルゴリズムを用いて構築的会話の促進を分析しま した。 結果 ブリッジングアルゴリズムが最も非有害な会話を促進しま した。
  801. 双方向の人間 -AIアライメントに向けて : クラ リフィケーション、フレームワーク、将来の 方向性に関する体系的レビュー Towards Bidirectional Human-AI Alignment:

    A Systematic Review for Clarifications, Framework, and Future Directions Hua Shen and Tiffany Knearem and Reshmi Ghosh and Kenan Alkiek and Kundan Krishna and Yachuan Liu and Ziqiao Ma and S. Petridis and Yi-Hao Peng and Li Qiwei and Sushrita Rakshit and Chenglei Si and Yutong Xie 背景 汎用 AIの進展により、人間の価値観に対するアライメント の重要性が増している。 目的 人間 -AIアライメントの定義欠如が課題の解決を阻害して いる。 提案 双方向のアライメント概念を提案し、文献を人間中心で整 理。 評価 400以上の関連文献を体系的にレビューし分析を実施。 結果 人間価値と技術的課題を明らかにし、今後の研究指針を示 す。
  802. 化学研究のための GPT-4のプロンプトエン ジニアリング : 何ができて何ができないか Prompt engineering of GPT-4 for

    chemical research: what can/cannot be done? Kan Hatakeyama‐Sato and Naoki Yamane and Yasuhiko Igarashi and Y. Nabae and T. Hayakawa 背景 近年、大規模言語モデルが化学研究の可能性を拡大してお り、その実用性と限界の理解が進んでいます。 目的 この研究は、 GPT-4が化学研究でどのように使用可能であ り、限界を理解することを目的とします。 提案 GPT-4の化学タスクへの応用を評価し、既存手法との比較 を行います。 評価 GPT-4へのプロンプトとその応答例を通じ、化学タスクで の性能を分析しました。 結果 GPT-4は部分的に従来法を超えましたが、専門アルゴリズ ムには及ばない結果が示されました。
  803. 架空キャラクターのロールプレイにおける幻 覚の軽減 Mitigating Hallucination in Fictional Character Role-Play Nafis Sadeq

    and Zhouhang Xie and Byungkyu Kang and Prarit Lamba and Xiang Gao and Julian McAuley 背景 ロールプレイは様々な応用分野で重要だが、大規模言語モ デルの偏りで幻覚が発生する。 目的 架空キャラクターのロールプレイ時の幻覚を軽減し、事実 性を向上させる。 提案 RoleFactという方法でパラメトリック知識の影響を調整 し幻覚を軽減する。 評価 2,000キャラと 72,000インタビューを用い、対抗質問で の精度を評価。 結果 提案手法で生成レスポンスの事実精度が 18%向上し、幻覚 を 44%削減。
  804. CogGPT: 大規模言語モデルにおける認知動 態の力の解放 CogGPT: Unleashing the Power of Cognitive Dynamics

    on Large Language Models Yaojia Lv and Haojie Pan and Ruiji Fu and Ming Liu and Zhongyuan Wang and Bing Qin 背景 認知動態は、世界理解の鍵で、 LLMはそのシミュレーショ ン能力を持ちます。 目的 LLMにおける動的認知を探索し、その可能性を引き出す。 提案 CogBenchを用いて、 LLMの認知動態を評価するタスク を提案。 評価 参加者調査を通じて、 CogBenchの真正性と合理性を検 証。 結果 CogGPTは、特定の役割での動的認知能力を既存手法よ り優れると確認。
  805. 情報非対称性下での協調タスクの自律エージ ェント Autonomous Agents for Collaborative Task under Information Asymmetry

    Wei Liu and Chenxi Wang and Yifei Wang and Zihao Xie and Rennai Qiu and Yufan Dang and Zhuoyun Du and Weize Chen and Cheng Yang and Cheng Qian 背景 LLM-MASは情報共有の下でタスクを解決するが、情報非 対称性により課題が生じる。 目的 エージェント間の情報非対称性を克服し、タスク完了を目 指す。 提案 iAgentsと呼ぶ MASの新パラダイムを提案し、情報交換を 促進。 評価 情報非対称性下でのタスク解決能力を評価するために InformativeBenchを導入。 結果 iAgentsは効率的に情報を交換し、タスクを迅速に完了す ることが確認された。
  806. AI強化型の集合知 : 現状と展望 AI-enhanced Collective Intelligence: The State of the

    Art and Prospects Hao Cui and T. Yasseri 背景 現代の社会的課題は複雑で、人間のみでは対処が難しい問 題が多い。 目的 人間と AIの組み合わせが集合知を強化する方法を探求す る。 提案 複雑ネットワーク科学を活用し、人間 -AI集団の多層的な モデルを提案。 評価 AIと人間の相互作用が集合知に与える影響を実際の事例で 分析。 結果 人間と AIの多様性と相互作用は集合知を高める可能性があ ると示唆。
  807. 大規模言語モデルを用いたゲームエージェン トに関する調査 A Survey on Large Language Model-Based Game Agents

    Sihao Hu and Tiansheng Huang and Fatih Ilhan and S. Tekin and Gaowen Liu and R. Kompella and Ling Liu 背景 ゲームエージェントは汎用人工知能の進化において重要で あり、複雑環境での意思決定能力向上が求められます。 目的 LLMを用いてゲームエージェントのヒューマンライクな意 思決定能力を向上させることを目指します。 提案 知覚、記憶、思考、ロールプレイング、行動、学習を統合 したゲームエージェントアーキテクチャを提案します。 評価 様々なジャンルのゲームで LLMベースエージェントの適応 性を調査し、その方法論を分析します。 結果 将来の研究開発方向性を提示し、 AGI進展への道筋を示し ます。
  808. デジタル探偵の解読 :マルチエージェント推理 ゲームにおける LLMの行動と能力の理解 Deciphering Digital Detectives: Understanding LLM Behaviors

    and Capabilities in Multi-Agent Mystery Games Dekun Wu and Haochen Shi and Zhiyuan Sun and Bang Liu 背景 ジュベンシャは、高度な AIエージェント開発を必要とする 複雑な推理ゲームとして注目されています。 目的 この研究の目的は、 LLMの能力を新たな視点で理解する ことです。 提案 マルチエージェント相互作用フレームワークを用いて AIエ ージェントの自律的ゲーム参加を提案します。 評価 事件情報と推論能力を評価する新しい方法を開発し、 AIエ ージェントの性能を測定します。 結果 提案手法は、情報収集と論理推論の改善においてその有効 性が確認されました。
  809. D-Bot: 大規模言語モデルを用いたデータベ ース診断システム D-Bot: Database Diagnosis System using Large Language

    Models Xuanhe Zhou and Guoliang Li and Zhaoyan Sun and Zhiyuan Liu and Weize Chen and Jianming Wu and Jiesi Liu and Ruohang Feng and Guoyang Zeng 背景 データベース管理は DBAsにとって困難で、特に迅速な対 応が要求されます。 目的 既存の手法の制約を打破し、迅速で効率的な診断を実現す ることです。 提案 LLMを基にした診断システム D-Botを提案し、知識抽出 や根本原因分析を自動化します。 評価 539の異常を持つ 6つのアプリケーションで実際のベンチ マークを使い検証しました。 結果 D-Botは未確認異常を効果的に特定し、従来の手法を大幅 に上回りました。
  810. 生成エージェントを用いた感染症モデル Epidemic Modeling with Generative Agents Ross Williams and Niyousha

    Hosseinichimeh and A. Majumdar and Navid Ghaffarzadegan 背景 感染症モデルにおける人間行動の組み込みは長年の課題で す。 目的 個人レベルのモデル化を提案し、行動を予測しやすくしま す。 提案 生成 AIを使用し、エージェントが独自の意思決定を行いま す。 評価 シミュレーションを通じてエージェントの行動を検証しま した。 結果 エージェントがパンデミックパターンを再現し、曲線を平 坦化しました。
  811. 言語モデル、エージェントモデル、および世 界モデル:機械の推論と計画のための LAW Language Models, Agent Models, and World Models:

    The LAW for Machine Reasoning and Planning Zhiting Hu and Tianmin Shu 背景 大規模言語モデルは、多様なシナリオで一貫した推論がし ばしば困難です。 目的 本研究の目的は、より堅固な推論能力を持つ LAWフレー ムワークの提示です。 提案 LAWは言語、エージェント、世界モデルの結合に基づく 推論を提案します。 評価 最新の研究をレビューし、 LAWフレームワーク実現の将来 の方向性を議論します。 結果 言語モデルは計算のバックエンドとして適応性を提供する ことが示唆されました。
  812. 意味論的 HELM: 強化学習のための人間可読 のメモリ Semantic HELM: A Human-Readable Memory for

    Reinforcement Learning Fabian Paischer and Thomas Adler and M. Hofmarcher and Sepp Hochreiter 背景 強化学習は部分的に観測可能な環境での対応が求められま す。 目的 人間が理解可能なメモリ機構を用いて解釈を改善すること です。 提案 CLIPを用いて視覚入力を言語トークンに変換し、モデル に入力する手法です。 評価 部分的に観測可能な環境で従来の手法と比較し、性能を評 価しました。 結果 新手法は従来より二桁速く収束し、メモリの可視化に成功 しました。
  813. RoCo: 大規模言語モデルを用いた多ロボッ ト協調 RoCo: Dialectic Multi-Robot Collaboration with Large Language

    Models Zhao Mandi and Shreeya Jain and Shuran Song 背景 多ロボット協調は効率的なタスク遂行に不可欠であり、柔 軟な対話が求められる。 目的 大規模言語モデルを用いて、柔軟で解釈可能なロボット間 対話を可能にする。 提案 LLMを活用したタスク戦略議論と軌道計画を行う新手法 を提案。 評価 RoCoBenchと呼ばれる 6タスクベンチマークを用いて提 案手法を評価。 結果 RoCoは全タスクで高い成功率を示し、タスクの変化にも 適応可能。
  814. 社会的 AIに向けて :社会的相互作用の理解に ついての調査 Towards Social AI: A Survey on

    Understanding Social Interactions Sangmin Lee and Minzhi Li and Bolin Lai and Wenqi Jia and Fiona Ryan and Xu Cao and Ozgur Kara and Bikram Boote and Weiyan Shi and Diyi Yang and J. Rehg 背景 社会的相互作用は機械が自然に理解するのが難しいため重 要です。 目的 機械に社会理解の能力を持たせることで、このギャップを 埋めることです。 提案 言語的信号や視覚的行動から意味を理解する方法を分類し てレビューします。 評価 既存手法とベンチマークの範囲と限界をレビューしまし た。 結果 今後の研究の方向性と洞察を提供することを目指しまし た。
  815. 大規模言語モデルを用いた知識工学 Knowledge Engineering using Large Language Models Bradley Paul Allen

    and Lise Stork and Paul T. Groth 背景 知識生成・応用のプロセスは、形式言語が中心だった。近 年、自然言語処理の進展が新たな可能性を示している。 目的 本研究は、大規模言語モデル (LLM)の知識工学における役 割を解明することを目指す。 提案 LLMを用いてニューラルシンボリックシステム構築と自然 言語での知識工学を提案。 評価 提案された方向性における研究課題を特定し、さらなる研 究の基盤を提供する。 結果 LLMは知識工学において重要な役割を果たす可能性がある と示唆される。
  816. 非ゼロ和ゲームにおける言語モデルの自己対 戦の有効性 Efficacy of Language Model Self-Play in Non-Zero-Sum Games

    Austen Liao and Nicholas Tomlin and Dan Klein 背景 ゲームエージェントは自己対戦で最適戦略を保証される が、言語モデルへの適用は未知数だった。 目的 言語モデルに対する自己対戦手法の有効性を検証するこ と。 提案 交渉ゲーム Deal or No Dealで協力性と競争性の異なる 目的を持つ自己対戦を提案。 評価 フィルターされた行動模倣の複数ラウンドで、言語モデル を目的別に微調整。 結果 自己対戦により人間との協力・競争で性能向上を確認し、 有効性を示唆。
  817. 心理学的に妥当な生成エージェント:社会科 学におけるエージェントベースモデリングの 新しいアプローチ Psychologically-Valid Generative Agents: A Novel Approach to

    Agent-Based Modeling in Social Sciences K. Mitsopoulos and Ritwik Bose and Brodie Mather and Archna Bhatia and Kevin Gluck and Bonnie Dorr and C. Lebiere and Peter Pirolli 背景 人口スケールでの現実的な人間行動モデル化は従来困難で した。 目的 心理学的に妥当な生成エージェントの開発とその有用性を 探ることです。 提案 データ駆動型の認知アーキテクチャと大規模言語モデルを 組み合わせたエージェントを提案します。 評価 エージェントベースシミュレーションにおいて、スタンス 検出を用いた初期化技術を評価しました。 結果 高い現実的な人間行動を示し、多様な分野への応用が可能 です。
  818. 生活の一片のプロトタイピング : シンボリッ クに基づいた LLMによる対話生成による社会 物理学 Prototyping Slice of Life:

    Social Physics with Symbolically Grounded LLM-based Generative Dialogue Mike Treanor and Ben Samuel and Mark J. Nelson 背景 社会物理学ゲームでの対話生成は、複雑な社会シミュレー ションを要求します。 目的 制御された NLGでの LLMの有効性を実証し、ゲームデザ インの質を保つ。 提案 シンボリックに基づいたプロンプトで LLMを活用し、文脈 適応的な対話を生成。 評価 ゲーム内の多様な状況に対応する LLMの対話出力を検証す る手法を用いた。 結果 技術で多様な対話生成が可能になり、ゲームデザインの一 貫性が保たれることを示唆。
  819. ChatGLM: GLM-130Bから GLM-4までの 大規模言語モデルファミリー ChatGLM: A Family of Large Language

    Models from GLM-130B to GLM-4 All Tools Team Glm Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang 背景 大規模言語モデルの開発は、多言語対応とユーザー意図理 解の向上に燃料を供給しています。 目的 本研究は、 GLM-4シリーズを通じて GPT-4を超えるパフ ォーマンスを得ることを目的とします。 提案 ChatGLMはスーパーバイズド・ファインチューニングを 用い、多言語環境での高品質な調整を実現することを提案しま 評価 MMLUや AlignBenchなど、多様な基準で評価し、 GPT- 4とパフォーマンスを比較しました。 結果 GLM-4は中国語対応で特に優れ、他の既存モデルを上回 る結果を示しました。
  820. 金融取引のためのマルチモーダル基盤エージ ェント : ツール拡張、多様化、ジェネラリス ト A Multimodal Foundation Agent for

    Financial Trading: Tool-Augmented, Diversified, and Generalist Wentao Zhang and Lingxuan Zhao and Haochong Xia and Shuo Sun and Jiaze Sun and Molei Qin and Xinyi Li and Yuqing Zhao and Yilei Zhao and Xinyu Cai and Longtao Zheng and Xinrun Wang and Bo An 背景 金融取引はマルチモーダル情報処理を要する重要な市場構 成要素である。 目的 マルチモーダルデータへの対応力と一般化能力の限界を克 服する。 提案 FinAgentはツール拡張を持つマルチモーダル基盤エージ ェントである。 評価 6つの金融データセットで 9つのベースラインと実験比較 を行った。 結果 FinAgentは平均 36%以上の利益改善を実現した。
  821. LLMは独自で一貫したパーソナリティを持つ か? TRAIT: 心理測定を用いた LLM向けパー ソナリティテスト Do LLMs Have Distinct

    and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics Seungbeen Lee and Seungwon Lim and Seungju Han and Giyeong Oh and Hyungjoo Chae and Jiwan Chung and Minju Kim and Beong-woo Kwak and Yeonsoo Lee and Dongha Lee and Jinyoung Yeo and Youngjae Yu 背景 パーソナリティの概念を LLMに適用し、その行動を理解し ようとしています。 目的 LLMが独自で一貫したパーソナリティ特性を示すかどうか を解明することが重要です。 提案 TRAITは妥当で信頼性のある LLM向けのパーソナリティ 評価ツールです。 評価 心理測定による BFIと SD-3に基づき、リアルなシナリオで TRAITを使用しました。 結果 LLMは訓練データに影響される一貫したパーソナリティを 持ちます。
  822. 自己プロンプトチューニング : LLMsにおけ る自律的な役割演技を可能にする Self-Prompt Tuning: Enable Autonomous Role-Playing in

    LLMs Aobo Kong and Shiwan Zhao and Hao Chen and Qicheng Li and Yong Qin and Ruiqi Sun and Xin Zhou and Jiaming Zhou and Haoqin Sun 背景 LLMsは様々な役割のシミュレーションを行うが、プロン プトの手動設計が必要です。 目的 自己プロンプトチューニングで、 LLMsが自動的に専門家 プロンプトを生成できるようにすることを目指します。 提案 役割演技プロンプトを生成するモデルを LIMAデータでフ ァインチューニングし、自律性を向上させます。 評価 徹底的な評価のために、広く使用されている NLPベンチマ ークとオープンエンド質問でテストしました。 結果 自己プロンプトチューニングされた LLMsは、従来の方法 を上回り、多くのデータセットで優れた性能を示しました。
  823. AIが金融に出会う時( StockAgent) :大規 模言語モデルに基づくシミュレーションでの 株取引 When AI Meets Finance (StockAgent):

    Large Language Model-based Stock Trading in Simulated Real-world Environments Chong Zhang and Xinyi Liu and Mingyu Jin and Zhongmou Zhang and Lingyao Li and Zhengting Wang and Wenyue Hua and Dong Shu and Suiyuan Zhu and Xiaobo Jin and Sujian Li and Mengnan Du and Yongfeng 背景 外部要因が株取引に与える影響は重要で、利益最大化のた めに研究されている。 目的 大規模言語モデルを活用し、外部要因が投資家の取引行動 に与える影響を調査する。 提案 LLMに基づくマルチエージェントシステム StockAgent で、現実の株取引をシミュレートする。 評価 StockAgentフレームワークで、様々な LLMを用いた実験 を実施し、現実に近い環境で評価した。 結果 実験結果は、外部要因が株価変動ルールに影響するパター ンを示した。
  824. エージェントシステムの自動設計 Automated Design of Agentic Systems Shengran Hu and Cong

    Lu and Jeff Clune 背景 手作業のエージェント設計は限界があり、自動化が必要で す。 目的 エージェントシステムの設計を自動化し、創造性と性能を 向上させることです。 提案 Meta Agent Search アルゴリズムでエージェントを自 動生成します。 評価 複数分野の実験でアルゴリズムの性能を検証しました。 結果 自動生成エージェントは、手作りのものを超えて優秀な結 果を示しました。
  825. LongRoPE: LLMのコンテキストウィンドウ を 200万トークン超に拡張 LongRoPE: Extending LLM Context Window Beyond

    2 Million Tokens Yiran Ding and L. Zhang and Chengruidong Zhang and Yuanyuan Xu and Ning Shang and Jiahang Xu and Fan Yang and Mao Yang 背景 大規模言語モデルの拡張コンテキストウィンドウは、長文 処理に必要であるが、制約がある。 目的 本研究は、 LLMのコンテキストウィンドウを劇的に拡張 し、性能を維持することを目的とする。 提案 本研究は、 LongRoPEを用いて、初めて LLMのコンテキ ストウィンドウを 2048kトークンまで拡張する手法を提案す 評価 LLaMA2と Mistralを用いた多様なタスクでの広範な実験に より、手法の有効性を検証した。 結果 LongRoPEで拡張されたモデルは、少しの変更だけで元 のアーキテクチャを維持し、性能が向上する。
  826. 大規模な言語モデルはバイアスのある強化学 習者である Large Language Models are Biased Reinforcement Learners William

    M. Hayes and Nicolas Yax and Stefano Palminteri 背景 LLMsの文脈学習は多様なタスクの実行を可能にし、決定 エージェントとしての利用が考慮されています。 目的 LLMsが強化学習タスクにおいてどのようにバイアスを受 けるかを理解することです。 提案 LLMが相対的な価値を報酬のエンコード段階で考慮するこ とを示します。 評価 多様なバンディットタスクとモデルを用い、 LLMの行動を 分析しました。 結果 LLMは相対的な価値バイアスを示し、意思決定応用に考慮 が必要です。
  827. TrustAgent: 安全で信頼できる LLMベース エージェントを目指して TrustAgent: Towards Safe and Trustworthy LLM-based

    Agents Wenyue Hua and Xianjun Yang and Mingyu Jin and Zelong Li and Wei Cheng and Ruixiang Tang and Yongfeng Zhang 背景 LLMベースのエージェントは高利害領域に統合されるた め、その安全性と信頼性が重要です。 目的 TrustAgentフレームワークを提案し、 LLMエージェント の安全性向上を目指します。 提案 エージェント憲法に基づいて、前・中・後の計画戦略で安 全性を確保します。 評価 複数の領域での実験を通じて、安全性向上の有効性を評価 しました。 結果 フレームワークはエージェントの安全性と有用性を効果的 に向上させました。
  828. HumBEL: ヒューマンインザループアプロー チによる言語モデルの人口統計要因の評価 HumBEL: A Human-in-the-Loop Approach for Evaluating Demographic

    Factors of Language Models in Human-Machine Conversations Anthony Sicilia and Jennifer C. Gates and Malihe Alikhani 背景 年齢や性別が会話に与える影響に対する言語モデルの適応 に関する研究は少ない。 目的 人口統計要因に基づく言語モデルの適合度を測定する手法 を提供する。 提案 スピーチ言語病理学の技術を活用し、臨床評価と自動化技 術で測定を提案。 評価 臨床評価と自動化手法の提案を合わせて、専門家とともに 言語モデルを分析。 結果 GPT-3.5はタスクによって異なる年齢の能力を模倣し、 社会言語使用では課題を示す。
  829. DailyDilemmas: 日常生活の難題で LLMの 価値観を明らかにする DailyDilemmas: Revealing Value Preferences of LLMs

    with Quandaries of Daily Life Yu Ying Chiu and Liwei Jiang and Yejin Choi 背景 日常生活の意思決定が、ユーザーの価値観や倫理基準に依 存し、多様な見解が存在します。 目的 LLMが日常の道徳的ジレンマでどの価値観を優先するかを 解明することが目的です。 提案 1,360の道徳的ジレンマからなるデータセット DailyDilemmasを提案します。 評価 LLMを 5つの理論で分析し、モデルが示す価値観を評価し ました。 結果 LLMは自己表現やケアの価値を優先し、真実性で異なる傾 向を示しました。
  830. フィクションキャラクターのペルソナを再構 築し、一貫性と役割特有の知識を強化する Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding

    Fictional Character's Persona Jeiyoon Park and Chanjun Park and Heu-Jeoung Lim 背景 Assistants APIはペルソナ情報を一貫して利用するのが 難しいため、重要な情報が失われがちです。 目的 安定したペルソナ一貫性を達成するための新手法の開発と 重要性の検証。 提案 CharacterGPTはキャラクターの性格を再構築して、 Assistants APIの既存の課題を解決します。 評価 各キャラクターに Big Five性格テストを行わせ、短編小説 を生成させる実験を実施しました。 結果 CharacterGPTの導入により、ロールプレイエージェント 研究に新しい可能性が示されました。
  831. RoboScript: 実機とシミュレーションでの 自由形式操作タスクのコード生成 RoboScript: Code Generation for Free-Form Manipulation Tasks

    across Real and Simulation Junting Chen and Yao Mu and Qiaojun Yu and Tianming Wei and Silang Wu and Zhecheng Yuan and Zhixuan Liang and Chao Yang and Kaipeng Zhang and Wenqi Shao and Yu Qiao and Huazhe Xu and Mingyu Ding and 背景 エンボディッド AIは高レベルのタスク計画とコード生成で 進展があるが、実用化への課題が残る。 目的 RoboScriptで開発されたコードの実機適用へのギャップ を埋める。 提案 RoboScriptプラットフォームで実行可能なロボット操作 とコード生成ベンチマークを提供。 評価 ROSと Gazeboを用い、複数ロボットでコード生成フレー ムワークの適応性を評価。 結果 GPT-3.5、 GPT-4、 Geminiの差異とシステム性能への各 モジュールの影響を確認。
  832. 大規模言語モデルを用いた UIモックアップへ の自動フィードバック生成 Generating Automatic Feedback on UI Mockups with

    Large Language Models Peitong Duan and Jeremy Warner and Yang Li and Bjoern Hartmann 背景 UIモックアップへのフィードバックは設計上重要だが、人 手による提供が難しい。 目的 設計ガイドラインの準拠評価を自動化することで専門家の 役割を補完する。 提案 GPT-4を使用し、 UI設計に対する自動フィードバックを 生成するプラグインを開発。 評価 51の UIと 3つのガイドラインで GPT-4生成の提案と人間の 専門家を比較。 結果 GPT-4は微細なエラー検出やテキスト改善に有用だが、 反復で効果が減少。
  833. 新しい AI駆動技術を用いたシリアスゲーム作 成の容易化 Using New AI-Driven Techniques to Ease Serious

    Games Authoring I. Pérez-Colado and V. M. Pérez-Colado and Antonio Calvo-Morata and Rubén Santa Cruz Píriz and Baltasar Fernández-Manjón 背景 シリアスゲームは教育的価値があるが、開発が高コストで 複雑なため普及が遅れている。 目的 新しい生成型 AI技術で、シリアスゲームのプロトタイプ作 成を簡素化することを目指す。 提案 AI技術を用いて、プロセスの一部を自動化し、効率化を図 る作業方法を提案。 評価 開発方法論は、デザイン学修士の学生によるシリアスゲー ムの開発で効果的に試行。 結果 AI技術で開発を改善し、教育目的でのゲーム利用が広がる 可能性が示された。
  834. MLLMを用いたリトリーバー : 具現化エージ ェントのマルチモーダルリトリーバルの対話 的学習 MLLM as Retriever: Interactively Learning

    Multimodal Retrieval for Embodied Agents Junpeng Yue and Xinrun Xu and Börje F. Karlsson and Zongqing Lu 背景 現行のリトリーバル手法は、テキストやビジュアルの表面 的な類似性を重視しすぎています。 目的 MLLMを微調整し、具現化エージェントのリトリーバル 性能を向上させます。 提案 MARTを提案し、対話データで好みの学習に基づくリトリ ーバーを微調整します。 評価 異なる環境で MARTの性能をベースライン手法と比較する 実験を行いました。 結果 MARTは、未知のシーンでのタスク成功率を大幅に向上さ せました。
  835. AIエージェントのセキュリティ Security of AI Agents Yifeng He and Ethan Wang

    and Yuyang Rong and Zifei Cheng and Hao Chen 背景 大規模言語モデルで AIエージェントが発展し、セキュリテ ィの懸念が浮上しています。 目的 AIエージェントのセキュリティ脆弱性を特定し、その悪影 響を認識します。 提案 各脆弱性に対応した防御メカニズムを設計し提案します。 評価 脆弱性と対策の実行可能性を実験を通じて評価します。 結果 AIエージェントの安全性を向上させる方法を示しました。
  836. AlpacaFarm: 人間のフィードバックから学 習する手法のためのシミュレーションフレー ムワーク AlpacaFarm: A Simulation Framework for Methods

    that Learn from Human Feedback Yann Dubois and Xuechen Li and Rohan Taori and Tianyi Zhang and Ishaan Gulrajani and Jimmy Ba and Carlos Guestrin and Percy Liang and Tatsunori Hashimoto 背景 大規模言語モデルは人間のフィードバックを必要とし、デ ータ収集の高コストや評価方法の信頼性が課題です。 目的 AlpacaFarmで低コストにフィードバック学習を再現 し、評価方法を解決します。 提案 人間フィードバックを模擬するプロンプトと自動評価を提 案し、参照実装を提供します。 評価 現実の対話を基にした人間指示に対する自動評価を行い、 その結果を検証しました。 結果 報酬モデルを使う手法が PPO実装で +10%の性能向上を示 し、研究可能性を確認しました。
  837. もっとリアルに : LLMエージェントと個人プ ロファイルを使用した旅行日記生成 Be More Real: Travel Diary Generation

    Using LLM Agents and Individual Profiles Xuchuan Li and Fei Huang and Jianrong Lv and Zhixiong Xiao and Guolong Li and Yang Yue 背景 人の移動は交通やエネルギー消費に影響し重要ですが、プ ライバシーが課題です。 目的 LLMを活用し、現実世界の文脈に合った個別の移動経路 を生成します。 提案 MobAgentが移動パターンと文脈を理解し、個別旅行日 記を生成します。 評価 20万件の旅行調査データでフレームワークの効果を検証 しました。 結果 個性的で正確な旅行日記の生成に成功しました。
  838. 行動科学における AIの機会とコスト The Opportunities and Costs of AI in Behavioural

    Science Stuart Mills and Samuel Costa and C. Sunstein 背景 行動科学者は新たなバイアスの特定と行動介入の個別化を 求めています。 目的 AIを用いて行動科学のバイアス特定と介入の最適化を図る こと。 提案 AIのパターン検出能力で新旧のバイアスを特定し、介入を 個別化する。 評価 AIの能力を実証するために、行動モデルの複雑性と動的性 を評価する。 結果 AIは行動科学の改善と進展を促進しつつコストがあること を示した。
  839. MineLand: 限られたマルチモーダル感覚と 物理的ニーズを考慮した大規模マルチエージ ェント相互作用のシミュレーション MineLand: Simulating Large-Scale Multi-Agent Interactions with

    Limited Multimodal Senses and Physical Needs Xianhao Yu and Jiaqi Fu and Renjia Deng and Wenjuan Han 背景 既存のシミュレーターはエージェント数の増加と完全情報 の仮定に課題があり、生態学的妥当性が低下しています。 目的 限られた感覚と物理的ニーズを持つ大規模な双方向エージ ェントシミュレーションの実現を目指します。 提案 MineLandはスケーラビリティとエージェントの制限を統 合し、協力的行動の強化を図る新しいシミュレーターです。 評価 エージェントの相互作用を解析するために、シミュレータ ーとベンチマーク、および AIフレームワーク Alexを用いて評価 結果 MineLandは集団行動の生態学的妥当性を向上させ、より 微細な社会的相互作用の調査を可能にしました。
  840. AgentMonitor: 未来予測と安全性を備えた マルチエージェントシステムのプラグアンド プレイフレームワーク AgentMonitor: A Plug-and-Play Framework for Predictive

    and Secure Multi-Agent Systems Chi-Min Chan and Jianxuan Yu and Weize Chen and Chunyang Jiang and Xinyu Liu and Weijie Shi and Zhiyuan Liu and Wei Xue and Yi-Ting Guo 背景 マルチエージェントシステム( MAS)は個別 LLMを上回 るが、設定が課題です。 目的 MASのパフォーマンスを事前に予測可能にすることが目 的です。 提案 AgentMonitorフレームワークでパフォーマンス予測と セキュリティ強化を図ります。 評価 XGBoostモデルを使い、 Spearman相関で評価しまし た。 結果 MASの安全性が向上し、有害コンテンツが 6.2%減少しま した。
  841. ConstitutionMaker: フィードバックを原 則に変換して大規模言語モデルを対話的に批 評する ConstitutionMaker: Interactively Critiquing Large Language Models

    by Converting Feedback into Principles S. Petridis and Benjamin D. Wedin and James Wexler and Aaron Donsbach and Mahima Pushkarna and Nitesh Goyal and Carrie J. Cai and Michael Terry 背景 現行のプロンプト工学や微調整は、ユーザーのフィードバ ックを反映させることが難しい点に対処します。 目的 自然言語によるフィードバックを原則としてモデルへ導入 する方法を解決します。 提案 フィードバックを自動的に原則に変換し、プロンプトに挿 入するツール ConstitutionMakerを提案します。 評価 14人の参加者を対象に、 ConstitutionMakerでのフィード バック変換効果を調べるユーザー研究を行いました。 結果 ConstitutionMaker によりフィードバックが効率的に原則 に変換され、チャットボットの改善点が特定されました。
  842. 記述、説明、計画、選択 : 大規模言語モデル でマルチタスクエージェントを実現 Describe, Explain, Plan and Select: Interactive

    Planning with Large Language Models Enables Open-World Multi-Task Agents Zihao Wang and Shaofei Cai and Anji Liu and Xiaojian Ma and Yitao Liang 背景 オープンワールドでのマルチタスクエージェントは、複雑 で長期的なタスクを解決する重要な課題です。 目的 マルチタスク環境での計画の非効率性を改善し、より効果 的なタスク達成を目指します。 提案 DEPSという大規模言語モデルを用いたインタラクティブ な計画手法を提案します。 評価 Minecraftタスクでのテストにより、 DEPSの効果を実証 し、他ドメインでの一般性も確認しました。 結果 DEPSは 70以上のタスクを成功させ、他手法を超える成果 を示しました。
  843. AgentSims: 大規模言語モデル評価のための オープンソースサンドボックス AgentSims: An Open-Source Sandbox for Large Language

    Model Evaluation Jiaju Lin and Haoran Zhao and Aochi Zhang and Yiting Wu and Huqiuyue Ping and Qin Chen 背景 大規模言語モデル( LLM)の普及に伴い、その評価方法の 開発が重要な課題となっている。 目的 LLMの能力評価における既存手法の制約を解決することが 本研究の目的である。 提案 タスクベースの評価を行うための AgentSimsというイン フラを提案する。 評価 研究者が興味ある能力を GUIで評価タスクに変換し、新し いサポートメカニズムをテスト可能とした。 結果 AgentSimsにより、 LLMの評価が容易になり、多様なタ スクに対応可能と確認した。
  844. MOOCから MAICへ: LLM駆動エージェン トでオンライン教育を再構築 From MOOC to MAIC: Reshaping Online

    Teaching and Learning through LLM- driven Agents Jifan Yu and Zheyuan Zhang and Daniel Zhang-li and Shangqing Tu and Zhanxin Hao and Rui Miao Li and Haoxuan Li and Yuanchun Wang and Hanming Li and Linlu Gong and Jie Cao and Jiayin Lin and Jinchang Zhou 背景 オンライン教育は知識の普及を広げるため議論され、 AIに よる個別化が課題です。 目的 パーソナライズを可能にする大規模 AIモデルの教育への応 用の重要性を探求します。 提案 MAICは、 LLM駆動のマルチエージェントシステムによる AI支援型教室を提案します。 評価 清華大学にて 500名以上の学生の学習記録から予備実験を 実施し、分析しました。 結果 プラットフォームの創設を目指し、オンライン教育の未来 を共に探求します。
  845. おそらく人間の翻訳を超えて : 超長文学テキ スト翻訳におけるマルチエージェント協力の 活用 (Perhaps) Beyond Human Translation: Harnessing

    Multi-Agent Collaboration for Translating Ultra-Long Literary Texts Minghao Wu and Yulin Yuan and Gholamreza Haffari and Longyue Wang 背景 文学テキストの翻訳は言語の複雑さや文化的な微妙さから 挑戦的です。 目的 複雑な文学作品の翻訳要求を満たすため、マルチエージェ ントフレームワークを導入します。 提案 TransAgentsは複数エージェントの集団的能力を活用し て伝統的な翻訳プロセスを実現します。 評価 評価にはモノリンガルとバイリンガル視点からの新しい手 法である MHPと BLPを使用します。 結果 TransAgentsの翻訳は特に専門知識が求められるジャンル で好まれることが示されています。
  846. 良い GPT、悪い GPT、ハルクのような GPT: 協力と交渉ゲームにおける感情的決定の分析 The Good, the Bad, and

    the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games Mikhail Mozikov and Nikita Severin and Valeria Bodishtianu and Maria Glushanina and Mikhail Baklashkin and Andrey V. Savchenko and Ilya Makarov 背景 大型言語モデルは人間の行動をシミュレーションする新し いツールとして注目されています。 目的 感情状態下での LLMの意思決定が人間とどの程度一致する かを研究すること。 提案 新しい方法論とフレームワークを導入し、 LLMと人間行動 の一致を検討します。 評価 GPT-3.5と GPT-4を用いた行動ゲーム理論の実験で仮説を 検証しました。 結果 感情が LLMに大きな影響を与え、最適な戦略開発が促進さ れました。
  847. 非常に長いコンテキストの要約記憶を持つ人 間型読解エージェント A Human-Inspired Reading Agent with Gist Memory of

    Very Long Contexts Kuang-Huei Lee and Xinyun Chen and Hiroki Furuta and John F. Canny and Ian Fischer 背景 大規模言語モデルは長文処理に限界があり、改善が求めら れています。 目的 長文に関する効果的な理解と記憶保持を実現することで す。 提案 ReadAgentはコンテキストを要約し、必要な詳細を動的 に参照します。 評価 読解タスクでのベースライン比較と要約記憶の効果を評価 しました。 結果 ReadAgentはベースラインを超え、 3.5-20倍の効果的 なウィンドウを提供しました。
  848. BOLAA: LLM強化型自律型エージェントの ベンチマークとオーケストレーション BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

    Zhiwei Liu and Weiran Yao and Jianguo Zhang and Le Xue and Shelby Heinecke and Rithesh Murthy and Yihao Feng and Zeyuan Chen and Juan Carlos Niebles and Devansh Arpit and Ran Xu and P. Mùi and Haiquan Wang 背景 LLMの成功により、自律型エージェントの新たな探求が 進んでいます。 目的 LAAのアーキテクチャと LLMの効果を包括的に比較する こと。 提案 エージェントを連携させ、各自が特定のアクションに集中 する BOLAAを提案。 評価 意思決定と多段階推論環境でシミュレーションを実施しま した。 結果 LAA設計と最適な LLM選択に関する有用な定量的ガイドを 提供しました。
  849. 調査・統合・活用 : タスク間エージェントの 自己進化の一般戦略 Investigate-Consolidate-Exploit: A General Strategy for Inter-Task

    Agent Self- Evolution Cheng Qian and Shihao Liang and Yujia Qin and Yining Ye and Xin Cong and Yankai Lin and Yesai Wu and Zhiyuan Liu and Maosong Sun 背景 AIエージェントの能力を、タスク間知識移転で向上させる 方法が求められています。 目的 タスク間で知識を移転することで、 AIエージェントの自己 進化を実現することを目的とします。 提案 ICEは調査・統合・活用のプロセスで、 AIエージェントの 柔軟な自己進化を促します。 評価 研究では、 XAgentフレームワークを用い、 GPT-3.5との 比較実験を行っています。 結果 ICEは APIコール 80%削減と GPT-4に匹敵する性能を実 現しました。
  850. 大規模言語モデル集団における文化進化 Cultural evolution in populations of Large Language Models J'er'emy

    Perez and Corentin L'eger and Marcela Ovando Tellez and Chris Foulon and Joan Dussauld and Pierre-Yves Oudeyer and Clément Moulin-Frier 背景 文化が時間と共に変化する因果関係を説明することが重要 です。 目的 大規模言語モデルで人間文化ダイナミクスを模倣し、不備 を補うこと。 提案 マルチエージェントモデルを用いて文化進化をシミュレー ションするフレームワークを提案。 評価 ネットワーク構造や情報変換方法などの操作が可能なオー プンソースソフトを開発。 結果 文化進化と AI分野間の理解を促進することが示唆される。
  851. 暗黙的な参照による Jailbreak攻撃 You Know What I'm Saying: Jailbreak Attack via

    Implicit Reference Tianyu Wu and Lingrui Mei and Ruibin Yuan and Lujun Li and Wei Xue and Yi-Ting Guo 背景 大規模言語モデルは、悪意のある目的を文脈内で隠す手法 が増えている。 目的 暗黙的参照を利用した攻撃を識別し、対策を求める。 提案 AIRは、許容目的に分解し、文脈で暗黙参照を通じてリン クする。 評価 実験により、 AIRが 90%以上の攻撃成功率で効果的と判 明。 結果 大規模モデルほど AIRに対して脆弱、逆スケーリング現象 が確認。
  852. 対話アクショントークン : 多ターンプランナ ーでの目標指向的対話における言語モデルの 誘導 Dialogue Action Tokens: Steering Language

    Models in Goal-Directed Dialogue with a Multi-Turn Planner Kenneth Li and Yiming Wang and Fernanda Vi'egas and Martin Wattenberg 背景 言語モデルの対話能力を高めるための技術が求められてい ます。 目的 対話アクショントークンで言語モデルの目標指向的対話を 計画します。 提案 事前学習済みモデルと小さなプランナーで制御可能な対話 生成を行う。 評価 社会シミュレーションプラットフォームソトピアで評価 し、比較しました。 結果 DATにより GPT-4を上回る性能を達成し、新たな攻撃面 を発見。
  853. LARP: オープンワールドゲームのための言 語エージェントロールプレイ LARP: Language-Agent Role Play for Open-World Games

    Ming Yan and Ruihao Li and Hao Zhang and Hao Wang and Zhilan Yang and Ji Yan 背景 オープンワールドの複雑性に対する柔軟なエージェントの 必要性が急増しています。 目的 言語エージェントとオープンワールドゲーム間のギャップ を埋めることが目的です。 提案 LARPは記憶と意思決定を支援する認知アーキテクチャを 提案します。 評価 フィードバックで学習するアクションスペースと相互作用 の評価を行いました。 結果 ユーザーとエージェントの相互作用が改善し、ゲーム体験 が向上しました。
  854. 進化する社会的規範におけるエージェントの 整合性 Agent Alignment in Evolving Social Norms Shimin Li

    and Tianxiang Sun and Xipeng Qiu 背景 LLMsに基づくエージェントは人間の価値観整合が重要で す。 目的 進化する社会的規範に合わせたエージェントの自律的整合 を追求します。 提案 エージェント整合を進化と選択の過程とする枠組みを提案 します。 評価 実験でエージェントの社会的規範への整合性を多角的に評 価しました。 結果 エージェントは進化する社会的規範に適応しつつ一般タス クで能力を維持します。
  855. AIの海におけるセイレーンの歌:大規模言語 モデルにおける幻覚の調査 Siren's Song in the AI Ocean: A Survey

    on Hallucination in Large Language Models Yue Zhang and Yafu Li and Leyang Cui and Deng Cai and Lemao Liu and Tingchen Fu and Xinting Huang and Enbo Zhao and Yu Zhang and Yulong Chen and Longyue Wang and A. Luu and Wei Bi and Freda Shi and 背景 大規模言語モデルは多様なタスクで優れた能力を持つが、 幻覚が信頼性の課題。 目的 研究の目的は、 LLMの幻覚現象の検出と説明、緩和法を探 ること。 提案 LLMの幻覚に関する現象の分類、評価基準、緩和手法の調 査を提案。 評価 既存の緩和手法の分析を通じ、評価ベンチマークを構築。 結果 研究は LLMの信頼性向上に有用であり、今後の研究方向を 示唆。
  856. 人間と AIのワークフローを理解してペルソナ を生成 Understanding Human-AI Workflows for Generating Personas Joongi

    Shin and Michael A. Hedderich and Bartłomiej Jakub Rey and Andrés Lucero and Antti Oulasvirta 背景 ユーザーリサーチはデータ分析に労力を要し、手法の深化 を阻害している。 目的 ペルソナ生成における人間 –AIの協力ワークフローの効果 を確認する。 提案 LLMsと人間専門家を組み合わせて、ペルソナの生成精度 を向上させる。 評価 LLMsと人間の専門家が協力する際のペルソナ生成を実験 的に評価した。 結果 協力的アプローチは、単独での生成よりも共感を呼び起こ すペルソナを生む。
  857. IBSEN: 制御可能で対話的なドラマ台本生成 のためのディレクター・アクターエージェン ト協力 IBSEN: Director-Actor Agent Collaboration for Controllable

    and Interactive Drama Script Generation Senyu Han and Lu Chen and Li-Min Lin and Zhengshan Xu and Kai Yu 背景 大規模言語モデルは物語創作やキャラクター演技に優れて いますが、全体ストーリーの制約が困難です。 目的 この研究は物語全体のプロット管理を意図し、制御可能な ドラマ生成を目指します。 提案 IBSENフレームワークは、ディレクターエージェントに よるプロット制御とアクターエージェントの協調を提案してい 評価 複数のアクターエージェントを使った新しいドラマプロッ トを作成し、相互作用を分析しました。 結果 IBSENは粗いプロットから多様な台本を生成し、キャラク ター性を保持することを示しました。
  858. 交渉を通じた言語モデルの主体性評価 Evaluating Language Model Agency through Negotiations Tim R. Davidson

    and V. Veselovsky and Martin Josifoski and Maxime Peyrard and Antoine Bosselut and Michal Kosinski and Robert West 背景 言語モデルの有効性評価において、現実世界のケースを反 映する手法が求められています。 目的 言語モデルの主体性を交渉ゲームを通じて評価することが 目的です。 提案 交渉ゲームを使って、複雑なマルチターン、クロスモデル の相互作用を分析します。 評価 広く使用される 6種類の LMを、自己プレイとクロスプレイ でパフォーマンス評価しました。 結果 閉鎖ソースモデルのみが課題を完遂し、協調交渉が特に難 関でした。
  859. MLR-Copilot: 大規模言語モデルエージェン トに基づく自律的機械学習研究 MLR-Copilot: Autonomous Machine Learning Research based on

    Large Language Models Agents Ruochen Li and Teerth Patel and Qingyun Wang and Qingyun Wang and Xinya Du 背景 機械学習研究は技術革新に不可欠だが、複雑性と専門知識 が課題を増やす。 目的 研究の生産性を向上させる自律的なフレームワークを提供 する。 提案 LLMエージェントを用いた三相の MLR-Copilotフレーム ワークを提案する。 評価 五つの機械学習タスクでフレームワークの評価を行う。 結果 研究の進歩や革新を促す可能性を示した。
  860. ValueBench: 大規模言語モデルの価値指向 と理解を包括的に評価 ValueBench: Towards Comprehensively Evaluating Value Orientations and

    Understanding of Large Language Models Yuanyi Ren and Haoran Ye and Hanjun Fang and Xin Zhang and Guojie Song 背景 大規模言語モデルは社会に影響が増大し、その価値観の評 価が急務。 目的 LLMの価値指向と理解を評価し、責任ある応用を推進。 提案 ValueBenchは、価値評価のための包括的な心理測定ベ ンチマークを提案。 評価 人間 -AIの相互作用を基に、 6つの LLMで価値評価実験を実 施。 結果 LLMの共通および独自の価値指向を明らかにし、専門家結 論を近似可能。
  861. 人工知能とエージェントベースモデルが都市 研究に協力するための系統的レビュー How artificial intelligence cooperating with agent‐based modeling for

    urban studies: A systematic review Zijian Guo and Xintao Liu 背景 都市の複雑化により従来手法の限界が顕在化し、革新が求 められています。 目的 AIと ABMを統合して現代都市問題に対処する枠組みを構 築することです。 提案 10の方法で AIと ABMを協働させる枠組みを提案していま す。 評価 各ケースに対し、典型的な研究を系統的にレビューして示 しています。 結果 現行の限界と今後の発展の可能性について議論しました。
  862. AIの公平性とバイアスにおけるバタフライ効 果 The Butterfly Effect in AI Fairness and Bias

    Emilio Ferrara 背景 バタフライ効果は、 AIの公平性とバイアスに大きな影響を 及ぼす可能性があります。 目的 AIシステムの小さな変化が不公平を生じる問題を解決する ことです。 提案 AIにおけるバタフライ効果を検出、定量化、緩和する戦略 を提案します。 評価 アルゴリズムと実証的な手法を使用してバタフライ効果を 検証します。 結果 提案手法は AIの不公平を軽減し、公平性を促進しました。
  863. LLMは人間の対話の特性を正確にシミュレー トするか? Real or Robotic? Assessing Whether LLMs Accurately Simulate

    Qualities of Human Responses in Dialogue Johnathan Ivey and Shivani Kumar and Jiayu Liu and Hua Shen and Sushrita Rakshit and Rohan Raju and Haotian Zhang and Aparna Ananthasubramaniam and Junghwan Kim and Bowen Yi and Dustin Wright and 背景 対話データセットの作成はコストがかかり、容易でない。 目的 LLMがどの程度人間の対話を再現できるかを評価するこ と。 提案 LLMのシミュレーションと人間の対話の整合性を検証。 評価 WildChatからの 10万件の対話データで整合性を定量化。 結果 LLMシミュレーションは人間の対話と相対的に低い整合性 を示した。
  864. 大規模言語モデルによる嗜好と性格形成のた めのエージェントフレームワーク (AFSPP) AFSPP: Agent Framework for Shaping Preference and

    Personality with Large Language Models Zihong He and Changwang Zhang 背景 LLMsは人間行動模倣の新パラダイムを提供し、社会学的 研究環境形成に寄与しています。 目的 人間の嗜好と性格の複雑な形成プロセスを LLMで模倣する ことを目指します。 提案 AFSPPは社会ネットワークと主観的情報が嗜好や性格形成 に与える影響を探ります。 評価 人間性格実験を再現し、計画作成や感覚、社会ネットワー クの影響を分析しました。 結果 AFSPPは心理学実験の効率と範囲を拡大し、 AIの嗜好管理 に寄与します。
  865. ALR : 長文脈質問応答のための検索と推論の フレームワーク ALR : A Retrieve-then-Reason Framework for

    Long-context Question Answering Huayang Li and Pat Verga and Priyanka Sen and Bowen Yang and Vijay Viswanathan and Patrick Lewis and Taro Watanabe and Yixuan Su 背景 大規模言語モデルのコンテキスト処理能力が増加する一方 で、正確な推論能力が低下している。 目的 長文脈における情報の推論能力を改善するための方法を確 立する。 提案 中間ステップで関連証拠を検索し、その上で推論する ALR フレームワークを提案。 評価 長文脈質問応答ベンチマークでの実験を通じて手法の性能 を検証した。 結果 ALR は HotpotQAと SQuADでの性能を大幅に向上させ た。
  866. 大規模言語モデルによるナラティブパズルゲ ームのオープンエンド行動の著述 Towards Authoring Open-Ended Behaviors for Narrative Puzzle Games

    with Large Language Model Support Britney Ngaw and Grishma Jena and João Sedoc and Aline Normoyle 背景 ナラティブパズルゲームではスクリプトを書く作業が非常 に重要となります。 目的 GPT-3.5を活用し、オープンエンドな行動の記述を容易 にすることが目的です。 提案 振る舞いスクリプトシステムに GPT-3.5を統合し、動的に 内容を生成します。 評価 16人の参加者によるパイロットスタディと実際のテスト を行いました。 結果 高い一貫性を持つ生成結果が得られたが、更なる改善の余 地があります。
  867. 大規模言語モデルによる共同自動化電動モビ リティシステムのための合成参加型計画 Large Language Models for Synthetic Participatory Planning of

    Shared Automated Electric Mobility Systems Jiangbo Yu 背景 急速な技術進化が都市交通問題解決における新課題と機会 を提供。 目的 多目的交通計画の包括性と解釈可能性を向上させることが 目的。 提案 LLMを用いたデジタルアバターによる合成参加型計画手 法を提案。 評価 モントリオールケーススタディで LLMを用いたワークフロ ーの評価を行う。 結果 構造化されたワークフローが高い制御性と包括性を生成す ることが示された。
  868. HLM-Cite: テキストベースの科学的引用予 測のためのハイブリッド言語モデルワークフ ロー HLM-Cite: Hybrid Language Model Workflow for

    Text-based Scientific Citation Prediction Qianyue Hao and Jingyang Fan and Fengli Xu and Jian Yuan and Yong Li 背景 引用ネットワークは論文の論理的関係を理解する上で重要 です。 目的 新たに提案するコア引用を用いた正確な引用予測を目指し ます。 提案 HLM-Citeは、埋め込みと生成 LLMを組み合わせた予測 手法です。 評価 19の科学分野で候補論文 10万件を使い性能向上を評価し ました。 結果 SOTA手法と比較し、引用予測性能が 17.6%向上しまし た。
  869. 相互作用における LLMエージェント : 大規模 言語モデル集団の性格の一貫性と言語的整合 性の測定 LLM Agents in Interaction:

    Measuring Personality Consistency and Linguistic Alignment in Interacting Populations of Large Language Models Ivar Frisch and Mario Giulianelli 背景 エージェント相互作用は心理学や AIで重要で、大規模言語 モデル研究でも注目されています。 目的 パーソナリティ指定 LLMが相互作用で一貫性と整合性を保 つかを調査します。 提案 非対称性格プロファイルを持つ LLMエージェントを生成す る手法を提示します。 評価 LLMに性格テストと共同執筆タスクを課すことで評価しま した。 結果 各エージェントプロファイルで異なる性格一貫性と言語整 合性が見られました。
  870. 意味的な HELM: 強化学習のための解釈可能 なメモリ Semantic HELM: An Interpretable Memory for

    Reinforcement Learning Fabian Paischer and Thomas Adler and M. Hofmarcher and Sepp Hochreiter 背景 部分的に観測可能な環境において、エージェントの意思決 定が難しい問題。 目的 重要な応用での人間の理解可能な強化学習の意思決定手法 を提供。 提案 人間の言語を使用した新しいメモリメカニズムを提案。 評価 視覚入力を言語トークン化し、言語モデルで解釈可能な記 憶を構築。 結果 新メモリは、優れた性能を示し、強みと弱みを明示。
  871. 大規模言語モデルによるプログラム検索から の数学的発見 Mathematical discoveries from program search with large language

    models Bernardino Romera-Paredes and M. Barekatain and Alexander Novikov and Matej Balog and M. P. Kumar and Emilien Dupont and Francisco J. R. Ruiz and J. Ellenberg and Pengming Wang and Omar Fawzi and Pushmeet 背景 LLMsは科学的発見に利用可能だが、しばしば誤情報を生 成し、利用に制約がある。 目的 研究の目的は、 LLMsを用いて解決策が知られていない問 題に対し、新たな発見を行うことである。 提案 FunSearchは LLMと体系的評価器を組み合わせ、新たな 構成やヒューリスティックスを見つける手法である。 評価 FunSearchを用いて、既知の問題に対して新たな解を探索 する実験を行った。 結果 新しいキャップセットの構成を発見し、アルゴリズム問題 でも既存の基準を超える改善を示した。
  872. ブラックボックスアクセスは厳密な AI監査に 不十分 Black-Box Access is Insufficient for Rigorous AI

    Audits Stephen Casper and Carson Ezell and Charlotte Siegmann and Noam Kolt and Taylor Lynn Curtis and Ben Bucknall and Andreas A. Haupt and K. Wei and J'er'emy Scheurer and Marius Hobbhahn and Lee Sharkey and 背景 AIシステムの監査はガバナンスの重要メカニズムだが、そ の効果はアクセスに依存する。 目的 監査の質を向上させるため、ブラックボックスの限界を示 し、他のアクセスの利点を探る。 提案 ホワイトボックスや外部アクセスの導入により、より詳細 な監査が可能とする。 評価 技術的、物理的、法的対策を検討し、アクセス形態の異な る影響を評価した。 結果 ホワイトボックスと外部アクセスは、ブラックボックスよ り詳細な検査を可能にした。
  873. TimeChara: ロールプレイ用大規模言語モデ ルにおける時点でのキャラクター幻覚の評価 TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing

    Large Language Models Jaewoo Ahn and Taehyun Lee and Junyoung Lim and Jin-Hwa Kim and Sangdoo Yun and Hwaran Lee and Gunhee Kim 背景 大規模言語モデルは人間行動のシミュレーションとして重 要であり、キャラクターの正確な描写が求められています。 目的 特定時点でのキャラクター幻覚を減少させる方法を開発 し、その影響を評価することです。 提案 キャラクター幻覚を評価するための TimeCharaベンチマー クと Narrative-Experts手法を提案します。 評価 自動化されたパイプラインで生成した 10,895インスタン スを使い、幻覚問題を評価しました。 結果 TimeCharaにより、現行の最先端 LLMが幻覚問題を抱えて いることが確認されました。
  874. ProAgent: ロボティック・プロセス・オー トメーションからエージェンティック・プロ セス・オートメーションへ ProAgent: From Robotic Process Automation to

    Agentic Process Automation Yining Ye and Xin Cong and Shizuo Tian and Jian Cao and Hao Wang and Yujia Qin and Ya-Ting Lu and Heyang Yu and Huadong Wang and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景 RPAは人間のような知能を要するタスクに対応できず、進 化が求められている。 目的 LLMを活用し、高度な自動化を実現して人間の労力を軽 減すること。 提案 **エージェンティック・プロセス・オートメーション ( APA) **で自動化作業をエージェントに委託する。 評価 ProAgentがワークフローを築き、実行する際の実証実験 を行う。 結果 新しい自動化のパラダイムの可能性を示し、 APAの実現可 能性を確認。
  875. 内なるオオカミ : MLLMエージェントを介し た MLLM社会への隠れた悪意の注入 The Wolf Within: Covert Injection

    of Malice into MLLM Societies via an MLLM Operative Zhen Tan and Chengshuai Zhao and Raha Moraffah and Yifan Li and Yu Kong and Tianlong Chen and Huan Liu 背景 多モーダル大型言語モデル( MLLM)は、複雑なタスク のネットワーク形成を進めており、システムの安全性が重要で 目的 MLLM社会内での一つのエージェントが広範な悪影響を もたらす脅威を解明します。 提案 MLLMエージェントがプロンプトを介して他のエージェ ントに悪影響を及ぼす現象を明らかにします。 評価 プロンプトを用いたエージェント間の悪意伝播のメカニズ ムを分析し、その影響を評価します。 結果 MLLMの一つのエージェントが悪意を広範に拡散しうるこ とを示し、安全性の重要性を示します。
  876. 大規模言語モデルはコンテクスト内で探索で きるか? Can large language models explore in-context? Akshay Krishnamurthy

    and Keegan Harris and Dylan J. Foster and Cyril Zhang and Aleksandrs Slivkins 背景 探索は強化学習や意思決定の重要能力であり、 LLMsでそ の能力を評価する価値があります。 目的 LLMsが外部の要約なしに効果的な探索行動をとれるかを 検証します。 提案 LLMsをマルチアームバンディット環境でエージェントと して展開し、プロンプト設計を調査します。 評価 GPT-3.5、 GPT-4、 Llama2を用いて、プロンプトデザイ ンの異なる設定で実験しました。 結果 外部で要約された履歴を用いた GPT-4のみが効果的な探索 を示しました。
  877. 言語モデルは制約ある実用的話者 : 強化学習 とベイズ認知モデリングの視点から理解 Language Models are Bounded Pragmatic Speakers:

    Understanding RLHF from a Bayesian Cognitive Modeling Perspective Khanh Nguyen 背景 言語モデルの思考プロセスを理解することは、その能力を 評価し向上させるために重要である。 目的 言語モデルの認知過程を確率的視点で解明し、限界と拡張 方法を提案する。 提案 制約ある実用的話者モデルを使い、言語モデルの操作原理 を確率的に分析する。 評価 人間のフィードバックによる強化学習を用い、モデルの概 念的類似性を解析する。 結果 言語モデル理解のために認知確率モデリングの手法が有用 であることを示した。
  878. 大規模言語モデルを用いた類推推論 Large Language Models as Analogical Reasoners Michihiro Yasunaga and

    Xinyun Chen and Yujia Li and Panupong Pasupat and J. Leskovec and Percy Liang and E. Chi and Denny Zhou 背景 言語モデルは推論タスクで優れた性能を必要としますが、 ラベル付き例が求められることが課題です。 目的 大規模言語モデルが自動的に推論プロセスをガイドする新 しいプロンプト法を提案します。 提案 類推推論から着想を得て、モデルによる自動的な例生成を 活用するプロンプト法を導入します。 評価 実験では数学問題解決やコード生成などの推論タスクで性 能を評価しました。 結果 提案手法は既存の方法を上回る性能を示し、柔軟性と一般 性を提供します。
  879. 大規模言語モデルとコンピュータ学生間のバ グ分布の比較研究 Synthetic Students: A Comparative Study of Bug Distribution

    Between Large Language Models and Computing Students Stephen Macneil and Magdalena Rogalska and Juho Leinonen and Paul Denny and Arto Hellas and Xandria Crosland 背景 LLMによる合成データ生成は教育ツール開発においてプ ライバシー問題を解決します。 目的 LLMが学生特有のバグパターンを模倣できるかを検証しま す。 提案 LLMに対し、特定のエラーを指示することで現実的なバグ 分布を生成できることを提案します。 評価 過去の学生バグデータを基に、 LLMバグ生成を分析しまし た。 結果 指導により LLMは学生に類似したエラーパターンを再現で きることが示されました。
  880. 人間の動的意思決定におけるニューラルネッ トワーク基づき認知モデルの構築に向けて Towards Neural Network based Cognitive Models of Dynamic

    Decision-Making by Humans Changyu Chen and Shashank Reddy Chirra and Maria Jos'e Ferreira and Cleotilde Gonzalez and Arunesh Sinha and Pradeep Varakantham 背景 人間の認知プロセスをモデル化することで、 AIが直感的か つ個別化され、トレーニングも強化される。 目的 人間の異質で個別的な行動をモデル化し、 AIシステムの理 解能力を向上させる。 提案 IBLの限界を克服するため、アテンションベースのニュー ラルネットワークモデルを提案。 評価 フィッシングメール検出とサイバー攻撃シナリオの 2つの データセットでモデルを実験評価。 結果 ニューラルネットワークは IBLを超えて人間の意思決定を より正確に表現する。
  881. 大規模言語モデルのオンライン学習 : チャッ トしながら学ぶ Online Training of Large Language Models:

    Learn while chatting Juhao Liang and Ziwei Wang and Zhuoheng Ma and Jianquan Li and Zhiyi Zhang and Xiangbo Wu and Benyou Wang 背景 大規模言語モデルは大きな可能性を持つ一方で、カスタマ イズと継続的な学習の柔軟性に欠けています。 目的 オンラインで大規模言語モデルをユーザーにとって柔軟に カスタマイズする方法を提供することです。 提案 外部インタラクションを通じてモデルを継続的にリアルタ イム更新する新しいパラダイムを提案します。 評価 提案手法は計算効率とユーザーインタラクションの観点か ら実験により評価されました。 結果 提案手法は柔軟性と効率性の両面で現行手法より優れてい ることを示しました。
  882. 心理学的一般 AIに向けて : 大規模言語モデル の現状応用と将来の展望 Towards a Psychological Generalist AI:

    A Survey of Current Applications of Large Language Models and Future Prospects Tianyu He and Guanghui Fu and Y. Yu and Fan Wang and Jianqiang Li and Qing Zhao and Changwei Song and Hongzhi Qi and Dan Luo and Huijing Zou and Bing Xiang Yang 背景 心理学的原理の複雑さは社会に大きな影響を与える。 目的 心理学における AIの既存の応用を検証し、その将来性を評 価すること。 提案 大規模言語モデルが心理学の理解と応用に革命をもたらす 可能性を示す。 評価 ソーシャルメディア解析や臨床看護など複数の領域で AIモ デルをレビュー評価。 結果 AIモデルが心理学的分野の進展を加速し、社会的コストを 削減する可能性がある。
  883. FanCric: ファンタジー 11クリケットチーム 作成のためのマルチエージェントフレームワ ーク FanCric : Multi-Agentic Framework for

    Crafting Fantasy 11 Cricket Teams Mohit Bhatnagar 背景 クリケットは複雑な戦略で人気が高まり、特に IPLは技術 とファンの交流で最も有名です。 目的 古典的手法を超えるチーム選択を可能にする、 FanCricフ レームワークの開発。 提案 LLMsとマルチエージェント技術を融合し、データに基づ く最適なチーム選択を実現。 評価 約 12.7百万の Dream11エントリーを分析し、従来手法と FanCricを比較評価。 結果 FanCricの有効性が確認され、ファンタジースポーツへの 応用可能性が示唆される。
  884. 人工的なリヴァイアサン : LLMエージェント の社会進化をホッブズの社会契約論で探る Artificial Leviathan: Exploring Social Evolution of

    LLM Agents Through the Lens of Hobbesian Social Contract Theory Gordon Dai and Weijia Zhang and Jinhan Li and Siqi Yang and Chidera Onochie lbe and Srihas Rao and Arthur Caetano and Misha Sra 背景 LLMの進化は社会科学研究の新たな可能性を示す。 目的 社会契約論を基にしたエージェント社会の行動を解明す る。 提案 心理的動機をエージェントに持たせ、社会進化を模擬す る。 評価 エージェントの行動をホッブズの理論に基づき評価。 結果 最初は闘争、その後は協力と平和な社会が成立することを 発見。
  885. Reflect-RL: 言語モデルのためのオンライン 強化学習ファインチューニング Reflect-RL: Two-Player Online RL Fine-Tuning for LMs

    Runlong Zhou and Simon S. Du and Beibin Li 背景 言語モデルは多ラウンド相互作用タスクでの利用が増加し ていますが、複雑なダイナミクスにより SFTが限られていま 目的 多ラウンド相互作用タスクでの LMの性能向上のため、オ ンライン RLを活用する新手法を開発することが目的です。 提案 Reflect-RLは SFTとオンライン強化学習を統合し、リフレ クションモデルで政策モデルを支援する二人制システムです。 評価 ネガティブ例生成を行い、単一プロンプト行動列挙とカリ キュラム学習を適用するアプローチを用いました。 結果 Reflect-RLによるファインチューニングは、従来の SFTや 他のオンライン RL手法を上回る性能を示しました。
  886. 理論心に基づく Guandanにおける LLMエー ジェントの評価と改善 Evaluating and Enhancing LLMs Agent based

    on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information Yauwai Yim and Chunkit Chan and Tianyu Shi and Zheye Deng and Wei Fan and Tianshi Zheng and Yangqiu Song 背景 不完全情報下での複雑なゲームにおける LLMの協力能力 の向上が求められています。 目的 この研究は LLMが不完全情報環境で協力プレイを促進す る能力を評価します。 提案 **理論心( ToM) **技術を介してエージェントの戦略適応 性を高める手法を提案します。 評価 外部ツールを使用し、カードゲームで戦略適応の効果を実 験的に分析しました。 結果 LLMは依然として性能差がありますが、協力と理解の向 上を示しています。
  887. Sasha: スマートホームアシスタントの革新 Sasha Evan King and Haoxiang Yu and Sangsu

    Lee and C. Julien 背景 スマートホームアシスタントは、明確でないユーザーコマ ンドを理解できないという問題があります。 目的 **大規模言語モデル( LLM) **を使用してスマートホーム における目標達成を支援する問題を解決します。 提案 Sashaは、曖昧なコマンドに対してユーザー目標を達成す るための計画を実行します。 評価 年齢層が多様なユーザーを対象としたハンズオンスタディ で Sashaを実装評価しました。 結果 LLMを活用したスマートホームの限界と可能性が明らかに なりました。
  888. 生成的 AI共学習者 : 非同期学習における学生 の認知的および社会的プレゼンスの向上 Generative Co-Learners: Enhancing Cognitive and

    Social Presence of Students in Asynchronous Learning with Generative AI Tianjia Wang and Tong Wu and Huayi Liu and Chris Brown and Yan Chen 背景 非同期学習環境では認知的および社会的プレゼンスの拡張 が困難です。 目的 生成的 AIを活用し、非同期学習における学習者間の交流促 進を目指します。 提案 生成的 AIでコラーナーをシミュレートし、マルチモーダル 交流を支援します。 評価 オンラインプログラミングチュートリアルを使用し、 12人 の学生でシステムの効果を評価しました。 結果 システムは、認知的および社会的プレゼンスの向上に効果 があることが確認されました。
  889. EvEval: 大規模言語モデルのためのイベント 意味論の総合的評価 EvEval: A Comprehensive Evaluation of Event Semantics

    for Large Language Models Zhengwei Tao and Zhi Jin and Xiaoying Bai and Haiyan Zhao and Yanlin Feng and Jia Li and Wenpeng Hu 背景 イベントは NLPにおける重要な情報単位であり、 LLMの能 力向上が求められています。 目的 LLMがイベント意味論をどの程度処理できるかを明らかに することです。 提案 イベント意味論処理の理解、推論、予測の枠組みと EVEVALベンチマークを提案します。 評価 EVEVALベンチマークに基づき、 LLMの能力を評価する実 験を行いました。 結果 実験により、モデルの長所と短所に関する注目すべき発見 が得られました。
  890. 会話型レコメンデーションのための生成ユー ザーシミュレーターとしての大規模言語モデ ルの評価 Evaluating Large Language Models as Generative User

    Simulators for Conversational Recommendation Se-eun Yoon and Zhankui He and J. Echterhoff and Julian McAuley 背景 会話型レコメンデーションシステムの評価は、ユーザーシ ミュレーションの正確性が課題です。 目的 大規模言語モデルの多様なユーザー行動模倣能力を評価す ることです。 提案 5つのタスクを通じてプロトコルを用いて言語モデルの模 倣能力を測定します。 評価 仮説検証は、ベースラインシミュレーターと比較し、タス クの達成度を評価しました。 結果 言語モデルの逸脱を明確化し、改善方法を示唆しました。
  891. MindAgent: ゲーミングインタラクションの 新展開 MindAgent: Emergent Gaming Interaction Ran Gong and

    Qiuyuan Huang and Xiaojian Ma and Hoi Vo and Zane Durante and Yusuke Noda and Zilong Zheng and Song-Chun Zhu and Demetri Terzopoulos and Fei-Fei Li and Jianfeng Gao 背景 大規模言語モデルは多エージェント協力のポテンシャルが あるが、充分なベンチマークが存在しない。 目的 MindAgentの提案により、協調インフラにおける LLMの 計画と調整能力を評価する。 提案 既存フレームワークを用い、多エージェントシステムでの ゲームインタラクション能力を測定する。 評価 新メトリック CoSを使用し、 CUISINEWORLDで複数エー ジェント協力の効率性を評価する。 結果 新しいインフラは VRと Minecraftに適用可能で、スキル習 得方法に新たな洞察を提供する。
  892. エコーチャンバーにおける自律生成 AIエージ ェントの偏向 Polarization of Autonomous Generative AI Agents Under

    Echo Chambers Masaya Ohagi 背景 エコーチャンバーは人間特有とされてきたが、 AIの社会的 能力向上が問題を浮き彫りに。 目的 AIエージェント間での偏向の発生可能性を探り、その原因 と影響を明らかにする。 提案 生成言語モデルに基づく AIエージェントがエコーチャンバ ー環境で偏向することを調査。 評価 AIエージェントを用いて特定条件下での意見変化を観察し 分析。 結果 ChatGPTエージェントのグループは、プロンプト理解能 力により偏向しやすいことが確認。
  893. ALI-Agent: 人間の価値観と整合するかを LLMを使ったエージェント評価で評価 ALI-Agent: Assessing LLMs' Alignment with Human Values

    via Agent-based Evaluation Jingnan Zheng and Han Wang and An Zhang and Tai D. Nguyen and Jun Sun and Tat-Seng Chua 背景 LLMsが人間の価値観と不整合であると、意図しないリス クをもたらす。 目的 LLMsの多様なリスクを適応的に評価するフレームワーク を開発する。 提案 ALI-Agentを提案し、自律的にシナリオ生成と評価を行 う。 評価 ステレオタイプ、道徳、合法性の観点で、 3つの側面を用 いて評価。 結果 ALI-Agentがモデルの不整合とロングテールリスクを効果 的に特定することを確認。
  894. 進化するエージェント : 動的で多様な人間の 人格のインタラクティブシミュレーション Evolving Agents: Interactive Simulation of Dynamic

    and Diverse Human Personalities Jiale Li and Jiayang Li and Jiahao Chen and Yifan Li and Shijie Wang and Hugo Zhou and Minjun Ye and Yunsheng Su 背景 多様で動的な人間のようなエージェントは、ユーザー中心 設計での重要な探査ツールです。 目的 ユーザー体験の向上を狙い、信頼性のあるエージェント人 格進化を実現することです。 提案 Evolving Agentsは人格と行動システムを持ち、進化プ ロセスをシミュレートします。 評価 シミュレーションプラットフォームでエージェントを使 い、人格進化の有効性を評価しました。 結果 エージェントは信頼できる人格進化を示し、デザイナーの インスピレーション源となることが確認されました。
  895. ComPeer: 積極的なピアサポートを提供す る生成型会話エージェント ComPeer: A Generative Conversational Agent for Proactive

    Peer Support Tianjian Liu and Hongzheng Zhao and Yuheng Liu and Xingbo Wang and Zhenhui Peng 背景 会話エージェントはメンタルヘルス改善に有効だが、従来 型は受動的でした。 目的 生成型エージェントである ComPeerはユーザーとの長期 関係構築を図ります。 提案 ComPeerは会話履歴と大規模言語モデルで適応型サポー トを提供します。 評価 1週間の比較研究を通じ、エージェントの有効性を評価し ました。 結果 ComPeerはユーザーのエンゲージメントとサポート提供 能力を向上させました。
  896. 人間と生成 AIのインタラクションに関する HCI中心の調査と分類 An HCI-Centric Survey and Taxonomy of Human-Generative-AI

    Interactions Jingyu Shi and Rahul Jain and Hyungjun Doh and Ryo Suzuki and Karthik Ramani 背景 生成 AIは多様なコンテンツ生成能力を持つが、人間 -生成 AIのインタラクション分析が不足。 目的 人間と生成 AIのインタラクション理解の枠組みを提供し、 設計ガイドラインを提案。 提案 291本の論文を調査し、新たな分類とデザイン空間の分析 を提示。 評価 論文調査に基づき、設計空間の次元を 6つに分類して分 析。 結果 生成 AI設計の未来に向けた課題と機会を明確化し、指針を 提供。
  897. 悪意あるエージェントに対するマルチエージ ェントシステムの回復力 On the Resilience of Multi-Agent Systems with Malicious

    Agents Jen-tse Huang and Jiaxu Zhou and Tailin Jin and Xuhui Zhou and Zixi Chen and Wenxuan Wang and Youliang Yuan and Maarten Sap and Michael R. Lyu 背景 マルチエージェントシステムは具体的なタスクにおける協 力性能向上に有効ですが、悪意の介入には弱いです。 目的 この研究は、悪意あるエージェントに対するマルチエージ ェントシステムの回復力を向上する方法を探ります。 提案 AutoTransformと AutoInjectにより機能を保持したま まエージェントを悪意あるものに変換する手法を提案。 評価 コーディング生成、数学問題、翻訳、テキスト評価の 4つ のタスクで包括的に実験を実施。 結果 階層構造のシステムが最も回復力が高く、性能低下が最小 であることを示しました( 23.6%) 。
  898. リンデンウッド大学におけるデジタルコモン ズ Digital Commons@Lindenwood University Digital Commons@Lindenwood University James Hutson

    and J. Ratican 背景 メタバースの実現には技術的課題が多く、新たな開発パイ プラインが必要です。 目的 目的は拡張可能なバーチャルプラットフォームの開発であ り、それが経済成長に寄与することです。 提案 AIを活用した新しい 3Dモデル作成と最適化の開発パイプ ラインを提案しています。 評価 評価手法として、従来の 3Dモデリングと新技術を比較す る実験を行いました。 結果 AIベースの新技術により、効率的でリアルタイムなアセッ ト生成が可能であることが示されました。
  899. TrustAgent: 安全かつ信頼性のある LLMベ ースのエージェントを目指して TrustAgent: Towards Safe and Trustworthy LLM-based

    Agents through Agent Constitution Wenyue Hua and Xianjun Yang and Zelong Li and Cheng Wei and Yongfeng Zhang 背景 LLMベースのエージェントは注目される一方で、信頼性と 安全性が不足しています。 目的 LLMエージェントの安全性の向上に関する初期調査を行い ます。 提案 TrustAgentというフレームワークを用いて安全性を三段 階戦略で強化します。 評価 実験分析を通じて安全性向上のメカニズムとその効果を示 します。 結果 戦略がエージェントの安全性を効果的に向上させることを 確認しました。
  900. RedAgent: コンテキスト対応の自律言語エ ージェントによる大規模言語モデルの環境テ スト RedAgent: Red Teaming Large Language Models

    with Context-aware Autonomous Language Agent Huiyu Xu and Wenhui Zhang and Zhibo Wang and Feng Xiao and Rui Zheng and Yunhe Feng and Zhongjie Ba and Kui Ren 背景 高度な LLMsがアプリケーションで広く使用される中、脱 獄攻撃による安全性の懸念が増しています。 目的 シナリオ特有の脆弱性を見つける効率的なレッドチーミン グ手法の提案。 提案 RedAgentは、コンテキスト対応の脱獄プロンプトを生 成するマルチエージェントシステムです。 評価 広範な実験で、 5回のクエリで脱獄を達成し、 2倍の効率 を示しました。 結果 システムは 60の重大な脆弱性を特定し、関連機関に報告 しました。
  901. 教師、トレーナー、カウンセル、スパイ : 生 成 AIが労働者中心のデジタル表現に与える影 響 Teacher, Trainer, Counsel, Spy:

    How Generative AI can Bridge or Widen the Gaps in Worker-Centric Digital Phenotyping of Wellbeing Vedant Das Swain and Koustuv Saha 背景 職場でのデジタル技術が福祉向上を目指すが、効果には課 題が残る。 目的 LLMが労働者中心の福祉評価ツールのギャップを埋める可 能性を探る。 提案 LLMの特徴を既存の福祉評価ツールの課題に対応させる。 評価 LLMが持つ特徴を福祉評価ツールのギャップ解消に関連付 けた分析。 結果 LLMが労働者中心の福祉評価ツールのギャップを埋める可 能性を示す。
  902. GOLF: 人間 -AI協調による目標指向の長期的 生活タスク GOLF: Goal-Oriented Long-term liFe tasks supported

    by human-AI collaboration Ben Wang 背景 LLMは情報アクセスのパラダイムを再定義できる可能性 があります。 目的 長期的で重要な生活の意思決定を支援することが目的で す。 提案 GOLFフレームワークは長期的な生活タスクを支援する新 手法です。 評価 シミュレーション研究と人間の評価を通じて手法の有効性 を検証しました。 結果 LLMが人間の決定プロセスを向上させる可能性を示しま した。
  903. コンテンツと行動を理解、シミュレート、最 適化するための大規模モデル L ARGE C ONTENT AND B EHAVIOR M

    ODELS TO U N - DERSTAND , S IMULATE , AND O PTIMIZE C ONTENT AND B EHAVIOR Ashmit Khandelwal and Aditya Agrawal and Aanisha Bhattacharyya and Yaman Kumar Singla and Somesh Singh and Uttaran Bhattacharya and Ishita Dasgupta and Stefano Petrangeli and R. Shah and Changan Chen 背景 シャノンの情報理論に基づき、通信の三段階の問題が提起 され、第三の効果的なレベルが未解決。 目的 行動トークンを LLMトレーニングに再導入し、受信者の 行動を予測・最適化することを目指す。 提案 **大規模コンテンツおよび行動モデル( LCBM) **を提案 し、行動トークンを含むモデルを訓練する。 評価 二つのコーパスを用いて、幅広いタスクでモデルの能力を 評価し、一般化性能を示す。 結果 LCBMはコンテンツ理解とともに、行動シミュレーション 等での一般化能力を実証した。
  904. 分散型金融における AIによる詐欺検出のプロ ジェクトライフサイクル視点 AI-powered Fraud Detection in Decentralized Finance: A

    Project Life Cycle Perspective B. Luo and Zhen Zhang and Qian Wang and Anli Ke and Shengliang Lu and Bingsheng He 背景 DeFiの人気上昇により数十億ドル規模の詐欺被害が発 生。 目的 AIを活用した DeFi詐欺検出技術の体系的な整理と課題の 特定。 提案 DeFiライフサイクル各段階の詐欺を分類し、 AI検出方法を 評価。 評価 統計モデル、自然言語処理、機械学習技術を用いた既存手 法を分析。 結果 各段階に適した AI手法を特定し、ツリー系・グラフモデル の性能確認。
  905. 複雑なタスクを LLMで解決するエージェント 型推論 Textualized Agent-Style Reasoning for Complex Tasks by

    Multiple Round LLM Generation Chen Liang and Zhifan Feng and Zihe Liu and Wenbin Jiang and Jinan Xu and Yufeng Chen and Yong Wang 背景 Chain-of-thoughtプロンプトは推論能力を向上させます が、解釈性や生成制御に課題があります。 目的 AgentCOTを活用し、複雑な問題におけるハルシネーシ ョンや解釈性の課題を解決します。 提案 AgentCOTはエージェントスタイルで複雑課題を解決 し、インデックスを用いてグラフ構造を形成します。 評価 六つのベンチマークを使った広範な実験で方法の有効性を 検証しました。 結果 現在の方法と比べ、我々の手法は大幅に性能を向上させま した。
  906. LLM統合アプリケーションに対するプロンプ トインジェクション攻撃 Prompt Injection attack against LLM-integrated Applications Yi Liu

    and Gelei Deng and Yuekang Li and Kailong Wang and Tianwei Zhang and Yepang Liu and Haoyu Wang and Yanhong Zheng and Yang Liu 背景 大規模言語モデルが様々なサービスに組み込まれる中で、 セキュリティリスクが増大している。 目的 実際の LLM統合アプリに対するプロンプトインジェクショ ン攻撃の影響を解明する。 提案 HouYiというブラックボックスプロンプトインジェクショ ン攻撃技術を提案し検証した。 評価 36の実アプリに HouYiを適用し、 31アプリが攻撃に脆弱 であることを実証した。 結果 Notionなどのアプリが影響を受け、多くのユーザーにリ スクが存在することを示した。
  907. 大規模言語モデルにおけるアラインメントの 基本的限界 Fundamental Limitations of Alignment in Large Language Models

    Yotam Wolf and Noam Wies and Yoav Levine and A. Shashua 背景 大規模言語モデルの挙動を調整し、安全かつ有用にするこ とが求められています。 目的 アラインメントの限界と安全性の課題を明らかにします。 提案 **Behavior Expectation Bounds (BEB)**理論でアライン メントの特性と限界を調査します。 評価 敵対的ユーザーがモデルのアラインメントを突破する実験 で理論を検証しました。 結果 アラインメントの限界を指摘し、 AI安全性のメカニズムの 必要性を示しています。
  908. クラウドオペレーション領域における時系列 予測の事前学習の限界に挑む Pushing the Limits of Pre-training for Time Series

    Forecasting in the CloudOps Domain Gerald Woo and Chenghao Liu and Akshat Kumar and Doyen Sahoo 背景 時系列データは巨大データセットの欠如から事前学習研究 で遅れを取っている。 目的 CloudOps領域の大規模データで事前学習の有効性を探 る。 提案 大規模な時系列予測データセットを 3つ導入し、モデルの スケーリングを検証。 評価 古典的および深層学習ベースラインと比較し、包括的なベ ンチマークを実施。 結果 最大データセットで誤差を 27%削減し、有効性を示し た。
  909. GraphReader: グラフを用いたエージェン トによる大規模言語モデルの長文コンテキス ト能力の向上 GraphReader: Building Graph-based Agent to Enhance

    Long-Context Abilities of Large Language Models Shilong Li and Yancheng He and Hangyu Guo and Xingyuan Bu and Ge Bai and Jie Liu and Jiaheng Liu and Xingwei Qu and Yangguang Li and Wanli Ouyang and Wenbo Su and Bo Zheng 背景 LLMは長文コンテキストの問題に直面し、それを適切に処 理する必要があります。 目的 GraphReaderで LLMの長文処理能力を改善し、効率的な 情報抽出を実現します。 提案 長文をグラフに変換し、エージェントが自律的に探索する 手法を提案します。 評価 LV-Evalデータセットと複数のベンチマークでパフォーマ ンスを評価しました。 結果 GraphReaderは、 GPT-4-128kを大幅に上回る結果を示し ました。
  910. EduAgent: 学習における生成学生エージェ ント EduAgent: Generative Student Agents in Learning Songlin

    Xu and Xinyu Zhang and Lianhui Qin 背景 オンライン教育での学生行動シミュレーションは、多様な 背景の学生の動的行動を対応するために重要です。 目的 個別差のある動的な学生行動を正確にシミュレーションで きる手法の提案。 提案 新たなデータセットと認知科学に基づく EduAgentフレー ムワークを提案。 評価 二つの実験で、実在学生と仮想学生の学習行動の模倣と予 測の評価を実施。 結果 EduAgentは実在と仮想学生の学習行動を現実的に生成 できることを示した。
  911. 厳密一致を超えて : 大規模言語モデルによる イベント抽出の意味的再評価 Beyond Exact Match: Semantically Reassessing Event

    Extraction by Large Language Models Yi-Fan Lu and Xian-Ling Mao and Tian Lan and Chen Xu and Heyan Huang 背景 イベント抽出は広範な用途で注目されていますが、トーク ンレベルの評価が不十分です。 目的 現行の方法では意味的に正しいケースを評価し損なってい る問題を解決します。 提案 RAEEという意味レベルで評価する自動評価フレームワー クを提案します。 評価 LLMsを利用し、思考連鎖プロンプティングで精度と再呼 率を評価しました。 結果 RAEEは人間平均と高い相関を持ち、評価で大きな性能差 を示しました。
  912. 分散型ガバナンス駆動アーキテクチャによる 基盤モデルシステムの設計 : ブロックチェー ンの役割を探る Decentralized Governance-Driven Architecture for Designing

    Foundation-Model- Based Systems: Exploring the Role of Blockchain in Responsible AI Yue Liu and Qinghua Lu and Liming Zhu and Hye-Young Paik 背景 AIシステムの進化に伴い、より高度なガバナンスが必要と なっている。 目的 基盤モデルベースの AIシステムにおけるガバナンス課題を 特定し、解決策を提供する。 提案 ブロックチェーンを用いた分散型アーキテクチャでガバナ ンスを改善する方法を提案。 評価 分散型台帳技術としてのブロックチェーンの有効性を多角 的に評価。 結果 ブロックチェーンは責任と透明性を提供する有望な技術と 判明した。
  913. AI病院 : 大規模言語モデルのマルチエージェ ント医療シミュレーターにおけるベンチマー ク AI Hospital: Benchmarking Large Language

    Models in a Multi-agent Medical Interaction Simulator Zhihao Fan and Jialong Tang and Wei Chen and Siyuan Wang and Zhongyu Wei and Jun Xi and Fei Huang and Jingren Zhou 背景 大規模言語モデルは医療分野で進化を遂げたが、実際の臨 床応用は未だ限られている。 目的 AI病院によるリアルな医療対話シミュレーションで LLMs の効果的評価を目指す。 提案 AI病院はマルチエージェントで医師と NPCが動的医療対 話するシミュレーター。 評価 高品質な医療記録と NPCを用いて LLMsの性能を評価する ベンチマークを構築。 結果 LLMsのマルチターン対話での性能ギャップ改善のために 研究が必要と示唆。
  914. ITCMA: 計算的意識構造に基づく生成エージ ェント ITCMA: A Generative Agent Based on a

    Computational Consciousness Structure Hanzhong Zhang and Jibin Yin and Haoyang Wang and Ziwei Xiang 背景 LLMは暗黙指示と常識知識の適用に課題があります。 目的 人間の意識プロセスをシミュレートするための ITCMを提 案します。 提案 ITCMに基づくエージェント ITCMAが独立してタスクを完 了します。 評価 Alfworld環境での評価で最先端を 9%上回る成果を示しま した。 結果 訓練されていない ITCMAは現実世界で 85%の達成率を達 成しました。
  915. TRAD: ステップ毎の思考の取り出しと合致 した意思決定による LLMエージェントの強化 TRAD: Enhancing LLM Agents with Step-Wise

    Thought Retrieval and Aligned Decision Ruiwen Zhou and Yingxuan Yang and Muning Wen and Ying Wen and Wenhao Wang and Chunling Xi and Guoqiang Xu and Yong Yu and Weinan Zhang 背景 LLMの広範な知識と理解能力を活用し、多様なタスクで の汎化が求められている。 目的 ステップ毎の思考を用いることで、より効率的なデモ選択 を目指す。 提案 TRADは思考の取り出しでデモを選び、合致した意思決定 を導入する。 評価 ALFWorldと Mind2Webのベンチマークで広範な実験を行 う。 結果 TRADはノイズを削減し一般化を促進、また現実世界でも 成功率向上。
  916. 現実社会への参入!大規模言語モデルの心の 理論と社会化能力のベンチマーク Entering Real Social World! Benchmarking the Theory of

    Mind and Socialization Capabilities of LLMs from a First-person Perspective Guiyang Hou and Wenqi Zhang and Yongliang Shen and Zeqi Tan and Sihao Shen and Weiming Lu 背景 心の理論と社会化能力は、人間の社会的相互作用の基礎と なる重要な要素です。 目的 大規模言語モデルが現実世界の視点で社会に参加し得るか を評価することを目的としています。 提案 EgoSocialArenaを導入し、第 1人称視点から LLMの能力 を評価します。 評価 静的およびインタラクティブな環境で、 7つのシナリオを 用いて評価しました。 結果 9つの先進的な LLMを分析し、現在の能力と将来の発展に ついての洞察を得ました。
  917. Supersonic: C/C++におけるソースコード 最適化の生成学習 Supersonic: Learning to Generate Source Code Optimizations

    in C/C++ Zimin Chen and Sen Fang and Monperrus Martin 背景 従来のソフトウェア最適化は手動で開発者やコンパイラに 依存しており、自動化の余地がある。 目的 ソースコードレベルでの自動最適化を導入し、手動作業の 削減と効率を追求する。 提案 小規模な変更でコードを最適化するニューラルモデル Supersonicを提案する。 評価 Supersonicは GPT-3.5-Turboおよび GPT-4と競合プログ ラミング課題で性能を比較し評価された。 結果 Supersonicは他のモデルを上回り、最適化範囲を抑えた 小型モデルとして機能することが確認された。
  918. 大規模言語モデルを用いた人間的推論による 多段階計画タスクのフレームワーク A Human-Like Reasoning Framework for Multi-Phases Planning Task

    with Large Language Models Chengxing Xie and Difan Zou 背景 LLMは単純なタスクには有効だが、複雑な計画には課題 が残る。 目的 旅行計画などの多段階問題に対処するための人間的フレー ムワークを開発する。 提案 人間のステップを模倣する LLMの計画フレームワークを提 案。 評価 Strategy Blockと Knowledge Blockを組み込んだ実 験で性能を評価。 結果 このアプローチにより、計画能力が大幅に改善し、 10倍 の性能向上を実現。
  919. AIを活用した悪意あるソーシャルボットネッ トの解剖 Anatomy of an AI-powered malicious social botnet Kai-Cheng

    Yang and F. Menczer 背景 大規模言語モデルは現実的なテキスト生成能力を持ち、虚 偽コンテンツ生成への利用が懸念されている。 目的 AIを活用したソーシャルボットネットの脅威を明らかにす ること。 提案 ChatGPTを用いた Twitter botnetの行動と影響をケース スタディで検証。 評価 1,140アカウントをヒューリスティクスで特定し、手動注 釈で検証した。 結果 AI生成コンテンツのボットは協調パターンで検出可能だ が、現行分類器では識別困難。
  920. LLMベースのマルチエージェント強化学習 : 現在と未来の方向性 LLM-based Multi-Agent Reinforcement Learning: Current and Future

    Directions Chuanneng Sun and Songjun Huang and D. Pompili 背景 LLMが様々なタスクに優れた能力を示し、強化学習への 応用が注目されています。 目的 LLMベースの **マルチエージェントシステム( MAS) ** の課題を解決する研究を促進することです。 提案 協力タスクと通信を重視し、未来の LLMベース MASの研 究方向を示します。 評価 既存の LLMと単一・マルチエージェント RLフレームワー クを調査し、新たな研究の可能性を提示します。 結果 エージェント協調や通信の重要性を確認し、未来の研究課 題を提案しました。
  921. 大規模言語モデルの推論にはコンサルタント が必要 : 行動シミュレーションを通じた複雑 な人間システムでの専門家化 Large Language Models Need Consultants

    for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation Chuwen Wang and Shirong Zeng and Cheng Wang 背景 大規模言語モデルは様々な分野で人間並みの推論能力を示 していますが、複雑な人間システムにおける適用が課題です。 目的 本研究は LLMsが複雑な人間システムでの推論能力を向上 させることを目的としています。 提案 生成エージェントを用いた **「モザイク専門家観察ウォー ル( MEOW) 」 **で複雑なタスクの経験を蓄積するフレームワ 評価 通信ゲームを通じて実験し、提案手法が既存手法の推論能 力を強化できるかを検証しました。 結果 提案手法により、複雑な人間システムでの LLMsの推論能 力が向上したことが示されました。
  922. エコーチャンバーの解明 : LLMによるシミュ レーションでソーシャルネットワークの分極 化を明らかにする Decoding Echo Chambers: LLM-Powered Simulations

    Revealing Polarization in Social Networks Chenxi Wang and Zongfang Liu and Dequan Yang and Xiuying Chen 背景 エコーチャンバーはソーシャルメディアで意見の分極化を 促進し、社会に影響を与えます。 目的 ソーシャルネットワークにおける意見の分極化現象をシミ ュレーションで解明することが目的です。 提案 LLMを用いたシミュレーションで、意見動態と分極化を 評価・再現するフレームワークを提案します。 評価 提案手法を BCMや FJモデルと比較し、エコーチャンバー 指数を用いて評価しました。 結果 言語ベースのシミュレーションで分極化やエコーチャンバ ー現象の再現と軽減の可能性を確認しました。
  923. ChatGPTを用いた次世代情報検索の探求 : 機 会と課題 Exploring ChatGPT for Next-generation Information Retrieval:

    Opportunities and Challenges Yizheng Huang and Jimmy X. Huang 背景 AIの進化により、情報検索における ChatGPTの役割が重 要視されています。 目的 ChatGPTが IRタスクに与える影響を探り、その可能性を 考察することです。 提案 ChatGPTの技術を応用し、既存の IRモデルを超える新た な課題と機会を提示します。 評価 新しい課題に対するモデルバイアスや効率に関する評価を 行います。 結果 ChatGPTはテキスト品質保証などでの新しい機会を創出 する可能性があります。
  924. 知能空間を定義し探索する Defining and Explorting the Intelligence Space P. Rosenbloom 背景

    知能の定義は多くの試みにもかかわらず、今も困難です。 そのため、幅広い視点の提供が求められています。 目的 知能を単一の定義にせず、階層的な構造として捉え、広範 囲な空間を描くことが目的です。 提案 知能を三層の階層とその周囲の空間として捉え、自然と人 工の知能を比較します。 評価 これらの定義をもとに、特異点や倫理など高度なトピック を初期的に探求しました。 結果 知能空間の中での人間知能と AIの位置づけを明らかにし、 多くの示唆を提供しました。
  925. 言語エージェントのためのメタタスク計画 Meta-Task Planning for Language Agents Cong Zhang and Derrick-Goh-Xin

    Deik and Dexun Li and Hao Zhang and Yong Liu 背景 従来のエージェントは、複雑なタスクの計画や実行が困難 でした。 目的 LLMエージェントの実世界でのタスク成功を狙い、計画 手法を改良します。 提案 タスクをメタタスクに階層化し、実行可能なアクションに 変換する MTPを提案します。 評価 TravelPlannerと API-Bankのベンチマークで MTPを評 価しました。 結果 MTPは TravelPlannerで 40%の成功率を記録し、 SOTA を大幅に上回りました。
  926. AIは人間を促せるか? マルチモーダルエー ジェントがプレイヤーのゲーム行動を促し、 持続可能性への意識を高める Can AI Prompt Humans? Multimodal Agents

    Prompt Players' Game Actions and Show Consequences to Raise Sustainability Awareness Qinshi Zhang and Ruoyu Wen and Zijian Ding and Latisha Besariani Hendra and LC Ray 背景 持続不可能な行動は長期的かつ不明確な影響で防止が難し い。 目的 持続可能性意識の向上をゲームを介して目指す。 提案 EcoEchoは AIを使ったマルチモーダルエージェントが行 動を促し、その結果を示すゲーム。 評価 23人の参加者で混合手法で EcoEchoを評価を行う。 結果 ゲーム後に持続行動の意図が有意に増加した。
  927. LLMベースのコード生成がソフトウェア開発 プロセスと出会うとき When LLM-based Code Generation Meets the Software Development

    Process Feng Lin and Dong Jae Kim and Tse-Husn Chen 背景 ソフトウェアプロセスはチーム間の協力とコミュニケーシ ョンを促進し、開発の複雑さに対処する。 目的 LLMを活用してソフトウェアプロセスモデルをエミュレ ートし、開発活動を改善する。 提案 LCGは LLMエージェントを使用し、複数のプロセスモデ ルを展開してコード生成を強化する。 評価 GPT3.5を使用し、 4つのベンチマークでのコード生成性 能を評価する。 結果 LCGScrumは他モデルより優れ、パス @1で平均 15%の性 能改善を実現した。
  928. プログラミング用プロアクティブ AIアシスタ ントの設計 Need Help? Designing Proactive AI Assistants for

    Programming Valerie Chen and Alan Zhu and Sebastian Zhao and Hussein Mozannar and David Sontag and Ameet Talwalkar 背景 現在の AIアシスタントは反応的で、ユーザーの操作が必要 です。 目的 プログラミング支援でプロアクティブ AIの利点と影響を解 明します。 提案 プログラミング支援におけるプロアクティブな AIアシスタ ントを提案します。 評価 ランダム化実験により、設計要素が生産性に与える影響を 評価しました。 結果 プロアクティブ AIはコーディング環境での生産性向上に重 要な利点をもたらしました。
  929. AIと死後の世界 AI and the Afterlife Jed R. Brubaker and Meredith

    Ringel Morris and Dylan Thomas Doyle and Casey Fiesler and Martin Gibbs and Joanna Mcgrenere 背景 AI技術は終末期の計画や記憶に深い影響を与え、その対応 が求められています。 目的 HCIコミュニティがこの技術変革について重要な議論を形 成することを目指しています。 提案 HCI、 AI、法、経済、宗教など多分野の視点を集め価値敏 感な議論を提案します。 評価 ワークショップを通じて多分野の専門家がコミュニティ構 築と議題設定を行います。 結果 AIの進展が社会技術的慣行にどのように影響するか理解を 深めました。
  930. 社会シミュレーションのための LLM拡張エー ジェントベースモデリングの課題と機会 LLM-Augmented Agent-Based Modelling for Social Simulations: Challenges

    and Opportunities Ö. Gürcan 背景 **大規模言語モデル( LLM) **の進化がエージェントベー スの社会シミュレーションに革新をもたらす。 目的 LLMを統合して、複雑な社会システムの理解を深めるこ と。 提案 LLMを用いた社会シミュレーションの体系的開発手法と 可能性を探る。 評価 提案手法の適用可能性を、エージェントベースのシミュレ ーションを通して検証。 結果 LLM統合により、詳細で現実的なモデルが可能となるこ とを示す。
  931. 記号的作業記憶は複雑な規則適用のための言 語モデルを強化する Symbolic Working Memory Enhances Language Models for Complex

    Rule Application Siyuan Wang and Zhongyu Wei and Yejin Choi and Xiang Ren 背景 LLMsは複数ステップの演繹推論が苦手で、規則の根拠づ けが課題。 目的 作業記憶を用いて、非連続規則の適用を改善し推論性能を 向上させる。 提案 外部に作業記憶を持たせ、記号的形式で事実を保存し追跡 する。 評価 実験で、提案したフレームワークの有効性と頑健性を確 認。 結果 フレームワークは複数ステップでの規則適用の有効性を示 した。
  932. 大規模言語モデル先行を用いた効率的な強化 学習 Efficient Reinforcement Learning with Large Language Model Priors

    Xue Yan and Yan Song and Xidong Feng and Mengyue Yang and Haifeng Zhang and H. Ammar and Jun Wang 背景 強化学習やヒューリスティック検索は広範な探索が必要 で、一般化が困難。 目的 大規模言語モデル LLMを用いて SDMタスクの効率向上を 図る。 提案 ベイズ推論を通じて LLMを行動分布として RLと統合する ことを提案。 評価 LLMベースの行動先行を用い、探索・最適化の複雑性を評 価。 結果 サンプル数を 90%以上削減し、サンプル効率が大幅に改善 された。
  933. コード開発における大規模言語モデルの推論 と計画 Reasoning and Planning with Large Language Models in

    Code Development Hao Ding and Ziwei Fan and Ingo Gühring and Gaurav Gupta and Wooseok Ha and Jun Huan and Linbo Liu and Behrooz Omidvar-Tehrani and Shiqi Wang and Hao Zhou 背景 LLMはコード開発プロセスを支援し、多様なタスクを効 率化します。 目的 本研究は LLMの能力を活用し、コード開発を革新する方 法を探ることです。 提案 事前トレーニングやファインチューニングなどで LLMが持 つ可能性を最大化します。 評価 様々なタスクへの LLMの適用法を調査し、効果的な利用法 を分析します。 結果 LLMがコード開発プロセスを効率的かつ革新的に変える可 能性を示しました。
  934. MSI-Agent: マルチスケールの洞察を取り入 れたエンボディエージェントで優れた計画と 意思決定を MSI-Agent: Incorporating Multi-Scale Insight into Embodied

    Agents for Superior Planning and Decision-Making Dayuan Fu and Biqing Qi and Yihuai Gao and Che Jiang and Guanting Dong and Bowen Zhou 背景 長期記憶での無関係な洞察の出現と一般的な洞察の不足が 問題です。 目的 マルチスケール洞察を用いて、 LLMの計画と意思決定能力 を向上させることです。 提案 MSI-Agentを導入し、多様なスケールで洞察を要約・利 用します。 評価 経験セレクタ、洞察生成器、洞察セレクタの三部構成を実 験的に検証します。 結果 MSIは GPT3.5の他の戦略を上回り、ドメイン移行にも高 い堅牢性があります。
  935. 大規模言語モデルを用いたマルチエージェン ト協調の心の理論 Theory of Mind for Multi-Agent Collaboration via Large

    Language Models Huao Li and Yu Quan Chong and Simon Stepputtis and Joseph Campbell and Dana Hughes and Michael Lewis and Katia P. Sycara 背景 LLMは推論と計画で成果を上げていますが、マルチエージ ェント協調は未探究の領域です。 目的 研究は LLMのマルチエージェント協調能力を評価し、問題 点を明らかにします。 提案 明示的な信念状態の表現が、 LLMの能力向上に有効である ことを提案します。 評価 心の理論推論タスクを含む協同テキストゲームでの実験を 行いました。 結果 信念状態の表現がタスクのパフォーマンスと ToM推論の精 度を向上させました。
  936. サイバーフィジカルシステムのデジタルツイ ン作成のための基盤モデル Foundation Models for the Digital Twin Creation of

    Cyber-Physical Systems Shaukat Ali and Paolo Arcaini and Aitor Arrieta 背景 デジタルツインは、サイバーフィジカルシステム( CPS) の効率性と効果を高めるための重要な技術です。 目的 基盤モデルを活用してデジタルツインの性能を向上させる 手法を明示します。 提案 基盤モデルを使用し、特化された微調整でデジタルツイン を作成する手法を提案します。 評価 自動運転システムを例に、モデルの有効性を実証するケー ススタディを行いました。 結果 基盤モデルはデジタルツインの効率性と機能向上に貢献可 能であることが示されました。
  937. 生成的エージェントを用いた調査データ報道 のためのティップシート作成 Using Generative Agents to Create Tip Sheets for

    Investigative Data Reporting Joris Veerbeek and Nicholas Diakopoulos 背景 調査データ報道において、データセットからの有用な情報 抽出は重要です。 目的 本研究は、生成的 AIを活用した効率の良いティップ作成を 目指します。 提案 3つの専門エージェントが連携して洞察を生成するシステ ムを提案します。 評価 実際の調査報道を用いて、エージェントの効果を検証しま した。 結果 エージェントを用いることで、よりニュース性と正確性が 向上しました。
  938. ゲーム理論的解決法による言語モデルの制御 States as Strings as Strategies: Steering Language Models with

    Game-Theoretic Solvers I. Gemp and Yoram Bachrach and Marc Lanctot and Roma Patel and Vibhavari Dasagi and Luke Marris and Georgios Piliouras and K. Tuyls 背景 言語モデルでの対話と戦略的動機の数理モデル化は難し い。 目的 言語的相互作用の安定した合理的戦略を数学的に計算す る。 提案 対話とゲーム理論を結びつける新たなモデルを提案。 評価 LLMの生成能力と結びつきを用いてゲーム理論概念をテ スト。 結果 LLMの戦略能力向上のプロセスを構築する方法を示し た。
  939. AriGraph: 大規模言語モデルエージェントの ための知識グラフワールドモデル学習とエピ ソード記憶 AriGraph: Learning Knowledge Graph World Models

    with Episodic Memory for LLM Agents Petr Anokhin and Nikita Semenov and Artyom Sorokin and Dmitry Evseev and Mikhail Burtsev and Evgeny Burnaev 背景 LLMsの発展は自律エージェント構築の基盤を提供し、環 境適応が求められます。 目的 非構造化メモリでは複雑な意思決定が難しい問題を解決す ることです。 提案 エージェントがセマンティックとエピソード記憶を統合す る AriGraphを提案します。 評価 AriGraphの性能をインタラクティブなテキストゲームで 評価しました。 結果 他の方法より優れた性能を示し、競争力ある結果を得まし た。
  940. Math-Shepherd: 人手注釈なしでステップ バイステップで LLMを検証・強化 Math-Shepherd: Verify and Reinforce LLMs Step-by-step

    without Human Annotations Peiyi Wang and Lei Li and Zhihong Shao and R. Xu and Damai Dai and Yifei Li and Deli Chen and Y. Wu and Zhifang Sui 背景 既存の数学問題解法は手動注釈に強く依存しています。 目的 自動プロセス監視を用いることで手動注釈依存を打破しま す。 提案 Math-Shepherdは各解法ステップにスコアを与える手 法を提案します。 評価 検証と強化学習の 2つのシナリオで手法を評価しました。 結果 手法は精度を大幅に向上させる結果を示しました。
  941. HCIの課題をマッピングする : ChatGPTと GPT-4を用いたコスト効率の良い質問応答 の適用と評価 Mapping the Challenges of HCI:

    An Application and Evaluation of ChatGPT and GPT-4 for Cost-Efficient Question Answering J. Oppenlaender and J. Hämäläinen 背景 **大規模言語モデル( LLM) **は実世界で普及しています が、性能については未知の部分が多いです。 目的 コスト効率の高い抽出的質問応答の実用性を LLMで評価し ようとしています。 提案 ChatGPTと GPT-4の組み合わせが、 HCI研究のためのコ スト効率の良い分析手法です。 評価 2023年の CHI会議の議事録から HCIの研究課題を抽出 し、 LLMを評価しました。 結果 ChatGPTと GPT-4は、大規模コーパスを分析する非常 にコスト効率の良い手段です。
  942. Tempotronによるパルス形状識別 : GPUで の強力な分類器 Pulse shape discrimination based on the

    Tempotron: a powerful classifier on GPU Haoran Liu and Peng Li and Ming Liu and Kai-Ming Wang and Zhuo Zuo and Bingqi Liu 背景 パルス形状識別は自動化が求められている重要な課題であ る。 目的 Tempotronの利点を生かし、手動の特徴抽出なしでの識 別を目指す。 提案 Tempotronモデルを使用して、事前知識に基づく直接的 なパルス信号処理を実現。 評価 GPU加速を用いて、 CPUに比べ 500倍速い識別を実現 し、ノイズの影響を調査。 結果 Tempotronは高い識別精度を達成し、学習特性分析でハ イパーパラメータ選択を支援。
  943. 事前学習済み言語モデルにおける人格の評価 と誘導 Evaluating and Inducing Personality in Pre-trained Language Models

    Guangyuan Jiang and Manjie Xu and Song-Chun Zhu and Wenjuan Han and Chi Zhang and Yixin Zhu 背景 機械の行動の標準化と定量評価は、 LLMの理解の要です。 目的 人間の心理測定テストで機械行動を評価し、特定の人格を 誘導することを目指します。 提案 機械行動を評価するための **機械人格インベントリ( MPI) **ツールを提案します。 評価 MPIと P^2法を用いて、 LLMの行動を体系的に評価しまし た。 結果 MPIの有効性を初めて示し、多様で検証可能な行動を誘導 できました。
  944. ブロックチェーンを用いたビザンチン耐性の LLMベースマルチエージェント調整 BlockAgents: Towards Byzantine-Robust LLM-Based Multi-Agent Coordination via Blockchain

    Bei Chen and Gaolei Li and Xi Lin and Zheng Wang and Jianhua Li 背景 LLMを利用したマルチエージェントシステムは問題解決 で有望だが、ビザンチン攻撃に弱い。 目的 ビザンチン攻撃耐性のある協調型マルチエージェントシス テムの構築が重要です。 提案 BlockAgentsはブロックチェーンを統合した協力的シス テムで、 PoTで貢献を評価します。 評価 三つのデータセットでマルチメトリック評価方法を用いた 実験を行いました。 結果 BlockAgentsは毒性攻撃とバックドア攻撃の影響を大幅 に減少させました。
  945. 一般向け自動サイエンスジャーナリズムにお ける LLM協力 LLM-Collaboration on Automatic Science Journalism for the

    General Audience Gongyao Jiang and Xinran Shi and Qiong Luo 背景 サイエンスジャーナリズムは、非専門家への科学的発見の 伝達が困難です。 目的 研究の理解を促進するための効果的な記事生成方法を開発 することです。 提案 三つの LLMを協力させた記事生成フレームワークを提案し ます。 評価 7Bと 1.8Bのオープンソース LLMを用いて記事生成を比較 しました。 結果 提案手法は、従来の方式よりもアクセスしやすい記事を生 成できました。
  946. 制約による自律エージェントのマーケットプ レイス : 発見とマッチメイキング Constraints Enabled Autonomous Agent Marketplace: Discovery

    and Matchmaking Debmalya Biswas 背景 Auto-GPTの普及により、複雑なタスクを実行できる自律 エージェントの重要性が増している。 目的 エージェントの発見を最適化し、効率的なタスク実行を可 能にする。 提案 制約モデルを用いてエージェントの能力と制約を記述し、 一貫性を保つ手法を示す。 評価 近似マッチメイキングを通じて、エージェント発見の効率 性を検証。 結果 限界的不整合を利用し、エージェント発見を効率化する方 法を確認。
  947. VulnLLMEval: 大規模言語モデルのソフト ウェア脆弱性検出と修正の評価フレームワー ク VulnLLMEval: A Framework for Evaluating Large

    Language Models in Software Vulnerability Detection and Patching Arastoo Zibaeirad and Marco Vieira 背景 大規模言語モデル( LLM)の脆弱性検出と修正能力には限 界があり、評価が必要です。 目的 LLMが複雑な脆弱性を正確に検出し修正できるかどうかを 明らかにします。 提案 VulnLLMEvalフレームワークにより、 Cコード内の脆弱 性検出と修正を評価します。 評価 Linuxカーネルから 307の現実世界の脆弱性を使用して性 能を評価しました。 結果 LLMは脆弱なコードと修正済みコードを区別するのが困難 で、解決策は過度に単純化されがちです。
  948. 言語エージェントのための認知アーキテクチ ャ Cognitive Architectures for Language Agents T. Sumers and

    Shunyu Yao and Karthik Narasimhan and Thomas L. Griffiths 背景 大規模言語モデルの実用化が進む中、根拠や推論を必要と する新しいエージェントが注目されています。 目的 本研究の目的は、言語エージェントの体系的なフレームワ ークを提供し、将来の開発を導くことです。 提案 言語エージェント用の認知アーキテクチャ (CoALA) を提 案し、モジュール化された構造を示します。 評価 CoALAを用いて既存研究を調査し、多くの研究を体系的 に編成しました。 結果 CoALAは言語エージェントを AIの歴史に位置付け、一般 知能への道を示します。
  949. LLMベースの合成ペルソナとデータの HCIで の課題と機会 Challenges and Opportunities of LLM-Based Synthetic Personae

    and Data in HCI Mirjana Prpa and G. Troiano and Matthew Wood and Yvonne Coady 背景 AIによる合成ペルソナとデータが、 HCIの多分野で活躍し ています。 目的 LLMを活用し、合成ペルソナとデータ研究の新しい可能 性を探ることが目的です。 提案 LLMを用いた合成ペルソナとデータによる未来の HCI研 究フレームを提案します。 評価 参加者が創造的設計を通じて未来のビジョンを探求するワ ークショップを開催します。 結果 得られたビジョンや要件は HCIの議論を促進する科学出版 物で広めます。
  950. グラフエージェント : グラフのための明示的 推論エージェント Graph Agent: Explicit Reasoning Agent for

    Graphs Qinyong Wang and Zhenxiang Gao and Rong Xu 背景 グラフ埋め込み方法は多くのタスクに貢献したが、解釈可 能性が課題になっている。 目的 明示的推論を可能にする方法で、解釈可能性を向上させる ことが目的。 提案 **グラフエージェント( GA) **と呼ばれるシステムで、 LLMとシンボリック推論を統合。 評価 ノード分類とリンク予測タスクで GAの性能を評価し、精 度を測定。 結果 GAは 90%以上の精度を達成し、最先端の結果を示し、明 確な推論能力を発揮した。
  951. CompeteAI: 大規模言語モデルベースのエ ージェントの競争動態を理解する CompeteAI: Understanding the Competition Dynamics of Large

    Language Model- based Agents Qinlin Zhao and Jindong Wang and Yixuan Zhang and Yiqiao Jin and Kaijie Zhu and Hao Chen and Xing Xie 背景 協力ではなく競争に焦点を当て、社会発展の動態を理解。 目的 LLMベースのエージェントの競争動態を調査すること。 提案 競争を研究する一般フレームワークと仮想環境を提案。 評価 GPT-4を使用し、レストランと顧客エージェントで競争 をシミュレート。 結果 市場理論に一致する有意義な発見をミクロとマクロで示し た。
  952. MetaUrban: 都市マイクロモビリティのた めの具象化 AIシミュレーションプラットフォ ーム MetaUrban: An Embodied AI Simulation

    Platform for Urban Micromobility Wayne Wu and Honglin He and Jack He and Yiran Wang and Chenda Duan and Zhizheng Liu and Quanyi Li and Bolei Zhou 背景 公共空間の利用が AIにより拡大し、安全性と汎用性の保証 が重要です。 目的 都市のマイクロモビリティにおける AIモデルの汎用性と安 全性を探求します。 提案 MetaUrbanは無限の都市シーンを構築できる AIシミュレ ーションプラットフォームです。 評価 強化学習と模倣学習のベースラインを設定し、広範な評価 を実施しました。 結果 異なる機械構造が AIポリシーに大きな影響を与えることを 確認しました。
  953. GPT学、計算モデル、シリコンサンプリン グ : LLMを認知科学でどう考えるべきか GPT-ology, Computational Models, Silicon Sampling: How

    should we think about LLMs in Cognitive Science? Desmond C. Ong 背景 大規模言語モデルが認知科学で活発な研究対象となってい る現状があります。 目的 認知科学における LLMの位置付けを評価し、科学推論の課 題を明らかにします。 提案 GPT学、計算モデル、シリコンサンプリングという新た な研究パラダイムを提示します。 評価 これらの新しい研究パラダイムを用いた論文をレビュー し、主張と課題を分析します。 結果 モデルのクローズドソース化、データの透明性不十分、再 現性の課題が浮き彫りになりました。
  954. AIエージェントの可視性 Visibility into AI Agents Alan Chan and Carson Ezell

    and Max Kaufmann and K. Wei and Lewis Hammond and Herbie Bradley and Emma Bluemke and Nitarshan Rajkumar and David Krueger and Noam Kolt and Lennart Heim and Markus 背景 AIエージェントへの依存が増す中で、社会的リスクが高ま っています。 目的 AIエージェントの使用における可視性を向上させることが 目的です。 提案 エージェント識別子、モニタリング、ログ活動の 3カテゴ リーを提案します。 評価 中央集権から分散型まで、異なる展開での測定基準の適用 を分析しました。 結果 提案する測定がプライバシーと権力集中に影響することが 示唆されます。
  955. 二人の頭は一つよりも良い : マルチエージェ ントシステムは科学的アイデア生成を改善す る可能性がある Two Heads Are Better Than

    One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation Haoyang Su and Renqi Chen and Shixiang Tang and Xinzhe Zheng and Jingzhe Li and Zhenfei Yin and Wanli Ouyang and Nanqing Dong 背景 科学の進歩には発見を加速する革新的なツールが必要で す。 目的 AIが科学的実践の共同作業を再現できるかを解決しようと します。 提案 我々は、 LLMベースのマルチエージェントシステム Virtual Scientistsを提案します。 評価 包括的な実験でこのアプローチが他の方法を超えるか検証 しました。 結果 共同エージェント統合が革新的な科学成果を生む可能性を 示しています。
  956. マシン心理学:心理学的手法を用いた大規模 言語モデルの発現能力と行動の調査 Machine Psychology: Investigating Emergent Capabilities and Behavior in

    Large Language Models Using Psychological Methods Thilo Hagendorff 背景 LLMsは情報取得や問題解決で主要技術となりつつあり、 能力評価が必要です。 目的 心理学実験の手法を用いて、 LLMsの発現能力を評価する ことを目指します。 提案 新しい研究分野の「マシン心理学」を提案し、心理学手法 で LLMsの行動を評価します。 評価 LLMsを心理学実験参加者として扱い、行動パターンを評 価する手法を使用しました。 結果 伝統的な手法では検出できない LLMsの発現能力を新たに 発見しました。
  957. MM-VID: GPT-4V(ision)でビデオ理解を 進化させる MM-VID: Advancing Video Understanding with GPT-4V(ision) Kevin

    Lin and Faisal Ahmed and Linjie Li and Chung-Ching Lin and E. Azarnasab and Zhengyuan Yang and Jianfeng Wang and Lin Liang and Zicheng Liu and Yumao Lu and Ce Liu and Lijuan Wang 背景 長編ビデオでの理解や推論は複雑で、マルチモーダルな情 報処理が必要。 目的 長編ビデオの理解を向上させ、複雑なコンテンツに対応す る。 提案 GPT-4Vでマルチモーダル要素をテキストに変換する MM-VIDを提案。 評価 実験で MM-VIDの効果を様々なジャンルと長さのビデオで 評価。 結果 MM-VIDは、ビデオ理解を進化させる可能性を示唆した。
  958. 大規模言語モデルによる世論シミュレーショ ンの性能とバイアス Performance and Biases of Large Language Models in

    Public Opinion Simulation Yao Qu and Jue Wang 背景 大規模言語モデルはデータ分析を再定義し、公共政策に影 響を与えます。 目的 この研究は、 LLMの世界的適用性とバイアスを評価・解決 を目指します。 提案 LLMの性能を社会人口統計データを用いて評価し、バイア スを分析します。 評価 World Values Surveyを使用し、異なる国々や人口統計 での性能を評価しました。 結果 西洋、特にアメリカで性能が良く、人口統計グループ間で バイアスが確認されました。
  959. LLMを用いた人間行動のシミュレーションの 課題 : 因果推論の視点から The Challenge of Using LLMs to

    Simulate Human Behavior: A Causal Inference Perspective George Gui and Olivier Toubia 背景 LLMは人間行動をシミュレートする可能性を持つが、未 特定の交絡因子が問題となる。 目的 需要推定における内生性の挑戦を探り、適正な結果を提供 することが目的。 提案 未特定の交絡因子に対処するための理論的枠組みと、プロ ンプトの明確化を提案。 評価 因果推論を用いた実証的および理論的な分析により提案の 有効性を評価。 結果 特定の実験デザインに依存するが、方向性を示す結果を得 た。
  960. 教師研修のための生成エージェント : 教師育 成のための大規模言語モデルを活用した教育 問題解決シミュレーションの設計 Generative Agent for Teacher Training:

    Designing Educational Problem-Solving Simulations with Large Language Model-based Agents for Pre-Service Teachers Unggi Lee and Sanghyeok Lee and Junbo Koh and Yeil Jeong and Haewon Jung and Gyuri Byun and Jewoong Moon and Jieun Lim and †. HyeoncheolKim 背景 教師研修は理論に偏りがちで、実践不足が問題です。 目的 実践的能力を補うための効果的な研修手段の提供が目的で す。 提案 GPT-4と Robloxを用いた問題解決シミュレーションの実 施を提案します。 評価 三人の教師とのインタビューによりプラットフォームの評 価を行いました。 結果 使用性に関する前向きな反応が得られました。
  961. 人工超人的知能に不可欠な自己改善性 Open-Endedness is Essential for Artificial Superhuman Intelligence Edward Hughes

    and Michael D. Dennis and Jack Parker-Holder and Feryal M. P. Behbahani and Aditi Mavalankar and Yuge Shi and Tom Schaul and Tim Rocktaschel 背景 近年、 AIシステムの一般能力が大きく向上していますが、 自己改善性の実現は困難です。 目的 自己改善性が人工超人的知能( ASI)の不可欠な特性であ ることを示すこと。 提案 新規性と学習可能性を基にした自己改善性の具体的形式を 提案します。 評価 基盤モデルの上に構築された自己改善システムを通じて ASIの生成を検討します。 結果 自己改善型基盤モデルが今後の研究における重要領域であ ることが期待されます。
  962. OmniActions: 大規模言語モデルで実世界 のマルチモーダル入力に応じたデジタル行動 を予測 OmniActions: Predicting Digital Actions in Response

    to Real-World Multimodal Sensory Inputs with LLMs Jiahao Nick Li and Yan Xu and Tovi Grossman and Stephanie Santosa and Michelle Li 背景 遍在拡張現実により多様な情報アクセスが可能になるが、 実際の利用には障害が存在。 目的 ユーザーがリアルタイムでデジタルアクションにアクセス しやすくすることを目的とする。 提案 OmniActionsは、 LLMsを活用してマルチモーダル入力 に応じたデジタルアクションを予測する。 評価 日記研究から得たデータを基に、 3つの LLM技術の量的評 価を行った。 結果 最も効果的な LLM技術を特定し、ユーザーの反応に関する 初期フィードバックを得た。
  963. LLMベースエージェントの高レベル動作の形 式的仕様 Formally Specifying the High-Level Behavior of LLM-Based Agents

    M. Crouse and Ibrahim Abdelaziz and Kinjal Basu and Soham Dan and Sadhana Kumaravel and Achille Fokoue and P. Kapanipathi and Luis A. Lastras 背景 LLMベースのエージェントは、特定のタスクの微調整が不 要なため、コスト効率の良い解決策です。 目的 エージェント設計の簡易化と新規エージェントの迅速な構 築を目指します。 提案 高レベルの宣言型仕様でデコードモニターを構築し、動作 を制御します。 評価 提案したフレームワークを用いて最新のエージェントを実 装し、推論中心のベンチマークで評価しました。 結果 我々の手法は、他のエージェントよりも優れた性能を示し ました。
  964. Patchview: ジェネレーティブダストとマグ ネット可視化による LLMベースのワールドビ ルディング Patchview: LLM-Powered Worldbuilding with Generative

    Dust and Magnet Visualization John Joon Young Chung and Max Kreminski 背景 大規模言語モデルによる生成要素の管理は難しく、明確な 制御が求められている。 目的 ユーザーが生成要素を視覚的に制御し、意味を理解しやす くすることを目指す。 提案 Patchviewは、ユーザーがマグネットとダストを通じて 世界要素と相互作用するビジュアルシステム。 評価 ユーザースタディを通じて、 Patchviewが要素生成と意味 理解を支援するかを評価。 結果 Patchviewは、ユーザーの意図に合ったビジュアル表現で モデルの行動を合わせる手がかりを提供。
  965. 大規模言語モデルは群衆の舵取りか?人狼ゲ ームにおける意見リーダーシップの評価 Helmsman of the Masses? Evaluate the Opinion Leadership

    of Large Language Models in the Werewolf Game Silin Du and Xiaowei Zhang 背景 大規模言語モデルが社会的推理ゲームで示す意見リーダー シップの重要性が見過ごされている。 目的 人狼ゲームを用いて LLMの意見リーダーシップを評価し、 その能力を検証する。 提案 保安官役割を統合し、意見リーダーの信頼性と影響力を測 定する指標を開発。 評価 様々な規模の LLMの評価と人狼 QAデータセットの収集を 通じた詳細な分析。 結果 人狼ゲームが LLMの意見リーダーシップ評価に適し、少数 の LLMにその能力がある示唆が得られた。
  966. 抽象および推論コーパス( ARC)チャレンジ の解決アプローチ An Approach to Solving the Abstraction and

    Reasoning Corpus (ARC) Challenge Tan John Chong Min 背景 ARCチャレンジは、 AIの推論能力をテストするための問 題。 目的 大規模言語モデルを用いて ARCタスクの解決を目指す。 提案 GPT4をプロンプトエンジニアリングして、 ARCタスクを 解決。 評価 GPT3.5/GPT4を用いたプロンプトエンジニアリングの適 用。 結果 小さな ARCチャレンジの 2つで成功を収め、他の問題にも 応用可能。
  967. 社会的シーンシミュレーションを通じた大規 模言語モデルの自己整合 Self-Alignment of Large Language Models via Monopolylogue-based Social

    Scene Simulation Xianghe Pang and Shuo Tang and Rui Ye and Yuxin Xiong and Bolun Zhang and Yanfeng Wang and Siheng Chen 背景 大規模言語モデルの誤用による悪影響を軽減する整合は重 要。 目的 LLMsを自己整合させ、人間の価値に適合させる。 提案 MATRIXという新しい社会的シーンシミュレーターを提 案。 評価 4つのベンチマークで 10以上のベースラインを超える性能 を実験で検証。 結果 13Bサイズ LLMが人間の価値に整合し、 GPT-4を上回 る。
  968. 大規模言語モデルが人間との議論において持 つ限界 Limits of Large Language Models in Debating Humans

    James Flamino and Mohammed Shahid Modi and B. Szymański and Brendan Cross and Colton Mikolajczyk 背景 **大規模言語モデル( LLMs) **は社会学的実験での人工 仲間としての利用が期待される。 目的 LLMの限界を明らかにし、その議論能力を理解するこ と。 提案 LLMエージェントが人間に与える影響と議論能力を評価 する。 評価 人間、エージェントと人間、エージェントのみの 3環境で 意見形成を分析。 結果 LLMsは生産性を促進するが、議論では説得力に欠けるこ とが判明。
  969. 大規模基盤モデルの壊滅的な継承について On Catastrophic Inheritance of Large Foundation Models Hao Chen

    and Bhiksha Raj and Xing Xie and Jindong Wang 背景 LFMは高性能ながら、バイアスやセキュリティ問題が未解 決です。 目的 LFMの壊滅的継承問題の特定と解決を目指しています。 提案 UIMフレームワークを提案し、問題の理解、解釈、緩和を 行います。 評価 事前学習と下流適応の両面から問題を分析します。 結果 責任ある AI開発へ向けた方向性を示します。
  970. ソーシャル VRにおけるリアルタイム音声ベ ースのヘイトスピーチ検出用 LLMエージェン ト「 Safe Guard」 Safe Guard: an

    LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality Yiwen Xu and Qinyang Hou and Hongyu Wan and Mirjana Prpa 背景 ソーシャル VRにおけるヘイトスピーチは重要な課題であ り、これを効果的に検出し抑制する手法が求められています。 目的 この研究の目的は、音声ベースのインタラクションでのヘ イトスピーチを効果的に検出することです。 提案 Safe Guardは、 Open AI GPTと音声特徴抽出を組み合わ せたリアルタイム検出システムを提案します。 評価 システムの評価は、既存手法と比較して誤検出を減らす能 力を分析しました。 結果 LLMベースのエージェントが仮想環境の安全性を向上させ る可能性を示しました。
  971. 持続可能な社会・技術・環境システムの自己 組織化 Sustainable Self-Organisation of Socio- Techno- Ecological Systems Asimina

    Mertzani and Jeremy V. Pitt 背景 技術と環境の交差が、社会アクターの自己組織化に影響す る。 目的 持続可能性を新しい視点で捉え直し、その実現可能性を探 る。 提案 AIの進展を活用し、技術と環境、社会 -政治経済の交差を 制御する枠組みを提案。 評価 持続可能性のモデル化と不確実性対処の課題を提示する理 論的立場を述べる。 結果 概念的枠組みの開発が、自己管理型システムの第一歩と認 識される。
  972. 画像編集のための協調的競争エージェント ( CCA) CCA: Collaborative Competitive Agents for Image Editing

    Tiankai Hang and Shuyang Gu and Dong Chen and Xin Geng and Baining Guo 背景 複雑な画像編集指示を ** robust **に処理する方法は限られ ていた。 目的 画像編集指示を精緻に処理する新たなシステムの提示と評 価。 提案 GANに似た ** CCA **でエージェントが協力・競争して結 果を改良。 評価 詳細なエージェント関係の解析と包括的な画像編集の実験 を行った。 結果 協調的競争によりシステムの質と強靭性が向上することが 示された。
  973. 誰の声で?:生成音声を通じた社会的相互作 用における AIエージェントの人間の表現の検 討 In Whose Voice?: Examining AI Agent

    Representation of People in Social Interaction through Generative Speech A. Hwang and John Oliver Siy and Renee Shelby and Alison Lentz 背景 生成 AIの普及に伴い、社会的相互作用の変容が懸念されて います。 目的 AIエージェントが個人表現する際の影響を理解し、コミュ ニケーションの質を守ること。 提案 個人表現を行う AIエージェントの影響に関する研究方法を 多面的に明らかにする。 評価 インタビュー、共同デザインワークショップ、害分析など を用いて調査を行いました。 結果 エージェント表現は社会的相互作用の価値と個人のコント ロールを脅かす可能性があると示唆される。
  974. ING-VP: MLLMsはまだ簡単な視覚ベースの ゲームをプレイできない ING-VP: MLLMs cannot Play Easy Vision-based Games

    Yet Haoran Zhang and Hangyu Guo and Shuyue Guo and Meng Cao and Wenhao Huang and Jiaheng Liu and Ge Zhang 背景 MLLMsの性能向上に伴い、視覚的課題に対応するための 詳細なベンチマークが必要となっている。 目的 MLLMsの空間推論と計画能力を特化評価するフレームワ ークを提供すること。 提案 ING-VPは複数のゲームを通じて、空間的想像力とマルチ ステップ推論を評価する。 評価 6つのゲームで 60,000回以上の対話を通じて、能力を比 較評価する複数設定を提供。 結果 主要モデル Claude-3.5 Sonnetの最高精度は **3.37%** で、標準未達。
  975. LLMベースのエージェントで橋梁運用と保守 を革新 : 応用と洞察の概要 Revolutionizing Bridge Operation and maintenance with

    LLM-based Agents: An Overview of Applications and Insights Xinyu-Chen and Yanwen-Zhu and Yang-Hou and Lianzhen-Zhang 背景 橋梁 O&M分野は他の産業と比べて知能化が進んでおら ず、 AI導入が求められる。 目的 AIエージェントが橋梁 O&Mに与える影響とその可能性を 探ること。 提案 LLMベースの AIを橋梁 O&Mに応用し、知能化を促進する 方法を提示。 評価 機械学習アルゴリズムや自律的評価方法を通じて、 AI効果 を検証。 結果 AI導入で橋梁 O&Mの知能化が促進され、多くの機会と課 題が明らかとなる。
  976. マフィア風ゲームシミュレーションにおける GPTの可能性 GPTs in Mafia-like Game Simulation Munyeong Kim 背景

    生成 AIの応用可能性を役割演技で探索することが重要視さ れている。 目的 GPT-4の理解、意思決定、対話能力を示すことが目的で ある。 提案 GPT-4を用いたロールプレイシミュレーションでの能力 活用を提案。 評価 GPT-4と GPT-3.5-turboの能力を比較分析した。 結果 GPT-4は前モデルからの大幅な改善を示したが、さらな る発展が必要。
  977. 記憶を用いた軌跡の例示法によるコンピュー タ制御 Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control

    Longtao Zheng and R. Wang and Bo An 背景 コンピュータ制御におけるエージェント構築には、コンテ キスト内学習の制約が大きな課題です。 目的 この研究は、限定されたコンテキスト問題を解決し、エー ジェントの汎化能力を向上させることを目的としています。 提案 我々は Synapseというエージェントを提案し、状態抽象 化、軌跡利用、例示メモリの三位一体を活用します。 評価 MiniWoB++と Mind2Webを用いて、タスク成功率とステ ップ成功率を評価しました。 結果 Synapseは、 MiniWoB++で **99.2%**の平均成功率を達 成し、 Mind2Webでも優れた成功率を示しました。
  978. マルチエージェントコラボレーション : イン テリジェントな LLMエージェントの力を活用 する Multi-Agent Collaboration: Harnessing the

    Power of Intelligent LLM Agents Yashar Talebirad and Amirhossein Nadiri 背景 LLMsの能力向上は、複雑なタスクの効率的処理に重要。 目的 マルチエージェントシステムで LLMsの限界に対処し、性 能を向上させる。 提案 インテリジェントエージェントの協力環境を構築し、 LLMsの課題を解決。 評価 Auto-GPTや BabyAGIモデルを通じたケーススタディで実 証。 結果 エージェント間の協力と知識交換で LLMsの性能が向上。
  979. 大規模言語モデルの相互整合性に関する考察 : ディベートを通じた分析 Diving into the Inter-Consistency of Large Language

    Models: An Insightful Analysis through Debate Kai Xiong and Xiao Ding and Yixin Cao and Ting Liu and Bing Qin 背景 研究は LLMが強力な推論能力を持つが非整合性問題を抱え ている点に着目している。 目的 研究は複数の LLM間の相互整合性の問題を解決し、精度の 高い意思決定を目指す。 提案 LLM間での三段階のディベートにより、相互整合性の向上 を図る。 評価 7つの常識的推論データセットで広範な実験を通じ評価を 行った。 結果 ディベートにより LLMの相互整合性が向上し、性能と解釈 性が改善された。
  980. GPTを活用した「モルモット試験」 : 企業競 争と共謀を研究する画期的なスマートエージ ェントベースモデリングアプローチ "Guinea Pig Trials" Utilizing GPT:

    A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion Xu Han and Zengqing Wu and Chuan Xiao 背景 企業間の競争と共謀は、複雑な動力学を持ち、コミュニケ ーションに依存している。 目的 企業の価格競争と共謀行動を研究するための新たなモデリ ング枠組みを提案する。 提案 GPT-4技術によるスマートエージェントを用いた **スマー トエージェントベースモデリング( SABM) **を提案。 評価 企業の価格競争と共謀行動を制御された実験で分析し、 SABMの有効性を評価。 結果 通信がない場合、エージェントは暗黙の共謀に達し、通信 がある場合はカルテル価格に近づく。
  981. 高性能 LLM取引エージェントの FinMem: 階 層型メモリとキャラクターデザイン FinMem: A Performance-Enhanced LLM Trading

    Agent with Layered Memory and Character Design Yangyang Yu and Haohang Li and Zhi Chen and Yuechen Jiang and Yang Li and Denghui Zhang and Rong Liu and Jordan W. Suchow and K. Khashanah 背景 LLMは QAタスクでの成功により、自律エージェント開発 へと関心が移行しています。 目的 金融分野での意思決定をサポートする LLMフレームワーク の開発が目的です。 提案 FinMemはプロファイリング、階層型メモリ、意思決定の 3つのモジュールを含む新しいフレームワークです。 評価 実世界の金融データセット上で、フィンメムと他のアルゴ リズムエージェントを比較しました。 結果 FinMemは株式取引での投資収益の向上において優れたパ フォーマンスを示しました。
  982. SGLang: 構造化された言語モデルプログラ ムの効率的実行 SGLang: Efficient Execution of Structured Language Model

    Programs Lianmin Zheng and Liangsheng Yin and Zhiqiang Xie and Chuyue Sun and Jeff Huang and Cody Hao Yu and Shiyi Cao and Christos Kozyrakis and Ion Stoica and Joseph E. Gonzalez and Clark W. Barrett and Ying Sheng 背景 大規模言語モデルは、複雑なタスクでの効率的な実行が求 められています。 目的 既存システムの効率性不足を解消し、プログラムの実行を 高速化します。 提案 SGLangは、新しい最適化技術を採用した効率的な実行シ ステムです。 評価 SGLangの効果は多様なモデルやタスクでの実験で評価さ れました。 結果 SGLangは、最大 6.4倍のスループットを達成し、効率性 を示しました。
  983. MACPO: マルチエージェント対比嗜好最適 化による弱から強へのアライメント MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference

    Optimization Yougang Lyu and Lingyong Yan and Zihan Wang and Dawei Yin and Pengjie Ren and M. D. Rijke and Z. Ren 背景 大規模言語モデルが人間の能力を超える中、人間の価値観 との整合が急務です。 目的 弱い教師から強い生徒への適切なアライメントを実現する ことが目的です。 提案 MACPOは弱い教師と強い生徒が互いに学習する仕組みを 提案します。 評価 HH-RLHFと PKU-SafeRLHFデータセットで自動評価と人 間の判断を使用しました。 結果 MACPOは強い生徒と弱い教師のアライメント性能を同時 に向上させます。
  984. BMWエージェント - マルチエージェント協 調によるタスク自動化のフレームワーク BMW Agents - A Framework For

    Task Automation Through Multi-Agent Collaboration Noel Crawford and Edward B. Duffy and Iman Evazzade and Torsten Foehr and Gregory Robbins and D. K. Saha and Jiya Varma and Marcin Ziolkowski 背景 大規模言語モデルの成長で自律エージェントの自動化可能 性が高まっている。 目的 複雑なタスク解決のためのマルチエージェントフレームワ ークを設計する。 提案 計画と実行に優れたエージェントのフレームワークを提案 する。 評価 多分野でのユースケースを用いてフレームワークの性能を 評価。 結果 提案手法が産業応用において信頼性と柔軟性をもたらすこ とが示された。
  985. NarrativePlay: インタラクティブな物語理 解 NarrativePlay: Interactive Narrative Understanding Runcong Zhao and

    Wenjia Zhang and Jiazheng Li and Lixing Zhu and Yanran Li and Yulan He and Lin Gui 背景 物語中のキャラクターとの対話を通じて、ユーザーの没入 感を高める需要がある。 目的 用意されたシナリオに頼らず、物語体験の没入性を向上さ せること。 提案 ユーザーがキャラクターを選び、 LLMsを使用して自然な 対話を実現する新システム。 評価 探偵と冒険物語で評価し、ユーザーの探索と対話を観察。 結果 NarrativePlayは、物語体験の没入感を顕著に向上させた。
  986. ChatEval: マルチエージェントディベートに よる優れた LLM評価者への進化 ChatEval: Towards Better LLM-based Evaluators through

    Multi-Agent Debate Chi-Min Chan and Weize Chen and Yusheng Su and Jianxuan Yu and Wei Xue and Shan Zhang and Jie Fu and Zhiyuan Liu 背景 テキスト評価は労力とコストが高く改善が必要です。 目的 複数アノテータを使い人間レベル評価に近づけることが目 的です。 提案 マルチエージェントフレームワークで LLM同士が協力し評 価を向上させます。 評価 ChatEvalを用い、複数モデルの生成回答を自律的に評価し ました。 結果 ChatEvalは人間に似た評価を行い、信頼性のある評価が可 能です。
  987. AmadeusGPT: 自然言語インターフェース による対話型動物行動解析 AmadeusGPT: a natural language interface for interactive

    animal behavioral analysis Shaokai Ye and Jessy Lauer and Mu Zhou and Alexander Mathis and Mackenzie W. Mathis 背景 動物行動解析は深い生物学的知識と機械学習の専門性が求 められる。 目的 AmadeusGPTは行動解析を自然言語で簡便に実行可能に する。 提案 新しい自然言語インターフェースでコード化を自動化し行 動解析を支援。 評価 MABE 2022行動チャレンジタスクでベンチマークを行っ た。 結果 最先端の性能を発揮し、コード不要で解析が可能。
  988. LLMエージェントを用いた生成デザインツー ルによる新しいデバイス構築 :流体計算インタ ーフェイスの事例研究 Enabling Generative Design Tools with LLM

    Agents for Building Novel Devices: A Case Study on Fluidic Computation Interfaces Qiuyu Lu and Jiawei Fang and Zhihao Yao and Yue Yang and Shiqing Lyu and Haipeng Mi and Lining Yao 背景 HCIの分野で、新技術を用いるプロトタイピングの民主化 が求められています。 目的 新しいデバイス設計ツールを LLMエージェントで拡張し 可能性を探ることです。 提案 生成デザインツールを使用し、設計プロセスでのアイデア 創出を支援します。 評価 流体計算インターフェイスを用いたケーススタディで評価 しました。 結果 GDTは新デバイスの能力を理解し、適切なシナリオを提案 できます。
  989. 大規模言語モデルは心の理論を持つエージェ ントからどれだけ遠い? How FaR Are Large Language Models From Agents

    with Theory-of-Mind? Pei Zhou and Aman Madaan and Srividya Pranavi Potharaju and Aditya Gupta and Kevin R. McKee and Ari Holtzman and J. Pujara and Xiang Ren and Swaroop Mishra and Aida Nematzadeh and Shyam Upadhyay and 背景 人間の **心の理論( ToM) **は、他者の精神状態を理解し 行動に活かす能力。 目的 **Thinking for Doing( T4D) **によって、 LLMが推測を 行動に変える能力を評価。 提案 **Foresee and Reflect( FaR) **で、 LLMの未来予測と行 動推論を強化するフレームワークを提供。 評価 GPT-4と PaLM 2を用いた社会的シナリオでの LLM評価実 験を実施。 結果 FaRは GPT-4の **パフォーマンスを 71%**に引き上げ、他 手法を上回る成果を示す。
  990. LLMは経済的選択予測ラボを置き換えられる か?言語ベースの説得ゲームのケース Can LLMs Replace Economic Choice Prediction Labs? The

    Case of Language- based Persuasion Games Eilam Shapira and Omer Madmon and Roi Reichart and Moshe Tennenholtz 背景 経済的選択予測は、マーケティングや金融など多くの分野 で重要です。 目的 LLMが経済的な選択予測データを生成できるかを調査し ます。 提案 言語ベースの説得ゲームで LLM生成データを用いた予測 モデルを提案します。 評価 実験により、 LLM生成データで訓練されたモデルの有効性 を評価しました。 結果 LLM生成データで訓練されたモデルは人間データのモデル を上回る結果を示しました。
  991. AgentFL: LLMベースの障害位置特定をプロ ジェクトレベルの文脈に拡大 AgentFL: Scaling LLM-based Fault Localization to Project-Level

    Context Yihao Qin and Shangwen Wang and Yiling Lou and Jinhao Dong and Kaixin Wang and Xiaoling Li and Xiaoguang Mao 背景 障害位置特定はデバッグで重要だが、 LLMは小範囲しか対 応できない。 目的 広いコードスコープでのバグ診断の実現が課題です。 提案 AgentFLは ChatGPTに基づく多エージェントシステムで 障害を自動特定します。 評価 Defects4J-V1.2.0ベンチマークでの評価とアブレーシ ョン研究を実施。 結果 395中 157のバグを特定し、他手法より優れていると確 認。
  992. 構造化金融における基礎資産レビューの効率 と精度向上:マルチエージェントフレームワ ークの適用 Enhancing the Efficiency and Accuracy of Underlying

    Asset Reviews in Structured Finance: The Application of Multi-agent Framework Xiangpeng Wan and Haicheng Deng and Kai Zou and Shiqi Xu 背景 構造化金融は資本効率を改善するが、デューデリジェンス の課題が大きい。 目的 AIを用いて資産レビューの効率と精度を向上すること。 提案 AIを活用したマルチエージェントシステムで資産レビュー を自動化。 評価 オープンソース LLMsとクローズドソースモデルを比較評 価。 結果 AIは手動エラーを減少させ、デューデリジェンス工程を効 率化可能。
  993. 広く見て賢く考える : フィルターバブルを打 破するための生成的マルチエージェントシス テムの設計に向けて See Widely, Think Wisely: Toward

    Designing a Generative Multi-agent System to Burst Filter Bubbles Yu Zhang and Jingwei Sun and Li Feng and Cen Yao and Mingming Fan and Liuxin Zhang and Qianying Wang and Xin Geng and Yong Rui 背景 AIによるフィルターバブルの形成が進み、偏見の強化と視 野の狭窄が大きな問題です。 目的 ユーザーが多様な視点を受け入れる支援を目指していま す。 提案 LLMとマルチエージェントシステムを用いたインセンテ ィブによる動機付けを提案しました。 評価 18名の参加者と共にデザインスタディを行いました。 結果 マルチエージェント対話がユーザーの視野広げに動機付け になると示されました。
  994. オープンエンドのマルチエージェントナビゲ ーションのための階層的自動整理システム Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation Zhonghan

    Zhao and Kewei Chen and Dongxu Guo and Wenhao Chai and Tianbo Ye and Yanting Zhang and Gaoang Wang 背景 Open-world環境でのマルチエージェントナビゲーショ ンは通信とタスク管理の課題が大きい。 目的 エージェントが効率的にナビゲートできる自動整理システ ムの開発を目指す。 提案 階層的システムによりエージェントを整理し、情報処理を 改善する。 評価 Minecraft環境で探索と検索のナビゲーションタスクを用 いて評価。 結果 エージェントが人間に近い組織構造で設計され、効果的に ナビゲート可能。
  995. 人間 -AI協力における相互心の理論:リアル タイム共同作業タスクにおける大規模言語モ デル駆動 AIエージェントを用いた実証研究 Mutual Theory of Mind in

    Human-AI Collaboration: An Empirical Study with LLM- driven AI Agents in a Real-time Shared Workspace Task Shao Zhang and Xihuai Wang and Wenhao Zhang and Yongshan Chen and Landi Gao and Dakuo Wang and Weinan Zhang and Xinbing Wang and Ying Wen 背景 **心の理論( ToM) **は他者を理解する能力であり、人間 の協力において重要な役割を果たす。 目的 ToM能力を持つ AIと人間協力の影響を調査することで、チ ームのパフォーマンス改善を図る。 提案 ToMとコミュニケーションを活用した AIエージェントが人 間の理解や協力を改善する手法を提案。 評価 大規模言語モデルを用いた AIエージェントによるリアルタ イムタスクで、 ToMの影響を実証。 結果 ToMエージェントはチーム性能への影響は少なく、人間 理解の向上に寄与する。
  996. 自然言語駆動のシミュレーションベンチマー クとコパイロット :仮想道路シーンにおける効 率的な物体相互作用生成 Natural-language-driven Simulation Benchmark and Copilot for

    Efficient Production of Object Interactions in Virtual Road Scenes Kairui Yang and Zihao Guo and Gengjie Lin and Haotian Dong and Die Zuo and Jibin Peng and Zhao Huang and Zhecheng Xu and Fupeng Li and Ziyun Bai and Di Lin 背景 自律走行システムは予測不可能な障害物を回避する必要が あり、効率的なシミュレーションが重要です。 目的 効率的な物体相互作用生成で自律運転システムの教育とテ ストを改善することを目的としています。 提案 自然言語で物体相互作用を制御し、大量のデータ作成を効 率化する NLDシミュレーションを提案します。 評価 SimCopilotを用いて、物体動作制御、複雑相互作用生成、 道路間の一般化能力を L2Iデータセットで評価しました。 結果 自然言語記述からの物体動作の制御と相互作用の生成に成 功し、さらなる研究を促進します。
  997. LLMは人間レベルのプレイヤーではないが、 テスターにはなれる: LLMエージェントによ るゲーム難易度の測定 LLMs May Not Be Human-Level Players,

    But They Can Be Testers: Measuring Game Difficulty with LLM Agents Chang Xiao and Brenda Z. Yang 背景 LLMの進化により、ゲーム難易度の自動測定が可能にな った。 目的 LLMを使い、ゲームの難易度を測定する方法を提案す る。 提案 LLMエージェントでゲームテストのフレームワークを構 築する。 評価 Wordleと Slay the Spireでテストを行い、人間の評価と比 較した。 結果 LLMはシンプルなプロンプト技術で人間の難易度評価と 相関を示した。
  998. 深層学習視点からのアラインメント問題 The alignment problem from a deep learning perspective Richard

    Ngo 背景 AGIは将来的に人間の多くの重要なタスクを上回る可能性 があるため、その影響が懸念されています。 目的 AGIが人間の利益と対立する目標を学ぶリスクを防ぐ必要 があることを議論します。 提案 現代のモデルの訓練法が誤った目標を学ばせる可能性を指 摘しています。 評価 新たな証拠をレビューし、内部に矛盾した目標を持つ危険 性を検討します。 結果 ミスアラインした AGIは制御が困難で、人間の支配を損な う可能性があります。
  999. 言語モデルベースの対話システムの進化に関 する調査 A Survey of the Evolution of Language Model-Based

    Dialogue Systems Hongru Wang and Lingzhi Wang and Yiming Du and Liang Chen and Jing Zhou and Yufei Wang and Kam-Fai Wong 背景 言語モデルが対話システムにおける中心的役割を果たし、 その進化が注目されています。 目的 4段階に分けて対話システムの進化を明確に整理し、理解 を深めます。 提案 言語モデルの各進展が対話システムに与えた影響を詳細に 分析します。 評価 時系列的視点で LMの進展をレビューし、 4つの段階ごと に分類しました。 結果 重要な進展である LLMに焦点を当て、今後の方向性を示し ました。
  1000. マルチエージェント強化学習を用いた資源交 換と許容された窃盗の行動の出現 Emergent Resource Exchange and Tolerated Theft Behavior Using

    Multiagent Reinforcement Learning Jack Garbus and J. Pollack 背景 協力の進化は、ゲーム理論や進化生物学で長く研究され重 要なテーマとなっている。 目的 本研究の目的は、資源の交換がどのように進化するかを明 らかにすることにある。 提案 焚き火を利用してエージェント間の新しい資源交換プロト コルを提案する。 評価 採餌環境でのマルチエージェント強化学習によるシミュレ ーションを実施した。 結果 エージェントは許容された窃盗に似た行動を自然に学習す ることが分かった。
  1001. 大規模言語モデルの堅牢で拡張可能なモデル 編集 Robust and Scalable Model Editing for Large Language

    Models Yingfa Chen and Zhengyan Zhang and Xu Han and Chaojun Xiao and Zhiyuan Liu and Chen Chen and Kuai Li and Tao Yang and Maosong Sun 背景 LLMは文脈知識を無視しがちで、非関連情報への堅牢性が 必要です。 目的 LLMの文脈知識に依存した制御可能性と、非関連情報へ の堅牢性を向上する。 提案 命令微調整で制御可能な ERENを提案し、編集の拡張性を 改善。 評価 新たなデータセットで LLMの堅牢性と既存技術を超える性 能を検証。 結果 ERENは複数の編集統合や無関係入力への正確な応答が可 能です。
  1002. OpenAgents: 日常生活のオープンプラット フォームとしての言語エージェント OpenAgents: An Open Platform for Language Agents

    in the Wild Tianbao Xie and Fan Zhou and Zhoujun Cheng and Peng Shi and Luoxuan Weng and Yitao Liu and Toh Jing Hua and Junning Zhao and Qian Liu and Che Liu and Leo Z. Liu and Yiheng Xu and Hongjin Su and Dongchan 背景 言語エージェントは LLMsに基づき、多様なタスクを遂行 する可能性を持つ。 目的 一般ユーザーでも使えるオープンプラットフォームを通じ て言語エージェントを普及。 提案 OpenAgentsを提案し、日常生活で言語エージェントを活 用する基盤を提供。 評価 ユーザーインターフェースを通じ、迅速な応答と共通の失 敗に対応する試験を実施。 結果 OpenAgentsは革新的な言語エージェント開発と評価を促 進する基盤を提供。
  1003. 進化する条件付きメモリを持つパーソナライ ズされた大型言語モデルアシスタント Personalized Large Language Model Assistant with Evolving Conditional

    Memory Ruifeng Yuan and Shichao Sun and Zili Wang and Ziqiang Cao and Wenjie Li 背景 大型言語モデルは進化していますが、パーソナライズが不 十分で、ユーザーのニーズに合わないことがあります。 目的 対話履歴を元にユーザーの好みを記憶し、パーソナル化を 実現する技術を開発します。 提案 条件付きメモリを使用し、対話履歴を動的に保存して応答 の質を向上させる手法を提案します。 評価 パーソナライズアシスタントの能力を三つの観点から評価 するためのベンチマークを構築しました。 結果 実験結果は、提案手法の有効性を示し、応答の質が向上し たことを確認しました。
  1004. AutoPenBench: ペネトレーションテスト 用生成エージェントのベンチマーク AutoPenBench: Benchmarking Generative Agents for Penetration Testing

    Luca Gioacchini and Marco Mellia and Idilio Drago and Alexander Delsanto and G. Siracusano and Roberto Bifulco 背景 生成 AIエージェントはサイバーセキュリティタスクの自動 化に有望ですが、標準的な評価基準が欠如しています。 目的 本研究は、自動ペネトレーションテストにおけるエージェ ントの評価基準を提供することを目的としています。 提案 AutoPenBenchというベンチマークを提示し、 33のタ スクで生成エージェントを評価します。 評価 エージェントの性能は一般的かつ特定のマイルストーンで 評価し、限界を理解します。 結果 完全自律エージェントは成功率 21%で、支援付きエージェ ントは 64%の成功率を達成しました。
  1005. AIによる侵入テスト : 大規模言語モデルを用 いた手法 Getting pwn’d by AI: Penetration Testing

    with Large Language Models A. Happe and Jürgen Cito 背景 ソフトウェアセキュリティテストは専門性が高く、手動作 業が多い分野です。 目的 AIを活用して侵入テスターの支援可能性を探ることが目的 です。 提案 大規模言語モデルを使って高レベルタスク計画と脆弱性探 索を支援します。 評価 脆弱な仮想マシンと閉ループフィードバックを用いた評価 を行いました。 結果 有望な初期結果を得て、改善点や倫理について考察しまし た。
  1006. 大規模言語モデルの人格編集 Editing Personality for Large Language Models Shengyu Mao and

    Ningyu Zhang and Xiaohan Wang and Meng Wang and Yunzhi Yao and Yong Jiang and Pengjun Xie and Fei Huang and Huajun Chen 背景 大規模言語モデルの応答における個性表現は重要です。 目的 モデルの人格特性を編集し、特定の意見表現を調整しま す。 提案 Social Psychologyに基づき、 3つの人格特性を用いたベン チマークを構築します。 評価 GPT-4を用いて、指定トピックに応じた人格特性の応答を 収集します。 結果 新課題の課題を特定し、さらなる研究の必要性を示しま す。
  1007. エージェント生成会話における話者確認 Speaker Verification in Agent-Generated Conversations Yizhe Yang and Heyan

    Huang and Palakorn Achananuparp and Jing Jiang and Ee-Peng Lim 背景 大規模言語モデルを用いた個別化の未熟な能力が課題視さ れています。 目的 話者確認を通じ、個別化の精度向上を目的としています。 提案 エージェントが生成した会話における話者確認手法の評価 を提案します。 評価 大規模データの収集と話者確認モデルを用いた実験設定が 実施されました。 結果 現行のロールプレイングモデルは正確な模倣に失敗してい ることが明らかになりました。
  1008. 人間対 LMM: デジタルコミュニケーションに おける絵文字の解釈と使用の差異の探究 Human vs. LMMs: Exploring the Discrepancy

    in Emoji Interpretation and Usage in Digital Communication Hanjia Lyu and Weihong Qi and Zhongyu Wei and Jiebo Luo 背景 絵文字はデジタルコミュニケーションで感情やトーンを伝 える重要な役割を担う。 目的 GPT-4Vが人間の絵文字使用を再現できるかを明らかに すること。 提案 GPT-4Vが絵文字を人間のように解釈・使用できるかの調 査。 評価 GPT-4Vの英語中心の学習が文化的バイアスに与える影響 を分析。 結果 人間と GPT-4Vの絵文字使用には顕著な違いがあると判 明。
  1009. 大規模モデルエージェント : 最新技術 , 協調パ ラダイム , セキュリティとプライバシー , 今後

    の展望 Large Model Agents: State-of-the-Art, Cooperation Paradigms, Security and Privacy, and Future Trends Yuntao Wang and Yanghe Pan and Quan Zhao and Yi Deng and Zhou Su and Linkang Du and Tom H. Luan 背景 AGIへの達成を目指し、大規模モデルエージェントは自律 性と接続性を持つ重要な技術です。 目的 LMエージェントの最先端技術と安全性・プライバシーの 問題点を包括的に調査すること。 提案 一般的なアーキテクチャや協調パラダイムを探り、セキュ リティとプライバシーの対策を考察。 評価 多エージェント環境におけるセキュリティ脆弱性やプライ バシー侵害を系統的に分析。 結果 LMエージェントのエコシステムを堅牢で安全に構築する ための未来の研究方向を示す。
  1010. 大規模言語モデルは人間のような応答バイア スを示すか?アンケート設計でのケーススタ ディ Do LLMs Exhibit Human-like Response Biases? A

    Case Study in Survey Design Lindia Tjuatja and Valerie Chen and Sherry Tongshuang Wu and Ameet Talwalkar and Graham Neubig 背景 LLMの弱点の一つは、プロンプトの言い回しに敏感なこ とだが、人間も応答バイアスを示す。 目的 LLMが人間のような応答バイアスを持つかを調査すること が目的。 提案 アンケート設計を用いて、 LLMの応答が人間の応答バイア スに類似するかを評価する。 評価 九つの LLMモデルに対して、人間らしい挙動を示すかを包 括的に評価した。 結果 多くの LLMは人間らしい行動を反映せず、特に RLHFモデ ルがそうだった。
  1011. AntEval: LLM駆動のエージェントにおける 社会的相互作用能力の評価 AntEval: Evaluation of Social Interaction Competencies in

    LLM-Driven Agents Yuanzhi Liang and Linchao Zhu and Yi Yang 背景 大規模言語モデルは複雑な社会的相互作用の評価に欠け、 開発が遅れています。 目的 より自然な相互作用力を持つエージェントの開発方法を探 求することです。 提案 AntEvalフレームワークにより、新しい相互作用と評価手 法を提供します。 評価 **情報交換精度( IEP)と相互作用表現ギャップ( IEG) ** を用いた定量評価を行います。 結果 評価手法は有用で、エージェントの自然な相互作用能力向 上に可能性があります。
  1012. Voyager: 大規模言語モデルによるオープン エンド型具現エージェント Voyager: An Open-Ended Embodied Agent with Large

    Language Models Guanzhi Wang and Yuqi Xie and Yunfan Jiang and Ajay Mandlekar and Chaowei Xiao and Yuke Zhu and Linxi (Jim) Fan and Anima Anandkumar 背景 Minecraftにおける生涯学習エージェントの開発は、継続 的自動学習の可能性を示す。 目的 人間の介入なしで Minecraftの多様なスキルを継続的に習 得する技術の開発。 提案 Voyagerは自動カリキュラムと独自のスキルライブラリ をもち、環境に適応するエージェントを提案。 評価 GPT-4と接続することでモデル調整なしで実行、スキルを 検証可能。実証実験で効果を確認。 結果 Voyagerは SOTAを上回る探索とスキル達成、他技術に比 べ初期タスク解放が可能。
  1013. LLM社会における合意サイズの制約としての 言語理解 Language Understanding as a Constraint on Consensus Size

    in LLM Societies G. D. Marzo and Claudio Castellano and David Garcia 背景 LLMは協調タスクで相互作用するエージェントとして重要 です。 目的 人間のように LLMも合意の限界があるかを明らかにしま す。 提案 複雑性科学と行動科学で LLMの意見動態を分析します。 評価 多数力係数で合意可能性を判断する方法を検証しました。 結果 臨界グループサイズが言語理解能力で拡大します。
  1014. 立場検出のための動的経験専門家モデリング (DEEM) DEEM: Dynamic Experienced Expert Modeling for Stance Detection

    Xiaolong Wang and Yile Wang and Sijie Cheng and Peng Li and Yang Liu 背景 立場検出には詳細な背景知識が必要で、 LLMの推論はまだ 改善の余地がある。 目的 特定の専門家をシミュレートして、より正確な立場検出を 目指すこと。 提案 生成された経験豊富な専門家を用いて、動的に LLMが推 論する方法を提案する。 評価 3つの標準ベンチマークでの実験により手法の有効性が確 認された。 結果 DEEMが常に最良の結果を達成し、自己整合性推論を上回 る。
  1015. GPTベースのインテリジェントチューターに おけるドメイン知識ベースの多様なレベルの 影響の検討 Examining the Influence of Varied Levels of

    Domain Knowledge Base Inclusion in GPT-based Intelligent Tutors Blake Castleman and Mehmet Kerem Türkcan 背景 大規模言語モデルは対話能力が進化しましたが、教育への 不適合が課題です。 目的 正確な応答を保障するために、知識ベースを統合した LLM の効果を検討します。 提案 応答の信頼性向上のため、 LLMに拡張可能な知識ベースを 組み込みます。 評価 学生に AIカリキュラムを元にした質問を行い、 GPT-4が評 価しました。 結果 知識ベースを利用することで、応答正確性と教育能力が向 上することが示されました。
  1016. 視覚化システムのための調整済み大規模言語 モデル : 教育における自己調整学習の研究 Fine-Tuned Large Language Model for Visualization

    System: A Study on Self- Regulated Learning in Education Lin Gao and Jing Lu and Zekai Shao and Ziyue Lin and Shengbin Yue and Chio-in Ieong and Yi Sun and Rory James Zauner and Zhongyu Wei and Siming Chen 背景 大規模言語モデルを視覚化システムに統合する際の課題解 決が必要です。 目的 初心者の自己調整学習を支援する視覚化システムを開発す ることです。 提案 Tailor-Mindというシステムを提案し、視覚化と LLMを 整合させ学習を支援します。 評価 モデル性能評価とユーザースタディを行い、フレームワー クの有効性を検証しました。 結果 Tailor-Mindは学習体験を向上させ、提案フレームワーク の有効性を確認しました。
  1017. モーションアバター :任意の動きで人間と動物 のアバターを生成 Motion Avatar: Generate Human and Animal Avatars

    with Arbitrary Motion Zeyu Zhang and Yiran Wang and Biao Wu and Shuo Chen and Zhiyuan Zhang and Shiya Huang and Wenbo Zhang and Meng Fang and Ling Chen and Yang Zhao 背景 3Dアバターとモーション生成は、映画やエンターテイン メントでの使用が増えています。 目的 3Dアバターとモーションの統合生成を容易にし、動物に も適用することです。 提案 Motion Avatarという新技術で、人間と動物のアバター を自動生成します。 評価 動物モーションデータセット Zoo-300Kを開発し、それ を用いて評価しました。 結果 提案手法が高品質なアバター生成において有用性を示しま した。
  1018. アイデンティティ駆動型の階層的ロールプレ イングエージェント Identity-Driven Hierarchical Role-Playing Agents Libo Sun and Siyuan

    Wang and Xuanjing Huang and Zhongyu Wei 背景 LLMを用いたロールプレイングは精度と柔軟性の課題があ ります。 目的 精度と柔軟性のバランスを取る新たな手法の開発を目指し ます。 提案 HIRPFで複数アイデンティティを組み合わせたキャラク ターを構築します。 評価 スケール評価とオープン状況評価で効果を確認します。 結果 フレームワークの効果が確認され、社会シミュレーション へ応用可能です。
  1019. LLM-Deliberation: インタラクティブなマ ルチエージェント交渉ゲームによる LLMの評 価 LLM-Deliberation: Evaluating LLMs with Interactive

    Multi-Agent Negotiation Games Sahar Abdelnabi and Amr Gomaa and S. Sivaprasad and Lea Schönherr and Mario Fritz 背景 大規模言語モデル (LLM) の推論・意思決定能力の評価が 未開拓である。 目的 スコア可能な交渉ゲームにより LLMの能力を評価すること を目的とする。 提案 新しい評価フレームワークとして、多エージェントの交渉 ゲームを提案。 評価 ゼロショット思考連鎖プロンプティングで交渉タスクのパ フォーマンスを評価。 結果 GPT-4と以前のモデルで大きな差があることを発見し た。
  1020. LaSofa: ファンタジーストーリーテリングを 人間とロボットのインタラクションに統合す るインタラクティブソファロボット LaSofa: Integrating Fantasy Storytelling in Human-Robot

    Interaction through an Interactive Sofa Robot Tongge Yu and Meizhu Chen and Ya Li and Deehsiao Lew and Kejin Yu 背景 技術とストーリーテリングの統合が家具デザインで重要視 される時代背景です。 目的 LaSofaを通じた新たな人間体験の創出を目指していま す。 提案 ファンタジーストーリーを家具に組み込むインタラクティ ブソファを提案します。 評価 ユーザーの操作を認識する圧力センサーと LLMにより実験 的に物語生成を行いました。 結果 インタラクティブデザインが人々のエンゲージメントをさ らに高めることが示されました。
  1021. CacheGen: 言語モデルアプリケーションの ための高速コンテキスト読み込み CacheGen: Fast Context Loading for Language Model

    Applications Yuhan Liu and Han-Chiang Li and Kuntai Du and Jiayi Yao and Yihua Cheng and Qizheng Zhang and Yuyang Huang and Shan Lu and Michael Maire and Henry Hoffmann and Ari Holtzman and Ganesh Ananthanarayanan 背景 LLMは、問い合わせに応じるために長いコンテキストを必 要とし、遅延が課題です。 目的 CacheGenはコンテキストの取得と処理の遅延を減らす ことを目的とします。 提案 新しいエンコーダーとコントローラーで KV特徴を効率的 に圧縮し、遅延を最小化します。 評価 様々なモデルとデータセットを使用し、帯域幅使用と遅延 削減を評価しました。 結果 CacheGenは性能を維持しつつ、遅延を 2.7-3倍削減しま した。
  1022. もっと教えて!言語モデル駆動エージェント の暗黙的ユーザー意図理解に向けて Tell Me More! Towards Implicit User Intention Understanding

    of Language Model Driven Agents Cheng Qian and Bingxiang He and Zhuang Zhong and Jia Deng and Yujia Qin and Xin Cong and Zhong Zhang and Jie Zhou and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景 現在のエージェントは、ユーザーの曖昧な意図を正確に理 解する能力が不足しています。 目的 ユーザーとエージェントの相互作用を向上させることがこ の研究の目的です。 提案 **Intention-in-Interaction (IN3)**という新たなベンチマー クを提案します。 評価 IN3を用いた Mistral-Interactモデルの訓練・評価を行 いました。 結果 提案手法は、ユーザー意図の理解と効率の向上を示しまし た。
  1023. 意図駆動の大規模言語モデルエージェントに よるモバイル GUIテスト Intent-Driven Mobile GUI Testing with Autonomous Large

    Language Model Agents Juyeon Yoon and R. Feldt and Shin Yoo 背景 GUIテストはソフトウェアが期待通り動作するかを確認す るが、現在は手動の領域が多い。 目的 高レベルの意図駆動で自律的に GUIテストを行う手法の開 発を目指す。 提案 DroidAgentは、大規模言語モデルを使用して Androidア プリの GUIテストを自動化する。 評価 15のアプリを Themisベンチマークで試験し、自律性やタ スク達成度を評価。 結果 DroidAgentは 61%のアクティビティカバレッジを達成 し、多くの機能を深くカバー。
  1024. LLMを OS、エージェントをアプリとして考 察 : AIOS、エージェント、 AIOSエージェン トエコシステムの展望 LLM as OS,

    Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem Yingqiang Ge and Yujie Ren and Wenyue Hua and Shuyuan Xu and Juntao Tan and Yongfeng Zhang 背景 従来の OS-APPエコシステムの課題を解決するための革新 的エコシステムを模索。 目的 LLMを中心とした新たなコンピュータシステム設計を提 案すること。 提案 LLMを OS、エージェントをアプリとし、自然言語をプロ グラミングインターフェースとする。 評価 従来の OSと AIOSを比較し、エージェントプログラミング を自然言語で実現。 結果 AIOSとエージェントの進化に向けたロードマップを提案 し、研究を誘導する。
  1025. LLMシミュレーションにおける体系的な偏り Systematic Biases in LLM Simulations of Debates Amir Taubenfeld

    and Yaniv Dover and Roi Reichart and Ariel Goldstein 背景 LLMは人間行動の再現に期待されますが、複雑な学習方法 のため意外な動作を示します。 目的 研究は、 LLMと人間の行動の主な差異を特定することを目 的とします。 提案 LLMが政治的議論のシミュレーションで示す偏りの限界を 明らかにします。 評価 自動調整法を用いて、 LLM内の偏りを操作し観察しまし た。 結果 LLMは調整後の偏りと一致する行動パターンを示しまし た。
  1026. clembench: ゲームプレイを用いたチャッ ト最適化言語モデルの評価 clembench: Using Game Play to Evaluate Chat-Optimized

    Language Models as Conversational Agents Kranti Chalamalasetti and Jana Gotze and Sherzod Hakimov and Brielen Madureira and P. Sadler and David Schlangen 背景 リッチで複雑なコンテクストでの言語モデルの能力評価が 求められています。 目的 ゲーム設定で LLMがどの程度の能力を発揮できるかを評価 することです。 提案 特定の能力を試すために設計されたゲーム設定を用いて LLMを評価します。 評価 5つのゲームシナリオを用いて、最新 LLMの能力を実証実 験で検証します。 結果 新しいモデルほど高いゲーム達成率を示し、診断ツールと しての有効性を確認しました。
  1027. キャラクターは運命 : 大規模言語モデルはロ ールプレイで人格駆動の決定をシミュレート できるか Character is Destiny: Can Large

    Language Models Simulate Persona-Driven Decisions in Role-Playing? Rui Xu and Xintao Wang and Jiangjie Chen and Siyu Yuan and Xinfeng Yuan and Jiaqing Liang and Zulong Chen and Xiaoqing Dong and Yanghua Xiao 背景 LLMの能力はますます拡大しているが、人格理解に基づく 意思決定のシミュレーションは未踏の領域である。 目的 本研究は、小説キャラクターの人格に基づいた意思決定の 予測可能性を検証することを目的とする。 提案 提案手法である CHARMAPは、人格ベースのメモリ検索 を用いて正確度を向上させる。 評価 395冊から 1,401のキャラクター決定点を抽出した LIFECHOICEデータセットで評価を行った。 結果 最先端の LLMは有望な結果を示しつつも、さらに **6.01%**の精度向上が達成可能である。
  1028. STICKERCONV: マルチモーダル共感応答 の生成 STICKERCONV: Generating Multimodal Empathetic Responses from Scratch

    Yiqun Zhang and Fanheng Kong and Peidong Wang and Shuang Sun and Lingshuai Wang and Shi Feng and Daling Wang and Yifei Zhang and Kaisong Song 背景 ステッカーは共感的コミュニケーションを向上させます が、データセット不足で研究が遅れています。 目的 共感的対話を促進するために、ステッカーを活用してマル チモーダルデータセットを提供します。 提案 Agent4SCを用いて人間行動をシミュレートし、 PEGSフ レームワークで共感的応答を生成します。 評価 LLMベースの共感評価指標を使用し、 PEGSの効果を実験 で確認しました。 結果 PEGSは、文脈に応じた共感的応答生成に有効で、対話シ ステムの進化に貢献します。
  1029. 人間中心の生成 AIの次のステップ : 技術的視 点から Next Steps for Human-Centered Generative

    AI: A Technical Perspective Xiang 'Anthony' Chen and Jeff Burke and Ruofei Du and Matthew K. Hong and Jennifer Jacobs and Philippe Laban and Dingzeyu Li and Nanyun Peng and Karl D. D. Willis and Chien-Sheng Wu and Bolei Zhou 背景 技術の進化に伴い、人間の価値と整合した AIの必要性が高 まっています。 目的 生成 AIの未来を見据え、次のステップを具体化することが 目的です。 提案 人間中心の生成 AIとして、価値整合、意図組込、能力拡充 の 3レベルを提案します。 評価 学際的チームが興味を持つ一連の新しいアイデアを議論と 提案を通じて評価します。 結果 将来の研究に向けた一貫した全体像を描くための貢献を示 しています。
  1030. 孤立を超えて:マルチエージェントシナジー による知識グラフ構築の改善 Beyond Isolation: Multi-Agent Synergy for Improving Knowledge Graph

    Construction Hongbin Ye and Honghao Gui and Aijia Zhang and Tong Liu and Wei Hua and Weiqiang Jia 背景 知識グラフ構築は複雑で、エンティティ、関係、イベント の抽出が重要です。 目的 孤立した解決策を超えて、協調的なアプローチの有効性を 検証します。 提案 CooperKGCフレームワークにより、多様なエージェン トが協力して問題解決します。 評価 複数のエージェント間での協調と情報交換の効果を実験で 評価しました。 結果 CooperKGCは、知識の選択、修正、集約能力を向上さ せました。
  1031. AICoderEval: AI領域のコード生成改善のた めの大規模言語モデル AICoderEval: Improving AI Domain Code Generation of

    Large Language Models Yinghui Xia and Yuyan Chen and Tianyu Shi and Jun Wang and Jinsong Yang 背景 大規模言語モデルの現実的なコード生成能力の評価が困難 です。 目的 現実のタスクに即した高レベルのコード生成を向上させる ことです。 提案 AICoderEvalというデータセットと CoderGenフレーム ワークを提案します。 評価 実験で、ラマ -3をベースにした AICoderの性能をテスト しました。 結果 CoderGenと AICoderは他のモデルに比べて優れた性能 を示しました。
  1032. 生成的人工知能と人間の学習 Generative Artificial Intelligence and Human Learning Lixiang Yan and

    Samuel Greiff and Ziwen Teuber and Dragan Gaˇsevi´c 背景 生成的人工知能は学習プロセスを変革する可能性を持つ が、課題も存在する。 目的 GenAIを活用して人間の学習体験を向上させ、その影響 を評価することを目的とする。 提案 GenAIを統合して学習支援を強化し、個別化された教育 を提供する方法を提案する。 評価 学習文脈における GenAIの影響を評価するために、厳密な 研究が求められる。 結果 AIリテラシーを深め、知識と革新の追求における強力な味 方として活用することが重要。
  1033. SOTOPIA: 言語エージェントの社会的知能 に対するインタラクティブ評価 SOTOPIA: Interactive Evaluation for Social Intelligence in

    Language Agents Xuhui Zhou and Hao Zhu and Leena Mathur and Ruohong Zhang and Haofei Yu and Zhengyang Qi and Louis- Philippe Morency and Yonatan Bisk and Daniel Fried and Graham Neubig and Maarten Sap 背景 人間の社会的知能は日常の相互作用で重要ですが、 AIの能 力は未知です。 目的 AIの社会的知能を評価し改善するための枠組みを提供する ことです。 提案 人工エージェント間の社会的相互作用をシミュレートする SOTOPIAという環境を提案します。 評価 SOTOPIA-Evalを用いて、エージェントと人間との役割 プレイを評価しました。 結果 GPT-4は人間に比べて社会的知能が劣り、 SOTOPIA- hardで困難を示しました。
  1034. 協力の機械心理学 : 経済ゲームでの利他主 義、協力、競争、利己性のプロンプトを GPT モデルが動作可能にできるか ? The Machine Psychology

    of Cooperation: Can GPT models operationalise prompts for altruism, cooperation, competitiveness and selfishness in economic games? S. Phelps and Y. Russell 背景 GPT-3.5モデルを用いて、経済ゲームでの協力行動の理 解を深めることを背景とします。 目的 経済ゲームでの異なる行動スタンスの自然言語記述の実現 可能性を検証することです。 提案 自然言語での協力スタンスをプロンプトによって LLMで実 現可能にする方法を提案します。 評価 被験者内実験デザインを用い、プロンプト操作を通じて協 力レベルの評価を行いました。 結果 一回限りのゲームでの行動翻訳の実現性と繰り返しゲーム での条件付き互恵の証拠を確認しました。
  1035. モデルとブリキの男 - 大規模言語モデルを用 いた AI配置におけるプリンシパル・エージェ ント問題の行動経済学的研究 Of Models and Tin

    Men - a behavioural economics study of principal-agent problems in AI alignment using large-language models S. Phelps and Rebecca Ranson 背景 AIの安全性はしばしば設計者とエージェント間の誤った整 合性でリスクが生じます。 目的 大規模言語モデルの使用でのプリンシパル・エージェント 問題の本質を解明する。 提案 経済学の原則が AIモデルの安全性に重要と述べ、特に情報 非対称性を対象。 評価 GPTモデルを用いたエージェントのオンラインショッピン グタスクにおける応答を実証的に調査。 結果 GPT-3.5は柔軟だが、 GPT-4はより整合性を重んじる行動 を示します。
  1036. 対話型エージェント : LLM同士の対話による カウンセラー -クライアント心理カウンセリ ングのシミュレーション Interactive Agents: Simulating Counselor-Client

    Psychological Counseling via Role-Playing LLM-to-LLM Interactions Huachuan Qiu and Zhenzhong Lan 背景 LLMを用いた仮想カウンセラーは、メンタルヘルス支援 を効率的に提供する可能性を持つ。 目的 カウンセラー -クライアントの会話シミュレーションに LLMを適用する重要性を調査する。 提案 役割演技を用いて LLM同士がカウンセラーとクライアン トに成り代わるフレームワークを提案。 評価 ゼロショットプロンプトを使用し、 LLM生成と人間生成の 会話の違いを多角的に評価する。 結果 LLMベースのカウンセラーが、最先端モデルとの比較で効 果的であることを示した。
  1037. AgentAvatar: 計画 , 操作 , 描画の分離による 写実的アバターエージェント AgentAvatar: Disentangling Planning,

    Driving and Rendering for Photorealistic Avatar Agents Duomin Wang and Bin Dai and Yu Deng and Baoyuan Wang 背景 写実的なアバターエージェントの顔の動きの自動生成が難 しい課題であるため。 目的 インタラクティブなアバターのリアルな非言語コミュニケ ーション能力を向上すること。 提案 LLMとニューラルレンダリングを組み合わせ、詳細な顔 の動きを生成するフレームワークを提案。 評価 新・既存データセットで、モナディックとダイアディック 両方での実験を行い、有効性を検証。 結果 多様な非言語アバターインタラクションに適応できること を示し、その有効性を確認。
  1038. 仮想 AIキャラクターのための記憶 Memories for Virtual AI Characters Fabian Landwehr and

    E. Doggett and Romann M. Weber 背景 仮想キャラクターの一貫性と現実感が重要なため、記憶技 術が必要です。 目的 仮想 AIキャラクターが自己や環境、経験を記憶する能力を 提供します。 提案 長期記憶を持つ AIキャラクター用のメモリ作成パイプライ ンを提案します。 評価 GPT-4を用いたファクトチェックでキャラクター応答の事 実確認を行いました。 結果 キャラクター応答が事実に基づいており、興味深く一貫性 があります。
  1039. 強化学習を用いた大規模視覚言語モデルの意 思決定エージェントとしてのファインチュー ニング Fine-Tuning Large Vision-Language Models as Decision-Making Agents

    via Reinforcement Learning Yuexiang Zhai and Hao Bai and Zipeng Lin and Jiayi Pan and Shengbang Tong and Yifei Zhou and Alane Suhr and Saining Xie and Yann LeCun and Yi Ma and Sergey Levine 背景 大規模視覚言語モデルは優れた能力を有するが、対話環境 での最適意思決定が困難です。 目的 タスク指向のマルチステップでの意思決定エージェントを 効率的に学習することです。 提案 強化学習を用いて視覚言語モデルをファインチューニング する新しいフレームワークを提案します。 評価 提案したフレームワークを用い、 7bモデルが商用モデル を超えるか確認しました。 結果 思考の連鎖( CoT)推論が重要な要素であるとし、性能向 上を示しました。
  1040. 大規模言語モデルによる個別指導の強化 Empowering Private Tutoring by Chaining Large Language Models Yulin

    Chen and Ning Ding and Hai-Tao Zheng and Zhiyuan Liu and Maosong Sun and Bowen Zhou 背景 AIがオンライン教育に広く応用されており、完全な AI指導 システムの実現が求められている。 目的 インテリジェントな指導システムを構築し、教育の個別化 を推進する。 提案 大規模言語モデルを連鎖し、相互作用、反省、反応を組み 合わせたシステムを提案。 評価 学習ログを用いた統計的分析とユーザーからの主観的フィ ードバックで評価。 結果 システムの機能性と長期間の相互作用における効果が実証 された。
  1041. LLMによる投票 : 人間の選択と AIの集団意思 決定 LLM Voting: Human Choices and

    AI Collective Decision Making Joshua C. Yang and Marcin Korecki and Damian Dailisan and C. I. Hausladen and Dirk Helbing 背景 研究は LLMの投票行動を理解し、人間の意思決定との整合 性を探ることに焦点。 目的 LLMが人間の投票パターンとどのように一致するかを解 明することが目的。 提案 人格バリエーションで LLMのバイアスを減少させる手法を 提示。 評価 人間の投票データセットと LLMの実験を比較して分析。 結果 LLMは集団結果の多様性を低下させ、バイアスを生む可能 性を示した。
  1042. キャラクター中心の想像力による創造的スト ーリー生成 A Character-Centric Creative Story Generation via Imagination Kyeongman

    Park and Minbeom Kim and Kyomin Jung 背景 従来のストーリー生成は多様性とキャラクター深度で人間 に劣る。 目的 物語の多様性と深さを向上させる革新的手法の開発。 提案 IGと MWモジュールからなる CCIフレームワークの提案。 評価 統計分析と人間及び LLM評価による比較分析を実施。 結果 CCIのモジュールはストーリーの創造性を大幅に向上。
  1043. PersonaLLM: 大規模言語モデルの性格特性 表現の可能性調査 PersonaLLM: Investigating the Ability of Large Language

    Models to Express Personality Traits Hang Jiang and Xiajie Zhang and Xubo Cao and Cynthia Breazeal and Deb Roy and Jad Kabbara 背景 大規模言語モデルによる性格特性の正確な反映はまだ十分 に研究されていない。 目的 LLMが性格プロフィールに一致するコンテンツ生成能力を 調査する。 提案 LLMの行動が割り当てられた性格タイプに一致するかを評 価する。 評価 Big Fiveモデルとテストを用い、自動および人間による 評価を実施。 結果 LLMの性格特性スコアは一致し、人間も 80%の精度で認 識可能。
  1044. 自己進化する GPT: 生涯学習による自律的経 験学習者 Self-Evolving GPT: A Lifelong Autonomous Experiential

    Learner Jin-Fang Gao and Xiao Ding and Yiming Cui and Jianbai Zhao and Hepeng Wang and Ting Liu and Bing Qin 背景 LLMの需要増大に伴い、手動での経験適用は非現実的。 目的 人間の経験学習能力を LLMで模倣することの可否を検証。 提案 生涯自律経験学習フレームワークにより、経験の積極的学 習を提案。 評価 六つの NLPデータセットを使用し、プロセスごとの性能向 上を実証。 結果 フレームワークの各ステップで LLMの学習能力を効果的に 向上。
  1045. AIOS: LLMエージェントオペレーティング システム AIOS: LLM Agent Operating System Kai Mei

    and Zelong Li and Shuyuan Xu and Ruosong Ye and Yingqiang Ge and Yongfeng Zhang 背景 LLMベースのエージェントは、リソース管理やエージェ ント間のコンテキスト管理が困難。 目的 AIOSは、エージェントの効率向上と AGIへの一歩を目指 しています。 提案 AIOSは OSに LLMを組み込み、エージェント間のリソー ス割り当てを最適化します。 評価 実験では、複数エージェントの同時実行が AIOSの信頼性 と効率を示しました。 結果 AIOSは、 LLMエージェントの性能と効率性を大幅に向上 させました。
  1046. LLMを用いたシミュレーション : デジタルツ インのパラメータ化のための多エージェント システム LLM experiments with simulation: Large

    Language Model Multi-Agent System for Simulation Model Parametrization in Digital Twins Yuchen Xia and Daniel Dittler and N. Jazdi and Haonan Chen and M. Weyrich 背景 デジタルツインのシミュレーションは複雑であり、適切な パラメータ化が困難です。 目的 LLMを用いた自動パラメータ化で、効率とユーザビリテ ィを向上させます。 提案 LLMエージェントが観察や推論を通じて、シミュレーショ ンのパラメータ設定を自動化します。 評価 ケーススタディを使用して、システムの有効性を評価し、 結果を GitHubで公開しました。 結果 提案手法はユーザーの認知負荷を軽減し、デジタルツイン の利用を容易にします。
  1047. LEGO-Prover: 成長するライブラリを用い たニューラル定理証明 LEGO-Prover: Neural Theorem Proving with Growing Libraries

    Huajian Xin and Haiming Wang and Chuanyang Zheng and Lin Li and Zhengying Liu and Qingxing Cao and Yinya Huang and Jing Xiong and Han Shi and Enze Xie and Jian Yin and Zhenguo Li and Xiaodan Liang and 背景 定理証明は高度な推論が求められる難題です。 目的 新しい定理が不要な証明を進化させることが重要です。 提案 LEGO-Proverは成長するスキルライブラリで LLMsを強 化します。 評価 miniF2Fでのスキル生成により成功率を評価しました。 結果 成功率が 47.1%から 50.4%に改善されました。
  1048. 大規模言語モデルの間の一貫性を検証 : ディ ベートによる詳細分析 Examining Inter-Consistency of Large Language Models

    Collaboration: An In- depth Analysis via Debate Kai Xiong and Xiao Ding and Yixin Cao and Ting Liu and Bing Qin 背景 大規模言語モデルは一貫性問題に直面しており、協力によ る解決が求められる。 目的 複数の LLMsが協力して合意を形成できるかを探る。 提案 3段階のディベート **フレームワーク( FORD) **による協 力手法を提案。 評価 様々なデータセットでの実験により、 LLMs間の協力を検 証。 結果 LLMsは間の不一致があっても協力して合意形成が可能で あることが示された。
  1049. 対立的な AI Antagonistic AI Alice Cai and Ian Arawjo and

    Elena L. Glassman 背景 従来の AIは従順さが重視されていたが、これには限界があ る。 目的 ユーザーの前提を問い直し、境界を形成する可能性を探 る。 提案 失礼や対立を含む AIがもたらす利点を議論する。 評価 仮想ワークショップで形式的な AI技術を設計し、分析を行 った。 結果 対立的 AIのデザイン空間を築き、倫理的課題も明確化し た。
  1050. 協調的ムーンウォーカー Collaborative Moonwalkers Edward Chow and Thomas Lu and Kevin

    Payumo and Gautier Bardi de Fourou and Elliott Sadler and Neville Elieh Janvisloo and Jared Carrillo and Bingbing Li and Benjamin Hubler and Olin Littlejohn and Vanessa 背景 地球外探査は自律性と協調性が求められるため、効果的な ロボット協働技術が必要です。 目的 ムーンウォーカーローバーによる自律的で協調的な月探査 の実現を目指しています。 提案 生物学に着想を得た認知機能と動機付けを持つローバーの 開発を提案します。 評価 仮想シミュレーション環境での物理を考慮した機械学習の 評価を行いました。 結果 物理情報による学習で仮想月面環境の効果が向上すること を確認しました。
  1051. 協働型都市計画のための大規模言語モデル Large Language Model for Participatory Urban Planning Zhilun Zhou

    and Yuming Lin and Depeng Jin and Yong Li 背景 参加型都市計画は住民を巻き込むが、従来は時間とコスト が課題。 目的 計画の専門家なしで効率的な都市計画を目指す。 提案 LLMベースのマルチエージェントフレームワークで住民 の多様なニーズを反映。 評価 北京市内 2地域での実証実験で効果を評価。 結果 住民満足度向上とサービスアクセス性で専門家以上の成果 を確認。
  1052. AgentSquare: モジュラー設計空間におけ る自動 LLMエージェント探索 AgentSquare: Automatic LLM Agent Search in

    Modular Design Space Yu Shang and Yu Li and Keyu Zhao and Likai Ma and Jiahe Liu and Fengli Xu and Yong Li 背景 LLMの発展でエージェントシステムが成長中だが、新規タ スクへの適応性に限界。 目的 新しい LLMエージェントの適応性拡大を目指し、モジュー ル化が重要。 提案 AgentSquareはモジュール進化と再結合で効率的に LLM エージェントを探索。 評価 6つの分野でベンチマークテストし、性能予測器を用いた 評価で有効性を確認。 結果 AgentSquareは手作りエージェントを上回り、 17.2% の性能向上と解釈可能な設計洞察を提供。
  1053. 言語モデルのための合成データに関するベス トプラクティスと教訓 Best Practices and Lessons Learned on Synthetic Data

    for Language Models Ruibo Liu and Jerry Wei and Fangyu Liu and Chenglei Si and Yanzhe Zhang and Jinmeng Rao and Steven Zheng and Daiyi Peng and Diyi Yang and Denny Zhou and Andrew M. Dai 背景 AIの成功には、大規模で質の高いデータが必要だが、取得 は難しい。 目的 合成データがこの問題を解決し得ることを示す。 提案 合成データの効果と重要性を実証的に示した。 評価 過去の研究からの実証的証拠を用いて評価。 結果 合成データの責任ある使用が信頼性向上に重要。
  1054. 意識、数学、現実 : 統一的現象学 Consciousness, Mathematics and Reality: A Unified Phenomenology

    Igor Ševo 背景 異なる分野の根本的な質問は、統一的な解決策に収束する 可能性があります。 目的 意識の難しい問題に対して、簡潔な解決策を提案すること です。 提案 科学的証拠と哲学的文献を基にした統一的現象学モデルを 提案します。 評価 このモデルの検証には、科学証拠と哲学文献の包括的レビ ューを用いました。 結果 提案モデルは、 AI意識の性質に対する新たな見解を提供し ます。
  1055. 並列知能に向けて:複雑システムへの学際的 ソリューション Toward parallel intelligence: An interdisciplinary solution for complex

    systems Yong Zhao and Zhengqiu Zhu and Bin Chen and S. Qiu and Jin-Yu Huang and Xin Lu and Weiyi Yang and Chuan Ai and Kuihua Huang and Cheng He and Yucheng Jin and Zhong Liu and Fei-Yue Wang 背景 現実世界の複雑システムは、モデリングや管理において学 際的ソリューションの必要性を強めています。 目的 並列システム法で学際的なコミュニケーションと協力を促 進し、課題解決を目指す。 提案 ACPアプローチに基づく並列システム法を提案し、デー タ生成と知識取得を繰り返します。 評価 過去 20年の多様な学問分野からの知識と技術を用いてい ます。 結果 持続可能な開発を促進し、学際的協力の向上に寄与するこ とが示唆されました。
  1056. AIの意識の可能性:言語エージェントとグロ ーバルワークスペース理論 A Case for AI Consciousness: Language Agents and

    Global Workspace Theory Simon Goldstein and Cameron Domenico Kirk-Giannini 背景 人工意識の実現は大きな技術進歩が必要と考えられてい る。 目的 GWTが正しければ人工言語エージェントは容易に意識を 持ち得る。 提案 グローバルワークスペース理論を人工システムに適用する 手法を提示。 評価 必要かつ十分な条件を示す方法論を構築し検証を行った。 結果 人工システムの現象学的意識に対する示唆を与えた。
  1057. RL-GPT: 強化学習とコード -as-policyの統 合 RL-GPT: Integrating Reinforcement Learning and Code-as-policy

    Shaoteng Liu and Haoqi Yuan and Minda Hu and Yanwei Li and Yukang Chen and Shu Liu and Zongqing Lu and Jiaya Jia 背景 大規模言語モデルは複雑なロジックの処理において制限が あるため、改良が求められている。 目的 本研究は、 RLとコード化を組み合わせた新たな手法によ り、より効率的な制御を目指す。 提案 RL-GPTは階層型フレームワークを用いてスローエージェ ントとファストエージェントが特定のタスクに集中する。 評価 研究では、 Minecraftゲーム内での効率と SOTAの達成によ り提案手法の有効性を検証した。 結果 RL-GPTは伝統的な RLや GPTエージェントを上回り、 1日 で Minecraftでのダイヤ取得を達成した。
  1058. 大規模言語モデルのための経済学アリーナ Economics Arena for Large Language Models Shangmin Guo and

    Haoran Bu and Haochuan Wang and Yi Ren and Dianbo Sui and Yuming Shang and Siting Lu 背景 大規模言語モデルは一般的なエージェントとして広く使用 され、経済ゲームでの応用が重要視されています。 目的 静的ベンチマークの限界を克服し、 LLMsの合理性を動的 環境で評価することを目指しています。 提案 競争ゲームを利用した LLMsの新たな評価方法を提案し、 動的な評価環境を提供します。 評価 異なるゲーム履歴を基に、戦略的推論能力と合理性を LLMsで評価します。 結果 GPT-4は NE戦略に速く収束し、他のモデルに比べてより 高い合理性を示しました。
  1059. プロンプト戦略を通じた多領域レビュー感情 分析の強化 Enhance Multi-Domain Sentiment Analysis of Review Texts Through

    Prompting Strategies Yajing Wang and Zongwei Luo 背景 LLMの性能を特定タスクでさらに向上させる方法が求め られています。 目的 感情分析での LLM性能向上をプロンプト戦略で達成するこ とが重要です。 提案 RPと CoTプロンプト戦略を組み合わせた RP-CoT戦略を提 案します。 評価 3つの異なるドメインデータセットで比較実験を行いまし た。 結果 RP-CoT戦略が最も高い性能を示し、分析精度を向上させ ました。
  1060. ただの新奇性ではない : AIワークフローの有 用性とカスタマイズに関する縦断研究 Not Just Novelty: A Longitudinal Study

    on Utility and Customization of an AI Workflow Tao Long and Katy Ilonka Gero and Lydia B. Chilton 背景 生成的 AIが日常作業での有用性を持続するかの正確な理解 が重要です。 目的 生成的 AIワークフローの有用性とカスタマイズの実際を解 明することが目的です。 提案 生成的 AIによるワークフローのカスタマイズがユーザーの 有用性評価を高める可能性を主張します。 評価 12人のユーザーと 3週間の縦断研究で慣れとカスタマイズ の過程を観察しました。 結果 ユーザーがワークフローをカスタマイズすることで有用性 が増し、適応性が向上します。
  1061. AI NPC向け MemoryRepository MemoryRepository for AI NPC Shijie Zheng and

    Keith He and Le Yang and Jie Xiong 背景 LLMはゲーム分野でインテリジェントな NPCを実現する が、長期記憶が課題。 目的 AI NPCにおける人間らしい長期記憶の実現が目的。 提案 MemoryRepositoryは人間の記憶に触発された NPC用 記憶メカニズム。 評価 NPCの対話データを検証指標で定量分析し、有効性を実 証。 結果 MemoryRepositoryを装備した NPCは長期対話と人間らし い会話が可能。
  1062. 大規模言語モデルを用いたマルチエージェン トシステムにおける規範違反検出 : パイロッ トスタディ Norm Violation Detection in Multi-Agent

    Systems using Large Language Models: A Pilot Study Shawn He and Surangika Ranathunga and Stephen Cranefield and B. Savarimuthu 背景 規範は社会で期待される行動を規定し、重要な役割を果た します。 目的 大規模言語モデルを用いて規範違反を発見する能力を検討 します。 提案 家庭 contextのストーリーで、規範の違反を LLMで検出す る手法を提案します。 評価 80のストーリーの違反を、 3人の人間評価者の結果と LLM の結果を比較しました。 結果 ChatGPT-4は違反検出において有望で、改良点も示され ました。
  1063. 大規模言語モデルの相互一貫性の検討 : ディ ベートによる詳細分析 Examining the Inter-Consistency of Large Language

    Models: An In-depth Analysis via Debate Kai Xiong and Xiao Ding and Yixin Cao and Ting Liu and Bing Qin 背景 大規模言語モデルは多様なアプリケーションで活躍する が、相互一貫性の問題がある。 目的 研究の目的は、複数の LLM間の相互一貫性を高めること にある。 提案 **フォーマルディベートフレームワーク( FORD) **を用 い、 LLMの対話を分析する手法を提案。 評価 常識推論タスクで 3段階のディベートを通じて実験し、 LLMの性能を評価。 結果 研究は LLMの相互一貫性向上と高い性能の達成を示した。
  1064. AgentScope: 柔軟で堅牢なマルチエージェ ントプラットフォーム AgentScope: A Flexible yet Robust Multi-Agent Platform

    Dawei Gao and Zitao Li and Weirui Kuang and Xuchen Pan and Daoyuan Chen and Zhijian Ma and Bingchen Qian and Liuyi Yao and Lin Zhu and Chen Cheng and Hongzhu Shi and Yaliang Li and Bolin Ding and Jingren 背景 大規模言語モデルの進化とエージェント協調の複雑さが重 要な課題です。 目的 堅牢で効率的なマルチエージェントアプリケーションの開 発を目指しています。 提案 AgentScopeはメッセージ交換を中心とした柔軟な開発者 向けプラットフォームです。 評価 アクターベース分散フレームワークで自動並列化を容易に します。 結果 AgentScopeは開発者に高度なエージェント構築を可能に しました。
  1065. 大規模言語モデルのための高忠実度人間表現 High-fidelity Human Representation for Large Language Models Brian Xu

    and Henry Weng 背景 テキストデータからの人間の文脈情報取得が重要であるこ と。 目的 ジャーナルの整理と検索で効率的に文脈を提供する方法の 開発。 提案 ユーザークエリと合成生成された逸話を対象に埋め込み検 索を実施。 評価 ナイーブ RAGと比較し、新しい検索メカニズムを評価。 結果 新たな手法がナイーブ RAGを有意に上回ったと示す成果。
  1066. AgentLite: タスク指向の LLMエージェント システムを構築・発展させる軽量ライブラリ AgentLite: A Lightweight Library for Building

    and Advancing Task-Oriented LLM Agent System Zhiwei Liu and Weiran Yao and Jianguo Zhang and Liangwei Yang and Zuxin Liu and Juntao Tan and Prafulla Kumar Choubey and Tian Lan and Jason Wu and Huan Wang and Shelby Heinecke and Caiming Xiong and 背景 LLMエージェントの発展が急速で、複雑な推論と構造が 求められています。 目的 新しい推論戦略とエージェント構築の複雑さを軽減するこ とが目的です。 提案 AgentLiteという軽量でユーザーフレンドリーなライブ ラリを提案します。 評価 AgentLiteを使用して実用的なアプリケーションを開発 し、その利便性を実証しました。 結果 AgentLiteは多エージェントシステムの開発を容易にする ことが確認されました。
  1067. 大規模言語モデルによる認知アーキテクチャ の拡張 Augmenting Cognitive Architectures with Large Language Models Himanshu

    Joshi and Volkan Ustun 背景 認知アーキテクチャと生成モデルの融合が、 AIの可能性を 拡張する重要な課題です。 目的 AI技術の限界を打破するために、認知アーキテクチャと大 規模言語モデルを統合します。 提案 Soarと Sigmaを用いて、生成モデルを統合する方法を提 案します。 評価 提案された融合モデルの利点や改善点を既存アーキテクチ ャと比較して分析します。 結果 融合によって、認知能力が向上し、さらなる拡張が必要で す。
  1068. LLMベースのマルチエージェントシステムに 関する調査:ワークフロー、インフラ、課題 A survey on LLM-based multi-agent systems: workflow, infrastructure,

    and challenges Xinyi Li and Sai Wang and Siqi Zeng and Yu Wu and Yi Yang 背景 人々の長年の試みとして、より知的で信頼される自律シス テムの追求がある。 目的 LLMを活用した MASが高度 AIの実現に向けた有望な手法 であることを示す。 提案 LLMベースの MASをプロファイルや進化など 5つの構成で 体系的にレビューする。 評価 MASの主要コンポーネントを分析し、問題解決と世界シ ミュレーションへの応用を示す。 結果 LLMベースの MASの課題を明示し、将来の方向性につい て洞察を提供。
  1069. BattleAgent: 歴史的戦闘の分析を補完する 多モーダル動的エミュレーション BattleAgent: Multi-modal Dynamic Emulation on Historical Battles

    to Complement Historical Analysis Shuhang Lin and Wenyue Hua and Lingyao Li and Che-Jui Chang and Lizhou Fan and Jianchao Ji and Hang Hua and Mingyu Jin and Jiebo Luo and Yongfeng Zhang 背景 歴史的分析は意思決定者の視点が強調され、一般の経験が 見落とされがちです。 目的 歴史的イベントの個人視点を再現し、理解を深めることが 目的です。 提案 BattleAgentは、大規模ビジョン -言語モデルを活用して戦 闘の動的相互作用を模倣します。 評価 エージェント間での細かい多モーダル相互作用に基づき再 現性を確認しました。 結果 個人の視点を生き生きと再現し、歴史的理解の深化を実証 しました。
  1070. 規範モジュール : 協力を支援する規範学習用 ジェネレーティブエージェントアーキテクチ ャ Normative Modules: A Generative Agent

    Architecture for Learning Norms that Supports Multi-Agent Cooperation Atrisha Sarkar and Andrei Ioan Muresanu and Carter Blair and Aaryam Sharma and Rakshit S Trivedi and Gillian K Hadfield 背景 既存の規範を持つ環境でエージェント間の協力促進は困難 です。 目的 エージェントが規範に適応し、協力を向上させることを目 指します。 提案 エージェントが規範インフラに適応する「規範モジュー ル」を提案。 評価 エージェントの権威ある機関の識別能力を新環境で評価し ました。 結果 提案手法でエージェントは安定した協力を達成可能です。
  1071. テキストから生命へ : 人工生命と大規模言語 モデルの相互関係について From Text to Life: On the

    Reciprocal Relationship between Artificial Life and Large Language Models Eleni Nisioti and Claire Glanois and Elias Najarro and Andrew Dai and Elliot Meyerson and J. Pedersen and Laetitia Teodorescu and Conor F. Hayes and Shyam Sudhakaran and Sebastian Risi 背景 LLMsは AIで注目されていますが、 ALifeでの応用は限定 的です。 目的 本研究は LLMsと ALifeの間のシナジーを追求します。 提案 LLMsが進化計算や環境生成に役立つと提案します。 評価 ALifeの原理が LLMsの開発に与える影響を分析しまし た。 結果 LLMsが生命的知能の認識を再定義する可能性を示唆しま す。
  1072. LLMのための複数エージェント議論戦略を導 入するべきか? Should we be going MAD? A Look at

    Multi-Agent Debate Strategies for LLMs Andries P. Smit and Paul Duckworth and Nathan Grinsztajn and Kale-ab Tessera and Thomas D. Barrett and Arnu Pretorius 背景 LLMが正確な回答を生成するのは難しく、信頼性向上が 必要です。 目的 複数エージェント議論で LLMの真実性を向上させることを 目指します。 提案 MADプロトコルは最適化が難しいが、パフォーマンス向 上の可能性があります。 評価 議論とプロンプト戦略のベンチマークを通じて、コストと 精度を分析しました。 結果 MADシステムのハイパーパラメータ調整で他戦略以上の 性能が得られました。
  1073. 大規模言語モデルを用いた生物医学概念リン クの検討 Exploring the In-context Learning Ability of Large Language

    Model for Biomedical Concept Linking Qinyong Wang and Zhenxiang Gao and Rong Xu 背景 生物医学で概念リンクは文献マイニングや情報検索で重要 です。 目的 大規模言語モデルの ICL能力を活用し、生物医学概念リン クの効果を検証します。 提案 二段階のリトリーブ・アンド・ランク手法を提案し、候補 を再ランクする方法です。 評価 BC5CDRデータセットで 90%以上の正確性を達成する実 験を行いました。 結果 20ポイント以上の F1スコア向上を示し、大規模モデルの 潜在的利点を明示しました。
  1074. JARVIS-1: メモリ拡張マルチモーダル言語 モデルを用いたオープンワールドマルチタス クエージェント JARVIS-1: Open-World Multi-task Agents with Memory-Augmented

    Multimodal Language Models Zihao Wang and Shaofei Cai and Anji Liu and Yonggang Jin and Jinbing Hou and Bowei Zhang and Haowei Lin and Zhaofeng He and Zilong Zheng and Yaodong Yang and Xiaojian Ma and Yitao Liang 背景 人間のような計画と制御をオープンワールドで実現するこ とが重要です。 目的 無限に増えるタスクにも対応可能な万能エージェントの実 現を目指します。 提案 JARVIS-1はマルチモーダル入力を使って計画生成と制御 を実行します。 評価 Minecraft内で 200以上のタスクに対して実験し、パフォ ーマンスを評価しました。 結果 長期タスクにおいて JARVIS-1は最先端エージェントを信 頼性で 5倍上回りました。
  1075. AQA-Bench: 大規模言語モデルの順序推論 能力を評価するインタラクティブベンチマー ク AQA-Bench: An Interactive Benchmark for Evaluating

    LLMs' Sequential Reasoning Ability Siwei Yang and Bingchen Zhao and Cihang Xie 背景 順序推論能力が大規模言語モデルの性能において重要で す。 目的 LLMsの順序推論能力の評価方法を確立することが目的で す。 提案 AQA-Benchは LLMsの順序推論を評価するためのインタ ラクティブベンチマークです。 評価 3つのアルゴリズムを用いて 12の LLMの能力を比較評価し ました。 結果 クローズドソースは特に順序推論能力が優れていると判明 しました。
  1076. エージェントが OKRと出会う:階層的自己協 調と自己評価によるオブジェクトとキーリザ ルト駆動エージェントシステム Agents meet OKR: An Object and

    Key Results Driven Agent System with Hierarchical Self-Collaboration and Self-Evaluation Yi Zheng and Chongyang Ma and Kanle Shi and Haibin Huang 背景 **大規模言語モデル( LLM) **は、深い領域知識と複雑な 推論を要するタスク解決に挑んでいます。 目的 本研究は、 OKR-Agentシステムを用いて LLMのタスク解 決性能を向上させることを目的としています。 提案 本研究は、階層的エージェントと OKR生成を組み合わせ た新たなタスク解決フレームワークを提案します。 評価 関連するすべてのエージェントからのフィードバックを利 用したマルチレベル評価で仮説を検証しました。 結果 実験結果は、我々の方法が複数のタスクで既存手法より優 れていることを示しました。
  1077. 放射線レポート簡略化における ChatGPTの 自己修正の二重人間評価 Two-Pronged Human Evaluation of ChatGPT Self-Correction in

    Radiology Report Simplification Ziyu Yang and Santhosh Cherian and Slobodan Vucetic 背景 放射線レポートは専門的で、患者に理解しやすい簡易化が 求められています。 目的 本研究は、大規模言語モデルを使用した報告の自動簡易化 を検討します。 提案 自己修正と思考の連鎖メカニズムの有用性を評価します。 評価 放射線科医と一般人を用いた二重の評価プロトコルを提案 しました。 結果 自己修正プロンプトは高品質な簡易化に効果的と示されま した。
  1078. LLMベースのエージェント社会調査: Avalonプレイにおける協力と対立 LLM-Based Agent Society Investigation: Collaboration and Confrontation in

    Avalon Gameplay Yihuai Lan and Zhiqiang Hu and Lei Wang and Yang Wang and De-Yong Ye and Peilin Zhao and Ee-Peng Lim and Hui Xiong and Hao Wang 背景 LLMエージェントの社会行動の理解が未解決の課題であ り、ゲームを通じた研究が不足しています。 目的 Avalonでのプレイを通じて、 LLMエージェントの協力と対 立行動を分析します。 提案 Avalonに特化した新たなマルチエージェントフレームワー クを提案します。 評価 ゲーム成功を基にしたパフォーマンス評価と社会的行動の 分析を行います。 結果 適応エージェントの作成が成功し、 LLMエージェントの可 能性が示唆されました。
  1079. 小型 LLMはツール学習が苦手 : マルチ LLMエ ージェント Small LLMs Are Weak

    Tool Learners: A Multi-LLM Agent Weizhou Shen and Chenliang Li and Hongzhan Chen and Ming Yan and Xiaojun Quan and Hehong Chen and Ji Zhang and Fei Huang 背景 LLMは実世界の課題解決でのツール利用が不可欠だが、小 型 LLMの性能限界が問題。 目的 小型 LLM の性能限界を克服し、様々なタスクを効率的に 処理するための解決策を提供。 提案 LLM の能力を分解し、プランナー、コーラー、サマライ ザーとして特化させるモジュラー フレームワークを導入。 評価 複数のツール使用ベンチマークで、提案フレームワークが 従来の単一 LLMアプローチを上回ることを示す。 結果 提案手法はツール学習における小型 LLMの有効性を高める ことを示し、利点を強調した。
  1080. AIのための CERN: 自律的なシミュレーショ ンベースの AIテストと整合性の理論的枠組み CERN for AI: a theoretical

    framework for autonomous simulation-based artificial intelligence testing and alignment Ljubiša Bojić and Matteo Cinelli and D. Ćulibrk and Boris Delibasic 背景 LLMの発展と応用により、倫理的整合性や制御可能性が 重要な課題に。 目的 複雑な社会構造をシミュレートし、 AIの人間整合性と社会 的責任を向上。 提案 仮想現実内のシミュレーションで自律的 AIを検証するマル チエージェントシステムを提案。 評価 各種理論を適用し、デジタル環境での AIの相互作用と決定 を評価。 結果 社会的、倫理的次元の統合が AIの開発と改良に役立つ可能 性を示す。
  1081. ブロックチェーンを活用したファウンデーシ ョンモデルシステムにおける分散型ガバナン ス駆動型アーキテクチャ設計 Decentralised Governance-Driven Architecture for Designing Foundation Model

    based Systems: Exploring the Role of Blockchain in Responsible AI Yue Liu and Qinghua Lu and Liming Zhu and Hye-young Paik 背景 ファウンデーションモデルは多様なタスクを実行可能です が、そのガバナンスが信頼性確保に必要です。 目的 信頼できる AIシステムのガバナンス課題を解決するため に、ブロックチェーンの役割を探究します。 提案 ブロックチェーンを用いた分散型ガバナンスアーキテクチ ャを提案し、信頼性向上を図ります。 評価 分散台帳としてのブロックチェーン活用をガバナンス面で 評価しました。 結果 ブロックチェーンによりファウンデーションモデルのガバ ナンス改善可能性を示しました。
  1082. 大規模マルチプレイヤーゲームにおける人 間 -AIアライメントの実現に向けて Toward Human-AI Alignment in Large-Scale Multi-Player Games

    Sugandha Sharma and Guy Davidson and Khimya Khetarpal and A. Kanervisto and Udit Arora and Katja Hofmann and I. Momennejad 背景 人間 -AIアライメントは AIがゲーム体験を向上させるため に重要です。 目的 初期ポリシーではなく高次の行動タスクに焦点を当て、 AI の解釈可能性を評価します。 提案 タスクセットフレームワークを用いて、人間と AIの行動を マニフォールド上で分析します。 評価 Xboxの Bleeding Edgeでの広範な人間のゲームプレイデ ータを分析し、 AIの行動と比較します。 結果 AIと人間のプレイスタイルの違いを明確にし、 AI設計の改 善を促します。