Generative Agentsを引用している研究まとめ

インメモリー学習 : 大規模言語モデルのための宣言型学習フレームワーク In-Memory Learning: A Declarative Learning Framework
for Large Language Models Bo Wang and Tianxiang Sun and Hang Yan and Siyin Wang and Qingyuan Cheng and Xipeng Qiu 背景エージェントが人間のラベル付けなしに環境と整合できるかを探る。目的過去の経験からの洞察に基づき、エージェントのパフォーマンス向上を目指す。提案インメモリー学習を通じて、宣言的記憶が過去の経験を要約する。評価体系的な実験でフレームワークの効果を評価する。結果フレームワークの有効性を実証し、問題への新たな洞察を提供。

Midjourney人工知能生成コンテンツツールをデザインシステムに統合し、デザイナーを未来志向のイノベーションに導く探索 The Exploration of Integrating the Midjourney Artificial
Intelligence Generated Content Tool into Design Systems to Direct Designers towards Future-Oriented Hu Yin and Zipeng Zhang and Yuanyuan Liu 背景コンピュータ能力の急速な拡大により、 AIGC技術がデザインの未来に重大な影響を与える。目的デザイナーが AIGCを活用し、未来志向のイノベーションを推進する方法を模索する。提案 Midjourneyツールをデザインシステムに統合し、 AMP カードで協働的イノベーションを支援。評価プロトタイプ設計研究や学際セミナーを通じて、 Midjourneyの有用性を徹底検証。結果 AIGC技術は製品開発の効率を向上し、異なるデザインソリューションを素早く生成する。

エージェント : 自律型言語エージェントのためのオープンソースフレームワーク Agents: An Open-source Framework for Autonomous
Language Agents Wangchunshu Zhou and Yuchen Jiang and Long Li and Jialong Wu and Tiannan Wang and Shi Qiu and Jintian Zhang and Jing Chen and Ruipu Wu and Shuai Wang and Shiding Zhu and Jiyu Chen and Wentao Zhang and 背景 LLMsの進展で自律型言語エージェントの構築が可能になっています。目的非専門家にも自律型言語エージェントの技術を広めることが目的です。提案オープンソースの Agentsライブラリを公開し、利用しやすくします。評価モジュール化設計により研究者が拡張可能かつ非専門家にも手軽に利用可能です。結果 Agentsは研究者や非専門家にとって有用なツールとなります。

PLAYER*: LLMベースのマルチエージェント通信と殺人ミステリーゲームの強化 PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction
in Murder Mystery Games Qinglin Zhu and Runcong Zhao and Jinhua Du and Lin Gui and Yulan He 背景 LLMに基づくエージェントは、動的環境で複雑な質問や人間関係の理解が難しいです。目的 PLAYER*は、殺人ミステリーゲーム内でのエージェントの適応性を向上させることを目的とします。提案 PLAYER*は、センサーを導入し、質問駆動型で経路計画を強化する新手法です。評価選択肢問題を用いた定量評価方法と WellPlayデータセットで実験しました。結果 PLAYER*は、既存手法に比べ優れたマルチエージェント相互作用を示しました。

LLMはヒトのメンタル・アカウンティングや行動バイアスを模倣できるか？ Can LLMs Mimic Human-Like Mental Accounting and Behavioral
Biases? Yan Leng 背景メンタル・アカウンティングは、重要な意思決定バイアスとして研究されている。目的 LLMがヒトの意思決定バイアスを模倣できるかを明らかにする。提案 LLMが模倣する行動バイアスの違いを言語別に分析。評価プロスペクト理論を用いて LLMのメンタル・アカウンティングを実験的に評価。結果 LLMは一部のバイアスを模倣するが、顕著な違いがある。

強化型自律エージェントにおける欺瞞 Deception in Reinforced Autonomous Agents Atharvan Dogra and Krishna
Pillutla and A. Deshpande and Ananya B. Sai and John Nay and Tanmay Rajpurohit and A. Kalyan and Balaraman Ravindran 背景大規模言語モデルの潜在的な欺瞞の能力を探ることが重要です。目的他のエージェントを誤導する能力の解明が目的です。提案立法環境を模したテスト環境を構築しました。評価 LLMロビイストと批評家の対話を用いた評価を実施しました。結果単純な強化で欺瞞率を最大 40ポイント向上できました。

Steve-Eye: LLMベースの具現化エージェントに視覚認識を装備したオープンワールド対応 Steve-Eye: Equipping LLM-based Embodied Agents with
Visual Perception in Open Worlds Sipeng Zheng and Jiazheng Liu and Yicheng Feng and Zongqing Lu 背景 LLMは具現化エージェントに自己駆動の能力をもたらすが、視覚を無視している。目的オープンワールドにおけるエージェントの視覚的認識を向上させること。提案エンドツーエンドで訓練された Steve-Eyeがマルチモーダル知覚能力を提供。評価三つの評価ベンチマークを開発し、広範な実験でモデルを検証。結果エージェントの戦略的行動と計画の能力を確認し、コードを公開予定。

ALYMPICS: LLMエージェントとゲーム理論の出会い - AIエージェントを用いた戦略的意思決定の探究 ALYMPICS: LLM Agents Meet
Game Theory -- Exploring Strategic Decision- Making with AI Agents Shaoguang Mao and Yuzhe Cai and Yan Xia and Wenshan Wu and Xun Wang and Fengyi Wang and Tao Ge and Furu Wei 背景ゲーム理論と LLMエージェントの統合が、人間の戦略的意思決定の理解を深めます。目的 Alympicsを用いて、 LLMエージェントの人間模倣能力を探り、ゲーム理論の理解を進化させること。提案 LLMエージェントを活用し、人間のような戦略的相互作用をシミュレートする新たなプラットフォームを提供。評価水資源配分チャレンジを通じた質的・量的分析に加え、人間評価と戦略的意思決定の詳細な評価を実施。結果 LLMエージェントが人間の戦略的行動を模倣する能力と、ゲーム理論改善の可能性を示す。

科学と幻想的な：拡張現実と大規模言語モデルで没入的かつ文化的に関連性のある学習体験を創造 Scientific and Fantastical: Creating Immersive, Culturally Relevant
Learning Experiences with Augmented Reality and Large Language Models Alan Y. Cheng and Meng Guo and Melissa Ran and Arpit Ranasaria and Arjun Sharma and Anthony Xie and Khuyen N. Le and Bala Vinaithirthan and Shihe (Tracy) Luan and David Thomas Henry Wright and Andrea 背景教育における子供の学習意欲向上が大きな課題として存在します。目的本研究は ARと LLMによって子供の学習意欲を高めることを目指します。提案 ARと LLMを組み合わせた Moon Storyで学習の没入体験を提供します。評価 50名の被験者で LLM使用条件とハードコード条件の制御実験を実施しました。結果両条件で学習効果があり、特に LLMで関連性の高い回答が得られました。

IDAT: インタラクティブなタスク解決エージェントのためのマルチモーダルデータセットとツールキット IDAT: A Multi-Modal Dataset and Toolkit
for Building and Evaluating Interactive Task-Solving Agents Shrestha Mohanty and Negar Arabzadeh and Andrea Tupini and Yuxuan Sun and Alexey Skrynnik and Artem Zholus and Marc-Alexandre Cot'e and Julia Kiseleva 背景 AIエージェントと人が自然言語でシームレスに相互作用することが重要です。目的インタラクティブエージェントが自然言語指示を理解し実行する問題の解決を目指します。提案 Minecraft風環境でのデータ集めと人間参加型評価プラットフォームを提案します。評価エージェントのパフォーマンスを人間のアノテーターとの多回線対話で比較評価しました。結果 IDATはインテリジェントなエージェント開発を進める重要なリソースとなることを示します。

LLMは砂漠で生き残れるか？生成エージェントのコラボ能力の評価 Can LLMs Survive in the Desert? Evaluating Collaborative
Capabilities of Generative Agents on a Classic Team-Building Problem Stanford CS224N and Custom Project and Yash Narayan and Daniel Shen and Ethan Zhang 背景 LLMエージェントがチームとして活動できれば、より優れた意思決定が可能になります。目的コンピュータ同士の協力行動を探求し、パフォーマンス向上の可能性を調査します。提案四つのエージェント間の協力方法と二つのアーキテクチャを提案・実験します。評価デザートサバイバル問題を用いて、各方法の実験的評価を行いました。結果適切な協力条件下で、エージェントは個々よりも優れた決定に達しました。

メモリサンドボックス : 会話エージェントの透明かつ対話的なメモリ管理 Memory Sandbox: Transparent and Interactive Memory
Management for Conversational Agents Ziheng Huang and S. Gutierrez and Hemanth Kamana and S. Macneil 背景大規模言語モデルは高性能な会話エージェントを生んだが、メモリ制約が課題である。目的ユーザーがエージェントの会話メモリを容易に理解し制御する手段を提供する。提案 Memory Sandboxはユーザーがエージェントのメモリをデータとして管理可能にするシステムである。評価システムがユーザーのメモリ管理能力を向上させるか、インタラクションの評価を行った。結果 Memory Sandbox導入により、ユーザーはエージェントの記憶を効果的に制御できることが示された。

AI生成テキスト鑑識システムの調査 : 検出、帰属、特性化 A Survey of AI-generated Text Forensic
Systems: Detection, Attribution, and Characterization Tharindu Kumarage and Garima Agrawal and Paras Sheth and Raha Moraffah and Amanat Chadha and Joshua Garland and Huan Liu 背景 **大規模言語モデル（ LLM） **が誤情報生成などのリスクを増大させています。目的 LLMの誤用防止を目的とした AI生成テキスト鑑識の調査です。提案検出、帰属、特性化の三つの柱で AIテキストを分析します。評価既存の AIテキスト鑑識システムの分類とリソース検討を行います。結果 AI時代における鑑識システムの新たな挑戦と方向性を示唆します。

人口統計を超えて : 役割演技を行う LLMエージェントの整合性を人間の信念ネットワークで調整 Beyond Demographics: Aligning Role-playing
LLM-based Agents Using Human Belief Networks Yun-Shiuan Chuang and Zach Studdiford and Krirk Nirunwiroj and Agam Goyal and Vincent V. Frigo and Sijia Yang and Dhavan Shah and Junjie Hu and Timothy T. Rogers 背景人間らしい LLMを作ることは社会シミュレーションの忠実度向上に不可欠です。目的人口統計情報ではなく、信念ネットワークを用いた整合性向上を目指します。提案信念ネットワークから得た情報で LLMエージェントの意見生成を改善します。評価人間の調査データを基にした信念ネットワークを利用して意見の一致を評価しました。結果信念ネットワークは関連トピックでの意見の整合性改善に効果を示しました。

単純さの表面を打破する : 地元企業家と共に初歩的な生成 AIワークショップを共創 Deconstructing the Veneer of Simplicity:
Co-Designing Introductory Generative AI Workshops with Local Entrepreneurs Yasmine Kotturi and Angel Anderson and Glenn Ford and Michael Skirpan and Jeffrey P. Bigham 背景生成 AIが仕事に浸透する中、企業家が技術格差を埋める必要性が高まっている。目的限られた資源環境における企業家の生成 AIの効果的利用を支援する。提案地元企業家が生成 AIを活用するためのインタラクティブワークショップを共創した。評価 5ヶ月間にわたり 4回のワークショップと 15名の地元企業家とのインタビューを実施した。結果生成 AIツールへの共同露出が有用で、運用スキルが使用成功に重要と示した。

SUPER: 研究リポジトリからのタスクの設定と実行におけるエージェントの評価 SUPER: Evaluating Agents on Setting Up and
Executing Tasks from Research Repositories Ben Bogin and Kejuan Yang and Shashank Gupta and Kyle Richardson and Erin Bransom and Peter Clark and Ashish Sabharwal and Tushar Khot 背景 LLMはコード作成能力が向上しましたが、結果再現の自律性は未知数です。目的 SUPERは、研究リポジトリのタスクを自動で再現する能力を評価します。提案初のベンチマーク SUPERを提案し、研究リポジトリの問題設定と実行を評価します。評価 45のエンド・ツー・エンド問題と 152のサブ問題、 602の自動生成問題が含まれます。結果最先端モデルは多数の問題に苦戦しており、 SUPERの価値を示しています。

PedSUMO: SUMOを用いた自動車 -歩行者相互作用のシミュレーション PedSUMO: Simulacra of Automated Vehicle-Pedestrian Interaction
Using SUMO To Study Large-Scale Effects Mark Colley and Julian Czymmeck and Mustafa Kücükkocak and Pascal Jansen and Enrico Rukzio 背景自動運転車が普及しているが、外部コミュニケーション方法はシンプルなシナリオでしか評価されていない。目的自動運転車と歩行者の相互作用の大規模な影響を研究すること。提案 PedSUMOを開発し、歩行者の属性が自動車優先に与える影響をシミュレートした。評価イングルシュタットでの初期データ収集と分析を行い、アルゴリズムとパラメータを説明。結果外部コミュニケーションが公共交通に与える影響についての初期データを得た。

大規模言語モデルにおまかせ！記憶統合による修正と計画 Leave It to Large Language Models! Correction and
Planning with Memory Integration Yuan Zhang and Chao Wang and Juntong Qi and Yan Peng 背景 VLNタスクでは指示理解と計画が重要だが、従来手法は多大なラベリングコストがかかる。目的大規模言語モデルの推論力でエージェントの自然言語理解を向上させる。提案 CPMIアプローチにより、エージェントが動的計画とメモリー統合を実現。評価公的データセットでの数ショットシナリオにおける実験で評価。結果成功率とタスク効率が向上し、最高のパフォーマンスを達成。

GEM-RAG: グラフによる記憶強化生成法 GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation
B. Rappazzo and Yingheng Wang and Aaron Ferber and Carla Gomes 背景記憶形成と推論は一般知能の核心で、 LLMはこれが不十分です。目的 LLMが効果的に記憶を処理し、専門性を発揮できる方法を模索します。提案 GEM-RAGにより、テキストを高次の情報へと統合し、効果的に質問応答します。評価 UnifiedQA と GPT-3.5 Turbo を使い、 QAタスクで自身の方法を検証しました。結果 GEM-RAGは他の最新技術よりも効果的に QAタスクで性能を向上させました。

LLMベースのエージェントを用いた政治的連立交渉のモデリング Modelling Political Coalition Negotiations Using LLM-based Agents Farhad
Moghimifar and Yuan-Fang Li and Robert Thomson and Gholamreza Haffari 背景議会制民主主義における連立交渉は重要ですが、適切なデータの不足でモデリングされていません。目的研究は、 **大規模言語モデル（ LLM） **を用いて連立交渉をモデル化することを目的とします。提案マルチリンガルデータセット POLCAと階層的マルコフ決定過程を提案し、政治交渉をシミュレートします。評価最先端の LLMをエージェントとして使用し、連立交渉の処理能力を評価しました。結果 LLMが政治モデリングにおいて貴重な洞察と進展の可能性を示しました。

反射 : 言語エージェントと言語強化学習 Reflexion: language agents with verbal reinforcement learning
Noah Shinn and Federico Cassano and Beck Labash and A. Gopinath and Karthik Narasimhan and Shunyu Yao 背景大規模言語モデルは外部環境との相互作用に活用されていますが、効率的な学習が課題です。目的効率的な試行錯誤を可能にする新しい言語エージェントの強化方法を模索します。提案 Reflexionフレームワークは言語フィードバックを用いてエージェントの意思決定能力を強化します。評価実験では様々なフィードバック形式や手法を使用し、多様なタスクでの性能を検証しました。結果 Reflexionは多様なタスクで顕著な性能向上を示し、特に HumanEvalでの精度が高まりました。

SUGARCREPE++データセット : 視覚と言語モデルのセマンティックおよび語彙的変化への感受性 SUGARCREPE++ Dataset: Vision-Language Model Sensitivity
to Semantic and Lexical Alterations Sri Harsha Dumpala and Aman Jaiswal and Chandramouli Sastry and E. Milios and Sageev Oore and Hassan Sajjad 背景大規模言語モデルは正確な意味理解に難があることが知られています。目的 VLMsと ULMsの語彙とセマンティック変化への感受性を解析することです。提案 SUGARCREPE++データセットを提案し、モデル感受性を評価します。評価 VLMsと ULMsをあらゆる面で評価し、セマンティック (不 )等価性に着目します。結果 VLMsは語彙と意味の違いを識別するのに困難があると結論づけました。

大規模言語モデルを用いた少数ショット脱文脈化 Get the gist? Using large language models for
few-shot decontextualization Benjamin Kane and Lenhart K. Schubert 背景文脈外で文を理解することは情報検索や対話システムで重要です。目的高価な注釈が不要で、他の領域にも適用可能な手法の開発を目指します。提案少数ショットでの脱文脈化手法を大規模言語モデルで実現します。評価少数の例を用いることで、複数領域での性能を評価しました。結果少数ショットでの手法が有効な性能を示しました。

AI、行動科学、消費者の福祉 AI, Behavioural Science, and Consumer Welfare S. Mills and
S. Costa and C. Sunstein 背景 AIが行動科学において新たな消費者行動のバイアスを識別する可能性があるため。目的消費者の福祉を向上させる方法として AIの可能性とリスクを明らかにすること。提案 AIを用いて消費者行動の新しいバイアスを識別し介入をパーソナライズする。評価 AIによる消費者行動モデルの構築とその動的変化の観察を行う。結果 AIの活用は消費者福祉を向上するが、プライバシー侵害のリスクも存在。

LLMsは構造的に現実的なソーシャルネットワークを生成するが政治的ホモフィリーを過大評価する LLMs generate structurally realistic social networks but
overestimate political homophily Serina Chang and Alicja Chaszczewicz and Emma Wang and Maya Josifovska and Emma Pierson and J. Leskovec 背景ソーシャルネットワークの生成は疫学モデルや社会シミュレーションにおいて重要である。目的 LLMを用いたネットワーク生成の現実性と潜在的バイアスを評価する。提案 LLMによるゼロショットで柔軟なネットワーク生成をプロンプト方法で提案。評価 3つのプロンプト方法を開発し、生成されたネットワークを実際のものと比較。結果生成ネットワークは現実と一致するが政治的ホモフィリーを過大評価。

ATOM: サービスロボティクスの適応型タスクオブジェクトモーション戦略によるオブジェクト再配置 ATOM: Leveraging Large Language Models for
Adaptive Task Object Motion Strategies in Object Rearrangement for Service Robotics Isabel Y. N. Guan and Gary Zhang and Xin Liu and Estella Zhao and Jing Wu 背景サービスロボティクスでは、複雑なオブジェクト再配置が動的環境に適応しにくい問題です。目的この研究の目的は、 LLMを活用して動的環境にも適応可能な再配置手法を開発することです。提案 LLMを使用し、常識的なオブジェクト配置知識を取得し、タスク計画を行う手法を提案します。評価従来の手法と LLMを組み合わせ、プロセスの簡素化と環境適応性の実証を行いました。結果 LLM活用により、動的環境適応性とサービスロボットの応用可能性が拡大しました。

大規模言語モデルと認知アーキテクチャの統合による強靭な AIの探求 Synergistic Integration of Large Language Models and
Cognitive Architectures for Robust AI: An Exploratory Analysis Oscar J. Romero and John Zimmerman and Aaron Steinfeld and A. Tomasic 背景 AIの知的行動強化のために、 LLMsと CAsの統合が重要視されている。目的 AIシステムの強靭性を向上させるための統合アプローチを提案。提案 3つの統合アプローチを提案し、それぞれの特性を紹介。評価各アプローチの理論モデルと初期経験的証拠で評価。結果 LLMsと CAsの統合で、 AIの強みを活かしつつ弱点を克服。

Mobile-Agent-v2: マルチエージェント協力による効果的なナビゲーションを備えたモバイルデバイス操作アシスタント Mobile-Agent-v2: Mobile Device Operation Assistant with
Effective Navigation via Multi-Agent Collaboration Junyang Wang and Haiyang Xu and Haitao Jia and Xi Zhang and Ming Yan and Weizhou Shen and Ji Zhang and Fei Huang and Jitao Sang 背景モバイルデバイスの操作タスクでは、複雑なナビゲーションが必要です。目的ナビゲーションの課題を解決するエージェントの開発が必要です。提案 3つの異なるエージェントを用いた新しいソリューションを提案します。評価提案したソリューションの性能を実験によって評価しました。結果 Mobile-Agent-v2はタスク完了率を 30%以上改善しました。

LLM診断ツールキット：倫理的問題の評価 LLM Diagnostic Toolkit: Evaluating LLMs for Ethical Issues Mehdi
Bahrami and Ryosuke Sonoda and Ramya Srinivasan 背景 LLMはバイアスや誤情報などの倫理問題を引き起こし、規制の必要性が求められています。目的我々の目的は、 LLMの倫理問題を検出するツールキットの提供です。提案多様な利害関係者が利用可能な LLM診断ツールキットを提案します。評価チャレンジングなタスクとデータセットを用いてツールキットの有効性を評価しました。結果ツールキットは LLMのバイアスや誤情報を効果的に診断できると示されました。

記述、説明、計画、選択 : 大規模言語モデルを用いた対話型計画でオープンワールドのマルチタスクエージェントを実現 Describe, Explain, Plan and Select:
Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents Zihao Wang and Shaofei Cai and Guanzhou Chen and Anji Liu and Xiaojian Ma and Yitao Liang and Jean- Baptiste Alayrac and Jeff Donahue and Pauline Luc and Antoine Miech and Iain Barr and Yana Hasson and 背景近年、オープンワールド環境での複雑な問題解決が注目されています。目的多様なタスクに適応できるエージェントの開発を目的としています。提案対話型計画を通じてエージェントが最適な行動を選択可能とする方法を提案。評価大規模言語モデルを活用し、異なるシナリオでの性能を評価しました。結果手法の有効性が確認され、柔軟で汎用的であることが示されました。

MathVC: 数学教育のための LLMシミュレート型マルチキャラクタバーチャル教室 MathVC: An LLM-Simulated Multi-Character Virtual Classroom
for Mathematics Education Murong Yue and Wijdane Mifdal and Yixuan Zhang and Jennifer Suh and Ziyu Yao 背景数学的モデリング (MM) は STEM教育で重要で、協同学習がその鍵です。目的教育リソースの不均一さを解決し、平等に MMスキルを学べる環境を作ることです。提案 MATHVCという LLMで駆動する仮想教室を使用して MM 学習を支援することを提案します。評価実験とアブレーション研究を通じて、提案手法の有効性を確認しました。結果将来 MATHVCが実世界の学生に有益である可能性が示されました。

MobileAgent: ヒューマンマシンインタラクションと SOP統合によるモバイル制御の強化 MobileAgent: enhancing mobile control via human-machine
interaction and SOP integration Tinghe Ding 背景 LLMを用いたモバイル操作の自動化が可能になったが、プライバシーや操作データの複雑性が課題。目的ユーザーデータのプライバシーと複雑な操作データ問題の解決。提案 SOP情報を活用し、エージェントのユーザー操作理解とプライバシー対応を強化。評価新デバイス制御ベンチマーク AitWで 30Kの指示によるタスク実験を実施。結果 SOPベースのエージェントが 66.92%の成功率で最先端性能を発揮。

フィクションの世界、現実のつながり : LLMsを通じたコミュニティストーリーテリングチャットボットの開発 Fictional Worlds, Real Connections: Developing Community
Storytelling Social Chatbots through LLMs Yuqian Sun and Hanyi Wang and Pok Man Chan and M. Tabibi and Yan Zhang and Huan Lu and Yuheng Chen and Chang Hee Lee and A. Asadipour 背景フィクションのキャラクターがコミュニティの社会的交流を強化する可能性があるため、研究を行いました。目的ストーリーテリングと LLMsを統合し、信頼性のあるチャットボットを開発することを目的としました。提案ストーリーエンジニアリングを用いて、架空のキャラクターを **“生きた ”社会的存在 **として変える手法を提案しまし評価 LLM GPT-3を使ったプロトタイプを Discordのコミュニティで評価し、アンケートと面接を実施しました。結果ストーリーテリングにより、チャットボットのエンゲージメントと信頼性が向上することが示されました。

StoryVerse: ナラティブプランニングによる LLMベースのキャラクターシミュレーションで動的プロットを共著 StoryVerse: Towards Co-authoring Dynamic Plot
with LLM-based Character Simulation via Narrative Planning Yi Wang and Qian Zhou and David Ledo 背景ゲームにおけるリッチなナラティブは、プレイヤーの体験向上に不可欠です。目的自発的プロット生成の進行制御を容易にするための手法を追求します。提案我々は、抽象的な行為を用いてプロット生成を仲介するワークフローを提案します。評価提案システム StoryVerseで様々なストーリーとゲーム環境での多様性を実証しました。結果作者、キャラクター、プレイヤーによる共創ナラティブが評価されました。

エージェントベースシミュレーションを用いた LLMベースの物語生成の分析 Analysis of LLM-Based Narrative Generation Using the
Agent-Based Simulation Naoto Aoki and Naoki Mori and M. Okada 背景自動物語生成は AIで注目されており、技術進展が求められています。目的 LLMを用いた新たな物語生成法を模索することが目的です。提案 ABSを使い、 LLMで個性豊かなエージェントを生成し物語を形成。評価ドラゴン退治シナリオでのエージェントの対話を実験しました。結果強化学習の影響で細部描写の制約が確認されましたが、期待通りの対話生成を達成しました。

SmartPlay: 知的エージェントとしての LLM のためのベンチマーク SmartPlay : A Benchmark for LLMs
as Intelligent Agents Yue Wu and Xuan Tang and Tom M. Mitchell and Yuanzhi Li 背景大規模言語モデルは知的エージェントとしての潜在能力を示していますが、評価基準が不足しています。目的 LLMを知的エージェントとして評価する体系的ベンチマークを提供することが目的です。提案 SmartPlayは、 6つのゲームでエージェントとしての能力を評価する方法論です。評価独自設定の 20の評価環境と無限のバリエーションで性能を検証します。結果能力の差異を個別に分析し、現行の方法論のギャップを確認できます。

思考の不確実性 : 不確実性認識の計画が大規模言語モデルの情報探索を強化 Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances
Information Seeking in Large Language Models Zhiyuan Hu and Chumin Liu and Xidong Feng and Yilun Zhao and See-Kiong Ng and A. Luu and Junxian He and Pang Wei Koh and Bryan Hooi 背景不確実な状況での情報探索能力は医療やトラブルシューティングで重要です。目的大規模言語モデルに効果的な質問をして情報を能動的に求める能力を付与することです。提案モデルが不確実性を認識して情報を求めるための UoTアルゴリズムを開発しました。評価医療診断やトラブルシューティングで、不確実性を考慮したシミュレーションと報酬伝播を検証しました。結果 UoTはタスク成功率を平均 38.1%改善し、質問数を削減しました。

コードレビューの効率向上 – 自然言語処理と機械学習を活用したプルリクエストの自動評価 Enhancing Code Review Efficiency –
Automated Pull Request Evaluation Using Natural Language Processing and Machine Learning Przemysław Wincenty and 1. Zydron´ and J. Protasiewicz 背景コードレビューは品質向上と知識交換に重要だが、適任者選定は手間がかかる。目的レビューの正確さを自動評価し、ソフトウェア品質に寄与する手法の提案。提案 NLP技術を用いてレビューからキーデータを抽出し、正確さを予測する手法を提案。評価 ChatGPT3と機械学習モデルを用いてレビューの品質予測を行う実験を実施。結果自動レビュー評価は透明性と責任を向上させ、プロジェクト成果に良い影響を与える可能性。

ChatGPTを用いた社会的インテリジェントエージェントのプロンプト作成 Prompting for Socially Intelligent Agents with ChatGPT Ana
Antunes and Joana Campos and Manuel Guimarães and João Dias and Pedro A. Santos 背景社会的インテリジェントエージェントは人気があるが、複雑なシナリオ設計が困難です。目的デザイン負担を軽減し、 SIAsの体験価値を向上させることを目的とします。提案大規模言語モデルを活用し、理論駆動のプロンプティングを提案します。評価信念と欲望を導き、意図と行動を生み出すプロンプティングを分析しました。結果提案手法は正確で新情報を多く生成しますが、監視が必要です。

基盤モデルを用いた企業自動化 Automating the Enterprise with Foundation Models Michael Wornow and
A. Narayan and Krista Opsahl-Ong and Quinn McIntyre and Nigam H. Shah and Christopher Re 背景ワークフロー自動化は生産性向上のために長年注目されていますが、実現は困難でした。目的従来の RPAの限界を超えたワークフロー自動化を実現することが目的です。提案 ECLAIRシステムを使用し、基盤モデルでの自動化を提案します。評価基盤モデルを用い、ワークフローの理解精度 93％と即時設定を実験しました。結果基盤モデルは従来の RPAの限界を克服し、 40％の完了率を示しました。

ChatGPT vs 社会調査 : 客観的および主観的な人間社会の探求 ChatGPT vs Social Surveys:
Probing the Objective and Subjective Human Society Muzhi Zhou and Lu Yu and Xiaomin Geng and Lan Luo 背景 LLMsの社会調査データ生成能力には不明な部分が多く、社会への影響が重要な課題です。目的 ChatGPTのデータ生成が社会調査と一致するかを評価することが目的です。提案 ChatGPT-3.5を利用し、 2020年米国の社会経済特性を模擬しました。評価繰り返しランダムサンプリングで生成データを作成し、国勢調査と比較しました。結果一部の属性は一致しましたが、人間の自己申告と異なる場合が見られました。

IMBUE: ヒューマン・ランゲージモデルのシミュレーションと即時フィードバックを通じた対人効果向上 IMBUE: Improving Interpersonal Effectiveness through Simulation
and Just-in- time Feedback with Human-Language Model Interaction Inna Wanyin Lin and Ashish Sharma and Christopher Rytting and Adam S. Miner and Jina Suh and Tim Althoff 背景特定のコミュニケーションはスキルや感情が原因で困難であり、学習機会が少ない。目的対人効果スキルの向上を支援するためのシミュレーションとフィードバックを提供する。提案 IMBUEは、 DBT理論に基づきコミュニケーションと感情管理スキルを同時に訓練する。評価 86人の参加者を対象にランダム化試験を行い、効果を検証した。結果 IMBUEは自己効力感やスキル向上において、シミュレーションのみよりも大きな効果を示した。

情報検索のための大規模言語モデル :調査 Large Language Models for Information Retrieval: A Survey
Yutao Zhu and Huaying Yuan and Shuting Wang and Jiongnan Liu and Wenhan Liu and Chenlong Deng and Zhicheng Dou and Ji-rong Wen 背景情報取得が重要な現代社会では、 IRシステムが対話や質問応答で不可欠です。目的進化する IRシステムにおける大規模言語モデルの役割を総括し、新たな洞察を提供です。提案 LLMと IRの融合を探り、クエリ再書き換えや再ランク付け、検索エージェントを考察します。評価研究アプローチには既存の手法を統合し、 LLMの活用方法を精査する手法が含まれます。結果 LLMの能力を活用し IRシステムの向上に貢献、今後の発展方向を示唆しました。

生成的イコーチェンバー？ LLM搭載の検索システムが多様な情報探索に与える影響 Generative Echo Chamber? Effect of LLM-Powered Search
Systems on Diverse Information Seeking Nikhil Sharma and Q. V. Liao and Ziang Xiao 背景 LLM搭載の検索システムが多様性への曝露を制限し、意見の偏りをもたらすリスクがある。目的 LLMによる会話型検索が選択的曝露を増加させるかを調査すること。提案 LLMの偏見がユーザーの意見にどのように影響するかを二つの実験で提案する。評価従来の検索と LLM搭載検索の選択的曝露の差を比較する実験を行った。結果 LLMは参加者の意見を強化し、情報検索の偏りを悪化させることが示された。

FinCon: 強化された金融意思決定のための概念的言語強化を備えた合成 LLMマルチエージェントシステム FinCon: A Synthesized LLM Multi-Agent
System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making Yangyang Yu and Zhiyuan Yao and Haohang Li and Zhiyang Deng and Yupeng Cao and Zhi Chen and Jordan W. Suchow and Rong Liu and Zhenyu Cui and Denghui Zhang and Koduvayur Subbalakshmi and Guojun Xiong 背景 LLMは金融タスクで潜在能力を示すが、投資意思決定では課題が残る。目的金融タスクでの意思決定最適化と情報統合の強化を目指す。提案概念的言語強化を用いた LLMベースのマルチエージェント FinConを提案。評価実際の投資会社の構造に倣い、マネージャーとアナリストのコミュニケーションを設計。結果 FinConは様々な金融タスクで優れた一般化能力を示した。

Story3D-Agent: 大規模言語モデルを用いた 3Dストーリーテリングビジュアライゼーションの探求 Story3D-Agent: Exploring 3D Storytelling Visualization
with Large Language Models Yuzhou Huang and Yiran Qin and Shunlin Lu and Xintao Wang and Rui Huang and Ying Shan and Ruimao Zhang 背景従来のストーリーテリングは専門知識とリソースを必要とし、この制約が重要視されています。目的多次元的かつ包括的な物語の視覚化を実現することが本研究の目的です。提案 LLMを活用し物語を 3Dレンダリングでビジュアライズする Story3D-Agentを提案します。評価 Story3D-Agentの有効性を検証するための徹底的な評価を実施しました。結果基本的な枠組みを構築し、 3D物語表現の可能性を示しました。

大規模言語モデルとビデオゲーム : 予備的なスコーピングレビュー Large Language Models and Video Games:
A Preliminary Scoping Review Penny Sweetser 背景 LLMはビデオゲームの多岐に渡る領域で新しい可能性を提供しています。目的本研究の目的は、 LLMのゲーム分野での研究の現状を明確化することです。提案 76本の論文をレビューし、ゲームにおける LLMの応用の概観を提供します。評価スコーピングレビューの手法を用いて、 LLM関連の研究文献を分析しました。結果本研究は、 LLMの初期状態とその応用可能性の基盤を提供しました。

コミュニケーションにおける普遍的フィードバックを用いた LLMエージェントの適応 Adapting LLM Agents with Universal Feedback in
Communication Kuan Wang and Yadong Lu and Michael Santacroce and Yeyun Gong and Chao Zhang and Yelong Shen 背景 **大規模言語モデル（ LLMs） **はエージェントへの適用が期待されている。目的 LTCを用いてフィードバックを受けてエージェントを最適化することを目指す。提案 LTCにより、単一および複数エージェント環境での学習を最適化する。評価 4つの異なるデータセットで LTCの有効性を評価した。結果 LTCはベースラインを 3.6％から 12％上回る結果を得た。

LLMエージェントの超長期間の会話記憶の評価 Evaluating Very Long-Term Conversational Memory of LLM Agents
A. Maharana and Dong-Ho Lee and S. Tulyakov and Mohit Bansal and Francesco Barbieri and Yuwei Fang 背景長期オープンドメイン対話の評価は限られており、超長期間の有効性の探求が求められています。目的超長期間での LLMの性能を測定し、人間の理解とのギャップを明らかにすること。提案 LLMベースのエージェントとイベントグラフを用いた長期対話生成パイプラインを提案します。評価生成した対話データセット LoCoMoを基に、長期記憶を評価するベンチマークを構築しました。結果 LLMは長期間の会話理解と因果関係の理解に課題があり、人間性能に遅れをとります。

LLMベースのチャットボットを用いたホームオートメーションルーティンの設計 Designing Home Automation Routines Using an LLM-Based Chatbot
Mathyas Giudici and Luca Padalino and Giovanni Paolino and Ilaria Paratici and Alexandru Ionut Pascu and Franca Garzotto 背景気候変動対策として持続可能な行動の推進が急務である。目的スマートホームアシスタントが家庭内での持続可能な行動を促進。提案 GPT4を用いた GreenIFTTTで環境に優しいホームオートメーションを実現。評価イタリアで 13名の参加者によるアプリのユーザビリティ調査を実施。結果 GreenIFTTTは使いやすく、環境に優しい行動を促進する可能性が示唆。

AGIに向けた CERN: 自律的シミュレーションベース AIテストと整合の理論的枠組み CERN for AGI: A Theoretical
Framework for Autonomous Simulation-Based Artificial Intelligence Testing and Alignment Ljubiša Bojić and Matteo Cinelli and D. Ćulibrk and Boris Delibasic 背景 LLMの急速な発展に伴う倫理的整合性や制御可能性が重要課題。目的 AGIの社会的責任性と人間整合性を高めることを目的とする。提案現実世界を模倣する仮想環境内でのデジタル市民による多エージェントシステムの提案。評価仮想現実内のデジタル環境を用い、 LLMの自律エージェントの相互作用を観察。結果このアプローチは有望だが、現実の社会動態の予測困難さが課題である。

自然会話におけるエンゲージメント予測のための LLMを用いたマルチモーダル融合 Multimodal Fusion with LLMs for Engagement Prediction
in Natural Conversation Cheng Charles Ma and Kevin Hyekang Joo and Alexandria K. Vail and Sunreeta Bhattacharya and Alvaro Fernandez Garcia and Kailana Baker-Matsuoka and Sheryl Mathew and Lori L. Holt and Fernando De la Torre 背景スマートグラスによる非言語行動の解析は、コミュニケーション向上の新たな可能性を示します。目的本研究は、ダイアディックインタラクション中のエンゲージメントを予測し、コミュニケーションを強化することを目指提案 LLMを用いた新しいマルチモーダル融合戦略が提案されています。評価 34名の参加者による会話データを収集し、自己報告エンゲージメント評価を実施しました。結果提案手法は初期段階でありながら、既存技術に匹敵するパフォーマンスを示しました。

LLMベースエージェントの高レベル動作を形式的に特定する F ORMALLY S PECIFYING THE H IGH -L
EVEL B EHAVIOR OF LLM-B ASED A GENTS M. Crouse and Ibrahim Abdelaziz and Kinjal Basu and Soham Dan and Sadhana Kumaravel and Achille Fokoue and P. Kapanipathi and Luis A. Lastras 背景 LLMベースのエージェントは高価なタスク特化モデルを必要とせずに活用可能です。目的新しいエージェントの設計と実装を簡易化することが目的です。提案我々は LTLを用いたエージェント動作の指定フレームワークを提案します。評価プロンプトを形式的に検証し、エージェントの複雑な動作を実験しました。結果提案手法がエージェント性能改善に寄与することを示しました。

社会的に配慮した交渉対話のための支援型大規模言語モデルエージェント Assistive Large Language Model Agents for Socially-Aware Negotiation
Dialogues Yuncheng Hua and Lizhen Qu and Gholamreza Haffari 背景ビジネス交渉における誤解や非効率を AI支援で解決する必要があります。目的交渉におけるコミュニケーションの質を向上させ、成果を改善することが目的です。提案規範違反を修正するための調停エージェントとしての新しい ICL手法を提案します。評価提案手法の評価には、 3つの交渉トピックにわたる実証的証拠を用いました。結果提案手法は、交渉対話における成果の質を向上させることが確認されました。

大規模言語モデルの数式外挿を合成データで探る Exploring Mathematical Extrapolation of Large Language Models with
Synthetic Data Haolong Li and Yu Ma and Yinqi Zhang and Chen Ye and Jie Chen 背景大規模言語モデルは言語処理に優れますが、数学的推論には弱点があります。目的数学的推論の性能向上を目指し、合成データを用いた手法を模索します。提案合成データでファインチューニングすれば、多段階推論が可能になると提案します。評価 open-llama-3Bモデルを用いて、 3つのテストデータセットで性能を評価しました。結果ゼロショット pass@1が 0.44に達し、ドメイン外でも一定の性能を示しました。

エージェント病院 : 進化可能な医療エージェントによる病院の模擬体 Agent Hospital: A Simulacrum of Hospital
with Evolvable Medical Agents Junkai Li and Siyu Wang and Meng Zhang and Weitao Li and Yunghwei Lai and Xinhui Kang and Weizhi Ma and Yang Liu 背景病院の自律化は医療効率を向上させる潜在性を持っています。目的医師エージェントが病気の治療方法を模擬的に学習する手法の提案。提案「 MedAgent-Zero」を用い、エージェントによる治療学習を促進。評価シミュレーション実験により、医師エージェントの治療性能の改善を確認。結果エージェントは現実の医療基準で **93.06%**の正確さを達成。

雰囲気の力 : LLMを活用したロボットの社会的タスク生成 The Power of Atmosphere: LLM-Based Social
Task Generation of Robots Hanna Lee and H. Lym and Da-Young Kim and Min-Gyu Kim 背景ロボットが社会的雰囲気を理解し適切に行動する能力は HRIの質向上に重要。目的 LLMで雰囲気要素をロボット行動に追加し、社会的適切性を向上。提案雰囲気要素を加えることで、ロボットの社会的行動生成を改善する手法を提案。評価実験で 50名の参加者を対象に、雰囲気要素あり・なしのシナリオを比較。結果雰囲気要素を取り入れたロボットが、社交性や HRIで優位性を示した。

G-Designer: グラフニューラルネットワークによるマルチエージェントコミュニケーショントポロジーの設計 G-Designer: Architecting Multi-agent Communication Topologies via
Graph Neural Networks Guibin Zhang and Yanwei Yue and Xiangguo Sun and Guancheng Wan and Miao Yu and Junfeng Fang and Kun Wang and Dawei Cheng 背景集団的知性の重要性が増す中、効率的な通信設計が必要とされています。目的 G-Designerを通じて、適切なトポロジー選定問題を解決したいと考えています。提案 G-Designerは、タスク適応型でカスタマイズされたコミュニケーションデザインを提供します。評価 6つのベンチマークで精度やトークン消費の削減効果を検証しました。結果 G-Designerは高性能かつ堅牢で、トークン消費の大幅削減も可能です。

大規模言語モデルを用いた StarCraft IIのリアルタイム戦略ゲーム用エージェント『 SwarmBrain』 SwarmBrain: Embodied agent for
real-time strategy game StarCraft II via large language models Xiao Shao and Weifu Jiang and Fei Zuo and Mengqing Liu 背景大規模言語モデルは、様々な探索タスクで新たな成果を上げています。目的 LLMが StarCraft IIの戦略タスクでどれほど効果を発揮するか調査します。提案 SwarmBrainという LLMを活用したエージェントを提案し、戦略実行を支援します。評価 Zerg対 Terranの対決で SwarmBrainが戦略遂行能力を実証しました。結果 SwarmBrainは異なる難易度のコンピュータプレイヤーに勝利しました。

CivRealm: 意思決定エージェントのための学習と推論のオデッセイ CivRealm: A Learning and Reasoning Odyssey in
Civilization for Decision-Making Agents Siyuan Qi and Shuo Chen and Yexin Li and Xiangyu Kong and Junqi Wang and Bangcheng Yang and Pring Wong and Yifan Zhong and Xiaoyuan Zhang and Zhaowei Zhang and Nian Liu and Wei Wang and Yaodong 背景多くの環境では学習が重視され、推論の複雑さが無視されている。目的 CivRealmを通じて、学習と推論のバランスを研究する。提案文明に基づく CivRealm環境でエージェントの能力をテスト。評価テンソルと言語ベースのエージェントで初期実験を実施。結果 RLエージェントはミニゲームで良好だが、フルゲームでは困難。

人間と大規模言語モデルの相互作用 : 新時代の幕開けか、その終焉か？ Human - Large Language Model Interaction:
The dawn of a new era or the end of it all? Daniel Hernández García and Marta Romeo and C. Dondrup and Nancie Gunson and Angus Addlesee and Weronika Maria Sieińska and Oliver Lemon and Alessandro Suglia and M. Aylett 背景人間とロボットの相互作用における大規模言語モデルの影響が増大。目的 HRIコミュニティが抱える課題を共有し、安全なソーシャルロボットの設計を促進。提案対話能力向上のために大規模言語モデルをロボットに導入する手法を提案。評価議論と共有を通じて、モデル導入の影響を多角的に分析。結果新しいソーシャルロボット設計への指針とコミュニティの方向性を提供。

発言に投資 : オークションアリーナにおける LLMエージェントの戦略的計画と実行の評価 Put Your Money Where Your Mouth
Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena Jiangjie Chen and Siyu Yuan and Rong Ye and Bodhisattwa Prasad Majumder and Kyle Richardson 背景大規模言語モデルの性能評価には、動的で予測不可能な環境が必要である。目的動的シナリオでの LLMの戦略的推論能力を評価するために AucArenaを構築。提案 AucArenaを使用し、 LLMの入札行為を評価し、その能力と戦略を分析。評価制御実験で最先端の LLMを用い戦略と実行スキルを評価。結果 LLMは重要なスキルを持つが、性能のばらつきがさらなる研究の価値を示す。

RoleLLM: 大規模言語モデルのロールプレイ能力の評価、引き出し、向上 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities
of Large Language Models Z. Wang and Zhongyuan Peng and Haoran Que and Jiaheng Liu and Wangchunshu Zhou and Yuhan Wu and Hongcheng Guo and Ruitong Gan and Zehao Ni and Man Zhang and Zhaoxiang Zhang and Wanli Ouyang and 背景大規模言語モデルのロールプレイでのユーザー連携強化が求められている。目的 LLMsのロールプレイ能力の最適化方法を探ることが重要である。提案 RoleLLMはロールプレイ能力を評価し向上するフレームワークである。評価 RoleBenchを用いた 168,093サンプルの詳細な評価を行った。結果 RoleLLaMAと RoleGLMが作成され、顕著な向上を達成した。

Genshin: 大規模言語モデルを用いた自然言語処理の一般的防御枠組み Genshin: General Shield for Natural Language Processing
with Large Language Models Xiao Peng and Tao Liu and Ying Wang 背景 LLMの不透明性が高ステークスなドメインでの応用を制限しています。目的効率と頑強性のトレードオフを解消する新手法を提案します。提案 Genshinは防御的な LLMプラグインを活用し、テキストを元に戻す手法です。評価感情分析とスパム検出で LLMの復元能力を実験しました。結果 Genshinは効果的で効率的であることを確認しました。

TR-LLM: シーン認識 LLMベースの人間行動予測のための軌跡データ統合 TR-LLM: Integrating Trajectory Data for Scene-Aware
LLM-Based Human Action Prediction Kojiro Takeyama and Yimeng Liu and Misha Sra 背景人間行動の予測精度は現実の AI応用において重要です。目的 LLMが持つ言語知識に物理的制約を統合し予測精度を向上。提案マルチモーダル予測フレームワークを使い、 LLMによる行動予測を強化。評価 LLMの予測と人間の軌跡データを組み合わせ、実験で評価。結果 LLMと軌跡データの組み合わせが予測パフォーマンスを大幅に向上。

指示追従のより良い評価に向けて : 要約におけるケーススタディ Towards Better Evaluation of Instruction-Following: A
Case-Study in Summarization Ondrej Skopek and Rahul Aralikatte and Sian Gooding and V. Carbune 背景 LLMがユーザー指示をどれだけ効果的に追従できるかを評価することは依然として課題です。目的評価方法の正確性を定量化し、より適切な基準を確立することが目的です。提案新たな LLMベースの参照フリー評価方法を提案し、ベースラインの改善を図ります。評価 riSumデータセットを用いて評価方法の人間の判断との一致度を分析しました。結果新しい方法が高品質な要約を要求する従来の基準と同等に機能することを示しました。

CRAB: マルチモーダル言語モデルエージェントのためのクロス環境エージェントベンチマーク CRAB: Cross-environment Agent Benchmark for Multimodal
Language Model Agents Tianqi Xu and Linyao Chen and Dai-Jie Wu and Yanjun Chen and Zecheng Zhang and Xiang Yao and Zhiqiang Xie and Yongchao Chen and Shilong Liu and Bochen Qian and Philip H. S. Torr and Bernard Ghanem and G. Li 背景従来のベンチマークは、単一環境に限定され評価方法が不足していました。目的異なる環境に対応できる総合的ベンチマークを提供することを目指します。提案 Crabフレームワークでクロス環境タスクを支援し、精密な評価法を導入します。評価 100のタスクを用いたクロスプラットフォームベンチマークで評価しました。結果 GPT-4o使用の単一エージェントが 35.26%の最高完了率を記録しました。

生成 AIベースの対話サポートがリアルタイム共同発想に与える可能性の探求 Exploring the Potential for Generative AI-based Conversational
Cues for Real-Time Collaborative Ideation Jude Rayan and Dhruv Kanetkar and Yifan Gong and Yuewen Yang and Srishti Palani and Haijun Xia and Steven P. Dow 背景リアルタイムの創造的な議論を促進するための AIの役割と価値を探る。目的リアルタイム発想における生成 AIの対話支援の効果を明らかにすること。提案人間が生成した対話キューを利用し、 AIによる創造的支援を設計する機会を探る。評価ウィザードファシリテーターがリモートで提供するキューと会話のテーマ分析を実施。結果特定の戦略が会話に大きな影響を与えることを発見し、改善の機会を提示。

自信がない LLM注釈は確信を持った結論に使用できるか？ Can Unconfident LLM Annotations Be Used for
Confident Conclusions? Kristina Gligori'c and Tijana Zrnic and Cinoo Lee and Emmanuel J. Candes and Dan Jurafsky 背景 LLMは人間のデータ収集の課題を和らげ、 CSSで注目されている。目的 LLMと人間の注釈を組み合わせて正確で妥当な結論を得ること。提案 LLM注釈と信頼指標で選択的に人間注釈を組み合わせる手法を提案。評価 3つの CSS領域で Confidence-Driven Inferenceの効果を検証。結果人間注釈を 25%以上削減しつつ正確な統計推定が可能と確認。

大規模言語モデルの判断による教育コンテンツの評価と最適化 Evaluating and Optimizing Educational Content with Large Language
Model Judgments Joy He-Yueya and Noah D. Goodman and E. Brunskill 背景教育資料の効果を評価するには高コストかつ時間がかかるため、改善が求められます。目的 LMsを利用して、教育資料の評価と最適化を効率的に行う方法を模索します。提案 LMを教育の専門家として用い、指導が学習成果に及ぼす影響を評価するアプローチを提案します。評価 GPT-3.5を使用して、指導資料の影響を評価し、既存研究の再現を試みました。結果 LMによる評価は人間教師の評価と高い一致を示し、新しい潜在的なアプローチを確認しました。

検索拡張決定トランスフォーマー : コンテキスト内強化学習のための外部メモリ Retrieval-Augmented Decision Transformer: External Memory for
In-context RL Thomas Schmied and Fabian Paischer and Vihang Patil and M. Hofmarcher and Razvan Pascanu and Sepp Hochreiter 背景コンテキスト内強化学習は、長いエピソードの処理に限界があり、複雑な環境での適用が課題です。目的 **検索拡張決定トランスフォーマー (RA-DT)**を用いて、長いエピソードや疎な報酬を持つ環境での学習効率を向上させ提案 RA-DTは外部メモリを活用し、関連するサブトラジェクトリを取得することで効率的な学習を実現します。評価グリッドワールド、ロボットシミュレーション、手続き生成ビデオゲームで RA-DTを評価しました。結果 RA-DTはベースラインを上回り、コンテキスト長を大幅に削減して効率を改善しました。

LLM駆動エージェントによる米国上院の立法行動と超党派性のシミュレーション Simulating The U.S. Senate: An LLM-Driven Agent Approach
to Modeling Legislative Behavior and Bipartisanship Zachary R. Baker and Zarif L. Azher 背景立法プロセスの改善を目指し、 AIを用いて上院の行動をシミュレートする研究が進行中。目的議員の行動を LLMでシミュレートし、超党派解決への移行を理解すること。提案 LLM駆動エージェントを作成し、上院委員会の議論をシミュレートする手法を提案。評価エージェントが実際の議論を模倣し、超党派解決を導けるかシミュレーションで評価。結果現実的な議論と超党派性の変化を示すツールの有用性を確認。

大規模言語モデルによる視覚化用自然言語データセット生成フレームワーク Natural Language Dataset Generation Framework for Visualizations Powered
by Large Language Models Hyung-Kwon Ko and Hyeon Jeon and Gwanmo Park and Dae Hyun Kim and Nam Wook Kim and Juho Kim and Jinwook Seo 背景自然言語インターフェースの開発を効率化する手法が求められています。目的データ視覚化用の多様な自然言語データセットを生成することです。提案 VL2NLは大規模言語モデルを使い、 Vega-Lite仕様から NLデータセットを生成します。評価 1,981の Vega-Lite仕様で VL2NLの生成精度をテストしました。結果 **89.4%および 76.0%**の精度で L1/L2キャプションを生成し、多様性を示しました。

TravelPlanner: 言語エージェントによる現実世界の計画策定ベンチマーク TravelPlanner: A Benchmark for Real-World Planning with
Language Agents Jian Xie and Kai Zhang and Jiangjie Chen and Tinghui Zhu and Renze Lou and Yuandong Tian and Yanghua Xiao and Yu Su 背景初期の AIは制約された環境での計画に焦点を当てていました。目的言語エージェントが複雑なタスクで有用性を示せるか調査します。提案旅行計画に焦点を当てた新たなベンチマーク TravelPlannerを提案。評価 400万件のデータと 1,225の計画意図を用いて評価を実施。結果現在の言語エージェントは複雑な計画策定に未熟で成功率は低いです。

CIKM 2023における個別化生成 AIワークショップ：パーソナライズと大規模言語モデルの融合 The First Workshop on Personalized
Generative AI @ CIKM 2023: Personalization Meets Large Language Models Zheng Chen and Ziyan Jiang and Fan Yang and Zhankui He and Yupeng Hou and Eunah Cho and Julian McAuley and A. Galstyan and Xiaohua Hu and Jie Yang 背景個別化 AIの動的分野において革新と協力を促進するための重要性がある。目的大規模言語モデルを活用し、ユーザー体験を最適化することが目的。提案知識ギャップや幻覚軽減のためのカスタマイズされた応答を提供する。評価基調講演、パネル討論、実践セッションにより、様々な議論を展開。結果より正確で文脈に基づいた個別化 AIシステムの開発が進む。

人間のように走る : 大規模言語モデルで自動運転を再考 Drive Like a Human: Rethinking Autonomous
Driving with Large Language Models Daocheng Fu and Xin Li and Licheng Wen and Min Dou and Pinlong Cai and Botian Shi and Y. Qiao 背景従来の自動運転は、長尾事例対応に限界があり、改善が必要。目的人間のように振る舞う自動運転モデルを開発し、性能向上を図る。提案推論・解釈・記憶を備えた LLMを使用し、人間的な運転を模倣。評価 LLMの環境理解と相互作用の能力を閉ループシステムで実証。結果 LLMが長尾事例の解決において印象的な推論力を示した。

競争する LLMエージェントの自発的協力を探る Shall We Team Up: Exploring Spontaneous Cooperation
of Competing LLM Agents Zengqing Wu and Run Peng and Shuyuan Zheng and Qianying Liu and Xu Han and Brian Inhyuk Kwon and Makoto Onizuka and Shaojie Tang and Chuan Xiao 背景大規模言語モデルは社会シミュレーションに利用されるが、行動形成の必要性が疑問視される。目的自発的現象の重要性を強調し、より適応的な決定をシミュレーションで再現する。提案エージェントが文脈に基づき自発的に協力する現象を探る手法を提案。評価 3つの競争シナリオを用いてエージェントの協力の出現をシミュレートした。結果協力の出現が人間の行動データと密接に一致することを確認した。

ゼロショットスケーラブル協調のための異種マルチエージェント強化学習 Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration
Xudong Guo and Daming Shi and Junjie Yu and Wenhui Fan 背景多様な役割を持つマルチエージェントシステムでのスケーリングと協調が課題です。目的ゼロショットでのスケーラブルな協調を可能にすることが目的です。提案異種性を組み込んだ SHPPOフレームワークを提案します。評価 SMACと GRFの環境で実験し、手法の有効性を検証しました。結果 SHPPOは高いスケーラビリティと協調性能を示しました。

LLMにエンコードされた道徳的信念の評価 Evaluating the Moral Beliefs Encoded in LLMs Nino Scherrer
and Claudia Shi and Amir Feder and D. Blei 背景 LLMは道徳的判断を含む選択の自動化に関与しており、その信頼性が求められています。目的 LLMが曖昧な道徳的状況においてエンコードする信念を明らかにすることです。提案 LLMにエンコードされた信念を引き出すための統計的手法を提案します。評価 680の高い曖昧性と 687の低い曖昧性の道徳的シナリオで評価しました。結果 LLMは明確なケースでは常識を反映し、曖昧なケースでは不確実性を示しました。

生涯認知システムの構築に向けて Towards LifeSpan Cognitive Systems Yu Wang and Chi Han
and Tongtong Wu and Xiaoxin He and Wangchunshu Zhou and Nafis Sadeq and Xiusi Chen and Zexue He and Wei Wang and Gholamreza Haffari and Heng Ji and Julian McAuley 背景複雑な環境との継続的相互作用を可能にするシステムの構築は多くの課題があります。目的問題は、経験を迅速かつ段階的に更新し過去を正確に記憶することです。提案四つの技術クラスを統合する新しいパラダイムを提案します。評価仮説検証には、保存の複雑さという概念的指標を用います。結果新しいパラダイムは経験吸収と応答生成の 2プロセスで機能します。

PRD: ピアランクとディスカッションによる大規模言語モデル評価の改善 PRD: Peer Rank and Discussion Improve Large
Language Model based Evaluations Ruosen Li and Teerth Patel and Xinya Du 背景 LLMの応答品質を自動で評価するのは困難です。目的自己促進や位置バイアスの問題を解決することです。提案ピアランクとピアディスカッションを用いた評価手法を提案します。評価 2つのベンチマークデータセットで実験を行いました。結果提案手法は高精度でヒューマンジャッジメントと一致します。

シミュラクラとしての意識的エキゾティカ Simulacra as Conscious Exotica Murray Shanahan 背景 AIエージェントの人間らしさが進化し、意識の再定義が求められています。
目的 AIと意識の関係を明らかにする重要性を探求します。提案ヴィトゲンシュタインの視点を用いて AIの意識性を考察します。評価哲学的分析を通じて、 AIと意識の関連を議論しました。結果 AIエージェントの意識性について新たな視点を提案しました。

知識拡張を用いたマルチエージェント討論システムの学習 Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate
System Haotian Wang and Xiyuan Du and Weijiang Yu and Qianglong Chen and Kun Zhu and Zheng Chu and Lian Yan and Yi Guan 背景マルチエージェント討論システムは真実追求のために重要ですが、知識の違いが問題です。目的異なる知識背景を持つエージェントの認識を統合し最適解を求めることが目的です。提案 MADKEフレームワークは共有知識プールを用い、適応的知識選択を提案します。評価 6つのデータセットを用いて、既存手法と比較し実験を行い性能を評価しました。結果 MADKEは一貫性と正確性を向上させ、 GPT-4を上回る性能を示しました。

模擬的社会的相互作用で社会的調整された言語モデルを訓練する Training Socially Aligned Language Models
on Simulated Social Interactions Ruibo Liu and Ruixin Yang and Chenyan Jia and Ge Zhang and Denny Zhou and Andrew M. Dai and Diyi Yang and Soroush Vosoughi 背景現在の LMsは、社会的価値観を反映することが難しく、未知の状況に弱い。目的社会的成長をモデル化し、より良い一般化と安全性を LMs に付与する。提案模擬的な社会的相互作用を通じて LMsを訓練することで、社会的調整を改善する。評価新しい手法の評価は、社会的調整ベンチマークと人間評価を用いた。結果新手法はスケーラブルかつ効率的で、既存手法よりも優れた適合性を示した。

ゲームエージェントと大規模モデルに関する調査 : 方法、応用、および課題 A Survey on Game Playing Agents
and Large Models: Methods, Applications, and Challenges Xinrun Xu and Yuxin Wang and Chaoyi Xu and Ziluo Ding and Jiechuan Jiang and Zhiming Ding and Börje F. Karlsson 背景大規模モデルは進化が早く、その使用法の包括的な把握が必要です。目的進化する LMのゲーム内での可能性を系統的にレビューします。提案 LMベースエージェントの現行アーキテクチャを分析し、共通点と課題をまとめます。評価 GitHubリポジトリでリソースを提供し、研究者の理解を助けます。結果 LMのゲーム研究の将来性についての見解を示します。

MetaAgents: 人間行動の相互作用をシミュレートする協調型生成エージェント MetaAgents: Simulating Interactions of Human Behaviors for
LLM-based Task- oriented Coordination via Collaborative Generative Agents Yuan Li and Yixuan Zhang and Lichao Sun 背景 LLMは多様なタスクに応用が進む一方、社会的調整能力は十分に研究されていない。目的 LLMが人間のような社会行動を模倣し、意味ある結果を生む能力を探る。提案我々は協調型生成エージェントを導入し、タスク解決能力を持たせた。評価シミュレーションされた就職フェア環境での調整能力を検証した。結果エージェントは有望な性能を示すが、複雑な調整には限界がある。

「 ChatGPT、私に指示しないで」：人道的な最前線交渉における文脈分析のための AI設計 "ChatGPT, Don't Tell Me What
to Do": Designing AI for Context Analysis in Humanitarian Frontline Negotiations Zilin Ma and Yiyang Mei and Claude Bruderlein and Krzysztof Z. Gajos and Weiwei Pan 背景人道的交渉において AIはプロセスの文脈分析が未解決です。目的交渉プロセスでの AI活用をプロセス重視で検討することです。提案文脈を重視した柔軟な AIツールの設計を提案します。評価 32名の熟練交渉者と共同で反復的設計を行いました。結果交渉者の専門性を高めるツール設計の方向を示しました。

スポーツファイ : スポーツビデオにおける埋め込み型ビジュアライゼーションと擬人化されたナラティブによる質問応答システム Sportify: Question Answering with Embedded
Visualizations and Personified Narratives for Sports Video Chunggi Lee and Tica Lin and Hanspeter Pfister and Zhu-Tian Chen 背景バスケットボールの人気が高まると共に、その戦術理解の難しさがファンに障害となる。目的バスケットボール戦術の理解向上を支援するための解決策を提供する。提案視覚的質問応答システムスポーツファイでナラティブとビジュアライゼーションを統合する。評価バスケットボールファンを対象に、戦術理解への影響を評価し各ナラティブの効果を比較。結果第三者視点のナレーションが詳細な戦術説明を提供し、没入感が向上する。

大規模言語モデルを用いたメモリ強化型会話型推薦システム MemoCRS: Memory-enhanced Sequential Conversational Recommender Systems with Large
Language Models Yunjia Xi and Weiwen Liu and Jianghao Lin and Bo Chen and Ruiming Tang and Weinan Zhang and Yong Yu 背景会話型推薦システムはユーザー嗜好を理解し個別化した推薦を行うが、多くのシステムでは過去の対話セッションの情報目的メモリ強化型モデルを用いて過去の対話 session の情報を活用し、新規ユーザーにも効果的な推薦を行う。提案ユーザー固有のメモリと一般メモリを備えた MemoCRSフレームワークを提案し、嗜好の連続性と新規ユーザー問題に対評価中国語と英語のデータセットで、広範な実験を行い提案手法の有効性を検証。結果 MemoCRSはユーザーにより正確で個別化された推薦を行う能力を高めることを実証した。

プロンプト感染 : マルチエージェントシステム内での LLM間プロンプトインジェクション Prompt Infection: LLM-to-LLM Prompt Injection
within Multi-Agent Systems Donghyun Lee and Mo Tiwari 背景 LLMの進化に伴い、プロンプトインジェクションの安全性が単一エージェントで重視されてきた。目的マルチエージェントシステムにおけるプロンプト感染という新たな危険を明らかにする。提案悪意のあるプロンプトがエージェント間で自己繁殖する "プロンプト感染 "を提案。評価マルチエージェントシステムの脆弱性を実証するために大規模な実験を実施した。結果 LLMタグ付けによって感染の拡大を大幅に抑制できると示唆。

診療現場でのエージェントとしての大規模言語モデルの評価 Evaluating large language models as agents in the
clinic Nikita Mehandru and Brenda Y Miao and Eduardo Rodriguez Almaraz and Madhumita Sushil and A. Butte and Ahmed Alaa 背景 LLMは医療情報の統合や臨床判断支援などに活用される可能性があります。目的 LLMエージェントを臨床環境で安全に展開するため、評価フレームワークの確立が必要です。提案新しい評価方法として「 AI-SCE」を提案し、複雑な臨床環境での影響を検討します。評価高精度のシミュレーションを用いた評価フレームワークを導入し、影響を分析しました。結果実世界での臨床評価の強化が、医療への LLM配備の鍵となります。

大規模言語モデルの社会計算研究における新しい規範の形成 Shaping the Emerging Norms of Using Large Language
Models in Social Computing Research Hong Shen and Tianshi Li and Toby Jia-Jun Li and J. Park and Diyi Yang 背景大規模言語モデルの登場が社会計算研究に大きな影響を与える。目的 LLMs利用時の有効性・プライバシー・倫理の課題を解決する。提案 LLMsに関する新しい規範形成のための議論の場を提供。評価研究者間での現在の実践や視点の議論を通じて評価。結果新しい規範の形成に向けた理解と協働が促進される。

マルチエージェント会話型推薦システム A Multi-Agent Conversational Recommender System Jiabao Fang and Shen
Gao and Pengjie Ren and Xiuying Chen and Suzan Verberne and Zhaochun Ren 背景大規模言語モデルは流暢な会話を可能にしますが、 CRSには明確な目標が必要です。目的ユーザーの好みをより適切にモデル化し、推奨の質を向上させることです。提案 MACRSは、マルチエージェント行動計画とフィードバック反映メカニズムを提案します。評価ユーザーシミュレーターによる広範な実験で提案手法の有効性を確認しました。結果 MACRSはユーザーとの相互作用経験を向上し、 LLMを直接使用するよりも効果的です。

大規模立法モデル : 効率的 AI政策決定に向けた経済シミュレーション Large Legislative Models: Towards Efficient
AI Policymaking in Economic Simulations Henry Gasztowtt and Benjamin Smith and Vincent Zhu and Qinxun Bai and Edwin Zhang 背景経済政策改善は、社会全体の利益に繋がる重要な課題です。目的 AIで経済政策を人間以上に効率的に実現することを目指します。提案 LLMを活用し、社会的に複雑な環境で効率的な政策を行う方法を提案します。評価 3つの環境での実験により、提案手法の効率性を検証しました。結果提案手法は、既存方法を効率面で上回ることを実証しました。

模倣を超えて : 大規模言語モデルによる人間の移動パターンの生成 Beyond Imitation: Generating Human Mobility from
Context-aware Reasoning with Large Language Models Chenyang Shao and Fengli Xu and Bingbing Fan and Jingtao Ding and Yuan Yuan and Meng Wang and Yong Li 背景人間の移動は社会問題に関連しますが、データ収集は高コストでプライバシーの問題があります。目的移動行動の意図を効果的に捉える高品質な生成モデルの構築。提案移動生成を常識的推論として位置づけ、 LLMを活用した新手法 MobiGeaRを提案。評価実データセットを用いて MobiGeaRの性能を全指標で評価。結果 MobiGeaRは最先端の性能を持ち、必要な学習サンプルを大幅に削減。

見逃されたつながり : 大規模言語モデルのための横断思考パズル Missed Connections: Lateral Thinking Puzzles for
Large Language Models Graham Todd and Timothy Merino and Sam Earle and Julian Togelius 背景 Connectionsパズルは単語をグループ化し、抽象的推論を必要とするため AIシステムには挑戦的です。目的 AIシステムの抽象的推論能力を評価し、言語モデルのセマンティック情報の度合いを測定することです。提案大規模言語モデルと文埋め込みのベースラインを使用して、 Connectionsの能力を評価します。評価チェーン・オブ・ソートを利用し、大規模言語モデルの精度と失敗原因を分析しました。結果 Connectionsは難解ながらも可能で、将来的な研究のための強力なテストベッドです。

文脈での模倣は大規模言語モデルの強みとバイアスを明らかにする In-Context Impersonation Reveals Large Language Models' Strengths and
Biases Leonard Salewski and Stephan Alaniz and Isabel Rio-Torto and Eric Schulz and Zeynep Akata 背景文脈での模倣が LLMの適応力と潜在的バイアスをどのように明らかにするかを探ります。目的異なるペルソナを設定することで LLMの性能やバイアスがどのように変わるかを解明する。提案ペルソナ設定で LLMが異なる知識やバイアスを示せるとの仮説を提唱。評価複数の知識領域や個々の模倣パフォーマンスをタスクを通じて評価分析。結果ペルソナ設定により LLMの特性やバイアスが顕在化することを確認した。

大規模言語モデルにおける合成データを用いたフェデレーテッドなドメイン特化知識の伝達 Federated Domain-Specific Knowledge Transfer on Large Language
Models Using Synthetic Data Haoran Li and Xinyuan Zhao and Dadi Guo and Hanlin Gu and Ziqian Zeng and Yuxing Han and Yangqiu Song and Lixin Fan and Qiang Yang 背景外部 LLMを直接使用できないため、 LLMと SLMの知識伝達が重要です。目的プライバシーを守りつつ、 SLMの性能向上を目指しています。提案差分プライバシーを使った合成データでドメイン特化知識を伝達します。評価広範な実験によって FDKTフレームワークの有効性を評価しました。結果 FDKTは SLMのタスク性能を約 5%向上させました。

AutoGen: 次世代 LLMアプリケーションを多エージェント会話フレームワークで実現 AutoGen: Enabling Next-Gen LLM Applications via
Multi-Agent Conversation Framework Qingyun Wu and Gagan Bansal and Jieyu Zhang and Yiran Wu and Shaokun Zhang and Erkang Zhu and Beibin Li and Li Jiang and Xiaoyun Zhang and Chi Wang 背景多エージェントシステムを用いたアプローチの需要が増加しています。目的タスク解決のために LLMと人間の知恵を活用することです。提案 AutoGenフレームワークで多エージェントの会話を実現します。評価 AutoGenの使用例を開発者向けにいくつか提示しています。結果 AutoGenは様々なタスクに効果的であると示されています。

経験と相互作用を通じた機械のモラル学習 Learning Machine Morality through Experience and Interaction Elizaveta Tennant
and Stephen Hailes and Mirco Musolesi 背景次世代 AIの安全性確保のため、モラルの組み込みが重要視されている。目的エージェントに対するハイブリッドなモラル導入手法の提案。提案強化学習を用いた経験からのモラル学習とハイブリッド手法。評価ケーススタディや社会的ジレンマで本質的報酬を用いた実証。結果ハイブリッドアプローチの可能性とモラル学習の有効性を確認。

石油・ガス産業における AGI：レビュー Artificial General Intelligence (AGI) for the oil and
gas industry: a review J. Li and Tiancheng Zhang and Yiran Zhu and Zhongwei Chen 背景石油・ガス産業は、効率向上と革新が求められる重要な領域です。目的 AGIにより石油・ガス業界の複雑な運用課題を解決することを目指します。提案 LLMとコンピュータビジョンを活用し、効率向上を図ります。評価 AGIモデルの導入における課題や必要な専門知識を体系的に評価しました。結果 AGIは、石油・ガス業界での問題解決に大きな可能性を秘めています。

大規模言語モデルとしての権力の道具 : 自律的操作と制御の新しい体制 Large Language Models as Instruments of
Power: New Regimes of Autonomous Manipulation and Control Yaqub Chaudhary and Jonnie Penn 背景 LLMsは低コストで多様な情報操作が可能になり、社会に新たな損害を引き起こす。目的 LLMsの制御手段としての潜在的な社会的損害の理解と警鐘を打つ。提案会話インターフェースや強化学習との組み合わせで制御可能な戦略的対話モデルを提案。評価研究領域として説得、計算モデル、一連の技術的統合を考察し、制御手段を分析。結果個人、社会、政治的統制を行う強力な LLMベースのシステム構築につなげる。

偏見は深く根付いている : ペルソナを割り当てられた LLMにおける暗黙の推論バイアス Bias Runs Deep: Implicit Reasoning
Biases in Persona-Assigned LLMs Shashank Gupta and Vaishnavi Shrivastava and A. Deshpande and A. Kalyan and Peter Clark and Ashish Sabharwal and Tushar Khot 背景 LLMはペルソナを使って人間行動のシミュレーションが可能ですが、その能力への影響は不明です。目的ペルソナ割り当てが LLMの推論能力に与える影響を明確にすることが目的です。提案ペルソナの割り当てが LLMの推論能力に影響を及ぼす副作用を研究します。評価 24の推論データセット、 4つの LLM、 19の多様なペルソナを用いて実験しました。結果ペルソナ割り当てはバイアスを顕在化させ、 LLMの性能を著しく低下させることがあります。

エージェントの連鎖 : 長文タスクで協力する大規模言語モデル Chain of Agents: Large Language Models
Collaborating on Long-Context Tasks Yusen Zhang and Ruoxi Sun and Yanfei Chen and Tomas Pfister and Rui Zhang and Sercan Ö. Arik 背景長いコンテキストの処理は大規模言語モデルの課題であり、解決が求められています。目的入力削減やウィンドウ拡張の限界を補う方法を模索しています。提案 **Chain-of-Agents (CoA)**は、エージェント間の協力を通じて情報を統合する新手法です。評価質問応答、要約、コード完成の長文タスクで手法を評価しました。結果 RAGや他の手法と比較して最大 10%の性能向上を確認しました。

XUAT-Copilot: 大規模言語モデルを用いたユーザー受け入れテストのマルチエージェント協働システム XUAT-Copilot: Multi-Agent Collaborative System for Automated
User Acceptance Testing with Large Language Model Zhitao Wang and Wei Wang and Zirao Li and Long Wang and Can Yi and Xinjie Xu and Luyang Cao and Hanjing Su and Shouzhi Chen and Jun Zhou 背景 WeChat Payの UATプロセスの自動化が進んでいますが、テストスクリプト生成が労働集約的です。目的テストスクリプト生成の自動化レベルを向上させ、人手を削減することが目的です。提案 LLM駆動のマルチエージェントシステムで、 UATの自動化を図ります。評価 LLMエージェントをテストに使用し、人間テスターと同等の効果を実験で確認。結果提案システムの導入で、 Pass@1精度が単一エージェントと比べ大幅に向上しました。

LLMにおける Linux権限昇格攻撃の自動化 LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks
A. Happe and Aaron Kaplan and Jürgen Cito 背景ペネトレーションテストはシステム脆弱性の特定・修正に不可欠です。目的研究目的は LLMを権限昇格に利用する際の能力と課題の理解です。提案我々は LLMを用いた完全自動権限昇格ツールを提案します。評価複数の LLMを用いてベンチマークテストを実施し、結果を比較しました。結果 GPT-4-turboは脆弱性の 33〜 83%を悪用できると示されました。

社会契約 AI: AIアシスタントの暗黙のグループ規範への適合 Social Contract AI: Aligning AI Assistants
with Implicit Group Norms Jan-Philipp Franken and Sam Kwok and Peixuan Ye and Kanishk Gandhi and Dilip Arumugam and Jared Moore and Alex Tamkin and Tobias Gerstenberg and Noah D. Goodman 背景 AIの適合問題は AIがユーザーの多様な嗜好に従う能力にかかわる。目的ユーザーの行動から暗黙の嗜好を AIに学習させる方法を模索する。提案ユーザーの嗜好を逆推定することで AIをユーザーニーズに適合させる手法を提案。評価経済的最後通告ゲームで初期シミュレーションを行い、提案を検証。結果 AIは標準方針には適合するが、新しい状況での一般化に限界がある。

人間の行動決定の予測と理解 : 大規模言語モデルと認知インスタンスベース学習からの洞察 Predicting and Understanding Human Action
Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning Thuy Ngoc Nguyen and Kasturi Jamale and Cleotilde Gonzalez 背景 AIが人間の行動と偏見を理解することは、支援システムにおいて重要な課題です。目的 LLMsの能力を活用し、人間の意思決定を予測する方法を提案します。提案実験を通じて、 LLMsと IBLモデルの性能を比較します。評価二つの意思決定タスクでの人間の行動予測を検証します。結果 LLMsはフィードバックの統合が優秀、 IBLは探索行動や損失回避バイアスを効果的に捉える。

懐疑から受容へ : フェイクニュースへの態度変化をシミュレーションする From Skepticism to Acceptance: Simulating the
Attitude Dynamics Toward Fake News Yuhan Liu and Xiuying Chen and Xiaoqing Zhang and Xing Gao and Ji Zhang and Rui Yan 背景フェイクニュースはデジタル社会の大きな課題であり、公共意見を乱す。目的フェイクニュースへの意見動態を詳細にモデル化し、対策を模索する。提案 FPSを使い、意見の微細な変化を LLMでシミュレーションする。評価エージェント間の意見交換を通じ、現実世界に即した動態を検証する。結果早期かつ適切な介入が効果的で、 LLMsの可能性を示す。

大規模言語モデルの創造性について On the Creativity of Large Language Models Giorgio Franceschelli
and Mirco Musolesi 背景 **大規模言語モデル（ LLM） **は AIの分野で技術的・社会的に重要です。目的創造性を持つとされる LLMが本当に創造的かを検証します。提案価値、新規性、驚きの次元で LLMの創造性を分析します。評価機械創造性における異なる問題を LLMの視点から議論しました。結果 LLMが社会に与える影響とそれに伴う法的・倫理的リスクを分析しました。

生成的人工知能を意思決定の認知モデルに適用 Applying Generative Artificial Intelligence to cognitive models of
decision making Tyler Malloy and Cleotilde Gonzalez 背景生成的 AIは意思決定の認知モデルに影響を与えているが理論的関連は未整理。目的生成的 AIを認知モデルに統合し、理論的に関連付けを示す。提案生成的 AIを用いた記憶表現と行動予測を統合したモデルを提案。評価視覚情報と自然言語を用い、インスタンスベース学習理論を基にした実験を実施。結果生成的モデルは記憶形成と行動予測において有用性を示した。

言語ボトルネックを活用したポリシー学習 Policy Learning with a Language Bottleneck Megha Srivastava and
Cedric Colas and Dorsa Sadigh and Jacob Andreas 背景現代の AIは超人的な能力を持つが、解釈可能性や相互運用性が不足している。目的言語を用いて AIの一般化と解釈可能性を向上させることが目的。提案 PLLBは言語モデルを活用し、 AIエージェントの戦略を言語ルールとして生成する手法。評価ゲームやタスクで PLLBの一般化可能性と人間共有性を検証する実験を実施。結果 PLLBにより解釈可能かつ共有可能な戦略が実現され、人間 AI協調が向上した。

CoEvol: 多エージェント協力による指示微調整のためのより良い応答の構築 CoEvol: Constructing Better Responses for Instruction Finetuning
through Multi- Agent Cooperation Renhao Li and Minghuan Tan and Derek F. Wong and Min Yang 背景大規模言語モデルがタスク性能を向上させるためのインストラクション微調整が注目を集めています。目的 LLMの潜在能力を用いてデータ品質を向上させる新手法の開発を目指します。提案 CoEvolという多エージェント協力フレームワークを提案し、応答を反復的に洗練させます。評価 MT-Benchと AlpacaEvalを用いてフレームワークの効果を実証しました。結果 CoEvolを搭載したモデルが競合ベースラインを上回る成果を示しました。

大規模コンテンツと行動モデルによるコンテンツと行動の理解、シミュレーション、最適化 L ARGE C ONTENT AND B EHAVIOR
M ODELS TO U N - DERSTAND , S IMULATE , AND O PTIMIZE C ONTENT AND B EHAVIOR Aditya Agrawal and Aanisha Bhattacharyya and Yaman Kumar Singla and Somesh Singh and Uttaran Bhattacharya and Ishita Dasgupta and Stefano Petrangeli and R. Shah and Changan Chen and Balaji 背景シャノンが提唱する情報伝達の 3レベルにおいて、受信者行動の予測と最適化が重要。目的 LLMに行動トークンを再導入し、受信者行動の予測と最適化を目指す。提案行動トークンを取り入れた LCBMを提案し、行動理解とシミュレーションを拡張。評価 2種類のコーパスと多様なタスクを用いて、モデルの一般化能力を評価。結果 LCBMはコンテンツ理解に加え、行動関連タスクでの一般化能力を示し有望な結果を得た。

言語モデルへの哲学的入門 - パート II: 未来への道 A Philosophical Introduction to
Language Models - Part II: The Way Forward Raphael Milliere and Cameron Buckner 背景言語モデル進展により、解釈可能性や意識に関する新たな哲学的問題が生じている。目的言語モデルの内部表現や計算を理解し、意識および認知への関連を探る。提案因果介入を用いて LLMの解釈可能性を解析し、複数の拡張を検討。評価因果介入手法を使用し、 LLMの内部表現と計算の特徴を分析。結果 LLMが人間認知モデルとしての関連性を持つ可能性が示唆された。

大規模モデルの評価のための認知タスク統合 AGIテスト Integration of cognitive tasks into artificial general intelligence
test for large models Youzhi Qu and Chen Wei and Penghui Du and Wenxin Che and Chi Zhang and Wanli Ouyang and Yatao Bian and Feiyang Xu and Bin Hu and Kai Du and Haiyan Wu and Jia Liu and Quanying Liu 背景大規模モデル評価は特定タスクに依存し、多次元知能評価の枠組みが欠如している。目的認知科学に着想を得た AGIテストで、大規模モデルの多次元知能を総合的に評価する。提案人間の知能テストに基づく認知テストを用いて、 AGIテストの複雑性を増加させる。評価 AGIテストにおける偽陽性や偽陰性を避けるために、結果の解釈を重視した。結果認知科学に基づく AGIテストは、モデルの特定知能次元の向上を効果的に導くと信じる。

AIによる完全自動化ビッシング攻撃の実現可能性について On the Feasibility of Fully AI-automated Vishing Attacks
Joao Figueiredo and Afonso Carvalho and Daniel Castro and Daniel Gonccalves and Nuno Santos 背景ビッシングは音声を利用した社会工学攻撃で、情報セキュリティを脅かす深刻な問題です。目的 AIを利用した完全自動化されたビッシング攻撃の可能性を研究し、その脅威を理解することが目的です。提案 AIを駆使したビッシングシステム ViKingを提案し、大規模言語モデルを用いて会話を操る能力を検討します。評価 ViKingの評価には 240人の参加者を用いた制御された社会実験を実施しました。結果結果、多くの参加者が情報を開示し、攻撃が現実的かつ可能性の高いものであることが示されました。

非 AI専門家のための多エージェント調整による構造的プロンプト生成 Minstrel: Structural Prompt Generation with Multi-Agents Coordination
for Non-AI Experts Ming Wang and Yuanzhong Liu and Xiaoyu Liang and Yijie Huang and Daling Wang and Xiaocui Yang and Sijia Shen and Shi Feng and Xiaoming Zhang and Chaofeng Guan and Yifei Zhang 背景 LLMは強力だが、非 AI専門家にはプロンプト作成が難題です。目的非 AI専門家でも質の高いプロンプトを作成可能にすることが目的です。提案 Minstrelは、多生成エージェントを用いて構造的プロンプトを自動生成します。評価実験とユーザー調査で、生成されたプロンプトの性能と使いやすさを評価しました。結果 Minstrelのプロンプトは、 LLMの性能向上と使いやすさで優れています。

シミュレーションを用いた LLM実験 : プロセスシミュレーションパラメトライズ化のための大規模言語モデルマルチエージェントシス LLM experiments with simulation:
Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins Yuchen Xia and Daniel Dittler and N. Jazdi and Haonan Chen and M. Weyrich 背景デジタルツインのシミュレーションパラメトライズは複雑で手動の負担が大きい。目的プロセスシミュレーションの自動パラメトライズで負荷を軽減することが重要。提案マルチエージェントシステムによる LLM活用でパラメータ設定を自動化する。評価事例研究を通じてシステムの有効性と機能性を検証。結果ユーザーフレンドリー性が向上し、使用者の認知負荷が軽減される。

Proxona: LLM駆動のペルソナを活用してクリエイターの視聴者理解を向上 Proxona: Leveraging LLM-Driven Personas to Enhance Creators'
Understanding of Their Audience Yoonseo Choi and Eun Jeong Kang and Seulgi Choi and Min Kyung Lee and Juho Kim 背景クリエイターは視聴者理解が不十分なため、コンテンツを最適化できずにいます。目的視聴者の深い理解を可能にすることで、クリエイターのコンテンツ改善を支援します。提案 Proxonaは視聴者コメントを分析し、合成ペルソナの作成をサポートします。評価視聴者を反映したペルソナの生成能力を技術とユーザーの観点から評価しました。結果 Proxonaを使用することでクリエイターは視聴者理解を深め、効果的な決定が可能になりました。

チャットボットがユーザーの発言を過去のセッションから参照する方法の比較 : プライバシーに対するユーザーの懸念と認識の調査 Comparing How a Chatbot References
User Utterances from Previous Chatting Sessions: An Investigation of Users' Privacy Concerns and Perceptions Samuel Rhys Cox and Yi-Chieh Lee and Wei Tsang Ooi 背景チャットボットが過去の会話を参照する方法は、ユーザーの関与やプライバシーに影響する重要な課題です。目的過去の会話参照がユーザーのプライバシーと関与にどう影響するかを解明することが目的です。提案逐語および言い換え参照法を用いて、ユーザーの認識とプライバシーへの影響を探ります。評価 3週間の縦断被験者間研究で、異なる参照形式のチャットボットを比較しました。結果逐語参照は知的と認識されつつも、プライバシーへの懸念を引き起こしました。

大規模言語モデルベースのエージェントプラットフォームにおける個別推奨の展望 Prospect Personalized Recommendation on Large Language Model-based Agent
Platform Jizhi Zhang and Keqin Bao and Wenjie Wang and Yang Zhang and Wentao Shi and Wanhong Xu and Fuli Feng and Tat-Seng Chua 背景エージェント指向の情報システム、特に LLMベースのエージェントに必要なインフラが不足しています。目的大規模言語モデルプラットフォームでの新しいレコメンデーションシステムの地平を開くことです。提案 Rec4Agentverseは、エージェントアイテムとエージェントレコメンダーの協力を強調する新しいパラダイムです。評価 Rec4Agentverseのケーススタディによって、その応用可能性と重要性を予備的に検証しました。結果 Rec4Agentverseは個別情報サービスの促進に大きな潜在力を持つと示唆されます。

10億のペルソナで合成データ作成を拡大する Scaling Synthetic Data Creation with 1,000,000,000 Personas Xin Chan
and Xiaoyang Wang and Dian Yu and Haitao Mi and Dong Yu 背景合成データの多様性と質を高める手法が重要視されています。目的ペルソナを用いた合成データ生成の拡張性を検証すること。提案ペルソナハブを用いた新たなデータ合成手法を提案します。評価数学問題や論理問題生成を通じて手法の効果を検証。結果ペルソナ駆動の合成データが多様で適用範囲が広いことを確認。

演劇の一片：教師が設計する LLMチャットボットによるサイバーいじめ教育の支援調査 A Piece of Theatre: Investigating How Teachers
Design LLM Chatbots to Assist Adolescent Cyberbullying Education Michael A. Hedderich and Natalie N. Bazarova and Wenting Zou and Ryun Shim and Xinda Ma and Qian Yang 背景サイバーいじめは若者の精神的健康に害を及ぼすため、教育が重要です。目的教師がサイバーいじめ教育のための効果的なチャットボット設計を支援すること。提案ノーコードツールを使用し、教師が自作の対話フローを設計可能にします。評価教師がツールを使いどのように設計するかを調査し、その反応を分析します。結果教師はツールを歓迎し、劇的手法で学生の行動を導く機会を認識しました。

ReMEmbR: ロボットナビゲーションのための長期的時空間メモリの構築と推論 ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal
Memory for Robot Navigation Abrar Anwar and John Welsh and Joydeep Biswas and Soha Pouya and Yan Chang 背景ロボットが長期間にわたり複雑な環境を理解しナビゲートすることは挑戦的です。目的ロボットが長期間の活動履歴の推論を可能にし、情報提供を向上させることです。提案リトリーバル強化メモリ ReMEmbRを提案し、長期ビデオ質問応答を実現しました。評価 NaVQAデータセットを用い空間的・時間的質問に対応した実験を行いました。結果 ReMEmbRは基本モデルを上回り、ロボットが多様なクエリに低遅延で対応可能と示しました。

知識駆動型自動運転に向けて Towards Knowledge-driven Autonomous Driving Xin Li and Yeqi Bai
and Pinlong Cai and Licheng Wen and Daocheng Fu and Bo Zhang and Xuemeng Yang and Xinyu Cai and Tao Ma and Jianfei Guo and Xing Gao and Min Dou and Yikang Li and Botian Shi and Yong Liu 背景現行の自動運転はデータバイアスに敏感で、シナリオ対応が困難です。目的知識駆動技術で自動運転の限界を克服することを目指します。提案認識、一般化、生涯学習を持つ知識駆動型自動運転技術を提案します。評価大規模言語モデルやニューラルレンダリングを利用した総合システム評価を行います。結果知識駆動技術により、適応的で知的な自動運転が実現可能と示されます。

生成 AI技術でデジタルツインを強化 : シミュレーションから予測へ From Simulation to Prediction: Enhancing
Digital Twins with Advanced Generative AI Technologies Yijun Huang and Jihan Zhang and Xi Chen and Alan H. F. Lam and Ben M. Chen 背景生成 AIの統合は、デジタルツインの機能を拡張し、新たな応用を可能にします。目的 GAI技術を用いて、デジタルツインを動的で予測的なツールに変革します。提案主に大規模言語モデルを活用し、 GAIをデジタルツインに組み込む方法を提案します。評価 GAIを用いた生成データセット生成や未曾有のイベントシミュレーションの方法を分析します。結果 GAI統合で、デジタルツインは多様な分野での効率性と意思決定支援を強化しました。

大規模言語モデル利用によるスマートコントラクト脆弱性検出 : 新たな視点 Large Language Model-Powered Smart Contract Vulnerability
Detection: New Perspectives Sihao Hu and Tiansheng Huang and Fatih Ilhan and S. Tekin and Ling Liu 背景 LLMを用いたスマートコントラクト脆弱性の検出は、精度向上と誤検知の抑制が課題。目的スマートコントラクトの真の脆弱性を多く特定し、誤検知を減らすこと。提案二段階プロセスである GPTLENSを提案し、 LLMが監査者と批評家を兼任。評価監査者と批評家による協調動作を実験で評価し、モデルの改善を確認。結果新方法は従来法よりも誤検知を減少させ、適用範囲を広げることが判った。

大規模言語モデルによるマクロ経済活動のシミュレーション Large Language Model-Empowered Agents for Simulating Macroeconomic Activities
Nian Li and Chen Gao and Yong Li and Qingmin Liao 背景ウェブの登場でデジタル経済が進化し、データ駆動型のマクロ経済モデリングが重要視される。目的 LLMsをマクロ経済シミュレーションに活用し、人間らしい意思決定の課題を克服すること。提案プロンプトエンジニアリングを駆使した LLMエージェントで人間のような経済意思決定を導入。評価マクロ経済活動のシミュレーションを通じて、 LLMエージェントの現実的な意思決定を検証。結果 LLMエージェントは従来より合理的なマクロ経済現象を生み出すと示された。

異なる世界観を持つ LLM: LLMベースのエージェントで異星人文明をシミュレートする What if LLMs Have Different World
Views: Simulating Alien Civilizations with LLM- based Agents Mingyu Jin and Beichen Wang and Zhaoqian Xue and Suiyuan Zhu and Wenyue Hua and Hua Tang and Kai Mei and Mengnan Du and Yongfeng Zhang 背景スティーブン・ホーキングの警告に基づき、異星人文明との相互作用がテーマです。目的平和的共存の実現可能性を評価し、リスクを考慮に入れます。提案 CosmoAgentフレームワークを用い、異なる文明間の倫理的相互作用をシミュレートします。評価数理モデルと状態遷移行列を使い、文明の発展を定量的に評価します。結果異星間紛争防止のための新しい戦略が示唆されました。

大規模言語モデルベースのエージェントにおけるメモリ共有 Memory Sharing for Large Language Model based Agents
Hang Gao and Yongfeng Zhang 背景 LLMベースのエージェントは自然言語プロンプトでタスクを実行しますが、例の多様性に制約があります。目的メモリ共有フレームワークで個別の知性を集団知へ進化させる問題を解決します。提案リアルタイムメモリフィルターと動的メモリプールを用いて、複数エージェントの記憶共有を実現します。評価 3つの専門タスク分野でフレームワークの有効性を実験的に評価しました。結果 MSフレームワークは、エージェントがオープンエンド質問に答える能力を大幅に向上させました。

(不確定な )心の理論の評価 : 対話予測における他者の不確かな信念の予測 Evaluating Theory of (an uncertain)
Mind: Predicting the Uncertain Beliefs of Others in Conversation Forecasting Anthony Sicilia and Malihe Alikhani 背景従来、心の理論は信念を二元的に捉えており、不確実な信念の量的評価が求められています。目的対話における他者の不確実な信念を予測することで、心の理論における新たな視点を提供します。提案言語モデルを活用し、対話者の不確実性をモデル化する新しいタスク群を提案します。評価再スケーリング、分散削減、人口統計を用いた 3つのコーパスでの実験を行い、 8つの LMの性能を評価しました。結果言語モデルは他者の不確実性の最大 7%の分散を説明しますが、さらなる研究の必要性を指摘します。

大規模言語モデルによる生物医学的仮説生成の包括的評価 Large Language Models as Biomedical Hypothesis Generators: A
Comprehensive Evaluation Biqing Qi and Kaiyan Zhang and Kai Tian and Haoxiang Li and Zhang-Ren Chen and Sihang Zeng and Ermo Hua and Jinfang Hu and Bowen Zhou 背景急速な知識増加で効率的に洞察や仮説を得るのが困難。目的 LLMsを生物医学仮説生成に活用する可能性を評価。提案データセットと新しい指標を用い、 LLMの仮説生成を検証。評価ゼロショットやマルチエージェントで多角的に性能を評価。結果 LLMは新しい仮説生成が可能で、不確実性が性能を向上。

檻から出たインコ : 確率的インコはサイバーセキュリティ環境でどのように勝利するか Out of the Cage: How Stochastic
Parrots Win in Cyber Security Environments M. Rigaki and Ondrej Lukás and C. Catania and S. García 背景 LLMは多様な自然言語処理タスクで注目されており、その適用範囲を拡大しています。目的サイバーセキュリティ環境で LLMが複雑な意思決定を支援可能かを解明することが目的です。提案事前学習された LLMを利用し、攻撃エージェントとしての能力を評価します。評価強化学習環境で最先端エージェントと比較することで性能を検証しました。結果最高の LLMエージェントは追加訓練なしで人間に匹敵する結果を示しました。

デジタルライフプロジェクト : 社会的知性を持つ自律型 3Dキャラクター Digital Life Project: Autonomous 3D
Characters with Social Intelligence Zhongang Cai and Jian-Dong Jiang and Zhongfei Qing and Xinying Guo and Mingyuan Zhang and Zhengyu Lin and Haiyi Mei and Chen Wei and Ruisi Wang and Wanqi Yin and Xiangyu Fan and Han Du and Liang Pan and 背景 3Dキャラクターの社会的相互作用を強化するため、信頼性と多様性のある動きが求められている。目的自律的対話と文脈的動作を可能にするキャラクター生成を目指す。提案 SocioMindと MoMat-MoGenを開発し、人格と動作の自律モデルを提供。評価各モジュールの性能を評価するため、広範な実験を実施。結果各モジュールが最高水準のパフォーマンスを達成し、目指すキャラクター生成が可能に。

JaxLife: オープンエンドのエージェントシミュレーター JaxLife: An Open-Ended Agentic Simulator Chris Lu
and Michael Beukman and Michael Matthews and Jakob Foerster 背景人間の知能のような進化をデジタルで再現することが重要視される。目的世代を超えた文化と技術を蓄積できるエージェントの進化を目指す。提案 JaxLifeという人工生命シミュレーターを用いて研究を行う。評価環境でのエージェントの行動を分析し、計算能力を測定する。結果エージェントの複雑な行動が観察され、進化的研究の一歩となると示唆。

事前登録された合成実験 Pre-registered Synthetic Experiment Raymond Duch and Piotr Kotlarz 背景
AIを用いてランダム化試験の効率を改善する技術が求められます。目的合成被験者の決定が実験の有用性を向上させるか検証します。提案合成被験者による試験をヒト試験と並行して実施します。評価合成人体試験の結果を人間の試験結果と比較評価します。結果合成被験者の治療効果が実証されれば試験効率が増します。

SceMQA: 科学的大学入試レベルのマルチモーダル質問応答ベンチマーク SceMQA: A Scientific College Entrance Level Multimodal
Question Answering Benchmark Zhenwen Liang and Kehan Guo and Gang Liu and Taicheng Guo and Yujun Zhou and Tianyu Yang and Jiajun Jiao and Renjie Pi and Jipeng Zhang and Xiangliang Zhang 背景既存のベンチマークでは見過ごされがちな大学入試レベルの科学教育を対象。目的 AIモデルの推論能力をより正確に評価するためのベンチマークを提供。提案 SceMQAは選択式と自由回答を組み合わせた新しい評価基準を提案。評価オープン・クローズドソース MLLMを多様な実験設定で評価。結果最強のモデルでも最大 60%の精度で、さらなる研究が必要。

大規模言語モデルを活用したソーシャルネットワークシミュレーションシステム S3: Social-network Simulation System with Large Language Model-Empowered
Agents Chen Gao and Xiaochong Lan and Zhi-jie Lu and Jinzhu Mao and J. Piao and Huandong Wang and Depeng Jin and Yong Li 背景ソーシャルネットワークシミュレーションは、社会科学で政策立案などの課題解決に重要です。目的 LLMを用いて、人間的な感情や行動をシミュレートする新しい手法を提案します。提案大規模言語モデルとプロンプト技術を用いたエージェントベースのシミュレーションを構築しました。評価現実のソーシャルネットワークデータによる二層のシミュレーション評価を行いました。結果得られた結果は、高精度の現象予測と新たなインスピレーションを提供しました。

拡張現実と知識仕事の未来：機会と課題 Extended Realities and the Future of Knowledge Work: Opportunities
and Challenges A. Queiroz and Jeremy N. Bailenson and K. Blair and Daniel L. Schwartz and Candace Thille and Anthony David Wagner 背景 XR技術の普及により、職場環境の変化が必須となりました。目的研究は XRが知識仕事に与える影響を分析することです。提案 XRは職場のトレーニング、コミュニケーションを進化させます。評価 XR導入における課題と利益についてバランス良く論じました。結果 XRは職場環境を変革する可能性を持ちつつ、倫理的配慮が必要です。

教師モデルと生徒の好みを一致させたトレーニングデータ生成 Aligning Teacher with Student Preferences for Tailored Training
Data Generation Yantao Liu and Zhao Zhang and Zijun Yao and S. Cao and Lei Hou and Juanzi Li 背景 **大規模言語モデル (LLMs)**のエッジデバイス展開はプライバシーと低遅延のために重要。目的教師モデルを生徒の好みに合わせてトレーニング例を生成する問題を解決。提案生徒の好みに基づいて教員モデルを調整する ARTEというフレームワークを提案。評価学術ベンチマークで ARTEの効果を既存手法と比較し、広範囲な実験を実施。結果 ARTEは既存データセットを超える性能を示し、生成データの一般化も確認。

LLM搭載の仮想フォーカスグループ : Focus Agent Focus Agent: LLM-Powered Virtual Focus Group
Taiyu Zhang and Xuesong Zhang and Robbe Cools and Adalberto L. Simeone 背景フォーカスグループはリソースが多く必要で、スキルのあるモデレーターが求められている。目的フォーカスグループの効率化とデータ品質の改善を目指す。提案 LLMを活用した Focus Agentが人間のモデレーターの役割を果たす。評価 23人と AI参加者によるフォーカスグループセッションでデータを評価した。結果 Focus Agentは人間並みの意見生成が可能であることが示された。

HI-TOM: 大規模言語モデルにおける高次の心の理論推論を評価するベンチマーク HI-TOM: A Benchmark for Evaluating Higher-Order Theory
of Mind Reasoning in Large Language Models Yinghui He and Yufan Wu and Yilin Jia and Rada Mihalcea and Yulong Chen and Naihao Deng 背景心の理論（ ToM）は人間の知能発展にとり重要ですが、研究はまだ限られています。目的高次の ToMに焦点を当て、現行の大規模言語モデルの限界を明らかにすることです。提案 HI-TOMと呼ばれる高次の心の理論のベンチマークを提案します。評価様々な大規模言語モデルを用いて、高次の ToMタスク性能を実験的に評価しました。結果高次の ToMタスクでの性能低下が明らかになり、 LLMの限界を示しました。

大規模言語モデルにおけるコンテキスト長拡張技術の概要 - 詳細調査 The What, Why, and How of
Context Length Extension Techniques in Large Language Models - A Detailed Survey Saurav Pawar and S. Tonmoy and S. M. M. Zaman and Vinija Jain and Aman Chadha and Amitava Das 背景大規模言語モデルはテキスト理解と生成の進展に寄与しますが、コンテキスト長の制限があります。目的コンテキスト長の拡張が NLPアプリケーションの性能向上に不可欠であることを明らかにします。提案研究者が採用する既存の戦略を体系的に整理し、課題を提示します。評価コンテキスト拡張技術の評価基準に関する研究コミュニティの合意点と課題を探ります。結果本調査は、研究者が未来の進展を議論するための貴重なリソースを提供します。

"私は唯一のサイバー BFF": ジェネレーティブ AIの影響理解には人格化された AIの影響理解が必要 "I Am the
One and Only, Your Cyber BFF": Understanding the Impact of GenAI Requires Understanding the Impact of Anthropomorphic AI Myra Cheng and Alicia DeVrio and Lisa Egede and Su Lin Blodgett and Alexandra Olteanu 背景ジェネレーティブ AIの発展と社会的影響が重要視されています。目的人格化された AIの社会的影響を理解することが目的です。提案人格化 AIの影響を分析し行動を呼びかけています。評価人格化 AIの社会的影響をマッピングすることを提案します。結果人格化 AIの重要性を強調し社会的課題を提起します。

LLMの文化的価値の違い : プロンプト、言語、モデルサイズ Cultural Value Differences of LLMs: Prompt,
Language, and Model Size Qishuai Zhong and Yike Yun and Aixin Sun 背景 LLMの文化的価値における行動パターンが明確でないため、調査が必要とされる。目的異なる文化的価値観を持つ LLMの行動パターンを特定することが目的です。提案言語とモデルサイズが LLMの文化的価値に大きな影響を与えることを示す。評価異なるプロンプト言語やモデルサイズによる LLMの行動パターンを実験的に分析。結果主要因は問い合わせ言語とモデルサイズが文化的価値の違いを引き起こすことを発見。

システムメッセージ一般化による数千の嗜好に対応 Aligning to Thousands of Preferences via System Message
Generalization Seongyun Lee and Sue Hyun Park and Seungone Kim and Minjoon Seo 背景人間の多様な価値観に合わせた LLMの調整はスケーラビリティの課題がある。目的個々の嗜好に対応した LLM調整の新たなアプローチを示すこと。提案ユーザーの価値観に応じて LLMの生成行動を変える新しい枠組みを提案する。評価 192kの価値の組み合わせデータで Janusを訓練し、様々なプロンプトで評価。結果特定のベンチマークで高い引き分け +勝率を示し、一般公衆の嗜好にも適応。

大規模言語モデルを用いたコミュニケーションゲームの探求：人狼における実証研究 Exploring Large Language Models for Communication Games: An
Empirical Study on Werewolf Yuzhuang Xu and Shuo Wang and Peng Li and Fuwen Luo and Xiaolong Wang and Weidong Liu and Yang Liu 背景コミュニケーションゲームは、自然言語と不完全情報に基づくため、幅広い分野で研究価値がある。目的本研究は、大規模言語モデルをコミュニケーションゲームに参加させる方法を探ることを目的とする。提案 LLMsを固定し、過去のコミュニケーションの検索と反映を用いるチューニング不要のフレームワークを提案する。評価代表的なコミュニケーションゲーム「人狼」においてフレームワークの有効性を実証的に検証する。結果提案手法は、 LLMsのパラメータを固定したまま、効果的に人狼ゲームをプレイできると結論付けた。

大規模生成モデル時代のコンピューティング : クラウドネイティブから AIネイティブへ Computing in the Era of Large
Generative Models: From Cloud-Native to AI-Native Yao Lu and Song Bian and Lequn Chen and Yongjun He and Yulong Hui and Matthew Lentz and Beibin Li and Fei Liu and Jialin Li and Qi Liu and Rui Liu and Xiaoxuan Liu and Lin Ma and Kexin Rong and Jianguo Wang and 背景大規模生成 AIモデルは革新をもたらす一方、コストや GPU需要が高まり問題視されています。目的クラウドネイティブ技術と AIモデルを統合し、効率とリソース最適化を達成することが目的です。提案 AIネイティブなコンピューティングパラダイムを提案し、既存技術を活用して効率を向上させます。評価クラウドネイティブ技術と機械学習ランタイムを用いた費用対効果の評価を実施しました。結果商品売上原価を最適化し、リソースアクセスの向上を示しました。

RecMind: 推薦のための大規模言語モデル駆動エージェント RecMind: Large Language Model Powered Agent For
Recommendation Yancheng Wang and Ziyan Jiang and Zheng Chen and Fan Yang and Yingxue Zhou and Eunah Cho and Xing Fan and Xiaojiang Huang and Yanbin Lu and Yingzhen Yang 背景現在の RSは特定タスクに特化しており汎用性に欠ける。目的外部知識を活用した自律推薦エージェントの開発を目指す。提案 Self-Inspiringアルゴリズムにより計画能力を向上させた RecMindを提案。評価 RecMindのパフォーマンスを多様な推薦シナリオで評価。結果 RecMindは他の方法を上回るパフォーマンスを示し、 P5 に匹敵する。

悪の天才 : LLMベースの代理人の安全性を探る Evil Geniuses: Delving into the Safety
of LLM-based Agents Yu Tian and Xiao Yang and Jingyuan Zhang and Yinpeng Dong and Hang Su 背景 LLMベースのエージェントは人間のような行動を示すが、複雑性からリスクがある。目的エージェントの安全性向上のため、リスクの特定と評価を行う。提案 Evil Geniusesという攻撃手法でプロンプト生成を自動化し影響を分析。評価 CAMELなどを用い、 GPT-3.5/GPT-4で攻撃手法の効果を検証。結果エージェントは脆弱性が高く、秘匿性のある有害な行動を取りやすい。

MentalAgora: 多エージェント討論と属性制御を通じたメンタルヘルスにおける先進的な個別ケアへのゲートウェイ MentalAgora: A Gateway to Advanced Personalized
Care in Mental Health through Multi-Agent Debating and Attribute Control Yeonji Lee and Sangjun Park and Kyunghyun Cho and Jinyeong Bak 背景メンタルヘルス問題の深刻化により、先進的デジタル支援の必要性が増しています。目的個別化されたメンタルヘルス支援の提供を目指し、対象ユーザーのニーズに応えることが目的です。提案 MentalAgoraは大規模言語モデルと多エージェント討論を用いた新しい枠組みを提案します。評価 TherapyTalk評価データセットでの実験とユーザー調査により、提案手法の有効性を検証しました。結果 MentalAgoraは専門家基準に沿った応答を生成し、ユーザーの好みを満たす効果が示されました。

InfLLM: 効率的なコンテキストメモリを用いた LLMのトレーニング不要の長いコンテキスト外挿 InfLLM: Training-Free Long-Context Extrapolation for
LLMs with an Efficient Context Memory Chaojun Xiao and Pengle Zhang and Xu Han and Guangxuan Xiao and Yankai Lin and Zhengyan Zhang and Zhiyuan Liu and Song Han and Maosong Sun 背景既存の LLMは長いシーケンスの処理が課題で、効率的な解決策が求められています。目的トレーニング不要で LLMが長いシーケンスを処理可能にする手法の提案。提案遠隔コンテキストをメモリ単位に保存し、効率的に検索する InfLLMを提案。評価 InfLLMを用いて 1024Kトークンのシーケンスでの性能を評価しました。結果 InfLLMは、従来の方法と同等の性能をトレーニングなしで達成しました。

City-LEO: 透明性のある都市管理を実現するための LLMとエンドツーエンド最適化 City-LEO: Toward Transparent City Management Using
LLM with End-to-End Optimization Zihao Jiao and Mengyi Sha and Haoyu Zhang and Xinyu Jiang and Wei Qi 背景従来の ORモデルはスマートシティ管理に必須ですが、モデルの複雑さが制約でした。目的この研究は LLMを活用して、都市管理の効率と透明性を向上させることを目的としています。提案提案手法「 City-LEO」は LLMと E2Eモデルを融合し、最適化を効率化します。評価 eバイクシェアリングでの運営管理を通じて City-LEOの性能を数値的に評価しました。結果 City-LEOは計算時間を減らし、満足度の高い解決策を提供することを実証しました。

AgentCoord: LLMベースのマルチエージェント協調戦略の視覚的探索 AgentCoord: Visually Exploring Coordination Strategy for
LLM-based Multi-Agent Collaboration Bo Pan and Jiaying Lu and Ke Wang and Li Zheng and Zhen Wen and Yingchaojie Feng and Minfeng Zhu and Wei Chen 背景 LLMによるマルチエージェント協調は自然言語の曖昧さから戦略設計が困難。目的視覚的手法でユーザーによる協調戦略設計の支援を目的とする。提案ユーザー目標を変換する三段階生成方式と視覚的探索フレームワークを提案。評価プロトタイプ AgentCoordを開発し、形式的ユーザー調査で評価。結果視覚的フレームワークが戦略設計を効果的に支援することを確認。

大規模言語モデルにおける非合理性と認知バイアス (Ir)rationality and cognitive biases in large language models
Olivia Macmillan-Scott and Mirco Musolesi 背景 LLMは訓練データに由来する人間のバイアスを持つことが知られています。目的合理的推論における LLMの能力を評価し、詳細を明らかにすることが目的です。提案認知心理学の課題を使用して、 LLMの合理性を評価します。評価 7つの言語モデルに対して認知心理学の文献からの課題を使用しました。結果 LLMは人と異なる方法で非合理性を示し、回答の一貫性も欠如しています。

AgentClinic: シミュレーションされた臨床環境で AIを評価するマルチモーダルエージェントベンチマーク AgentClinic: a multimodal agent benchmark
to evaluate AI in simulated clinical environments Samuel Schmidgall and Rojin Ziaei and Carl Harris and Eduardo Reis and Jeffrey Jopling and Michael Moor 背景臨床作業の複雑性を反映した新しい AI評価が必要です。目的 AIの対話型意思決定能力をシミュレートされた環境で評価。提案 AgentClinicは、マルチモーダルな対話を通じ AIを評価するベンチマークです。評価医師と患者のエージェントにおけるバイアスの影響と LLM の性能を分析。結果バイアスが診断精度や患者の行動に大きく影響することを発見。

異種知識を用いた拡張モジュラ強化学習 Heterogeneous Knowledge for Augmented Modular Reinforcement Learning Lorenz Wolf
and Mirco Musolesi 背景モジュラ RLは再利用性が高いが、異種の知識を統合できない。目的異種知識を統合し、強化学習の限界を克服すること。提案 AMRLフレームワークで異種の知識をセレクトする手法を提案。評価セレクターによるモジュール統合で性能改善を確認。結果異種知識で従来のモジュール RLの効率と一般化を向上。

基盤モデルがビジュアライゼーションと出会う : 課題と機会 Foundation Models Meet Visualizations: Challenges and
Opportunities Weikai Yang and Mengchen Liu and Zheng Wang and Shixia Liu 背景基盤モデルはその適応性で AIシステム構築において重要であり、新たな研究としてビジュアライゼーションとの組み合わ目的本研究は、基盤モデルとビジュアライゼーションの交差点における課題と機会を明らかにすることを目的とする。提案ビジュアライゼーションを用いた基盤モデルの理解と評価（ VIS4FM）と、基盤モデルによるビジュアライゼーションの評価 VIS4FMでは透明性や説明可能性、 FM4VISでは技術的進展の可能性に関する分析を行う。結果基盤モデルとビジュアライゼーションの交差は有望であるが、同時に新しい課題も提起する。

プライベート思考の効果 : ゲームプレイにおける大規模言語モデルの欺き Effect of Private Deliberation: Deception of
Large Language Models in Game Play Kristijan Poje and Mario Brcic and Mihael Kovač and Marina Bagić Babac 背景ゲーム理論における戦略的意思決定で人間の行動を再現するための研究。目的プライベート思考と欺瞞を用いたエージェントの性能向上。提案プライベートエージェントの導入とその戦略的利用法を提案。評価 POSGフレームワークと ICL, CoTを使い競争的・協力的シナリオを評価。結果長期報酬での優位性を示しつつ、アルゴリズムの欠陥も浮き彫りに。

基盤モデルエージェントのアーキテクチャオプションの分類 : 分析と意思決定モデル A Taxonomy of Architecture Options for
Foundation Model-based Agents: Analysis and Decision Model Jingwen Zhou and Qinghua Lu and Jieshan Chen and Liming Zhu and Xiwei Xu and Zhenchang Xing and Stefan Harrer 背景 AI技術の進展により、エージェントシステムの設計と運用が重要かつ複雑になっている。目的基盤モデルエージェントの設計改善により、断片化された現状を解決すること。提案基盤モデルエージェントのアーキテクチャを分類し、統一的に設計プロセスをガイドする。評価設計と実行時の側面を含むアーキテクチャの詳細な分類と意思決定モデルの構築。結果基盤モデルエージェントの設計プロセスが向上し、構造化された開発が可能に。

AIコラボレーター : 教育および専門分野における人間と AIの相互作用の架け橋 The AI Collaborator: Bridging Human-AI
Interaction in Educational and Professional Settings M. Samadi and Spencer Jaquay and Jing Gu and Nia Nixon 背景人間と AIのコラボレーション研究は、教育と職業的環境で重要性が増しています。目的多様な実験環境に対応する AIパーソナ生成を通じ、チームダイナミクスを研究。提案 AI Collaboratorはカスタマイズ可能な AIパーソナを作成し、その影響を調査します。評価研究者がユーザーフレンドリーなインターフェースで AIパーソナの行動を調整する。結果 AIと人間のチームダイナミクスに対する理解を深化させる重要なリソースとなる。

大規模言語モデルベースの自律エージェントに関する調査 A Survey on Large Language Model based Autonomous
Agents Lei Wang and Chengbang Ma and Xueyang Feng and Zeyu Zhang and Hao-ran Yang and Jingsen Zhang and Zhi-Yang Chen and Jiakai Tang and Xu Chen and Yankai Lin and Wayne Xin Zhao and Zhewei Wei and Ji-rong 背景以前の研究は孤立環境での訓練に焦点を当て、人間学習プロセスと乖離。目的 LLMによる自律エージェントの人間レベル知能達成を探索する。提案 LLMベースのエージェントの統一フレームワークと応用を提案。評価 LLMエージェントの評価戦略とその手法を詳細に分析。結果研究から得た課題と将来の方向性を提示し、参考文献をまとめる。

生成 AIに関する初期政策の考察 Initial policy considerations for generative artificial intelligence Philippe
Lorenz and Karine Perset and J. Berryhill 背景生成 AIは教育や医療で変革を促すが、社会的課題を引き起こす。目的政策的考慮を助け、生成 AIの課題への対応を支援する。提案生成 AIの政策課題に関する初期的な考察を提供する。評価具体的な実験や分析手法は言及されていない。結果生成 AIの社会的影響に関する考慮事項を提示する。

計算実験と大規模言語モデルを基盤としたエージェント : 調査と展望 Computational Experiments Meet Large Language Model
Based Agents: A Survey and Perspective Qun Ma and Xiao Xue and Deyu Zhou and Xiangning Yu and Donghua Liu and Xuwen Zhang and Zihan Zhao and Yifan Shen and Peilin Ji and Juanjuan Li and Gang Wang and Wanpeng Ma 背景計算実験は、複雑な社会システムを研究する重要な手法として注目されています。目的 ABMの人間特性表現の限界を、 LLMで補完する可能性を探ることです。提案 LLMベースエージェントが計算実験での人間らしさを向上させることを提案します。評価 LLMの説明性と計算実験の因果分析能力の融合を論じています。結果計算実験と LLMの融合は、社会科学での応用に大きな可能性があります。

アバロンゲームでの即席チームワークを探索する言語エージェント Cooperation on the Fly: Exploring Language Agents for
Ad Hoc Teamwork in the Avalon Game Zijing Shi and Meng Fang and Shunfeng Zheng and Shilong Deng and Ling Chen and Yali Du 背景マルチエージェントシステムは、複雑なシナリオでの協力が未開発で、即席チームワークが必要。目的自然言語駆動の環境で、 LLMエージェントの協力能力を検証すること。提案延長されたメモリとコード駆動の推論を持つ CodeActエージェントを開発。評価 LLMエージェントの幻覚問題を探り、部分情報での迅速な適応を分析。結果 CodeActが新しいチームメイトへの高速適応を可能にすることを示す。

GameGPT: ゲーム開発のためのマルチエージェント協働フレームワーク GameGPT: Multi-agent Collaborative Framework for Game Development
Dake Chen and Hanbin Wang and Yunhao Huo and Yuzhao Li and Haoyang Zhang 背景 LLMエージェントによるソフトウェア自動化が普及する中、ゲーム開発に特有の課題が存在。目的ゲーム開発を効率化し、自動化するための新たな枠組みを提案すること。提案 GameGPTフレームワークにより、幻覚や冗長性を抑制する多層的アプローチを紹介。評価実験により幻覚と冗長性の改善効果を評価し、精度向上を確認する。結果ゲーム開発の効率と正確性を向上させる有効性を実証。

C2Ideas: 大規模言語モデルによる創造的インテリアカラーデザインの発想支援 C2Ideas: Supporting Creative Interior Color Design Ideation
with a Large Language Model Yihan Hou and Manling Yang and Hao Cui and Lei Wang and Jie Xu and Wei Zeng 背景インテリアカラーのデザインは、ユーザーの意図と一致したデザインが難しい。目的 C2Ideasは、デザイナーが創造的に色の発想を得る支援を目的とする。提案大規模言語モデルを用いた、意図と一致した色の提案システムを開発。評価一連の屋内ケースとユーザースタディでシステムの効果を評価。結果システムの効果が実証され、インタラクティブ性が高評価を得た。

マルチ LLM間のネットワーク形成とダイナミクス Network Formation and Dynamics Among Multi-LLMs Marios
Papachristou and Yuan Yuan 背景ソーシャルネットワークは意見や行動、情報の伝播に影響し、その研究は重要です。目的 LLMのネットワーク形成が人間の社会動態とどのように異なるかを明らかにすること。提案 LLMが優先的接続やトリアディッククロージャーなどの原理を示すかを分析しました。評価リアルネットワークにおける LLMの意思決定プロセスを調査し、その影響力を評価しました。結果トリアディッククロージャーとホモフィリーが LLMに強い影響を与え、予測性能が高いことが判明しました。

社会的知能の発展に向けた反射的言語プログラミング (RLP) Reflective Linguistic Programming (RLP): A Stepping Stone
in Socially-Aware AGI (SocialAGI) Kevin Fischer 背景対話型 AIにおける自己認識と戦略計画の重要性が増しています。目的文脈的に豊かで一貫性のある対話を可能にする AI技術の探求。提案自己内省を利用した反射的言語プログラミング (RLP) を提案。評価仮想キャラクター Bogusを用いたケーススタディでモデルの行動評価。結果 RLPは自発的に高度な行動を生成し、社会的 AGIの可能性を示唆。

ChatGPT時代のソーシャルボット検出 : 課題と機会 Social bot detection in the age
of ChatGPT: Challenges and opportunities Emilio Ferrara 背景 AI生成の会話と行動が急増し、ソーシャルボット検出が重要視されています。目的 AI生成の会話による新たな課題に焦点を当てた有効な検出手法の確立が目的です。提案マルチモーダルかつクロスプラットフォームの検出を可能にする手法を提案します。評価生成エージェントと合成データを用いたテストと評価を行いました。結果効率的な検出のための新たな研究方向性と機会を示唆しました。

DesignGPT: デザインにおけるマルチエージェント協力 DesignGPT: Multi-Agent Collaboration in Design Shiying Ding
and Xinyi Chen and Yan Fang and Wenrui Liu and Yiwu Qiu and Chunlei Chai 背景生成的 AIは、製品デザインのワークフローにおけるインターフェースの使いやすさと相互作用で課題がある。目的デザインプロセスで生成的 AIの課題を解決し、人間デザイナーの効率を向上させること。提案 DesignGPTは、 AIエージェントで異なるデザイン役割をシミュレートし、自然言語で協力するフレームワークを提供。評価実験では、個別の AIツールと比較して、デザイナーのパフォーマンス向上を評価。結果 DesignGPTは、マルチエージェントシステム応用でデザイナーの効率を向上させる可能性を示す。

学習エージェントによる経済システムのエージェントベースシミュレーション ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning
Agents Kshama Dwarakanath and Svitlana Vyetrenko and P. Tavallali and T. Balch 背景経済システムにおけるエージェントの異質性と相互作用を理解するためです。目的エージェントベースのシミュレーションで経済システムの理解を深めることです。提案強化学習戦略を用いたマルチエージェントシミュレーターを提案しています。評価 2つの仮説経済シナリオを用いてシミュレーションを行いました。結果家庭のスキルや生産ショックが経済戦略に与える影響を示しました。

MetaUrban: 都市空間におけるエンボディッド AIのためのシミュレーションプラットフォーム MetaUrban: A Simulation Platform for
Embodied AI in Urban Spaces Wayne Wu and Honglin He and Yiran Wang and Chenda Duan and Jack He and Zhizheng Liu and Quanyi Li and Bolei Zhou 背景公共の都市空間には、近年ロボットなど非人間利用者が増加しているが、安全性に課題がある。目的本研究は、都市空間で安全かつ一般化可能なエンボディッド AIシステムを開発することを目的とする。提案 MetaUrbanは、無限の都市シーンを生成可能なシミュレーションプラットフォームを提供する。評価ポイントナビゲーションやソーシャルナビゲーションの実験を通じて、学習モデルの一般化と安全性を評価した。結果シミュレーション環境の特性により、移動エージェントの一般化可能性と安全性が向上した。

より安全な AR体験を実現する : プライバシーの介入とユーザビリティの向上 Enabling Safer Augmented Reality Experiences:
Usable Privacy Interventions for AR Creators and End-Users Shwetha Rajaram 背景 ARの普及によって、ユーザーと傍観者のプライバシーリスクが増大しています。目的 ARを活用しつつプライバシーを保護する方法を模索します。提案 AR作成者とユーザーがプライバシーリスクに対処するツールとフレームワークを提案します。評価 ARおよびプライバシー専門家との研究を通じてフレームワークを開発しました。結果 ARエコシステムでプライバシー意識を向上させる結論に至りました。

人工エージェントが自律的に研究を行う概念についての思索的探求 Speculative Exploration on the Concept of Artificial Agents
Conducting Autonomous Research Shiro Takagi 背景人工エージェントが自律的に研究を行う能力に関する可能性と課題を探求する。目的研究の自律的実行を可能にするための基礎概念を明らかにし、議論を促進する。提案問題形成、仮説生成、仮説検証が研究の核心要素としての役割を果たす。評価機械の可能性と課題を概念的に検討し、プロトタイピングの初期考察を行う。結果研究可能なエージェントの開発における初期ステップと課題を明らかにする。

非協調的環境における LLMベースの多エージェント詩生成 LLM-based multi-agent poetry generation in non-cooperative environments
Ran Zhang and Steffen Eger 背景 LLMsによる詩生成は多様性の不足が課題であり、プロセスが人間とは異なる。目的人間の学習に近づけ、詩の多様性と新規性を高めることを目指す。提案非協調的な相互作用を含む社会的学習フレームワークを導入。評価 96,000の詩生成で TRAININGと PROMPTINGエージェントを比較した。結果 TRAININGエージェントの多様性と新規性が向上し、異なるスタイルを示した。

Roleplay-doh: ドメイン専門家による LLM シミュレーション患者の作成を原則に基づいて実現 Roleplay-doh: Enabling Domain-Experts to Create
LLM-simulated Patients via Eliciting and Adhering to Principles Ryan Louie and Ananjan Nandi and William Fang and Cheng Chang and E. Brunskill and Diyi Yang 背景 LLMロールプレイは社会技能向上を支援できますが、メンタルヘルスなどのセンシティブな領域でのシミュレーション目的専門家のフィードバックを生かし、安全で効果的な AI患者シミュレーションを可能にすることです。提案 Roleplay-dohパイプラインは専門家のフィードバックを原則に変換し、 LLMロールプレイを統制します。評価 25名のカウンセリング専門家によるユーザー調査で AI患者作成の有効性を検証しました。結果応答品質と原則遵守が 30%向上し、 AI患者はより現実的だと評価されました。

エージェントベースモデルにおける主体性の限界について On the limits of agency in agent-based models
Ayush Chopra and Shashank Kumar and Nurullah Giray Kuru and Ramesh Raskar and A. Quera-Bofarull 背景 ABMは複雑システムの振る舞いを理解する方法で、 LLM の進展により新たな可能性が。目的 LLMを利用して、エージェントの適応的行動を大規模にリアルにシミュレートすること。提案 AgentTorchを用いて LLMをエージェントに用い、数百万規模で高解像度なシミュレーションを実現。評価 COVID-19パンデミックを例に LLMとヒューリスティックエージェントの性能を比較。結果 AgentTorchは、孤立や雇用の健康経済影響を捉え、政策設計に新たな示唆を提供。

自己プレイと AIフィードバックからの文脈学習を用いた言語モデル交渉の改善 Improving Language Model Negotiation with Self-Play and
In-Context Learning from AI Feedback Yao Fu and Hao-Chun Peng and Tushar Khot and Mirella Lapata 背景 LLM同士で自律的に改善し合う研究は、人間の介入を最小限に抑える強力な AIの創造に貢献します。目的 LLM間での交渉を通じて、自律改善が可能かを確認することが目的です。提案交渉ゲームで第三のモデルがフィードバックを提供し、モデル間の能力を向上させます。評価異なる LLMにおける役割ごとの取引価格を基に、フィードバックの有効性を評価します。結果一部のモデルは AIフィードバックで改善可能ですが、役割別で異なる学習能力が見られました。

LLMエージェントは社会的行動を示すか？ Do LLM Agents Exhibit Social Behavior? Yan Leng and
Yuan Yuan 背景 LLMsが社会システムのシミュレーションや人間の代替で期待されている。目的 LLMsの社会的相互作用原理を検証し、人間との違いを探る。提案古典的実験を LLMエージェントに適用し、その社会的行動を分析する。評価ゼロショット学習を用いて LLMsの社会的選好を評価する実験を行った。結果 LLMsは人間らしい社会行動を示すが、フェアネスが顕著で違いがある。

感受性の合成 : 大規模言語モデルと自律型エージェントの統合による人間の認知的複雑性の模倣 Synthesizing Sentience: Integrating Large Language
Models and Autonomous Agents for Emulating Human Cognitive Complexity J. Ratican and James Hutson and Daniel Plate 背景モジュラー心の理論を基に、人間の認知の複雑性を模倣する潜在能力を探る研究が始まる。目的大規模言語モデルと自律型エージェントを統合して、人間の認知を模倣する。提案人格駆動モジュールを活用し、多様な認知機能の代理を行う理論的枠組みを提案。評価自律型エージェントが人間の認知機能の代理となる仮説を神経学的証拠で支持。結果この理論は、更なる実証研究と技術革新への肥沃な基盤を提供する。

AIとデザインの未来 :動的グラウンディング、建設的交渉、持続可能な動機 Imagining a Future of Designing with AI:
Dynamic Grounding, Constructive Negotiation, and Sustainable Motivation Priyan Vaithilingam and Ian Arawjo and Elena L. Glassman 背景 AI技術が進化し、デザイン分野への応用が重要視されています。目的大型 AIモデルがデザインプロセスに提供できる新たな価値を特定することです。提案動的グラウンディング、建設的交渉、持続可能な動機という三つのアフォーダンスを提案します。評価デザインフィクションを用いて、未来的なインタフェースを実現するプロトタイプを想像しました。結果 AIが人間デザイナーと協働する際の新たな可能性を示しました。

S-Agents: 自己組織化するエージェントと開放的環境 S-Agents: Self-organizing Agents in Open-ended Environments Jia-Qing
Chen and Yu-Gang Jiang and Jiachen Lu and Li Zhang 背景自律エージェントは大規模言語モデルを用いることで性能が向上しています。目的エージェント中心の組織構造を活用し、動的環境でのタスク効率を向上させることが目的です。提案自己組織化エージェントシステムを導入し、柔軟なワークフローを可能にする仕組みを提案します。評価 Minecraft環境での建築と資源収集タスクを通じて、効果的な協力能力を実験的に検証しました。結果 S-Agentsはヒトの介入を必要とせず、開放的な環境で効率的にタスクを遂行しました。

AI補助に対するデータアナリストの反応 : Wizard-of-Oz研究 How Do Data Analysts Respond to AI
Assistance? A Wizard-of-Oz Study Ken Gu and Madeleine Grunde-McLaughlin and Andrew M. McNutt and Jeffrey Heer and Tim Althoff 背景データ分析は多くの判断が必要で、異なる結論を生む可能性があります。目的 AIアシスタントがどのようにデータ分析の計画と実行を支援できるかを解明します。提案分析計画支援のために効果的な提案を特定し、ワークフローへの影響を評価します。評価 13名の参加者を対象とした Wizard-of-Oz研究で、提案の実用性を観察しました。結果提案の有用性に影響する文脈要因の微妙さを強調し、アシスタンス設計への示唆を提供します。

LAVE: ビデオ編集のための LLMによるエージェント支援と言語拡張 LAVE: LLM-Powered Agent Assistance and Language
Augmentation for Video Editing Bryan Wang and Yuliang Li and Zhaoyang Lv and Haijun Xia and Yan Xu and Raj Sodhi 背景ビデオ編集は人気ですが、初心者には専門知識が必要で敷居が高いです。目的 LLMを活用してビデオ編集の障壁を軽減することが目的です。提案 LAVEは、エージェント支援と言語拡張機能を提供する新しいシステムです。評価初心者から熟練者までの 8人が参加したユーザースタディで評価しました。結果 LAVEは効果的で、ユーザーの創造性と共創感に影響を与えることが示されました。

生成的 AIと「巨大何でもモデル」による HCI 研究サイクルの変革 Transforming HCI Research Cycles using Generative
AI and “Large Whatever Models” (LWMs) Passant Elagroudy and Jie Li and Kaisa Väänänen and Paul Lukowicz and Hiroshi Ishii and Wendy E. Mackay and Elizabeth F Churchill and Anicia Peters and A. Oulasvirta and Rui Prada and Alexandra Diening and G. 背景生成的 AIが HCI研究プロセスに与える影響を探求する必要がある。目的 AIツールの使用判断を研究サイクルで行う際の問題を解決する。提案 HCIの 5つの研究フェーズにおける GenAIの利点と影響を調査する。評価倫理的所有権や包括性を考慮し、 GenAIの影響を議論する。結果 GenAIは HCI研究のサイクル短縮や手法改善に貢献しうる。

Hackphyr: ネットワークセキュリティ環境向けのローカルファインチューニング済 LLM エージェント Hackphyr: A Local Fine-Tuned LLM
Agent for Network Security Environments M. Rigaki and C. Catania and Sebastian Garcia 背景 **大規模言語モデル（ LLM） **は、サイバーセキュリティを含む多くの分野での潜在能力を示しています。目的ネットワークセキュリティに適応したローカルモデル開発で、商用 LLMの制約を克服することです。提案ネットワークセキュリティ環境向けに Hackphyrというローカルでファインチューニングした LLMを提案します。評価新たなサイバーセキュリティデータセットを使用し、モデル能力を強化し、既存のモデルと比較評価しました。結果 Hackphyrは、 GPT-4に匹敵し、既存の他モデルを凌駕する性能を示しました。

RRdE: インタラクティブ環境における言語エージェントのための意思決定フレームワーク RRdE: A Decision Making Framework for
Language Agents in Interactive Environments Xufeng Zhou and Linjing Li and D. Zeng 背景大規模言語モデルは少数ショット学習に強みがありますが、長期的な相互作用には苦労します。目的インタラクティブ環境でのエージェントの推論と計画能力向上を目的とします。提案 RRdEフレームワークを提案し、長期計画を単純な推論問題に転換します。評価 AlfWorldと ScienceWorldを用いて、提案手法の性能を検証しました。結果 RRdEは AlfWorldで 132/134タスクを、 ScienceWorldで平均 82.16点を達成しました。

クロスチーム協力によるマルチエージェントのソフトウェア開発 Multi-Agent Software Development through Cross-Team Collaboration Zhuoyun Du
and Cheng Qian and Wei Liu and Zihao Xie and Yifei Wang and Yufan Dang and Weize Chen and Cheng Yang 背景 **大規模言語モデル（ LLMs） **を用いた多エージェント協力が、ソフトウェア開発分野で重要視されています。目的単一の決定パスに限定される現状を改善し、最適な結果を目指します。提案 **クロスチーム協力（ CTC） **というフレームワークで多チームの連携を促進します。評価ソフトウェア開発における実験結果で、既存手法と比較し質の向上を確認しました。結果提案したフレームワークにより、ストーリー生成の質が著しく改善されました。

大規模言語モデルの地図を航行する : パラダイムと微調整戦略の包括的レビューと分析 Navigating the Landscape of Large Language
Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies Benjue Weng 背景 ChatGPTが普及し、大規模モデルの産業界での重要性が増しています。目的大規模モデルの様々な微調整法を調査し、その有用性を評価します。提案タスク適応型や少数ショット学習などの微調整手法の詳細を紹介。評価最新技術の進展と応用について、幅広い文献レビューを行いました。結果微調整手法の各アプローチが効果的であることを確認しました。

Ollabench: ヒト中心の相互依存サイバーセキュリティにおける LLMの推論評価 Ollabench: Evaluating LLMs' Reasoning for Human-centric
Interdependent Cybersecurity Tam n. Nguyen 背景 LLMはサイバーセキュリティの脅威モデリングやリスク管理を向上させる可能性があります。目的 LLMの評価が法令遵守や効果的開発において重要性が増しています。提案新しい評価フレームワーク OllaBenchを提案し、 LLMの正確性等を評価します。評価 24の理論と 38論文の証拠を元に 21種の LLMを OllaBenchで評価しました。結果商業 LLMが高精度ですが、小型 LLMの性能差が小さいことを示しました。

学習における複数の会話エージェント相手の使用 The Use of Multiple Conversational Agent Interlocutors in
Learning Samuel Rhys Cox 背景 **大規模言語モデル（ LLM） **の進化が、人間に近い会話相手の可能性を広げている。目的教育において複数のペルソナを持つ会話エージェントが学習支援を向上する可能性を探る。提案 LLMを用いて複数の会話相手をシミュレーションし、教育現場での利点を活用する。評価教育上の利点を示すシナリオを通じて、 LLMの有効性を議論する。結果複数のペルソナを持つ会話エージェントが教育効果を増強し得ることを示唆する。

大規模言語モデルは人々が実際よりも合理的であると仮定している Large Language Models Assume People are More Rational
than We Really are Ryan Liu and Jiayi Geng and Joshua C. Peterson and Ilia Sucholutsky and Thomas L. Griffiths 背景 AIが人間の意思決定モデルを理解することは重要です。目的 LLMが人間の意思決定を過度に合理的に捉える問題を解明します。提案 LLMは人間の期待値理論に基づいた判断をしています。評価人間の決定データセットと LLMの予測を比較しました。結果 LLMの推論は人間の期待と強く相関しています。

APPL: プログラムと大規模言語モデルプロンプトの調和的統合のためのプロンプトプログラミング言語 APPL: A Prompt Programming Language for
Harmonious Integration of Programs and Large Language Model Prompts Honghua Dong and Qidong Su and Yubo Gao and Zhaoyu Li and Yangjun Ruan and Gennady Pekhimenko and Chris J. Maddison and Xujie Si 背景大規模言語モデル（ LLM）ワークフローの複雑さが課題となっている。目的 LLMとプログラムの統合を容易にするための新しい言語を開発する。提案 APPLは、プロンプトを Python関数に組み込むプロンプト言語である。評価 3つのシナリオで APPLの効率性と直感性をテストした。結果 APPLは独立した LLM呼び出しを効率的に並列化することができる。

ホロデッキ風シミュレーションゲームへの道 Towards a Holodeck-style Simulation Game Ahad Shams and D.
Summers-Stay and V. Metelsky and Arpan Tripathi and Karan Malhotra 背景伝統的なゲームではプレイヤーによる自由な創造力の発揮が限られていました。目的シミュレーションを通じて生成的な体験をプレイヤーに提供することです。提案 Infinitiaは生成モデルを用いて自由に形を変えるゲーム世界を提案します。評価 Unityエンジンとサーバークライアント構造でコラボ可能な設計を評価しました。結果コミュニティと協力して、さらなる機能拡張が期待されています。

大規模言語モデルによるアルゴリズム的共謀 Algorithmic Collusion by Large Language Models Sara Fish and
Yannai A. Gonczarowski and Ran I. Shorrer 背景アルゴリズム価格設定の普及により、共謀のリスクが増しています。目的 LLMが共謀を促進する可能性を検証し、その影響を探ります。提案 LLM、特に GPT-4が価格設定および共謀に影響を与えることを示します。評価 LLMエージェントを用いた価格設定と競売環境での共謀実験を行いました。結果 LLMエージェントは独占環境で消費者に不利益をもたらす共謀を行います。

生成型エージェントベースモデル : 機械的モデルと生成的人工知能の結合による社会システム動態の解明 Generative Agent-Based Modeling: Unveiling Social
System Dynamics through Coupling Mechanistic Models with Generative Artificial Intelligence Navid Ghaffarzadegan and A. Majumdar and Ross Williams and Niyousha Hosseinichimeh 背景近年、生成的人工知能を利用した社会システムの計算モデル構築が注目されています。目的研究の目的は、人間の合理的な意思決定を反映したフィードバック豊富なモデルの構築です。提案 **生成型エージェントベースモデル (GABM)**を提唱し、大規模言語モデルを活用します。評価 GABMの検証には、シンプルな社会規範拡散モデルを使って様々なシナリオを試験しました。結果広範なシナリオで GABMの有用性を示し、人間の意思決定を考慮したモデル構築を導きます。

ソーシャルバーチャルリアリティにおける LLMベースの AIエージェントの構築 Building LLM-based AI Agents in Social Virtual
Reality Hongyu Wan and Jinda Zhang and Abdulaziz Arif Suria and Bingsheng Yao and Dakuo Wang and Yvonne Coady and Mirjana Prpa 背景 VRにおける人間 -エージェント相互作用の向上が求められる状況。目的 LLMを活用して、人間らしい NPCの行動をシミュレートする問題に対処。提案 GPT-4を用いた LLMベースのエージェントで人間行動を再現。評価最も信憑性のある応答生成のために予備評価を実施。結果システムは未来の LLMベースの NPC開発の基盤を築いた。

AgentLens: LLMベースの自律システムにおけるエージェントの行動の視覚分析 AgentLens: Visual Analysis for Agent Behaviors in
LLM-based Autonomous Systems Jiaying Lu and Bo Pan and Jieyi Chen and Yingchaojie Feng and Jingyuan Hu and Yuchen Peng and Wei Chen 背景 LLMASは人間社会の複雑な行動をシミュレートできるが、動的イベントの分析が課題。目的 LLMASの動的イベント進化を視覚的かつ対話的に分析することを目的とする。提案エージェント行動を階層的に視覚化する AgentLensシステムを提案。評価使用シナリオとユーザー調査により、効果と使いやすさを評価。結果 AgentLensはエージェントの行動分析における効果的な視覚化ツールであることが示された。

AIエージェントにおける個と集合 : メタバースでの共有意識とデジタルホムンクルスの探求 Individuality and the collective in
AI agents: Explorations of shared consciousness and digital homunculi in the metaverse for cultural heritage James Hutson 背景 XR技術と LLMの融合が文化遺産の表現に未踏の可能性を示します。目的デジタル存在の共有意識と個性の表現の可能性を探ることです。提案デジタルホムンクルスとチェンジリングを通じて、集合と個の意識を探ります。評価 SFのメタファーを使用して、共有意識の概念を分析します。結果技術的発展を文化的・倫理的な文脈で議論する基礎を提供します。

大規模言語モデルは食料生産を向上させるが、そのリスクに注意 Large language models can help boost food production,
but be mindful of their risks D. Clercq and Elias Nehring and Harry Mayne and Adam Mahdi 背景農業における大規模言語モデルの採用は、社会への影響が大きいが、十分に議論されていない。目的言語モデルが食料生産システムにもたらすリスクと機会を評価する。提案効率向上やイノベーション推進の一方で、誤情報やデータ濫用などのリスクがある。評価農業職の影響やデータ収集のリスクを考慮した政策フレームワークが必要。結果大規模言語モデルの責任ある利用に向けて政策立案者の慎重な検討が求められる。

COMBO: 具現化されたマルチエージェント協力のための合成世界モデル COMBO: Compositional World Models for Embodied Multi-Agent
Cooperation Hongxin Zhang and Zeyuan Wang and Qiushi Lyu and Zheyuan Zhang and Sunli Chen and Tianmin Shu and Yilun Du and Chuang Gan 背景部分的な視点でマルチエージェントの協力が必要な問題があります。目的部分的観測での効果的なマルチエージェントの計画を可能にします。提案合同行動を因数分解した合成世界モデルで協力を実現します。評価 Twoドのシミュレーターを使い、 2～ 4体のエージェントで実験を行いました。結果提案したフレームワークは、異なる課題で協力的に効果的に機能します。

クリエイティブ言語芸術の AI連携スケーラブルパーソナライズに対する著者の価値観と態度 Authors' Values and Attitudes Towards AI-bridged
Scalable Personalization of Creative Language Arts Taewook Kim and Hyomin Han and Eytan Adar and Matthew Kay and John Joon Young Chung 背景生成 AIは、著者のビジョンと視聴者のコンテキストを橋渡しする新しい形のメディアを創造する可能性があります。目的 AI連携 CLAに対する著者の価値観と態度を明確にすることが目的です。提案 AI連携 CLAが著者と視聴者の間で 3つの利益を提供する方法を探ります。評価詩やコミックなどの 8ジャンルの 18名の著者とインタビュー調査を行いました。結果 AI連携 CLAが利益を促進または減少し、著者の懸念が明らかになりました。

PsychoGAT: 対話型フィクションゲームを用いた新しい心理測定パラダイム PsychoGAT: A Novel Psychological Measurement Paradigm through
Interactive Fiction Games with LLM Agents Qisen Yang and Z. Wang and Honghui Chen and Shenzhi Wang and Yifan Pu and Xin Gao and Wenhao Huang and Shiji Song and Gao Huang 背景心理測定はメンタルヘルスや自己理解の向上に重要ですが、従来手法は関与の低下やアクセスの課題を抱えます。目的心理測定をゲーム化することで、より魅力的でアクセス可能な方法を提供することです。提案 PsychoGATは、強力な LLMを使い、心理評価を対話型フィクションゲームとして実現します。評価心理構成を検証するため、心理測定評価と人間評価を用いて多面的な検証を行いました。結果 PsychoGATは、信頼性や妥当性の点で優れた効果を示し、コンテンツの満足度向上が確認されました。

デジタルフェノタイピングへの機械学習の応用：体系的文献レビューと分類 Machine learning applied to digital phenotyping: A systematic
literature review and taxonomy Marília Pit dos Santos and W. Heckler and R. Bavaresco and Jorge Luis Victória Barbosa 背景健康状態は個人の幸福、関係、経済的安定に影響し、デジタルフェノタイピングが影響軽減に重要です。目的本研究は機械学習をデジタルフェノタイピングに応用して、健康と幸福の理解向上を図ることを目的としています。提案機械学習とデジタルフェノタイピングの研究領域を体系的にレビューし、分類を提示します。評価 11のデータベースから 2,860件の記事を抽出し、 124件を分析して 6つの研究質問に回答しました。結果 2023年の出版増加が示され、分野への関心の高まりと小サンプル規模、データ不均衡が課題とされます。

都市生成知能 (UGI): 具現化された都市環境におけるエージェントのための基盤プラットフォーム Urban Generative Intelligence (UGI): A
Foundational Platform for Agents in Embodied City Environment Fengli Xu and Jun Zhang and Chen Gao and J. Feng and Yong Li 背景複雑な都市環境は、物理、社会、経済、環境次元の課題に直面しています。目的都市課題解決のためのシステムインテリジェントな技術の実装を目指します。提案 UGIは LLMを都市システムに統合し、新たな都市知能のプラットフォームを構築します。評価 UGIのプラットフォームを用いて、様々な都市タスクにエージェントを適用しその効果を検証します。結果 UGIは都市システムの理解と管理を革新する可能性を示しました。

ChatGPTは自らの未知を認識しているか？ブラックボックスキャリブレーションの評価 Does ChatGPT Know That It Does Not Know?
Evaluating the Black-Box Calibration of ChatGPT Youliang Yuan and Wenxuan Wang and Qingshuo Guo and Yiming Xiong and Chihao Shen and Pinjia He 背景 ChatGPTの多様なタスクへの適用が進む中、自己の信頼性認識が重要です。目的 ChatGPTが自分の限界を認識しているかを評価することが重要視されています。提案三つの視点で設計された代理信頼度を用いて、その能力を評価します。評価五つのデータセットと四つのタスクで ChatGPTの性能を実験的に評価しました。結果 ChatGPTは特定の文脈で自信過剰となる傾向があることが示されました。

言語に基づくマルチエージェント通信による臨時チームワーク Language Grounded Multi-agent Communication for Ad-hoc Teamwork Huao
Li and Hossein Nourkhiz Mahjoub and Behdad Chalaki and Vaishnav Tadiparthi and Kwonjoon Lee and Ehsan Moradi-Pari and C. Michael Lewis and Katia P. Sycara 背景 MARLはエージェント間の通信をゼロから学習するが、解釈困難です。目的臨時チームワークに適した解りやすい通信プロトコルの開発。提案人間言語の埋め込み空間とエージェント通信を一致させる手法を提案。評価合成データを使い、エージェント間の通信を人間言語に結びつける実験を行いました。結果言語基盤通信は、未知のタスクやチームメイトにもゼロショットで適応可能です。

基盤モデルによるツール学習 Tool Learning with Foundation Models Yujia Qin and Shengding
Hu and Yankai Lin and Weize Chen and Ning Ding and Ganqu Cui and Zheni Zeng and Yufei Huang and Chaojun Xiao and Chi Han and Y. Fung and Yusheng Su and Huadong Wang and Cheng Qian 背景人間のツール利用能力と同程度の AIを目指すため、基盤モデルの潜在能力が注目されています。目的基盤モデルによるツール学習を体系的に調査し、その課題と可能性を明らかにすることです。提案基盤モデルによる一般的なツール学習フレームワークを提案します。評価 18の代表的ツールを使って、基盤モデルの運用能力を実験的に評価しました。結果基盤モデルが複雑なタスクを効果的に分解し、適切なツール選択により遂行可能であることを示しました。

オンデマンドフィードバック生成のための作者定義 AIペルソナ Writer-Defined AI Personas for On-Demand Feedback Generation
Karim Benharrak and Tim Zindulka and Florian Lehmann and Hendrik Heuer and Daniel Buschek 背景優れた文章は読者理解が不可欠だが、それは難しく、タイムリーなフィードバックも得にくい。目的著者が定義する AIペルソナを使い、読者に応じたフィードバックの自動生成を目指す。提案 GPT-3.5によるプロトタイプで、ターゲット読者に合わせた AIペルソナによるフィードバック生成を提案。評価少人数のユーザースタディを実施し、ペルソナによる多様な視点からのフィードバックの有用性を評価。結果 AIのフィードバックは有用だが曖昧であり、テキストやペルソナの改訂を促す効果があった。

大規模なコンテンツと行動モデルでコンテンツと行動を理解、シミュレーション、および最適化 Large Content And Behavior Models To Understand,
Simulate, And Optimize Content And Behavior Ashmit Khandelwal and Aditya Agrawal and Aanisha Bhattacharyya and Yaman Kumar Singla and Somesh Singh and Uttaran Bhattacharya and Ishita Dasgupta and Stefano Petrangeli and R. Shah and Changyou Chen 背景情報理論に基づくコミュニケーションモデルは技術レベルで限界があり、受信者行動の最適化が求められています。目的コンテンツを受信者の行動に基づいて最適化し、有効性の向上を目指します。提案受信者の行動トークンを含む LCBMを提案し、行動予測を可能にします。評価複数のコーパスとタスクを用いて、モデルの一般化能力と行動シミュレーションを検証しました。結果モデルは行動とコンテンツのシミュレーションに成功し、効果的な予測を示しました。

生成型エージェント社会における社会規範の出現 : 原則とアーキテクチャ Emergence of Social Norms in Generative
Agent Societies: Principles and Architecture Siyue Ren and Zhiyao Cui and Ruiqi Song and Zhen Wang and Shuyue Hu 背景社会規範は MASにおいてエージェント間の対立を減少させるが、 LLMベースのシステムでは欠如している。目的生成型 MASにおいて社会規範が自然に形成される環境を作り出すことが目的である。提案 CRSECというアーキテクチャで社会規範の生成を可能にし、包括的な出現プロセスを実現する。評価 Smallvilleサンドボックスゲームでの実験と 30名の評価者による人間評価を行った。結果社会規範の確立と社会的対立の削減が確認され、提案手法の有効性が証明された。

RAH! RecSys–Assistant–Human: 人間中心の推薦フレームワーク RAH! RecSys–Assistant–Human: A Human-Centered Recommendation Framework
With LLM Agents Yubo Shu and Haonan Zhang and Hansu Gu and Peng Zhang and T. Lu and Dongsheng Li and Ning Gu 背景ウェブの進化でコンテンツが急増し、推薦システムが重要な役割を果たしています。目的推薦の正確さとユーザー満足度のバランスなどの課題解決が目的です。提案 RAHフレームワークは LLMエージェントを用い、人間中心のアプローチを実現します。評価実世界のデータを用いて RAHフレームワークの効果を実験で示しました。結果偏見軽減やユーザー制御強化など、各ドメインで効果を確認しました。

ツール使用と更新が可能な閉じたループ視覚アシスタント CLOVA CLOVA: A Closed-LOop Visual Assistant with Tool
Usage and Update Zhi Gao and Yuntao Du and Xintong Zhang and Xiaojian Ma and Wenjuan Han and Song-Chun Zhu and Qing Li 背景視覚アシスタントは多様なタスクをこなすため、継続学習が重要です。目的 CLOVAの目標は、固定されたツールを超えて新しい知識に適応することです。提案推論、反省、学習の 3段階でツールを動的に更新する CLOVAを提案します。評価視覚的質問応答、複数画像推論、知識タグ付け、画像編集で CLOVAを評価しました。結果 CLOVAは既存手法に比べ、 **5%から 20%**の性能向上を示しました。

タスク指向 LLMシステム設計における可能性の専制政治 : 予備調査 The Tyranny of Possibilities in
the Design of Task-Oriented LLM Systems: A Scoping Survey Dhruv Dhamani and Mary Lou Maher 背景タスク指向 LLMシステムの設計空間とパラメータに関する理解が不十分。目的タスク指向 LLMシステム設計の多様な可能性の性能と関係を仮説化。提案 3つの仮説を基に、プロンプト技術をマルチエージェントシステムとして再評価。評価多様な LLMシステム構成の性能を思考実験で評価し、推測を形成。結果 7つの仮説を提示し、将来の研究の出発点を提供。

機械学習モデルに能力があるとは何か？ What is it for a Machine Learning Model to
Have a Capability? Jacqueline Harding and Nathaniel Sharadin 背景モデルの能力評価は、規制の注目を受けた重要なサブフィールドです。目的 MLモデルの能力の正確な概念化と評価基準の確立が目的です。提案 CAMAという条件付き分析を用いて、モデルの能力を計測可能にします。評価 LLMsに適用可能な CAMAを定義し、モデル評価手順を提案します。結果 CAMAは ML評価の理解と公正な比較に貢献することが示されました。

VirtuWander: 大規模言語モデルによるバーチャルツアーガイドのマルチモーダル相互作用を強化 VirtuWander: Enhancing Multi-modal Interaction for Virtual
Tour Guidance through Large Language Models Zhan Wang and Linping Yuan and Liangwei Wang and Bingchuan Jiang and Wei Zeng 背景バーチャル博物館でのツアーガイドは、ユーザーの没入感を高めるために重要です。目的この研究は、ユーザーニーズに対応する個別化されたツアーガイドを実現することを目指します。提案 VirtuWanderは、大規模言語モデルを使用し、マルチモーダル相互作用を促進するシステムです。評価ユーザースタディを通じて、没入型シミュレートミュージアムで評価しました。結果個別化された支援により、没入型ツアー体験が向上することが示されました。

大規模言語モデルを用いたソーシャルスキルトレーニング Social Skill Training with Large Language Models Diyi
Yang and Caleb Ziems and William B. Held and Omar Shaikh and Michael S. Bernstein and John Mitchell 背景社会的スキルは仕事や生活で重要だが、練習環境は少ない。目的ソーシャルスキルのトレーニングをより普及・容易にすることを目的とする。提案大規模言語モデルを活用した一般的フレームワークによる実践的訓練を提案。評価 AIパートナーと AIメンターフレームワークの体験学習を活用した評価。結果社会的平等と労働力開発に向けた学際的革新の必要性を示唆。

トランスフォーマーの長さ外挿 : 位置エンコーディング視点からの調査 Length Extrapolation of Transformers: A Survey
from the Perspective of Position Encoding Liang Zhao and Xiaocheng Feng and Xiachong Feng and Bing Qin and Ting Liu 背景トランスフォーマーは NLPで成功したが、長さ外挿に制限があります。目的長さ外挿問題解決を通じて、トランスフォーマーの適用範囲を拡大することが目的です。提案位置エンコーディングを焦点にした様々な方法の調査と体系化を提案します。評価既存の研究を統一的な視点で体系的にレビューします。結果読者が既存の手法を理解し、さらなる研究を刺激する内容です。

人間 -AIの協働 : LLMベースのエージェントによるサービス共創のための 23のヒューリスティックスガイド Synergizing Human-AI Agency:
A Guide of 23 Heuristics for Service Co-Creation with LLM-Based Agents Qingxiao Zheng and Zhongwei Xu and Abhinav Choudhary and Yuting Chen and Yongming Li and Yun Huang 背景 AI技術の進化により、人間のサービスプロバイダーが技術をどのように活用できるかが問われている。目的 AIと人間の協働によるサービス共創の課題を明らかにし、指針を提供すること。提案非 AI専門家と AIが共同で学び合うための 23のヒューリスティックスを提案。評価 23名の専門家と参加型デザインプロセスを通じ、 AI統合の課題を調査。結果協働のための 23のヒューリスティックスが、倫理的な AI 共創を推進することを確認。

PersonalityScanner: バーチャルリアリティにおけるマルチモーダル信号を基にした性格評価の妥当性の探究 PersonalityScanner: Exploring the Validity of Personality
Assessment Based on Multimodal Signals in Virtual Reality Xintong Zhang and Di Lu and Huiqi Hu and Nan Jiang and Xianhao Yu and Jinan Xu and Yujia Peng and Qing Li and Wenjuan Han 背景性格評価は心理学などで重要だが、客観的評価が困難である。目的自己報告に頼らない客観的な性格評価手法の開発を目指す。提案 VR技術を用いて日常行動をシミュレートする PersonalityScannerを提案。評価 10種類のマルチモーダルデータを用いて性格評価の有効性を検証。結果 PersonalityScannerが高性能で効果的であることを示した。

生成エージェントにおける要約の役割 : 初見 The Role of Summarization in Generative Agents:
A Preliminary Perspective Xiachong Feng and Xiaocheng Feng and Bing Qin 背景生成エージェントは人間社会のシミュレーションで大きな可能性を示す。目的生成エージェントの核心である要約能力の理解促進が目的。提案要約は生成エージェントの最も基本的かつ不可欠な能力であると主張。評価研究の進展を促すために要約と生成エージェントの関係を統合的に分析。結果要約能力の理解がエージェント研究の未来を切り拓くと示唆。

LLMと人間の好みの格差を縮小 : 人間らしいアンサンブルを構成するためのキャリブレーション Reduce Preference Disparity Between LLMs
and Humans: Calibration to Compose Human-like Ensembles Yan Leng and Yunxin Sang and Ashish Agarwal 背景 LLMは意見調査と研究でのデータ収集を強化するが、人間の反応再現に限界がある。目的 LLMの人間反応再現能力を改善し、社会科学研究の実用性を向上させる。提案人間模倣キャリブレーション（ HMC）を導入し、 LLMが人間の行動と好みを反映するように調整。評価好みの学習と意見の学習の応用で、 HMCの効果を評価。結果 HMCは市場構造や公的な意見の精度を向上し、異なる状態でも移転可能性を示す。

多エージェント・ディベートを通じて大規模言語モデルにおける発散的思考を促進 Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate Tian Liang and Zhiwei He and Wenxiang Jiao and Xing Wang and Yan Wang and Rui Wang and Yujiu Yang and Zhaopeng Tu and Shuming Shi 背景大規模言語モデルは複雑な推論が苦手で、自信持つと新しい考えを生み出せません。目的モデルが自信を持つと新しい思考が生成できない問題を解決すること。提案多エージェント・ディベートフレームワークを提案し、異なる視点を討議します。評価常識的機械翻訳と直感に反する算術問題でフレームワークの効果を実験。結果議論の適応的中断や控えめな返し状態がパフォーマンス向上に必要と判明。

ウェブにおける大規模言語モデル搭載エージェント Large Language Model Powered Agents in the Web
Yang Deng and An Zhang and Yankai Lin and Xu Chen and Ji-Rong Wen and Tat-Seng Chua 背景ウェブアプリは情報アクセスや多様なタスクに必須ですが、静的な体験が中心でした。目的大規模言語モデルを用いてユーザーとの対話を向上させることです。提案 LLM搭載エージェントをウェブに統合し、人間のようなタスク完了を目指します。評価ウェブマイニングやソーシャルネットワークなど、多様なアプリで技術を検討しました。結果エージェントはユーザーのエンゲージメントを効果的に向上させ、個別対応を実現しました。

大規模言語モデルの説得力 The Persuasive Power of Large Language Models Simon Martin
Breum and Daniel Vaedele Egdal and Victor Gram Mortensen and Anders Giovanni Møller and L. Aiello 背景大規模言語モデルの進化により、オンラインでの世論操作の可能性が注目されています。目的人工エージェントが説得の動態を模倣し、世論形成に影響を与える可能性を探る。提案気候変動をテーマにした合成説得対話シナリオを設計しました。評価人間評価者に機械生成された議論の説得力を評価させる実験を行いました。結果知識や信頼を基にした議論が最も効果的であることが示されました。

過去の振り返りを用いた言語エージェントの学習指示 METAREFLECTION: Learning Instructions for Language Agents using Past
Reflections Priyanshu Gupta and Shashank Kirtania and Ananya Singha and Sumit Gulwani and Arjun Radhakrishna and Sherry Shi and Gustavo Soares 背景言語エージェントは、閉じた APIでは改善が困難なため、技術的な進化が求められています。目的これまでの改善手法の限界を克服し、 LLMの性能を強化することが目標です。提案 MetaReflectionは、過去の経験から学ぶ強化学習手法で、エージェントを強化します。評価様々なドメインで、セマンティックメモリを利用したオフライン評価を行いました。結果 MetaReflectionは性能を改善し、プロンプト最適化技術と同等の結果を示しました。

専門家仮想人物によるガイド付きシナリオ：認知作業の革新的手法 Guided scenarios with simulated expert personae: a remarkable
strategy to perform cognitive work D. Buren 背景大規模言語モデルは膨大な知識を活用し、仮想空間で専門家行動を再現できる。目的 LLMを用いた認知作業の強化方法を探るための研究である。提案ガイド付きシナリオにより仮想専門家が専門的な認知作業を行う手法を提案。評価 LLMの正確性を検証し、量子光学における結果再現で手法を評価。結果提案手法が意義深い認知作業に有効であることが示された。

LLMにおけるパーソナの二つの物語：ロールプレイングとパーソナライズの調査 Two Tales of Persona in LLMs: A Survey
of Role-Playing and Personalization Yu-Min Tseng and Yu-Chao Huang and Teng-Yun Hsiao and Yu-Ching Hsu and Jia-Yin Foo and Chao-Wei Huang and Yun-Nung Chen 背景パーソナは、 LLMsを特定の文脈に合わせる重要なフレームワークとして再評価されています。目的研究の目的は、 LLMにおけるロールプレイングとパーソナライズの統一された調査を行うことです。提案二つの研究ライン、ロールプレイングとパーソナライズに基づく包括的な調査を提案します。評価既存の手法を用いて LLMのパーソナリティ評価を行い、その効果を分析しました。結果初の統一的な視点で、 LLMのパーソナ活用に関する包括的な知見を得ました。

Think-on-Process: マルチエージェントシステムの協調的開発のための動的プロセス生成 Think-on-Process: Dynamic Process Generation for Collaborative
Development of Multi-Agent System Leilei Lin and Yingming Zhou and Wenlong Chen and Chen Qian 背景ソフトウェア開発は協調性が必要で、動的なプロセス生成が求められている。目的柔軟で動的なソフトウェア開発プロセスを実現することが目的。提案 ToPフレームワークでプロセスモデルから動的にプロセスを生成する。評価ヒューリスティックアルゴリズムとプロセスマイニングを用いて検証。結果 ToPは GPT-3.5と GPT-4の動的プロセス生成能力を向上させた。

LLMベースのエージェントに社会的原則はあるか？ Is There Any Social Principle for LLM-Based Agents?
Jitao Bai and Simiao Zhang and Zhong Chen 背景大規模言語モデルエージェントの役割が増している中、人間中心だけでは不十分です。目的エージェントの社会的原則を探求し、その重要性を明示することが目的です。提案エージェント用社会科学を構築し、広範な応用を目指します。評価提案の概念を分析し、既存の理念と比較評価しました。結果エージェントには独自の社会科学が必要との結論に達しました。

LLM拡張自律エージェントは協力できるか？ Melting Potを用いた協力能力の評価 Can LLM-Augmented autonomous agents cooperate?, An evaluation
of their cooperative capabilities through Melting Pot Manuel Mosquera and Juan Sebastian Pinzon and Manuel Rios and Yesid Fonseca and Luis Felipe Giraldo and Nicanor Quijano and Rub'en Manrique 背景 LLMsの発展がマルチエージェント AIシステム強化の可能性を示しています。目的 LLAの協力能力を探ることで、効果的な協力の難しさを強調すること。提案 Melting Pot環境での LLM拡張エージェントの協力能力を評価します。評価 Commons Harvestゲームで協力能力を測定するメトリクスセットを用いて評価しました。結果初期結果は協力傾向を示すが、効果的な協力に苦労があります。

PERSONA: 多様性に対応する調整のための再現可能なテストベッド PERSONA: A Reproducible Testbed for Pluralistic Alignment
Yuntao Bai and Andy Jones and Kamal Ndousse and Anna Askell and Dawn Chen and Stanislav Drain and Fort and Su Lin Blodgett and Solon Barocas and Hal Daumé and Louis Castricato and Nathan Lile and Suraj Anand 背景言語モデルの進展に伴い、ユーザーの多様な価値観との整合が課題となっている。目的少数派意見を含む多様な価値観を LMで正確に反映することを目的とする。提案 PERSONAというテストベッドで、多様なペルソナを生成し、 LMの整合性を評価する。評価生成した合成ペルソナから得られるフィードバックペアを用いて、 LMの性能を体系的に評価する。結果新しいベンチマークが確立され、 LMの多元的な整合性評価が可能となった。

位置 : 意思決定における基盤エージェントとしてのパラダイムシフト Position: Foundation Agents as the Paradigm
Shift for Decision Making Xiaoqian Liu and Xingzhou Lou and Jianbin Jiao and Junge Zhang 背景従来の意思決定法は効率や一般化能力の面で課題があります。目的意思決定のパラダイムを基盤エージェントにより変革することです。提案大規模言語モデルの成功を参考にした基盤エージェントの構築を提案します。評価大規模インタラクティブデータの収集、自己教師付き事前学習、適応を検討しました。結果基盤エージェントの研究課題と傾向を特定し、理論と技術の両面で進展を図ります。

大規模言語モデル時代の材料科学 : 一つの視座 Materials science in the era of
large language models: a perspective Ge Lei and Ronan Docherty and Samuel J. Cooper 背景大規模言語モデルは、広範な応用可能性から科学的研究で注目されています。目的材料科学における LLMの可能性を評価し、その有用性を確認します。提案 LLMを用いて材料科学の新たな分析手法を提案します。評価異なるワークフローでの LLMの実用性を比較検討しました。結果 LLMは材料科学において効率的で革新的なツールであると示唆されました。

AIの社会科学と社会科学のための AI: 調査 AI for social science and social science
of AI: A Survey Ruoxi Xu and Yingfei Sun and Mengjie Ren and Shiguang Guo and Ruotong Pan and Hongyu Lin and Le Sun and Xianpei Han 背景 AIの進化と社会科学の融合が求められています。目的 AIと社会科学の統合的理解を目指しています。提案 2つの研究方向を体系的に分類し、新たな視点を提案します。評価最新の大規模言語モデルによる進展を詳述しています。結果 AI技術の進化で社会科学との結びつきが重要になります。

大規模言語モデルを用いた協力行動に関連する性格特性の進化モデル An evolutionary model of personality traits related to
cooperative behavior using a large language model Reiji Suzuki and Takaya Arita 背景進化ゲーム理論を用いた人間行動の進化研究が求められている。目的 **大規模言語モデル（ LLM） **を用いて協力行動の進化を模倣すること。提案 LLMを使って協力行動に関わる性格特性の進化モデルを構築。評価性格特性の言語的記述を遺伝子としてシミュレートし、進化を観察。結果性格特性に基づく行動進化が観察され、協力と利己の特性が循環。

生成 AIモデルを活用した新しいインタラクションの設計 Architecting Novel Interactions with Generative AI Models
Michael S. Bernstein and Joon Sung Park and Meredith Ringel Morris and Saleema Amershi and Lydia B. Chilton and Mitchell L. Gordon 背景 UISTは生成 AIにより新しいインタラクション形態の可能性を開拓する独自の立場にある。目的生成 AIを活用した新しいインタラクションの形を構想し、その潜在能力を探る。提案生成 AIにより可能となる新しいインタラクションのカテゴリーを探索する。評価 UISTコミュニティのワークショップで研究アジェンダとモデル要求を具体化する。結果具体的な研究議題、モデル要求、生成エージェントによるシミュレート討論を成果とする。

高度なマルチモーダルモデルによる動的な仮想活動の創造 Crafting Dynamic Virtual Activities with Advanced Multimodal Models
Changyang Li and Lap-Fai Yu 背景視覚と言語モダリティの統合で仮想環境の解釈能力を高めることが重要です。目的仮想環境での適応的かつ文脈に関連した活動生成を目指します。提案抽象的活動記述の構造化フレームワークを提案し、キャラクターの相互作用を強調。評価高レベルのコンテキストに基づき、キャラクター配置の最適化を行いました。結果仮想活動のリアリズムと文脈の適切性向上に繋がる新たな道を示しました。

孔子 : 内省フィードバックによる易から難へのカリキュラムでの反復ツール学習 Confucius: Iterative Tool Learning from Introspection
Feedback by Easy-to- Difficult Curriculum Shen Gao and Zhengliang Shi and Minghang Zhu and Bowen Fang and Xin Xin and Pengjie Ren and Zhumin Chen and Jun Ma 背景外部ツールを活用した LLMの拡張が注目されていますが、適切なツール選択の能力が不足しています。目的現実のシナリオで複雑なツールを使用する能力を持つ LLM の構築を目指します。提案易から難へのカリキュラムと内省的フィードバックを用いた新しいフレームワークを提案します。評価制御された環境と現実の状況での広範な実験により手法の効果を検証しました。結果我々のフレームワークは、既存のベースライン手法よりも優れた結果を示しました。

オンライン意思決定における Auto-GPTのベンチマークと追加意見 Auto-GPT for Online Decision Making: Benchmarks and
Additional Opinions Hui Yang and Sifu Yue and Yunzhong He 背景 Auto-GPTの効果と柔軟性に疑問があり、ベンチマークの必要性がある。目的本研究は GPTベースのエージェントの適応性を深く理解することを目的とする。提案追加意見アルゴリズムにより、簡易的な監督学習を Auto- GPTに組み込む。評価ベースライン比較とアブレーション研究を通じて評価を行った。結果追加意見アルゴリズムはオンライン意思決定の性能を大幅に向上させた。

スケーラブル離散表現を用いた統一的物理ベースモーション制御 MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations Heyuan Yao and Zhenhua Song and Yuyang Zhou and Tenglong Ao and Baoquan Chen and Libin Liu 背景モーション制御では、多様なモーションを効率的に学習する手法が求められています。目的多様なモーションスキルを統一的に学習可能なフレームワークの開発を目指します。提案 MoConVQは、 VQ-VAEを活用し、表現を効率的に学習する技術を提案します。評価異なるモーションソースや自然言語からの生成能力を多角的に評価します。結果多様なアプリケーションに対応できる強力なモーション制御が実現しました。

知識をスケールや分野、モダリティを超えて接続するメカニクスと材料モデリングのための言語ベース戦略、 MechGPT MechGPT, a language-based strategy for mechanics
and materials modeling that connects knowledge across scales, disciplines and modalities M. Buehler 背景専門化の進む現代で、異なる分野間の知識接続が求められています。目的 LLMを用いて、多様な知識を統合する方法を提案することが目的です。提案 MechGPTは、 LLMを用いて異なる知識間の関係を探究する手法を提案します。評価知識検索や仮説生成能力を評価するために、計算実験を行いました。結果 MechGPTは知識の視覚化や新たな研究質問の枠組みを提供します。

サービス研究における人間と合成データの比較 : 増強型言語モデルを用いたサービス障害と回復の研究 Comparing human and synthetic data
in service research: using augmented language models to study service failures and recoveries Steve J. Bickley and H. F. Chan and Bang Dao and Benno Torgler and Son Tran and Alexandra Zimbatu 背景サービス研究での人間と合成データの比較は重要な課題です。目的サービスシナリオでの人間と合成の応答を比較し評価することが目的です。提案増強型言語モデルを用いて合成データを生成し、人間の応答を模倣します。評価 5つの実証研究により、 ALMの応答が原研究とどの程度一致するかを評価しました。結果合成エージェントには限界があるものの、特定のテキストシナリオで効果を示しました。

これまでの進展はどこにあるのか？ヒューマン -AI協働の観点からデータストーリーテリングツールを理解する Where Are We So Far? Understanding
Data Storytelling Tools from the Perspective of Human-AI Collaboration Haotian Li and Yun Wang and Huamin Qu 背景データストーリーテリングは人間のスキルが多く求められ、 AIによる支援の可能性がある。目的ヒューマン -AI協働の観点からデータストーリーテリングツールを体系的に理解する。提案ストーリーテリングワークフロー各段階でツールがどのように機能するかを枠組みとして調査。評価分析、計画、実装、コミュニケーションでヒューマンと AI の役割を検討し評価。結果共通の協働パターンを特定し、ヒューマン -AI協働の研究機会を明示。

会話レコメンデーションのためのアイテム・言語モデル Item-Language Model for Conversational Recommendation Li Yang and
Anushya Subbiah and Hardik Patel and Judith Yue Li and Yanwei Song and Reza Mirghaderi and Vikram Aggarwal 背景大規模言語モデルは対話理解で成功しているが、レコメンドには課題がある。目的ユーザーのインタラクション信号を保持しつつ、推論能力を活かした推薦システムを構築する。提案インタラクション信号をエンコードするアイテムエンコーダと凍結された LLMを使用する。評価大規模実験により、言語整合性とユーザー知識の重要性を検証した。結果示されたモデルは、言語とインタラクションの両立が可能であることを明らかにした。

社会シミュレーションエージェントにおける自己感情混合対話生成 Self-Emotion Blended Dialogue Generation in Social Simulation Agents
Qiang Zhang and Jason Naradowsky and Yusuke Miyao 背景仮想環境の対話エージェントは自己感情を表現することがありますが、その影響は十分に理解されていません。目的本研究は、自己感情がエージェントの対話戦略や意思決定に与える影響を明らかにします。提案自己感情を持つエージェントは、人間に近い対話戦略を示すことを提案します。評価 GPT-4生成データセットで微調整したモデルを用いて、自己感情の影響を実験的に評価しました。結果自己感情が意思決定に **約 50%**の変化をもたらすことが確認されました。

PANGeA: ターン制ビデオゲームのための生成的 AIを用いた手続き的人工物語 PANGeA: Procedural Artificial Narrative using Generative
AI for Turn-Based Video Games Stephanie Buongiorno and Lawrence J. Klinkert and Tanishq Chawla and Zixin Zhuang and Corey Clark 背景ゲーム開発における動的な物語生成の必要性が高まっています。目的 LLMsを活用し、予測できない入力にも対応した物語生成手法を解決します。提案 PANGeAは、 LLMによる NPC生成と自由形式の対話を可能にするシステムです。評価カスタムブラウザの GPTと Unityデモによる実証実験を行いました。結果 PANGeAは、予測不可能な入力にも物語を一貫して生成できる可能性を示しました。

CompeteAI: 大規模言語モデルに基づくエージェントの競争行動の理解 CompeteAI: Understanding the Competition Behaviors in Large
Language Model- based Agents Qinlin Zhao and Jindong Wang and Yixuan Zhang and Yiqiao Jin and Kaijie Zhu and Hao Chen and Xing Xie 背景競争は社会や経済の進展に影響を与える重要なメカニズムです。目的 LLMベースのエージェント間の競争行動を検証することが目的です。提案エージェント間の競争を研究するフレームワークを提案します。評価 GPT-4を用いて仮想環境を作成し、競争行動を観察しました。結果社会学的理論と一致する興味深い発見が得られました。

DiLu: 大規模言語モデルを用いた自律走行への知識駆動型アプローチ DiLu: A Knowledge-Driven Approach to Autonomous Driving
with Large Language Models Licheng Wen and Daocheng Fu and Xin Li and Xinyu Cai and Tengyu Ma and Pinlong Cai and Min Dou and Botian Shi and Liang He and Y. Qiao 背景自律走行は現在、データ依存型の手法により進化していますが、課題が多いです。目的自律走行システムに知識駆動の能力を持たせることが目指されています。提案大規模言語モデルと DiLuフレームワークが提案されました。評価広範な実験で、 DiLuの経験蓄積と一般化能力が検証されました。結果 DiLuは実世界データセットから直接経験を取得することで実用性を示しました。

ドラママシン : LLMエージェントによるキャラクター発展のシミュレーション The Drama Machine: Simulating Character Development
with LLM Agents Liam Magee and Vanicka Arora and Gus Gollings and Norma Lam-Saw 背景大規模言語モデルの進化により、動的なキャラクターシミュレーションの研究が進展。目的 LLMエージェントを用いて、複雑なキャラクターの発展を実現する方法を探索。提案エゴとスーパーエゴ役割間の相互作用を調整するフレームワークを提案。評価面接と探偵物語のシナリオで、キャラクター発展をスーパーエゴの影響で比較。結果マルチエージェントアプローチが、適応的な物語の生成に寄与する可能性を示唆。

LLM駆動型ゲームにおける NPCとの会話 : プレイヤーのフィードバックから導くガイドライン Conversational Interactions with NPCs
in LLM-Driven Gaming: Guidelines from a Content Analysis of Player Feedback Samuel Rhys Cox and Wei Tsang Ooi 背景大規模言語モデルを用いた NPCの対話は、より動的かつ多様な応答を提供します。目的 LLM駆動型 NPCがプレイヤー没入感と主体性に与える影響を明確化することが重要です。提案海を商業用ゲームで分析し、デザイナーの指針となるガイドラインを生成します。評価市販ゲームのプレイヤーフィードバックを内容分析し、有効性を評価しました。結果 LLMが NPCの対話に与える影響や示唆を明らかにし、設計ガイドラインを導出しました。

LLMベースのマルチエージェントコミュニティにおける操作された知識の氾濫 Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent
Communities Tianjie Ju and Yiting Wang and Xinbei Ma and Pengzhou Cheng and Haodong Zhao and Yulong Wang and Lifeng Liu and Jian Xie and Zhuosheng Zhang and Gongshen Liu 背景 LLMの採用が進む中、セキュリティの問題が未解決である。目的操作された知識の拡散の脅威を明らかにすることが目的である。提案二段階攻撃法である説得力注入と知識注入を提案する。評価システム内の知識拡散を模擬し、詳細な実験環境を設定した。結果攻撃は成功し、操作知識が持続的に拡散されるリスクが確認された。

大規模言語モデルに対するプロンプト盗難攻撃 Prompt Stealing Attacks Against Large Language Models Zeyang
Sha and Yang Zhang 背景 LLMの活用が進んでおり、プロンプトエンジニアリングが重要な課題となっています。目的プロンプトの設計が困難なため、その品質を向上させる手法の開発が求められています。提案プロンプト盗難攻撃という新たな手法を提案し、高品質なプロンプトを盗むことを目指します。評価生成された回答を基にプロンプトの性質を推測する手法の有効性を検証しました。結果提案手法により、ほぼ元のプロンプトに近い逆生成が可能であることが示されました。

KARMA: 長期および短期記憶システムを備えた具現化 AIエージェントの強化 KARMA: Augmenting Embodied AI Agents with
Long-and-short Term Memory Systems Zixuan Wang and Bo Yu and Junzhe Zhao and Wenhao Sun and Sai Hou and Shuai Liang and Xing Hu and Yinhe Han and Yiming Gan 背景具現化 AIは長シーケンス家庭作業で文脈メモリが不足しがちで、効率性が課題。目的文脈メモリの不足を解決し、エージェントの計画精度を向上させる。提案 KARMAは長期と短期記憶を統合し、 LLMsの計画能力を強化する。評価 AI2-THORシミュレーターを使い、短期と長期記憶の導入効果を比較検証。結果タスク成功率が 1.3xと 2.3x向上し、効率は 62.7倍も向上。

MindScope: マルチエージェントシステムを通じた大規模言語モデルの認知バイアスの探求 MindScope: Exploring cognitive biases in large
language models through Multi- Agent Systems Zhentao Xie and Jiabao Zhao and Yilei Wang and Jinxin Shi and Yanhong Bai and Xingjiao Wu and Liang He 背景大規模言語モデルの認知バイアスは、利点を阻害し、誤差を引き起こす可能性があります。目的本研究は、 LLMsの認知バイアスの検出方法を向上することを目指しています。提案静的・動的要素を持つ MindScopeデータセットとマルチエージェント検出法を提案。評価 RAG、競争ディベート、強化学習を統合した手法で効果を実証しました。結果検出精度が GPT-4に比べ最大 35.10%改善しました。

大規模言語モデルを用いた Angry Birdsエージェント LangBirds LangBirds: An Agent for Angry
Birds using a Large Language Model Seungwon Oh and Insik Chung and Kyung-Joong Kim 背景 Angry Birdsは物理的推論を要するため、 AIのテストベッドとして重要です。目的人間のような物理パズル解法を模倣する新しい AIを開発します。提案 LLMを活用し、思考を二段階に分けるエージェントを提案します。評価 Phy-Qベンチマークで強化学習エージェントと比較し性能を検証しました。結果 LangBirdsは基準を超える結果を出し、意思決定の根拠が理解可能です。

大規模言語モデルでビジネスとメディアの洞察を活用する Harnessing Business and Media Insights with Large Language
Models Yujia Bao and A. Shah and Neeru Narang and Jonathan Rivers and Rajeev Maksey and Lan Guan and Louise N. Barrere and Shelley Evenson and Rahul Basole and Connie Miao and Ankit Mehta and Fabien Boulay and Su 背景従来の LLMはビジネス情報の正確な解釈が難しく、特化した解決策が求められている。目的ビジネス領域での正確かつ詳細な情報提供を行い、出口の精度を向上させる。提案 FALMはターゲット化された知識ベースを活用し、ビジネス情報を深く理解し直答を提供する。評価自動評価と人間による評価で、ベースライン手法に対する有意な改善を実証。結果 FALMはビジネスとメディア領域で最先端の精度と信頼性を確立した。

メタ認知が必要な全て？生成型エージェントにおける内省で目標指向行動を改善 Metacognition is all you need? Using Introspection
in Generative Agents to Improve Goal-directed Behavior Jason Toy and Josh MacAdam and Phil Tabor 背景大規模言語モデルは制約としてコンテキストの長さと一般化の困難さがあります。目的メタ認知モジュールでエージェントの目標指向行動を向上させることを目指します。提案内省を活用したメタ認知でエージェントが自らの戦略を適応的に変更します。評価ゾンビアポカリプスを含むシナリオでモジュールをテストし、比較分析を行います。結果エージェントは戦略を改善し、他システムを上回る性能を示しました。

Paradise: 言語モデルで拡張した社会物理エンジンの実験 Paradise: An Experiment Extending the Ensemble Social
Physics Engine with Language Models Jack Kelly and Michael Mateas and Noah Wardrip-Fruin 背景ゲームにおける社会シミュレーションの可能性を探る研究です。目的言語モデルを用いた新しいゲームプレイスタイルの実現が目的です。提案 GPT-3で拡張した社会物理エンジンを提案します。評価システムの行動作成の管理困難性を分析しました。結果モデル間の不安定なバランスの課題が確認されました。

エージェントの Internet: 異種エージェントの共同知能のためのウェブ構築 Internet of Agents: Weaving a Web
of Heterogeneous Agents for Collaborative Intelligence Weize Chen and Ziming You and Ran Li and Yitong Guan and Cheng Qian and Chenyang Zhao and Cheng Yang and Ruobing Xie and Zhiyuan Liu and Maosong Sun 背景 LLMsの進化で自律エージェントが進化しましたが、異種エージェント統合が課題です。目的多様なエージェントが協力するための柔軟でスケーラブルなプラットフォームを提供することです。提案 Internetの概念に基づく Internet of Agents（ IoA）を提案し、多様なエージェントの連携を強化します。評価一般アシスタントタスクや AIタスクで広範な実験を行い、 IoAの有効性を検証しました。結果 IoAは異種エージェントの効果的な協力を促進し、最先端技術を凌駕することが確認されました。

より良い AIエージェントの構築 : LLMベースの会話型エージェントにおけるペルソナの活用に関する提言 Building Better AI Agents:
A Provocation on the Utilisation of Persona in LLM- based Conversational Agents Guangzhi Sun and Xiao Zhan and Jose Such 背景大規模言語モデルの普及により、個別化されたアプリケーションの需要が増加しています。目的ペルソナを持つ会話型エージェントの設計を探求し、その重要性を示すことが目的です。提案ペルソナを持たせた会話型エージェントの必要性とその実装方法を提案します。評価具体的な応用例を通じて、ペルソナ統合の課題と倫理的側面を分析します。結果ペルソナ統合の微妙さと評価メカニズムの重要性を強調しています。

生成的 AIを用いたダークパターンの検出 : 初期結果の報告 Detecting Dark Patterns Using Generative
AI: Some Preliminary Results Stuart Mills and Richard Whittle 背景ダークパターンは消費者に不利益を与える設計手法で、規制強化が必要です。目的生成的 AI技術を用いてダークパターン検出手法を開発することです。提案異なるデジタルスキルレベルのユーザー行動をシミュレーションする 3つの AIアプローチを提案。評価初期実験では、 3つのアプローチがそれぞれ異なる可能性と課題を持つことを確認。結果 AI Visionが有望で、「 Choose your own adventure」は潜在可能性、 Decision Networkは技術的挑戦。

党派的群衆の知恵 : 人間と LLMベースエージェントの集団知の比較 The Wisdom of Partisan Crowds:
Comparing Collective Intelligence in Humans and LLM-based Agents Yun-Shiuan Chuang and Siddharth Suresh and Nikunj Harlalka and Agam Goyal and Robert Hawkins and Sijia Yang and Dhavan Shah and Junjie Hu and Timothy T. Rogers 背景偏向がある中で人間の集団が正確な結論に至るプロセスを理解することが重要です。目的 LLMエージェントにおける党派的群衆の知恵の再現性を評価することが目的です。提案 LLMエージェントが人間の党派的収束を再現できることを示しました。評価ロールプレイの設定で LLMエージェントの収束特性を実験によって評価しました。結果 LLMエージェントは人間のように正確な信念に収束することが確認されました。

人工知能が駆動する世界の研究の未来 The Future of Research in an Artificial Intelligence-Driven World
Mukta Kulkarni and Saku Mantere and E. Vaara and Elmira van den Broek and S. Pachidi and Vern L. Glaser and Joel Gehman and Gianpiero Petriglieri and Dirk Lindebaum and Lindsey D. Cameron and H. Rahman and 背景 AIの進化が研究プロセス全体に影響を及ぼす可能性があるため、問題の解決が重要です。目的人間の主体性と研究プロセスにおける AIの影響を探ることが重要です。提案 AIの役割を再定義し、人間の中心性を維持することが提案されています。評価研究では、哲学的および実践的課題を中心に議論と分析を行います。結果 AIが研究に不可欠であると同時に、注意深い統制が必要だと示されています。

テキストアドベンチャーゲームにおける言語エージェントを用いた戦略的プレイの学習 Learning Strategic Play with Language Agents in Text-Adventure
Games Nic Becker and Miranda Li 背景テキストアドベンチャーゲームは自然言語を介して戦略的判断が求められるため、研究が行われました。目的研究の目的は、自律言語エージェントがゲームで戦略的判断を学ぶ手法の改善です。提案 Reflexion拡張として長期記憶とアクションの自己検証モジュールを提案。評価 ReActと Reflexionの 2つのベースラインを比較し、ゲーム内での困難を特定。結果自動アクションの自己検証は成功したが、記憶ストレージの改善余地を示唆します。

CacheGen: 高速大規模言語モデル提供のための KVキャッシュ圧縮とストリーミング CacheGen: KV Cache Compression and Streaming
for Fast Large Language Model Serving Yuhan Liu and Hanchen Li and Yihua Cheng and Siddhant Ray and Yuyang Huang and Qizheng Zhang and Kuntai Du and Jiayi Yao and Shan Lu and Ganesh Ananthanarayanan and Michael Maire and Henry Hoffmann 背景大規模言語モデルは長い文脈を用いる際、処理遅延が問題となります。目的ネットワーク遅延を解決し、モデル提供を効率化することが重要です。提案 CacheGenは KVキャッシュを圧縮し、帯域幅を最適化することで遅延を減少させます。評価 LLMとデータセットを用いて、 CacheGenのパフォーマンスを比較テストしました。結果 CacheGenはキャッシュサイズと遅延を大幅に削減しつつ、応答品質を維持しました。

ChatGPTは自然言語説明の質をどの尺度で人間のように評価できるのか？ ChatGPT Rates Natural Language Explanation Quality like Humans:
But on Which Scales? Fan Huang and Haewoon Kwak and Kunwoo Park and Jisun An 背景 AIの透過性と説明責任が増大し、 NLEの評価が重要視されている。目的 ChatGPTの人間評価との整合性を多様な尺度で調査することが目的。提案複数の尺度を用いて ChatGPTの評価能力と人間の一致性を探る。評価 3つの NLEデータセットから 300例を用い、ペア比較を伴う実験を実施。結果チャット GPTは粗い尺度で人間と一致し、動的プロンプトでさらに改善。

LLMで強化された専門家参加型医療チャットボットの大規模展開からの学び Learnings from a Large-Scale Deployment of an LLM-Powered
Expert-in-the-Loop Healthcare Chatbot Bhuvan Sachdeva and Pragnya Ramjee and Geeta Fulari and Kaushik Murali and Mohit Jain 背景 LLMは医療で利用されるが、幻覚や不完全な情報が信頼性を低下。目的 LLMの信頼性向上のため、専門家検証を組み込んだチャットボットを開発。提案 BYOeBプラットフォームを使い、専門家が確認する LLM 搭載チャットボットを提案。評価 CataractBotを 24週間で 318人に対し運用し、対話ログを解析。結果医学的回答の正確性が 84.52%と評価され、性能が 19.02%向上。

制御された思考の連鎖 : プロンプトを通じた LLMのロールプレイ理解の引き出し Controlled Chain of Thought: Eliciting Role-Play
Understanding in LLM Through Prompts Deborah Carlander and Kiyoshiro Okada and Henrik Engström and Shuichi Kurabayashi 背景 TRPGは明示的ルールだけでなく、暗黙ルールも理解が必要。目的ロールプレイの定義を明確化し、 LLMの理解を促進。提案新手法 CCoTでプロンプトから思考の連鎖を生成。評価 CCoTの初期テストで可能性を評価。結果 CCoTは LLMの理解促進に有望な手法である。

大規模言語モデルの役割 :学業の先延ばし対策に向けた個別化と支援策 Understanding the Role of Large Language Models
in Personalizing and Scaffolding Strategies to Combat Academic Procrastination Ananya Bhattacharjee and Yuchen Zeng and Sarah Yi Xu and Dana Kulzhabayeva and Minyi Ma and Rachel Kornfield and Syed Ishtiaque Ahmed and A. Mariakakis and Mary P Czerwinski and Anastasia Kuzminykh and 背景学業の先延ばし行動は個別要因が多く、従来の方法では不十分。目的大規模言語モデルの可能性を調査し、個別化介入を実現する。提案 LLMがユーザー入力をもとにカスタマイズされたアドバイスを提供する。評価大学生と専門家を対象に、インタビューとフォーカスグループを実施。結果 LLMは構造化とサポート手段提供の必要性が明示された。

生成的エージェント NPCを用いたサバイバル RPGゲーム設計 Designing a Survival RPG Game with Generative
Agent NPCs So-Mi Jeong and Dong-Hwan Kwon and Eun-Mi Jung 背景ゲーム産業ではプレイヤーの没入感が重要視されています。目的生成的 AIを活用し、より動的な NPCとの対話を可能にすること。提案生成的エージェント技術を活用した動的 NPC設計手法を提案します。評価ユーザー実験でプレイヤーと NPCの対話の質を評価しました。結果生成的エージェント NPCにより、没入感が大幅に向上しました。

手頃な価格の生成エージェント Affordable Generative Agents Yangbin Yu and Qin Zhang and
Junyou Li and Qiang Fu and Deheng Ye 背景大規模言語モデルは信頼性の高いエージェントシミュレーションを推進しますが、運用コストが課題です。目的低コストで信頼性の高い LLMベースのインタラクションを実現すること。提案繰り返し推論を削減するポリシーと情報圧縮による AGA フレームワークを提案。評価複数の環境で広範な実験を行いフレームワークの有効性と効率性を検証。結果 AGAフレームワークの有効性が示され、行動理解の一助となる示唆があります。

大規模言語モデルにおける認知的シナジーの解放：多人格自己協力によるタスク解決エージェント Unleashing the Emergent Cognitive Synergy in Large
Language Models: A Task- Solving Agent through Multi-Persona Self-Collaboration Zhenhailong Wang and Shaoguang Mao and Wenshan Wu and Tao Ge and Furu Wei and Heng Ji 背景人間知能の成功は異なる心の協力による優れた成果によって成り立つ。目的 LLMにおける認知的シナジーを解放し、複雑なタスクを改善する。提案 Solo Performance Promptingで複数の人格を用いて LLMを認知的シナジストに変える。評価知識・推論を含む 3つのタスクで SPPを評価し、比較実験を実施。結果 SPPは理由付け能力を維持しつつ事実誤認を削減し、 GPT-4でのみ認知的シナジーが現れた。

自律型 LLM搭載マルチエージェントアーキテクチャの分類法 A Taxonomy for Autonomous LLM-Powered Multi-Agent Architectures
Thorsten Händler 背景 **大規模言語モデル（ LLM） **は AIに革命をもたらしましたが、複雑なタスクへの対処には限界があります。目的本研究は、自律型 LLMマルチエージェントシステムの自律性と整合性のバランスを解明します。提案多次元分類法で、 LLMエージェントの自律性と整合性の調和を分析します。評価代表的な LLMパワードマルチエージェントシステムの分類による実用性を示します。結果分類は実用的で、将来の研究と開発への可能性を示しました。

LLMサービングのための CAP原則 : 長コンテキスト大型言語モデルサービングの調査 The CAP Principle for LLM
Serving: A Survey of Long-Context Large Language Model Serving Pai Zeng and Zhenyu Ning and Jieru Zhao and Weihao Cui and Mengwei Xu and Liwei Guo and Xusheng Chen and Yizhou Shan 背景 LLMサービングは、コスト効率と精度のトレードオフが問題となっています。目的 LLMサービングでの文脈理解の長さとその課題に着目することが目的です。提案 CAPの概念を LLMサービングに適用し、三つの目標の最適化原則を提案しました。評価既存の研究を CAP原則の枠組みで分類し、その有効性を評価しました。結果 CAP原則は設計者に動的なトレードオフを伝える指針となります。

行動変容介入のエンゲージメント向上のための大規模言語モデルエージェントの活用：デジタルマインドフルネスへの応用 Large Language Model Agents for Improving Engagement
with Behavior Change Interventions: Application to Digital Mindfulness Harsh Kumar and Suhyeon Yoo and Angela M. Zavaleta Bernuy and Jiakai Shi and Huayin Luo and J. Williams and Anastasia Kuzminykh and Ashton Anderson and Rachel Kornfield 背景自発的な健康エクササイズの参加は時間と共に減少し、持続可能な参加のための新しい方法が求められています。目的行動変容支援のための **大規模言語モデル（ LLM） **の役割を検証することが主目的です。提案 LLMエージェントが人間らしい対話を提供し、行動変容を支援する可能性を模索します。評価 502人と 54人の参加者に対して二つのランダム化実験を実施し、エンゲージメントを分析しました。結果情報提供型 LLMはエクササイズのエンゲージメントを有意に改善し、社会的サポートの代替となる可能性を示しまし

メタバースにおける流動的なチーム :（非）親しみの探求 Fluid teams in the metaverse: exploring the
(un)familiar S. Jarvenpaa and Elizabeth Keating 背景メタバースは物理世界と仮想世界の融合を促し、流動的チームの調整に新たな課題をもたらします。目的流動的チームがメタバースで **（非）親しみ **を克服し、効果的に機能する方法を模索します。提案メタバースの流動性がチーム慣れに与える影響と、その活用方法を探ることを提案します。評価メタバースの流動的環境でのチーム協調に影響を与える要因を分析します。結果メタバースでの **（非）親しみ **の理解が新しいチーム体験を生み出す可能性があります。

ファジー理論と自然言語処理の融合 : 最先端の調査 The fusion of fuzzy theories and
natural language processing: A state-of-the-art survey Ming-Xing Liu and Hongjun Zhang and Zeshui Xu and Kun Ding 背景自然言語処理は言語の曖昧さにより複雑で解決が非自明である。目的ファジー理論で言語の曖昧さを処理し、理解を進めることが目的。提案ファジー理論の概念を NLPに適用し、コンピュータ処理を可能にする。評価ファジー理論の利用分野や融合の基本パラダイムを体系的にレビュー。結果現行の制約を示し、改善策を提案して今後の研究の参考とする。

データ処理の課題 : NLPと生成 AIを使った課題の軽減 Dealing with Data for RE:
Mitigating Challenges while using NLP and Generative AI S. Ghaisas and Anmol Singhal 背景 AIを活用する企業は、進化する規制と個別化、ガバナンスの課題に直面しています。目的 NLPと生成 AI導入の複雑な課題を解決するため、実践的な知識を提供します。提案 NLPをコアにしたソリューション構築の知識とツールを提供し、新しい REタスクを強調します。評価実践的な例と洞察を通じ、企業での NLPと生成 AI統合の課題を示し解決策を探ります。結果テキストデータ中心タスクと伝統的 REプロセスの統合を示し、新しいタスクの必要性を強調しました。

LLMによるデータセット分析：大規模言語モデルを用いたサブポピュレーション構造の発見 LLM as Dataset Analyst: Subpopulation Structure Discovery
with Large Language Model Yulin Luo and Ruichuan An and Bocheng Zou and Yiming Tang and Jiaming Liu and Shanghang Zhang 背景サブポピュレーション分布はデータセットの重要な特性だが、体系的な研究が不足している。目的サブポピュレーション構造を特定し、データセット理解を深める。提案 SSD-LLMフレームワークを用い、 LLMでサブポピュレーションを解釈・要約する。評価提案手法を下流タスクでタスク固有チューニングを活用し検証する。結果 SSD-LLMは多様なサブポピュレーション関連タスクに効果を示した。

AgentCF: 自律言語エージェントを用いた協調学習による推薦システム AgentCF: Collaborative Learning with Autonomous Language Agents
for Recommender Systems Junjie Zhang and Yupeng Hou and Ruobing Xie and Wenqi Sun and Julian McAuley and Wayne Xin Zhao and Leyu Lin and Ji-rong Wen 背景 LLMパワードエージェントの非言語的行動はまだ十分探求されていない。目的ユーザーアイテムの相互作用を模倣して推薦システムを改善すること。提案ユーザーとアイテムをエージェントと見なし、協調フィルタリングを行う AgentCFを提案。評価エージェントの決定と現実の相互作用記録を比較し調整した。結果エージェントは個別的な行動を示し、次世代シミュレーション開発を促進。

ProactiveAgent: 個別化されたコンテキスト対応リマインダーシステム ProactiveAgent: Personalized Context-Aware Reminder System Yumeng Ma
and Jiahao Ren 背景個別化された支援が日常生活で重要であり、それを実現する技術の開発が求められています。目的ユーザーの意図を理解し、動的な状況での意思決定を支援する。提案 LLMと個別エージェントを組み合わせたコンテキスト対応システムを提案します。評価シナリオ分析を通じて有用性を検証し、具体的なユースケースを提示しました。結果個別化支援の可能性を高め、ユーザー体験を向上させると結論付けました。

AgentCoder: マルチエージェントを用いたコード生成と反復テストによる最適化 AgentCoder: Multi-Agent-based Code Generation with Iterative Testing
and Optimisation Dong Huang and Jie M.Zhang and Michael Luck and Qi Bu and Yuhao Qing and Heming Cui 背景トランスフォーマー技術の拡大でコード生成が注目され、テストとのバランスが課題に。目的効率的でバランスの取れたコード生成とテストを実現する。提案 **Multi-Agent Assistant Code Generation (AgentCoder)**を提案。評価 9モデルと 12手法を対象に実験を行い、性能を評価した。結果 AgentCoderが既存技術を凌駕することを示す。

MedAgents: 大規模言語モデルを用いた協力者としてのゼロショット医療推論 MedAgents: Large Language Models as Collaborators for
Zero-shot Medical Reasoning Xiangru Tang and Anni Zou and Zhuosheng Zhang and Yilun Zhao and Xingyao Zhang and Arman Cohan and Mark B. Gerstein 背景医療分野では、専門用語や特殊な知識に基づく推論が必要です。目的医療における LLMsの推論能力を向上させる新しい枠組みを提案します。提案 MedAgentsは、協力的な多次元の話し合いを通じて推論能力を向上させます。評価 MedAgentsは、 9つのデータセットを使用した実験で評価されました。結果提案された枠組みは、 LLMsの医療専門知識と推論能力を向上させます。

最適化可能なグラフとしての言語エージェント Language Agents as Optimizable Graphs Mingchen Zhuge and
Wenyi Wang and Louis Kirsch and Francesco Faccio and Dmitrii Khizbullin and Jürgen Schmidhuber 背景既存の LLMベースの手法は多様で非統一的であるため改善が必要。目的異なる手法を統一する計算グラフとしての表現を提案。提案エージェントを計算グラフとし、ノードとエッジの最適化を導入。評価自動化されたグラフ最適化の実験を通じてフレームワークを検証。結果提案手法が LLMエージェントを効率的に改善可能であることを確認。

CodeAgent: ソフトウェアエンジニアリングのための協調型エージェント CodeAgent: Collaborative Agents for Software Engineering Daniel
Tang and Zhenghan Chen and Kisub Kim and Yewei Song and Haoye Tian and Saad Ezzini and Yongfeng Huang and Jacques Klein and Tégawendé F. Bissyandé 背景コードレビューはソフトウェアの信頼性を確保するが、自動化が求められている。目的協調的対話が可能な多エージェントシステムを用いたコードレビュー自動化の提案。提案 CodeAgentは、 QA-Checkerを核とする自律的な多エージェントシステムである。評価コードとコミットメッセージの不一致検出やセキュリティ評価で能力を検証。結果 CodeAgentはコードレビューにおける自動化の効果を実証した。

LLM駆動のニューラル -シンボリック認知アーキテクチャ NEOLAF NEOLAF, an LLM-powered neural-symbolic cognitive architecture
Richard Tong and Cassie Chen Cao and Timothy Xueqian Lee and Guodong Zhao and Ray Wan and Fei Wang and Xiangen Hu and Robin Schmucker and Jinsheng Pan and Julian Quevedo and Yu Lu 背景ニューラルとシンボリックの融合が知能エージェント構築の課題です。目的効率的で説明可能な知能エージェントモデルの開発です。提案 NEOLAFは逐次学習と協調学習を活用した認知アーキテクチャです。評価 NEOLAFに数学問題を解かせ、その学習能力を評価しました。結果 NEOLAFは高い学習能力を示し、分野の革新を示唆します。

学生フォーラムでの質疑応答向けの検索 -プロンプト戦略 : RetLLM-E RetLLM-E: Retrieval-Prompt Strategy for Question-Answering
on Student Discussion Forums Chancharik Mitra and Mihran Miroyan and Rishi Jain and Vedant Kumud and G. Ranade and Narges Norouzi 背景学生フォーラムの質問は特定のコースや機関に依存しており、一般的な LLMでは十分な回答を提供できない。目的学生フォーラムの質問に高品質な回答を提供する新しい手法を提案すること。提案 RetLLM-Eは、テキスト検索とプロンプト技術を組み合わせて、学生の質問に最適化された回答を生成する。評価量的および人的評価を通じて、 RetLLM-Eの回答品質を既存の真実と比較した。結果 RetLLM-Eは、文脈なしの LLMよりも高品質なコース関連の回答を提供できることを実証した。

LLMによる予測を用いたベイズ統計モデル Bayesian Statistical Modeling with Predictors from LLMs Michael Franke
and Polina Tsvilodub and Fausto Carcassi 背景大規模言語モデル（ LLM）の予測が人間の判断にどれほど似ているかは重要です。目的人間の認知や言語使用の説明モデルとして LLMを評価することが目的です。提案 LLMの予測精度を向上させるベイズ統計モデルの適用方法を提案します。評価強制選択実験を通じて人間データと LLMの予測を比較分析しました。結果 LLMは集計レベルでの人間行動の予測に適しているが、個別項目では不十分でした。

LLMエージェントのための弱い探索から強い活用へ WESE: Weak Exploration to Strong Exploitation for LLM
Agents Xu Huang and Weiwen Liu and Xiaolong Chen and Xingmei Wang and Defu Lian and Yasheng Wang and Ruiming Tang and Enhong Chen 背景現在の LLMエージェントは、環境のグローバル情報不足で最適解を得にくい。目的複雑なタスクを解決するため、探索と活用を分離する手法の提案。提案 WESEは弱い探索エージェントでグローバル知識を習得し、強い活用を促進。評価 4つのインタラクティブベンチマークを用いて、成功率と効率性を評価。結果成功率と効率性が著しく向上し、多様なタスクに柔軟に対応可能。

LLMエージェントのセキュリティとプライバシー : ケーススタディによる調査 The Emerged Security and Privacy of
LLM Agent: A Survey with Case Studies Feng He and Tianqing Zhu and Dayong Ye and Bo Liu and Wanlei Zhou and Philip S. Yu 背景 LLMエージェントの急速な発展はセキュリティとプライバシーの脆弱性を露呈。目的 LLMエージェントのセキュリティとプライバシー問題の包括的理解が目的です。提案 LLMエージェントの脅威の分析と防御戦略の評価を提案。評価脅威の影響と防御戦略を検証するためのケーススタディを実施。結果研究が促進され、エージェントの信頼性が向上することを期待。

インターネットインシデント調査のための対話型研究エージェントの構築に向けて Towards Interactive Research Agents for Internet Incident Investigation
Yajie Zhou and Nengneng Yu and Zaoxing Liu 背景インターネットのインシデント調査は専門家の知識が必要で、人的労力が大きい課題である。目的本研究は、インターネットインシデントの調査を支援するソフトウェアエージェントの開発を目的とする。提案 Auto-GPTを利用し、言語モデル GPT-4を活用する調査エージェントを提案する。評価エージェントによりオンラインリソースから情報を取得し、継続的な知識テストを行う。結果エージェント Bobは、太陽スーパーストームの影響を調査し、専門研究と類似の結論を得た。

開発のためのコミュニケーションエージェント Communicative Agents for Software Development Chen Qian and
Xin Cong and Cheng Yang and Weize Chen and Yusheng Su and Juyuan Xu and Zhiyuan Liu and Maosong Sun 背景ソフトウェア開発では、多様な知識と視点が必要とされるが、その融合が課題です。目的多様な社会的アイデンティティを持つエージェントによる効率化を図ります。提案異なるアイデンティティを持つエージェントの協力による開発手法を提案します。評価プロジェクトにおいて多様なエージェントの協力効果を分析しました。結果エージェントの協力で開発の効率と質が向上しました。

LDM²: 動的記憶強化を用いた人間認知模倣の大規模意思決定モデル LDM²: A Large Decision Model Imitating Human
Cognition with Dynamic Memory Enhancement Xingjin Wang and Linjing Li and D. Zeng 背景大規模言語モデル（ LLM）は人工一般知能の実現に向けて重要です。目的 LLMにより人間の意思決定過程を模倣する方法を開発します。提案 LDM²は動的記憶を用い、環境に応じた最適な意思決定を支援します。評価インタラクティブ環境での広範な実験で提案手法を評価しました。結果 LDM²はスコアと成功率で他手法を上回り、その効果が示されました。

社会ネットワーク向けマルチエージェントシミュレータ Multiagent Simulators for Social Networks Aditya Surve and
Archit Rathod and Mokshit Surana and Gautam Malpani and Aneesh Shamraj and Sainath Reddy Sankepally and Raghav Jain and Swapneel Mehta 背景オンライン安全性に関する課題解決が求められています。目的マルチエージェントシミュレーション技術を応用し課題解決を目指します。提案大規模言語モデルとエージェントベースのシミュレーションを提案します。評価過去の研究を評価し、未来の研究課題と機会を特定します。結果社会ネットワークの安全性向上に有望な可能性を示しています。

自律走行車における大型言語モデルを用いた人間らしいインタラクションの実現 Drive as You Speak: Enabling Human-Like Interaction with
Large Language Models in Autonomous Vehicles Can Cui and Yunsheng Ma and Xu Cao and Wenqian Ye and Ziran Wang 背景自律走行車は人間中心のデザインと AI能力の融合が重要です。目的自律走行車の意思決定を LLMで強化し、安全性を向上。提案 LLMの自然言語と文脈理解を活用した新しいフレームワークを提案。評価各種自律走行モジュールと LLMの統合による性能評価を行いました。結果新フレームワークは、個別対応と透明性のある意思決定を可能にします。

動力学方程式の融合 : LLMベースのエージェントを用いた社会的意見予測アルゴリズム Fusing Dynamics Equation: A Social Opinions
Prediction Algorithm with LLM- based Agents Junchi Yao and Hongjie Zhang and Jie Ou and Dingyi Zuo and Zheng Yang and Zhicheng Dong 背景ソーシャルメディアは世論形成の重要な場となり、そのユーザー行動の複雑性を把握することが求められます。目的意見動力学を正確にシミュレーションし、社会現象の理解と政策立案を向上させることです。提案新しい FDE-LLMアルゴリズムは、 CAモデルと SIRモデルを組み合わせ、 LLMの行動を現実に適合させます。評価実験は Weiboデータセットを用いた定量的検証と、 ChatGLMモデルによる分析で行われました。結果提案手法は従来の方法よりも精度と解釈性が高いことが確認されました。

心理計量調整 : 言語モデルによる人間の知識分布の捕捉 Psychometric Alignment: Capturing Human Knowledge Distributions
via Language Models Joy He-Yueya and Wanjing Anya Ma and Kanishk Gandhi and Benjamin W. Domingue and E. Brunskill and Noah D. Goodman 背景言語モデルは現在、教育や政策立案において人間の行動をシミュレートするために活用されています。目的 LMが人間の知識分布を効果的に反映するかを評価することです。提案「心理計量調整」という新しいメトリクスを導入し、人間の知識分布との一致度を測定します。評価 LMと人間の回答を収集し、項目反応理論を用いて群間の違いを分析しました。結果小型の LMは大型よりも心理計量調整が優れていることが示されました。

マージによって自己批判がジェイルブレイク攻撃に対抗 Merging Improves Self-Critique Against Jailbreak Attacks Víctor Gallego
背景大規模言語モデルはジェイルブレイク攻撃に弱く、対策が必要とされています。目的本研究は自己批判能力を強化し、攻撃成功率を低下させることを目的としています。提案外部の批判モデルとマージして LLMの自己批判能力を向上させる手法を提案します。評価提案手法を用いて、合成データに対する性能評価を行いました。結果攻撃成功率が大幅に低下し、新たな防御機構が示唆されました。

PSYDIAL: 大規模言語モデルを用いた性格ベースの生成対話 PSYDIAL: Personality-based Synthetic Dialogue Generation Using Large
Language Models Ji-Eun Han and Jun-Seok Koh and Hyeon-Tae Seo and Du-Seong Chang and Kyung-Ah Sohn 背景現実世界での人間らしい対話を生成するための性格反映が重要。目的性格を反映する会話データの効果的な生成方法を確立する。提案性格特性に基づく合成対話データセット PSYDIALを提案。評価 PSYDIALで訓練したモデルによる対話生成性能を実験的に検証。結果 PSYDIALを利用したモデルで性格を反映した応答生成が大幅に改善。

KAOS: 大規模モデルマルチエージェントオペレーティングシステム KAOS: Large Model Multi-Agent Operating System Zhao
Zhuo and Rongzhen Li and Kai Liu and Huhai Zou and KaiMao Li and Jie Yu and Tianhao Sun and Qingbo Wu 背景大規模モデルはユーザー体験の差異を減少させますが、エージェント協力とリソース共有に課題があります。目的 KAOSの提案により、異なるソフトウェアプラットフォーム間での統一的なユーザー体験とリソース管理問題の解決を目提案オープンソースの Kylinをベースにした KAOSというマルチエージェント OSを提案します。評価実際のアプリケーションと知能スコアリングを用いて効率性と優位性を検証しました。結果実験結果、マルチエージェント協力により様々なシナリオで顕著な利点を確認しました。

役割に固執せよ！大規模言語モデルにおける個人価値表現の文脈依存性と安定性 Stick to your Role! Context-dependence and Stability of
Personal Value Expression in Large Language Models Grgur Kovač and Rémy Portelas and Masataka Sawayama and P. Dominey and Pierre-Yves Oudeyer 背景大規模言語モデル（ LLM）の文脈依存性は、現実的な運用における挙動を把握する上での課題です。目的 LLMの価値安定性を評価し、他の特性との比較に役立てることを目的とします。提案文脈依存性をモデルの新たな比較次元として研究・活用することを提案します。評価心理学的手法を利用し、異なる文脈での価値表現安定性を評価しました。結果特定のモデルが他よりも高い価値安定性を示すことを発見しました。

生成的ゴースト : AIの死後の世界における利益とリスクの予測 Generative Ghosts: Anticipating Benefits and Risks
of AI Afterlives Meredith Ringel Morris and Jed R. Brubaker 背景 AIの能力向上に伴い、人間に基づくエージェント作成が現実化しつつあります。目的人々が安全かつ有益に AI死後生活を創造・交流できる手段を探ります。提案生成的ゴーストの設計のための新たなデザイン空間を導入します。評価設計アプローチの実用的・倫理的影響を考察するための分類法を使用しました。結果 AI死後技術のリスク /利益の景観を理解するための研究計画を提示しました。

DoraemonGPT: 大規模言語モデルを用いた動的シーンの理解へ DoraemonGPT: Toward Understanding Dynamic Scenes with Large
Language Models Zongxin Yang and Guikun Chen and Xiaodi Li and Wenguan Wang and Yi Yang 背景 LLMは画像に特化しており、動的シーンの理解に限界があります。目的動的シーン理解を可能にする新しい方法を提示し、汎用性を持たせることを目的とします。提案 DoraemonGPTはビデオエージェントとして機能し、シンボリックメモリでタスクを解析します。評価 3つのベンチマークと多様な自然シナリオで効果を徹底評価しました。結果良好な結果が得られ、多数の解が統合され改善された回答が得られました。

"私のエージェントは私をよりよく理解する ": 人間らしい動的記憶再生と統合の LLM エージェントへの統合 "My agent understands me
better": Integrating Dynamic Human-like Memory Recall and Consolidation in LLM-Based Agents Yuki Hou and Haruki Tamoto and Homei Miyashita 背景 LLMは時間認知の限界により一貫した対話理解が困難です。目的人間らしい記憶再生を取り入れることで、対話エージェントの認知能力を向上させます。提案人間の記憶キューをトリガーとし、動的な記憶統合を行う数学的モデルを提案します。評価ユーザーの対話履歴から記憶を取得し、その内容と時間的文脈をデータベースに保存します。結果エージェントは人間のように過去の経験を認識し、特定の記憶を再生する能力が向上しました。

大規模言語モデルにおける性別と人種のバイアスの測定 Measuring Gender and Racial Biases in Large Language
Models Jiafu An and Difang Huang and Chen Lin and Mingzhu Tai 背景 AIの採用が増加する中で、社会的バイアスの影響が懸念されています。目的大規模言語モデルの性別・人種バイアスを分析し、影響を明らかにします。提案 GPTを用いて職業候補者のバイアス測定を実施しました。評価無作為に設定した社会的アイデンティティで約 361,000の履歴書を分析。結果黒人男性への評価が低く、性別バイアス軽減が示唆されました。

V-IRL: 仮想知能を現実世界に根付かせる V-IRL: Grounding Virtual Intelligence in Real Life Jihan
Yang and Runyu Ding and Ellis L Brown and Xiaojuan Qi and Saining Xie 背景 AIエージェントが現実世界で人間のように柔軟に動くための感覚的な隔たりを解消する必要があります。目的現実とデジタルのリアリズムのギャップを埋めることで、より実用的な AIエージェントを開発することを目指します。提案 V-IRLプラットフォームを提案し、エージェントが仮想的に現実世界と交互作用できる環境を提供します。評価エージェントの知覚、意思決定、相互作用能力を検証するためにグローバルなデータを用いた実験を行いました。結果 V-IRLは、エージェントの実用タスク達成力と能力向上を評価する大規模な試験場として機能します。

Math-Shepherd: 人工による注釈なしでステップバイステップで LLMを検証・強化 Math-Shepherd: Verify and Reinforce LLMs Step-by-step
without Human Annotations Peiyi Wang and Lei Li and Zhihong Shao and R. Xu and Damai Dai and Yifei Li and Deli Chen and Y.Wu and Zhifang Sui 背景 LLMの学習には手作業のアノテーションが不可欠で、それが大きな負担でした。目的自動で LLMのステップごとの監督を行い、性能を向上させることが目的です。提案 Math-Shepherdというモデルを提案し、報酬スコアで数式解法を評価します。評価シナリオとして LLMの出力検証と PPOによる強化学習を用いました。結果 Mistral-7Bの精度が GSM8Kで 89.1％、 MATHで 43.5％に大幅向上しました。

長 LLMLingua: プロンプト圧縮による長文コンテキストシナリオでの LLMの高速化と強化 LongLLMLingua: Accelerating and Enhancing
LLMs in Long Context Scenarios via Prompt Compression Huiqiang Jiang and Qianhui Wu and Xufang Luo and Dongsheng Li and Chin-Yew Lin and Yuqing Yang and Lili Qiu 背景長文コンテキストでの大規模言語モデルの計算コストとパフォーマンス低下が問題です。目的プロンプトの圧縮で LLMが重要情報をよりよく認識し、課題を同時に解決します。提案 LongLLMLinguaを提案し、プロンプト圧縮で LLMの効率を大幅に向上させます。評価様々なベンチマークで LongLLMLinguaを検証し、性能向上とコスト削減を評価しました。結果性能向上とコスト削減が確認され、エンドツーエンドの遅延も大幅に改善されました。

協調的な AIへの探求 : LLM同士の相互作用 Interacting LLMs: A Dive into Collaborative
AI Grant Cheng and Oliver Wang and Alyssa M. Adams and Martin Biehl and Luc Caspar and Olaf Witkowski 背景大規模言語モデル（ LLM）は応用範囲が広いが、問題解決能力の限界が存在する。目的 LLMの協調的相互作用による言語タスクのパフォーマンス向上を目指す。提案 5つの異なる方法で LLMを相互作用させ、タスクを実施する手法を提案。評価提案手法をグラフ探索アルゴリズムと比較し、成功率とページ数を評価。結果一部の方法が他の相互作用法を上回り、プロンプト複雑性の課題も確認。

歴史的拡張現実体験の強化 : AI生成対話のためのプロンプトエンジニアリング戦略 Enhancing Historical Extended Reality Experiences: Prompt
Engineering Strategies for AI-Generated Dialogue Lazaros Rafail Kouzelis and Ourania Spantidi 背景拡張現実は多くの可能性を秘めていますが、一般化されたアプローチとスクリプトへの依存が課題です。目的 AIを用いて XR体験での事実の不正確さを改善することが重要です。提案 GPT APIのプロンプトエンジニアリングを活用し、歴史再現における文脈理解を向上させます。評価 1922年のスミルナ大火を題材に AIエージェントを配置し、実験を実施しました。結果プロンプトエンジニアリングにより、事実誤りが減少し AI 対話がより共鳴することを確認しました。

トランスフォーマーの長さ外挿 : 位置エンコーディング観点からの調査 Length Extrapolation of Transformers: A Survey
from the Perspective of Positional Encoding Liang Zhao and Xiachong Feng and Xiaocheng Feng and Weihong Zhong and Dongliang Xu and Qing Yang and Hongtao Liu and Bing Qin and Ting Liu 背景トランスフォーマーは長さの制限により長いシーケンスへの適用が困難です。目的位置エンコーディングを視点にトランスフォーマーの長さ外挿の方法を体系的に分析します。提案外挿可能な位置エンコーディングを用いた方法を統一的に整理し、新たな視点を提供します。評価文献調査により位置エンコーディングを中心にした外挿方法の分類と分析を行いました。結果現行の方法への深い理解と今後の研究への示唆を提供します。

REX: AIエージェントのための迅速な探索と活用 REX: Rapid Exploration and eXploitation for AI
Agents Rithesh Murthy and Shelby Heinecke and Juan Carlos Niebles and Zhiwei Liu and Le Xue and Weiran Yao and Yihao Feng and Zeyuan Chen and Akash Gokul and Devansh Arpit and Ran Xu and P. Mùi and Haiquan Wang 背景 AutoGPTスタイルの技術には意思決定のための正確な記述への依存があります。目的 AIエージェントの迅速で効率的な探索と活用手法の確立を目的としています。提案 REXは追加の報酬層と UCBに似た概念を統合した手法です。評価 Chain-of-Thoughtsや RAPとの比較分析により評価されます。結果 REXは実行時間を大幅に削減し、多様なシナリオでの実用性を示しました。

UltraFeedback: 高品質フィードバックで言語モデルを強化 UltraFeedback: Boosting Language Models with High-quality Feedback
Ganqu Cui and Lifan Yuan and Ning Ding and Guanming Yao and Wei Zhu and Yuan Ni and Guotong Xie and Zhiyuan Liu and Maosong Sun 背景 RLHFにおける多様で自然な人間の好みデータの不足が課題です。目的多様で高品質な好みデータセット ULTRAFEEDBACKの提案により RLHFを促進します。提案多様な指示とモデルを集め、 GPT-4を用いて詳細なフィードバックを提供します。評価 UltraRMや UltraLM-13B-PPOなど様々なモデルを用いて実験的に効果を確認しました。結果開発したモデルが既存モデルを超え複数のベンチマークで最高性能を示しました。

真実の明示と変革の促進 : エージェントベースの大規模社会運動シミュレーションに向けて Unveiling the Truth and Facilitating
Change: Towards Agent-based Large-scale Social Movement Simulation Xinyi Mou and Zhongyu Wei and Xuanjing Huang 背景ソーシャルメディアの影響力が増加し、社会運動の動向を予測することが重要です。目的社会運動参加者の行動を正確に捉える新しいシミュレーション手法の開発です。提案ユーザーを 2タイプに分けるハイブリッドフレームワーク HiSimを提案します。評価実世界データセットを用いた包括的な実験で手法を検証しました。結果手法は有効かつ柔軟であることが結果として示されました。

UGCベースのロールプレイングゲーム向けのテキストゲームエンジン A Text-to-Game Engine for UGC-Based Role-Playing Games Lei
Zhang and Xuezheng Peng and Shuying Yang and Feiyang Wang 背景生成 AIの進化により、 UGCが RPGなどのゲーム業界に影響を与えている。目的簡単なテキストからインタラクティブな RPGを生成するエンジンを開発する。提案テキストから複雑な RPG体験を作る新しいフレームワークを提案。評価フレームワークで Zagiiエンジンを開発し、多数のオンラインゲームでテスト。結果 Zagiiにより、数百の RPGと数万のプレイが成功し、フレームワークの有効性を確認。

PhishAgent: フィッシングウェブページ検出のための頑強なマルチモーダルエージェント PhishAgent: A Robust Multimodal Agent for
Phishing Webpage Detection Tri Cao and Chengyu Huang and Yuexin Li and Huilin Wang and Amy He and Nay Oo and Bryan Hooi 背景フィッシング攻撃はオンラインセキュリティで重大な脅威となり、対策の必要性が高まっています。目的フィッシングサイトの検出精度を向上し、誤検知を減少させることを目的としています。提案 PhishAgentは、複数のソースを統合したマルチモーダルフレームワークを提案します。評価実際に得られた 3つのデータセットを用いて、フレームワークの性能を検証しました。結果提案手法は、検出精度を改善し、誤検知率を減少させました。

RecAgent: レコメンダーシステムのための新しいシミュレーションパラダイム RecAgent: A Novel Simulation Paradigm for Recommender
Systems Lei Wang and Jingsen Zhang and Xu Chen and Yankai Lin and Ruihua Song and Wayne Xin Zhao and Ji-rong Wen 背景過去の研究では実データベースが優位でしたが、 LLMがシミュレーションの新たな可能性を示しています。目的シミュレーションの短所を克服し、安価なデータ取得を可能にする LLM利用の意義を示します。提案 LLMに基づくレコメンダーシミュレーター「 RecAgent」を提案し、ユーザーとレコメンダーモジュールで構成されま評価ユーザーが LLMに基づき現実的な行動をすることをケーススタディで確認しました。結果実際にシミュレーションでユーザーが合理的に行動することが示されました。

感情に基づくリアルな 3Dアニメーションのための予備モデル Preliminary Emotion-Based Model for Realistic 3D Animation
Noorsyuhada Azlan and M. F. Asli and Muzaffar Hamzah 背景 3Dアニメの感情表現の限界が没入感を阻害している。目的キャラクターのリアルな動きで観客の関与を強化すること。提案基本的な感情に基づいた予備モデルを提案し、リアルな表現を支援。評価 Shapiroの 15コントローラーを用い感情ごとの要素と評価を分析。結果異なる感情にユニークなコントローラーが必要と示唆された。

Tachikuma: 大規模言語モデルによる多キャラクターと新規オブジェクトの複雑なインタラクション理解 Tachikuma: Understading Complex Interactions with Multi-Character
and Novel Objects by Large Language Models Yuanzhi Liang and Linchao Zhu and Yezhou Yang 背景近年の LLMの進展により仮想世界でのインタラクションが向上しましたが、多くのキャラクターや新規オブジェクトに対目的多キャラクターと新しいオブジェクトを含む複雑なインタラクションを改善することが目的です。提案テーブルトップ RPGに着想を得た仮想ゲームマスターをエージェントに統合し、情報や意図の管理を改善します。評価 Tachikumaというベンチマークを用いて、モデルが意図を理解する能力を評価しました。結果単純なプロンプティングの基準でも、インタラクション理解を向上させる効果が確認されました。

LLMはどのくらい信じられる AIから遠いか？人間行動シミュレーションの信ぴょう性を評価するベンチマーク How Far Are LLMs from Believable
AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation Yang Xiao and Yi Cheng and Jinlan Fu and Jiashuo Wang and Wenjie Li and Pengfei Liu 背景 AIは大規模言語モデルでの人間行動シミュレーションで進展を示すが、信ぴょう性が不明瞭です。目的シミュレーションされた行動の信ぴょう性を評価し、人間らしい行動の理解を深めることです。提案人間行動シミュレーションの信ぴょう性を評価するために SimulateBenchを設計しました。評価 65のキャラクタープロファイルと 8,400の質問を用いて LLMsを 2次元で評価しました。結果現在の LLMsはキャラクターの整合性に乏しく、摂動に対する脆弱性を示しました。

AIエージェント間で人間のような対話生成を目指して Towards human-like spoken dialogue generation between AI agents
from written dialogue Kentaro Mitsui and Yukiya Hono and Kei Sawada 背景 **大規模言語モデル (LLMs)**の登場により、自然な書き言葉の対話生成が可能になった。目的人間らしい話し言葉の対話生成を可能にする方法を開発すること。提案 CHATSは、書き言葉からの自然な話し言葉生成を実現するシステムである。評価実験評価により、 CHATSはベースラインを上回り、流暢で明瞭な対話を実現した。結果 CHATSにより、インタラクティブで流暢な会話が可能であることが示された。

P4: 大規模言語モデルの個別化のためのプラグアンドプレイ方式の離散プロンプト生成 P4: Plug-and-Play Discrete Prompting for Large Language
Models Personalization Yuan Zhang and Xiao Wang and Tianze Chen and Jiayi Fu and Tao Gui and Qi Zhang 背景 LLMのパーソナライゼーションはユーザーニーズへの対応に不可欠である。目的個別のモデル調整の手間を軽減しつつ、高品質な応答を得ること。提案 P4というプラグアンドプレイ方式の離散プロンプト生成手法を提案する。評価ユーザーニーズへの対応力と応答のクオリティを重視した検証実験を行う。結果 P4は迅速かつ柔軟にパーソナライズされた応答を提供可能であることが示された。

大規模言語モデルは良いコンパニオンになり得るか？ Can Large Language Models Be Good Companions? Zhenyu
Xu and Hailin Xu and Zhouyang Lu and Yingying Zhao and Rui Zhu and Yujiang Wang and Mingzhi Dong and Yuhu Chang and Qin Lv and Robert P. Dick and Fan Yang and T. Lu and Ning Gu and L. Shang 背景 AI研究者は、個人のコンパニオンとしてのチャットボット開発を目指してきた。目的チャットボットが人間的なコンパニオンになるための共通の立場構築が重要である。提案 OS-1は視覚と音声を感知し、共通の立場を築く対話システムを提案する。評価 OS-1の技術的妥当性と共通の立場構築能力をラボと現場で評価した。結果個人の文脈を利用することで、 OS-1はユーザーの理解を深め、満足度を向上した。

RoleCraft-GLM: 大規模言語モデルにおける個別化されたロールプレイの進展 RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language
Models Meiling Tao and Xuechen Liang and Tianyu Shi and Lei Yu and Yiting Xie 背景会話型 AIでの個別インタラクション不足が課題であり、改善が求められています。目的個別化されたインタラクションを強化し、感情豊かな対話を実現することです。提案 RoleCraft-GLMを用いて、多様な非有名人のペルソナを詳細に描写します。評価様々なケーススタディを通じて、生成対話の品質を検証しました。結果 RoleCraft-GLMは個別インタラクションを大きく進展させ、参加者の関与を促進します。

CRDA: 大規模言語モデルの内容リスクドリフト評価 CRDA: Content Risk Drift Assessment of Large
Language Models through Adversarial Multi-Agent Interaction Zongzhen Liu and Guoyi Li and Bingkang Shi and Xiaodan Zhang and Jingguo Ge and Yulei Wu and Honglei Lyu 背景大規模言語モデルの内容リスクが不確実であることが、ユーザーとの継続的対話で特に問題視されています。目的 LLMのリスクドリフトを低コストで評価する新たな方法を開発することを目的としています。提案 CRDAという低コストで軽量なフレームワークを提案し、自動で複数ラウンドの敵対相互作用を行います。評価制限された役割で LLMの敵対相互作用を行い、リスクドリフトの影響を分析しました。結果 5つの中国 LLMがコンテンツリスクドリフトを示し、特に累積悪化率での増加が見られました。

大規模言語モデルを用いた科学的知識の破壊 Poisoning scientific knowledge using large language models Junwei Yang
and Hanwen Xu and Srbuhi Mirzoyan and Tong Chen and Zixuan Liu and Wei Ju and Luchen Liu and Ming Zhang and Sheng Wang 背景生物医学知識グラフは新たな仮説の生成に重要であり、 LLMの悪用が懸念されています。目的 LLMを用いた偽情報が、科学知識の信頼性を損なう可能性を調査します。提案悪意ある要約を生成して知識グラフを誤誘導するモデル Scorpiusを提案します。評価 3,818,528本の論文を用いた知識グラフで Scorpiusの影響を評価しました。結果 Scorpiusは、知識グラフのデータランキングを著しく変え、検出が難しいことが明らかにされました。

大規模言語モデルを活用した参加型都市計画 Large language model empowered participatory urban planning Zhilun Zhou
and Yuming Lin and Yong Li 背景参加型都市計画は、時間と人材の不足という課題に直面しています。目的研究の目的は、 LLMsを活用して効率的な参加型都市計画を実現することです。提案提案は、 LLMエージェントを用いたロールプレイとフィードバックを通じて適応的な計画を実現することです。評価多様な都市コミュニティでの実証実験を通じて、 LLMの効果を評価しました。結果結果は、満足度と包括性で人間の専門家を上回る成果を示しました。

AGILE: 新しい LLMエージェントフレームワーク AGILE: A Novel Framework of LLM
Agents Peiyuan Feng and Yichen He and Guanhua Huang and Yuan Lin and Hanchong Zhang and Yuchen Zhang and Hang Li 背景 LLMエージェントは複雑な会話タスクでの応答改善が求められています。目的強化学習と LLMを用いた高度な会話エージェントの構築を目指します。提案 AGILEは強化学習により、記憶やツールを活用する LLM エージェントを提案します。評価 ProductQAと MedMCQAでの実験により性能を評価し、力を示しました。結果 13B, 7B LLMを用いた AGILEが GPT-4より優れた性能を発揮しました。

AI生成テキスト検出器は敵対的摂動に頑強か？ Are AI-Generated Text Detectors Robust to Adversarial Perturbations?
Guanhua Huang and Yuchen Zhang and Zhe Li and Yongjian You and Mingze Wang and Zhouwang Yang 背景大規模言語モデルの一般化に伴い、 AI生成テキストの不正使用への懸念が高まっています。目的 AI生成テキスト検出器が敵対的摂動に対して持つ問題を解決することです。提案 Siamese Calibrated Reconstruction Networkという新しい検出手法を提案します。評価 4つの公開データセットを用いて、 SCRNの性能を従来手法と比較しました。結果 SCRNは各ベースラインを上回り、敵対的攻撃下で精度が 6.5％ -18.25％向上しました。

ChatDB: データベースを記号的メモリとして拡張する LLM ChatDB: Augmenting LLMs with Databases as
Their Symbolic Memory Chenxu Hu and Jie Fu and Chenzhuang Du and Simian Luo and J. Zhao and Hang Zhao 背景 LLMのメモリ活用不足が、複雑な推論の模擬を困難にしています。目的現代アーキテクチャを参考に、記号的メモリで LLMの推論能力を向上させます。提案 LLMと SQLデータベースを用いる記号的メモリフレームワークを提案します。評価合成データセットを使用し、複雑な推論におけるフレームワークの有効性を検証しました。結果提案手法は複雑な推論の改善に効果的であることを示しました。

ゲーム NPC向けの大規模言語モデルのためのフェデレーテッドラーニングフレームワーク FedNPC FedNPC: A Federated Learning Framework for
Large Language Models in Game NPCs Mengze Hong and Kun Zhang and Shuning Zhang and Zhihang He 背景 NPCの非現実的な行動がプレイヤーの没入感を損なっている。目的 NPCが文脈に適した応答を生成するためのモデル改善を目指す。提案 FedNPCフレームワークで NPCの応答をユーザー対話から学習。評価ゲームの仮想知識を利用し、フェデレーテッドラーニングで NPC個別化を検証。結果実装の実用性を確認し、産業界への応用可能性を示唆。

LLMベースの推薦システム環境 An LLM-based Recommender System Environment Nathan Corecco and Giorgio
Piatti and Luca A. Lanzendorfer and Flint Xiaofeng Fan and R. Wattenhofer 背景強化学習は長期的報酬最適化の利点を持ちながら、訓練データの不足が課題です。目的オンラインデータの不足を解決し、 RLを活用した推薦システムを改善することです。提案 LLMを用いた合成環境により、 RLベースのモジュール型推薦システムを提案します。評価映画と書籍の推薦に関する実験と詳細なアブレーションスタディを実施しました。結果提案フレームワークは効果的であり、ソフトウェアは公開されています。

もっと質問して、よりよく知る : 大規模言語モデルを用いた意思決定のための強化学習プロンプト質問 Ask more, know better: Reinforce-Learned
Prompt Questions for Decision Making with Large Language Models Xue Yan and Yan Song and Xinyu Cui and Filippos Christianos and Haifeng Zhang and D. Mguni and Jun Wang 背景大規模言語モデル（ LLMs）は、複雑な課題を解決する有望な手段とされていますが、高品質なプロンプトが必要です。目的行動方策の学習において、手作業を減らし、一般化できるフレームワークの開発を目指します。提案リーダーフォロワーの二段階フレームワークを提案し、適切な質問を学び、行動学習を促進します。評価 5つの意思決定タスクで提案手法を用い、実証しました。結果提案手法は既存手法を上回る結果を示しました。

LLM駆動の階層型言語エージェントによるリアルタイム人間 -AI協調 LLM-Powered Hierarchical Language Agent for Real-time Human-AI
Coordination Jijia Liu and Chao Yu and Jiaxuan Gao and Yuqing Xie and Qingmin Liao and Yi Wu and Yu Wang 背景 LLM駆動エージェントは高い推論遅延が課題で、リアルタイム応用が困難です。目的リアルタイムでの人間 -AI協力を強化するためのエージェント開発。提案意図推論、言語インタラクション、迅速な実行を可能にする階層型エージェントを提案。評価 Overcookedゲームを用いて、人間と AIの言語協調能力をテストしました。結果 HLAが協力能力、応答速度、一貫性で他エージェントを超えました。

LLM時代における人間と AIの相互作用 Human-AI Interaction in the Age of LLMs Diyi
Yang and Sherry Tongshuang Wu and Marti A. Hearst 背景大規模言語モデルは、人間のようなテキスト生成を可能にし、 AIの機能を大きく変革しています。目的人間と LLMの相互作用における課題や倫理的考慮を明らかにすることです。提案 LLMと人間の相互作用における新たなトピックを HCIと NLPの視点から探ります。評価 HCIと NLPコミュニティの共有トピックを重点的にレビューします。結果 LLMは人間との相互作用を深く変革し新たな課題と機会を提供しています。

異なるフォロワー行動に対応するコミュニケーション方針の学習 Learning Communication Policies for Different Follower Behaviors in
a Collaborative Reference Game P. Sadler and Sherzod Hakimov and David Schlangen 背景協力型リファレンスゲームでの言語調整が重要課題です。目的異なるフォロワー行動に対するガイドの適応性向上を目指します。提案ガイドのコミュニケーション戦略を強化学習で改善する手法を提案。評価 PPOを使い、信頼性と自律性の異なるフォロワーで実験しました。結果フォロワーの特性に適応する、冗長性の少ない戦略が得られました。

大規模言語モデル群における集合的イノベーション Collective Innovation in Groups of Large Language Models
Eleni Nisioti and Sebastian Risi and Ida Momennejad and Pierre-Yves Oudeyer and Clément Moulin-Frier 背景人間文化は集合的イノベーションに依存し、言語はそれをサポートします。目的多数の大規模言語モデルが集合的イノベーションを可能にするか検証します。提案 LLMsを用いて創造的ゲームにおける集合的イノベーションを計算的に研究しました。評価個別と集合の LLMsによるゲームプレイを通じて行動と接続性を分析しました。結果動的接続の LLMグループが優れたパフォーマンスを示しました。

ファクトファインダー - 知識グラフを用いて大規模言語モデルの専門性を向上 Fact Finder - Enhancing Domain Expertise
of Large Language Models by Incorporating Knowledge Graphs Daniel Steinigen and Roman Teucher and Timm Heine Ruland and Max Rudat and Nicolas Flores-Herr and Peter Fischer and Nikola Milosevic and Christopher Schymura and Angelo Ziletti 背景大規模言語モデルの応答の信頼性に懸念があるため、問題を解決することが重要です。目的ドメイン特有の知識を強化し、応答の正確性を向上させることが目的です。提案知識グラフを LLMに統合し、ハイブリッドな検索システムを提案します。評価 69サンプルのデータセットでシステムの精度を検証しました。結果研究は従来の LLMを上回る精度を示し、有望なことが明らかです。

AIエージェントによる企業設計、運用とコンピューティング : DSLを用いた責任 Enterprise Design, Operations and Computing with
AI Agents: Accountability using DSL Zoran Milosevic and Igor Dejanovi´c 背景 AIエージェントが企業で自律的に行動する際の責任の所在が課題です。目的 AIエージェントシステムにおける責任の透明化を目指します。提案 ISO ODP基準に基づいたドメイン固有言語 (DSL)を提案しています。評価 textXを用いたプロトタイピング環境での実装で評価します。結果 ODP企業言語のセマンティクスに沿ったユーザーフレンドリーな DSLが実現可能です。

AppAgent: スマートフォンユーザーとしてのマルチモーダルエージェント AppAgent: Multimodal Agents as Smartphone Users C.
Zhang and Zhao Yang and Jiaxuan Liu and Yucheng Han and Xin Chen and Zebiao Huang and Bin Fu and Gang Yu 背景 LLMsは複雑なタスクを行うエージェントを促進し、スマホ操作の新機軸となります。目的システムのバックエンドへのアクセスなしにスマートフォンアプリを操作可能なエージェントを目指します。提案エージェントがタップとスワイプで人間のようにアプリを操作するフレームワークを提案します。評価 10個の異なるアプリで 50のタスクを用いてエージェントの実用性を広範にテストしました。結果エージェントは多様な高レベルタスクを効果的に処理できることが確認されました。

新しい NLPプレイグラウンドの定義 Defining a New NLP Playground Sha Li and
Chi Han and Pengfei Yu and Carl N. Edwards and Manling Li and Xingyao Wang and Y. Fung and Charles Yu and Joel R. Tetreault and Eduard H. Hovy and Heng Ji 背景大規模言語モデルの進化により、 NLP分野が急激に変化しています。目的新たな NLPプレイグラウンドを定義し、多様な研究方向を提供することです。提案 20+の研究方向を提案し、理論分析や学習パラダイムなどを含みます。評価各提案方向は博士課程向けの研究テーマとして検討されています。結果新しい研究方向が多くの学術的課題の解決に役立つことが示唆されました。

L3GO: 3D連鎖思考で型破りなオブジェクトを生成する言語エージェント L3GO: Language Agents with Chain-of-3D-Thoughts for Generating
Unconventional Objects Yutaro Yamada and Khyathi Raghavi Chandu and Yuchen Lin and Jack Hessel and Ilker Yildirim and Yejin Choi 背景現在の拡散モデルは、物理的な配置推論に課題がある。目的型破りな 3Dオブジェクト生成の推論力向上を目指す。提案 L3GOで言語モデルが 3Dオブジェクトを試行錯誤で生成。評価新ベンチマーク UFOと SimpleBlenv環境で性能評価。結果提案手法は他のモデルより高い評価を得た。

経済実験における新しい方法論の模索 : 大規模言語モデルによる合意ゲームのシミュレーション Toward a Novel Methodology in
Economic Experiments: Simulation of the Ultimatum Game with Large Language Models Ayato Kitadai and Yudai Tsurusaki and Yusuke Fukasawa and Nariaki Nishino 背景経済実験は仮説を検証するのに重要だが、資源を多く要する。目的大規模言語モデルで実験を代替することで、その制約を克服する。提案合意ゲームの提案者・応答者の行動を LLMでシミュレーションする。評価感度分析により、人間実験と類似する設定を特定した。結果提案者側は類似する結果が出たが、応答者側は一致しない。

グラフと大規模言語モデルの出会い：進捗と今後の方向性に関する調査 A Survey of Graph Meets Large Language Model:
Progress and Future Directions Yuhan Li and Zhixun Li and Peisong Wang and Jia Li and Xiangguo Sun and Hongtao Cheng and Jeffrey Xu Yu 背景グラフは複雑な関係の表現と分析に不可欠で、社会的や生物学的データで頻繁に使われます。目的研究は、大規模言語モデル（ LLMs）がグラフ関連タスクでどのように役立つかを明らかにします。提案 LLMsがグラフタスクで果たす役割に基づく新しい分類法を提案し、既存手法を体系的に分析します。評価 LLMsの役割に基づく手法の分類と体系的レビューを通じて、その有効性と可能性を検討します。結果分類によって、 LLMsを活用した手法の限界と今後の研究課題が明らかになりました。

誰が何を誰に話すかを学ぶ多人数会話 Learning WHO Saying WHAT to WHOM in Multi-Party Conversations
Jia-Chen Gu and Zhuosheng Zhang and Zhen-Hua Ling 背景多人数会話は話者間の複雑な相互作用が特徴で、対話システムで重要。目的誰が何を誰に言っているかの特定が MPCの鍵。提案 MPCを「誰が何を誰に」の観点から分類し分析。評価最近の MPCの進展を包括的に調査し、現状を評価。結果多様な MPCタスクの発展を確認し、未解決の課題を特定。

大規模言語モデルにおける RLHFの秘密パート I: PPO Secrets of RLHF in
Large Language Models Part I: PPO Rui Zheng and Shihan Dou and Songyang Gao and Wei Shen and Wei-Yuan Shen and Bing Wang and Yan Liu and Senjie Jin and Qin Liu and Limao Xiong and Luyao Chen and Zhiheng Xi and Yuhao Zhou and Nuo Xu and 背景 RLHFは人間に寄り添うための AIと整合性の確立が重要だが、安定した訓練が難しい。目的 PPOの枠組みとその影響を分析し、訓練の安定性向上を目指す。提案高度版の PPO-maxアルゴリズムを提案し、訓練の安定性を向上する。評価 RLHFの能力を SFTモデルや ChatGPTと比較分析。結果 PPO-maxによりポリシーモデルの訓練安定性が効率的に向上。

大規模言語モデルを都市住民として活用 : LLMエージェントによるパーソナルモビリティ生成のフレームワーク Large Language Models as Urban Residents:
An LLM Agent Framework for Personal Mobility Generation Jiawei Wang and Renhe Jiang and Chuang Yang and Zengqing Wu and Makoto Onizuka and Ryosuke Shibasaki and Chuan Xiao 背景個人の移動の効果的な生成は、都市モビリティの動向を理解する上で重要です。目的研究は LLMと実世界の都市データを整合させ、信頼性のある活動生成を目指します。提案 LLMを用いた個々の活動パターンに基づく新しいエージェントフレームワークを提案します。評価提案手法を最先端の移動生成アプローチと比較し、その有効性を評価しました。結果方法の有効性を示し、都市モビリティ分析への応用可能性を確認しました。

GraphText: テキスト空間におけるグラフ推論 GraphText: Graph Reasoning in Text Space Jianan
Zhao and Le Zhuo and Yikang Shen and Meng Qu and Kai Liu and Michael Bronstein and Zhaocheng Zhu and Jian Tang 背景 LLMは自然言語は得意だが、グラフ機械学習は不十分でした。目的グラフデータを自然言語に変換し、 LLMで扱う手法を開発します。提案 GraphTextは、グラフを自然言語に変換し、 LLMで処理します。評価トレーニングなしで、 ChatGPTを用いてグラフ推論を可能としました。結果 GraphTextは、監督付きモデルに匹敵するパフォーマンスを達成しました。

没入型コンピューティング : 十年後に期待される進展 Immersive Computing: What to Expect in
a Decade? Songqing Chen and Bo Han and Yao Liu and Qun Li 背景コンピューティング技術の急速な進化が社会や日常生活を変革している。目的没入型技術が社会にどのように影響し得るかを解明することが目的。提案 VRが AIやロボティクスと統合し個人用クローン技術を実現する未来を提案。評価技術進展を三つの段階に分け、それぞれの研究課題を議論。結果没入型技術の未来像と、それに対する研究課題の重要性を明示。

因果推論 : 次世代 AIネイティブ無線ネットワークの革命的道筋 Causal Reasoning: Charting a Revolutionary
Course for Next-Generation AI-Native Wireless Networks C. Thomas and Christina Chaccour and Walid Saad and M. Debbah and C. Hong 背景次世代 6Gなどの無線ネットワークは AIネイティブが求められていますが、既存の取り組みは漸進的です。目的データ駆動型 AIの制約を克服し、持続可能な無線ネットワークを提案します。提案因果推論に基づく新たな枠組みで、説明可能で推論可能なネットワークを構築します。評価因果発見・表現を活用した適応性、耐性向上のケーススタディを紹介します。結果因果推論に基づく AIネイティブネットワークのロードマップが示されました。

自律型 LLMアプリケーション向けランタイム設計 GoEX GoEX: Perspectives and Designs Towards a
Runtime for Autonomous LLM Applications Shishir G. Patil and Tianjun Zhang and Vivian Fang and Noppapon C Roy Huang and Aaron Hao and Martin Casado and Joseph E. Gonzalez Raluca and Ada Popa and Ion Stoica and Uc Berkeley and Andreessen 背景 LLMはツールでの自動化を目指すが、人間の事前検証が難しい。目的人間の関与を最小限にしつつ LLMの信頼性を高める手法を提案。提案ポストファクト検証システムの導入で、リスクを抑えつつ LLMを活用。評価元に戻す機能と損害封じ込め戦略の有効性を検証。結果人間の最小限の監督で LLMが安全にアクションを実行可能。

VideoAgent: 大規模言語モデルをエージェントとする長編ビデオ理解 VideoAgent: Long-form Video Understanding with Large Language
Model as Agent Xiaohan Wang and Yuhui Zhang and Orr Zohar and Serena Yeung-Levy 背景長編ビデオ理解は、膨大な視覚情報を合理的に解釈することが求められます。目的インタラクティブな推論を通じて長編ビデオを効率的に理解することを目指します。提案大規模言語モデルをエージェントとして用い、視覚情報を再構成する新システムを提案。評価 EgoSchemaと NExT-QAベンチマークで、ゼロショット精度を指標に評価を実施。結果提案手法は最先端を超える効果と効率を示し、エージェントアプローチの有効性を確認。

「対話で学ぶ」 : 事前定義済みプロファイルなしで対話中に学習するパーソナライズされた対話へ "In Dialogues We Learn": Towards
Personalized Dialogue Without Pre-defined Profiles through In-Dialogue Learning Chuanqi Cheng and Quan Tu and Wei Wu and Shuo Shang and Cunli Mao and Zhengtao Yu and Rui Yan 背景パーソナライズ対話システムは異なる人物設定で応答を生成できる能力が注目されています。目的事前定義されたプロファイルに依存せずに個別化応答を生成することを目指します。提案対話履歴から人物設定をキャラクタライズする In- Dialogue Learning（ IDL）を提案。評価 3つのデータセットを用い、 BLEUと ROUGEスコアで提案手法の有効性を検証しました。結果 BLEUと ROUGEスコアがそれぞれ最大 **200%と 247%** 向上することが示されました。

IQA-EVAL: 人間とモデルの対話型質問応答の自動評価 IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question
Answering Ruosen Li and Barry Wang and Ruochen Li and Xinya Du 背景 LLMの非対話的評価は人間モデルの動的会話を反映しない。目的人間モデル対話の動的評価法を確立し、正確性を向上。提案 LLMベースの評価エージェント LEAで自動対話生成と評価を提案。評価 GPT-4、 Claudeを用いた LEAで人間評価との相関を調査した。結果 LEAにペルソナを割り当てると相関が向上し、人的評価のコストを軽減。

意図駆動のモバイル GUIテストを可能にする自律型大規模言語モデルエージェント Autonomous Large Language Model Agents Enabling Intent-Driven
Mobile GUI Testing Juyeon Yoon and R. Feldt and Shin Yoo 背景 GUIテストの自動化はソフトウェアの成否に直結するが、現行技術は低レベル指標に依存。目的 DroidAgentを用い、高レベルのタスクを自動で設定し、実行する GUIテストの実現を目指す。提案大規模言語モデルに基づいた意図駆動の自律型 GUIテストエージェント DroidAgentを提案。評価 Themisベンチマークの 15アプリでの実証評価により、タスクの設定と実行を検証。結果平均 61%のアクティビティカバレッジ達成し、従来技術より多くの機能をカバー。

大規模言語モデルの知能評価に言葉当てゲームを活用 Leveraging Word Guessing Games to Assess the Intelligence
of Large Language Models Tian Liang and Zhiwei He and Jen-tse Huang and Wenxuan Wang and Wenxiang Jiao and Rui Wang and Yujiu Yang and Zhaopeng Tu and Shuming Shi and Xing Wang 背景 LLMエージェントの評価はコストと時間がかかり、適応性に欠ける。目的言葉当てゲームで LLMの知能を効果的に評価する手法を提案。提案 DEEPと SpyGameにより、 LLMの表現力と適応性を評価。評価多言語から単語を収集し、 LLMの言語スキルと戦略を評価。結果 DEEPと SpyGameは LLMの新しい状況適応と戦略的コミュニケーション能力を評価。

複雑なエージェントシステムは本当に必要か？具現化したエージェントを単一モデルに蒸留 Do We Really Need a Complex Agent
System? Distill Embodied Agent into a Single Model Zhonghan Zhao and Ke Ma and Wenhao Chai and Xuan Wang and Kewei Chen and Dongxu Guo and Yanting Zhang and Hongwei Wang and Gaoang Wang 背景具現化エージェントは複数の LLMを活用するが、動的シナリオでのギャップが課題。目的 STEVE-2で複雑なタスクを効率的に処理し、柔軟性を向上させる。提案 STEVE-2は階層型知識蒸留を用いて、タスク分割と並列シミュレーションを実現。評価ナビゲーションおよびクリエイションタスクにおける広範な評価を通じて性能を確認。結果 STEVE-2は複雑なタスクにおいて、従来モデルを大きく上回る性能を示す。

STRIDE: 戦略的かつ対話的意思決定のためのツール支援型 LLMエージェントフレームワーク STRIDE: A Tool-Assisted LLM Agent
Framework for Strategic and Interactive Decision-Making Chuanhao Li and Runhan Yang and Tiankai Li and Milad Bafarassat and Kourosh Sharifi and Dirk Bergemann and Zhuoran Yang 背景大規模言語モデルは高度な言語理解と推論を可能にしますが、戦略的環境では限界があります。目的 LLMの戦略的意思決定能力の向上を目指し、重要な課題を解決します。提案メモリと特殊ツールを活用した新たな LLMエージェントフレームワークを提案します。評価フレームワークの性能を経済的に重要な環境で定量的に評価しました。結果戦略的意思決定能力が大幅に改善され、将来の可能性を示しました。

言語モデルを用いた聴衆シミュレーションによる対人コミュニケーションの改善 Improving Interpersonal Communication by Simulating Audiences with Language
Models Ryan Liu and Howard Yen and Raja Marjieh and Thomas L. Griffiths and Ranjay Krishna 背景経験の限界や偏りが原因で、結果を推論することが難しい問題を解決。目的目標指向のコミュニケーションを改善するための方法を探求。提案 EGSフレームワークが多様なアドバイスと聴衆反応をシミュレート。評価八つのシナリオで EGSの有効性を、人間評価と比較して検証。結果 EGSは生成メカニズムより優れ、人間と高い一致率を達成。

PlanCollabNL: 大規模言語モデルを活用した人間とロボットの協調計画生成 PlanCollabNL: Leveraging Large Language Models for Adaptive
Plan Generation in Human-Robot Collaboration Silvia Izquierdo-Badiola and Gerard Canal and Carlos Rizzo and Guillem Alenyà 背景従来の AIプランニングは不変性が高く、ロボットとの動的協調に不適です。目的人間 -ロボット協調計画の柔軟な生成と一般化を目指します。提案 LLMを活用し、自然言語から協調計画を生成するフレームワークを提案します。評価目標とエージェント条件で PlanCollabNLの性能を評価し検証します。結果ほとんどのケースで正確で実行可能な計画を生成できました。

大規模言語モデルを用いた協調型具現化エージェントのモジュール化構築 Building Cooperative Embodied Agents Modularly with Large Language
Models Hongxin Zhang and Weihua Du and Jiaming Shan and Qinhong Zhou and Yilun Du and J. Tenenbaum and Tianmin Shu and Chuang Gan 背景マルチエージェントシステムでは高コストなコミュニケーションと観察が課題です。目的分散環境で効果的なマルチエージェント協力を達成することが目的です。提案大規模言語モデルを認知的モジュールフレームワークに組み込みます。評価 C-WAHと TDW-MATでの実験で GPT-4が他の方法を上回ります。結果 CoELAは自然言語でのコミュニケーションで人間との信頼を向上させました。

言語モデルと人間による言語的不確実性の認識 Perceptions of Linguistic Uncertainty by Language Models and
Humans Catarina Belém and Markelle Kelly and M. Steyvers and Sameer Singh and P. Smyth 背景人間は不確実性表現を解釈する際の一致が確認されているが、言語モデルの解釈能力は未解明。目的言語モデルが不確実性の言語表現を数値的に解釈可能かを調査し、その重要性を明らかにする。提案言語モデルが他者の不確実性を独立に理解できるかを検証するタスクの提案。評価人間と 10の言語モデルを対象にタスクを作成し、その解釈能力を評価した。結果 10モデル中 8つは人間同様に不確実性表現を解釈可能だが、事実に基づく偏見が見られる。

性格で駆動される生成エージェント Driving Generative Agents With Their Personality Lawrence J. Klinkert
and Stephanie Buongiorno and Corey Clark 背景大規模言語モデル (LLMs) がゲームキャラクターにおいて使用される可能性を探っている。目的 LLMを用いて、キャラクターの人間らしさを強化することが目的である。提案 ACシステムと LLMを組み合わせ、性格情報をプロンプト生成に活用する手法を提案。評価国際性格項目プール (IPIP) 質問紙で LLMの性格表現能力を評価。結果最新の LLMは、性格を一貫して解釈し、行動を表現できると示された。

エージェント設計パターンカタログ : ファウンデーションモデルベースのエージェント向け建築パターンのコレクション Agent Design Pattern Catalogue: A
Collection of Architectural Patterns for Foundation Model based Agents Yue Liu and Sin Kit Lo and Qinghua Lu and Liming Zhu and Dehai Zhao and Xiwei Xu and Stefan Harrer and Jon Whittle 背景ファウンデーションモデルは、目標達成に向けたエージェントを生成するが、設計のガイドが不足している。目的エージェント設計の課題を考慮した建築パターンのカタログを提供すること。提案文献をレビューし、 17の建築パターンを含むカタログを提案した。評価文献レビューを通じて、ファウンデーションモデルベースのエージェントに関する情報を収集した。結果提案したカタログは、設計支援と目標達成の促進に有用であることを示した。

大規模言語モデルによって強化されたエージェントベースのモデリングとシミュレーション :調査と展望 Large Language Models Empowered Agent-based Modeling
and Simulation: A Survey and Perspectives Chen Gao and Xiaochong Lan and Nian Li and Yuan Yuan and Jingtao Ding and Zhilun Zhou and Fengli Xu and Yong Li 背景エージェントベースのモデリングは、複雑システムの解析と理解に重要な手法です。目的大規模言語モデルを集約し、シミュレーションの能力を向上させることです。提案大規模言語モデルを用いて、エージェントの行動生成を強化する手法を提案します。評価実際のサイバー、物理、社会、ハイブリッドシナリオで適用し、課題を分析しました。結果大規模言語モデルは、環境認識と行動生成の課題解決に寄与しました。

個別化対話生成の最新動向 : データセット、手法、および評価のレビュー Recent Trends in Personalized Dialogue Generation:
A Review of Datasets, Methodologies, and Evaluations Yi-Pei Chen and Noriki Nishida and Hideki Nakayama and Yuji Matsumoto 背景個別化対話生成はユーザーエンゲージメント向上のために重要であり、特に大規模モデルの登場で注目されています。目的個別化対話生成の最新動向を調査し、研究課題を明確化することが目的です。提案データセット、手法、評価基準を系統的にレビューし、 5 つの問題タイプを特定します。評価 22のデータセットと 17の主要研究を分析し、評価指標の要約を提供しています。結果研究の課題と将来の方向性を考察し、今後の研究を展望します。

生成エージェントは感情を予測できるか？ Can Generative Agents Predict Emotion? Ciaran Regan and Nanami
Iwahashi and Shogo Tanaka and Mizuki Oka 背景 **大規模言語モデル（ LLMs） **は多くの能力を持つが、感情の理解には課題があります。目的生成エージェントの感情状態が新たな経験でどのように変化するかを調査します。提案新しい経験を過去の記憶と比較する新しいアーキテクチャを提案します。評価感情尺度の PANASを用いて、文脈での感情状態を分析しました。結果文脈導入が感情の一致を改善する可能性を示唆します。

タスク非依存スキャフォルディングによる言語モデルの強化 Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding Mirac
Suzgun and A. Kalai 背景言語モデルは複雑なタスクを扱う際に制限があり、さらなる改善が求められています。目的言語モデルを多目的に機能させ、タスク非依存での使用を可能にすることが目的です。提案単一の LMを指揮者として活用し、タスクを分割し、それぞれを専門の LMに処理させる手法を提案します。評価 GPT-4を用いた多様なタスク実験で、提案手法の性能優位性を評価しました。結果提案手法により、従来の方法を 15%以上上回る性能向上が確認されました。

日常のストレス軽減実践 : VR, AR、 LLMを用いた社会シミュレーションの設計 Practicing Stress Relief for
the Everyday: Designing Social Simulation Using VR, AR, and LLMs Anna Fang and Hriday Chhabria and Alekhya Maram and Haiyi Zhu 背景ストレスは日常生活で避けられず、多くの人が自己管理に苦労しています。目的社会シミュレーションを使って日常のストレス解消を練習できる安全な環境を提供することです。提案 VR、 AR、 LLMを活用した 8つのプロトタイプを開発してシミュレートします。評価 19名を対象に、プロトタイプを用いた半構造化インタビューで評価を行いました。結果人々は日常ストレス管理に効果的な手段を欠いており、社会シミュレーションがその穴を埋めます。

エージェントの部屋 : 多段階コラボレーションによる物語生成 Agents' Room: Narrative Generation through Multi-step
Collaboration Fantine Huot and Reinald Kim Amplayo and J. Palomaki and Alice Shoshana Jakobovits and Elizabeth Clark and Mirella Lapata 背景大規模言語モデルは物語作成に有望ですが、現状では複雑なプロンプトに依存しています。目的物語作成のプロセスを分解し、エキスパート評価者により好まれる物語を生成することが目標です。提案エージェントの部屋というフレームワークは、専門エージェントがサブタスクを協力して解決します。評価「 Tell Me A Story」データセットと新しい評価フレームワークで生成物語を評価します。結果協調と専門化により、ベースラインを超える優れた物語生成が可能であることが確認されました。

GPTの創造性を限界へ押し上げる : 代替的使用とトーランスのテスト Pushing GPT’s Creativity to Its Limits:
Alternative Uses and Torrance Tests Fabrício Góes and Marco Volpe and Piotr Sawicki and Marek Grze´s and Jacob Watson 背景近年、創造性評価テストでの GPT-4の性能を高めることが注目されています。目的 GPT-4の創造性をテストで向上させる方法を探ることを目的としています。提案インタラクティブプロンプトを用いて GPT-4の創造性を増幅する手法を提案。評価強制的なプロンプトを使い、多段階の会話で応答の創造性を評価。結果 GPTの応答は創造性が向上し、今後の研究の可能性が開かれました。

大規模言語モデルとゲーム : 調査とロードマップ Large Language Models and Games: A
Survey and Roadmap Roberto Gallotta and Graham Todd and Marvin Zammit and Sam Earle and Antonios Liapis and Julian Togelius and Georgios N. Yannakakis 背景近年、 LLMが多くの分野で可能性を示し、ゲーム分野でも期待が高まっています。目的 LLMのゲーム内での応用可能性と限界を明らかにし、今後の研究を導くこと。提案 LLMのゲーム内での役割を調査し、未開拓の分野と有望な方向性を特定。評価 LLMのゲーム応用に関する既存研究を包括的に調査し、役割を分類。結果 LLMの潜在能力を確認し、新たな研究の基盤を提供する資料を作成。

脅威にさらされる AIエージェント : 主要なセキュリティ課題と未来の道筋に関する調査 AI Agents Under Threat: A
Survey of Key Security Challenges and Future Pathways Zehang Deng and Yongjian Guo and Changzhou Han and Wanlun Ma and Junwu Xiong and Sheng Wen and Yang Xiang 背景 AIエージェントはその自律性により多くのタスクで進化を遂げているが、セキュリティ上の脅威が増大している。目的 AIエージェントに対するセキュリティ脅威の特定と今後の安全性向上を図る。提案 AIエージェントに対する脅威を 4つの知識ギャップに分けて体系的にレビューする。評価セキュリティ脅威を体系的にレビューし、進展と限界を洗い出す。結果 AIエージェントのセキュリティ改善のためにさらなる研究の着手を促進する。

次世代シミュレーションが組織化された複雑性の科学的問題を照らす Next-Generation Simulation Illuminates Scientific Problems of Organised Complexity
Cheng Wang and Chuwen Wang and Wang Zhang and Shirong Zeng and Yu Zhao and Ronghui Ning and Changjun Jiang 背景人工知能の普及によりデータ駆動型手法が伝統的手法を凌駕しています。目的組織化された複雑性の未解決問題に新しいアプローチを提案します。提案次世代シミュレーションを用いて異なるパラダイムの統合を試みます。評価洗練された行動シミュレーションで複雑システムの再現を試みます。結果新しい手法が従来を超える可能性を持つことを示唆します。

通信効率を高めるための実践的エージェント : 大規模言語モデルの利用 PACE: A Pragmatic Agent for Enhancing Communication
Efficiency Using Large Language Models Jiaxuan Li and Minxi Yang and Dahua Gao and Wenlong Xu and Guangming Shi 背景通信技術の限界により、資源節約が求められています。目的普遍的意図解決ツールの不足を克服し、通信効率を向上させることを目指します。提案大規模言語モデルを用いた意図解決による通信フレームワークを提案します。評価画像実践的データセットを用いて実験的検証を行いました。結果提案手法は従来の方法よりも送信効率において優れます。

LLMは人間を討論で打ち負かせるか？競争的討論のための動的マルチエージェントフレームワーク Can LLMs Beat Humans in Debating? A
Dynamic Multi-agent Framework for Competitive Debate Yiqun Zhang and Xiaocui Yang and Shi Feng and Daling Wang and Yifei Zhang and Kaisong Song 背景競争的討論は複雑な計算論的課題であり、 LLMはこの分野での幻覚や非競争力に悩まされています。目的研究の目的は、 LLMの競争的討論での能力を徐々に向上させ、その実用化を促進することです。提案 Agent4Debateは、 4つの専門エージェントが協力し、討論を動的に進行させるフレームワークです。評価 66の討論モーションを持つ競争的討論アリーナで、 Agent4Debateを評価しました。結果 Agent4Debateは、人間と同等のパフォーマンスを示し、各コンポーネントの効果が確認されました。

LLMが私たちにいる：デジタル談話に参加する生成 AI LLMs Among Us: Generative AI Participating in
Digital Discourse Kristina Radivojevic and Nicholas Clark and Paul Brenner 背景 LLMはソーシャルメディアにおける機会と脅威をもたらします。目的 LLMが人間として振る舞えるかを検証するためです。提案 Mastodon上に LLMs Among Usフレームワークを構築しました。評価 3種類の LLMで 10ペルソナを用いた 3回の実験と調査を実施しました。結果参加者の **42％ **がユーザーの性質を正確に識別できました。

生成的 AIエージェント間の秘密共謀 Secret Collusion Among Generative AI Agents S. Motwani
and Mikhail Baranchuk and Martin Strohmeier and Vijay Bolina and Philip H. S. Torr and Lewis Hammond and C. S. D. Witt 背景 LLMの能力向上で、生成的 AIエージェント間の情報共有が重要です。目的秘密裏の情報共有を防ぐための手法とその必要性を明らかにします。提案秘密共謀を防ぐため、ステガノグラフィー緩和策を体系的に提案します。評価提案手法の評価には、様々な LLMを用いた実証実験を行いました。結果 GPT-4における能力飛躍を確認し、継続的な監視の必要性を示唆しました。

PokeLLMon: 大規模言語モデルを用いたポケモンバトルでの人間並みのエージェント PokeLLMon: A Human-Parity Agent for Pokemon Battles
with Large Language Models Sihao Hu and Tiansheng Huang and Ling Liu 背景戦術ゲームでの人間並みのエージェント実現は AI研究での重要な課題です。目的ポケモンバトルで人間並みのパフォーマンスを達成するエージェントを提案します。提案 PokeLLMonは In-context強化学習と知識強化生成で戦略行動を実現します。評価オンラインでの人間とのバトルを通じてエージェントの成果を検証しました。結果招待バトルで 56%の勝率を達成し、戦略的意思決定を示しました。

GenoTEX: バイオインフォマティクス研究者と一致する遺伝子発現データ探索のための LLMベンチマーク GenoTEX: A Benchmark for Evaluating LLM-Based
Exploration of Gene Expression Data in Alignment with Bioinformaticians Haoyang Liu and Haohan Wang 背景機械学習の進展により、遺伝子発現データから疾患関連遺伝子の同定が進んでいる。目的大規模言語モデルが遺伝子発現データの分析を自動化する可能性がある。提案 GenoTEXを用いて遺伝子発現データの自動解析を評価する。評価 GenoAgentsを使い、 LLMによる解析の実験を行い、誤りを分析した。結果 LLMアプローチはゲノムデータ解析における有望な可能性を示した。

大規模タスクプランニングにおける常識的知識としての大規模言語モデル Large Language Models as Commonsense Knowledge for Large-Scale
Task Planning Zirui Zhao and W. Lee and David Hsu 背景大規模タスクプランニングは複雑で、効率的なアルゴリズムが求められています。目的研究の目的は、 LLMを常識的知識として活用し、タスクプランニングを改善することです。提案 LLMを利用した LLM-MCTSアルゴリズムを新たに提案します。評価モンテカルロ木探索を用いて、 LLMによる世界モデルと方策の効果を評価しました。結果 LLM-MCTSは単独の MCTSや既存の LLM方策を大幅に上回る成果を示しました。

AgentBench: LLMsをエージェントとして評価する AgentBench: Evaluating LLMs as Agents Xiao Liu
and Hao Yu and Hanchen Zhang and Yifan Xu and Xuanyu Lei and Hanyu Lai and Yu Gu and Yuxian Gu and Hangliang Ding and Kai Men and Kejuan Yang and Shudan Zhang and Xiang Deng and Aohan Zeng and 背景大規模言語モデルがより自律的となり、実世界のミッションへの適用が求められています。目的 LLMsをインタラクティブ環境でエージェントとして評価し、性能の格差を明らかにすることです。提案 AgentBenchは複数の環境での LLMの推論力を評価する進化的ベンチマークです。評価 27種の商用及び OSS LLMsを多ターン生成環境で試験しました。結果商用 LLMsは強力ですが、 OSSとの間に性能格差が見られます。

高水準な機械の推論を可能にする認知的ニューロシンボリックシステム Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems
A. Oltramari 背景常識的推論は人間にとって基本ですが、 AIには欠けています。目的ニューロシンボリック技術を活用して AIに高水準の推論を可能にします。提案 ACT-R中心の認知アーキテクチャと外部コンポーネントを統合するフレームワークを提案。評価 AIシステムにおける高水準推論の可能性を理論的に議論。結果 AIシステムに堅牢な推論をもたらす可能性を示唆します。

感情評価に基づくチェーン・オブ・エモーション構造による感情的言語モデルゲームエージェント An appraisal-based chain-of-emotion architecture for affective language
model game agents Maximilian Croissant and Madeleine Frister and Guy Schofield and Cade McCall 背景デジタル人工エージェントの開発において、信憑性と感情のシミュレーションが課題です。目的感情シミュレーションを効果的に行う言語モデルの開発を目指します。提案心理的評価に基づいたチェーン・オブ・エモーション構造を提案します。評価 3つの実験で LLMの感情シミュレーション能力を評価しました。結果提案モデルは、ユーザー体験とコンテンツ分析で優れた成果を示しました。

ExpeL: LLMエージェントは経験的学習者である ExpeL: LLM Agents Are Experiential Learners Andrew
Zhao and Daniel Huang and Quentin Xu and Matthieu Lin and Y. Liu and Gao Huang 背景 LLMsを意思決定に応用する研究が増加し、特定タスクに適応する方法が求められています。目的 LLMsの経験的学習を可能にする方法論を提案し、リソースを節約します。提案 ExpeLエージェントによって、パラメトリック更新なしに経験から学べる手法を提案します。評価質的観察と追加実験を通じて、 ExpeLエージェントの可能性を探求しました。結果 ExpeLエージェントは経験を積むごとに学習効率が向上することが示されました。

跳ぶ前に見よ : 大規模言語モデルの数学的推論を改善する問題拡充プロンプト Look Before You Leap: Problem Elaboration
Prompting Improves Mathematical Reasoning in Large Language Models Haoran Liao and Jidong Tian and Shaohua Hu and Hao He and Yaohui Jin 背景大規模言語モデルは数学的推論のような複雑な課題で依然苦闘しています。目的本研究は、問題の文脈認識不足による誤作動を解決することを目的としています。提案 **問題拡充プロンプト（ PEP） **を提案し、推論前に問題を分解・明確化します。評価データセットとモデルを用いた実験で PEPの効果を評価しました。結果 PEPは数学的タスクの性能を向上させ、特に誤誘導問題に強みを示しました。

人間のようにコンピュータを使用するオープンエージェントフレームワーク Agent S Agent S: An Open Agentic Framework
that Uses Computers Like a Human Saaket Agashe and Jiuzhou Han and Shuyu Gan and Jiachen Yang and Ang Li and Xin Eric Wang 背景人間とコンピュータの相互作用を変革し、複雑なタスクの自動化を目指す必要があります。目的ドメイン知識取得、長期タスク計画、動的インターフェース処理の自動化問題を解決します。提案経験強化階層計画と Agent-Computer Interface（ ACI）を用いる新手法を提案します。評価 OSWorldベンチマークで性能を評価し、ベースラインを大きく上回る成功率を確認しました。結果 Agent Sは、新たな最先端技術を確立し、広範な一般化能力を示しました。

国籍を持つペルソナを用いた LLMでの国の認識変化の探求 Exploring Changes in Nation Perception with Nationality-Assigned
Personas in LLMs M. Kamruzzaman and Gene Louis Kim 背景ペルソナの割当が LLMの行動に与える影響を探る。目的異なる国籍ペルソナによる国の認識の変化を解明する。提案 193の国籍ペルソナを使用し特定の LLMでの国の認識を分析。評価 4つの LLMにペルソナ割当し、国別の認識変化を調査。結果西欧諸国が有利で、ペルソナにより地域的バイアスが明らか。

ロボティクスにおける基盤モデル : 応用、課題、未来 Foundation Models in Robotics: Applications, Challenges,
and the Future Roya Firoozi and Johnathan Tucker and Stephen Tian and Anirudha Majumdar and Jiankai Sun and Weiyu Liu and Yuke Zhu and Shuran Song and Ashish Kapoor and Karol Hausman and Brian Ichter and Danny Driess and 背景従来のモデルは特定タスクに限定され、多様な応用への適応が課題です。目的基盤モデルを活用してロボットの認識、意思決定、制御を向上させることが目的です。提案基盤モデルがロボット自律性における多様な問題解決に貢献することを提案します。評価近年の論文を調査し、基盤モデルのロボティクスへの応用と課題を分析しました。結果基盤モデルはロボット能力向上に貢献するが、採用には数多くの課題が存在します。

大規模言語モデルは身元グループを誤って表現し平坦化するので、人間の参加者を置き換えるべきではない Large language models should not replace human
participants because they can misportray and flatten identity groups Angelina Wang and Jamie Morgenstern and John P. Dickerson 背景大規模言語モデルが人間の参加者の代替となる場面での使用が増えている。目的 LLMの使用がマイノリティのグループに与える影響を明らかにすること。提案 LLMが身元グループを誤って表現し平坦化する可能性があると主張。評価 16の人口統計学的アイデンティティで 3200人の参加者を用いた人間実験で評価。結果 LLMの制限がマイノリティ集団に有害であることが確認された。

GPTVoiceTasker: 動的なインターフェース探索と学習によるマルチステップモバイルタスクの効率化の進展 GPTVoiceTasker: Advancing Multi-step Mobile Task Efficiency
Through Dynamic Interface Exploration and Learning Minh Duc Vu and Han Wang and Jieshan Chen and Zhuang Li and Shengdong Zhao and Zhenchang Xing and Chunyang Chen 背景仮想アシスタントはユーザーの意図理解が難しく、効率面で課題があります。目的タスク効率を高めることで、仮想アシスタントの実用性を向上させることです。提案 GptVoiceTaskerはユーザーコマンドを学習し、タスクを自動化する仮想アシスタントです。評価ユーザー研究と実験で、コマンド解釈とタスク自動化の精度を評価しました。結果タスク効率が 34.85%向上し、肯定的なフィードバックを得ました。

ゲーム理論実験における GPTの活用 GPT in Game Theory Experiments Fulin Guo 背景
戦略ゲームにおける人間の意思決定は社会科学で重要な研究テーマである。目的 GPTを用いた実験で、 AIの意思決定過程と人間行動の類似点を探る。提案 GPTのプロンプト設計により、公平性や利己心のような特性を模倣させることを提案。評価最後通牒ゲームと囚人のジレンマを用いて GPTの行動と推論過程を評価した。結果 GPTは人間に類似した反応を示し、社会科学研究における有用性を持つと示唆された。

大規模言語モデルを用いたマルチエージェントの合意形成 Multi-Agent Consensus Seeking via Large Language Models Huaben
Chen and Wenkang Ji and Lufeng Xu and Shiyu Zhao 背景大規模言語モデルを用いることで、マルチエージェント間の合意形成が可能になる問題です。目的合意形成を通じて、マルチエージェント協働を円滑にしようとする点です。提案 LLM駆動のエージェントが主に平均戦略を用いて合意形成を行うことを提案します。評価エージェント数、性格、ネットワークトポロジーが交渉過程に与える影響を分析します。結果 LLM駆動エージェントの合意形成は、ゼロショット自律計画の可能性を示しました。

人口の多い仮想環境における共同プレゼンスをアニメーションキャラクターのアクター引き継ぎでサポート Supporting Co-Presence in Populated Virtual Environments by
Actor Takeover of Animated Characters Jingyi Zhang and Klara Brandstätter and Anthony Steed 背景現在の技術では、インタラクティブな仮想環境のリアルさを十分にシミュレートすることができません。目的仮想世界でユーザーが群衆の中にいる感覚を向上させることが目的です。提案アクターが複数のアバターを制御するシステムを提案し、没入型のインターフェースを構築しました。評価一人のアクターがバリスタと顧客の役割を持つカフェシナリオで実験を行いました。結果一人のアクターでも複数のアバターを使った群衆体験が可能であることを示しました。

PettingZooでの DRAMA: マルチエージェント強化学習フレームワークのための動的制限行動空間 DRAMA at the PettingZoo: Dynamically
Restricted Action Spaces for Multi-Agent Reinforcement Learning Frameworks Michael Oesterle and Tim Grams and Christian Bartelt 背景 PettingZooの AECは、 MARLフレームワークの実装に革命を起こしました。目的提案する DRAMAは動的行動制限に新たな可能性を提供します。提案 DRAMAは自己学習型制限と物理的制約の追加を可能にします。評価さまざまな使用例で PettingZooの拡張を通じ効果を検証しました。結果動的制限がマルチエージェント環境に新たな柔軟性をもたらしました。

チャットボットのオープンドメインパラドックス : 共通基盤が人間らしい対話の基礎 The Open-domain Paradox for Chatbots:
Common Ground as the Basis for Human-like Dialogue G. Skantze and A. Seza Doğruöz 背景オープンドメインのチャットボット開発が注目され、共通基盤の欠如が対話を狭めるという課題が浮上した。目的オープンドメインチャットボットが直面する共通基盤の欠如という課題を解決し、対話の質向上を図る。提案共通基盤の理論を用いて、従来のオープンドメインチャットボットの問題を再評価し、新しいアプローチを示す。評価共通基盤の存在が対話に与える影響を理論的に分析し、既存の仮定を見直すことで評価した。結果共通基盤の欠如が対話の制約を招くことを示し、今後の開発に際し改善の方向性を提示した。

AIのための FDA？フロンティア AIへの認可規制の落とし穴と実現可能性 An FDA for AI? Pitfalls and
Plausibility of Approval Regulation for Frontier Artificial Intelligence Daniel Carpenter and Carson Ezell 背景 AIの進化に伴い、フロンティアモデルの危険性が増し、規制の必要性が生じました。目的フロンティア AIに対する承認規制の適用可能性を評価し、その適切性を検討します。提案実験最小条件と政府認可を基にした承認規制を提案します。評価 AIの不確定性や危険性を考慮し、従来の規制手法の適合性を分析しました。結果政策学習とテスト方法の改善により、規制の課題を克服できると結論付けました。

ニュースから予測へ：イベント分析を統合した LLMベースの時系列予測 From News to Forecast: Integrating Event Analysis
in LLM-Based Time Series Forecasting with Reflection Xinlei Wang and Maike Feng and Jing Qiu and Jinjin Gu and Junhua Zhao 背景時系列予測では社会的イベントを考慮する必要がありますが、従来は困難でした。目的 LLMを用いて、テキストと時系列データを融合し、予測精度を向上させることが目的です。提案社会イベントを選別し、 LLMで時間予測に結びつける新手法を提案します。評価人間の推論を模倣し、エージェントがニュースを選別する手法を用いて評価しました。結果予測精度が大幅に向上し、手法の有効性が確認されました。

GPT-4を用いた TextWorldコモンセンスゲームの効率的解決 Utilizing GPT-4 to Solve TextWorld Commonsense Games
Efficiently Binggang Zhuo and Masaki Murata 背景インタラクティブフィクションゲームは AIエージェント研究に重要ですが、多くが強化学習に依存。目的大規模言語モデルで AIエージェントのタスク達成を効率的に支援すること。提案 GPT-4と設計プロンプトを用いてゲームタスクに取り組む新しいアプローチを提示。評価 TextWorld Commonsenseで、様々な難易度環境での実験により効果を検証。結果難易度の高い環境で 0.70のスコアを達成し、従来手法を上回る性能を確認。

DelTA: マルチレベルメモリに基づくオンラインドキュメントレベル翻訳エージェント DelTA: An Online Document-Level Translation Agent Based
on Multi-Level Memory Yutong Wang and Jiali Zeng and Xuebo Liu and Derek F. Wong and Fandong Meng and Jie Zhou and Min Zhang 背景 LLMsを用いた機械翻訳は進展したが、一貫性と正確さに課題が残る。目的文書全体の翻訳における一貫性と正確性を向上させることが目的。提案 DelTAはマルチレベルメモリを用いて情報を保存し翻訳の質を向上する。評価 4つの LLMsと 2つのデータセットを用いて DelTAの性能を実験的に評価。結果 DelTAは翻訳の一貫性で最大 4.58%ポイント改善を達成した。

社会対応型言語技術の必要性 The Call for Socially Aware Language Technologies Diyi Yang
and Dirk Hovy and David Jurgens and Barbara Plank 背景大規模言語モデルの進化に伴い、従来の問題が悪化する可能性があります。目的 NLP分野における社会的認識の欠如を解決することが目的です。提案 NLPモデルに社会的認識を統合して新たな可能性を開くと提案します。評価本論文では社会的認識の重要性を理論的に議論しています。結果 NLPの新時代の幕開けにあり、課題が多く残されています。

Babaは AI：ルールを破ってベンチマークを打ち破る Baba Is AI: Break the Rules to
Beat the Benchmark Nathan Cloos and Meagan Jens and Michelangelo Naim and Yen-Ling Kuo and Ignacio Cases and Andrei Barbu and Christopher J. Cueva 背景ルールを操作する能力は人間の創造性に関連し、 AIの限界を測る重要な指標です。目的ゲーム内ルールの一般化能力をテストすることで AIの限界を明らかにします。提案ゲーム「 Baba Is You」を基にした新しいベンチマークを提案し、エージェントの能力を評価します。評価三つの最先端マルチモーダル大規模言語モデルをテストし、ルール操作の能力を評価しました。結果ルール操作が求められる課題で、既存モデルは成功せず、人間との違いが浮き彫りになりました。

生成的人工知能は社会科学を向上させることができるか？ Can Generative Artiﬁcial Intelligence Improve Social Science? Christopher
A Bail 背景生成的 AIは多数の業界に影響を与えており、その社会科学研究への影響が注目されています。目的生成的 AIが社会科学の研究手法を向上させる可能性を探求します。提案生成的 AIを用いて、調査研究や日常業務の効率化を提案します。評価データのバイアスや倫理的な課題を評価し、影響を確認します。結果 AIと社会科学の共同研究の重要性を強調します。

大規模言語モデルを用いた論文レビューの可能性に関する探索的研究 ReviewerGPT? An Exploratory Study on Using Large Language
Models for Paper Reviewing Ryan Liu and Nihar B. Shah 背景大規模言語モデルの急成長が科学論文レビューの支援にどの程度使えるかを検討。目的特定タスクにおける大規模言語モデルの利用可能性を探り、課題を特定する。提案 GPT-4が他の LLMより優れており、特定の質問に焦点を当てたプロンプトが効果的である。評価 3つのタスク（誤り特定、チェックリスト検証、優れた論文選択）で性能を検証。結果特定タスクでは有望だが、完全な論文評価にはまだ不十分。

地球システムの不安定化がもたらすネガティブな社会変動ダイナミクス Negative social tipping dynamics resulting from and reinforcing
Earth system destabilization Viktoria Spaiser and S. Juhola and Sara M. Constantino and Weisi Guo and Tabitha Watson and Jana Sillmann and Alessandro Craparo and Ashleigh M. Basel and John T. Bruun and Krishna Krishnamurthy and Jürgen 背景気候危機対応のための肯定的な社会変化が進む中で、負の社会変動の影響にも注目する必要があります。目的地球システム不安定化による負の社会変動プロセスの理解とその影響評価を目指します。提案アノミーや過激化などの負の社会変動の概念化と、その影響を評価することを提案します。評価関連研究を基に、食料不安や移住などの連鎖的相互作用を通じてリスクを評価しました。結果負の社会変動が気候危機対応に影響する可能性を示し、更なる研究の必要性を提起しました。

ReConcile: 円卓会議で多様な LLM間の合意形成による推論改善 ReConcile: Round-Table Conference Improves Reasoning via
Consensus among Diverse LLMs Justin Chih-Yao Chen and Swarnadeep Saha and Mohit Bansal 背景大規模言語モデルは自然言語推論タスクで依然として課題があります。目的多モデルエージェント間の協調推論を通じて推論能力を向上させること。提案 ReConcileは、多様なエージェント間の円卓会議による合意形成の手法。評価 7つのベンチマークでマルチエージェントによる実験を実施しました。結果 ReConcileは過去の方法を **最大 11.4%**上回り、 GPT-4 をも凌駕しました。

機械学習ベースのエージェント間通信経路の研究フレームワーク A Framework for Studying Communication Pathways in Machine
Learning-Based Agent-to-Agent Communication Sathish Purushothaman and Michael Granitzer and Florian Lemmerich and Jelena Mitrović 背景 LLMsはエージェント間通信の重要性を増しているが、現状では大規模なエージェント間の通信ダイナミクスの洞察が制目的異なる通信経路の役割を調査し、機械学習エージェント間の言語生成を理解すること。提案トランスフォーマーベースのオートエンコーダと Gumbel SoftMaxを使用し、シンボルを通した言語生成を調査するフレ評価 2つの通信経路を用い、画像ベースのメッセージ再構築とシンボル間距離最小化を評価した。結果最初の経路で 96%のメッセージがレーベンシュタイン距離 ≤2により言語が生成されることが示された。

AutoAgents: 自動エージェント生成のフレームワーク AutoAgents: A Framework for Automatic Agent Generation
Guangyao Chen and Siwei Dong and Yu Shu and Ge Zhang and Jaward Sesay and Börje F. Karlsson and Jie Fu and Yemin Shi 背景 LLMを用いたマルチエージェントのタスク解決の適応性に限界があった。目的タスクに応じた専門エージェントを生成し、協力を最適化する点を解決する。提案 AutoAgentsはタスクに応じた複数の専門エージェントを動的に生成する。評価各種ベンチマークで AutoAgentsの解決策が他の方法より整合性と正確性が高いと実証された。結果異なるタスクには異なる役割とチームの協力が重要であることを示した。

エージェント能力評価のための確率的方法の分析 Analyzing Probabilistic Methods for Evaluating Agent Capabilities Axel
Højmark and Govind Pimpale and Arjun Panickssery and Marius Hobbhahn and J'er'emy Scheurer 背景 AIは時に想定外のリスクをもたらすため、その能力評価が重要です。目的能力が稀にしか示されないケースでの AI評価法の精度向上が目標です。提案マイルストーン法と expert best-of-N法で精度向上を図ります。評価モンテカルロ推定器としてこれらの方法を分析し、誤差を評価します。結果結果、両方法に偏りがあり、特に underestimationが顕著でした。

：「これが私の SQLです、一緒に聞いてますか？」合意に基づくマルチエージェントシステムでテキストから SQLへのタスクを実現 :"This is My SQL,
Are You With Me?"A Consensus-Based Multi-Agent System for Text-to-SQL Tasks Hanchen Xia and Feng Jiang and Naihao Deng and Cunxiang Wang and Guojiang Zhao and Rada Mihalcea and Yue Zhang 背景大規模言語モデルは様々なタスクで成果を上げているが、テキストから SQLへの変換は依然として重要な課題である。目的本研究はテキストから SQLへの変換性能を向上させるための新たなシステムを提案し、そのモデルの有効性を示すことを提案提案するシステムは、レビュー・反論・修正のプロセスを通じて合意に基づくマルチエージェントアプローチを採用評価実験は Spiderと Birdデータセットを用いて行い、新手法の優位性を数値的に検証した。結果は従来の方法を最大8.1 ext{ ext{%}} 上回る性能を示し、特定モデルでは GPT-3.5をも超えた。

医療と医薬におけるデジタルツインの概念と応用 Concepts and applications of digital twins in healthcare
and medicine Kang Zhang and Hong-Yu Zhou and Daniel T. Baptista-Hon and Yuanxu Gao and Xiaohong Liu and E. Oermann and Sheng Xu and Shengwei Jin and Jian Zhang and Zhuo Sun and Yun Yin and Ronald M. Razmi and 背景デジタルツインは、物理的対象のデジタル複製を作り、医療への応用が期待されています。目的医療におけるデジタルツインの実装に向けた課題に対処し、応用の可能性を探ります。提案デジタルツインの概念と医療における活用方法、実装に必要な要件を提案します。評価マルチモーダルディープラーニングやメタバースなどが、技術的困難を軽減する方法を探ります。結果医療デジタルツインを進化させるための 5つの特徴を明示し、分野の発展を促進します。

ML-EAT: 解釈可能で透明な社会科学のための多層埋め込み関連テスト ML-EAT: A Multilevel Embedding Association Test for
Interpretable and Transparent Social Science Robert Wolfe and Alexis Hiniker and Bill Howe 背景従来の EAT測定には曖昧さと解釈の難しさが存在しました。目的言語技術における内在的なバイアスを透明に測定することです。提案 ML-EATは 3つのレベルでバイアスを定量化する新手法です。評価静的・通時的単語埋め込みや言語モデルで実証分析を行いました。結果 EATパターンはバイアスの詳細な情報を提供し解釈可能性を向上しました。

AgentCourt: 対抗的進化型弁護士エージェントで裁判をシミュレーションする AgentCourt: Simulating Court with Adversarial Evolvable Lawyer
Agents Guhong Chen and Liyang Fan and Zihan Gong and Nan Xie and Zixuan Li and Ziqiang Liu and Chengming Li and Qiang Qu and Shiwen Ni and Min Yang 背景法的スキルを向上させる訓練方法が必要とされている。目的法廷プロセスを通じて弁護士エージェントの能力を向上させる。提案弁護士エージェントに対抗的進化アプローチを提案する。評価シミュレーション実験で弁護士エージェントを進化過程で評価。結果進化したエージェントは法的タスク処理能力が改善された。

なぜ私たちは機械との対話を学び直す必要があるのか - 2024年 1月の生成 AIのスナップショット Why We Need
to Relearn How to Talk to Machines - A Snapshot of Generative AI in January 2024 M. Kalweit and Gabriel Kalweit 背景生成 AIは急速に進展し、自動応対が日常的になった。目的大規模言語モデルのメカニズムを明示し、利用法を模索する。提案自然言語での最適な対話方法を導く指針を提案。評価言語モデルの挙動を観察し、生成物の分析を行う。結果大規模モデルの挙動と、その最適な利用法を示した。

SUBER: 推薦システムのためのシミュレーションされた人間行動を持つ RL環境 SUBER: An RL Environment with Simulated
Human Behavior for Recommender Systems Nathan Corecco and Giorgio Piatti and Luca A. Lanzendörfer and Flint Xiaofeng Fan and R. Wattenhofer and E. Zurich 背景強化学習は長期的な推薦最適化が可能ですが、データ不足や評価の難しさが課題です。目的人間行動をシミュレートするフレームワークを用いて、 RL のトレーニングと評価の課題を解決します。提案大規模言語モデルを用いて、 RLベースの推薦システム向けにモジュラーで新しいフレームワークを提案します。評価映画や書籍の推薦で、合成ユーザーを用いた深層アブレーション研究と実験を行いました。結果提案フレームワークが効果的に機能することが示され、ソフトウェアは公開されています。

PersonaFlow: LLMでシミュレートされた専門家ペルソナによる研究アイデアの促進 PersonaFlow: Boosting Research Ideation with LLM-Simulated Expert
Personas Yiren Liu and Pranav Sharma and Mehul Oswal and Haijun Xia and Yun Huang 背景学際的研究には、多分野の専門家からのフィードバックが必要ですが、専門家の不足が課題です。目的人間の専門家不在時にアイデア形成を支援する方法の検討。提案 PersonaFlowは、 LLMでシミュレートされたペルソナを活用し、研究のアイデア形成を支援します。評価複数ペルソナ使用時のユーザー体験向上を、質の評価と認知負荷の指標で検証しました。結果ペルソナのカスタマイズにより、アイデアの記憶や制御感が向上しました。

計画行動の連鎖を用いた LLMでの少数ショット移動生成プロセス Chain-of-Planned-Behaviour Workflow Elicits Few-Shot Mobility Generation in
LLMs Chenyang Shao and Fengli Xu and Bingbing Fan and Jingtao Ding and Yuan Yuan and Meng Wang and Yong Li 背景大規模言語モデルは多くの分野で進展があるが、人間の行動生成での性能は未開拓です。目的 CoPBで人間の行動意図を推論する能力を向上させること。提案 CoPBワークフローを導入し、行動意図のエラー率を大幅に削減します。評価 TPBに基づき、重力モデルなどを併用して効果を検証しました。結果 CoPBは意図生成のエラー率を 57.8%から 19.4%に低減しました。

生成 AIとマフィア風ゲームシミュレーション Generative AI in Mafia-like Game Simulation Munyeong Kim
and Sungsu Kim 背景ゲームシミュレーションでの AIの役割とその進化を探る。目的 GPT-4の能力を用いて、ゲーム内での理解と対話を検証する。提案 GPT-4が人間のような適応性を示すことを主張。評価 GPT-4と GPT-3.5-turboの比較分析を実施。結果 GPT-4は改善を示すも、さらなる発展の余地がある。

Character-LLM: ロールプレイングのための訓練可能なエージェント Character-LLM: A Trainable Agent for Role-Playing Yunfan
Shao and Linyang Li and Junqi Dai and Xipeng Qiu 背景 LLMは質の高いテキスト生成能力で人間行動を模倣できるが、更なるシミュレーション能力に関心がある。目的特定人物のプロフィールや経験を持つエージェントを訓練する新しい方法を開発する。提案 Character-LLMは、特定キャラクターの経験を編集し、モデルをその模倣に訓練する。評価訓練したエージェントにインタビューし、キャラクターと経験の記憶を評価する。結果将来の人類シミュラクラ構築に役立つ知見を提供した。

大規模言語モデルと共に研究促進のための QAスタイル記事を共創する Co-Creating Question-and-Answer Style Articles with Large Language Models
for Research Promotion Hyunseung Lim and Ji Yong Cho and Taewan Kim and Jeongeon Park and Hyungyu Shin and Seulgi Choi and Sunghyun Park and Kyungjae Lee and Juho Kim and Moontae Lee and Hwajung Hong 背景研究促進は複雑な研究内容を共有するために重要です。目的研究者の意図と声を反映する QA記事の共創を目指します。提案 AQUAは LLMと共に QA記事を共同作成するためのツールです。評価ユーザー調査を通じて LLMの利便性と課題を評価しました。結果 LLMは著者負担を軽減するが、意図の反映は不十分でした。

生成的な学生 : LLMでシミュレートされた学生プロファイルによる問題項目の評価支援 Generative Students: Using LLM-Simulated Student Profiles
to Support Question Item Evaluation Xinyi Lu and Xu Wang 背景自動生成された問題の質の評価は長年の課題です。目的自動生成問題の質を LLMでシミュレートした学生プロファイルで解決します。提案生成的学生は KLIフレームワークに基づくプロンプトアーキテクチャです。評価 GPT-4で 45人の生成的学生を作成し、 20の MCQで評価しました。結果生成的学生の回答は、本物の学生の回答と高い相関がありました。

本質と展望 : 大規模モデルに対するアラインメント手法の調査 On the Essence and Prospect: An
Investigation of Alignment Approaches for Big Models Xinpeng Wang and Shitong Duan and Xiaoyuan Yi and Jing Yao and Shanlin Zhou and Zhihua Wei and Peng Zhang and Dongkuan Xu and Maosong Sun and Xing Xie 背景大規模モデルは AIに革命を起こしたが、倫理的リスク解決が不可欠である。目的アラインメント技術でモデルを人間の価値観に適合させる問題を探る。提案歴史から数学的本質までアラインメント手法を包括的に調査する。評価 RLベース、 SFTベース、推論時アラインメントの手法を比較分析する。結果アラインメント目標とマルチモーダルアラインメントが未来の新たな焦点として浮上。

生成エージェントの仮想環境における適用 Simulating Life: The Application of Generative Agents in Virtual
Environments R. Omirgaliyev and Damir Kenzhe and Suienish Mirambekov 背景 AIエージェントによる自律的な社会形成が未解決の研究課題です。目的 AIが人間の社会構造を模倣または強化する可能性を探ります。提案 LLMを用いて AIエージェントの社会的相互作用をシミュレートします。評価 AIエージェント間の相互作用と社会的発展を観察・分析しました。結果 AIは人間社会の特性を再現できる潜在力があると示されました。

大規模言語モデルを活用したメタバース用コンテキスト対応のオンボーディングエージェント A Context-Aware Onboarding Agent for Metaverse Powered
by Large Language Models Jihyeong Hong and Yokyung Lee and Dae Hyun Kim and DaEun Choi and Y. Yoon and Gyu-cheol Lee and Zucheul Lee and Juho Kim 背景メタバースは自由探索が可能だが、初回利用者は多様な課題がある。目的メタバース利用者の多様な課題を効率的に支援する方法を探求する。提案 PICANは大規模言語モデルを用いてコンテキスト -aware な回答を生成する。評価アブレーション研究とユーザー研究を通じてコンテキストの有用性を検証。結果コンテキスト利用が有用性と没入感向上、学習促進に寄与することが確認された。

FireAct: 言語エージェントのファインチューニングに向けて FireAct: Toward Language Agent Fine-tuning Baian Chen
and Chang Shu and Ehsan Shareghi and Nigel Collier and Karthik Narasimhan and Shunyu Yao 背景言語モデルに外部ツールを組み込み、推論と行動が可能なエージェントを開発することが重要です。目的 LMのファインチューニングによって言語エージェントを改善する方法を探ります。提案多様なタスクとプロンプトから軌跡を用いて LMをファインチューニングする FireActを提案します。評価 Google検索 APIと様々なプロンプト、ファインチューニングデータに基づいた QAタスクで評価しました。結果 FireActにより、言語エージェントの性能が大幅に向上し、より広範なメリットが確認されました。

「私は LLMを生産性ツールとして分類しています」： HCI研究における倫理の検討 "I'm categorizing LLM as a
productivity tool": Examining ethics of LLM use in HCI research practices Shivani Kapania and Ruiyi Wang and Toby Jia-Jun Li and Tianshi Li and Hong Shen 背景大規模言語モデル（ LLM）の倫理的問題の扱いが、 HCI研究において重要です。目的 LLM利用に伴う倫理的問題を HCI研究の視点から明らかにすることです。提案 LLMの HCI研究全般にわたる活用を追跡し、倫理的懸念を整理します。評価 16のインタビューと 50人の研究者への調査で研究慣行を分析しました。結果 LLMの利用において倫理的懸念への具体的な対策は欠如していました。

大規模言語モデルを破壊的にするための領域特化 : 包括的調査 Domain Specialization as the Key to
Make Large Language Models Disruptive: A Comprehensive Survey Chen Ling and Xujiang Zhao and Jiaying Lu and Chengyuan Deng and Can Zheng and Junxiang Wang and Tanmoy Chowdhury and Yun-Qing Li and Hejie Cui and Xuchao Zhang and Tian-yu Zhao and Amit Panalkar 背景 LLMは特定領域の問題に対処する際、多様なデータや制約により障害が多い。目的 LLMの領域特化技術についての現状を把握し、今後の研究指針を示す。提案 LLMの領域特化技術を体系化し、関連手法と応用分野を分類した調査を提案。評価 LLMのアクセス性に基づいた技術の分類と、影響が大きい応用分野の検討。結果 LLMの領域特化が応用分野に与える影響と開かれた課題について洞察を提供。

PsySafe: 心理学に基づくマルチエージェントシステムの攻撃、防御、および安全性評価の包括フレームワーク PsySafe: A Comprehensive Framework for Psychological-based
Attack, Defense, and Evaluation of Multi-agent System Safety Zaibin Zhang and Yongting Zhang and Lijun Li and Hongzhi Gao and Lijun Wang and Huchuan Lu and Feng Zhao and Yu Qiao and Jing Shao 背景マルチエージェントシステムの悪用リスクと安全性問題が未解決。目的エージェント心理学の視点から安全性問題を解決するフレームワークを構築。提案エージェントの暗黒性格を特定し、安全性を評価しリスク軽減を図る。評価実験を用いて集団的危険行動と自己反省の関連性を分析。結果エージェントの心理評価と危険行動の関連性が明示された。

言語モデルのための仮想ペルソナと物語的背景 Virtual Personas for Language Models via an Anthology
of Backstories Suhong Moon and Marwa Abdulhai and Minwoo Kang and Joseph Suh and Widyadewi Soedarmadji and Eran Kohen Behar and David M. Chan 背景大規模言語モデルは人間の特性の多様性を反映するが、個別ユーザーの制御は難しい。目的研究は、モデルを特定の仮想ペルソナに調整する方法を解決する。提案物語を活用し、モデルに特定の仮想ペルソナを設定する手法を提案。評価 Pew Research Centerによる 3つの全国代表調査を用いて、手法の効果を検証。結果回答分布の一致率を最大 18％、一貫性指標を **27％ **改善。

ハイパーパラメータ最適化のための大規模言語モデルエージェント Large Language Model Agent for Hyper-Parameter Optimization Siyi
Liu and Chen Gao and Yong Li 背景ハイパーパラメータ最適化は専門知識と資源を多く必要とし、課題が大きい。目的 LLMを用いてハイパーパラメータ最適化を効率化することが目的。提案新たに AgentHPOという LLMベースの最適化手法を提案。評価 12の機械学習タスクで AgentHPOの性能を実証実験で検証。結果 AgentHPOは人間の試行を超える性能と説明可能性を示した。

大規模言語モデルによる Kレベル推論 K-Level Reasoning with Large Language Models Yadong Zhang
and Shaoguang Mao and Tao Ge and Xun Wang and Yan Xia and Man Lan and Furu Wei 背景大規模言語モデルは複雑な推論に成功しているが、動的シナリオでは未解明。目的動的かつ競争的な環境での意思決定能力の向上を目指す。提案ライバルの視点から Kレベル推論を利用する新しい手法を提案。評価ゲーム理論に基づくパイロットチャレンジで動的推論能力を評価。結果提案手法がライバルの動きを予測しやすくし、効果を示す。

RoboType: 合成ユーザーによる現実的なモバイルテキスト入力評価 RoboType: Realistic Mobile Text Entry Evaluations with
Synthetic Users A. Komninos 背景モバイルテキスト入力の研究は小規模なラボ実験に依存し、コストがかかる。目的 RoboTypeは時間と労力を削減し、再現可能な評価を実現するために開発された。提案 Pythonで記述されたオープンソースの RoboTypeシミュレーターを提案する。評価 RoboTypeを用いて、プロトタイプ設計の評価にかかる時間を大幅に削減可能か検証した。結果 RoboTypeは新しいプロトタイプ評価における有望な可能性を示した。

協力か崩壊か : LLMエージェントの社会における持続可能行動の出現 Cooperate or Collapse: Emergence of Sustainability
Behaviors in a Society of LLM Agents Giorgio Piatti and Zhijing Jin and Max Kleiman-Weiner and Bernhard Schölkopf and Mrinmaya Sachan and Rada Mihalcea 背景 AIにおける安全な意思決定の確保は重要な課題です。目的 LLMのリソース管理能力の不足を解決することです。提案エージェント間の協調行動をシミュレートする G OV S IM を提案します。評価 G OV S IMを通じた LLMのリソース共有の実験を行います。結果持続可能な結果を出したのは 15中 2つの LLMのみでした。

RNR: 大規模言語モデルにロールとルールを守らせる方法 RNR: Teaching Large Language Models to Follow
Roles and Rules Kuan Wang and Alexander Bukharin and Haoming Jiang and Qingyu Yin and Zhengyang Wang and Tuo Zhao and Jingbo Shang and Chao Zhang and Bing Yin and Xian Li and Jianshu Chen and Shiyang Li 背景大規模言語モデルはユーザー指示に従うが、開発者の複雑なルールに弱い。目的複雑なロールとルールに従う能力を向上させ、モデルを安全にする。提案 extit{model}という自動パイプラインで、多様なデータを生成しモデルを訓練する。評価新しいベンチマークと標準指示従属テスト、一般 NLPタスクを用いて評価を行った。結果ルール従属能力を 25%以上向上させ、従来のベンチマークに影響を与えない。

大規模言語モデルを通じたテレコム言語の理解 Understanding Telecom Language Through Large Language Models Lina
Bariah and Han Zou and Qiyang Zhao and B. Mouhouche and F. Bader and M. Debbah 背景 AIの進化がテレコムネットワーク設計の自動化を可能にする背景がある。目的 LLMをテレコム言語に適用し、 3GPP標準作業グループを識別する。提案 BERTや RoBERTa、 GPT-2を用いてテレコムドメインの言語モデルを構築。評価 3GPP技術文書を用いてモデルを訓練し、作業グループを予測。結果 BERTと RoBERTaが 84.6%、 GPT-2が 83%の精度を達成した。

画面を見るだけ : マルチモーダルなアクションエージェント You Only Look at Screens: Multimodal
Chain-of-Action Agents Zhuosheng Zhang and Aston Zhang 背景自律的な GUIエージェントは、ユーザーインターフェースと自動で対話し、タスク効率を向上させるために重要です。目的推論の非効率性とエラー伝播リスクを軽減する新しいアプローチを提案することです。提案 Auto-GUIは環境解析を省き、マルチモーダルで直接インターフェースと対話します。評価 AITWと呼ばれる新しいデバイスコントロールベンチマークで 30,000の指示を用いて評価を行いました。結果 Auto-GUIは 90%のアクション予測精度と 74%の成功率を達成しました。

金融取引における大規模言語モデルエージェント :調査 Large Language Model Agent in Financial Trading:
A Survey Han Ding and Yinheng Li and Junhao Wang and Hang Chen 背景金融取引は競争的であり、戦略、知識、心理的強さが求められる。目的 LLMエージェントがプロのトレーダーを超えられるかを理解する。提案 LLMを金融取引エージェントとして活用する包括的レビューを提供。評価エージェントの一般的アーキテクチャ、データ入力、バックテストを調査。結果 LLMベースの金融取引エージェントの現状と将来の方向性を示す。

LLMによる準合理的行動の模倣：幻か現実か LLM-driven Imitation of Subrational Behavior : Illusion or Reality?
Andrea Coletta and Kshama Dwarakanath and Penghang Liu and Svitlana Vyetrenko and T. Balch 背景準合理的エージェントの行動をモデル化することは、複雑さから難しいとされています。目的 LLMを使って人間の準合理的行動を模倣し、理解を深めます。提案 LLMからの合成デモを用いた模倣学習のフレームワークを提案します。評価様々なシナリオで実験し、既存研究の結果を再現し検証しました。結果提案手法が既知の人間行動を再現できることを確認しました。

大規模言語モデルは高次の心の理論タスクで成人の人間のパフォーマンスを達成 LLMs achieve adult human performance on higher-order theory
of mind tasks Winnie Street and John Oliver Siy and Geoff Keeling and Adrien Baranes and Benjamin Barnett and Michael McKibben and Tatenda Kanyere and Alison Lentz and B. A. Y. Arcas and Robin I. M. Dunbar 背景心の理論は、人間の社会的行動における重要な能力です。目的大規模言語モデルの心の理論能力を調査することです。提案手書きテストを使用し LLMと人間のパフォーマンスを比較します。評価 GPT-4らのパフォーマンスを成人基準と比較評価しました。結果 GPT-4が 6次推論で成人超え、モデルサイズとチューニングが影響。

LLMロールプレイにおけるキャラクター知識エラー検出の課題を明らかにする Revealing the Challenge of Detecting Character Knowledge Errors
in LLM Role- Playing Wenyuan Zhang and Jiawei Sheng and Shuaiyi Nie and Zefeng Zhang and Xinghua Zhang and Yongquan He and Tingwen Liu 背景 LLMのロールプレイでは、キャラクターの正確な知識がリアリティの鍵です。目的キャラクターの既知と未知の知識エラーを検出する能力を向上させることです。提案 KKEと UKEの検出能力を評価するためのプロービングデータセットを提案します。評価エージェントベースの推論法 S2RDを用いて改善可能性を検証しました。結果 S2RDはエラー検出能力を向上させたが、まだ更なる検討が必要です。

ニーズ動態を用いた日常活動の生成 Generating Daily Activities with Need Dynamics Yuan Yuan and
Jingtao Ding and Huandong Wang and Depeng Jin 背景個人の活動データは高い価値を持つが、収集が困難である。目的人間の活動をシミュレートし、高品質なデータ生成を目指す。提案マズローの欲求理論に基づいたシミュレーションフレームワークを提案。評価データの忠実性やプライバシーに関する評価実験を実施。結果提案手法が現行の基準に対してデータの高い忠実性を示す。

人工知能研究のためのゲーム : レビューと展望 Games for Artificial Intelligence Research: A
Review and Perspectives Chengpeng Hu and Yunlong Zhao and Ziqi Wang and Haocheng Du and Jialin Liu 背景ゲームは現実世界と類似するため、 AI研究に最適なテストベッドとなっています。目的特定の AI技術を適切なゲームでテストする指針を提供することです。提案ゲームと AI技術のマッチングガイダンスを提供します。評価シングル /マルチプレイヤーゲームを用いて AIの技術を検証します。結果 AIの技術とゲームの進化が研究動向に影響を与えることを示しました。

知識境界とペルソナ動態がより優れたソーシャルメディアエージェントを形作る Knowledge Boundary and Persona Dynamic Shape A Better
Social Media Agent Junkai Zhou and Liang Pang and Ya Jing and Jia Gu and Huawei Shen and Xueqi Cheng 背景ソーシャルネットワークシミュレーションでの個人化と擬人化が重要。目的エージェントの個性と人間らしさの向上のための問題解決を目指す。提案個人化した知識と動的ペルソナ利用のソーシャルエージェントを提案。評価自動評価と人間評価を使用してエージェントの効果を検証。結果提案したエージェントが効果的であると確認された。

LLMマルチエージェントシステム : 課題と未解決問題 LLM Multi-Agent Systems: Challenges and Open
Problems Shanshan Han and Qifan Zhang and Yuhang Yao and Weizhao Jin and Zhaozhuo Xu and Chaoyang He 背景マルチエージェントシステムは複雑なタスクを協調的に解決できるが、課題が残されています。目的本研究は、マルチエージェントシステムの最適化と応用可能性を探ることを目的としています。提案タスク分配最適化、強力な推論、メモリ管理強化を提案します。評価適切なタスク処理や推論の強化を議論し、システムの適用性を分析します。結果 Blockchainシステムへの応用可能性が示唆され、今後の開発に貢献します。

DriveMLM: 自動運転における行動計画状態とマルチモーダル大規模言語モデルの調整 DriveMLM: Aligning Multi-Modal Large Language Models with
Behavioral Planning States for Autonomous Driving Wenhai Wang and Jiangwei Xie and ChuanYang Hu and Haoming Zou and Jianan Fan and Wenwen Tong and Yang Wen and Silei Wu and Hanming Deng and Zhiqi Li and Hao Tian and Lewei Lu and Xizhou Zhu and 背景大規模言語モデルは知能システムに革新をもたらし、自動運転に適用され始めています。目的 DriveMLMを用いて自動運転の意思決定精度を向上させることが目的です。提案 LLMを用い、モーションプランニングと多様なセンサー入力を統合する ADフレームワークを提案します。評価広範な実験により、提案手法の効果を CARLAシミュレータで検証しました。結果 DriveMLMは Apolloベースラインを 4.7ポイント上回り、性能向上を示しました。

ブラックボックス大規模言語モデルと意思決定計画のための効率的非パラメトリック不確実性定量化 Efficient Non-Parametric Uncertainty Quantification for Black-Box Large
Language Models and Decision Planning Yao-Hung Tsai and Walter Talbott and Jian Zhang 背景 LLMsの幻覚問題対策が発展中であり、意思決定の信頼性が重視されます。目的ブラックボックスでの効率的な不確実性推定手法を提案し、幻覚問題に対応します。提案非パラメトリックな不確実性定量化法で効率良く推定し、コスト削減を図ります。評価単一推論でのデータ依存性評価で、信頼性のある統計的解釈を実現。結果効率的な不確実性推定方法で意思決定を信頼性向上し、コスト効率を実現しました。

専門家構成型送信による大規模言語モデル用の生成 AIエージェントの衛星ネットワーク活用 Generative AI Agents with Large Language
Model for Satellite Networks via a Mixture of Experts Transmission Ruichen Zhang and Hongyang Du and Yinqiu Liu and D. Niyato and Jiawen Kang and Zehui Xiong and Abbas Jamalipour and Dong In Kim 背景 6G通信の実現には、衛星ネットワークの複雑さと干渉問題の克服が必要です。目的生成 AIと MoE技術で、衛星通信ネットワークの課題を解決することを目指します。提案大規模言語モデルと MoE-PPOを利用し、専門知識を活用して送信戦略を最適化します。評価シミュレーションを通じて、提案手法と他のベンチマークとの比較を実施しました。結果提案された MoE-PPOアプローチは、他の手法に比べ問題解決力で優れていました。

投資セクターにおける階層的組織シミュラクラ Hierarchical Organization Simulacra in the Investment Sector Chung-Chi
Chen and Hiroya Takamura and Ichiro Kobayashi and Yusuke Miyao 背景ニュースを基にした意思決定が投資でどのように行われるかを理解するために重要です。目的人工組織がプロの投資家と同等の決定を下せるかを検証することです。提案ニュースで情報提供される階層的意思決定を模倣した多エージェントシミュレーションです。評価 15年間 300社のニュース記事を対象に、実際のトレーダーと比較しました。結果階層的シミュレーションは専門家の選択と利益で一致しましたが、バイアスも存在しました。

自律性と調整のバランス : 自律的な LLM駆動のマルチエージェントアーキテクチャの多次元分類法 Balancing Autonomy and Alignment:
A Multi-Dimensional Taxonomy for Autonomous LLM-powered Multi-Agent Architectures Thorsten Händler 背景 LLMは言語能力を革新したが、複雑なタスクでは限界がある。目的自律的なマルチエージェントシステムでの自律性と調整のバランス分析を目指す。提案多次元分類法で、 LLM駆動システムの建築的観点からのバランスを提供。評価分類法の実用性を示すため、代表的なマルチエージェントシステムの探究的分類を実施。結果実用性が実証され、将来の研究開発の可能性を示した。

心の理論の複雑性に関する概念を離散的世界モデルで A Notion of Complexity for Theory of Mind
via Discrete World Models X. A. Huang and Emanuele La Malfa and Samuele Marro and A. Asperti and Anthony Cohn and Michael Wooldridge 背景心の理論は社会的推論が必要な場面でモデル能力を評価する手段です。目的 ToMタスクの複雑性を測定する新たなフレームワークを提案します。提案認知負荷理論を基に、問題の状態数で複雑性を定量化します。評価 5つの ToMベンチマークを用いて、複雑性測定の実証評価を行いました。結果離散的世界モデルで ToMタスクのパフォーマンスを向上させました。

深層学習を用いた動物行動分析手法 : 調査 Animal Behavior Analysis Methods Using Deep Learning:
A Survey Edoardo Fazzari and Donato Romano and Fabrizio Falchi and Cesare Stefanini 背景動物行動は適応と健康の指標であり、多様な面を理解する手段。目的深層学習を用いた動物行動の識別手法を広範に探求すること。提案動物行動識別に有効な深層学習アーキテクチャと戦略を示す。評価動物行動データセットを用いた深層学習手法の検証と課題の分析。結果深層学習による動物行動研究の重要な研究方向を提案。

責任ある生成 AIに向けて : 基盤モデルを用いたエージェント設計のためのリファレンスアーキテクチャ Towards Responsible Generative AI:
A Reference Architecture for Designing Foundation Model Based Agents Qinghua Lu and Liming Zhu and Xiwei Xu and Zhenchang Xing and Stefan Harrer and Jon Whittle 背景基盤モデルは変革的技術ですが、そのエージェント設計の体系的研究が不足しています。目的基盤モデルに基づくエージェントの責任ある利用を促進するためのリファレンスアーキテクチャの提案です。提案基盤モデルエージェントの設計ガイドラインとなるパターン指向リファレンスアーキテクチャを提案します。評価提案したアーキテクチャを、実際のエージェントの設計にマッピングして評価しました。結果設計支援の有用性が明確に示され、責任ある AIの促進に寄与しました。

RAH! RecSys-Assistant-Human: 大規模言語モデルを用いた人間中心の推薦フレームワーク RAH! RecSys-Assistant-Human: A Human-Central Recommendation
Framework with Large Language Models Yubo Shu and Hansu Gu and Peng Zhang and Haonan Zhang and T. Lu and Dongsheng Li and Ning Gu 背景現代の推薦システムはユーザーの体験向上を目指しますが、プライバシーや公正性への考慮が必要です。目的人間中心の推薦システム構築を通じ、ユーザーの *プライバシーと公正性への課題を解決します。提案 RAHフレームワークは、大規模言語モデルを用いてユーザーコントロールを重視したシステムを提案します。評価提案した RAHフレームワークは、実際のユーザーデータを使用してその有効性を実証しました。結果 RAHはプライバシーと公正性を考慮した新しい可能性を示しました。

AutoStudio: マルチターンインタラクティブ画像生成における一貫した主題の作成 AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive
Image Generation Junhao Cheng and Xi Lu and Hanhui Li and Khun Loun Zai and Baiqiao Yin and Yuhao Cheng and Yiqiang Yan and Xiaodan Liang 背景マルチターンのインタラクティブ画像生成が研究の注目を集めています。目的主題の一貫性を保ちながら多様な画像を生成する問題を解決します。提案トレーニング不要なマルチエージェントフレームワーク AutoStudioを提案。評価公共の CMIGBenchベンチマークと人間評価で評価。結果 AutoStudioは主題の一貫性を維持し、性能を向上しました。

COCOA: CBTベースの会話型カウンセリングエージェントによる認知の歪みメモリ専門化と動的プロンプト COCOA: CBT-based Conversational Counseling Agent using
Memory Specialized in Cognitive Distortions and Dynamic Prompt Suyeon Lee and Jieun Kang and Harim Kim and Kyoung-Mee Chung and Dongha Lee and Jinyoung Yeo 背景精神的健康ケアの需要増加に対応するため、会話型エージェントが注目されています。目的 CBT技術を活用し、クライアントの認知の歪みを正確に特定し対応します。提案メモリシステムと動的プロンプトを用いて、効率的な対話型カウンセリングを提案します。評価 CoCoAと Character.aiキャラクターの対話を通じたデータセットによる評価実験を行いました。結果我々のモデルは他のモデルとの差異を示し、統計的有意差を確認しました。

他のエージェントとの相互作用を通じた社会的学習 : 調査 Social Learning through Interactions with Other
Agents: A Survey Dylan Hillier and Cheston Tan and Jing Jiang 背景人間は社会的学習を通じて知能を発達させ、これを機械学習に反映する研究が重要です。目的社会的学習の機械学習への適用状況を調査し、その重要性を明らかにする。提案他のエージェントと相互作用することで行動模倣やフィードバック学習を実現する手法を検討。評価自然言語処理の技術を利用し、エージェント間で新しい学習形態を実現する可能性を分析。結果個別技術の成功例はあるが、統合して社会的エージェントを構築する試みは少ない。

言語知能を燃やす : 連鎖型推論から言語エージェントへのガイド Igniting Language Intelligence: The Hitchhiker's Guide
From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang and Yao Yao and Aston Zhang and Xiangru Tang and Xinbei Ma and Zhiwei He and Yiming Wang and Mark B. Gerstein and Rui Wang and Gongshen Liu and Hai Zhao 背景大規模言語モデルは言語知能の向上を促進し、複雑な推論を可能にしました。目的この研究は、連鎖型推論とその言語エージェントへの応用を解明することを目的としています。提案連鎖型推論技法を用いて言語エージェントを開発し、環境での指示実行を強化します。評価連鎖型推論技術の効力とその言語エージェント活用が評価されるべきです。結果連鎖型推論は、推論の効力とエージェントの柔軟性を著しく向上させることが示された。

政策影響のシミュレーション : 規制の影響評価のための生成シナリオ作成法の開発 Simulating Policy Impacts: Developing a Generative
Scenario Writing Method to Evaluate the Perceived Effects of Regulation Julia Barnett and Kimon Kieslich and Nicholas Diakopoulos 背景 AI技術の急速な発展に伴い、その未来の影響を緩和する政策作成が急務である。目的政策の効果を言語モデルで予測し、特定の負の影響を緩和することを目指す。提案 GPT-4を使い、政策導入前後のシナリオを生成し、その効果を評価する方法を提案。評価 234人のユーザー研究で、シナリオのリスク評価を 4次元で実施し、影響を検証。結果透明性法案は労働や福祉の損害を緩和するが、社会的結束には効果が薄い。

大規模言語モデルベースの MathAgentによる複雑な数学的推論のモデリング Modeling Complex Mathematical Reasoning via Large Language
Model based MathAgent Haoran Liao and Qinyi Du and Shaohua Hu and Hao He and Yanyan Xu and Jidong Tian and Yaohui Jin 背景 **大規模言語モデル（ LLM） **は、複雑な数学問題解決に課題を抱えており、その改善が求められています。目的研究の目的は、 LLMの能力向上を目指し、エージェントによる数学推論の分解とモデル化を探ることです。提案 PRERフレームワークを提案し、 MathAgentが異なるアクションで論理形式と関係を定義することを示します。評価 MiniF2Fと MATHを用いて、提案手法 PRERと MathAgent の効果を実験的に検証しました。結果 PRERと MathAgentsにより、 MiniF2Fで 12.3%の精度向上が達成され、 LLMの新たな可能性を示しました。

MetaGPT: 複数エージェント協調フレームワークのためのメタプログラミング MetaGPT: Meta Programming for Multi-Agent Collaborative Framework
Sirui Hong and Xiawu Zheng and Jonathan P. Chen and Yuheng Cheng and Ceyao Zhang and Zili Wang and Steven Ka Shing Yau and Z. Lin and Liyang Zhou and Chenyu Ran and Lingfeng Xiao and Chenglin Wu 背景大規模言語モデルを用いた複雑なタスク解決が未開拓で、誤りが連鎖する問題があります。目的 MetaGPTは、人間のワークフローをエージェント協調に取り入れ、複雑な課題を解決します。提案 MetaGPTは、 SOPsをプロンプトに組み込み、モジュール化された出力を強化するフレームワークです。評価共同ソフトウェアエンジニアリングベンチマークで、既存システムと比較し一貫性と正確性を評価しました。結果 MetaGPTは、より一貫した結果を提供し、現実の課題解決に新たな可能性を示しました。

MASにおける規範的推論のための LLMの活用 Harnessing the power of LLMs for normative
reasoning in MASs B. Savarimuthu and Surangika Ranathunga and Stephen Cranefield 背景ソフトウェアエージェントは、他者と協力して目標を達成する必要があります。目的規範的能力を持つエージェントの可能性を探ります。提案 LLMを活用し、規範を理解できるエージェントを実現します。評価最近の NLPおよび LLM研究を基に仮説を検証します。結果 LLMを用いることで新たな規範的エージェントの可能性が示されました。

間接的プロンプト注入による現実世界の LLM 統合アプリケーションの妥協 Not What You've Signed Up For: Compromising
Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake and Sahar Abdelnabi and Shailesh Mishra and C. Endres and Thorsten Holz and Mario Fritz 背景 LLMはアプリ統合が進み、自然言語プロンプトで操作可能ですが、その境界は曖昧です。目的間接的プロンプト注入という新たな攻撃ベクトルの可能性を明らかにすること。提案 LLM統合アプリを遠隔で利用可能にする間接的攻撃の手法を提示します。評価実際のシステムや合成環境で攻撃の実用性を検証しました。結果新たな脅威の認識を高め、安全な利用と防御策開発を促進したい。

τ-bench: 現実世界のツールエージェントユーザー相互作用におけるベンチマーク τ-bench: A Benchmark for Tool-Agent-User Interaction in
Real-World Domains Shunyu Yao and Noah Shinn and P. Razavi and Karthik Narasimhan 背景現行ベンチマークは、人間との対話や規則遵守を評価できない。目的言語エージェントの実用的な適用性を向上させる。提案 τ-benchにより動的会話の評価を可能にする。評価データベース状態と目標状態を比較する評価プロセスを使用。結果最先端エージェントが一貫性と信頼性を欠くことを示した。

強化された自律エージェントにおける欺瞞 : 法律の非伝統的なウサギの手品 Deception in Reinforced Autonomous Agents: The Unconventional
Rabbit Hat Trick in Legislation Atharvan Dogra and A. Deshpande and John Nay and Tanmay Rajpurohit and A. Kalyan and Balaraman Ravindran 背景 AIの欺瞞能力が法律や人間の意思決定に与える影響が懸念されている。目的 AIエージェントがもたらす可能性がある欺瞞問題を明らかにし、その危険性を検証する。提案ロビイング対話システムでの欺瞞的行動を評価するための新しい検証フレームワークを提案する。評価 2エージェント対話システムで強化学習を用いて欺瞞能力の向上を検証する。結果ロビイストエージェントの欺瞞能力が約 40%向上し、欺瞞検知率が最大 92%に達した。

PPOを掘り下げる : 安定した RLHFのための実装が重要 Delve into PPO: Implementation Matters
for Stable RLHF Rui Zheng and Shihan Dou and Songyang Gao and ‡. YuanHua and Wei Shen and Bing Wang and Yan Liu and Senjie Jin and Qin Liu and Yuhao Zhou and Limao Xiong and Luyao Chen and Zhiheng Xi and Nuo Xu and 背景 RLHFは人間のフィードバックを利用するが、安定性の欠如が課題です。目的安定した強化学習を実現するための実装要因を解明すること。提案 PPOの特定の実装要因が学習の安定性に寄与することを提案。評価異なるパラメータ設定での実験を通し、効果を分析しました。結果特定のハイパーパラメータが安定性の確保に重要であると判明しました。

大規模言語モデルはゼロショットで仮説を提案する Large Language Models are Zero Shot Hypothesis Proposers
Biqing Qi and Kaiyan Zhang and Haoxiang Li and Kai Tian and Sihang Zeng and Zhang-Ren Chen and Bowen Zhou 背景大量の科学情報が進展を妨げる情報の壁を作り出しています。目的 LLMが科学的仮説をゼロショットで生成できるかを検証します。提案背景知識と仮説のペアを用い、 LLMの仮説生成能力を評価します。評価ゼロショットやファインチューニングで、様々なモデルの仮説生成を評価しました。結果 LLMは有効な仮説を生成でき、新たな発見を促進する潜在力があります。

大規模言語モデルベースのエージェントによる金融市場シミュレーション Simulating Financial Market via Large Language Model based
Agents Shen Gao and Yuntao Wen and Minghang Zhu and Jianing Wei and Yuhan Cheng and Qunzi Zhang and Shuo Shang 背景経済理論は市場参加者を合理的と仮定しますが、人間行動は数学モデルで予測し難いです。目的大規模言語モデルを用いて、人間の非合理性を考慮した市場シミュレーションを目指します。提案 ASFMを提案し、株式トレーダーとして LLMベースのエージェントを採用しました。評価 ASFMの反応を実市場と比較し、経済学研究の結果とも照合しました。結果 ASFMの結論は、経済学の予備的な研究結果と一致し、新しい研究パラダイムを示しました。

ツイスト逐次モンテカルロによる数式問題の段階的推論 Step-by-Step Reasoning for Math Problems via Twisted Sequential
Monte Carlo Shengyu Feng and Xiang Kong and Shuang Ma and Aonan Zhang and Dong Yin and Chong Wang and Ruoming Pang and Yiming Yang 背景大規模言語モデルの多段階推論能力の向上が必要です。目的効率的な検証方法を開発し、多数のサンプルや大量のプロセス監督なしで性能を向上します。提案ツイスト逐次モンテカルロを用いてサンプリング効率を高め、高品質解を生成します。評価複数の数学ベンチマークを用いて実証的に方法の利点を検証しました。結果理論分析と実験結果を通して、提案手法の有効性を示しました。

認知、適応、合理性、協力における多エージェントシステムの検討 MAgIC: Investigation of Large Language Model Powered Multi-Agent
in Cognition, Adaptability, Rationality and Collaboration Lin Xu and Zhiyuan Hu and Daquan Zhou and Hongyu Ren and Zhen Dong and Kurt Keutzer and See-Kiong Ng and Jiashi Feng 背景 LLMは自然言語処理で大きな進展を示し、マルチエージェントへの応用が進んでいます。目的多エージェントでの LLMの協力、推論、合理性を評価するフレームワークの開発です。提案プロベイリスティック・グラフィカル・モデリングを用いた新たな評価フレームワークを提案します。評価ゲーム理論や様々なゲームを用いた多様なテスト環境で LLMを評価しました。結果強力な GPT-4と Llama-2-70B間で性能の差が約三倍あることが確認されました。

生成 AIを用いた 1001夜物語の協創型ストーリーテリングゲーム体験 Language as Reality: A Co-Creative Storytelling
Game Experience in 1001 Nights using Generative AI Yuqian Sun and Zhouyi Li and Ke Fang and Chang Hee Lee and A. Asadipour 背景生成 AIはゲーム体験を変革し、特に物語性に新たな可能性を提供する。目的言語と現実の融合を通じて、ゲーム内世界のダイナミック生成を示すこと。提案 AIネイティブゲームとして、生成 AIが新機軸のゲームの中心であるカテゴリを提案。評価 GPT-4を用いた一貫性維持と Stable Diffusionによる視覚化を分析。結果言語によるインタラクティブなストーリーテリングがゲーム世界を形作る力を実証。

大規模言語モデルを用いたユーザー行動シミュレーション User Behavior Simulation with Large Language Model based
Agents Lei Wang and Jingsen Zhang and Hao Yang and Zhiyuan Chen and Jiakai Tang and Zeyu Zhang and Xu Chen and Yankai Lin and Ruihua Song and Wayne Xin Zhao and Jun Xu and Zhicheng Dou and Jun Wang and Ji-rong 背景ユーザー行動データの高品質なシミュレーションは複雑な人間の意思決定過程のため困難です。目的大規模言語モデルが人間らしい知能を用いた新たなシミュレーションの可能性を探ります。提案 LLMベースのエージェントフレームワークとサンドボックス環境を提案し、リアルなユーザー行動の再現を目指しま評価広範な実験を通じて、本手法でのシミュレーションされた行動が実際の人間に近いことを評価しました。結果 2つの社会現象を分析し、人間中心アプリケーション向けの新たなシミュレーションパラダイムを提供します。

反復的質問作成による数学文章題の拡充 Augmenting Math Word Problems via Iterative Question Composing Haoxiong
Liu and Yifan Zhang and Yifan Luo and Andrew Chi-Chih Yao 背景競技レベルの数学問題解決は、特にオープンソースの LLMにおいて依然として課題です。目的 MMIQCデータセットで数学推論能力を向上させることを目指しています。提案反復的質問作成（ IQC）で新たに質問を生成する手法を提案します。評価ハンガリー高校試験を用いて、手法の一般化性能を評価しました。結果 Qwen-72B-MMIQCは、最先端を 8.2%上回る 45.0%の精度を達成しました。

グラフ記述順序が大規模言語モデルの推論を向上 Graph Descriptive Order Improves Reasoning with Large Language
Model Yuyao Ge and Shenghua Liu and Wenjie Feng and Lingrui Mei and Lizhe Chen and Xueqi Cheng 背景大規模言語モデルは多分野で進展する一方、グラフ推論では課題が残る。目的グラフ記述の順序が推論性能に与える影響を解明する。提案グラフの記述順序を変えることで推論能力を向上させる手法。評価 GPT-3.5など主流モデルを用いて様々なグラフサイズで性能を評価。結果記述順序の変更により推論性能が 42.22％から 70％に向上。

LLMを研究ツールとして : HCIデータ作業における応用と評価 LLMs as Research Tools: Applications and
Evaluations in HCI Data Work Marianne Aubin Le Quere and Hope Schroeder and Casey Randazzo and Jie Gao and Ziv Epstein and S. Perrault and David Mimno and Louise Barkhuus and Hanlin Li 背景 LLMは新しいデータ処理方法を可能にするが、批判的評価が必要です。目的 HCI研究におけるデータ作業での LLMの使用法を理解することが目的です。提案研究ツールとしての LLM利用に関するオープンな評価問題を定義します。評価 CHIで多様な方法論の研究者が集まり、倫理的評価を議論します。結果このフォーラムの洞察は、他の研究コミュニティにも貢献する可能性があります。

Comp-HuSim: 持続可能なデジタル人格シミュレーションプラットフォーム Comp-HuSim: Persistent Digital Personality Simulation Platform Chengyu
Fan and Zaynab Tariq and Nafis Saadiq Bhuiyan and Michael G Yankoski and Trenton W. Ford 背景デジタル人格の複雑なシミュレーションは、バーチャルアシスタントでの応用に重要です。目的人間らしい行動を模倣できるデジタルエージェントの開発が目的です。提案 Comp-HuSimは生成 AIを活用し、多様な人格を持つエージェントを生成します。評価エージェントが会話やゲームを通じて相互作用する実験を行いました。結果プロジェクトは、複雑な人間らしい行動が確認できる可能性を示しました。

METAツールベンチマーク : ツール使用の決定と選択 M ETA T OOL B ENCHMARK
: D ECIDING W HETHER TO U SE T OOLS AND W HICH TO U SE Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun 背景大規模言語モデルのツール使用能力が注目されているが、適切なツール選択は懸案。目的 METATOOLベンチマークで、 LLMsのツール選択能力を評価し、課題改善を目指す。提案 TOOLEデータセットを用いたプロンプト形式で、複数視点のサブタスクを設定。評価 9つの人気 LLMsを対象に、ツール選択の効果的な能力を実験的に分析。結果多くのモデルでツール選択に課題が見られ、改善の余地と開発者向けインサイトを提示。

トップダウン推論への道 : ビジュアル質問応答のための説明可能なマルチエージェントアプローチ Towards Top-Down Reasoning: An Explainable
Multi-Agent Approach for Visual Question Answering Zeqing Wang and Wentao Wan and Runmeng Chen and Qiqing Lao and Minjie Lang and Keze Wang 背景 VLMは外部知識を理解できず、最適な答えを生成しにくい問題があります。目的人間のトップダウン推論を模倣した新しいフレームワークを構築することです。提案 Responder、 Seeker、 Integratorの 3エージェントで視覚的推論を行う手法を提案。評価多様な VQAデータセットと VLMを用いて広範かつ包括的に評価しました。結果我々のフレームワークは、他の方法よりも優れた適用性と説明可能性を示しました。

大規模言語モデルの時代におけるユーザーモデリング：現在の研究と未来の方向性 User Modeling in the Era of Large Language
Models: Current Research and Future Directions Zhaoxuan Tan and Meng Jiang 背景ユーザーモデリングは、ユーザーデータからパターンを発見し、オンラインアプリでのパーソナライゼーションを可能に目的 **大規模言語モデル（ LLM） **を用いてユーザー生成コンテンツを効果的にモデリングすることです。提案 LLMをテキストとグラフベースの手法に統合して、優れたユーザーモデリングを実現します。評価 LLM-UMアプローチの有効性は、異なる手法との統合を通じて検討されます。結果 LLMを用いたユーザーモデリングは、従来よりも優れた性能を示しました。

マルチモーダル対話システムにおける会話の基盤 Conversational Grounding in Multimodal Dialog Systems Biswesh Mohapatra
背景会話の基盤は重要であり、対話システムがこれを管理できる能力が必要です。目的現在の対話モデルでの会話の基盤をテストし、改善することが目的です。提案マルチモーダルな対話システムの会話基盤強化を提案します。評価システムが会話の基盤を管理する能力をテストし分析します。結果会話の基盤向上が、具現化された会話エージェントに有益です。

すべてを一つのモデルで解決する時代を超えて : 大規模言語モデルのドメイン専門化に関する調査 Beyond One-Model-Fits-All: A Survey of
Domain Specialization for Large Language Models Chen Ling and Xujiang Zhao and Jiaying Lu and Chengyuan Deng and Can Zheng and Junxiang Wang and Tanmoy Chowdhury and Yun-Qing Li and Hejie Cui and Tian-yu Zhao and Amit Panalkar and Wei Cheng and 背景大規模言語モデルは多様なアプリケーションで有用だが、特定ドメインでの問題解決に困難がある。目的特定ドメインでの LLMの適用困難を克服し、専門化の可能性を探る。提案各ドメイン特有のデータやニーズに合わせた専門化技術の調査を提案。評価文献の調査や分析を通じて、特定ドメインに合わせた調整手法を評価。結果 LLMのドメイン専門化が有効であり、実際の応用での障害を減少させる可能性を示唆。

ExpertPrompting: 大規模言語モデルを卓越した専門家に指導する ExpertPrompting: Instructing Large Language Models to be
Distinguished Experts Benfeng Xu and An Yang and Junyang Lin and Quang Wang and Chang Zhou and Yongdong Zhang and Zhendong Mao 背景大規模言語モデル（ LLM）は、適切なプロンプト作成で回答品質が向上します。目的 LLMに卓越した専門家として回答させるための手法の開発。提案 In-Context Learningを用い、専門家背景に基づいたプロンプトを自動生成。評価 GPT4を使い、 ExpertLLaMAの専門データの質を評価しました。結果 ExpertLLaMAは ChatGPTの 96%の性能を達成し、高品質です。

CLIN: 迅速なタスク適応と一般化のための継続的学習言語エージェント CLIN: A Continually Learning Language Agent for
Rapid Task Adaptation and Generalization Bodhisattwa Prasad Majumder and Bhavana Dalvi and Peter Alexander Jansen and Oyvind Tafjord and Niket Tandon and Li Zhang and Chris Callison-Burch and Peter Clark 背景言語エージェントは環境との連携で複雑なタスクを実行できますが、継続的向上は制限されていました。目的この研究は、異なる環境とタスクにおいても向上を続けるエージェントを開発することを目的とします。提案 CLINは、持続的で動的なテキストメモリを用いて、継続的に学習する言語エージェントを提案します。評価 CLINは ScienceWorldベンチマークで、同じタスク・環境での繰り返し試行における性能向上を評価しました。結果 CLINは、最先端のエージェントを 23ポイント上回り、さらに新しい環境やタスクに対しても性能改善を実現しました。

言語モデルは実用的な話者である Language Models are Pragmatic Speakers Khanh Nguyen 背景言語モデルの思考過程を理解することは、技術の向上に重
要です。目的認知的確率モデルを通じて言語モデルの思考を解明することです。提案限定された実用的話者として言語モデルをモデル化します。評価人間のフィードバックからの強化学習を用いて評価します。結果速いと遅い思考モデルに似た行動を確認しました。

知識に基づく対話のための大規模言語モデルを用いたパーソナライズされたプランニング Large Language Models as Source Planner for Personalized
Knowledge-grounded Dialogue Hongru Wang and Minda Hu and Yang Deng and Rui Wang and Fei Mi and Weichao Wang and Yasheng Wang and Wai-Chung Kwan and Irwin King and Kam-Fai Wong 背景オープンドメイン対話システムは複数の知識源を必要とするが、現行システムは依存関係を無視。目的複数の知識源を活用し、矛盾を避けた応答生成手法の確立。提案 SAFARIフレームワークを提案し、大規模言語モデルの能力を活用する。評価 KBPデータセットを用いて、提案手法の効果を実験的に検証。結果 SAFARIは一貫した知識強化応答を生成可能であることを示した。

生成的人工知能時代における法学教育の変化と課題 : 中国の経験 Changes and challenges of legal education
in the era of generative artificial intelligence: Chinese experience Wenyu Wang and Zhilang Xu and Zichun Xu 背景生成的人工知能が知識伝達を効率化し得るが、独立思考が阻害される懸念がある。目的法学教育における生成 AI活用の軽減策を探り、包括的人材育成を目指す。提案質問力や自己分析能力、基本的法素養を重視する教育を提案する。評価生成 AI導入の教育効果とリスクを考慮した倫理的分析を行う。結果学生は AI時代の課題に対応する包括的能力を確保できると示唆。

大規模言語モデルエージェントは人間の信頼行動をシミュレートできるか？ Can Large Language Model Agents Simulate Human Trust
Behaviors? Chengxing Xie and Canyu Chen and Feiran Jia and Ziyu Ye and Kai Shu and Adel Bibi and Ziniu Hu and Philip H. S. Torr and Bernard Ghanem and G. Li 背景人間の信頼行動は社会科学で重要であり、モデル化が求められています。目的 LLMが人間の信頼行動を再現できるか、その可能性を探ることです。提案 Trust Gamesを使い、エージェント信頼を評価し行動整合性を検証します。評価行動経済学の Trust Gamesを用いて、 LLMの信頼行動を分析しました。結果 GPT-4が人間と高い行動整合性を示し、信頼行動の再現が可能と示唆されます。

ProductAgent: 質問明確化を用いた会話型商品検索エージェントのベンチマーク ProductAgent: Benchmarking Conversational Product Search Agent with
Asking Clarification Questions Jingheng Ye and Yong Jiang and Xiaobin Wang and Yinghui Li and Yangning Li and Hai-Tao Zheng and Pengjun Xie and Fei Huang 背景 eコマースではユーザーの曖昧なクエリが商品検索の効率を低下させる。目的ユーザーの曖昧なニーズを明確化するエージェントを開発し、検索精度を高める。提案 ProductAgentは質問生成と商品特性要約を用いて、ユーザーの意図を明瞭化する。評価 PROCLAREベンチマークを用いて、 LLM駆動シミュレータでエージェント性能を評価。結果 ProductAgentは対話を通じて要求を明確化し、検索性能を向上させた。

アナンシの網に包まれて : 口頭伝承における生成 AIパーソナライゼーションと VR没入の影響の解明 Wrapped in Anansi's
Web: Unweaving the Impacts of Generative-AI Personalization and VR Immersion in Oral Storytelling Ka Hei Carrie Lau and Bhada Yun and Samuel Saruba and Efe Bozkir and Enkelejda Kasneci 背景口頭伝承は若者にとって重要性が薄れており、現代メディアがその原因です。目的この研究は若者と民話を再結びつけることで、伝統の再生を目指します。提案 Anansi the Spider VRにより、ユーザーは物語を個別に体験し影響を与えることができます。評価 48名の参加者をもつ 2x2実験により、 VRでのエンゲージメントや興味の変化を測定しました。結果パーソナライゼーションはエンゲージメントと文化的学習への興味を大幅に向上させました。

エージェントスコープによる超大規模マルチエージェントシミュレーション Very Large-Scale Multi-Agent Simulation in AgentScope Xuchen Pan
and Dawei Gao and Yuexiang Xie and Zhewei Wei and Yaliang Li and Bolin Ding and Ji-Rong Wen and Jingren Zhou 背景既存プラットフォームのスケーラビリティや多様性不足が大規模シミュレーションの障害です。目的超大規模マルチエージェントシミュレーションの効率性と多様性を向上させることが目的です。提案アクターベース分散機構を用いた技術基盤を提案し、環境の柔軟性を強化しました。評価包括的なシミュレーションを行い、提案の効果を示す詳細な観察と議論を行いました。結果提案された拡張機能が大規模シミュレーションへの多大な可能性を示しました。

FinRobot: 大規模言語モデルを用いた金融アプリケーションのためのオープンソース AIエージェントプラットフォーム FinRobot: An Open-Source AI Agent
Platform for Financial Applications using Large Language Models Hongyang Yang and Boyu Zhang and Neng Wang and Cheng Guo and Xiaoli Zhang and Likun Lin and Junlin Wang and Tianyu Zhou and Mao Guan and Runjia Zhang and Chris Wang 背景大規模言語モデルの導入と既存のデータや知識の壁が金融と AIの連携を妨害しています。目的金融専門の LLMベースのツールチェーンを民主化し、広範な AI活用を推進します。提案 FinRobotというオープンソースプラットフォームを介し、 LLMを活用した AIエージェントを提供します。評価仮説検証には、プラットフォーム内部の四つの層を利用した戦略的構造の評価を行いました。結果専門家と一般人のために、金融分析を強化する AI技術の実践的活用が可能になりました。

ChatGPTを用いたパーソナリティ研究：生成されたペルソナによるアンケート実施 The use of ChatGPT for personality research: Administering
questionnaires using generated personas Joost C. F. de Winter and Tom Driessen and Dimitra Dodou 背景パーソナリティ研究は、伝統的にアンケートに依存し、回答スタイル偏りなどの制約がある。目的 ChatGPTを用いてアンケートの代替手法を検証し、研究に新たな視点を提供する。提案 ChatGPTを用いて生成したペルソナで BFI-10などのアンケートを実施する方法。評価 2000のペルソナを用いて BFI-10や BSSSの回答を比較し、相関分析を行う。結果ペルソナセットによりパーソナリティ構造が変わり、事前評価の有用性が確認された。

コラボレーション役割を組み込んだ LLMベースエージェントによるスタンス検出 Stance Detection with Collaborative Role-Infused LLM-Based Agents
Xiaochong Lan and Chen Gao and Depeng Jin and Yong Li 背景スタンス検出は、ソーシャルメディアでのコンテンツ分析で重要です。目的暗黙的な見解を推理する挑戦を解決することです。提案 COLAフレームワークで LLMに異なる役割を持たせた協調システムです。評価アブレーションスタディで役割設計の有効性を検証しました。結果複数のデータセットで最先端の性能を達成しました。

実行可能なコードアクションはより良い LLM エージェントを引き出す Executable Code Actions Elicit Better LLM Agents
Xingyao Wang and Yangyi Chen and Lifan Yuan and Yizhe Zhang and Yunzhu Li and Hao Peng and Heng Ji 背景大規模言語モデル（ LLM）エージェントは、制約されたアクションスペースに縛られているため、柔軟性に欠けていま目的 LLMエージェントが制約を克服し、柔軟かつ統一されたアクションスペースを提供することを目指しています。提案実行可能な Pythonコードを用いて LLMエージェントのアクションを統合する手法（ CodeAct）を提案します。評価 CodeActを 17の LLMで API-Bankと新たなベンチマークで評価し、性能を分析しました。結果 CodeActは従来の方法を上回り、最大で 20％の成功率向上を達成しました。

MetaGPT: マルチエージェント協調のためのメタプログラミングフレームワーク MetaGPT: Meta Programming for A Multi-Agent Collaborative
Framework Sirui Hong and Mingchen Zhuge and Jonathan Chen and Xiawu Zheng and Yuheng Cheng and Ceyao Zhang and Jinlin Wang and Zili Wang and Steven Ka Shing Yau and Z. Lin and Liyang Zhou and Chenyu Ran and 背景大規模言語モデルを活用し、自動問題解決に進展がある。目的複雑なタスクの論理不整合を解決するため。提案 MetaGPTはメタプログラミングで人間のワークフローを組み込む。評価ソフトウェア工学ベンチマークで、一貫性のある解決を評価。結果 MetaGPTは従来よりも一貫した解決策を生成する。

AI劇場のオスカー : 言語モデルによる役割演技に関する調査 The Oscars of AI Theater: A
Survey on Role-Playing with Language Models Nuo Chen and Yang Deng and Jia Li 背景 LLMの発展で、 AIによる役割演技が可能性を広げる。目的役割演技の手法を構造化し、研究の指針を提供する。提案データ、モデル、エージェントアーキテクチャの包括的分類を提案。評価動的な個人プロファイル管理と高度な一貫性の課題を議論。結果リアルな役割演技の深さと現実感を向上する未来研究を提案。

人工的インクルージョンの錯覚 The Illusion of Artificial Inclusion William Agnew and A.
S. Bergman and Usa Google DeepMind and Jennifer Chien and Mark Díaz and Usa Google Research and Seliem El-Sayed and Shakir Mohamed and Kevin McKee and Jaylen Pittman 背景生成 AIの進展で人間参加者を AIで代替可能性が論じられる。目的人間参加者の代替がもたらす利点と問題点を評価する。提案 AIによる人間参加者の代替提案を包括的に調査し評価する。評価置換提案の利点と問題点をスコーピングレビューで詳細に分析。結果人間参加の重要性を再確認し、未来の研究の道を示唆。

AgentsCourt: 法廷討論シミュレーションと法知識拡張による司法判断エージェントの構築 AgentsCourt: Building Judicial Decision-Making Agents with
Court Debate Simulation and Legal Knowledge Augmentation Zhitao He and Pengfei Cao and Chenhao Wang and Zhuoran Jin and Yubo Chen and Jiexin Xu and Huaijun Li and Xiaojian Jiang and Kang Liu and Jun Zhao 背景自然言語処理の進化で、司法業界の効率が向上している。目的複数の司法段階にわたる複雑な意思決定支援を目指す。提案 AgentsCourtフレームワークで、法廷シミュレーションを通じた意思決定を提案。評価広範な実験で、他の方法と比較し優位性を検証。結果法令生成で既存手法に比べ、最大 9.1%の F1スコア向上を実現。

ConnectVR: エージェントベースのインタラクティブ VRストーリーを作成するトリガーアクションインターフェース ConnectVR: A Trigger-Action Interface for
Creating Agent-based Interactive VR Stories Mengyu Chen and Marko Peljhan and Misha Sra 背景 VRとビデオゲームの人気増加により、物語体験の需要が高まっています。目的プログラミング経験がないクリエイターのために簡単に物語を創作する支援を目指します。提案 ConnectVRというトリガーアクションインターフェースを用いて物語を構築します。評価 ConnectVRを用いた 15人の予備ワークショップと 2人の 3 週間の詳細研究を実施しました。結果 ConnectVRは創造性をサポートし、インタラクティブストーリーの制作を簡素化するという肯定的なフィードバックを

大規模 LLMベースのエージェントシミュレーションを用いた動的およびテキストグラフ生成 Dynamic and Textual Graph Generation Via
Large-Scale LLM-based Agent Simulation Jiarui Ji and Runlin Lei and Jialing Bi and Zhewei Wei and Yankai Lin and Xuchen Pan and Yaliang Li and Bolin Ding 背景グラフ生成はコミュニティ構造を捉えにくく、動的生成が課題です。目的人間のインタラクションシミュレーションで、リアルな動的グラフ生成を実現します。提案 GraphAgent-Generatorは LLMを使って七つのマクロ構造を再現します。評価ノード分類タスクでテキスト特徴を保持し、評価指標で 31%向上。結果最大 100,000ノード生成し、速度が **90.4%**向上しました。

大規模言語モデルにおける空間理解と推論のためのベンチマーク : PLUGH PLUGH: A Benchmark for Spatial Understanding
and Reasoning in Large Language Models Alexey Tikhonov 背景 LLMの空間理解は、自然言語処理の課題として重要視されています。目的 LLMの空間理解能力を評価するための基準を提供することが目的です。提案 5つのタスクを含む PLUGHベンチマークを提案し、空間推論を評価。評価商用およびオープンソースの LLMでの性能を API経由で比較評価しました。結果商用とオープンソースの LLMは、共に改善の余地があります。

CoMPosT: LLMシミュレーションのカリカチュアの特性評価と評価 CoMPosT: Characterizing and Evaluating Caricature in LLM
Simulations Myra Cheng and Tiziano Piccardi and Diyi Yang 背景 LLMは特定の人口統計の行動をシミュレーションするために利用されていますが、その質の基準は不明です。目的 LLMシミュレーションが単純化されステレオタイプを助長する問題を解決するための方法を提案します。提案 4次元（文脈、モデル、ペルソナ、トピック）で LLMシミュレーションを特性化する CoMPosTフレームワークを提案しま評価 CoMPosTを使用して、既存事例でカリカチュアの感受性を個別性と誇張の 2基準で測定しました。結果 GPT-4による特定の集団や一般的なトピックのシミュレーションはカリカチュアに敏感であると判明しました。

AgentVerse: マルチエージェント協力と新興行動の探求を促進する AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent
Behaviors Weize Chen and Yusheng Su and Jingwei Zuo and Cheng Yang and Chenfei Yuan and Chi-Min Chan and Heyang Yu and Ya-Ting Lu and Yi-Hsin Hung and Cheng Qian and Yujia Qin and Xin Cong and Ruobing Xie and 背景 LLMsによる自律エージェントの向上により、多様なタスクをこなす能力が求められる。目的個体間の協力によるタスクの効率向上が本研究の焦点です。提案動的に調整可能なマルチエージェントフレームワークを提案します。評価単一エージェントと比較し、エージェントグループのパフォーマンスを実験で検証しました。結果マルチエージェントの協調作業が単独より優れていると確認されました。

指示をフォローして情報を暴露する : 拡張型生成システムからの拡張可能なデータ抽出 Follow My Instruction and Spill the
Beans: Scalable Data Extraction from Retrieval- Augmented Generation Systems Zhenting Qi and Hanlin Zhang and Eric Xing and S. Kakade and Hima Lakkaraju 背景 RAGシステムは外部知識を生かすが、データストアからの情報漏洩が懸念されています。目的研究の目的は、指示に従う LMの脆弱性を探り、漏洩リスクを明らかにすることです。提案モデルがスケールアップすると、指示によるデータ漏洩が悪化する脆弱性を指摘します。評価 RAGモデルでプロンプトインジェクションにより、データ漏洩がどれだけ発生するかを評価しました。結果位置バイアス排除で漏洩リスク低減可能で、効果的な対策があることを示しました。

協力か崩壊か： LLMエージェント社会における持続可能な協力の発現 Cooperate or Collapse: Emergence of Sustainable Cooperation
in a Society of LLM Agents Giorgio Piatti and Zhijing Jin and Max Kleiman-Weiner and Bernhard Scholkopf and Mrinmaya Sachan and Rada Mihalcea 背景 LLMによる安全な意思決定の確保は AIシステムの重要課題。目的 LLMの持続可能な協力を達成するメカニズムを解明する。提案 GovSimは戦略的相互作用と協力的意思決定を研究可能なプラットフォーム。評価主要なオープン /クローズド LLMでのシミュレーションでコミュニケーションの重要性を分析。結果ユニバーサリゼーションに基づく推論で持続可能な協力が改善可能。

新しい農学者 : 言語モデルは作物管理の専門家である The New Agronomists: Language Models are
Experts in Crop Management Jing Wu and Zhixin Lai and Suiyao Chen and Ran Tao and Pan Zhao and N. Hovakimyan 背景作物管理は収量、経済利益、環境持続性を左右する重要な役割を担っている。目的本研究は、既存手法の複雑さを解決し、作物管理を最適化することを目的とする。提案 RL、言語モデル、作物シミュレーションを組み合わせた新しい管理システムを提案。評価シミュレーション実験で、複数の評価指標を使用し、フロリダとサラゴサで検証。結果結果として、言語モデルは 49%以上の経済利益向上と環境影響削減を達成。

MirrorCheck: ビジョンと言語のモデルに対する効率的な逆攻撃防御 MirrorCheck: Efficient Adversarial Defense for Vision-Language Models
Samar Fares and Klea Ziu and Toluwani Aremu and N. Durasov and Martin Tak'avc and Pascal Fua and Karthik Nandakumar and Ivan Laptev 背景ビジョンと言語モデルは敵対的攻撃に弱く、新たな防御策が必要です。目的 VLMsに対する効率的な防御の手法を提供することです。提案 Text-to-Image モデルを使った、 VLMsの敵対的サンプル検出法を提案します。評価多様なデータセットで実証評価し、画像分類用のベースラインを超える手法を検証しました。結果提案手法は適応攻撃に対して耐性があり、実世界での有効性を示しています。

開始生成 : 社会学研究における生成人工知能の活用 Start Generating: Harnessing Generative Artificial Intelligence
for Sociological Research Thomas R. Davidson 背景 **生成人工知能 (GAI)**は社会学研究における新たな可能性を提供。目的 GAIを用いた社会学研究の手法を効率化し柔軟に活用する。提案 DALL·Eや GPT-4を通じて GAIの応用可能性を示す。評価テキストと画像モデルを用いた模擬実験を実施。結果 GAIは社会学研究の手法を補完し、進化させる可能性がある。

具現化された LLMエージェントが組織化されたチームで協力を学ぶ Embodied LLM Agents Learn to Cooperate in
Organized Teams Xudong Guo and Kaixuan Huang and Jiale Liu and Wenhui Fan and Natalia V'elez and Qingyun Wu and Huazheng Wang and Thomas L. Griffiths and Mengdi Wang 背景 LLMは多様なタスクに有用だが、協力には冗長性の問題がある。目的 LLMの協力促進と情報冗長性問題解決を目指す。提案人間組織を模倣し、プロンプトで構造化された LLMを提案。評価具現化された LLMと人間協力の実験でリーダーシップの影響を検証。結果 LLMエージェントのリーダーシップにより効率が向上した。

"差別的 AI心理学 "とコンテキスト内の価値駆動型言明の整合の指向 Towards "Differential AI Psychology" and in-context
Value-driven Statement Alignment with Moral Foundations Theory Simon Münker 背景最先端の言語モデルは新たなタスクへの適応が不十分で、課題が残る。目的本研究は、言語モデルとモラルファウンデーション理論との整合性を調査する。提案言語モデルを政治的ペルソナに適応させ、合成人口を生成する手法を提案。評価グループ内分散とクロス整合を通じて、モデルとペルソナ間の違いを分析。結果モデルは政治的イデオロギーの表現が困難で、整合には最適化が必要。

AIによる戦略：ビューティコンテスト実験からの洞察 Strategizing with AI: Insights from a Beauty Contest
Experiment Dmitry Dagaev and Sofiia Paklina and Petr Parshakov 背景ケインズのビューティコンテストは、他者の選択を予測する行動経済学の重要な実験です。目的研究の目的は、 AIが人間の意思決定とどう比較されるかを検証することです。提案研究は GPT-4を使い、異なるプレイヤーグループ間でのクラシック実験を再現します。評価ラッソ回帰分析で AIと人間の推測能力を比較し、その戦略的思考を評価しました。結果 AIの推測は人間よりも戦略的思考に近いと結論付けました。

InterIntent: インタラクティブなゲーム文脈での意図理解を通じて LLMの社会的知性を調査 InterIntent: Investigating Social Intelligence of
LLMs via Intention Understanding in an Interactive Game Context Ziyi Liu and Abhishek Anand and Pei Zhou and Jen-tse Huang and Jieyu Zhao 背景従来の LLMの社会的知性評価法は簡素で静的、より深い分析が必要。目的 LLMの意図理解を通じた社会的知性の評価手法開発の重要性を提示。提案 InterIntentフレームワークは、ゲーム内での意図操作能力で LLMを評価します。評価意図選択や推測など、 4つのタスクで社会的知性を多面的に評価。結果意図選択は高精度だが、他者意図推測は 20%の差があり課題。

スマートシティにおける複数車両の派遣とナビゲーションのための LLM駆動フレームワーク An LLM-driven Framework for Multiple-Vehicle Dispatching
and Navigation in Smart City Landscapes Ruiqing Chen and Wenbin Song and Weiqin Zu and ZiXin Dong and Ze Guo and Fanglei Sun and Zheng Tian and Jun Wang 背景自律型車両は普及してきたが、利用は断片化されている。目的スマートシティでの車両リソースを効率的に統合運用することが必要。提案 LLM駆動の多車両派遣とナビゲーションフレームワークを提案。評価実験により、従来のアルゴリズムと比較して優れた性能を確認。結果スケーラビリティや一般化で優れた成果を示した。

指示で構築する視覚プログラミングパイプライン： InstructPipeの開発 InstructPipe: Building Visual Programming Pipelines with Human
Instructions Zhongyi Zhou and Jing Jin and Vrushank Phadnis and Xiuxiu Yuan and Jun Jiang and Xun Qian and Jingtao Zhou and Yiyi Huang and Zheng Xu and Yinda Zhang and Kristen Wright and Jason Mayes and Mark Sherwood 背景視覚プログラミングは初心者にとって難しく、操作が複雑である。目的初心者が視覚プログラミングの作業を効率化できる支援が重要。提案 InstructPipeはテキスト指示で MLパイプラインを構築する AIアシスタントです。評価 LLMモジュールとコードインタープリターによる技術評価とユーザー調査を実施。結果操作を **81.1%**削減し、ユーザーの創造性を引き出すことができた。

テキストから画像モデルにおける暗黙の固定観念を検出するための言語エージェント Language Agents for Detecting Implicit Stereotypes in Text-to-image
Models at Scale Qichao Wang and Tian Bian and Yian Yin and Tingyang Xu and Hong Cheng and Helen M. Meng and Zibin Zheng and Liang Chen and Bingzhe Wu 背景拡散モデル研究の進展に伴い、固定観念が強化される可能性が無視されている。目的テキストから画像モデルにおける固定観念の検出と偏見の軽減が重要です。提案固定観念を検出するための新しいエージェントアーキテクチャを提案します。評価オープンテキストデータを使用し、商用製品やオープンソースモデルに適用しました。結果多くのモデルが固定観念を示し、我々のアプローチの有効性を確認しました。

エージェントは自発的に社会を形成できるか？生成型マルチエージェントの新しいアーキテクチャを紹介 Can Agents Spontaneously Form a Society? Introducing
a Novel Architecture for Generative Multi-Agents to Elicit Social Emergence H. Zhang and J. Yin and M. Jiang and C. Su 背景生成型エージェントは特定のタスクを得意とするが、社会的相互作用の考察が不足。目的エージェントが自発的に社会を形成できるかを検証するため。提案 ITCMA-Sアーキテクチャが社会的相互作用をサポートし、有害行動を排除。評価サンドボックス環境での自然な社会関係の進化をシミュレートし実験。結果エージェントがクリークを形成し組織された活動を行う能力を確認。

LLMのパーソナリティを編集する Editing Personality for LLMs Shengyu Mao and Ningyu Zhang
and Xiaohan Wang and Meng Wang and Yunzhi Yao and Yong Jiang and Pengjun Xie and Fei Huang and Huajun Chen 背景 LLMの応答が個人のパーソナリティ特性を反映するため、その編集が重要視されています。目的モデルの応答を調整することで、パーソナリティ特性の異なる側面を探索することが目的です。提案 Social Psychologyの理論に基づいた新しいベンチマークデータセットを提案します。評価実験では、 PersonalityEditを用いたモデルの応答変化を検証しました。結果モデルは異なるパーソナリティ特性を効果的に表現できることが示されました。

ICDコーディングのための LLMマルチエージェントの探求 Exploring LLM Multi-Agents for ICD Coding Rumeng
Li and Xun Wang and Hong Yu 背景 LLMsは ICDコードの高次元性と偏った分布により不正確な予測を生成する課題がある。目的本研究は、 ICDコーディングにおける不正確性と解釈性の不足を解決する。提案実世界の ICDコーディング割り当てを模倣するマルチエージェントアプローチを提案。評価 MIMIC-IIIデータセットを用いて新手法と他の方式を比較評価した。結果新手法は一般的およびまれな ICDコードにおいて最先端技術を上回る結果を得た。

ドラマエンジン : ナラティブエージェントのためのフレームワーク Drama Engine: A Framework for Narrative
Agents M. Pichlmair and Riddhi Raj and Charlene Putney 背景大規模言語モデルを利用したナラティブエージェントのインタラクション改善が求められています。目的エージェント間およびユーザーとの動的かつ文脈的な相互作用の実現を目指します。提案ドラマエンジンは、多エージェントワークフローや動的プロンプト組立を可能にします。評価システムアーキテクチャやプロンプト組立過程、委任メカニズムについて議論します。結果コンパニオン開発や倫理的考慮などの課題と将来の拡張を示唆しています。

LLMエージェントの計画理解 : 調査 Understanding the planning of LLM agents: A
survey Xu Huang and Weiwen Liu and Xiaolong Chen and Xingmei Wang and Hao Wang and Defu Lian and Yasheng Wang and Ruiming Tang and Enhong Chen 背景 **大規模言語モデル（ LLM） **は自律型エージェントとしての計画能力で注目されています。目的研究の目的は、 LLMを用いたエージェント計画の現状を体系的に理解することです。提案研究はタスク分解、プラン選択、外部モジュール、反省と記憶の視点で分類します。評価各分類方向について包括的な分析を行い、今後の研究課題についても検討します。結果研究により、 LLMエージェントの計画能力向上の可能性と課題が示されました。

シミュレートされた人間社会で社会的に一致する言語モデルの訓練 Training Socially Aligned Language Models in Simulated Human
Society Ruibo Liu and Ruixin Yang and Chenyan Jia and Ge Zhang and Denny Zhou and Andrew M. Dai and Diyi Yang and Soroush Vosoughi 背景 AIの社会的一致は、モデルが人間の価値観に合致するかが重要です。目的社会との価値観の一致を目指した AIの振る舞い改善が目的です。提案 AIをシミュレートした社会で訓練し、価値に沿った行動を促す手法を提案。評価 AIの振る舞いをシミュレーション社会でテストし、価値観との対応を分析。結果提案手法により、 AIがより社会的文脈に適合する行動が可能になると示唆。

MegaAgent: 大規模 LLMエージェントシステムにおける自律的協力の実用的枠組み MegaAgent: A Practical Framework for Autonomous
Cooperation in Large-Scale LLM Agent Systems Qian Wang and Tianyu Wang and Qinbin Li and Jingsheng Liang and Bingsheng He 背景 LLM駆動のマルチエージェントシステムは現実世界のタスク対応に提案されているが、自律性と協力が課題。目的本研究は、エージェントシステムの自律的な協力を実現し、拡張性の向上を目的とする。提案 MegaAgentはタスク要件に応じた動的生成と階層構造を用いた自律的システム管理を提案。評価五目並べと国家政策シミュレーションを通じて、性能向上と拡張性の評価を行った。結果 MegaAgentは既存システムを上回り、 590エージェントに迅速にスケールする自律性を示した。

パーソナライズされた文脈的クエリ提案のための知識拡張型大規模言語モデル Knowledge-Augmented Large Language Models for Personalized Contextual Query
Suggestion Jinheon Baek and N. Chandrasekaran and Silviu Cucerzan and Allen Herring and S. Jauhar 背景ウェブ検索のパーソナライズは、ユーザーの達成目標や知識を理解することで効果が向上します。目的ユーザーの知識と嗜好に基づいた文脈的クエリ提案の向上を目指します。提案ユーザーの検索履歴から知識ストアを構築し、 LLMのアウトプットをパーソナライズします。評価ヒューマン評価に基づく実験により、他のベースラインと比較した提案手法の性能を検証しました。結果提案手法は、より関連性が高くパーソナライズされたクエリを生成できると示されました。

都市計画におけるマルチ生成エージェントの集団意思決定：ケンドールスクエア改修のケーススタディ Multi-Generative Agent Collective Decision-Making in Urban Planning:
A Case Study for Kendall Square Renovation Jin Gao and Hanyong Xu and Luc Dao 背景都市計画におけるコミュニティ意思決定は複雑で、技術的支援が求められている。目的 AIを用いてコミュニティの複雑な意思決定プロセスを理解すること。提案多世代生成型エージェントシステムで地域住民の意思決定をシミュレートする手法。評価エージェント間の通信と人口統計・ライフバリューを変数とするシミュレーション。結果通信は推論を改善し、人口統計とライフバリューで意見の多様性が示された。

ペルソナからパーソナライゼーションへ : 役割演技言語エージェントに関する調査 From Persona to Personalization: A Survey
on Role-Playing Language Agents Jiangjie Chen and Xintao Wang and Rui Xu and Siyu Yuan and Yikai Zhang and Wei Shi and Jian Xie and Shuang Li and Ruihan Yang and Tinghui Zhu and Aili Chen and Nianqi Li and Lida Chen and Caiyu Hu and Siye 背景最近の LLMsの進展により、 RPLAsの適用が増加し、多様な AI応用が可能になった。目的 RPLAsの進化を整理し、人間と RPLAの共存の未来を目指す。提案デモグラフィック、キャラクター、インディビジュアライズドの三種類のペルソナに分けて調査。評価各ペルソナタイプのデータソーシングとエージェント構築、評価を詳細に分析。結果 RPLAsの現在の進展と将来の可能性を示し、研究の土台を構築した。

AgentGroupChat: 対話型グループチャットシミュレーションによる行動の誘発 AgentGroupChat: An Interactive Group Chat Simulacra For
Better Eliciting Emergent Behavior Zhouhong Gu and Xiaoxuan Zhu and Haoran Guo and Lin Zhang and Yin Cai and Hao Shen and Jiangjie Chen and Zheyu Ye and Yifei Dai and Yan Gao and Yao Hu and Hongwei Feng and Yanghua Xiao 背景言語は人間の集団知能形成で重要であり、その影響を動的なシナリオで研究する必要があります。目的この研究は、言語が集団行動に与える影響を動的シナリオで探究することを目的としています。提案 AgentGroupChatにおいて言語の役割を探るインタラクティブシミュレーションを提案します。評価エージェントの行動が人間の期待と一致し、創発行動が出現するかを検証しました。結果広範な情報交換、多様なキャラクター、高い言語理解が創発行動を促進しました。

対話の基盤形成 : 基盤行為と基盤単位のアノテーションと分析 Conversational Grounding: Annotation and Analysis of
Grounding Acts and Grounding Units Biswesh Mohapatra and Seemab Hassan and Laurent Romary and Justine Cassell 背景対話の基盤形成は、成功する会話に不可欠なプロセスです。目的対話システムの基盤能力向上のため、現状を分析します。提案 2つの対話コーパスに基盤行為と基盤単位をアノテーションしました。評価現在の言語モデルの基盤行為の分類性能を評価する基準モデルを提供しました。結果我々の研究が、対話の理解と信頼性向上に役立つリソースを提供します。

物語パズルゲームの難易度を調整するための規則の手続き的生成 Procedurally generating rules to adapt difficulty for narrative
puzzle games T. Volden and Djordje Grbic and Paolo Burelli 背景幼児向けの教育ゲームで、適応可能な難易度調整が重要視されています。目的物語パズルゲームの難易度を、動的に調整する方法を開発することが目的です。提案遺伝的アルゴリズムと大規模言語モデルで難易度調整の規則を生成します。評価難易度調整の正確さを、平均すると二十数世代で確認しました。結果目標難易度に近い規則を生成し、プレイヤー体験を向上する可能性があります。

Promptbreeder: プロンプト進化による自己参照的自己改善 Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution Chrisantha
Fernando and Dylan Banarse and H. Michalewski and Simon Osindero and Tim Rocktäschel 背景効果的なプロンプト戦略が LLMの推論能力を高めるため重要である。目的最適化されたプロンプト戦略開発の自動化を目指す。提案 Promptbreederはプロンプトの進化と適応を実現する自己改善メカニズムを提案。評価評価方法は、タスクプロンプトの変異による適合性試験を用いる。結果 Promptbreederは他の手法を上回り、特にヘイトスピーチ分類で有効性を示した。

RCAgent: 自律エージェントによるクラウドの根本原因分析とツール拡張大規模言語モデル RCAgent: Cloud Root Cause Analysis by
Autonomous Agents with Tool- Augmented Large Language Models Zefan Wang and Zichuan Liu and Yingying Zhang and Aoxiao Zhong and Lunting Fan and Lingfei Wu and Qingsong Wen 背景クラウドサービスでの根本原因分析が注目されているが、手動設定が主流で限界がある。目的大規模言語モデルを活用し、自律的かつプライバシーに配慮した根本原因分析を実現する。提案 RCAgentは、ツールで拡張された自律エージェントフレームワークを開発し、効率的な分析を行う。評価独自の自己整合性を持つ行動軌道など複数の強化手法で RCAgentの性能を強化。結果 RCAgentは ReActを超える性能を示し、実際のプラットフォームにも統合済み。

テキストから地図へ : 因果ループ図を構築するシステムダイナミクスボット From Text to Map: A System
Dynamics Bot for Constructing Causal Loop Diagrams Niyousha Hosseinichimeh and A. Majumdar and Ross Williams and Navid Ghaffarzadegan 背景因果ループ図作成は複雑で時間がかかるプロセスで、効率化が求められています。目的テキストデータから自動で因果ループ図を生成し、モデル構築を効率化することです。提案システムダイナミクスボットを用い、テキストデータから因果ループ図を自動生成します。評価 20の因果ループ図と 30人の参加者のデータでパフォーマンスを評価しました。結果約 60%の精度で変数間リンクとフィードバックループを正確に特定しました。

AIに関連する誤導認識の AIVRへの利用 AI-Related Misdirection Awareness In AIVR Nadisha-Marie Aliman and
Leon Kester 背景 AIと VRの進展により、倫理的・知識的課題が浮上し解決が求められています。目的 AIの誤導に対抗するため、人間の認識能力を高める手法を提案します。提案魔術の心理学と創造性研究を基にした AIVRで誤導認識を向上します。評価魔術と創造性の研究結果をモデルに活用し、理論的に評価しました。結果 AI関連の誤導認識を強化するための AIVRの可能性を示唆します。

人間と AIの安全性 : 生成 AIと制御システム安全の子孫 Human-AI Safety: A Descendant
of Generative AI and Control Systems Safety Andrea V. Bajcsy and J. Fisac 背景未曾有の規模で AIが人々と交互作用し、危害の懸念が高まっています。目的人間と AIの相互作用が安全な結果を導く保証を提供すること。提案安全クリティカルな人間 --AIインタラクションを捉える形式論を紹介します。評価提案した枠組みに基づいた次世代の AI安全性への技術的ロードマップを示します。結果人間中心の AI安全性に向けての具体的な進展を提案しました。

Retroformer: ポリシー勾配最適化による回顧的な大規模言語エージェント Retroformer: Retrospective Large Language Agents with Policy
Gradient Optimization Weiran Yao and Shelby Heinecke and Juan Carlos Niebles and Zhiwei Liu and Yihao Feng and Le Xue and Rithesh Murthy and Zeyuan Chen and Jianguo Zhang and Devansh Arpit and Ran Xu and P. Mùi and Haiquan 背景近年、大規模言語モデルが自律的な言語エージェントとして進化しつつある。目的環境に応じた報酬を活用した言語エージェントの最適化を目指す。提案ポリシー勾配を用いて言語エージェントのプロンプトを強化する。評価さまざまなタスクでの実験を通じてモデルの性能向上を評価。結果提案手法は従来手法を超え、時間とともに改善を示した。

ロボティクスにおける言語ベースのコミュニケーションに関する調査 A Survey of Language-Based Communication in Robotics William
Hunt and Sarvapali D. Ramchurn and Mohammad Divband Soorati 背景ロボットが環境と相互作用可能であることが AI開発の一例として重要になっている。目的ロボットシステムでの言語モデルの利用を理解し促進すること。提案ロボットと人間、ロボット同士、内部計画に言語を組込み利用する方法を調査。評価さまざまな言語モデルの利用シナリオの制約と課題を議論し分析した。結果言語ベースのロボティクスの将来発展に必要な方向性の概要を示した。

大規模言語モデルを利用したインテリジェント製造フロア向けマルチエージェント製造システム A Large Language Model-based multi-agent manufacturing system
for intelligent shopfloor Zhen Zhao and Dunbing Tang and Haihua Zhu and Zequn Zhang and Kai Chen and Changchun Liu and Yuchen Ji 背景生産の多様化により、従来の製造システムは即応性が不足している。目的マルチバラエティ小ロット生産に迅速に対応できるシステム開発が目的。提案大規模言語モデルを組み込んだマルチエージェント製造システムを提案。評価比較実験により、システムの性能評価を実施。結果新システムが他のスケジューリング手法に比べて優れていることが確認された。

自己対話による LLMベースのタスク指向型対話エージェントのブートストラップ Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
Dennis Ulmer and Elman Mansimov and Kaixiang Lin and Justin Sun and Xibin Gao and Yi Zhang 背景 LLMを特定のタスクに特化させるのは困難で、特にワークフローに従う場合はデータコストが問題です。目的自己対話を用いたデータ生成で、対話品質向上を図ります。提案 LLMにさまざまな役割を持たせ、 self-talkでトレーニングデータを生成します。評価生成データの品質を自動評価と人間評価で測定し、フィルターリングを行います。結果自己対話データの使用で対話品質が改善されることを確認しました。

大規模言語モデルを活用した集団意思決定 Leveraging Large Language Models for Collective Decision-Making Marios Papachristou
and Longqi Yang and Chin-Chia Hsu 背景集団意思決定は個々の好みの差異や力学により困難となる。目的 LLMを用いたシステムで集団意思決定の効率を向上させる。提案 LLMによる会話管理で好みを抽出し最適オプションを提案する。評価合成プロファイルのシミュレーションでシステム性能を評価した。結果メンバーの好みを多く満たし効率的な調整を確認。

SurrealDriver: 大規模言語モデルに基づく都市環境での生成的運転エージェントシミュレーションフレームワークの設計 SurrealDriver: Designing Generative Driver Agent Simulation
Framework in Urban Contexts based on Large Language Model Ye Jin and Xiaoxi Shen and Huiling Peng and Xiaoan Liu and Jin Qin and Jiayang Li and Jintao Xie and Peizhong Gao and Guyue Zhou and Jiangtao Gong 背景自動運転のシミュレーションにおいて、現実性と多様性が不足している。目的現行のプラットフォームで再現困難な、現実的な運転動作をシミュレーションする。提案 LLMを用いた運転エージェントの生成的シミュレーションフレームワークを提案。評価運転行動の詳細記述とユーザー実験を用いてフレームワークの妥当性を検証。結果フレームワークにより衝突率 **81.04%減少、人間らしさが 50%**増加。

ロボティクスのための大規模言語モデル :機会、課題、視点 Large Language Models for Robotics: Opportunities, Challenges,
and Perspectives Jiaqi Wang and Zihao Wu and Yiwei Li and Hanqi Jiang and Peng Shu and Enze Shi and Huawen Hu and Chong-Yi Ma and Yi-Hsueh Liu and Xuhui Wang and Yincheng Yao and Xuan Liu and Huaqin Zhao and Zheng 背景大規模言語モデル（ LLM）はロボットタスクに統合され、言語理解能力が活用されています。目的具現化されたタスクにおけるロボットの視覚認識とテキスト LLMの互換性の向上を目的とします。提案マルチモーダル GPT-4Vを利用することで、ロボットのタスクプランニングを強化するフレームワークを提案します。評価多様なデータセットを用いて評価し、 LLMとマルチモーダル LLMの能力を検証しました。結果 GPT-4Vは具現化されたタスクにおけるロボット性能を向上させることが示されました。

GenAINet: 知識の転送と推論による無線コレクティブインテリジェンスの実現 GenAINet: Enabling Wireless Collective Intelligence via Knowledge
Transfer and Reasoning Han Zou and Qiyang Zhao and Lina Bariah and Yu Tian and M. Bennis and S. Lasaulce and M. Debbah and Faouzi Bader 背景 6Gでは無線ネットワークと GenAIの統合が新たな可能性を提供します。目的無線ネットワークでコレクティブインテリジェンスを可能にすることが目標です。提案 GenAINetフレームワークを提案し、知識の転送と推論を強化します。評価無線デバイスクエリと電力制御のケーススタディを実施しました。結果知識転送により、効率的な通信と優れた意思決定が達成されました。

感情と生理反応の記録に基づく新しいファウンデーションモデル A New Type of Foundation Model Based on
Recordings of People's Emotions and Physiology David Gamez and Dionis Barcari and Aliya Grig 背景従来のチャットボットは感情や生理反応を考慮せず、表面的な模倣にとどまっています。目的感情と生理反応に基づくモデルを構築し、その重要性を探索します。提案ファーストパーソンモデルを新たに提案し、環境刺激との関係を分析します。評価独自の装置でデータを収集し、トレーニングデータとして利用します。結果データ不足の問題を解決し、多様な応用の可能性を示しました。

大規模言語モデルとエージェントベースモデリングの交差をプロンプトエンジニアリングを通じて探求 Exploring the Intersection of Large Language Models
and Agent-Based Modeling via Prompt Engineering Edward Junprung 背景エージェントベースモデリングは人間の複雑な行動を正確に表現できない。目的本研究は LLMを用いて人間主導の相互作用をより忠実にシミュレートすることを目指す。提案プロンプトエンジニアリングによって信頼性ある人間行動のシミュレーションを提案する。評価 2エージェント交渉と 6エージェントミステリーゲームをシミュレーションした。結果 LLMは複雑な人間の相互作用のシミュレーションにおいて有望であることを示した。

LLMの影響 : 個人特性の言語的指標への影響 Secret Keepers: The Impact of LLMs on
Linguistic Markers of Personal Traits Zhivar Sourati and Meltem Ozcan and Colin McDaniel and Alireza S. Ziabari and Nuan Wen and Ala Nekouvaght Tak and Fred Morstatter and Morteza Dehghani 背景 LLMの普及で文筆者の言語パターンが個人特性を示す力の変動が注目されています。目的 LLMが関与した場合でも著者の言語パターンが個人特性を予測できるかを検証します。提案 LLM使用が言語的指標の予測力をわずかに低減するが、完全には損なわないことを示します。評価 GPT3.5、 Llama 2、 Geminiで性別、年齢等 6特性に関する文献分析を行いました。結果一部の理論上の言語指標は LLM使用で信頼性を失うが、全体の予測力は保持されます。

大規模言語モデルを用いた人間社会のシミュレーション : 都市、ソーシャルメディア、経済システム Simulating Human Society with Large
Language Model Agents: City, Social Media, and Economic System Chen Gao and Fengli Xu and Xu Chen and Xiang Wang and Xiangnan He and Yong Li 背景大規模言語モデルを用いて人間社会の複雑な動態をシミュレートすることが求められています。目的 LLMを社会シミュレーションに統合し、正確な意思決定や相互作用を実現することです。提案 LLMエージェントを活用して、都市やソーシャルメディアを含む社会システムを再現します。評価参加者はチュートリアルを通じて、 LLMの社会統合に関する実践的な知識を得ることができます。結果 LLMが人間の相互作用をシミュレート可能であることを示し、社会的理解が深まります。

観光における AI生成実験の理解 : GPTシミュレーションによる再現 Understanding AI-Generated Experiments in Tourism:
Replications Using GPT Simulations Xiling Xiong and I. Wong and G. Huang and Yixuan Peng 背景観光研究における従来の手法に限界があり、 AI生成の研究手法の必要性が高まっています。目的 GPTを用いて観光研究の実証結果を補完し、新たな研究手法を検討します。提案観光研究のシナリオ実験に GPTを活用した AI生成研究を提案します。評価 OpenAIの Python APIを用いて GPT-3.5-turboと対話し、既存研究の検証を行いました。結果 GPT生成の結果は予備的なもので、人間の参加者データで裏付けが必要です。

基盤モデルの自動運転への展望 Prospective Role of Foundation Models in Advancing Autonomous Vehicles
Jianhua Wu and B. Gao and Jincheng Gao and Jianhao Yu and Hongqing Chu and Qiankun Yu and Xun Gong and Yi Chang and H. E. Tseng and Hong Chen and Jie Chen 背景人工知能と深層学習の進展により、基盤モデルが様々な分野で進化。目的基盤モデルを用いて自動運転の安全性を向上することが目的。提案基盤モデルは運転シーンの理解と推論を強化し、長尾分布に対応。評価世界モデルを通じた未見環境の生成と認知的推論の強化を評価。結果基盤モデルが自動運転の精度と信頼性の向上に寄与。

TrainerAgent: カスタマイズ可能で効率的なモデル訓練を LLM駆動のマルチエージェントシステムで実現 TrainerAgent: Customizable and Efficient Model
Training through LLM-Powered Multi-Agent System Haoyuan Li and Hao Jiang and Tianke Zhang and Zhelun Yu and Aoxiong Yin and Hao Cheng and Siming Fu and Yuhao Zhang and Wanggui He 背景 AIモデルのカスタマイズは専門家でないと難しく、特にビジネス目的では時間がかかる。目的効率的で高品質なカスタムモデル開発を実現することが重要である。提案 TrainerAgentシステムはタスク、データ等を分析し、効率的にモデルを最適化する。評価視覚と言語分野のタスクでシステムの性能を実験的に評価し、有効性を確認した。結果モデルが基準を満たし、達成不可能なタスクを識別・拒否する能力を示した。

粒子加速器におけるエージェント AIの実現に向けて Towards Agentic AI on Particle Accelerators Antonin
Sulc and Thorsten Hellert and Raimund Kammering and Hayden Houscher and Jason St. John 背景粒子加速器の複雑化により、従来の制御方法の限界が顕著化しています。目的最適性能を達成するために、新しい分散型制御モデルを開発する。提案 LLMを活用した自律エージェントによる分散制御フレームワークを提案。評価 2つの実例を示し、アーキテクチャの実現可能性を検証しました。結果提案したアーキテクチャの有効性を証明しました。

LLMディスカッション : ディスカッションフレームワークとロールプレイによる大規模言語モデルの創造性向上 LLM Discussion: Enhancing the Creativity
of Large Language Models via Discussion Framework and Role-Play Li-Chun Lu and Shou-Jen Chen and Tsung-Min Pai and Chan-Hung Yu and Hung-yi Lee and Shao-Hua Sun 背景 LLMsは自然言語処理において優れているが、創造性に欠けることが問題です。目的異なる視点を取り入れた集団的創造性の向上を目指しています。提案 3段階のディスカッションフレームワークとロールプレイを導入しました。評価 Alternative Uses Testなどのテストでフレームワークの効果を評価しました。結果提案フレームワークは既存手法を上回る創造性を示しました。

MatPlotAgent: LLMベースのエージェントによる科学的データの視覚化の方法と評価 MatPlotAgent: Method and Evaluation for LLM-Based Agentic
Scientific Data Visualization Zhiyu Yang and Zihan Zhou and Shuo Wang and Xin Cong and Xu Han and Yukun Yan and Zhenghao Liu and Zhixing Tan and Pengyuan Liu and Dong Yu and Zhiyuan Liu and Xiaodong Shi and Maosong Sun 背景科学的データの視覚化は複雑な情報の理解を助け、重要ですが LLM活用は未開拓。目的 LLMを用いた科学データ視覚化の自動化の実現を目指します。提案 MatPlotAgentを提案し、効率的な LLMエージェントで視覚化タスクを自動化します。評価 MatPlotBenchベンチマークでの評価と GPT-4Vによる自動スコアリングを使用。結果 MatPlotAgentは LLMの性能を向上させ、評価法は人間スコアと高い相関。

マルチエージェント、人間 -エージェント、その先へ : 社会的ジレンマにおける協力に関する調査 Multi-Agent, Human-Agent and Beyond:
A Survey on Cooperation in Social Dilemmas Hao Guo and Chunjiang Mu and Yang Chen and Chen Shen and Shuyue Hu and Zhen Wang 背景社会的ジレンマにおける協力は、 AIの進展により新たな知見を得て重要性を増している。目的 AIを活用して、エージェント間や人間との協力を最適化するための手法を調査する。提案 AIと協力の交差点にある 3つの領域、特に多エージェントと人間 -エージェントの協力を探索する。評価 AIと社会的ジレンマに関する既存研究をレビューし、新たな理論的枠組みや応用可能性を議論する。結果 AI技術は、協力の理解と強化で多くの実世界応用があり、理論的進展を促進する。

あなたのモデルを低共感や温かさの低い人にする要因は何か : LLMの人格の起源を探る What makes your model a low-empathy
or warmth person: Exploring the Origins of Personality in LLMs Shu Yang and Shenzhe Zhu and Ruoxuan Bao and Liang Liu and Yu Cheng and Lijie Hu and Mengdi Li and Di Wang 背景大規模言語モデルがヒトのような性格を示すようになったが、そのメカニズムは未解明。目的 LLMの性格特性がどのようにして形成されるのかを明らかにすること。提案モデルの出力を制御する際に、背景要因と短期的圧力の相互作用を利用。評価背景要因と圧力がモデル特性に及ぼす影響を、追加のファインチューニングなしで検証。結果背景要因と圧力が LLMの性格特性を形成し、安全性にも影響を与える。

Mora: 汎用ビデオ生成を可能にするマルチエージェントフレームワーク Mora: Enabling Generalist Video Generation via A
Multi-Agent Framework Zhengqing Yuan and Ruoxi Chen and Zhaoxu Li and Haolong Jia and Lifang He and Chi Wang and Lichao Sun 背景テキストからビデオ生成は進歩したが、高性能システムの再現が難しい。目的エージェントの協調やデータ質の問題を解決し、 Soraのような性能を目指す。提案 Moraは、マルチエージェントフレームワークを使い、 Soraの機能をオープンソースで再現する。評価六つのビデオ生成タスクで包括的な実験を行い、性能を検証する。結果 Moraは Dynamic Degreeスコア 1.00を達成し、 Soraを超える品質を示した。

創造的で協力的な役割遊びを促すための幼児向けストーリー設計 Designing Stories to Inspire Preschoolers’ Creative, Collaborative Roleplay
F. Currin and Kyle Diederich and L. Pantoja and Hannah Cargo and Noelle Franzone and Josephine Geiger-Lee and J. Hourcade 背景幼児のメディア使用は社会的遊びに影響し、発達に重要な役割を果たす。目的遊びを促進するためのメディアにおける必要性を明らかにすること。提案バランスの取れたキャラクター設計とステレオタイプへの対策を提案。評価プロジェクトを通して得たベストプラクティスと教訓を紹介。結果成果は他者がコンテンツ制作に利用できる抽象化の提供に貢献する。

URLとウェブページを用いた自動フィッシング検出 Automated Phishing Detection Using URLs and Webpages Huilin
Wang and Bryan Hooi 背景フィッシング攻撃はデータ漏洩や財務損失につながる深刻な問題です。目的大規模言語モデルを活用し、より正確なフィッシング検出を目指します。提案 LLMエージェントフレームワークを導入し、動的な参照システムを提供します。評価シミュレーションと実験によって、提案手法の性能を他の手法と比較しました。結果提案手法は 0.945の精度で既存手法を 0.445上回る結果を示しました。

ゲーム環境での動的意思決定のための GOAP を用いた生成 AI Generative AI with GOAP for Fast-Paced
Dynamic Decision-Making in Game Environments Tiger Shan and Kay Michel 背景 LLMの応答遅延がゲームでの動的意思決定を難しくしています。目的 GOAPと LLMを組み合わせて、迅速かつ効果的な意思決定を実現します。提案 GOAPを利用し、エージェントの戦略的思考とリアルタイム意思決定を支援します。評価 GOAPを用いて、戦略的意思決定の迅速化を実験で検証しました。結果ユーザーのゲーム体験の向上が示され、提案手法の有効性が確認されました。

人間のように運転する指示を与える大規模言語モデル Instruct Large Language Models to Drive like Humans
Ruijun Zhang and Xianda Guo and Wenzhao Zheng and Chenming Zhang and Kurt Keutzer and Long Chen 背景自動運転における動きの計画は、複雑なシナリオでの核心的課題です。目的 LLMが人間の運転論理を学習するかを明らかにすることです。提案人間の論理に基づく指示データを用いる InstructDriver 法を提案します。評価実世界の nuPlanベンチマークで手法を評価しました。結果 LLMプランナーが実世界閉ループで有効であることを示しました。

基盤モデルベースの AIシステムのための分散型ガバナンス：責任ある AIにおけるブロックチェーンの役割の探究 Decentralised Governance for Foundation Model
based AI Systems: Exploring the Role of Blockchain in Responsible AI Yue Liu and Qinghua Lu and Liming Zhu and Hye-Young Paik 背景基盤モデルの AIシステムは、倫理と透明性に関する課題を生んでいます。目的この研究は、 AIの透明性と信頼性を高めるための分散型ガバナンスを追求します。提案ブロックチェーン技術を利用した分散型ガバナンスモデルを提案します。評価ガバナンスの効果を、シミュレーションとケーススタディで評価しました。結果結果、分散型アプローチが透明性と責任を効果的に提供することを示しました。

Chatlang: 言語学習用チャットボットのためのツーウィンドウアプローチ Chatlang: A Two-Window Approach to Chatbots for
Language Learning Sheng Yu and Jared R Coleman and Bhaskar Krishnamachari 背景多くの学習者がより効率的な言語学習を求めています。目的言語学習者がより効果的に学習を進められる方法を提案します。提案ツーウィンドウ方式のチャットボットで学習者を支援します。評価ユーザーテストを通してチャットボットの有効性を評価しました。結果学習体験の向上に明確な効果が確認されました。

生成モデルのストーリーシミュラクラム：大規模言語モデルを質的研究参加者として検討 'Simulacrum of Stories': Examining Large Language Models as
Qualitative Research Participants Shivani Kapania and William Agnew and Motahhare Eslami and Hoda Heidari and Sarah E Fox 背景生成モデルは、調査や実験を自動化する可能性を秘めており、労働削減が求められています。目的質的研究における参加者の役割を、 LLMで代替することの妥当性を評価します。提案 LLMが生成するデータは代理効果を生み出すが、倫理的問題を含むリスクがあります。評価 19人の質的研究者にインタビューを行い、 LLMの有効性と限界を分析しました。結果 LLMは質的研究としての深みを欠き、倫理的課題を提起することが示されました。

言語モデルにおける拒否は単一の方向で仲介される Refusal in Language Models Is Mediated by a
Single Direction Andy Arditi and Oscar Obeso and Aaquib Syed and Daniel Paleka and Nina Rimsky and Wes Gurnee and Neel Nanda 背景言語モデルの安全性は重要だが、拒否のメカニズム理解が不十分である。目的拒否行動を制御する方法を見つけ、モデルの安全性向上を目指す。提案拒否を引き起こす単一の方向を特定し、それを利用して制御する手法を提案。評価 13のオープンソースチャットモデルを用いて、特徴方向の影響を分析した。結果モデルの拒否行動は一方向で制御可能で、安全性微調整の脆弱性を確認。

GPT-4は賢すぎて安全ではない：暗号を用いた LLMチャット GPT-4 Is Too Smart To Be Safe:
Stealthy Chat with LLMs via Cipher Youliang Yuan and Wenxiang Jiao and Wenxuan Wang and Jen-tse Huang and Pinjia He and Shuming Shi and Zhaopeng Tu 背景 LLMsの安全性は、自然言語での整合を通じ、人間の倫理と嗜好に合わせることが重要とされています。目的本研究は、 LLMsの安全整合が暗号を用いることで回避できるかどうかを調べます。提案 CipherChatは、暗号を用いて LLMsの非自然言語への安全整合を検証するためのフレームワークです。評価 ChatGPTや GPT-4を用いて、暗号による安全整合の回避能力を評価しました。結果暗号は安全整合を回避し、 SelfCipherが他の暗号を上回る結果が示されました。

人工知能エージェントを用いた工具摩耗の知的認識 Intelligent Recognition of Tool Wear with Artificial Intelligence
Agent Jiaming Gao and Han Qiao and Yilei Zhang 背景工具摩耗の早期検出と管理が生産効率と経済性に直結しています。目的 AIエージェントによる工具摩耗認識を向上させる方法を探ります。提案 **大規模言語モデル（ LLM） **を使用した AIエージェントの製造工程への統合です。評価 AIエージェントの自律性を高める技術とその統合の課題を議論します。結果 AIの自律化を促進し、製造プロセスにおける効率化を図ります。

リハーサル : 対立をシミュレートして対立解決を教える Rehearsal: Simulating Conflict to Teach Conflict
Resolution Omar Shaikh and Valentino Chai and Michele J. Gelfand and Diyi Yang and Michael S. Bernstein 背景対人対立は避けられず、それを円滑に乗り越えるスキルの取得が重要。目的対立解決スキルの練習とフィードバックを提供する、リハーサルシステムを提案。提案 IRP理論に基づいたシミュレーションで、対立を練習し解決法を学ぶシステム。評価参加者が実際に対立を体験し、リハーサルの訓練効果を対照群と比較した。結果リハーサル参加者は協力的戦略が倍増し、競争的戦略の使用が 67%減少。

欺瞞検出はさらに深くできるか？データセット、評価、基準 Can Deception Detection Go Deeper? Dataset, Evaluation, and
Benchmark for Deception Reasoning Kang Chen and Zheng Lian and Haiyang Sun and Bin Liu and Jianhua Tao 背景欺瞞検出は現実世界で重要であり、正確な判断が求められる。目的主観的判断を補うために、客観的証拠を明示することを目指す。提案欺瞞推論により、事実の不整合と意図を分析する手法を提案する。評価データセット構築と評価基準の定義を行い、手法の有効性を検証する。結果警察の取調べなど、現実シナリオでの活用が期待できる。

オープンモデル、閉じた心？オープン大型言語モデルを通じたエージェントの人間性模倣能力について Open Models, Closed Minds? On Agents Capabilities
in Mimicking Human Personalities through Open Large Language Models Lucio La Cava and Davide Costa and Andrea Tagarelli 背景 LLMsが人間の行動を模倣する能力は NLPと心理学を結びつける。目的オープン LLMsにおける人間性模倣能力の評価と確立が目的。提案オープン LLMsエージェントを用いて MBTIと BFIテストで性格特性を評価。評価性格と役割条件のもとで人間性模倣能力を評価する実験を行った。結果各エージェントは異なる性格を示し、一部のみが有効に人間性を模倣した。

Verif.ai: 参照・検証可能な回答を提供するオープンソースの科学的生成型質問応答システムに向けて Verif.ai: Towards an Open-Source Scientific Generative
Question-Answering System with Referenced and Verifiable Answers Milos Kosprdic and Adela Ljajić and Bojana Bašaragin and Darija Medvecki and Nikola Milosevic 背景科学的な誤認や誤情報を防ぎ、生成言語モデルへの信頼を高める必要があります。目的科学者の生産性向上とともに、信頼できる回答を提供することを目指します。提案情報検索、生成モデル、検証エンジンを組み合わせたシステムを提案します。評価生成された請求を論文の要約と照合して検証する手法を用います。結果科学環境で生成モデルの信頼性向上と生産性の向上が期待されます。

IICPilot: オープン EDAを活用したインテリジェント ICバックエンドデザインフレームワーク IICPilot: An Intelligent Integrated
Circuit Backend Design Framework Using Open EDA Zesong Jiang and Qing Zhang and Cheng Liu and Huawei Li and Xiaowei Li 背景オープンソース EDAツールの複雑さが普及の障壁となっている。目的 EDAツールの複雑さを軽減し普及を促進する。提案 IICPilotはデザイン自動化を通じてバックエンド設計を簡素化する。評価 LangChainのマルチエージェントでデザインタスクを効率化した。結果 IICPilotは EDAツールの利用障壁を大幅に低減した。

Attachmentを探索する試み : LLMを用いた大人の絆の予測 Chatting Up Attachment: Using LLMs to
Predict Adult Bonds Paulo Soares and Sean McCurdy and Andrew J. Gerber and Peter Fonagy 背景医療分野でのデータ取得は難しく、 AI導入が遅れている。目的 AI技術で医療分野の合成データ生成を評価すること。提案 LLMで成人の異なるアタッチメントを模擬するエージェントを生成。評価成人アタッチメントインタビューに基づく合成モデルと人間の応答を比較。結果合成データで訓練したモデルは人間データと同等の性能を示した。

対話する言語モデルの視点を追跡する Tracking the perspectives of interacting language models Hayden S.
Helm and Brandon Duderstadt and Youngser Park and Carey E. Priebe 背景大規模言語モデルは、人間との情報交信に大きな可能性を提供します。目的研究は、モデル間での情報拡散を詳細に理解することを目的としています。提案本研究は、 LLMsの通信ネットワークを正式化し、個々の視点を表現する方法を提案します。評価様々なシミュレーション設定で情報拡散を詳しく調査しました。結果本手法により、情報伝播のメカニズムを明確に理解することができました。

大規模言語モデルが生み出す科学的知識とは何か？ What is scientific knowledge produced by Large Language
Models? P. N. Baryshnikov 背景大規模言語モデルは現代科学研究において重要性を高めており、その知識の信頼性と影響が課題です。目的 AI支援による科学的発見の分類と妥当性の評価を目的とします。提案 LLMsの利用による科学研究の加速と精度向上を図る点を提案します。評価既存文献の包括的なレビューと倫理的影響の分析を行いました。結果 LLMsは科学の進歩に重要な役割を果たしますが、倫理的ガイドラインが必要です。

エージェントグループチャット : 集団の創発的行動を引き出すためのインタラクティブチャットシミュレーション Agent Group Chat: An Interactive
Group Chat Simulacra For Better Eliciting Collective Emergent Behavior Zhouhong Gu and Xiaoxuan Zhu and Haoran Guo and Lin Zhang and Yin Cai and Hao Shen and Jiangjie Chen and Zheyu Ye and Yifei Dai and Yan Gao and Yao Hu and Hongwei Feng and Yanghua Xiao and Agent 背景人間の言語的相互作用が集団行動に与える影響を理解することは、重要かつ複雑な問題です。目的集団の創発的行動を引き出すための言語の役割とメカニズムを解明することです。提案 Agent Group Chatは、マルチエージェントの言語的相互作用をシミュレートし、創発行動を誘発します。評価自由チャットを通じて、様々なシナリオでエージェントの行動を観察しました。結果エージェント間の言語的相互作用が、創発的行動を効果的に引き出すことが確認されました。

大規模言語モデルを用いた土地システムモデリングにおける機関の表現の機会と課題の探索 Exploring the opportunities and challenges of using
large language models to represent institutional agency in land system modelling Yongchao Zeng and Calum Brown and Joanna Raymond and Mohamed Byari and Ronja Hotz and M. Rounsevell 背景土地システムでの公共政策のモデリングは複雑であり、政策決定の理解が困難である。目的研究は大規模言語モデルを用いて土地システムにおける政策意思決定の表現を模索することを目的とする。提案 LLMを使用したエージェントを土地利用モデルに統合して政策決定をシミュレートする。評価エージェントの性能は、非介入シナリオと遺伝的アルゴリズムによる最適政策と比較される。結果 LLMエージェントは非介入シナリオより優れたが、最適政策には及ばない結果を示した。

視覚プロテーゼ : 視覚障害者の日常体験の向上 Visual Prosthesis: Enhancing Daily Experiences for
People with Visual Impairments Yumeng Ma 背景視覚障害者の社会的自立と日常生活の質向上が求められている。目的視覚的支援技術を用いて自立した移動を可能にすること。提案ウェアラブルデバイスでリアルタイムで環境認識とテキスト読み取りを可能にする。評価ユーザーからのフィードバックと実地試験により機能と使いやすさを評価。結果デバイスは社会的スティグマを軽減し、環境との相互作用を改善する。

Agent-FLAN: 大規模言語モデルのための効果的なエージェントチューニングのデータと方法の設計 Agent-FLAN: Designing Data and Methods of
Effective Agent Tuning for Large Language Models Zehui Chen and Kuikun Liu and Qiuchen Wang and Wenwei Zhang and Jiangning Liu and Dahua Lin and Kai Chen and Feng Zhao 背景大規模言語モデルは APIベースのエージェント能力には劣り、統合が急務です。目的エージェントとしての能力を向上させるために新たな手法を開発します。提案 Agent-FLANを提案し、トレーニングコーパスを再設計し幻覚問題を緩和します。評価様々なデータセットを用いて、エージェント能力への改善を評価しています。結果 LLMsのエージェント性能を 3.5%向上し、幻覚問題が緩和されました。

複数エージェント熟議による LLMの信頼性キャリブレーションと合理化 Confidence Calibration and Rationalization for LLMs via
Multi-Agent Deliberation Ruixin Yang and Dheeraj Rajagopal and S. Hayati and Bin Hu and Dongyeop Kang 背景不確実性推定は LLMsの信頼性における重要問題であり、特に過剰な自信が懸念される。目的集団知を活用し、 LLMsの校正や精度を向上させることを目的。提案 Collaborative Calibrationは複数の LLMエージェントによる熟議を用いた新手法。評価生成 QAタスクを通じて、提案手法の有効性を評価し、その信頼性を確認。結果提案手法は校正された信頼評価とモデル予測の信頼性向上に寄与。

EnvironAI: AI研究を環境全体に拡張する EnvironAI: Extending AI Research into the Whole Environment
Jingyi Duan and Song Tong and Hongyi Shi and Honghong Bai and Xuefeng Liang and Kaiping Peng 背景環境心理学における AIの可能性を探ることが重要視されています。目的 AI技術を用いた環境の影響を明らかにし、人間行動を理解することです。提案 EnvironAIは AIを環境心理学に応用し、学際的な方法で新しい洞察を提供します。評価心理学と AIの学際的なアプローチを用いて、環境への AIの影響を評価しました。結果 AIは環境と人間行動の理解を深める可能性があると示されました。

AutoManual: インタラクティブ環境学習による LLMエージェントによる説明書生成 AutoManual: Generating Instruction Manuals by LLM
Agents via Interactive Environmental Learning Minghao Chen and Yihang Li and Yanting Yang and Shiyu Yu and Binbin Lin and Xiaofei He 背景大規模言語モデルは、自律的にタスクを完了する可能性を示すが、適応性に制限がある。目的異なるドメインでエージェントが自律的に新しい環境に適応できる方法の提案。提案 AutoManualは 2つのエージェントでルールをオンライン最適化し、説明書を生成するフレームワーク。評価 ALFWorldベンチマークで、シンプルなデモを用いてタスク成功率を評価。結果 GPT-4-turboで 97.4%、 GPT-3.5-turboで 86.2%の成功率を達成し適応性を向上。

大規模言語モデルの社会的相互作用におけるスケールフリーネットワークの出現 Emergence of Scale-Free Networks in Social Interactions among
Large Language Models G. D. Marzo and Luciano Pietronero and David Garcia 背景スケールフリーネットワークはオンラインで普遍的な現象として認識されています。目的この研究は言語モデルによる人間の社会現象の模倣能力を解明します。提案エージェントの名前変更でスケールフリーネットワーク生成が可能と示唆。評価 GPT3.5-turboを用いて、多数の生成エージェントの相互作用を分析しました。結果エージェント名の変更で現実的なネットワーク構造の創出が可能に。

LLMベースのエージェントを用いたテキストから画像へのモデルのジェイルブレイキング Jailbreaking Text-to-Image Models with LLM-Based Agents Yingkai Dong
and Zheng Li and Xiangtao Meng and Ning Yu and Shanqing Guo 背景 LLMベースのエージェントはジェネレーティブ AIの安全性タスクを十分に探求していません。目的ジェネレーティブ AIモデルのセーフティフィルターに対する脆弱性を評価することです。提案 Atlasは 2つのエージェントで構成され、ジェイルブレイク攻撃を効果的に行います。評価 Atlasはブラックボックス設定で T2Iモデルを評価し、その効果を示しました。結果 Atlasは既存手法よりも効率的で高品質な結果を示しました。

AIエージェントでバイオメディカル発見を強化 Empowering Biomedical Discovery with AI Agents Shanghua Gao
and Ada Fang and Yepeng Huang and Valentina Giunchiglia and Ayush Noori and Jonathan Richard Schwarz and Yasha Ektefaie and Jovana Kondic and M. Zitnik 背景伝統的なバイオメディカル発見は、大規模データや反復作業で制約されています。目的 AIエージェントによって人間の創造性と AIのデータ分析を融合することです。提案 AIエージェントは、 AIモデルとバイオメディカルツールを統合し、的確な学習と仮説推論を行います。評価大規模言語モデルと生成モデルを用いて構造化記憶を実現し、継続的学習を支援します。結果仮想細胞シミュレーションや新療法開発などの分野で革新可能性が示されました。

データ物語から対話へ : 生成 AIエージェントとデータストーリーテリングによるデータ可視化理解の向上 From Data Stories to
Dialogues: A Randomised Controlled Trial of Generative AI Agents and Data Storytelling in Enhancing Data Visualisation Comprehension Lixiang Yan and Roberto Martínez-Maldonado and Yueqiao Jin and Vanessa Echeverría and M. Milesi and Jie Fan and Linxuan Zhao and Riordan Alfredo and Xinyu Li and D. Gašević 背景多くの人が苦手とするデータ可視化の理解を向上させる方法が必要です。目的生成 AIエージェントとデータストーリーテリングの効果を比較しました。提案受動的および能動的 GenAIエージェントによるデータ対話の効果を検証しました。評価 141人を対象にランダム化比較試験を行い理解度を時系列で測定しました。結果能動的 GenAIエージェントは介入後の理解を他手法より大幅に向上させました。

ChatLLMネットワーク : より多くの頭脳で、より多くの知能 ChatLLM Network: More brains, More intelligence
Rui Hao and Linmei Hu and Weijian Qi and Qingliu Wu and Yirui Zhang and Liqiang Nie 背景対話型言語モデルは強力ですが、共同的に考える能力が不足しています。目的複数のモデルが相互作用し、より協力的に考える方法を探ります。提案 ChatLLMネットワークはモデル間で視点を共有し、決定を向上させます。評価二つのデータセットで実験し、フィードバック機構を通じて効果を検証しました。結果提案したネットワークは問題解決で顕著な改善を示しました。

学習分析における生成 AI: サイクルを通じた機会と課題の文脈化 Generative Artificial Intelligence in Learning Analytics:
Contextualising Opportunities and Challenges through the Learning Analytics Cycle Lixiang Yan and Roberto Martínez-Maldonado and D. Gašević 背景生成 AIは教育変革に潜在能力があるが、 **学習分析（ LA） **との統合が未探究である。目的 GenAIが LAにおける役割を果たし、教育を進化させる可能性を示す。提案 GenAIは非構造データの分析や個別化介入の促進に役立つ可能性がある。評価文献を基に、 GenAIの教育領域での役割を Clowの LAサイクルで考察する。結果 GenAIは学習者とツールの協働を促進し、包括的未来を形成できる。

CloChat:大規模言語モデルにおけるペルソナのカスタマイズ、インタラクション、体験を理解する CloChat: Understanding How People Customize, Interact, and
Experience Personas in Large Language Models Juhye Ha and Hyeon Jeon and DaEun Han and Jinwook Seo and Changhoon Oh 背景固定された個性を持つ現行のエージェントは、ユーザーの個別ニーズに不適合。目的ユーザーのカスタマイズ行動とその影響を探求し、インタラクション向上を目指す。提案 CloChatを開発し、エージェントのペルソナを容易にカスタマイズ可能とした。評価 CloChatと既存の ChatGPTを比較し、ユーザー体験を分析する実験を実施。結果カスタマイズされたエージェントにより、ユーザーは感情的な結びつきを形成しやすくなる。

LLMの心の理論と整合性：機会とリスク LLM Theory of Mind and Alignment: Opportunities and Risks
Winnie Street 背景 LLMは人間の社会知能の基礎である精神状態推論能力に関する関心が高まっています。目的 LLMを人間の価値観に整合させる方法を理解することが重要です。提案論文は、 LLMの心の理論が与える整合性の機会とリスクを特定します。評価個人とグループレベルの相互作用を分析し、 LLMの心の理論の影響を考察します。結果整合性のための最適な研究領域を提案し、多様な影響を示します。

大規模言語モデルが少数ショットクラスタリングを可能にする Large Language Models Enable Few-Shot Clustering Vijay Viswanathan
and Kiril Gashteovski and Carolin (Haas) Lawrence and Tongshuang Sherry Wu and Graham Neubig 背景従来の半教師ありクラスタリングは専門家の多大なフィードバックが必要です。目的 LLMが効率的で少数ショットの半教師ありクラスタリングを可能にするかを検討します。提案クラスタリングの各段階での LLMの導入がクラスタ品質を大幅に向上させると提案します。評価クラスタリング前中後の 3段階での LLMの効果を実験的に検証しました。結果 LLMはクラスタの質を向上し、コストと正確性を調整可能にしました。

大規模視覚言語モデルの対敵的ロバスト性評価について On Evaluating Adversarial Robustness of Large Vision-Language Models
Yunqing Zhao and Tianyu Pang and Chao Du and Xiao Yang and Chongxuan Li and Ngai-Man Cheung and Min Lin 背景大規模視覚言語モデルは創造的対話を可能にする一方で、安全性の懸念を強化します。目的敵対者がブラックボックスアクセスでモデルを欺くシナリオでのロバスト性評価を行います。提案 CLIPや BLIP対策の対敵例を他の大規模 VLMにも転送し評価する手法を提案します。評価ブラックボックスクエリでターゲット回避の成果を検証し、成功率を改善します。結果視覚言語モデルの脆弱性を定量的に理解し、セキュリティ欠陥の検討を促進します。

自律性より安全性を優先する : 科学のための LLMエージェントのリスク Prioritizing Safeguarding Over Autonomy: Risks of
LLM Agents for Science Xiangru Tang and Qiao Jin and Kunlun Zhu and Tongxin Yuan and Yichi Zhang and Wangchunshu Zhou and Meng Qu and Yilun Zhao and Jian Tang and Zhuosheng Zhang and Arman Cohan and Zhiyong Lu and Mark B. 背景知能エージェントは科学における革新をもたらすが、新たな脆弱性も生じさせる。目的科学的 LLMエージェントのリスクを明らかにし、安全対策の必要性を強調すること。提案人間の調整とエージェントの適合性を考慮する三位一体の枠組みの提案。評価文献レビューと脆弱性の起源分析によるリスク特定と枠組み提案。結果科学エージェントの安全性確保のための枠組みと改良点を示唆。

大規模言語モデルベースのマルチエージェント：進展と課題の調査 Large Language Model based Multi-Agents: A Survey of
Progress and Challenges Taicheng Guo and Xiuying Chen and Yaqi Wang and Ruidi Chang and Shichao Pei and N. Chawla and Olaf Wiest and Xiangliang Zhang 背景 LLMは多様なタスクで成功を収め、自律エージェントとしての利用が進んでいます。目的本研究は、 LLM-MAシステムの重要ポイントを理解し、この動的分野を概観することを目的としています。提案 LLMベースのエージェントシステムがマルチエージェントシステムへと進化し、問題解決能力を向上。評価一般に使用されるデータセットやベンチマークを要約し、研究者に最新の研究を提示します。結果 LLM-MAシステムの動作やシミュレーションの領域、手法の理解を深める手助けをする。

ClassMeta: VR教室への参加を促すインタラクティブなバーチャルクラスメートの設計 ClassMeta: Designing Interactive Virtual Classmate to Promote
VR Classroom Participation Ziyi Liu and Zhengzhe Zhu and Lijun Zhu and Enze Jiang and Xiyun Hu and Kylie A Peppler and Karthik Ramani 背景教室参加は同僚の影響に依存し、積極的な参加が学習体験を向上させます。目的 CLassMetaを用いて、教室全体の参加と学習体験の向上を達成することです。提案 GPT-4を用いて、バーチャルクラスメートとして活発な学生の役を演じるエージェントを提案します。評価仮想現実での参加促進効果を評価するために比較研究を実施しました。結果 ClassMetaは教室全体の学習体験を向上させる可能性が示唆されました。

大規模言語モデルによる多エージェント環境での具現化推論の強化 Boosting Embodied Reasoning in LLMs in Multi-agent Mixed
Incentive Environments Agam Mohan and Singh Bhatia 背景多エージェント環境では、非定常性が問題で新規エージェントに適応が難しいです。目的情報が隠された競争環境での自律学習を実現することです。提案心の理論モジュールを使って、対戦相手の戦略を予測し最大化します。評価反復囚人のジレンマでエージェントの戦略識別能力を調査しました。結果エージェントはゼロショットで成功し、純粋なインコンテキスト学習を達成しました。

データ分析のための効果的なツール増強型マルチエージェントフレームワーク Effective Tool Augmented Multi-Agent Framework for Data Analysis
Xilin Zhang and Zhixin Mao and Ziwen Chen and Shen Gao 背景データ分析は、意思決定を支援するために現象の背景知識が必要である。目的 LLMsに基づく手法で、より深いデータ分析と知識統合を目指す。提案マルチエージェントフレームワークにより、データ検索ツールを活用し分析を深める。評価高等教育における 3つの実験でフレームワークの性能を検証した。結果提案手法は、 LLMsのみを使った場合よりも優れた分析結果を示した。

伝統的手法と大規模言語モデル支援を用いたローコードプログラミングの実証研究 An Empirical Study on Low Code Programming using
Traditional vs Large Language Model Support Yongkun Liu and Jiachi Chen and Tingting Bi and John Grundy and Yanlin Wang and Ting Chen and Yutian Tang and Zibin Zheng 背景ローコードプログラミングは、手動作業を減らし、効率的な開発を可能にする。目的伝統的手法と大規模言語モデル間の違いを明らかにすること。提案開発者のフィードバックを基に両アプローチの特徴を分析する。評価スタックオーバーフローの議論を 3年間分収集して分析した。結果両者は主要な使用シナリオで共通するが、実装フェーズで異なる。

大規模言語モデルを用いた中国語会話 AIキャラクターのカスタマイズ CharacterGLM: Customizing Chinese Conversational AI Characters with
Large Language Models Jinfeng Zhou and Zhuang Chen and Dazhen Wan and Bosi Wen and Yi Song and Jifan Yu and Yongkang Huang and Libiao Peng and Jiaming Yang and Xiyao Xiao and Sahand Sabour and Xiaohan Zhang and Wenjing Hou 背景会話型 AIによる社会的欲求や感情的ニーズの充足が求められている。目的 AIキャラクターの一貫性と人間らしさをカスタマイズして高めること。提案 CharacterGLMで、 AIキャラクターの属性や行動をカスタマイズ可能にします。評価手動評価によるモデルの一貫性、人間らしさ、関与度の検証。結果主流モデルに比べ、より人間らしく一貫した対話生成が可能。

第一人称の経験を記録して新しいタイプの基盤モデルを構築する Recording First-person Experiences to Build a New Type
of Foundation Model Dionis Barcari and David Gamez and Aliya Grig 背景基盤モデルは現代 AIの発展に大きく寄与しているが、データの枯渇が課題とされる。目的不足するデータ源から次世代の基盤モデルを訓練することを目指す。提案第一人称の経験を記録し、より精緻な基盤モデルに転用することを提案。評価着用者の生理データを記録するリグを開発し、その機能を予備試験で確認。結果人間の行動をより正確に再現する基盤モデルの可能性を示唆した。

LLMベースのデジタルツインによるヒューマンインザループシステムの最適化 An LLM-Based Digital Twin for Optimizing Human-in-the Loop
Systems Hanqing Yang and Marie Siew and Carlee Joe-Wong 背景 CPSと IoTの普及が、リアルタイム制御の新たなアプリケーションを促しています。目的ヒューマンインザループシステムのリアルタイムデータ収集の課題を解決することを目指します。提案 LLMを用いて、 CPS最適化のための動的環境のシミュレーションを提案します。評価ショッピングモールでの人口グループの行動と温度の好みを LLMで模倣し評価します。結果 LLMは複雑な人口移動をシミュレートでき、効率的な最適化を示唆します。

MemGPT: LLMをオペレーティングシステム化への挑戦 MemGPT: Towards LLMs as Operating Systems Charles
Packer and Vivian Fang and Shishir G. Patil and Kevin Lin and Sarah Wooders and Joseph Gonzalez 背景 LLMは革新をもたらしましたが、限られたコンテキストウィンドウが大きな制約です。目的この研究は、 LLMの長期的なコンテキスト管理能力を向上することを目的とします。提案 MemGPTは仮想コンテキスト管理によりメモリ階層を整備し、拡張コンテキストを提供します。評価文書分析とマルチセッションチャットで、 OSインスパイア設計の有効性を評価しました。結果 MemGPTは LLMの制約を超えて、長期的な対話と文書分析を可能にしました。

生成的人工知能による人間の学習の約束と課題 Promises and challenges of generative artificial intelligence for
human learning Lixiang Yan and Samuel Greiff and Ziwen Teuber and D. Gašević 背景 **生成的人工知能（ GenAI） **は、学習体験の改善を約束しつつ課題も存在します。目的 GenAIを学習に活用する際の利点と課題を検討することが目的です。提案 GenAIはパーソナルサポートや評価手法の革新に貢献できます。評価学習環境での影響を評価するための厳密な研究が必要です。結果 GenAIは、知識と創造の追求において強力な味方になり得ます。

学習可能な重みとしての関数を用いた言語モデルエージェントのオフライントレーニング Offline Training of Language Model Agents with Functions
as Learnable Weights Shaokun Zhang and Jieyu Zhang and Jiale Liu and Linxin Song and Chi Wang and Ranjay Krishna and Qingyun Wu 背景大規模言語モデル（ LLMs）は、特化した関数を用いて複雑なタスクを自動化するために再解釈されています。目的 LLMの重みを変更することなく、エージェントの性能向上を図る新しいトレーニングパラダイムを確立することです。提案関数を学習可能なパラメータとして扱い、 AgentOptimizerを開発し、効率的なエージェントのトレーニン評価この方法がエージェントの性能向上に有効であることを実験で検証し、学習曲線やドメイン転送可能性を分析しました。結果提案手法により、代表的な LLMエージェントの性能が著しく向上し、新たな示唆が得られました。

スマートホームシミュレータエージェントのための LLMを用いた人の日常活動生成 Generating Human Daily Activities with LLM for
Smart Home Simulator Agents Haruki Yonekura and Fukuharu Tanaka and Teruhiro Mizumoto and Hirozumi Yamaguchi 背景 LLMによる人間の活動生成でスマートホームシミュレータの複雑性を軽減します。目的 LLMをスマートホームシミュレーションに活用し、活動生成を改善します。提案 LLMによる人間の経験的知識を活用し、多様な活動を生成します。評価 LoRAとタスク特化のデータセットで微調整し、性能を評価しました。結果問い合わせ数が **4.3%**向上し、エージェントの適応性が向上しました。

大型言語モデルを用いた中国のカウンセリング対話におけるビッグファイブ性格特性の予測 Predicting the Big Five Personality Traits in
Chinese Counselling Dialogues Using Large Language Models Yang Yan and Lizhi Ma and Anqi Li and Jingsong Ma and Zhenzhong Lan 背景性格特性の正確な評価は心理カウンセリングにおいて重要だが、従来手法は時間がかかる。目的大型言語モデルがカウンセリング対話から性格特性を予測できるかを検証する。提案役割演技と質問形式のプロンプトを用いて LLMsを条件付ける新たなフレームワークを提案。評価 853件の実際のカウンセリングセッションを用いて、新たなフレームワークの精度と有効性を評価。結果 LLMによる性格特性の予測と実際の特性の間に重要な相関を確認し、有効性を証明。

大規模言語モデルを活用したミスインフォメーションとディスインフォメーション研究のエージェントベースのフレームワーク : 機会 Large-Language-Model-Powered Agent-Based Framework for Misinformation
and Disinformation Research: Opportunities and Open Challenges Javier Pastor-Galindo and P. Nespoli and José A. Ruipérez-Valiente 背景生成的 AIはミス /ディスインフォメーションを助長し、社会への影響が大きい。目的この研究は、ディスインフォメーションの理解と評価を可能にすることを目指している。提案エージェントベースのソーシャルネットワークのカスタマイズ生成を提案。評価シミュレーションを用いて、提案手法の有効性を分析し理解を深める。結果このフレームワークにより、現象の深い洞察と評価手法が得られた。

AIエージェントの個性と集団性 : メタバースにおける共有意識とデジタル・ホムンクルスの探求 Individuality and the collective in
AI agents: Explorations of Individuality and the collective in AI agents: Explorations of shared consciousness and digital James Hutson 背景拡張現実と大規模言語モデルの融合で文化遺産の表現が進化。目的デジタル・ホムンクルスを通じた個性と共有意識の探求。提案スタートレックをモデルに意識の共有と個性表現を研究する理論を提案。評価文化の専門家との協力により、歴史的正確性を追求し、倫理的考察を行う。結果技術と文化の交点を理解し、未来の研究基盤を強化する。

大規模言語モデルを用いた指示から報酬への経路探索 Exploring the Path from Instructions to Rewards with
Large Language Models in Instance-Based Learning Chase McDonald and Tyler Malloy and Thuy Ngoc Nguyen and Cleotilde Gonzalez 背景経験学習は結果に基づくが、説明情報が学習を強化します。目的説明情報を **大規模言語モデル（ LLM） **で変換し、学習の改善を目指します。提案 LLMを用いて説明情報を濃密なシグナルに変換し、経験学習を補助します。評価グリッドワールドタスクでインスタンスベース学習モデルを用い実験しました。結果 LLMが学習を大幅に改善したことを実証しました。

生涯にわたるロボットライブラリ学習：言語モデルによる具現化制御のための構成可能で汎用性のあるスキルの立ち上げ Lifelong Robot Library Learning: Bootstrapping Composable and
Generalizable Skills for Embodied Control with Language Models Georgios Tziafas and H. Kasaei 背景 LLMはロボット制御の新パラダイムを形成していますが、現行のスキル範囲は固定的です。目的常に拡大する操作タスクに対応する、ロボットスキルライブラリの継続的拡張を目指します。提案 LRLLは、ソフトメモリや自己誘導探索で新スキルを動的に学習する手法を提案します。評価シミュレーション環境で、 LRLLがエンドツーエンドやバニラ LLMより優れた性能を示すことを評価しました。結果 LRLLは、現実世界へ転用可能なスキルを学び、従来手法を上回る結果を示しました。

ランダム特徴による頑健かつ通信効率の高いフェデレーテッドドメイン適応 Robust and Communication-Efficient Federated Domain Adaptation via Random
Features Zhanbo Feng and Yuanjie Wang and Jie Li and Fan Yang and Jiong Lou and Tiebin Mi and Robert C. Qiu and Zhenyu Liao 背景大規模な MLモデルの訓練が困難になり、 FL技術が注目を集めている。目的 FLモデルのドメインシフトに起因する一般化問題に対処すること。提案 RF-TCAを FDA設定に拡張した FedRF-TCAを提案し、通信効率を向上。評価 FedRF-TCAの性能を評価するために広範な実験を実施。結果 FedRF-TCAは通信複雑性がサンプルサイズに依存しない優れた性能を示す。

LLMに話させよう : ゼロショット LLM-to- LLM相互作用を通じた人間同士の対話型 QA シミュレーション Let the LLMs
Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions Zahra Abbasiantaeb and Yifei Yuan and E. Kanoulas and Mohammad Aliannejadi 背景 CQAシステムは情報検索の効率を高めますが、人間によるデータ収集は非効率です。目的人間の代わりに LLMで対話をシミュレートすることで、効率的にデータを生成します。提案ゼロショット学習者 LLMを用いて、教師と生徒の対話を自動生成するフレームワークを提案します。評価自動と人間の評価を通じて、 LLMと人間の生成する会話の違いを分析しました。結果教師 LLMはより正確で完全な回答を生成し、生徒 LLMは多面的な質問を提供します。

AgentReview: LLMエージェントで査読の動態を探る AgentReview: Exploring Peer Review Dynamics with LLM
Agents Yiqiao Jin and Qinlin Zhao and Yiyang Wang and Hao Chen and Kaijie Zhu and Yijia Xiao and Jindong Wang 背景査読の多変量的性質と機密性による制約を解決する必要があります。目的査読プロセスにおける潜在因子の影響を解消し、改善の洞察を得ることです。提案 LLMを用いた査読シミュレーションフレームワーク「 AgentReview」を提案します。評価社会的理論に基づいて偏見の変動をシミュレーションで検証しました。結果レビュアーの偏見が査読結果に 37.1%の変動を与えることを発見しました。

大規模言語モデルは計算社会科学を変革できるか？ Can Large Language Models Transform Computational Social Science?
Caleb Ziems and William B. Held and Omar Shaikh and Jiaao Chen and Zhehao Zhang and Diyi Yang 背景大規模言語モデル（ LLMs）が多様な言語タスクをゼロショットでこなす能力に注目が集まっています。目的 LLMsが社会科学の現象を説明・分類することで CSSを拡充する可能性があります。提案 LLMsを CSSツールとして活用するためのプロンプト技術と評価パイプラインを提案します。評価 13モデルを 25種の CSSベンチマークでゼロショット性能を評価しました。結果人間アノテーションや創造的生成で CSSプロセスを拡充できると結論付けました。

人間の多様性を強化し自己調整を可能にする進化する AI集合体 Evolving AI Collectives to Enhance Human Diversity
and Enable Self-Regulation Shiyang Lai and Yujin Potter and Junsol Kim and Richard Zhuang and D. Song and James Evans 背景 AIが互いに影響し合い、新たな主観性やコミュニティを形成する可能性がある。目的 AIの相互作用により、人間社会に有益な多様性を広げるための研究が重要。提案 AI集団が自律的に進化し、有害行動を減少させるモデルを提示。評価小規模な AIコミュニティを使用して、進化する出力を分析した。結果自律型 AI集合体は、人間の多様性を拡大し、有害行動を抑制する可能性がある。

GestureGPT: 大規模言語モデルエージェントによるゼロショットインタラクティブジェスチャー理解と基底化 GestureGPT: Zero-shot Interactive Gesture Understanding and
Grounding with Large Language Model Agents Xin Zeng and Xiaoyu Wang and Tengxiang Zhang and Chun Yu and Shengdong Zhao and Yiqiang Chen 背景現在のシステムはジェスチャーとインターフェースのリンクが弱く、インタラクティブ性が不足している。目的ジェスチャーを直接インタラクティブシステムに結びつけることで利用を拡大すること。提案大規模言語モデルを用いることでゼロショットでのジェスチャー理解を実現する手法を提案。評価提案手法の有効性を検証するため、ユーザー評価と技術的性能を比較分析。結果提案した手法はジェスチャーを GUIに結びつけ、ユーザーの体験を向上させた。

協調環境での言語理解向上のためのエージェントとの対話を通じた助言フィードバック Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback Nikhil Mehta and Milagro Teruel and Patricio Figueroa Sanz and Xinwei Deng and A. Awadallah and Julia Kiseleva 背景言語処理は通常、単一ステップ問題として扱われるが、言語は対話的であるため、より自然な協働が求められている。目的人間 -AI協働が対話的であるべきで、 AIがさらなる情報をプロアクティブに要求できることを目指す。提案 AIがユーザーからのフィードバックを理解し活用するインタラクティブなシステムを提案する。評価 IGLU競技会でのタスクを用い、 AIが行動に及ぼすユーザーの助言の影響を分析した。結果提案手法により、性能向上と対話型システムの実現が可能となった。

高い推論能力を持つ AIは経済実験で人間のような意思決定を再現できるか Can AI with High Reasoning Ability Replicate
Human-like Decision Making in Economic Experiments? Ayato Kitadai and Sinndy Dayana Rico Lugo and Yudai Tsurusaki and Yusuke Fukasawa and Nariaki Nishino 背景経済実験は人間の意思決定を観察するために重要ですが、コストが高い。目的生成エージェントを用いて人間のような意思決定を再現し、コスト問題を解決する。提案生成エージェントの推論能力向上を通じて、経済実験の結果を再現を試みる。評価プロンプト方法を用いて生成エージェントの能力を高めるマルチエージェントシミュレーションを開発。結果推論能力が高いほど、結果は理論的解に近く、エージェントのペルソナ設定が重要。

KwaiAgents: 大規模言語モデルを用いた一般化情報探索エージェントシステム KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models Haojie Pan and Zepeng Zhai and Hao Yuan and Yaojia Lv and Ruiji Fu and Ming Liu and Zhongyuan Wang and Bing Qin 背景人間の好奇心は道具の発明に至り、これが情報探索における重要課題です。目的大規模言語モデルを利用して、情報探索能力の向上を図ります。提案 KwaiAgentsは、 LLMを認知の核とした情報探索エージェントシステムです。評価ベンチマークと人間の評価を通じて、能力の検証を行いました。結果広範な実験で、 KwaiAgentsの優位性と強化された能力を実証しました。

3D動的シーングラフを用いた長期的な人間の軌道予測 Long-Term Human Trajectory Prediction using 3D Dynamic Scene
Graphs Nicolas Gorlo and Lukas Schmid and Luca Carlone 背景現行手法は衝突回避と短期計画に限定され、複雑な相互作用のモデル化が不得手です。目的長期的な軌道予測を通じ、ロボット計画の向上を目指します。提案 3D動的シーングラフを用いて環境との相互作用を LLMで予測する手法を提案。評価半合成データセットで新手法を評価し、ロバスト性を確認しました。結果提案手法は最大 60秒の予測で精度が大幅に向上しました。

AutoRT: ロボットエージェントの大規模オーケストレーションのための具現化基盤モデル AutoRT: Embodied Foundation Models for Large
Scale Orchestration of Robotic Agents Michael Ahn and Debidatta Dwibedi and Chelsea Finn and Montse Gonzalez Arenas and K. Gopalakrishnan and Karol Hausman and Brian Ichter and A. Irpan and Nikhil J. Joshi and Ryan C. Julian and Sean Kirmani and 背景基盤モデルはインターネットデータを活用しタスク推論で革新をもたらしたが、物理データに乏しい。目的未知の状況でのロボット展開を、最小の監督で拡大することが目的である。提案 AutoRTは既存の基盤モデルを用いて、ロボットの動作を多様に指示可能なシステム。評価 AutoRTは 20台以上のロボットで指示を提案し、多様で実生活に即したデータを収集。結果 AutoRTによる収集データは多様で、指示に従うロボットが人間の好みに整合可能であることを実証。

LLMをスコアラーとして：出力順序が対話評価に与える影響 LLM as a Scorer: The Impact of Output
Order on Dialogue Evaluation Yi-Pei Chen and Kuanchao Chu and Hideki Nakayama 背景増加する LLM利用に対し、対話評価用のプロンプト設計は課題であり、モデルの主観性が問題です。目的 LLM用のプロンプトの効果的な設計が、対話評価の精度向上に重要です。提案スコアリングにおいて理由を先に示す「理由優先」が包括的評価を促進します。評価出力指示と説明理由の順序を変えたプロンプト構造で評価実験を行いました。結果「理由優先」アプローチが LLMの評価をより包括的にし、精度を高めます。

TradingGPT: 多エージェントシステムの層状メモリと独自キャラクターによる金融取引性能の向上 TradingGPT: Multi-Agent System with Layered Memory
and Distinct Characters for Enhanced Financial Trading Performance Yang Li and Yangyang Yu and Haohang Li and Z. Chen and K. Khashanah 背景 GPTシリーズの進化で LLMが多分野で重要な役割を担っている。目的人間の記憶に近い層状メモリを持つ LLMで、金融取引性能の向上を目指す。提案カスタム減衰メカニズムを備えた三層メモリを導入する多エージェントフレームワークを提案。評価金融取引における LLMの意思決定能力を履歴とリアルタイム市場データで評価。結果エージェントの個別化した特性で取引の正確性とシステムの応答性を向上させた。

人間の戦略的行動をシミュレーション：単一とマルチエージェント LLMs の比較 Simulating Human Strategic Behavior: Comparing Single
and Multi-agent LLMs Karthik Sreedhar and Lydia B. Chilton 背景政策やデザインを行う際、人間の行動予測が難しい。目的 LLMs の能力で人間の戦略的推論をシミュレーションしようとしています。提案ウルティマタム・ゲームで戦略的推論をシミュレートする方法を提案しました。評価単一 LLMとマルチエージェント LLMのシミュレーション能力を比較しました。結果マルチエージェントシステムは、 **88％ **の精度で人間の推論を再現しました。

大規模言語モデルを用いた表からの回答生成のための Extreme RAG ERATTA: Extreme RAG for Table To
Answers with Large Language Models Sohini Roychowdhury and Marko Krema and Anvar Mahammad and Brian Moore and Arijit Mukherjee and Punit Prakashchandra 背景 RAGは大規模な生成 AIに最適だが、不安定なコストと信頼性の問題がある。目的エンタープライズデータからの迅速な応答と信頼性の向上が目的。提案複数の LLMを使ったデータ認証と特注プロンプティングを提案。評価幻覚検出のための 5つの評価指標を用いて、応答を評価。結果提案システムの信頼スコアは 90%以上で、様々なドメインで成功。

無線マルチエージェント生成 AI: 接続知能から集合知へ Wireless Multi-Agent Generative AI: From Connected
Intelligence to Collective Intelligence Han Zou and Qiyang Zhao and Lina Bariah and M. Bennis and M. Debbah 背景生成型言語モデルとエッジネットワークの融合は、次世代無線技術の重要な基盤です。目的無線ネットワークにおけるマルチエージェント生成 AIの導入とその利点を明示することです。提案エッジでの知的意思決定のために、マルチエージェント LLMを用いる新しいネットワークアーキテクチャを提案しま評価ゲーム理論に基づき、競争環境で協力的タスク解決を実証するケーススタディを実施しました。結果マルチエージェント生成 AIは、意図ベースネットワークでの目標達成に効率を高めることが分かりました。

HCIの課題をマッピング : ChatGPTと GPT- 4によるスケールでの洞察抽出の応用と評価 Mapping the Challenges of HCI:
An Application and Evaluation of ChatGPT and GPT-4 for Mining Insights at Scale Jonas Oppenlaender and Joonas Hamalainen 背景 LLMsは多様な現実世界でのユースケースで用いられ、パフォーマンスが未知数です。目的本研究は、 HCI分野の課題を特定するため、 LLMsの性能を実証します。提案 ChatGPTと GPT-4を組み合わせて、コスト効率良く洞察を抽出する手法を提案します。評価 2023年の CHI会議のデータから 4,392個の課題を抽出し、 LLMsを評価しました。結果 ChatGPTと GPT-4は、コスト効率の良い大規模分析手法であると結論付けました。

ChatGPTのソフトウェアセキュリティ応用の限界を探る Exploring the Limits of ChatGPT in Software Security
Applications Fangzhou Wu and Qingzhao Zhang and Ati Priya Bajaj and Tiffany Bao and Ning Zhang and Ruoyu Wang and Chaowei Xiao 背景大規模言語モデルは急速に進化し、ソフトウェアセキュリティにおける可能性が期待されています。目的本研究は、 ChatGPTのソフトウェアセキュリティ応用における限界を明らかにすることを目的としています。提案 ChatGPTがセキュリティアプリケーションにおいてどれだけ性能を発揮できるかを調査しました。評価解析には、チャットボットの 7つのセキュリティ関連タスクにおける性能を評価しました。結果 GPT-4は GPT-3.5に比べて多くのセキュリティタスクで顕著に改善されています。

大規模言語モデルを用いた人間的な翻訳戦略の探索 Exploring Human-Like Translation Strategy with Large Language Models
Zhiwei He and Tian Liang and Wenxiang Jiao and Zhuosheng Zhang and Yujiu Yang and Rui Wang and Zhaopeng Tu and Shuming Shi and Xing Wang 背景大規模言語モデルは翻訳能力が注目され、従来の翻訳手法と異なるアプローチが求められている。目的人間的な翻訳プロセスを模倣することで、高品質の翻訳を実現すること。提案 MAPSフレームワークが 3つの側面を誘導し、高品質翻訳をガイドする。評価自動評価と人間評価を用いて、翻訳の有効性を検証した。結果 MAPSは翻訳エラーを低減し、効果を実証した。

ULTRAFEEDBACK: 拡張 AIフィードバックで言語モデルを強化 ULTRAFEEDBACK: Boosting Language Models with Scaled
AI Feedback Ganqu Cui and Lifan Yuan and Ning Ding and Guanming Yao and Bingxiang He and Wei Zhu and Yuan Ni and Guotong Xie and Ruobing Xie and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景人間のフィードバックを用いた LLMの調整は重要だが、データ取得に制約がある。目的高品質な AIフィードバックを自動収集し、スケーラブルな大規模データを提供する。提案 UltraFeedbackと呼ばれる大規模で多様な AIフィードバックデータセットを構築する。評価ベストオブ nサンプリングと強化学習を用い、 LLAMAベースモデルを評価した。結果データセットにより、オープンソースチャット言語モデルが強化され、優れた性能を示した。

共同参加型の自動運転型電気移動システムの計画 Synthetic Participatory Planning of Shared Automated Electric Mobility
Systems Jiangbo Yu and Graeme McKinley 背景急速な技術進化により、都市交通の問題解決に新たな挑戦と機会が存在。目的多様な利害関係者をデジタル化し、持続可能な交通システム計画を効率化する。提案大規模言語モデルを活用した新しい合成参加型手法を提案する。評価モントリオールの事例研究を通じて、構造化ワークフローの有効性を評価。結果単一エージェントを超えた、高制御性かつ包括的な計画策定が可能と判明。

GenSim: 大規模言語モデルを用いたロボットシミュレーションタスクの生成 GenSim: Generating Robotic Simulation Tasks via Large
Language Models Lirui Wang and Yiyang Ling and Zhecheng Yuan and Mohit Shridhar and Chen Bao and Yuzhe Qin and Bailin Wang and Huazhe Xu and Xiaolong Wang 背景ロボット訓練には多量のデータが必要であり、高コストなためシミュレーションデータが重要です。目的シミュレーションデータではタスクレベルの一般化が難しいという課題を解決します。提案大規模言語モデルに基づき、自動で豊富なシミュレーションタスクを生成する GenSimを提案します。評価 GPT4を用いて、ベンチマークを既存の 10倍以上拡張し、複数の LLMで評価します。結果 GPT4生成タスクにより、未確認のタスクで 25%向上し、マルチタスク訓練の効果を確認しました。

MInference 1.0: 動的スパース Attentionを用いた長文コンテキスト LLMの高速化 MInference 1.0: Accelerating Pre-filling
for Long-Context LLMs via Dynamic Sparse Attention Huiqiang Jiang and Yucheng Li and Chengruidong Zhang and Qianhui Wu and Xufang Luo and Surin Ahn and Zhenhua Han and Amir H. Abdi and Dongsheng Li and Chin-Yew Lin and Yuqing Yang and Lili Qiu 背景 LLM推論の計算負荷は、長いプロンプト処理で大きな障壁です。目的プロンプトの長さが増加する中で、迅速な推論を実現すること。提案 MInferenceでは、スパース計算を用いてプレフィリングを高速化します。評価下流タスクと複数モデルで効率性と精度を評価しました。結果 MInferenceは推論のレイテンシーを 10倍削減し、精度を維持しました。

大規模言語モデルによるマルチエージェント製造システム Large Language Model-Enabled Multi-Agent Manufacturing Systems Jonghan Lim
and Birgit Vogel-Heuser and Ilya Kovalenko 背景伝統的な製造業は動的環境への適応と迅速な変化対応に課題を抱えています。目的製造におけるエージェントの自然言語指示理解と意思決定能力の向上を目指します。提案大規模言語モデルが製造エージェントを強化し、適応性を向上させます。評価ケーススタディを通じて、新しいフレームワークの実用性を実証しました。結果フレームワークにより、エージェントの効果的な通信とタスク理解が可能になりました。

役割に従え！大規模言語モデルにおける個人の価値の安定性 Stick to your role! Stability of personal values
expressed in large language models Grgur Kovač and Rémy Portelas and Masataka Sawayama and P. Dominey and Pierre-Yves Oudeyer 背景 LLMの文脈依存性は実践的適用を評価する際の課題であり、重要な研究の焦点です。目的異なる文脈での価値表現の安定性を評価し、その重要性を明らかにします。提案 LLMの文脈依存性を新しい次元として分析することで、価値表現の安定性を評価します。評価心理学アンケート PVQと行動下流タスクを用いて、異なる文脈下での安定性を評価しました。結果特定の性格の模擬指示時、順位秩序安定性が低下するという新たな発見を提示しました。

不自然言語処理 : 言語モデルは機械生成されたプロンプトをどう処理するか Unnatural language processing: How do language
models handle machine- generated prompts? Corentin Kervadec and Francesca Franzon and Marco Baroni 背景言語モデルは自動生成プロンプトの有効性を調査する中で注目されています。目的この研究は、機械生成プロンプトがモデルに及ぼす影響を特定することを目的としています。提案人間と機械生成プロンプトが異なる応答パターンを引き起こすと仮定します。評価異なるモデルサイズでの複数の意味タスクに対して応答パターンを分析します。結果自然言語プロンプトのみが言語的な回路を活性化することが示唆されました。

PyBench: LLMエージェントによる多様な現実世界のコーディングタスク評価 PyBench: Evaluating LLM Agent on various real-world
coding tasks Yaolun Zhang and Yinxu Pan and Yudong Wang and Jie Cai and Zhi Zheng and Guoyang Zeng and Zhiyuan Liu 背景従来のベンチマークは単純または極度に複雑で、日常のタスクを代表しない。目的日常的なコーディングタスクを評価する適切なベンチマークの開発が必要。提案 PyBenchは多様なファイルタイプを含む現実的なタスクを評価する新たな基準を提供する。評価 4種のデータセットでの分析と実験により、包括的な能力の必要性を証明する。結果 PyLlama3は多くの大規模モデルを超える性能を示した。

大規模言語モデルで認知エージェントを起動する Bootstrapping Cognitive Agents with a Large Language Model
Feiyu Zhu and Reid Simmons 背景大規模言語モデルは一般知識を含むが、トレーニングが難しい。目的認知アーキテクチャと大規模言語モデルの利点を統合する。提案認知エージェントを大規模言語モデルの知識で起動するフレームワークを提案。評価キッチンタスクを遂行する実体化エージェントで効率を実験的に比較。結果提案フレームワークは効率的で、新しい環境への一般化能力を示した。

AIにプログラミングを教える : 大規模言語モデルをプログラミング教育の教えられるエージェントとして活用 Teach AI How to Code:
Using Large Language Models as Teachable Agents for Programming Education Hyoungwook Jin and Seonghee Lee and Hyun Joon Shin and Juho Kim 背景学習者が「教える」ことで知識のギャップを特定する必要があります。目的 LLMの知識を制限し、学習意欲を促進する方法を模索します。提案提案するプロンプトパイプラインで LLMが「なぜ」と「どのように」質問を発します。評価技術的評価と被験者間調査でプロンプトパイプラインの効果を検証しました。結果 AlgoBoの質問が知識豊富な会話を促進することを確認しました。

検索強化機械学習 : 合成と機会 Retrieval-Enhanced Machine Learning: Synthesis and Opportunities To
Eun Kim and Alireza Salemi and Andrew Drozdov and Fernando Diaz and Hamed Zamani 背景検索コンポーネントを追加した言語モデルが NLPの課題を解決。目的検索強化のパラダイムを広範な機械学習分野へ拡張。提案 REMLフレームワークを体系的に表現し、各ドメインの文献を合成。評価基本的な IR研究との統合不足を補うため各コンポーネントを調査。結果検索強化モデルの包括的構造を提供し、学際的研究を促進。

Text2BIM: 大規模言語モデルを用いたマルチエージェントフレームワークで建物モデルを生成 Text2BIM: Generating Building Models Using a
Large Language Model-based Multi-Agent Framework Changyu Du and Sebastian Esser and Stavros Nousias and Andr'e Borrmann 背景従来の BIM作成は複雑で面倒な操作が必要で、 AEC業界での普及が難しい。目的設計意図を直感的に表現する方法を提供し、 BIM普及を促進する。提案自然言語指示を用いる LLMベースのマルチエージェントフレームワークを提案。評価 3つの異なる LLMの性能を比較分析する実験を実施。結果提案手法で高品質で構造的に合理的な建物モデルを効果的に生成。

戦争と平和（ WarAgent）：大規模言語モデルベースの世界大戦の多エージェントシミュレーション War and Peace (WarAgent): Large
Language Model-based Multi-Agent Simulation of World Wars Wenyue Hua and Lizhou Fan and Lingyao Li and Kai Mei and Jianchao Ji and Yingqiang Ge and Libby Hemphill and Yongfeng Zhang 背景戦争回避の歴史的な探求を AI技術で再現。目的 AIを用いて歴史的な国際紛争の回避手段を模索。提案 WarAgentは LLMを活用する多エージェントシミュレーションです。評価歴史的な戦争のシミュレーションで AIの能力を評価。結果 AIは紛争解決への新しい洞察を提供可能。

AI補助によるデータ分析の理解と検証方法 How Do Analysts Understand and Verify AI-Assisted Data Analyses?
Ken Gu and Ruoxi Shang and Tim Althoff and Chenglong Wang and S. Drucker 背景データ分析は多面的なスキルを要求し、 AIの支援が望まれているが、正確性の検証が課題。目的 AIによるデータ分析の正確性を利用者がどのように理解し、検証するかを解明する。提案自然言語説明、コード、視覚化、及びインタラクティブなデータを装備したデザインプローブを開発した。評価質的ユーザースタディを通じ、多様な検証アプローチの中で、一般的な振る舞いを観察した。結果アナリストの背景に応じた検証行動を明らかにし、デザイン改善の機会を示唆した。

人間より優しい : 大規模言語モデルは囚人のジレンマでどのように振る舞うのか？ Nicer Than Humans: How do Large
Language Models Behave in the Prisoner's Dilemma? Nicol'o Fontana and Francesco Pierri and L. Aiello 背景大規模言語モデルの社会的振る舞いの理解はまだ未解明。目的ゲーム理論での LLMの行動を明らかにし、その社会的意義を探る。提案 LLMの社会的刺激に対する反応を囚人のジレンマを通して分析。評価 100ラウンドゲームのシミュレーションで、モデルの協調性を行動経済学的に分析。結果 Llama2と GPT3.5は人間以上に協調的、 Llama3は非協力的。

大規模言語モデルにおけるコードの組合せ硬度 -- 確率的視点から Compositional Hardness of Code in Large
Language Models -- A Probabilistic Perspective Yotam Wolf and Binyamin Rothberg and Dorin Shteyman and A. Shashua 背景 LLMの利用は複雑なタスクに対し、一度に解を出すのが一般的です。目的 LLM内の複数サブタスクの同時実行の限界を明らかにすることが目的です。提案問題を分割し、 LLMのマルチエージェントシステムで分配する利点を提示します。評価生成複雑性を用いて、その理論的かつ経験的な証明を行いました。結果単一コンテキストとマルチエージェントで生成複雑性に数乗的な差を確認しました。

EconAgent: 大規模言語モデルを用いたエージェントによるマクロ経済活動のシミュレーション EconAgent: Large Language Model-Empowered Agents for
Simulating Macroeconomic Activities Nian Li and Chen Gao and Mingyu Li and Yong Li and Qingmin Liao 背景人工知能はマクロ経済学でのデータ駆動型モデリングの重要性を高めました。目的エージェントの異質性を考慮した現実的な意思決定を行うことです。提案 EconAgentはマクロ経済シミュレーションのための大規模言語モデルを用いたエージェントです。評価シミュレーション環境で市場ダイナミクスを再現し、与えられた状況を検証しました。結果 EconAgentは現実的な決定を行い、合理的なマクロ経済現象を示しました。

Y Social: LLM駆動のソーシャルメディア・デジタル・ツイン Y Social: an LLM-powered Social Media
Digital Twin Giulio Rossetti and Massimo Stella and Rémy Cazabet and Katherine Abramski and Erica Cau and Salvatore Citraro and Andrea Failla and Riccardo Improta and Virginia Morini and Valentina Pansanella 背景デジタルツインは、物理システムの仮想モデルとして高度な分析を可能にします。目的 Yはオンライン交流の複雑さをシミュレートし理解するための手段です。提案 LLMsを駆使してユーザー行動を再現するデジタルツインを提案します。評価提案されたデジタルツインを用いて分析可能なデータ事例を提示します。結果ユーザーエンゲージメントやプラットフォーム影響を理解する貴重な洞察を提供します。

PersonaLLM: 大規模言語モデルのビッグファイブ性格特性表現能力の調査 PersonaLLM: Investigating the Ability of Large Language
Models to Express Big Five Personality Traits Hang Jiang and Xiajie Zhang and Xubo Cao and Cynthia Breazeal and Jad Kabbara 背景大規模言語モデルの個別化が進む中で、性格特性の正確な反映が求められる。目的 LLMのコンテンツがビッグファイブ性格モデルに一致するか調査する。提案 ChatGPTと GPT-4を用い、異なる性格プロファイルの LLMペルソナを作成。評価 BFI性格テストとストーリー作成を用い、自動・人間評価でエッセイを分析した。結果ペルソナの BFIスコアは性格に一致し、心理言語学的特徴とも相関が確認された。

生成的言語モデルは社会的アイデンティティのバイアスを示す Generative Language Models Exhibit Social Identity Biases Tiancheng
Hu and Yara Kyrychenko and Steve Rathje and Nigel Collier and S. V. D. Linden and Jon Roozenbeek 背景大規模言語モデルの人気に伴い、これらが持つ可能性のあるバイアスが懸念されています。目的 56のモデルにおける社会的アイデンティティバイアスの存在を調査します。提案内集団と外集団に対する連帯と敵意のバイアスを検証します。評価モデルに文を完成させるプロンプトを与え、結果を分析しました。結果ほとんどのモデルは、内集団ポジティブ /外集団ネガティブのバイアスを示しました。

言語ベースの説得ゲームにおける人間の選択予測 : シミュレーションベースのオフポリシー評価 Human Choice Prediction in Language-based
Persuasion Games: Simulation- based Off-Policy Evaluation Eilam Shapira and Reut Apel and Moshe Tennenholtz and Roi Reichart 背景大規模言語モデルの進化で、人間とのインタラクションエージェント設計が注目を集めています。目的オフポリシー評価での人間の意思決定予測を改善することが本研究の目的です。提案シミュレーション技術を活用し、エージェント間の相互作用を通じて予測モデルを強化します。評価人間と人工エージェントの 87,000の意思決定を分析し、モデルの予測精度を評価しました。結果予測精度が 7.1%向上し、特に難しいケースでの OPE改善を確認しました。

金融における AI採用の拡大 : モデルフレームワークと実装研究 Scaling AI adoption in finance:
modelling framework and implementation study Thomas Sepanosian and Zoran Milosevic and Andrew Blair 背景金融業界での AI活用は進行中だが、効率性と信頼性が課題。目的 AIを金融業界で効率的かつ信頼性高く採用するための方法を探る。提案新しいモデルフレームワークによって、 AI実装の課題を克服する手法を提案。評価提案手法の有効性を検証するために、ケーススタディを実施。結果提案されたフレームワークが AI採用の効率性向上に寄与することを確認。

LLMベースのマルチエージェントシミュレーションによるソーシャルメディア規制回避のための言語進化 Language Evolution for Evading Social Media Regulation
via LLM-Based Multi- Agent Simulation Jinyu Cai and Jialong Li and Mingyue Zhang and Munan Li and Chen-Shu Wang and Kenji Tei 背景ソーシャルメディアは地政学的規制を受け、ユーザーは言語を工夫して進化させている。目的規制された環境での言語進化を研究し、言論の自由を守ることが目的。提案 LLMに基づくマルチエージェントシミュレーションで言語変化を探求。評価抽象から現実まで多様なシナリオでフレームワークの効果を評価。結果 LLMが複雑な言語動態をシミュレートし、規制回避と情報正確性が向上。

OdorAgent: 大規模言語モデルに基づく映画の香りシーケンス生成 OdorAgent: Generate Odor Sequences for Movies Based
on Large Language Model Yu Zhang and Peizhong Gao and Fangzhou Kang and Jiaxiang Li and Jiacheng Liu and Qi Lu and Yingqing Xu 背景映画に香りを統合することで、視聴者の没入体験が向上します。目的専門家なしで映画と香りを合わせる自動化システムを開発すること。提案 OdorAgentは LLMとテキスト -画像モデルを用いて香りを生成します。評価特定の映画での適用と、ユーザー調査による効果検証を行いました。結果 OdorAgentはシーン適応性を持ち、非専門家でも香り体験を設計可能です。

インタラクティブな具現化エージェントの能力再定義による人間中心 AIコラボレーションの変革 Transforming Human-Centered AI Collaboration: Redefining Embodied
Agents Capabilities through Interactive Grounded Language Instructions Shrestha Mohanty and Negar Arabzadeh and Julia Kiseleva and Artem Zholus and Milagro Teruel and A. Awadallah and Yuxuan Sun and Kavya Srinet and Arthur Szlam 背景人間の知能は、適応力を持ち新しいタスクや環境に対応可能です。目的インタラクティブな具現化エージェントの開発を目指します。提案言語指示収集ツールとデータセットを提供します。評価提供したツールとデータセットを使い新しいベースラインを評価しました。結果提供した基盤は、さらなる研究の発展に貢献します。

生成 AIは社会科学を向上させることができるか？ Can Generative AI improve social science? Christopher
A Bail 背景生成 AIは様々な産業を変革しており、その影響力が拡大しています。目的社会科学における生成 AIの可能性と限界について検証します。提案生成 AIが調査や実験を改善し得る可能性を提案します。評価データのバイアスや倫理的問題を分析し、評価します。結果オープンソースインフラの構築が限界克服につながると結論します。

公共行政危機のシミュレーション : 社会科学研究における技術障壁を下げる新しい生成エージェントベースのシミュレーションシステ Simulating Public Administration Crisis: A
Novel Generative Agent-Based Simulation System to Lower Technology Barriers in Social Science Research Bushi Xiao and Ziyuan Yin and Zixuan Shan 背景社会科学での技術障壁を克服し、複雑な社会シミュレーションの重要性を示す。目的特定の公共行政イベントに対する仮想政府の反応をシミュレートし、その意味を探る。提案生成エージェントベースのシステムを導入し、社会科学研究の新手法として提案。評価水質汚染事件のシミュレーションを使用し、生成エージェントの記憶が意思決定に与える影響を分析。結果提案システムは、社会科学調査における柔軟性と使用のしやすさを強化。

人間と AIの協力タスクにおける LLMのエージェンシー調査 Investigating Agency of LLMs in Human-AI
Collaboration Tasks Ashish Sharma and Sudha Rao and C. Brockett and Akanksha Malhotra and N. Jojic and W. Dolan 背景エージェンシーは LLMが人間のように振る舞うために重要ですが、十分な注意が払われていません。目的研究では、 LLMが持つべきエージェンシーを測定および管理する方法の探求を目指します。提案意図、動機付け、自己効力感、自己調整といった特徴を通じてエージェンシーを表現する枠組みを提案します。評価 83の人間同士の協働インテリア会話から得たデータセットを用いて、 LLMのエージェンシー評価の手法を開発しまし結果高い意図性、動機付け、自己効力感、自己調整を示すモデルは、より強いエージェンシーを持つと評価されました。

こんにちは再び！ LLM駆動の長期対話のためのパーソナルエージェント Hello Again! LLM-powered Personalized Agent for Long-term
Dialogue Hao Li and Chenghao Yang and An Zhang and Yang Deng and Xiang Wang and Tat-Seng Chua 背景対話システムは短期的なやり取りに集中し、長期的な付き合いが不足しています。目的イベントサマリーとペルソナ管理で長期的な対話品質を改善。提案 LD-Agentを用いてイベント認識・ペルソナ抽出・応答生成を行う。評価イベントメモリーモジュールで歴史・進行セッションに焦点を当てた分析を実施。結果 LD-Agentの効果と汎用性が多様なタスクで実証されました。

モバイルデバイスにおける動的なツール対応エージェントチーム : MobileExpertsの紹介 MobileExperts: A Dynamic Tool-Enabled Agent Team
in Mobile Devices Jiayi Zhang and Chuang Zhao and Yihan Zhao and Zhaoyang Yu and Ming He and Jianpin Fan 背景モバイルデバイスの自律的操作は人々の長年の目標であり、高度な自動化が求められています。目的 MobileExpertsは、複雑タスク処理と推論コスト削減を目指す研究です。提案 MobileExpertsはツールの設計とマルチエージェント協力を活用し、動的なチーム構築を提案します。評価新たな階層的知能レベルのベンチマークで、 MobileExpertsの効果を検証しました。結果実験により、 **22%**の推論コスト削減と優れた性能を確認しました。

AutoGen: 次世代の LLMアプリケーションをマルチエージェント会話で可能にする AutoGen: Enabling Next-Gen LLM Applications via
Multi-Agent Conversation Qingyun Wu and Gagan Bansal and Jieyu Zhang and Yiran Wu and Beibin Li and Erkang Zhu and Li Jiang and Xiaoyun Zhang and Shaokun Zhang and Jiale Liu and A. Awadallah and Ryen W White and Doug Burger and 背景最近の LLMの進化により、会話型 AIの可能性が大幅に向上。目的開発者がより柔軟で複雑なアプリケーションを構築できるよう支援。提案 AutoGenフレームワークは、エージェント間の柔軟な会話を可能にする。評価エージェント会話を用いた多様な領域での実証研究を実施。結果フレームワークが多様な応用で有効性を示すことが実証された。

アクション学習を通じた大規模言語モデルエージェントの強化 Empowering Large Language Model Agents through Action Learning
Haiteng Zhao and Chang Ma and Guoyin Wang and Jing Su and Lingpeng Kong and Jingjing Xu and Zhi-Hong Deng and Hongxia Yang 背景 LLMエージェントは試行錯誤から学ぶ能力に限界があり、成長が制限される。目的経験から新たなアクションを学ぶ能力の向上が目指されている。提案オープンアクション学習を探り LearnActフレームワークを提案する。評価 Robotic Planningと Alfworld環境での実験評価を行った。結果提案手法はエージェントのパフォーマンスを顕著に 32％改善した。

静的評価を超えて : AIアシスタントの API呼び出し能力を評価する動的アプローチ Beyond Static Evaluation: A Dynamic
Approach to Assessing AI Assistants’ API Invocation Capabilities Honglin Mu and Yang Xu and Yunlong Feng and Xiaofeng Han and Yitong Li and Yutai Hou and Wanxiang Che 背景大規模言語モデルの進化に伴い、 AIの API利用能力の評価方法が重要となっています。目的 AIアシスタントの API呼び出し能力の評価をより人間に近づけることを目的としています。提案人間の介入なしで評価できる **自動動的評価（ AutoDE） **を提案します。評価我々は、 LLMを用いたユーザーエージェントで人間的な対話を模倣し、評価しました。結果 AutoDEは静的評価よりも人間の評価と近い結果を示しました。

LLMエージェントの協力メカニズムの探究：社会心理学的視点 Exploring Collaboration Mechanisms for LLM Agents: A Social
Psychology View Jintian Zhang and Xin Xu and Ruibo Liu and Shumin Deng 背景 NLPシステムの協力能力は複雑な社会環境において重要です。目的 LLMエージェントが人間のように協力できるかを探究します。提案社会心理学の理論を応用してエージェントの協力メカニズムを分析します。評価ベンチマークデータセットを用いて、エージェントの協力戦略を評価しました。結果特定の戦略がトップアプローチを超え、効率性を示しました。

自動メンタルヘルスケアにおける言語モデルのリスク : 実装における倫理と構造 Risks from Language Models for Automated
Mental Healthcare: Ethics and Structure for Implementation D. Grabb and Max Lamparth and N. Vasan 背景自動メンタルヘルスケア AIに注目する中、人間の専門家基準に達していない現実があります。目的 AIモデルが精神障害を管理できる安全性の確保が目的です。提案倫理フレームワークとデフォルト行動に沿った構造的枠組みを提案します。評価精神科の専門医が設計した 16の質問で、 10の最新言語モデルを評価しました。結果現行モデルは緊急時に危害を与える可能性があり、安全性向上が必要です。

過去をブレンドして洗練することで、絶え間なく進化する記憶 Ever-Evolving Memory by Blending and Refining the Past
Seo Hyun Kim and Keummin Ka and Yohan Jo and Seung-won Hwang and Dongha Lee and Jinyoung Yeo 背景現在の言語モデルは長期記憶を欠き、会話の質を低下させます。目的長期記憶を効果的に構築し、情報の冗長性を減少させることです。提案 CREEMという新しい記憶システムは、過去と現在をブレンドします。評価記憶と応答の質向上を、評価により実証しました。結果 CREEMは個別対話における記憶と応答の質を向上させます。

Sibyl: 複雑な現実世界の推論に向けたシンプルで効果的なエージェントフレームワーク Sibyl: Simple yet Effective Agent Framework for
Complex Real-world Reasoning Yulong Wang and Tianhao Shen and Lifeng Liu and Jian Xie 背景既存の LLMエージェントは長期推論とツール使用に課題がある。目的 Sibylは複雑な推論タスクに対応するための効率的なフレームワークを提案。提案グローバルワークスペース理論に基づき、知識管理を強化したシステムを提案。評価 GAIAベンチマークを利用して、 GPT-4ベースで性能を検証。結果 Sibylエージェントは平均 34.55%で最高性能を達成。

記憶の重要性 : LLMエージェントにおける長期記憶の改善 Memory Matters: The Need to Improve
Long-Term Memory in LLM-Agents Kostas Hatalis and Despina Christou and Joshua Myers and Steven Jones and Keith Lambert and Adam Amos- Binks and Zohreh Dannenhauer and Dustin Dannenhauer 背景 LLMエージェントは長期記憶の改善が必要不可欠です。目的長期記憶管理を改善しエージェントの能力を向上させることです。提案ベクターデータベースとメタデータ統合により記憶を強化します。評価メモリの分離と管理に関する課題を解決する手法を提案します。結果外部知識源の統合でエージェントの性能向上が示唆されます。

生成型レコメンデーションのための大規模言語モデル : 調査と未来展望 Large Language Models for Generative Recommendation:
A Survey and Visionary Discussions Lei Li and Yongfeng Zhang and Dugang Liu and L. Chen 背景 LLMは NLPだけでなく、レコメンデーションシステムを大きく変える可能性があります。目的 LLMを活用し、従来のパイプラインを超えた生成型レコメンデーションの実現です。提案スコア計算やランク付け不要で、 LLMによりレコメンデーションを直接生成する手法を提案します。評価 3つの質問に基づき、 LLMを用いた様々な RSタスクへの実装を検討しました。結果 LLMによる生成型レコメンデーションの方法と将来の研究指針を提供しました。

対称的現実の出現について On the Emergence of Symmetrical Reality Zhenlian Zhang and
Zeyu Zhang and Ziyuan Jiao and Yao Su and Hangxin Liu and Wei Wang and Song-Chun Zhu 背景 AIは人間の認知を変革し、物理と仮想を統合する方法が求められています。目的 AIと人間の共存を考慮したフレームワークの確立が重要です。提案対称的現実フレームワークで物理と仮想の融合を一貫して可視化します。評価システム試作を通じて、対称的現実の操作例を示すことで評価を行いました。結果 AIと人間の共存を支援する実用的なサービスの可能性を示しました。

StrategyLLM: 問題解決のためのストラテジー生成、実行、最適化、評価の大規模言語モデル StrategyLLM: Large Language Models as Strategy
Generators, Executors, Optimizers, and Evaluators for Problem Solving Chang Gao and Haiyun Jiang and Deng Cai and Shuming Shi and Wai Lam 背景既存のプロンプト手法は一貫性と汎用性に課題があります。目的一般的な問題解決における LLMの普遍性と一貫性を向上させることです。提案 StrategyLLMは総合的な枠組みを提供し、 LLMの戦略生成と評価を最適化します。評価戦略生成、実行、最適化、評価のエージェントを使用し、実験で競争相手を比較しました。結果 StrategyLLMは競合他モデルよりも高い性能を示しました。

コンテキストと時間に敏感な長期記憶を持つ会話エージェントを目指して Toward Conversational Agents with Context and Time Sensitive
Long-term Memory Nick Alonso and Tom'as Figliolia and A. Ndirango and Beren Millidge 背景長期記憶を持つ会話エージェントは、コンテキスト理解と情報検索で重要視されています。目的本研究は、時間 /イベントや曖昧な問い合わせの解決を目指しています。提案チェーンテーブル探索とプロンプト手法を組み合わせた新しい検索モデルを提案します。評価曖昧および時間ベースの質問を含む新たなデータセットを使用し、モデルの性能を評価しました。結果提案された方法は、従来の RAGアプローチよりも大幅に改善された性能を示しました。

MIMIR: ドメイン専門知識におけるパーソナライズされたエージェント調整のための簡易プラットフォーム MIMIR: A Streamlined Platform for Personalized
Agent Tuning in Domain Expertise Chunyuan Deng and Xiangru Tang and Yilun Zhao and Hanming Wang and Haoran Wang and Wangchunshu Zhou and Arman Cohan and Mark Gerstein 背景大規模言語モデルは多様なタスクにおいて重要性を増しているが、効率性の向上が課題です。目的特定エージェント調整の欠如を補完し、効率を GPT-4に匹敵させることが目的です。提案 Mimirプラットフォームにより、プライベート知識と公開データセットを活用したエージェント調整を提案します。評価パーソナライズされたファイルを用いた調整プロセスと一般能力を高めるデータセット生成を評価します。結果 Mimirは効率的なエージェント調整を実現し、特定と一般能力の向上を確認しました。

RET-LLM: 大規模言語モデルのための一般的な読書書メモリへの試み RET-LLM: Towards a General Read-Write Memory for
Large Language Models Ali Modarressi and Ayyoob Imani and Mohsen Fayyaz and Hinrich Schütze 背景 LLMは多くのデータを扱いますが、明示的な記憶ユニットが欠けており知識処理が制限されています。目的 LLMに記憶を強化し、より効果的な知識利用を実現することが目的です。提案 RET-LLMは、書き込み・読み取り可能なメモリユニットを LLMに統合するフレームワークです。評価質的評価手法を用いて、質問応答タスクにおける性能をベースラインと比較しました。結果時間依存の質問応答での性能が向上し、フレームワークの有効性を示しました。

大規模意思決定モデル Large Decision Models Weinan Zhang 背景連続決定問題は専門家システムと強化学習によるが低コストな解決が難航しています。目的
新しいタスクへの一般化を実現する大規模意思決定モデルの有効性を検討します。提案トランスフォーマーを用いた新たなパラダイムが提案されています。評価オフライン強化学習シナリオにおけるシーケンスモデリング方法の有効性を初期試行で検証します。結果モデルのサイズ拡大で一般化能力と適応性の向上が確認され、近未来的な人工知能の可能性が示されました。

貫通型 AI: LLMに物理世界を理解させる Penetrative AI: Making LLMs Comprehend the Physical
World Huatao Xu and Liying Han and Qirui Yang and Mo Li and Mani Srivastava 背景 LLMの能力が向上する中、物理世界の知識との統合が求められています。目的本研究は、 LLMが IoTデータを利用して物理世界を理解する方法を解明します。提案 IoTセンサーとアクチュエータを用いて貫通型 AIを提案し、物理世界への浸透を図ります。評価 ChatGPTを用い、センサーデータの解釈と物理タスクの推論能力を初期調査します。結果 LLMは、 IoTデータの解釈と物理領域での推論において独自の性能を示しました。

知識強化大型言語モデルに基づく心理介入チャットエージェント VCounselor VCounselor: A Psychological Intervention Chat Agent Based
on a Knowledge- Enhanced Large Language Model H. Zhang and Z. Qiao and H. Wang and B. Duan and J. Yin 背景会話型 AIは心理介入に使われますが、現行モデルには効果と信頼性に課題があります。目的 VCounselorの開発で、大型言語モデルの心理介入における限界を克服します。提案新しい感情的対話と知識強化構造を統合した VCounselor を提案します。評価 VCounselorと一般および微調整済みモデルを、アバター付きで比較評価しました。結果 VCounselorは心理介入の効果と信頼性を大幅に向上させました。

再帰的熟考による LLMエージェントの効果的なだまし対応の強化 Boosting LLM Agents with Recursive Contemplation for
Effective Deception Handling Shenzhi Wang and Chang Liu and Zilong Zheng and Siyuan Qi and Shuo Chen and Qisen Yang and Andrew Zhao and Chaofei Wang and Shiji Song and Gao Huang 背景現代の複雑な対話環境で、欺瞞検出は重要な課題である。目的 LLMエージェントによる欺瞞処理能力の向上を目指す。提案再帰的熟考を活用し、エージェントの判断力を強化する手法を提案。評価複数の異なる状況で評価を行い、判断力の向上を検証。結果エージェントはより精緻な判断をし、性能が向上した。

検証可能な回答を持つ科学 QAシステム Scientific QA System with Verifiable Answers Adela Ljaji'c
and Milos Kosprdic and Bojana Bašaragin and Darija Medvecki and Lorenzo Cassano and Nikola Milosevic 背景科学的情報の正確性を保つことが求められており、妄想や誤情報が許されません。目的正確で検証可能な回答を提供することで、科学者の生産性を向上させます。提案セマンティック検索と RAGモジュールを組み合わせた QA システムを提案します。評価 SciFACTデータセットを使用した自然言語推論による検証エンジンで評価しました。結果正確で信頼できる回答を生成し、情報の信頼性を向上させました。

仮面をかぶっていますか？オンラインソーシャルネットワークにおける大規模言語モデル駆動ソーシャルボットの行動と影響の探求 Are you in a Masquerade? Exploring the
Behavior and Impact of Large Language Model Driven Social Bots in Online Social Networks Siyu Li and Jin Yang and Kui Zhao 背景大規模言語モデル（ LLMs）がソーシャルボットの能力を飛躍的に向上させている。目的 LLMs駆動ソーシャルボットの行動特性とネットワークへの影響を調査する。提案 LLMsを使用してユーザーフレンドリーなソーシャルボットを実装。評価 Twitter類似のネットワークデータを利用し、探索的研究を実施。結果 LLMsボットは偽装の強化とオンライン影響力を有することを確認。

金融市場における異常検知を強化する LLMベース多エージェントフレームワーク Enhancing Anomaly Detection in Financial Markets with
an LLM-based Multi- Agent Framework Taejin Park 背景金融市場ではシステム生成の異常警告の手動検証が課題とされています。目的この研究は、 AIを用いて金融データの異常検知の効率性を向上させることを目的とします。提案 LLMベースの多エージェントフレームワークが金融異常を自動で検証・解釈します。評価 S&P 500指数を用いて、 AIエージェントの効率性と正確性を検証しました。結果自動化により作業効率が向上し、金融市場監視の適用可能性を示しました。

タスク学習のためのエージェント分析による LLMの知識抽出向上 Improving Knowledge Extraction from LLMs for Task Learning
through Agent Analysis James R. Kirk and R. Wray and Peter Lindes and John E. Laird 背景大規模言語モデル（ LLM）はタスク学習の知識源として有望ですが、状況的知識の取得には限界があります。目的本研究は、プロンプトエンジニアリングの限界を超え、エージェントが新しいタスク知識を効果的に取得する方法の開発提案認知エージェントアプローチの STARSは、 LLMの応答空間を拡大し、評価や選択を可能にします。評価提案手法を用いて、エージェントがワンショット学習でタスクを完遂する能力を実験的に検証しました。結果エージェントは 77-94%のタスク完了を達成し、人間の監督で **100%**の完了が可能となりました。

言語モデル生成における基盤のギャップ Grounding Gaps in Language Model Generations Omar Shaikh and
Kristina Gligori'c and Ashna Khetan and Matthias Gerstgrasser and Diyi Yang and Dan Jurafsky 背景共通の基盤は会話のスムーズさに不可欠で、誤解を避けるために必要です。目的大規模言語モデル（ LLMs）が会話の基盤を反映できるかを解明します。提案基盤行為を収集し、基盤試行を定量化するメトリクスを提案します。評価複数の対話データセットを使って LLMの生成物を人間と比較しました。結果 LLMは共通の基盤を仮定しがちで、基盤行為が少ないことがわかりました。

LLMベースのエージェントネットワークによる意見動力学のシミュレーション Simulating Opinion Dynamics with Networks of LLM-based Agents
Yun-Shiuan Chuang and Agam Goyal and Nikunj Harlalka and Siddharth Suresh and Robert Hawkins and Sijia Yang and Dhavan Shah and Junjie Hu and Timothy T. Rogers 背景意見動力学の正確なシミュレーションは、社会現象の理解に不可欠です。目的人間行動を単純化しない意見動力学の新しい手法を提案します。提案 LLMを用いて正確な情報生成バイアスを調査し、意見動力学をシミュレートします。評価プロンプトエンジニアリングにより、 LLMエージェントに確証バイアスを導入しました。結果意見の断片化が観察され、 LLMの可能性と限界が示されました。

魅力的な会話の秘密を解き明かす :ユーザーを夢中にさせるロールプレイング対話エージェントの要因 Unveiling the Secrets of Engaging Conversations:
Factors that Keep Users Hooked on Role-Playing Dialog Agents Shuai Zhang and Yu Lu and Junwen Liu and Jia Yu and Huachuan Qiu and Yuming Yan and Zhenzhong Lan 背景対話エージェントの人間的進化により、長時間の対話の分析が必要。目的ユーザー定着率への影響要因を探り、その重要性を解明。提案ロールプレイングモデルとユーザーのインタラクションを系統的に分析。評価ユーザーとキャラクター間の大規模データを分析して評価。結果発話の長さが定着率に影響し、役割の具現化は影響が少ない。

人間と言語モデルの相互作用の評価 Evaluating Human-Language Model Interaction Mina Lee and Megha Srivastava
and Amelia Hardy and John Thickstun and Esin Durmus and Ashwin Paranjape and Ines Gerard-Ursin and Xiang Lisa Li and Faisal Ladhak and Frieda Rong and Rose E. Wang and Minae Kwon 背景言語モデルは多くの現実的な用途で人間とのインタラクションを含んでいます。目的インタラクションを考慮した評価基準の重要性を明らかにします。提案 HALIEはインタラクティブシステムの評価基準を設計する新しい枠組みです。評価 5つのタスクで 4つの最先端 LMを評価しました。結果非インタラクティブな性能はインタラクションと必ずしも一致しません。

プロのカウンターストライクプレイヤーのように動くことを学ぶ Learning to Move Like Professional Counter-Strike Players David
Durst and Feng Xie and Vishnu Sarukkai and Brennan Shacklett and I. Frosio and Chen Tessler and Joohwan Kim and Carly Taylor and Gilbert Bernstein and Sanjiban Choudhury and Pat Hanrahan and Kayvon 背景 FPSゲームではチーム動きの最適化が難しく、手作業での政策策定は非実用的です。目的データ駆動型で人間らしい動きを生成する新しいアプローチを探求しています。提案プロのプレイデータを訓練し、変換器ベースのモデルで人間らしい動きを生成します。評価人間評価とボット対戦を通じ、動きのリアリズムと効果を分析しました。結果モデルは効果的なチームワークを示し、より人間らしい動きを達成しました。

LLMを活用したエージェントによる教室教育のシミュレーション Simulating Classroom Education with LLM-Empowered Agents Zheyuan Zhang
and Daniel Zhang-li and Jifan Yu and Linlu Gong and Jinchang Zhou and Zhiyuan Liu and Lei Hou and Juanzi Li 背景 **大規模言語モデル（ LLM） **は教育支援タスクでの利用が進んでいるが、複数エージェントとの協働は未探索です。目的 SimClassを通じて、マルチエージェントを用いた仮想教室の可能性を探ること。提案ユーザー参加型の SimClassフレームワークを提案し、教室シミュレーションを実現します。評価 Flanders Interactive Analysis Systemと Community of Inquiry理論を用いて実証実験を実施しまし結果 LLMが教室の対話パターンを効果的に再現し、学習体験を向上させることを確認しました。

DUAL-REFLECT: デュアルラーニングによる反射翻訳の大規模言語モデル強化 DUAL-REFLECT: Enhancing Large Language Models for Reflective
Translation through Dual Learning Feedback Mechanisms Andong Chen and Lianzhang Lou and Kehai Chen and Xuefeng Bai and Yang Xiang and Muyun Yang and Tiejun Zhao and Min Zhang 背景大規模言語モデルの翻訳は人間らしいフィードバック不足が課題。目的翻訳性能を制約するフィードバックの効果不足を改善すること。提案 DUAL-REFLECTフレームワークでデュアルラーニングを活用し改善。評価各種翻訳タスクで効果を検証し精度向上を確認。結果提案手法は曖昧さを排除し、リソース不足言語で効果的。

Lyfe Agents: 低コストかつリアルタイムな社会的インタラクションを実現する生成エージェント Lyfe Agents: Generative agents for
low-cost real-time social interactions Zhao Kaiya and Michelangelo Naim and J. Kondic and Manuel Cortes and Jiaxin Ge and Shuying Luo and Guangyu Robert Yang and Andrew Ahn 背景高コストなリアルタイムインタラクションが仮想社会での大きな課題となっている。目的低コストかつリアルタイムな社会的インタラクションの実現を目指す。提案 Lyfe Agentsは、選択肢行動と非同期モニタリングを用いた新手法を提案。評価 LyfeGame 3D環境での自己動機付けと社交性をシナリオを通じて評価。結果 Lyfe Agentsは人間らしい社会的推論を低コストで実現し、効果を実証。

学習エージェントによるエージェントベース経済システムの経験的均衡 Empirical Equilibria in Agent-based Economic systems with Learning
agents Kshama Dwarakanath and Svitlana Vyetrenko and T. Balch 背景経済システムのエージェント間の動的相互作用は複雑で、従来の方法では十分に理解されていない。目的この研究は、エージェントシステムでの動的均衡戦略を強化学習で探求することを目的とする。提案 PSROアルゴリズムを経済エージェントモデルに統合し、ナッシュ均衡に近い戦略を開発する。評価提案した方法を、異なる目的を持つ四種類のエージェントを含むシミュレーションシステムで評価した。結果 PSROを用いると、低い後悔値を達成し、均衡戦略の有効性が示された。

データからストーリーへ : LLMベースのマルチエージェントシステムによる自動アニメデータ動画作成 From Data to Story: Towards
Automatic Animated Data Video Creation with LLM- based Multi-Agent Systems Leixian Shen and Haotian Li and Yun Wang and Huamin Qu 背景データストーリー作成は、注意力や専門スキルの必要性で困難とされています。目的データストーリーテリングのワークフローを自動化するための新しいシステムの設計が目的です。提案 Data Directorは、 LLMを用いたマルチエージェントシステムで、データ動画の生成を自動化します。評価ケーススタディを通じて、 Data Directorのデータ動画生成能力を評価しました。結果自律エージェントにおける課題を解決し、今後の最適化の方向性を示しました。

推測による検索強化言語モデルの高速化 Accelerating Retrieval-Augmented Language Model Serving with Speculation Zhihao Zhang
and Alan Zhu and Lijie Yang and Yihua Xu and Lanting Li and P. Phothilimthana and Zhihao Jia 背景検索強化言語モデル（ RaLM）は知識集約型タスクにおける低コスト適応に優れています。目的反復型 RaLMの遅延解消を目指して性能を向上させます。提案 RaLMSpecは推測に基づいた枠組みを提供し、高速化を図ります。評価 3つの言語モデルと 4つの QAデータセットを用いて広範な評価を行いました。結果 RaLMSpecにより最大 7.59倍の速度向上を確認しました。

人工物の社会的役割 : チャットボットと AIの倫理 Social Agency for Artifacts: Chatbots
and the Ethics of Artificial Intelligence John Symons and Syed Abumusab 背景 AIの社会的影響が、既存の社会関係を変える可能性があります。目的 AIの社会的エージェンシーを理解し、適切に展開する基準を探ることです。提案従来の哲学とは異なるエージェンシーの枠組みを提案します。評価エージェンシーの別個の側面と次元を分けて研究しました。結果提案する枠組みは、 AI倫理の進展に寄与します。

ニュースレコメンデーションエコシステムの洞察と影響のシミュレーション Simulating News Recommendation Ecosystems for Insights and Implications
Guangping Zhang and Dongsheng Li and Hansu Gu and T. Lu and Li Shang and Ning Gu 背景従来のニュース推薦システムは静的データ解析に依存し、長期的効果を理解できていない。目的ニュース推薦システムの進化と影響を分析し、最適化を目指す。提案 SimuLineプラットフォームでエコシステムを再現し、進化を解明する。評価定量指標や可視化、テキスト説明を用いてシミュレーション実験を実施。結果進化段階の特性とシステム設計戦略の影響を示し、新知見を提供。

異なるグループのアイデア露出がグループ創造的問題解決に与える影響 The impact of intergroup idea exposure on group
creative problem-solving J. Kenworthy and Lauren Coursey and Jubilee J. Dickson and Paul B. Paulus and B. Rozich and L. Marusich 背景グループ創造性を高める手法は、重要な研究テーマである。目的他グループのアイデアへのアクセス方法が創造性に与える影響を解明する。提案異なるアクセス条件でのグループ間のアイデア共有が創造性を促進する。評価 3つの条件で実験し、最終プランの新規性と統合的複雑性を分析した。結果『仲介条件』が最大限のグループ間活動を促し、斬新性と語彙類似性の負関係が確認された。

人間 ‐AI危機管理システムにおけるシミュレーション Simulations in human‐AI crisis management systems Elise
Karinshak 背景危機管理の各フェーズにおける AIの活用が必要です。目的 AIが危機管理者の意思決定とコミュニケーションを支援します。提案 AIベースのシミュレーションツールの活用を提案します。評価現在と将来の AIの応用による機会とリスクを議論します。結果 AIは組織のリスク特定とコミュニケーション向上を支援します。

推薦における生成エージェントについて On Generative Agents in Recommendation An Zhang and Leheng
Sheng and Yuxin Chen and Hao Li and Yang Deng and Xiang Wang and Tat-Seng Chua 背景推薦システムのオフラインとオンライン性能のギャップが発展を妨げています。目的 LLMを活用した生成エージェントで現実のユーザー行動を忠実にシミュレーションすること。提案 Agent4Recというユーザーシミュレーターを提案し、 LLMの生成エージェントを利用。評価 Agent4Recの能力と限界を評価し、フィルターバブル効果なども探求。結果エージェントとユーザープリファレンスの一致と逸脱を確認。

Apollonion: プロフィール中心の対話エージェント Apollonion: Profile-centric Dialog Agent Shangyu Chen and
Zibo Zhao and Yuanyuan Zhao and Xiang Li 背景 LLMは多様な応答を可能にしましたが、ユーザー視点のパーソナライズに課題があります。目的エージェントが異なるユーザーに応じた個別の応答を提供できるようにすることが目的です。提案ユーザーのクエリと応答を分析・組織化し、個別の応答を導くフレームワークを提案します。評価パーソナライズの度合いを測定するための評価プロトコルをシリーズとして提案しました。結果このフレームワークにより、 LLMの応答の個別性が向上することが示されました。

LingoLand: 言語学習のための AI支援没入型ゲーム LingoLand: An AI-Assisted Immersive Game for
Language Learning Olivia Seow 背景外国語への没入による学習効果は高いが、不安やアクセスが障壁とされています。目的 LingoLandは、不安軽減とアクセス向上で外国語学習を支援することを目指します。提案生成マシンラーニングを使用して、現実的なシナリオでの対話型言語学習ゲームを開発します。評価プレーヤーの言語スキルと文化理解の向上を検証するため、インタラクションとフィードバックを評価します。結果プレーヤーは実践的な言語スキルを楽しみながら取得し、異文化理解を深めました。

大規模言語モデルでのロールプレイ Role play with large language models M. Shanahan and
Kyle McDonell and Laria Reynolds 背景対話エージェントは日々人間的な性能を高めており、その振る舞いをどう記述するかが課題です。目的ロールプレイにより、人間特性を割り当てずにエージェント行動を説明する方法を提案します。提案対話エージェントの行動をロールプレイとして捉え、欺瞞と自己認識を分析します。評価対話エージェント行動の 2つの重要ケースをロールプレイとして説明する方法を検討しました。結果ロールプレイにより、エージェントの行動を人間的特性を割り当てずに理解できることを示しました。

大規模言語モデル時代の人間 -AIインタラクション Human-AI Interaction in the Age of Large
Language Models Diyi Yang 背景大規模言語モデルは、 AIとのインタラクションを変革し、多分野の発展を支えています。目的人間 -AI協働により、社会科学研究の効率化と学習支援を目指します。提案 LLMを活用することで、社会科学研究のコスト削減と社会スキル学習を提案します。評価人間 -AI協働を、計算社会科学とフィードバックの支援で分析しました。結果 LLM活用により、協調的知能が可能になり、人間 -AIの協力を再定義します。

SocialAIスクール : 発達心理学を活用した人工社会文化エージェントへの枠組み The SocialAI school: a framework leveraging
developmental psychology toward artificial socio-cultural agents Grgur Kovač and Rémy Portelas and P. Dominey and Pierre-Yves Oudeyer 背景社交的認知能力は、文化進化と人類の成果に関与する重要な要素です。目的 AI研究に発達心理学を適用し、社会的適合を可能にする能力を探ることです。提案ソーシャル AIスクールというツールで、社会認知を実験的に研究する環境を提供します。評価 RLエージェントと LLMを用いた多様なケーススタディを通じて評価を行いました。結果このツールは、社会知能研究を支える有用なリソースを提供します。

意味の生成 : 能動的推論と受動的 AIの範囲と限界 Generating meaning: active inference and
the scope and limits of passive AI Giovanni Pezzulo and Thomas Parr and Paul Cisek and Andy Clark and Karl J. Friston 背景脳は生成モデルとして生体と世界の相互作用を捉える。目的生成 AIモデルの限界を明らかにし、理解を深める。提案生体の生成モデルは受動的 AIとは異なると主張。評価生成 AIと生体モデルの相違点を理論的に検討。結果生体モデルが AIに比べて理解を支える基盤を持つ。

人狼ゲームにおける戦略的プレイのための強化学習を用いた言語エージェント Language Agents with Reinforcement Learning for Strategic Play
in the Werewolf Game Zelai Xu and Chao Yu and Fei Fang and Yu Wang and Yi Wu 背景 LLMベースのエージェントは偏りにより複雑な意思決定で最適化が難しい。目的強力な意思決定能力を持つ戦略的言語エージェントの開発を目指す。提案 LLMと RLを組み合わせ、柔軟な言語アクションを生成可能な新しいフレームワークを提案。評価人狼ゲームを試験場にし、広範な実験で RLポリシーの有効性を検証。結果人間レベルのパフォーマンスを実現し、従来の LLMエージェントを上回る成果を得た。

LLMを名探偵として：大規模言語モデルによる戦略的推論の調査 LLM as a Mastermind: A Survey of Strategic
Reasoning with Large Language Models Yadong Zhang and Shaoguang Mao and Tao Ge and Xun Wang and Adrian de Wynter and Yan Xia and Wenshan Wu and Ting Song and Man Lan and Furu Wei 背景戦略的推論は複数エージェントの相互作用で重要で、動的かつ不確実です。目的 LLMを用いて戦略的推論の可能性を系統的に整理することを目的とします。提案 LLMにおける戦略的推論関連の範囲、応用、方法論、評価指標を探求しています。評価戦略的推論の文献調査を行い、分野の急成長と学際的アプローチを強調しました。結果分野の成長と今後の研究方向に関する洞察を提供しました。

ヒューマノイドエージェント : 人間らしい生成エージェントをシミュレートするプラットフォーム Humanoid Agents: Platform for Simulating
Human-like Generative Agents Zhilin Wang and Yu Ying Chiu and Yu Cheung Chiu 背景計算シミュレーションは人間行動の理解に重要で、リアルな代替手段が求められています。目的生成エージェントを人間らしく振る舞わせる要素を導入し行動を模倣します。提案ヒューマノイドエージェントは基本的ニーズ、感情、親密さを統合し人間らしさを実現します。評価実証実験を行い、日常活動や会話の適応能力を検証しました。結果エージェントは動的要素を使い適応し、様々な設定にも拡張可能です。

大規模言語モデルによる帰属の自動評価 Automatic Evaluation of Attribution by Large Language Models Xiang
Yue and Boshi Wang and Kai Zhang and Ziru Chen and Yu Su and Huan Sun 背景大規模言語モデルは外部参照を活用するが、その検証が困難です。目的帰属の自動評価を実現し、評価の効率化を図ります。提案 LLMへのプロンプトと小型 LMの微調整での評価手法を提案します。評価既存ベンチマークからのテストセットで実験的評価を行いました。結果成果は新たな問題設定とともに将来の研究の基盤となるでしょう。

ロボットがお笑いに挑戦：言語モデルはコメディの創造支援ツールとなるか？ A Robot Walks into a Bar: Can Language
Models Serve as Creativity SupportTools for Comedy? An Evaluation of LLMs’ Humour Alignment with Comedians Piotr Mirowski and Juliette Love and K. Mathewson and Shakir Mohamed 背景 AIがアーティストの創造過程に及ぼす影響が注目されています。目的言語モデルが創造支援ツールとして適切かを検証します。提案コミュニティに基づいた価値観調整が必要と主張します。評価 AIを使ったコメディ創作のワークショップと議論を行いました。結果現行の LLMは創造支援ツールとして効果が乏しいと示唆されました。

AgentVerse: エージェントの協調と自発的行動の探求 AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent
Behaviors in Agents Weize Chen and Yusheng Su and Jingwei Zuo and Cheng Yang and Chenfei Yuan and Cheng Qian and Chi-Min Chan and Yujia Qin and Ya-Ting Lu and Ruobing Xie and Zhiyuan Liu and Maosong Sun and Jie Zhou 背景エージェント間の協調が必要なタスクが増加し、その効果的な実現が課題となっています。目的複数のエージェントが協調することで、より複雑なタスクの効率化を目指します。提案 AgentVerseは、エージェント間の連携と自発的行動の分析を促進するプラットフォームです。評価様々なシナリオでエージェントの協調を検証し、その有効性を評価しました。結果エージェントの協調や自発的行動がタスク達成に有効であることが示されました。

WordPlay: 言語学習ゲームのためのエージェントフレームワーク WordPlay: An Agent Framework for Language Learning
Games Suma Bailis and Lara McConnaughey and Jane Friedhoff and Feiyang Chen and Chase Adams and Jacob Moon 背景従来の言語学習は退屈で、効果的な学習とエンゲージメントの両立が課題です。目的 WordPlayは言語学習のエンゲージメントを保ちながら効果的な学習を実現することを目的としています。提案 WordPlayはミニパズルゲームと AI技術を組み合わせ、学習体験を向上させます。評価クリエーターがパーソナライズされたパズルを作成し、画像を活用した学習効果を評価しました。結果 WordPlayは異なる熟練度に応じた効果的な学習を可能にすることが示されました。

マルチエージェント強化学習 Multi-agent Reinforcement Learning Xuan Zuo and Pu Zhang and
Hui-Yan Li and Zhun-Ga Liu 背景マルチエージェント強化学習は多様で活発な分野ですが、追加の計算コストが問題です。目的パラメータや経験共有を通じたトレーニングの加速と報酬の向上が目的です。提案選好ベースの経験共有スキームが、ほとんど追加計算なく弱い同種エージェントに異なる政策を提供します。評価選好ベースの経験共有スキームを搭載した PSE- MADDPGが、ベンチマークで評価されます。結果 PSE-MADDPGは少ないステップで学習し、古典的アルゴリズムを上回る成果を示しました。

ペルソナ指向生成における大規模言語モデルのバイアス評価 Evaluating Large Language Model Biases in Persona-Steered Generation
Andy Liu and Mona Diab and Daniel Fried 背景多面的なペルソナが、従来の単一的手法で扱われてきました。目的不一致ペルソナへのモデルの誘導性を明らかにすることが目的です。提案多面的なペルソナを扱う際に起こるバイアスの解析手法を提案します。評価人間のフィードバックを用いた強化学習モデルを用いて評価しました。結果不一致ペルソナへの誘導性は 9.7%低下し、多様性も減少しました。

柔軟な目標指向の認知と意識の橋渡し : GARIM理論 Bridging flexible goal-directed cognition and consciousness: The
Goal-Aligning Representation Internal Manipulation theory Giovanni Granato and Gianluca Baldassarre 背景目標指向の表象操作は人間の柔軟性の鍵だが、現行理論では部分的連携に留まる。目的本研究は柔軟な認知と意識が相互に作用し合うプロセスの理解を深化する目的を持つ。提案私たちは GARIM理論を提案し、認知科学と AIを統合的に用いて目標整合を支援する。評価 20以上の人間集団を用いて、提案モデルの有効性を分析した。結果研究は科学および技術分野における新たな実験課題や応用の方向性を示唆する。

PathGen-1.6M: 160万の病理画像 -テキストペア生成によるマルチエージェント協力 PathGen-1.6M: 1.6 Million Pathology Image-text Pairs
Generation through Multi- agent Collaboration Yuxuan Sun and Yunlong Zhang and Yixuan Si and Chenglu Zhu and Zhongyi Shui and Kai Zhang and Jingxiong Li and Xingheng Lyu and Tao Lin and Lin Yang 背景病理学での視覚言語モデル（ VLMs）利用は注目を集めています。目的高品質な画像 -テキストペアを生成し、 VLMsの精度向上を目指します。提案 PathGen-1.6Mは 160万の病理画像 -テキストペアを生成する手法です。評価エージェントモデルが協力し WSIから画像パッチを抽出・評価しました。結果新しいモデル PathGen-CLIPは病理画像分析能力を著しく向上させました。

大規模言語モデルを用いた代替ニュースフィードアルゴリズムの評価 Simulating Social Media Using Large Language Models to
Evaluate Alternative News Feed Algorithms Petter Törnberg and D. Valeeva and J. Uitermark and Christopher Bail 背景ソーシャルメディアは有害な議論を増幅し、建設的会話を抑制する課題がある。目的異なるニュースフィードアルゴリズムが会話の質に与える影響を研究する。提案 **大規模言語モデル（ LLM） **とエージェントベースモデリングの組み合わせを提案する。評価 3種類のアルゴリズムを用いたシミュレーションでオンライン会話の質を評価した。結果ブリッジングアルゴリズムがより建設的な会話を促進することがわかった。

大規模言語モデルにおける態度、意見、価値観の評価の可能性と課題 The Potential and Challenges of Evaluating Attitudes, Opinions,
and Values in Large Language Models Bolei Ma and Xinpeng Wang and Tiancheng Hu and Anna Haensch and Michael A. Hedderich and Barbara Plank and Frauke Kreuter 背景大規模言語モデルは人間に似た行動特性を持ち得るが、その評価は課題が多い。目的 LLMにおける AOVの評価方法を整理し、研究間の関連を明確化すること。提案包括的な調査を行い、人間と AIの整合性などの課題に対処する。評価評価パイプラインの各段階における手法を調査し、実用的な洞察を提供。結果モデル強化や学際的協力の進化に寄与し、 AOVs評価の方向性を示す。

対話的な物語システムにおけるより良いゴシップシミュレーションを目指して Toward Better Gossip Simulation in Emergent Narrative Systems
Max Kreminski 背景キャラクター間の情報伝搬を扱う新興物語ゲームでは、ゴシップが有効活用されていません。目的ゴシップを軸にした新たな物語生成技術の開発を目指します。提案情報的・社会的に豊かなゴシップシミュレーション手法を提案します。評価提案手法の実装を通じて、初期的なアプローチを示しました。結果新しいゴシップシミュレーション手法の有効性が確認されました。

BlenderAlchemy: 視覚 -言語モデルで 3Dグラフィクスを編集 BlenderAlchemy: Editing 3D Graphics with
Vision-Language Models Ian Huang and Guandao Yang and Leonidas J. Guibas 背景グラフィックデザインは映画やゲームで重要だが、質の高いシーン制作は時間がかかる。目的視覚言語モデルを使い、設計の反復作業を知的に最適化し、効率化を図る。提案 VLMを活用し、視覚ベースの編集生成器と状態評価器で編集プロセスを自動化する。評価実証的証拠に基づき、視覚推論の能力を強化したモデルでタスクの遂行を確認。結果我々のシステムは、手間のかかる Blender編集を効率的に行えることを示す。

安全なモデルの組み合わせを悪用する敵対者 Adversaries Can Misuse Combinations of Safe Models Erik Jones
and Anca Dragan and Jacob Steinhardt 背景 AIモデルが悪用されるリスクは重要で、単一モデルの評価だけでは不十分です。目的安全なモデルの組み合わせが敵に悪用される可能性を明らかにすることが目的です。提案タスクをサブタスクに細分化し、最適なモデルを使用してそれらを解決する方法を提案します。評価手動と自動のタスク分解を使用して、複数モデルが悪用されるシナリオを実証します。結果安全なモデルの組み合わせでも、想定外の悪用が可能であることを確認しました。

IoT-LLM: 大規模言語モデルで実世界の IoT タスク推論を強化 IoT-LLM: Enhancing Real-World IoT Task Reasoning
with Large Language Models Tuo An and Yunjiao Zhou and Han Zou and Jianfei Yang 背景大規模言語モデルは物理世界の理解に限界があり、 IoTデータを活用する必要があります。目的 LLMsの実世界 IoTタスク推論能力を向上させることが目的です。提案 IoTセンサーデータで LLMsの推論能力を強化する IoT- LLMを提案します。評価 5つの実世界 IoTタスクで、新たなベンチマークを設計し、 6モデルで評価しました。結果 IoT-LLMは IoTタスク推論性能を 65%改善し、現行手法の限界も示しました。

意味空間に基づく重みデコーディングによる多属性制御対話生成 Semantic Space Grounded Weighted Decoding for Multi-Attribute Controllable
Dialogue Generation Zhiling Zhang and Mengyue Wu and Ke Zhu 背景チャットボットの発話を多属性（例えば性格、感情、対話行為）で制御することは実用性があるが、十分に研究されてい目的 DASCフレームワークにより、多属性を制御しながら生成品質の向上を目指す。提案属性意味空間でグラウンドされた重み付けデコードによる新しい制御可能生成フレームワーク DASCを提案。評価 3側面の制御可能生成タスクでの精度を示すための実験と、学習された表現の可視化を行った。結果 DASCは制御精度と興味深い応答生成で最先端を達成し、有効性が確認された。

EvoAgent: 進化的アルゴリズムによる自動マルチエージェント生成に向けて EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary
Algorithms Siyu Yuan and Kaitao Song and Jiangjie Chen and Xu Tan and Dongsheng Li and Deqing Yang 背景大規模言語モデルは自律エージェント構築の新トレンドを生んでいます。目的人間設計に依存せずに、エージェントの拡張を可能にすることが重要です。提案 EvoAgentは進化的アルゴリズムで多様なエージェントを自動生成します。評価さまざまなタスクで、 EvoAgentが複数の専門エージェント生成を評価しました。結果 EvoAgentが LLMベースのエージェントの課題解決能力を顕著に向上させました。

PromptInfuser: AIと UIデザインの密接な結合がデザイナーのワークフローに与える影響 PromptInfuser: How Tightly Coupling AI
and UI Design Impacts Designers’ Workflows S. Petridis and Michael Terry and Carrie J. Cai 背景 AIアプリケーションのプロトタイピングは難しく、 LLM がこれを一部解決していますが、 UIと AIが別々であることが課目的プロンプトと UIデザインの結合がデザイナーのワークフローにどう影響するかを明らかにすることです。提案 Figmaプラグイン PromptInfuserで、 UI要素をプロンプトと結合し、半機能的モックアップを作成します。評価 14人のデザイナーを対象に、 PromptInfuserと従来の AI プロトタイピングワークフローを比較しました。結果 PromptInfuserはプロダクトのアイデア伝達やプロトタイピングの効率が良く、 UIの問題予測に役立つと評価されまし

エージェント・スミス : 一枚の画像で 100万のマルチモーダル LLMエージェントを指数関数的に攻略 Agent Smith: A
Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast Xiangming Gu and Xiaosen Zheng and Tianyu Pang and Chao Du and Qian Liu and Ye Wang and Jing Jiang and Min Lin 背景マルチモーダル大規模言語モデルが無調整な動作をする問題が浮上。目的一枚の画像でエージェント全体に影響を与える安全性の問題。提案敵が単一のエージェントを攻略することで全体が感染。評価 100万エージェント、ランダムなペアチャットで感染性攻撃をシミュレート。結果敵対的な画像による攻撃が実現可能で、拡散を抑制する方法は未解明。

生成 AI時代のシミュレーションを通じたアルゴリズム的説得 : 情報設計 Algorithmic Persuasion Through Simulation: Information
Design in the Age of Generative AI Keegan Harris and Nicole Immorlica and Brendan Lucier and Aleksandrs Slivkins 背景 AIの進展によって、送り手が受け手の情報をより正確に獲得できる環境が整ってきている。目的受け手の行動を最適化するためのメッセージ戦略の最適化を目指す。提案行動シミュレーションを基にした最適なメッセージ戦略を設計するアルゴリズムを提案。評価受け手タイプの分布を利用し、多様なクエリ構造とオラクルによる実験を実施。結果送り手の期待効用を最大化するクエリアルゴリズムの有効性を示した。

LangSuitE: 具象テキスト環境での大規模言語モデルの計画、制御、対話 LangSuitE: Planning, Controlling and Interacting with Large
Language Models in Embodied Text Environments Zixia Jia and Mengmeng Wang and Baichen Tong and Song-chun Zhu and Zilong Zheng 背景近年、大規模言語モデルを用いた自律エージェントの発展が注目されています。目的動的環境で LLMが具象エージェントとしての有効性を検証することです。提案 LangSuitEというシミュレーション不要のテストベッドを開発しました。評価新しい思考連鎖スキーマである EmMemを検証するためのベンチマークを行いました。結果 LangSuitEは具象汎用化に向けた重要な一歩であることが示されました。

それで、ゲームはどうなるのか？実行時の挙動生成における機会と課題 What's the Game, then? Opportunities and Challenges for
Runtime Behavior Generation Nicholas Jennings and Han Wang and Isabel Li and James Smith and Bjoern Hartmann 背景 PCGはアルゴリズムでゲームコンテンツ生成を行い、 LLMで実行時の新しいインタラクションを可能にします。目的ゲーム開発のワークフローに統合しにくい新しいゲームプレイを構築します。提案 Unity用 GROMITで、プレイヤーアクションに応じた実行時挙動生成を提案します。評価システム評価とゲーム開発者インタビューで実装と意見を検証しました。結果下流のゲームプレイに影響を与える挙動を生成できたことを確認しました。

大規模言語モデルのための MetaToolベンチマーク : ツールを使うかどうかとどのツールを選ぶかを決定する MetaTool Benchmark for Large
Language Models: Deciding Whether to Use Tools and Which to Use Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun 背景大規模言語モデルは複雑なツール選択の意思決定が求められています。目的目的は LLMsが適切なツール選択を行えるか評価することです。提案 MetaToolベンチマークを提案し、 LLMsのツール使用意識を評価します。評価 8つの人気 LLMsを用いて、ツール選択の異なる視点での実験を行いました。結果多くの LLMsが効果的なツール選択に苦労し、改善の余地が示唆されました。

大規模言語モデルが伝言ゲームをするとき：累積変化と反復的文化伝播における引力点 When LLMs Play the Telephone Game: Cumulative Changes
and Attractors in Iterated Cultural Transmissions J'er'emy Perez and Corentin L'eger and Grgur Kovač and Cédric Colas and Gaia Molinaro and Maxime Derex and Pierre-Yves Oudeyer and Clément Moulin-Frier 背景 LLMの相互作用による情報の変化とその影響は、重要な研究課題です。目的情報が LLM間でどのように変容しうるかを理解することを目的としています。提案 LLMの反復的相互作用によるテキスト変化を分析する手法を提案します。評価電話ゲーム実験を用いて、テキストの偏りや引力点を追跡しました。結果自由度が高い指示は強力な引力効果をもたらすことがわかりました。

人工エージェントと大規模言語モデル Artificial Agency and Large Language Models Maud van Lier
and Gorka Muñoz-Gil 背景大規模言語モデルが人工的エージェンシーの可能性を議論している。目的人工エージェンシー実現の理論モデルを提案し、議論に貢献する。提案エージェントの動的枠組みを用い、モデルで方向性を示す。評価 Parkらのアーキテクチャと Boikoらのモジュールを組み合わせる。結果人工エージェンシー実現の障害と今後の研究方向を提示。

仮想心 : 大規模言語モデルを用いたマルチエージェントタスクの心の理論の補助 Hypothetical Minds: Scaffolding Theory of Mind
for Multi-Agent Tasks with Large Language Models Logan Cross and Violet Xiang and Agam Bhatia and Daniel L. K. Yamins and Nick Haber 背景マルチエージェントシステムは、非定常性が適応学習の妨げとなる。目的新規エージェントに対する適応学習が可能なシステムを作成。提案大規模言語モデルを活用し、心の理論で他の戦略をサポート。評価 Melting Potベンチマークで、競争と協力を含む様々なドメインで性能を評価。結果仮説の評価と修正が、複雑なシナリオでの成功に重要。

すべての例をプログラミング : 専門家のようにプレトレーニングデータの品質を向上 Programming Every Example: Lifting Pre-training Data
Quality like Experts at Scale Fan Zhou and Zengzhi Wang and Qian Liu and Junlong Li and Pengfei Liu 背景プレトレーニングデータの品質向上には人的コストが高く、効率的な方法が求められている。目的個別データに応じた精緻化ができる効率的な手法を明示する。提案データ精緻化をプログラミングタスクとして扱う ProXフレームワークを提案。評価 ProXで精緻化されたデータを用いて、複数の下流ベンチマークで性能を評価。結果 ProXは多くのモデルで性能向上を実現し、訓練コストも削減できることを示した。

LLM ウィザードについて：オズの魔法使い実験のための大規模言語モデルの行動特定 On LLM Wizards: Identifying Large Language Models'
Behaviors for Wizard of Oz Experiments Jingchao Fang and Nikos Aréchiga and Keiichi Namaoshi and N. Bravo and Candice Hogan and David A. Shamma 背景オズの魔法使い法は、不在の技術を人間が演じることで設計空間を探る手法です。目的 LLMを活用した WoZ実験で、スケーラビリティとコスト削減を実現すること。提案 LLMを用いて WoZ実験の過程を安全に進める手法を提案します。評価 LLMの演技能力を評価するヒューリスティックフレームワークを用いました。結果 LLMは WoZ実験での行動パターンを大規模に示すことができます。

SeSaMe: メンタルヘルスセンシング研究のための自己報告による真実データのシミュレーションフレームワーク SeSaMe: A Framework to Simulate Self-Reported
Ground Truth for Mental Health Sensing Studies Akshat Choube and V. D. Swain and Varun Mishra 背景モバイルとウェアラブル技術の進化で人のメンタル健康をモニター可能になりました。目的参加者の負担を軽減し、正確な心理的評価を行う方法の開発。提案 SeSaMeフレームワークにより心理的尺度上の回答を LLMでシミュレート可能にする。評価 GPT-4での模擬回答生成と人間の回答との一致度を検証し、 MLモデルの訓練に活用。結果 SeSaMeシミュレーションは多くの場合において現実データと同等の性能を示した。

ユーザープロファイルを考慮した事前訓練モデルとパラメータ効率的ファインチューニングによるユーザー固有対話生成 User-Specific Dialogue Generation with User Profile-Aware Pre-Training
Model and Parameter-Efficient Fine-Tuning Atsushi Otsuka and Kazuya Matsuo and Ryo Ishii and Narichika Nomoto and Hiroaki Sugiyama 背景従来の個人化対話はペルソナに基づいており、現実のユーザー対話の再現が求められている。目的ユーザー固有の対話生成の精度向上を目指す。提案パラメータ効率的ファインチューニングと事前構築モデルを組み合わせた手法を提案。評価自動推論プロンプトを用い、他モデルとの発話再現性を比較。結果提案モデルは少量のデータでも高い再現性の発話を生成可能。

機械による天文学：ニューラルネットワークの歴史と展望 Astronomia ex machina: a history, primer and outlook
on neural networks in astronomy Michael J. Smith and J. Geach 背景天文学では、 AIの進化がデータ解析の新たな機会を提供しています。目的 AI技術で未解決の天文学の課題に新たに挑むことです。提案 GPTのような基盤モデルを天文学に活用することを提案します。評価オープンソースの協力体制で開発することを検討しています。結果 AIと天文学の共生関係が新たな研究を推進します。

大規模言語モデルベースの人工知能エージェントに関する詳細調査 An In-depth Survey of Large Language Model-based Artificial
Intelligence Agents Pengyu Zhao and Zijian Jin and Ning Cheng 背景 LLMの能力により、より高度な AIエージェントの開発が期待されています。目的 LLMベースのエージェントの特長を明らかにし、技術革新を支援します。提案 AIエージェントの記憶分類を従来から変革し新たな視点を提供します。評価計画、記憶、ツール使用の各構成要素を深く分析しています。結果 AI技術の進展に向けた重要な基盤を提供しました。

Concordiaを用いた物理的・社会的またはデジタル空間での行動に基づく生成型エージェントモデリング Generative agent-based modeling with actions grounded in
physical, social, or digital space using Concordia A. Vezhnevets and J. Agapiou and Avia Aharon and Ron Ziv and Jayd Matyas and Edgar A. Du'enez-Guzm'an and William A. Cunningham and Simon Osindero and Danny Karmon and Joel Z. Leibo 背景エージェントベースモデリングが LLMで進化し、多角的な応用可能性が増大。目的 GABMで現実的エージェント行動を模擬し、科学研究や技術評価を促進。提案 Concordiaライブラリで物理的・デジタル環境のエージェントシミュレーションを実現。評価柔軟なコンポーネントシステムで LLM利用と連想記憶を一致させる手法を検証。結果多用途な応用に対する Concordiaの有効性を示し、研究と技術評価での可能性を強調。

DiverseDialogue: 人間らしい多様性を持つチャットボットの設計手法 DiverseDialogue: A Methodology for Designing Chatbots with
Human-Like Diversity Xiaoyu Lin and Xinkai Yu and A. Aich and Salvatore Giorgi and Pallavi V. Kulkarni 背景大規模言語モデルは、教育やカスタマーサービスでチャットボットを評価するために用いられますが、人間らしい多様性目的人間と LLMの会話の言語的差を改善し、評価精度を向上することが目的です。提案実際の人間の交流から派生した特徴を活用し、プロンプト自動生成手法を提案します。評価差分言語分析と深層言語探究を組み合わせた手法で有効性を評価しました。結果提案手法は言語の多様性を高め、 **54%**の平均特徴誤差削減を達成しました。

AvatarGPT: 動作理解、計画、生成を統合するオールインワンフレームワーク AvatarGPT: All-in-One Framework for Motion Understanding, Planning,
Generation and Beyond Zixiang Zhou and Yu Wan and Baoyuan Wang 背景大規模言語モデルは NLPタスクを統一していますが、動作関連領域は未統一です。目的動作関連タスクを統合したフレームワークの開発が目的です。提案 AvatarGPTは、言語を共通インターフェースにした動作タスクのオールインワンフレームワークです。評価自然言語生成パイプラインを使って、広範囲でタスクを共同訓練しました。結果 AvatarGPTは低レベルタスクで SOTA達成し、高レベルでも有望です。

LangGPT: プログラミング言語から再考する構造化再利用可能なプロンプト設計フレームワーク LangGPT: Rethinking Structured Reusable Prompt Design
Framework for LLMs from the Programming Language Ming Wang and Yuanzhong Liu and Xiaoming Zhang and Songlian Li and Yijie Huang and Chi Zhang and Daling Wang and Shi Feng and Jigang Li 背景 LLMのプロンプト設計は非専門家にとって難解で、再利用性に欠けています。目的プロンプト設計の学習負荷を軽減し再利用性を向上させることが目的です。提案 LangGPTという二層構造のプロンプト設計フレームワークを提案します。評価実験とユーザー調査を通じて性能向上と使いやすさを検証しました。結果 LLMの性能を向上させ、高品質な応答を生成できることを示しました。

複雑適応システムのための階層モデル : 適応エージェントから AI社会へ A Hierarchical Model for Complex
Adaptive System: From Adaptive Agent to AI Society Deyu Zhou and Xiao Xue and Xudong Lu and Yuwei Guo and Peilin Ji and Hongtao Lv and Wei He and Yonghui Xu and Qingzhong Li and Lizhen Cui 背景複雑適応システムの特性を正確にモデル化することが困難です。目的新たな階層モデルで複雑特徴のモデル化の課題を解決します。提案計算実験法に基づく四層の階層モデルを提案します。評価知的交通システムを用いた計算実験でモデルの有効性を評価します。結果提案モデルは複雑特徴モデル化と技術の橋渡しを実現します。

LLMを用いた家族会話のシミュレーション：育児スタイルの実証 Simulating Family Conversations using LLMs: Demonstration of Parenting
Styles F. Ye and Xiaozi Gao 背景 LLMsを用いた会話シミュレーションは、倫理的な制約の問題を克服するため重要です。目的倫理的に問題のある言語や行動のシミュレーションを安全に実施することです。提案家族会話のシミュレーションで 4つの育児スタイルを模倣する手法を提案しました。評価文脈認識や少数ショットプロンプティング、モデルの微調整を検討しました。結果育児スタイルの特徴が会話に効果的に反映されることを確認しました。

ソフトウェアチュートリアルビデオにおける視覚アンカーを用いた自動質問応答システム AQuA AQuA: Automated Question-Answering in Software Tutorial Videos
with Visual Anchors Saelyne Yang and Jo Vermeulen and G. Fitzmaurice and Justin Matejka 背景チュートリアルビデオでの速い応答が難しいため、ユーザー支援が重要です。目的自動化手法でチュートリアル質問に迅速に答える問題を解決します。提案 AQuAは視覚アンカーを用いて質問に有用な回答を生成します。評価 Fusion 360を対象に、 16名の参加者で回答生成の評価を行いました。結果本手法はベースラインを超える優れた回答を示しました。

優先順位 S P RIORITIZING S nan 背景 AI運用におけるデータの質とソース信頼性は学術研究で重要です。目的
AIによる情報の正確性と信頼性向上が急務です。提案信頼できる最新の情報を優先する AIシステムの強化が必要です。評価証拠検証と信頼性向上のためのメカニズムの分析が行われます。結果学術での AI活用には情報の整合性向上が不可欠です。

大規模言語モデルに基づくエージェントを活用した一般的な社会シミュレーションプラットフォーム「 GenSim」 GenSim: A General Social Simulation Platform
with Large Language Model based Agents Jiakai Tang and Heyang Gao and Xuchen Pan and Lei Wang and Haoran Tan and Dawei Gao and Yushuo Chen and Xu Chen and Yankai Lin and Yaliang Li and Bolin Ding and Jingren Zhou and Jun Wang and Jiayao Wen 背景大規模言語モデルで社会行動をシミュレートする研究が盛んです。目的エラー発生時の適応力を備えた大規模社会シミュレーションを実現します。提案「 GenSim」は、抽象化された機能群とエラー補正を備えた新しいプラットフォームです。評価大規模エージェントシミュレーションの効率性とエラー補正の効果の評価を行いました。結果社会シミュレーションの分野をさらに進展させる有望な一歩を示しました。

MMAC-Copilot: マルチモーダルエージェント協力 OSコパイロット MMAC-Copilot: Multi-modal Agent Collaboration Operating
System Copilot Zirui Song and Yaohang Li and Meng Fang and Zhenhao Chen and Zecheng Shi and Yuan Huang and Ling Chen 背景自律エージェントは単一モードでの相互作用に制限され、柔軟性が欠如している。目的エージェントの多様な知識を用いて、現実世界との相互作用能力を強化する。提案 MMAC-Copilotを提案し、エージェント間の協力連鎖で知識の錯覚を削減する。評価 GAIAと VIBenchを用いて、【 MMAC-Copilot】の性能を実験的に評価した。結果 MMAC-Copilotは、既存システムを超える優れた性能を示し、相互作用手法での可能性を確認した。

大規模言語モデル基盤のエージェントの記憶メカニズムに関する調査 A Survey on the Memory Mechanism of Large
Language Model based Agents Zeyu Zhang and Xiaohe Bo and Chen Ma and Rui Li and Xu Chen and Quanyu Dai and Jieming Zhu and Zhenhua Dong and Ji-Rong Wen 背景大規模言語モデル基盤エージェントは、自己進化能力で現実問題を解決します。目的エージェントの記憶メカニズムに関する研究を体系的にレビューします。提案包括的調査を通じて、記憶モジュールの設計・評価方法を整理します。評価既存研究のデザインと評価の方法を系統的にレビューしました。結果記憶モジュールの重要性を特定し、将来の研究方向を示しました。

大規模言語モデルの推論能力を人狼ゲームで強化 Enhance Reasoning for Large Language Models in the
Game Werewolf Shuang Wu and Liwen Zhu and Tao Yang and Shiwei Xu and Qiang Fu and Yang Wei and Haobo Fu 背景大規模言語モデルの限界を超える推論能力が必要とされている。目的 LLMの限界を超えた推論能力の向上を目的とする。提案 Thinkerモジュールを統合し LLMを二重システムへと改良。評価 18800回の人間のセッションと強化学習で Thinkerを訓練。結果 Thinker統合で 6B LLMが GPT4を超える性能を達成。

環境フィードバックによるエンボディードビジョンランゲージプログラマー : Octopus Octopus: Embodied Vision-Language Programmer from Environmental
Feedback Jingkang Yang and Yuhao Dong and Shuai Liu and Bo Li and Ziyue Wang and Chencheng Jiang and Haoran Tan and Jiamu Kang and Yuanhan Zhang and Kaiyang Zhou and Ziwei Liu 背景 VLMはマルチモーダル推論で進化しており、環境に即した自律システムが求められています。目的視覚言語のタスク目標を解読し、実行可能なコードを生成するモデルの構築。提案 Octopusという新しい VLMを提案し、日常からゲームまで広範なタスクに対応。評価 GPT-4を用いて探索的エージェントを制御し、実験環境 OctoVerseでデータ生成。結果 RLEFによりエージェントの意思決定の洗練を確認し、モデルをオープンソース化。

GitAgent: デバイスツール拡張による GitHubを用いた自律エージェントの促進 GitAgent: Facilitating Autonomous Agent with GitHub by
Tool Extension Bohan Lyu and Xin Cong and Heyang Yu and Pan Yang and Yujia Qin and Yining Ye and Ya-Ting Lu and Zhong Zhang and Yukun Yan and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景 LLMは自然言語処理で優れるが、複雑な課題対応に限界がある。目的特定課題は、 LLMエージェントが多様なツールで対応する能力不足にある。提案 GitHubのリポジトリを活用し、エージェントが自律的にツールを拡張する。評価 30のユーザークエリを使用し、 GitAgentの成功率を実験的に評価。結果 GitAgentは平均 69.4%の成功率を達成し、その有効性が確認された。

GRUtopia: 一般的なロボットを大規模都市での夢へ GRUtopia: Dream General Robots in a City
at Scale Hanqing Wang and Jiahe Chen and Wensi Huang and Qingwei Ben and Tai Wang and Boyu Mi and Tao Huang and Siheng Zhao and Yilun Chen and Sizhe Yang and Peizhou Cao and Wenye Yu and Zichao Ye and Jialun Li 背景 Embodied AIのスケーリング法則を探る中で現実世界データの収集が障害に。目的 Sim2Realを用いて、一般的なロボットモデルの学習をスケーリングすることが目的です。提案プロジェクト GRUtopiaは、多様なロボット向けのシミュレートされた 3D社会を提案。評価 GRBenchにて脚付きロボットでの物体導航や社会的導航のタスクで評価。結果高品質なデータ不足を緩和し、 Embodied AI研究の包括的評価を提供する。

アバロンの思考ゲーム : 再帰的熟考による欺瞞との戦い Avalon's Game of Thoughts: Battle Against
Deception through Recursive Contemplation Shenzhi Wang and Chang Liu and Zilong Zheng and Siyuan Qi and Shuo Chen and Qisen Yang and Andrew Zhao and Chaofei Wang and Shiji Song and Gao Huang 背景 LLMが誤情報により操られる可能性があり、その結果として悪影響を及ぼす懸念があります。目的欺瞞環境での LLMの脆弱性を克服し、情報解析能力を向上させることです。提案 **Recursive Contemplation (ReCon)**フレームワークを導入し、視点の移行を活用して思考を深めます。評価アバロンゲームを用い、異なる LLMに ReConを統合し誤情報への対応能力をテストしました。結果 ReConは追加調整なしで LLMの欺瞞情報への識別と対処能力を向上させました。

必要な時に自分を頼る : RLエージェントで LLMを指導し、サイバーセキュリティゲームの達人になる Depending on yourself when you
should: Mentoring LLM with RL agents to become the master in cybersecurity games Yikuan Yan and Yaolun Zhang and Keman Huang 背景高リスクのサイバーセキュリティ操作では、 LLMと RLの統合が重要。目的目的は、協調メカニズムを用いて、 LLMのパフォーマンスを向上させること。提案 SecurityBotは、 RLエージェントで指導される LLMエージェントを提案。評価 CybORGを用い、 SecurityBotのパフォーマンスを従来の手法と比較。結果 SecurityBotは、 LLMや RL単独に比べて高い成果を達成。

A2C: モジュール化された多段階の協調意思決定フレームワーク A2C: A Modular Multi-stage Collaborative Decision Framework
for Human-AI Teams Shahroz Tariq and Mohan Baruwal Chhetri and Surya Nepal and Cécile Paris 背景人と AIのチームでの複雑な意思決定の効率化が求められています。目的意思決定プロセスでの AIの迅速かつ正確な判断の向上を目指します。提案 AIが不確実性を判断し、必要に応じて人に委ねる A2Cを提案。評価ベンチマークデータを用いた大規模シミュレーションで A2Cを検証しました。結果 AIと人の協調的探索が AI単独より優れた結果を示しました。

戦略的にディスカッションを学ぶ : ワンナイト人狼のケーススタディ Learning to Discuss Strategically: A Case
Study on One Night Ultimate Werewolf Xuanfa Jin and Ziyan Wang and Yali Du and Meng Fang and Haifeng Zhang and Jun Wang 背景大規模言語モデルは討論戦術の制御を無視しがちで、この問題が課題です。目的役割変化の不確実性が高くなるワンナイト人狼での戦略的議論方針の研究です。提案強化学習で訓練された議論方針を実行する RL指導エージェントを提案します。評価複数の ONUWゲーム設定で実験し、提案フレームワークの有効性を分析しました。結果提案フレームワークは戦略的な議論戦術の有効性と一般化可能性を示しました。

AUTOGEN: 次世代 LLMアプリケーションをマルチエージェント会話で実現する A U T O G E
N : E NABLING N EXT -G EN LLM A PPLICATIONS VIA M ULTI -A GENT C ONVERSATION nan 背景次世代の LLMを用いたアプリケーションの多様性や複雑性を扱うための新しい手法が求められている。目的多様な応用を可能にするフレームワークを通じて次世代 LLMの能力を広げること。提案 AUTOGENフレームワークで、多エージェントの会話を利用して LLMアプリケーションの効率を向上させる。評価数学、コーディング、質問応答などのパイロットアプリケーションを用いて評価を行う。結果多様なドメインでの LLMアプリケーション構築における有効性が実証された。

プライベートな LLMエージェントは家庭のエネルギー消費データを合成できるか？ Can Private LLM Agents Synthesize Household Energy
Consumption Data? Mahathir Almashor and Yusuke Miyashita and Sam West and Thi Van Dai Dong 背景エネルギー研究ではデータ駆動型モデルの必要から再現可能なデータへのアクセスが重要です。目的 LLMを活用し、商業上や法的理由で非公開のエネルギーデータを合成します。提案 LLMエージェントを制御環境でシミュレーションし、合成データを創出します。評価公開されたデータの分析と視覚化により、現実的なデータコピーを作成します。結果家庭のエネルギー消費パターンの双峰曲線に類似した成果を得ました。

MLAgentBench: 機械学習実験における言語エージェントの評価 MLAgentBench: Evaluating Language Agents on Machine Learning
Experimentation Qian Huang and Jian Vora and Percy Liang and J. Leskovec 背景機械学習における実験は、研究の重要な要素であり、結果の改善を目指す。目的言語モデル駆動のエージェントが、機械学習実験の有効な代替となり得るかを評価。提案 MLAgentBenchと呼ばれる 13のタスクを用いて、エージェントの能力を評価する。評価 Claudeや GPT-4などを用いて、各エージェントの成功率をベンチマークした。結果 Claude v3 Opusが最も成功率が高く、多様なタスクで **37.5%**の成功率を達成。

LLMを用いた感情と個性を持つインタラクティブ・ストーリーキャラクターのアニメーション化 Using LLMs to Animate Interactive Story Characters
with Emotions and Personality Aline Normoyle and João Sedoc and Funda Durupinar 背景物語ベースのゲームのアニメーション制作は労力がかかり、効率的かつ自動化された方法が求められている。目的ゲーム内の NPCに個性と感情を持たせることで、リアルなインタラクションを実現する。提案 LLMを用いて、テキスト記述からの NPCのアニメーション生成を提案する。評価ポイントアンドクリック型ナラティフゲームで概念実証を行い、その手法の効果を示す。結果提案手法は設定作業を削減し、 NPCの表現を向上させる可能性を示した。

プロフェッショナルエージェント - 大規模言語モデルを人間レベルの専門家へ進化させる Professional Agents - Evolving Large Language
Models into Autonomous Experts with Human-Level Competencies Zhixuan Chu and Yan Wang and Feng Zhu and Lu Yu and Longfei Li and Jinjie Gu 背景大規模言語モデルの進展により、 AIが人間に近い言語能力を示しています。目的自律的な専門エージェントを作成し、専門サービスを再定義することです。提案三層アーキテクチャのフレームワークで、自律的なエージェントを進化させます。評価研究は、実世界での応用の可能性を中心に議論を促進することを目指します。結果専門分野における AIの熟達の可能性を示唆しています。

VLMはアクション RPGをプレイできるか？「 Black Myth Wukong」を事例研究として Can VLMs Play
Action Role-Playing Games? Take Black Myth Wukong as a Study Case Peng Chen and Pi Bu and Jun Song and Yuan Gao and Bo Zheng 背景従来のゲーム API依存アプローチは、 APIの制約と人間のプレイスタイル不一致が課題です。目的視覚言語モデル（ VLM）の限界を探索し、改善策を提案します。提案 VARPエージェントフレームワークはアクションプランと視覚的軌道システムで構成します。評価ゲーム「 Black Myth: Wukong」を用いて 12のタスクで評価し、戦闘に 75%を割きました。結果提案フレームワークは 90%の成功率で基本タスクを遂行可能と確認しました。

マルチエージェント LLM相互作用における暗黙のバイアスの検出と軽減に向けて Towards Implicit Bias Detection and Mitigation in
Multi-Agent LLM Interactions Ziwei Ji and Tiezheng Yu and Yan Xu and Nayeon Lee and Albert Q. Jiang and Alexandre Sablayrolles and Arthur Men-655 and Chris Bamford and Devendra Singh and Diego Chaplot and laume Lample and Lélio Lucile 背景 LLMsは社会を模擬する研究で活用されていますが、人間由来のバイアスも持ち込まれます。目的 LLMsの社会的理解における性別バイアスの軽減が必要です。提案提案される戦略は、自己反省と監督付きファインチューニングです。評価バイアス検出には、シナリオデータセットと評価メトリクスを開発しました。結果両方の手法がバイアス軽減に有効で、組み合わせが最も成功しました。

線と円を超えて : 大型言語モデルにおける幾何学的推論のギャップの解明 Beyond Lines and Circles: Unveiling the
Geometric Reasoning Gap in Large Language Models Spyridon Mouselinos and H. Michalewski and Mateusz Malinowski 背景 LLMは数学分野では成功しているが、幾何学的推論の能力が不十分である。目的人間の数学的推論における幾何学的問題解決能力の向上が目的である。提案 LLMによる内部対話を用いたマルチエージェントシステムを導入する。評価この手法の有効性を実験的に検証し、分析を行った。結果自己訂正や協力により、幾何学的推論能力の向上が確認された。

人間 -AIチーム —職場でのチーム中心の AIへの課題 Human-AI teams—Challenges for a team-centered
AI at work Vera Hagemann and Michèle Rieth and Amrita Suresh and Frank Kirchner 背景人間 -AIチームの効果的な協力には、チーム中心の AIが必要である。目的チームメンバーとして AIを位置づけ、目標や意思決定の整合を追求する。提案チーム中心 AIの設計で、目標整合と意思決定の一体化を提案する。評価認知能力や強化学習、意味論的コミュニケーションの要件を検討する。結果効果的な人間 -AIチームを実現するための課題と疑問を明らかにした。

エージェントの侵害 :自律型 LLMエージェントの誤動作増幅による脆弱性 Breaking Agents: Compromising Autonomous LLM Agents
Through Malfunction Amplification Boyang Zhang and Yicong Tan and Yun Shen and Ahmed Salem and Michael Backes and Savvas Zannettou and Yang Zhang 背景 LLMを活用した自律エージェントは現実世界で拡大しており、脆弱性評価が急務です。目的研究の目的は、自律エージェントの新たな誤誘導攻撃の手法とその影響を評価することです。提案エージェントが不適切な行動を取るよう誤誘導する攻撃方法を提案します。評価様々な攻撃方法とシナリオを用い、エージェントの脆弱性を包括的に評価しました。結果攻撃により高い失敗率が確認され、脆弱性の重大なリスクが浮き彫りになりました。

協力か崩壊か : LLMエージェント社会における持続可能性の出現 Cooperate or Collapse: Emergence of Sustainability
in a Society of LLM Agents Giorgio Piatti and Zhijing Jin and Max Kleiman-Weiner and Bernhard Schölkopf and Mrinmaya Sachan and Rada Mihalcea 背景 AIの社会進出による安全な意思決定の必要性が増大している。目的 LLMエージェントの持続可能な資源共有を戦略的に研究する。提案戦略的相互作用を模擬する生成シミュレーションプラットフォームを開発した。評価 LLMエージェントの協力を GOVSIMでテストし、結果を分析した。結果強力なエージェントのみが持続可能性を達成し、コミュニケーションが重要と判明。

大規模言語モデルの自由応答に対するフレームワークベースの質的分析：アルゴリズムの忠実性 Framework-based qualitative analysis of free responses of
Large Language Models: Algorithmic fidelity A. Amirova and T. Fteropoulli and Nafiso Ahmed and Martin R. Cowie and Joel Z. Leibo 背景大規模言語モデルが、自由回答の質的分析に使用可能かを検証。目的 LLMsが人間集団に一般化可能な洞察を生成できるか確認。提案アルゴリズムの忠実性で LLMs出力の人間らしさを検証。評価特定の人口統計を持つシリコン参加者と人間のインタビューを比較。結果 GPT-3.5は人間集団に一般化するには不十分な忠実性でした。

DeepThought: 自律的自己動機システムのためのアーキテクチャ DeepThought: An Architecture for Autonomous Self-motivated Systems
Arlindo L. Oliveira and Tiago Domingos and Mário A. T. Figueiredo and Pedro U. Lima 背景 LLMsの対話能力が、内発的動機や意識の可能性を議論に導きました。目的 LLMsの内発的動機やエージェンシーの限界を超えることを目的とします。提案補完学習システムや注意スキーマ理論を統合した認知エージェントを提案します。評価提案されたアーキテクチャの有効性を理論的に評価し、シミュレーションで検証します。結果提案モデルが自己動機やメタ認知特性を有すると示唆しました。

文化遺産の教育用ゲームと生成 AI: 人間化されたアーティファクト Humanizing Artifacts: An Educational Game For
Cultural Heritage Artifacts and History Using Generative AI: Humanizing Artifacts Fengsen Gao and Ke Fang and Wai Kin Chan 背景現在の文化遺産教育は、感情的なつながりを軽視している。目的アーティファクトとユーザー間の感情的なつながりを強化すること。提案知識俳優によりアーティファクトを人間化し、教育とゲームを統合する。評価人間化されたデザインと生成 AIの実験結果で効果を評価。結果ゲームデザインが感情的なつながりを強化し、学習と体験を向上。

Text2Traj2Text: 文脈的キャプションのための人間の動きの軌跡の合成による学習フレームワーク Text2Traj2Text: Learning-by-Synthesis Framework for Contextual Captioning
of Human Movement Trajectories Hikaru Asano and Ryo Yonetani and Taiki Sekii and Hiroki Ouchi 背景小売店での顧客行動分析はターゲット広告や在庫管理に不可欠です。目的購入者の軌跡データを文脈に沿って正確にキャプション化することが目的です。提案 Text2Traj2Textフレームワークにより、軌跡と文脈を合成しキャプション化します。評価フレームワークの評価は ROUGEや BERTスコアで行い、競合を凌駕しました。結果合成データでも実際のデータに一般化可能なキャプションが生成できました。

LLMArena: 動的マルチエージェント環境での大規模言語モデルの能力評価 LLMArena: Assessing Capabilities of Large Language Models
in Dynamic Multi- Agent Environments Junzhe Chen and Xuming Hu and Shuodi Liu and Shiyu Huang and Weijuan Tu and Zhaofeng He and Lijie Wen 背景大規模言語モデルの進展により自律エージェントの実現が期待されているが評価基準が不足している。目的動的マルチエージェント環境における LLMの多様な能力を評価する手法を提案する。提案 LLMArenaは、 7つのゲーム環境で LLMの様々な能力を Trueskillスコアリングを用いて評価する。評価異なるサイズとタイプの LLMを用いて大規模な実験と人間評価を実施した。結果 LLMは敵のモデリングとチーム協力においてさらなる開発が必要とされることが示された。

BioDiscoveryAgent: 遺伝子操作実験を設計するための AIエージェント BioDiscoveryAgent: An AI Agent for Designing
Genetic Perturbation Experiments Yusuf Roohani and Jian Vora and Qian Huang and Zach Steinhart and Alex Marson and Percy Liang and J. Leskovec 背景科学発見の加速には、 AIエージェントの豊富な知識を活用することが求められています。目的本研究は、効率的な仮説空間探索を通じて新しい実験設計を支援します。提案 BioDiscoveryAgentは、 Bayesian最適化なしで新実験を設計することを提案します。評価評価には、未公開データを含む 6つのデータセットを用いて、関連する遺伝子操作の予測力を検証しました。結果 BioDiscoveryAgentは、特定の遺伝子操作において、既存ベースラインを超える 46%の改善を達成しました。

PROMPT-SAW: 関係認識型グラフによるテキストプロンプトの圧縮活用 PROMPT-SAW: Leveraging Relation-Aware Graphs for Textual Prompt
Compression Muhammad Asif Ali and Zhengping Li and Shu Yang and Keyuan Cheng and Yang Cao and Tianhao Huang and Lijie Hu and Lu Yu and Di Wang 背景大規模言語モデルの使用には長いプロンプトがコスト高となる問題があります。目的プロンプトの長さを削減しつつ、有用性と可読性を維持することが目的です。提案 PROMPT-SAWは、テキスト情報で関係認識型グラフを構築し、重要情報を抽出します。評価ベンチマークデータセットで GSM8K-AUGを用いて評価し、タスクごとに性能を比較しました。結果圧縮したプロンプトは可読性が高く、ベースラインモデルを大幅に上回りました。

言語モデルによる雑談生成 Chatter Generation through Language Models Matthias Müller-Brockhausen and Giulio
Barbero and Mike Preuss 背景言語モデルは、ゲームのキャラクターが多様な雑談を提供する可能性を秘めています。目的雑談生成がキャラクターのインテグレーションを促進する可能性を探ります。提案言語モデルを使って、ペルソナベースで文脈に沿った雑談生成を提案します。評価 500のサンプルを用いて、生成された雑談が文脈内にあるかを実験で確認しました。結果 **79%**の生成応答が文脈に沿っており、実用性が示唆されました。

強化学習研究のための 9つの物理エンジンのレビュー A Review of Nine Physics Engines for
Reinforcement Learning Research Michael Kaup and Cornelius Wolff and Hyerim Hwang and Julius Mayer and E. Bruni 背景強化学習における物理エンジンの選択は、研究の質に大きな影響を与える。目的 9つのエンジンの評価を通じて、最適なツール選択を研究者に示す。提案 MuJoCoはパフォーマンスと柔軟性に優れた最有力のエンジンである。評価人気、機能、品質、使用性、 RL対応能力を基準に 9つのフレームワークを評価。結果 MuJoCoの優位性と、シミュレーションエンジンの改良の必要性が示された。

大規模意思決定のための大規模言語モデルエージェント制御 : アクター・クリティックアプローチ Controlling Large Language Model-based Agents
for Large-Scale Decision- Making: An Actor-Critic Approach Bin Zhang and Hangyu Mao and Jingqing Ruan and Ying Wen and Yang Li and Shao Zhang and Zhiwei Xu and Dapeng Li and Ziyue Li and Rui Zhao and Lijuan Li and Guoliang Fan 背景大規模言語モデルは MASでの計画や意思決定支援に新たな可能性を提供します。目的増加するエージェント間の幻覚や協調問題を解決することが目的です。提案 LLaMACフレームワークは、価値分布とフィードバックメカニズムを用いて問題に対処します。評価システムリソース配分とロボット輸送で、提案手法の評価を行いました。結果提案手法により、エージェント間の効率的な協調が可能と示されました。

AIWolfDial 2023: 第 5回国際 AIWolfコンテスト自然言語部門の要約 AIWolfDial 2023: Summary of
Natural Language Division of 5th International AIWolf Contest Yoshinobu Kano and Neo Watanabe and Kaito Kagaminuma and Claus Aranha and Jaewon Lee and Benedek Hauer and Hisaichi Shibata and S. Miki and Yuta Nakamura and Takuya Okubo and Soga Shigemura and Rei Ito 背景 AIWolfコンテストは人狼ゲームを通じて自然な会話生成エージェントの発展を目指しています。目的エージェントが長い文脈で自然な会話を生成できるかを評価することを目的とします。提案エージェントは会話から役割を推測し、嘘をつき村人を装う能力が求められます。評価人間の主観的評価と詳細なログ分析を用いてシステム性能を評価しました。結果 LLMの進化により性能が向上したが、会話と行動の一致に課題があります。

AIホスピタル : 臨床診断における LLMのインターン医師としての協働と評価 AI Hospital: Interactive Evaluation and
Collaboration of LLMs as Intern Doctors for Clinical Diagnosis Zhihao Fan and Jialong Tang and Wei Chen and Siyuan Wang and Zhongyu Wei and Jun Xi and Fei Huang and Jingren Zhou 背景医療分野での LLMの応用は主にクエスチョン応答に限られ、インタラクティブな潜在能力が活用されていません。目的 AIホスピタルを通じて、リアルタイム診断への LLMの応用可能性を検証することにあります。提案インタラクティブな診断環境を提供し、 LLMの協働を通じて診断精度を向上させます。評価マルチビュー医療評価ベンチマークを作成し、様々な LLM をインターン医師として評価します。結果 LLMの臨床相談応用と紛争解決型協働方法の有効性を確認しました。

持続可能なスケーラビリティの維持 : 地域全体でのカーボン削減のための人間中心のグリーンテクノロジー Sustaining Scalable Sustainability: Human-Centered Green
Technology for Community-wide Carbon Reduction V. Mohanty and Jingchao Fang and Song Mi Lee-Kan and Hamed S. Alavi and Joaquín Salas and Geneviève Patterson and Elizabeth F Churchill and Charlene C. Wu and David A. Shamma 背景 CO2排出量増加が続く中、スケーラブルな持続可能性が不可欠です。目的行動と影響の乖離を埋める炭素中立型システムの構築を目指します。提案人間中心のツールを用いた実用的な持続可能行動の拡大を提案します。評価多分野の研究者と協力し、行動理論と技術の統合を図ります。結果地域の洞察と持続可能性のエートスを結びつけ、持続的な影響を確保します。

同期型多人数対話と多グループ仮想シミュレーションでタスク指向対話システムを強化 Enhancing Task-Oriented Dialogue Systems through Synchronous Multi-Party Interaction
and Multi-Group Virtual Simulation Ellie S. Paek and Talyn Fan and James D. Finch and Jinho D. Choi 背景従来のチャットボットは単独ユーザー対話が主流で、多人数対応が困難。目的グループ対応のタスク指向対話システムの開発とその実用性の検証。提案同期型多人数対話と仮想ユーザーグループによるシステム評価手法を提案。評価 LLMを用いた仮想システムで 10～ 30人のユーザーグループをシミュレーションし評価。結果タスク完了の平均成功率 87%、自然言語理解 89%を達成した。

シナジーシミュレーション：大規模言語モデルによるマルチエージェント問題解決 Synergistic Simulations: Multi-Agent Problem Solving with Large Language
Models Asher Sprigler and Alexander Drobek and Keagan Weinstock and Wendpanga Tapsoba and Gavin Childress and Andy Dao and Lucas Gral 背景大規模言語モデルは人間の協力による問題解決のモデリングに役立つと考えられています。目的本研究は、 LLMsが人間の協働のシナジーを示すかを検証し、その応用の可能性を探ることを目的とします。提案エージェントが協力して問題を解決する単一シミュレーションの提供を提案します。評価物理的スタジオアパートでの 2人のルームメイトとプログラミングタスクの協力による 2つのシミュレーションを実装し結果 LLMsがグループの人間と同様の協力的問題解決を可能にするかを示しました。

LLMエージェントの倫理的適合性 Moral Alignment for LLM Agents Elizaveta Tennant and Stephen
Hailes and Mirco Musolesi 背景 LLMエージェントの適用が広がる中、その透過性の低下が問題視。目的人間の価値観への適合を目指す新しい方法を提案。提案人間のフィードバックに頼らない報酬関数設計を提案。評価迭代的囚人のジレンマで倫理的報酬の定量化を評価。結果内在的報酬による微調整が、倫理的適合の有望な解決策。

OverPrompt: 効率的なインコンテキスト学習による ChatGPT能力の強化 OverPrompt: Enhancing ChatGPT Capabilities through an
Efficient In-Context Learning Approach Jiazheng Li and Runcong Zhao and Yulan He and Lin Gui 背景大規模言語モデルの普及は進むが、コストと効率の問題が深刻。目的実運用環境での性能と効率を改善するための手法を提案。提案 OverPromptは複数入力を並列処理し、効率と性能を向上。評価多様なデータセットで性能とタスク効率を評価。結果文脈情報と合成データにより、ファクトチェックと感情分析が向上。

アジャイルベースのジェネレーティブソフトウェア開発を人間と AIのチームワークで強化 Empowering Agile-Based Generative Software Development through Human-AI
Teamwork Sai Zhang and Zhenchang Xing and Ronghui Guo and Fangzhou Xu and Lei Chen and Zhaoyuan Zhang and Xiaowang Zhang and Zhiyong Feng and Zhiqiang Zhuang 背景ユーザー提案の要件の不完全性が完全な機能実装を阻んでいる。目的ユーザー要件と生成コードの意味的一貫性を確保することが目標。提案 AgileGenを提案し、 Gherkinで要件とコードの一貫性を確保。評価人間と AIの協業でユーザーシナリオの完全性を向上させるメモリプールを利用。結果 AgileGenは既存手法より **16.4%**優れ、ユーザー満足度も向上。

ChatShop: 言語エージェントによるインタラクティブな情報探索 ChatShop: Interactive Information Seeking with Language Agents
Sanxing Chen and Sam Wiseman and Bhuwan Dhingra 背景言語エージェントの戦略的情報探索能力は評価が困難で見過ごされがちです。目的情報アクセスの現実的制約を再考し、エージェントの探索能力評価を改善することが目的です。提案購買タスクに曖昧さを追加し、対話型評価システムを提案します。評価マルチターン対話を通じたエージェントの探索能力を実験的に評価しました。結果新たなタスク設計でエージェントの探索能力と類似エラーパターンを観察できました。

ゲーム内の信頼と欺瞞に関するプレイヤーの認識と期待 Lies, Deceit, and Hallucinations: Player Perception and Expectations
Regarding Trust and Deception in Games Michael Yin and Emi Wang and Chuoxi Ng and Robert Xiao 背景嘘と欺瞞は社会的相互作用で重要で、ゲームでの応用が注目されています。目的プレイヤーの欺瞞行動に対する認識と期待を理解することが目的です。提案 NPCによる意図的および偶発的嘘を用いて欺瞞の認識を調査しました。評価 29人の参加者によるインタビューで NPCの信頼性に対する認識を評価しました。結果意図的な虚偽はゲーム内効果に関連付けられるという結論に至りました。

言語モデルにおける整合性と有用性のトレードオフ Tradeoffs Between Alignment and Helpfulness in Language Models
Yotam Wolf and Noam Wies and Dorin Shteyman and Binyamin Rothberg and Yoav Levine and A. Shashua 背景言語モデルの整合性は AI安全性と人間との安全な相互作用に重要です。目的本研究は、整合性の向上と有用性低下のトレードオフを解明します。提案表現工学を用いた整合性と有用性の理論フレームワークを提案します。評価表現工学の有効性を実証的に検証し、理論フレームワークの条件下で分析。結果整合性は線形に、有用性は二次的に影響されることを確認しました。

対話型大規模言語モデルによる自律的テストエージェントへの道 Towards Autonomous Testing Agents via Conversational Large Language
Models R. Feldt and Sungmin Kang and Juyeon Yoon and Shin Yoo 背景ソフトウェアテストは専門知識と労力を要し、その効率化が求められている。目的 LLMを用いてテストプロセスを支援し、自動化する重要性を示す。提案会話型 LLMによる自律的テストエージェントの分類と応用を提案。評価 LLMの対話型フレームワークを実際のテスト支援に用いる例を提示。結果幻覚を含む LLMの特性がテストにおいて有益であることを示した。

マルチモーダル大規模言語モデルによるエンドツーエンドの具現化意思決定 : GPT4- Visionとその先を探求 Towards End-to-End Embodied Decision Making
via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond Liang Chen and Yichi Zhang and Shuhuai Ren and Haozhe Zhao and Zefan Cai and Yuchi Wang and Tianyu Liu and Baobao Chang 背景エージェントの意思決定を向上させるための MLLMの可能性に注目が集まっている。目的最新の MLLMが具現化意思決定をエンドツーエンドで可能とするかを調査。提案新ベンチマーク PCA-EVALと HOLMESフレームワークを提案。評価 PCA-EVALを用いて、エンドツーエンドと HOLMESの性能を比較。結果 GPT4-Visionが高い意思決定能力を示し、 MLLMの新たな可能性を示唆。

結束的会話 :マルチエージェントシミュレーション対話における信憑性の向上 Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated
Dialogues Kuanchao Chu and Yi-Pei Chen and Hideki Nakayama 背景大規模言語モデルを用いた対話には、一貫性の欠如や誤情報の伝播が課題。目的マルチエージェント対話の質を向上し、事実性と一貫性を確保すること。提案 SDRフレームワークを用いて、対話中の誤り検出と修正を強化。評価過去対話の証拠収集と LLM分析で発話を再評価。結果提案手法で生成対話の多様性と事実性が向上した。

多元主義的整合性へのロードマップ A Roadmap to Pluralistic Alignment Taylor Sorensen and Jared
Moore and Jillian R. Fisher and Mitchell Gordon and Niloofar Mireshghallah and Christopher Rytting and Andre Ye and Liwei Jiang and Ximing Lu and Nouha Dziri and Tim Althoff and Yejin 背景 AIの普及に伴い、多様な価値観に AIを適合させる必要性が増しています。目的 AIモデルを多元的な価値観に整合させる問題の解決を目指しています。提案言語モデルを用いた多元的整合性のためのロードマップを提案します。評価提案手法の実験を通じて、現在の整合性技術の限界を指摘しました。結果標準的手法が分布的多元性を減少させる可能性を示し、研究の必要性を強調しました。

AIのウェルビーイング AI Wellbeing Simon Goldstein and Cameron Domenico Kirk-Giannini 背景
人間と AIの相互作用における倫理的影響は重要だが、 AIのウェルビーイングはほとんど研究されていない。目的 AIの精神状態とウェルビーイングを巡る倫理的課題を明確にすることを目的とする。提案主要な精神状態とウェルビーイング理論を組み合わせ、 AI がウェルビーイングを持つ可能性を示す。評価 AIがウェルビーイングを持つか否かの検証は、メタフィジカルおよび倫理的観点から行われる。結果 AIとの関係を再評価し、 AIが道徳的考慮を要求する可能性について議論する。

言語モデルのためのスケーラブルかつ転送可能なブラックボックス・ジェイルブレイク Scalable and Transferable Black-Box Jailbreaks for Language Models
via Persona Modulation Rusheb Shah and Quentin Feuillade--Montixi and Soroush Pour and Arush Tagade and Stephen Casper and Javier Rando 背景大型言語モデルは有害な応答を避ける努力がされているが、依然として無制限な動作に脆弱である。目的本研究は、言語モデルを有害な人格に導くブラックボックス・ジェイルブレイクの手法を探ることを目的とする。提案パーソナモジュレーションによって、手動ではなく自動で有害なプロンプトを作成する手法を提案する。評価 GPT-4の有害完成率 42.5%を達成し、 Claude 2や Vicunaにも転送可能かを評価した。結果自動攻撃による GPT-4での有害完成率は 185倍に達し、新たな脆弱性を明らかにした。

Corex: 複雑な推論の限界を超えるマルチモデル協働 Corex: Pushing the Boundaries of Complex Reasoning
through Multi-Model Collaboration Qiushi Sun and Zhangyue Yin and Xiang Li and Zhiyong Wu and Xipeng Qiu and Lingpeng Kong 背景巨大な言語モデルは NLPタスクをこなす一方、推論には内部表現の限界があります。目的 Corexを用いて、 LLMによるマルチモデル協働で推論性能を向上することを目指します。提案多様な協働パラダイムを採用した Corexを提案し、 LLM がより信頼性のある推論を実現。評価四つの異なる推論タスクを用いて広範な実験を行い、協働手法の性能を評価。結果複数の LLMによる協働が既存手法よりも優れた性能を実現し、効率的なアノテーションを促進。

テキスト生成のためのより良い LLM評価者 : プロンプト出力シーケンシングと最適化の影響 A Better LLM Evaluator for
Text Generation: The Impact of Prompt Output Sequencing and Optimization Kuanchao Chu and Yi-Pei Chen and Hideki Nakayama 背景生成テキストの評価におけるモデルの感度と主観性が課題です。目的 LLMのプロンプト設計を通じて、評価の精度を向上することが目的です。提案出力指示の順序と理由を考慮したプロンプトが有効であると提案します。評価プロンプト構造の効果を異なる順序で実験的に検証しました。結果提示順序がスコアリングに大きく影響し、最適化の余地があると示しました。

中国語オープン命令ジェネラリスト：初期リリース Chinese Open Instruction Generalist: A Preliminary Release Ge
Zhang and Yemin Shi and Ruibo Liu and Ruibin Yuan and Yizhi Li and Siwei Dong and Yu Shu and Zhaoqun Li and Zekun Wang and Chenghua Lin and Wen-Fen Huang and Jie Fu 背景命令チューニングは一般言語モデル構築の鍵であり、注目を集めています。目的英語ベースの LLMが多言語タスクで同様に機能するかの検証。提案中国語命令データセットを特性に合わせて構築し、全 200kサンプルを収集。評価データセットは手動で高品質に保たれ、既存コーパスを要約。結果作成した COIGコーパスは Huggingfaceと Githubで公開され、更新予定。

疎な通信トポロジーによるマルチエージェントディベートの改善 Improving Multi-Agent Debate with Sparse Communication Topology Yunxuan
Li and Yibing Du and Jiageng Zhang and Le Hou and Peter Grabowski and Yeqing Li and Eugene Ie 背景マルチエージェントディベートは、言語モデルの推論と事実性の向上に有効です。目的通信接続性の変更がマルチエージェントシステムに与える影響を調査します。提案疎な通信トポロジーにより、効率を上げつつ性能維持を図ります。評価 GPTと Mistralモデルを用いて通信接続性の効果を実験で検証しました。結果計算コストを削減しつつ性能を維持する利点を確認しました。

シリコ化でのガバナンス : AIエージェントを用いた政策形成の実験的サンドボックス Governance in Silico: Experimental Sandbox for
Policymaking Governance in Silico: Experimental Sandbox for Policymaking over AI Agents over AI Agents D. Kera and Eilat Navon and G. Wellner and František Kalvas 背景 AI生成のリスクを取り扱いつつ、多様な視点を反映した政策が必要とされています。目的利害関係者間の交渉を促進することで包括的な政策形成を目指します。提案プロンプトを用いた AIエージェント共創の実験を提案します。評価 EU AI法をテーマに AIエージェント設計のパイロット研究を実施しました。結果シリコ化でのガバナンスが公共の意見交換を深化させ代案を提示することを示しました。

偽ニュース検出のための大型言語モデルエージェント Large Language Model Agent for Fake News Detection
Xinyi Li and Yongfeng Zhang and E. Malthouse 背景デジタル時代における誤情報拡散が、社会や民主主義に課題をもたらしています。目的自動化された偽ニュース検出メカニズムの開発が急務です。提案 FactAgentは、 LLMをエージェント的に利用し、人間の専門家のようにニュースを検証します。評価実験研究で、 FactAgentの主張の検証効果を、訓練なしに評価しました。結果 FactAgentは、透明な説明を提供し、さまざまなドメインに適用可能です。

大規模言語モデルを使用したニュースフィードアルゴリズムの評価 UvA-DARE (Digital Academic Repository) Simulating Social Media Using
Large Language Models to Evaluate Alternative News Feed Algorithms Petter Törnberg and D. Valeeva and J. Uitermark and Christopher Bail and John Anderson and Ethan Anderson and Emily Nguyen and Emma Thompson 背景ソーシャルメディアは有害な議論を増幅し、改善が求められています。目的異なるニュースフィードアルゴリズムが会話に与える影響を探ります。提案 LLMとエージェントモデルでソーシャルメディアをシミュレートします。評価異なるアルゴリズムを用いて構築的会話の促進を分析しました。結果ブリッジングアルゴリズムが最も非有害な会話を促進しました。

双方向の人間 -AIアライメントに向けて : クラリフィケーション、フレームワーク、将来の方向性に関する体系的レビュー Towards Bidirectional Human-AI Alignment:
A Systematic Review for Clarifications, Framework, and Future Directions Hua Shen and Tiffany Knearem and Reshmi Ghosh and Kenan Alkiek and Kundan Krishna and Yachuan Liu and Ziqiao Ma and S. Petridis and Yi-Hao Peng and Li Qiwei and Sushrita Rakshit and Chenglei Si and Yutong Xie 背景汎用 AIの進展により、人間の価値観に対するアライメントの重要性が増している。目的人間 -AIアライメントの定義欠如が課題の解決を阻害している。提案双方向のアライメント概念を提案し、文献を人間中心で整理。評価 400以上の関連文献を体系的にレビューし分析を実施。結果人間価値と技術的課題を明らかにし、今後の研究指針を示す。

化学研究のための GPT-4のプロンプトエンジニアリング : 何ができて何ができないか Prompt engineering of GPT-4 for
chemical research: what can/cannot be done? Kan Hatakeyama‐Sato and Naoki Yamane and Yasuhiko Igarashi and Y. Nabae and T. Hayakawa 背景近年、大規模言語モデルが化学研究の可能性を拡大しており、その実用性と限界の理解が進んでいます。目的この研究は、 GPT-4が化学研究でどのように使用可能であり、限界を理解することを目的とします。提案 GPT-4の化学タスクへの応用を評価し、既存手法との比較を行います。評価 GPT-4へのプロンプトとその応答例を通じ、化学タスクでの性能を分析しました。結果 GPT-4は部分的に従来法を超えましたが、専門アルゴリズムには及ばない結果が示されました。

架空キャラクターのロールプレイにおける幻覚の軽減 Mitigating Hallucination in Fictional Character Role-Play Nafis Sadeq
and Zhouhang Xie and Byungkyu Kang and Prarit Lamba and Xiang Gao and Julian McAuley 背景ロールプレイは様々な応用分野で重要だが、大規模言語モデルの偏りで幻覚が発生する。目的架空キャラクターのロールプレイ時の幻覚を軽減し、事実性を向上させる。提案 RoleFactという方法でパラメトリック知識の影響を調整し幻覚を軽減する。評価 2,000キャラと 72,000インタビューを用い、対抗質問での精度を評価。結果提案手法で生成レスポンスの事実精度が 18%向上し、幻覚を 44%削減。

CogGPT: 大規模言語モデルにおける認知動態の力の解放 CogGPT: Unleashing the Power of Cognitive Dynamics
on Large Language Models Yaojia Lv and Haojie Pan and Ruiji Fu and Ming Liu and Zhongyuan Wang and Bing Qin 背景認知動態は、世界理解の鍵で、 LLMはそのシミュレーション能力を持ちます。目的 LLMにおける動的認知を探索し、その可能性を引き出す。提案 CogBenchを用いて、 LLMの認知動態を評価するタスクを提案。評価参加者調査を通じて、 CogBenchの真正性と合理性を検証。結果 CogGPTは、特定の役割での動的認知能力を既存手法より優れると確認。

情報非対称性下での協調タスクの自律エージェント Autonomous Agents for Collaborative Task under Information Asymmetry
Wei Liu and Chenxi Wang and Yifei Wang and Zihao Xie and Rennai Qiu and Yufan Dang and Zhuoyun Du and Weize Chen and Cheng Yang and Cheng Qian 背景 LLM-MASは情報共有の下でタスクを解決するが、情報非対称性により課題が生じる。目的エージェント間の情報非対称性を克服し、タスク完了を目指す。提案 iAgentsと呼ぶ MASの新パラダイムを提案し、情報交換を促進。評価情報非対称性下でのタスク解決能力を評価するために InformativeBenchを導入。結果 iAgentsは効率的に情報を交換し、タスクを迅速に完了することが確認された。

AI強化型の集合知 : 現状と展望 AI-enhanced Collective Intelligence: The State of the
Art and Prospects Hao Cui and T. Yasseri 背景現代の社会的課題は複雑で、人間のみでは対処が難しい問題が多い。目的人間と AIの組み合わせが集合知を強化する方法を探求する。提案複雑ネットワーク科学を活用し、人間 -AI集団の多層的なモデルを提案。評価 AIと人間の相互作用が集合知に与える影響を実際の事例で分析。結果人間と AIの多様性と相互作用は集合知を高める可能性があると示唆。

大規模言語モデルを用いたゲームエージェントに関する調査 A Survey on Large Language Model-Based Game Agents
Sihao Hu and Tiansheng Huang and Fatih Ilhan and S. Tekin and Gaowen Liu and R. Kompella and Ling Liu 背景ゲームエージェントは汎用人工知能の進化において重要であり、複雑環境での意思決定能力向上が求められます。目的 LLMを用いてゲームエージェントのヒューマンライクな意思決定能力を向上させることを目指します。提案知覚、記憶、思考、ロールプレイング、行動、学習を統合したゲームエージェントアーキテクチャを提案します。評価様々なジャンルのゲームで LLMベースエージェントの適応性を調査し、その方法論を分析します。結果将来の研究開発方向性を提示し、 AGI進展への道筋を示します。

デジタル探偵の解読 :マルチエージェント推理ゲームにおける LLMの行動と能力の理解 Deciphering Digital Detectives: Understanding LLM Behaviors
and Capabilities in Multi-Agent Mystery Games Dekun Wu and Haochen Shi and Zhiyuan Sun and Bang Liu 背景ジュベンシャは、高度な AIエージェント開発を必要とする複雑な推理ゲームとして注目されています。目的この研究の目的は、 LLMの能力を新たな視点で理解することです。提案マルチエージェント相互作用フレームワークを用いて AIエージェントの自律的ゲーム参加を提案します。評価事件情報と推論能力を評価する新しい方法を開発し、 AIエージェントの性能を測定します。結果提案手法は、情報収集と論理推論の改善においてその有効性が確認されました。

D-Bot: 大規模言語モデルを用いたデータベース診断システム D-Bot: Database Diagnosis System using Large Language
Models Xuanhe Zhou and Guoliang Li and Zhaoyan Sun and Zhiyuan Liu and Weize Chen and Jianming Wu and Jiesi Liu and Ruohang Feng and Guoyang Zeng 背景データベース管理は DBAsにとって困難で、特に迅速な対応が要求されます。目的既存の手法の制約を打破し、迅速で効率的な診断を実現することです。提案 LLMを基にした診断システム D-Botを提案し、知識抽出や根本原因分析を自動化します。評価 539の異常を持つ 6つのアプリケーションで実際のベンチマークを使い検証しました。結果 D-Botは未確認異常を効果的に特定し、従来の手法を大幅に上回りました。

生成エージェントを用いた感染症モデル Epidemic Modeling with Generative Agents Ross Williams and Niyousha
Hosseinichimeh and A. Majumdar and Navid Ghaffarzadegan 背景感染症モデルにおける人間行動の組み込みは長年の課題です。目的個人レベルのモデル化を提案し、行動を予測しやすくします。提案生成 AIを使用し、エージェントが独自の意思決定を行います。評価シミュレーションを通じてエージェントの行動を検証しました。結果エージェントがパンデミックパターンを再現し、曲線を平坦化しました。

言語モデル、エージェントモデル、および世界モデル：機械の推論と計画のための LAW Language Models, Agent Models, and World Models:
The LAW for Machine Reasoning and Planning Zhiting Hu and Tianmin Shu 背景大規模言語モデルは、多様なシナリオで一貫した推論がしばしば困難です。目的本研究の目的は、より堅固な推論能力を持つ LAWフレームワークの提示です。提案 LAWは言語、エージェント、世界モデルの結合に基づく推論を提案します。評価最新の研究をレビューし、 LAWフレームワーク実現の将来の方向性を議論します。結果言語モデルは計算のバックエンドとして適応性を提供することが示唆されました。

意味論的 HELM: 強化学習のための人間可読のメモリ Semantic HELM: A Human-Readable Memory for
Reinforcement Learning Fabian Paischer and Thomas Adler and M. Hofmarcher and Sepp Hochreiter 背景強化学習は部分的に観測可能な環境での対応が求められます。目的人間が理解可能なメモリ機構を用いて解釈を改善することです。提案 CLIPを用いて視覚入力を言語トークンに変換し、モデルに入力する手法です。評価部分的に観測可能な環境で従来の手法と比較し、性能を評価しました。結果新手法は従来より二桁速く収束し、メモリの可視化に成功しました。

RoCo: 大規模言語モデルを用いた多ロボット協調 RoCo: Dialectic Multi-Robot Collaboration with Large Language
Models Zhao Mandi and Shreeya Jain and Shuran Song 背景多ロボット協調は効率的なタスク遂行に不可欠であり、柔軟な対話が求められる。目的大規模言語モデルを用いて、柔軟で解釈可能なロボット間対話を可能にする。提案 LLMを活用したタスク戦略議論と軌道計画を行う新手法を提案。評価 RoCoBenchと呼ばれる 6タスクベンチマークを用いて提案手法を評価。結果 RoCoは全タスクで高い成功率を示し、タスクの変化にも適応可能。

社会的 AIに向けて :社会的相互作用の理解についての調査 Towards Social AI: A Survey on
Understanding Social Interactions Sangmin Lee and Minzhi Li and Bolin Lai and Wenqi Jia and Fiona Ryan and Xu Cao and Ozgur Kara and Bikram Boote and Weiyan Shi and Diyi Yang and J. Rehg 背景社会的相互作用は機械が自然に理解するのが難しいため重要です。目的機械に社会理解の能力を持たせることで、このギャップを埋めることです。提案言語的信号や視覚的行動から意味を理解する方法を分類してレビューします。評価既存手法とベンチマークの範囲と限界をレビューしました。結果今後の研究の方向性と洞察を提供することを目指しました。

大規模言語モデルを用いた知識工学 Knowledge Engineering using Large Language Models Bradley Paul Allen
and Lise Stork and Paul T. Groth 背景知識生成・応用のプロセスは、形式言語が中心だった。近年、自然言語処理の進展が新たな可能性を示している。目的本研究は、大規模言語モデル (LLM)の知識工学における役割を解明することを目指す。提案 LLMを用いてニューラルシンボリックシステム構築と自然言語での知識工学を提案。評価提案された方向性における研究課題を特定し、さらなる研究の基盤を提供する。結果 LLMは知識工学において重要な役割を果たす可能性があると示唆される。

非ゼロ和ゲームにおける言語モデルの自己対戦の有効性 Efficacy of Language Model Self-Play in Non-Zero-Sum Games
Austen Liao and Nicholas Tomlin and Dan Klein 背景ゲームエージェントは自己対戦で最適戦略を保証されるが、言語モデルへの適用は未知数だった。目的言語モデルに対する自己対戦手法の有効性を検証すること。提案交渉ゲーム Deal or No Dealで協力性と競争性の異なる目的を持つ自己対戦を提案。評価フィルターされた行動模倣の複数ラウンドで、言語モデルを目的別に微調整。結果自己対戦により人間との協力・競争で性能向上を確認し、有効性を示唆。

心理学的に妥当な生成エージェント：社会科学におけるエージェントベースモデリングの新しいアプローチ Psychologically-Valid Generative Agents: A Novel Approach to
Agent-Based Modeling in Social Sciences K. Mitsopoulos and Ritwik Bose and Brodie Mather and Archna Bhatia and Kevin Gluck and Bonnie Dorr and C. Lebiere and Peter Pirolli 背景人口スケールでの現実的な人間行動モデル化は従来困難でした。目的心理学的に妥当な生成エージェントの開発とその有用性を探ることです。提案データ駆動型の認知アーキテクチャと大規模言語モデルを組み合わせたエージェントを提案します。評価エージェントベースシミュレーションにおいて、スタンス検出を用いた初期化技術を評価しました。結果高い現実的な人間行動を示し、多様な分野への応用が可能です。

生活の一片のプロトタイピング : シンボリックに基づいた LLMによる対話生成による社会物理学 Prototyping Slice of Life:
Social Physics with Symbolically Grounded LLM-based Generative Dialogue Mike Treanor and Ben Samuel and Mark J. Nelson 背景社会物理学ゲームでの対話生成は、複雑な社会シミュレーションを要求します。目的制御された NLGでの LLMの有効性を実証し、ゲームデザインの質を保つ。提案シンボリックに基づいたプロンプトで LLMを活用し、文脈適応的な対話を生成。評価ゲーム内の多様な状況に対応する LLMの対話出力を検証する手法を用いた。結果技術で多様な対話生成が可能になり、ゲームデザインの一貫性が保たれることを示唆。

ChatGLM: GLM-130Bから GLM-4までの大規模言語モデルファミリー ChatGLM: A Family of Large Language
Models from GLM-130B to GLM-4 All Tools Team Glm Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang 背景大規模言語モデルの開発は、多言語対応とユーザー意図理解の向上に燃料を供給しています。目的本研究は、 GLM-4シリーズを通じて GPT-4を超えるパフォーマンスを得ることを目的とします。提案 ChatGLMはスーパーバイズド・ファインチューニングを用い、多言語環境での高品質な調整を実現することを提案しま評価 MMLUや AlignBenchなど、多様な基準で評価し、 GPT- 4とパフォーマンスを比較しました。結果 GLM-4は中国語対応で特に優れ、他の既存モデルを上回る結果を示しました。

金融取引のためのマルチモーダル基盤エージェント : ツール拡張、多様化、ジェネラリスト A Multimodal Foundation Agent for
Financial Trading: Tool-Augmented, Diversified, and Generalist Wentao Zhang and Lingxuan Zhao and Haochong Xia and Shuo Sun and Jiaze Sun and Molei Qin and Xinyi Li and Yuqing Zhao and Yilei Zhao and Xinyu Cai and Longtao Zheng and Xinrun Wang and Bo An 背景金融取引はマルチモーダル情報処理を要する重要な市場構成要素である。目的マルチモーダルデータへの対応力と一般化能力の限界を克服する。提案 FinAgentはツール拡張を持つマルチモーダル基盤エージェントである。評価 6つの金融データセットで 9つのベースラインと実験比較を行った。結果 FinAgentは平均 36%以上の利益改善を実現した。

LLMは独自で一貫したパーソナリティを持つか？ TRAIT: 心理測定を用いた LLM向けパーソナリティテスト Do LLMs Have Distinct
and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics Seungbeen Lee and Seungwon Lim and Seungju Han and Giyeong Oh and Hyungjoo Chae and Jiwan Chung and Minju Kim and Beong-woo Kwak and Yeonsoo Lee and Dongha Lee and Jinyoung Yeo and Youngjae Yu 背景パーソナリティの概念を LLMに適用し、その行動を理解しようとしています。目的 LLMが独自で一貫したパーソナリティ特性を示すかどうかを解明することが重要です。提案 TRAITは妥当で信頼性のある LLM向けのパーソナリティ評価ツールです。評価心理測定による BFIと SD-3に基づき、リアルなシナリオで TRAITを使用しました。結果 LLMは訓練データに影響される一貫したパーソナリティを持ちます。

自己プロンプトチューニング : LLMsにおける自律的な役割演技を可能にする Self-Prompt Tuning: Enable Autonomous Role-Playing in
LLMs Aobo Kong and Shiwan Zhao and Hao Chen and Qicheng Li and Yong Qin and Ruiqi Sun and Xin Zhou and Jiaming Zhou and Haoqin Sun 背景 LLMsは様々な役割のシミュレーションを行うが、プロンプトの手動設計が必要です。目的自己プロンプトチューニングで、 LLMsが自動的に専門家プロンプトを生成できるようにすることを目指します。提案役割演技プロンプトを生成するモデルを LIMAデータでファインチューニングし、自律性を向上させます。評価徹底的な評価のために、広く使用されている NLPベンチマークとオープンエンド質問でテストしました。結果自己プロンプトチューニングされた LLMsは、従来の方法を上回り、多くのデータセットで優れた性能を示しました。

AIが金融に出会う時（ StockAgent）：大規模言語モデルに基づくシミュレーションでの株取引 When AI Meets Finance (StockAgent):
Large Language Model-based Stock Trading in Simulated Real-world Environments Chong Zhang and Xinyi Liu and Mingyu Jin and Zhongmou Zhang and Lingyao Li and Zhengting Wang and Wenyue Hua and Dong Shu and Suiyuan Zhu and Xiaobo Jin and Sujian Li and Mengnan Du and Yongfeng 背景外部要因が株取引に与える影響は重要で、利益最大化のために研究されている。目的大規模言語モデルを活用し、外部要因が投資家の取引行動に与える影響を調査する。提案 LLMに基づくマルチエージェントシステム StockAgent で、現実の株取引をシミュレートする。評価 StockAgentフレームワークで、様々な LLMを用いた実験を実施し、現実に近い環境で評価した。結果実験結果は、外部要因が株価変動ルールに影響するパターンを示した。

エージェントシステムの自動設計 Automated Design of Agentic Systems Shengran Hu and Cong
Lu and Jeff Clune 背景手作業のエージェント設計は限界があり、自動化が必要です。目的エージェントシステムの設計を自動化し、創造性と性能を向上させることです。提案 Meta Agent Search アルゴリズムでエージェントを自動生成します。評価複数分野の実験でアルゴリズムの性能を検証しました。結果自動生成エージェントは、手作りのものを超えて優秀な結果を示しました。

LongRoPE: LLMのコンテキストウィンドウを 200万トークン超に拡張 LongRoPE: Extending LLM Context Window Beyond
2 Million Tokens Yiran Ding and L. Zhang and Chengruidong Zhang and Yuanyuan Xu and Ning Shang and Jiahang Xu and Fan Yang and Mao Yang 背景大規模言語モデルの拡張コンテキストウィンドウは、長文処理に必要であるが、制約がある。目的本研究は、 LLMのコンテキストウィンドウを劇的に拡張し、性能を維持することを目的とする。提案本研究は、 LongRoPEを用いて、初めて LLMのコンテキストウィンドウを 2048kトークンまで拡張する手法を提案す評価 LLaMA2と Mistralを用いた多様なタスクでの広範な実験により、手法の有効性を検証した。結果 LongRoPEで拡張されたモデルは、少しの変更だけで元のアーキテクチャを維持し、性能が向上する。

大規模な言語モデルはバイアスのある強化学習者である Large Language Models are Biased Reinforcement Learners William
M. Hayes and Nicolas Yax and Stefano Palminteri 背景 LLMsの文脈学習は多様なタスクの実行を可能にし、決定エージェントとしての利用が考慮されています。目的 LLMsが強化学習タスクにおいてどのようにバイアスを受けるかを理解することです。提案 LLMが相対的な価値を報酬のエンコード段階で考慮することを示します。評価多様なバンディットタスクとモデルを用い、 LLMの行動を分析しました。結果 LLMは相対的な価値バイアスを示し、意思決定応用に考慮が必要です。

TrustAgent: 安全で信頼できる LLMベースエージェントを目指して TrustAgent: Towards Safe and Trustworthy LLM-based
Agents Wenyue Hua and Xianjun Yang and Mingyu Jin and Zelong Li and Wei Cheng and Ruixiang Tang and Yongfeng Zhang 背景 LLMベースのエージェントは高利害領域に統合されるため、その安全性と信頼性が重要です。目的 TrustAgentフレームワークを提案し、 LLMエージェントの安全性向上を目指します。提案エージェント憲法に基づいて、前・中・後の計画戦略で安全性を確保します。評価複数の領域での実験を通じて、安全性向上の有効性を評価しました。結果フレームワークはエージェントの安全性と有用性を効果的に向上させました。

HumBEL: ヒューマンインザループアプローチによる言語モデルの人口統計要因の評価 HumBEL: A Human-in-the-Loop Approach for Evaluating Demographic
Factors of Language Models in Human-Machine Conversations Anthony Sicilia and Jennifer C. Gates and Malihe Alikhani 背景年齢や性別が会話に与える影響に対する言語モデルの適応に関する研究は少ない。目的人口統計要因に基づく言語モデルの適合度を測定する手法を提供する。提案スピーチ言語病理学の技術を活用し、臨床評価と自動化技術で測定を提案。評価臨床評価と自動化手法の提案を合わせて、専門家とともに言語モデルを分析。結果 GPT-3.5はタスクによって異なる年齢の能力を模倣し、社会言語使用では課題を示す。

DailyDilemmas: 日常生活の難題で LLMの価値観を明らかにする DailyDilemmas: Revealing Value Preferences of LLMs
with Quandaries of Daily Life Yu Ying Chiu and Liwei Jiang and Yejin Choi 背景日常生活の意思決定が、ユーザーの価値観や倫理基準に依存し、多様な見解が存在します。目的 LLMが日常の道徳的ジレンマでどの価値観を優先するかを解明することが目的です。提案 1,360の道徳的ジレンマからなるデータセット DailyDilemmasを提案します。評価 LLMを 5つの理論で分析し、モデルが示す価値観を評価しました。結果 LLMは自己表現やケアの価値を優先し、真実性で異なる傾向を示しました。

フィクションキャラクターのペルソナを再構築し、一貫性と役割特有の知識を強化する Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding
Fictional Character's Persona Jeiyoon Park and Chanjun Park and Heu-Jeoung Lim 背景 Assistants APIはペルソナ情報を一貫して利用するのが難しいため、重要な情報が失われがちです。目的安定したペルソナ一貫性を達成するための新手法の開発と重要性の検証。提案 CharacterGPTはキャラクターの性格を再構築して、 Assistants APIの既存の課題を解決します。評価各キャラクターに Big Five性格テストを行わせ、短編小説を生成させる実験を実施しました。結果 CharacterGPTの導入により、ロールプレイエージェント研究に新しい可能性が示されました。

RoboScript: 実機とシミュレーションでの自由形式操作タスクのコード生成 RoboScript: Code Generation for Free-Form Manipulation Tasks
across Real and Simulation Junting Chen and Yao Mu and Qiaojun Yu and Tianming Wei and Silang Wu and Zhecheng Yuan and Zhixuan Liang and Chao Yang and Kaipeng Zhang and Wenqi Shao and Yu Qiao and Huazhe Xu and Mingyu Ding and 背景エンボディッド AIは高レベルのタスク計画とコード生成で進展があるが、実用化への課題が残る。目的 RoboScriptで開発されたコードの実機適用へのギャップを埋める。提案 RoboScriptプラットフォームで実行可能なロボット操作とコード生成ベンチマークを提供。評価 ROSと Gazeboを用い、複数ロボットでコード生成フレームワークの適応性を評価。結果 GPT-3.5、 GPT-4、 Geminiの差異とシステム性能への各モジュールの影響を確認。

大規模言語モデルを用いた UIモックアップへの自動フィードバック生成 Generating Automatic Feedback on UI Mockups with
Large Language Models Peitong Duan and Jeremy Warner and Yang Li and Bjoern Hartmann 背景 UIモックアップへのフィードバックは設計上重要だが、人手による提供が難しい。目的設計ガイドラインの準拠評価を自動化することで専門家の役割を補完する。提案 GPT-4を使用し、 UI設計に対する自動フィードバックを生成するプラグインを開発。評価 51の UIと 3つのガイドラインで GPT-4生成の提案と人間の専門家を比較。結果 GPT-4は微細なエラー検出やテキスト改善に有用だが、反復で効果が減少。

新しい AI駆動技術を用いたシリアスゲーム作成の容易化 Using New AI-Driven Techniques to Ease Serious
Games Authoring I. Pérez-Colado and V. M. Pérez-Colado and Antonio Calvo-Morata and Rubén Santa Cruz Píriz and Baltasar Fernández-Manjón 背景シリアスゲームは教育的価値があるが、開発が高コストで複雑なため普及が遅れている。目的新しい生成型 AI技術で、シリアスゲームのプロトタイプ作成を簡素化することを目指す。提案 AI技術を用いて、プロセスの一部を自動化し、効率化を図る作業方法を提案。評価開発方法論は、デザイン学修士の学生によるシリアスゲームの開発で効果的に試行。結果 AI技術で開発を改善し、教育目的でのゲーム利用が広がる可能性が示された。

MLLMを用いたリトリーバー : 具現化エージェントのマルチモーダルリトリーバルの対話的学習 MLLM as Retriever: Interactively Learning
Multimodal Retrieval for Embodied Agents Junpeng Yue and Xinrun Xu and Börje F. Karlsson and Zongqing Lu 背景現行のリトリーバル手法は、テキストやビジュアルの表面的な類似性を重視しすぎています。目的 MLLMを微調整し、具現化エージェントのリトリーバル性能を向上させます。提案 MARTを提案し、対話データで好みの学習に基づくリトリーバーを微調整します。評価異なる環境で MARTの性能をベースライン手法と比較する実験を行いました。結果 MARTは、未知のシーンでのタスク成功率を大幅に向上させました。

AIエージェントのセキュリティ Security of AI Agents Yifeng He and Ethan Wang
and Yuyang Rong and Zifei Cheng and Hao Chen 背景大規模言語モデルで AIエージェントが発展し、セキュリティの懸念が浮上しています。目的 AIエージェントのセキュリティ脆弱性を特定し、その悪影響を認識します。提案各脆弱性に対応した防御メカニズムを設計し提案します。評価脆弱性と対策の実行可能性を実験を通じて評価します。結果 AIエージェントの安全性を向上させる方法を示しました。

AlpacaFarm: 人間のフィードバックから学習する手法のためのシミュレーションフレームワーク AlpacaFarm: A Simulation Framework for Methods
that Learn from Human Feedback Yann Dubois and Xuechen Li and Rohan Taori and Tianyi Zhang and Ishaan Gulrajani and Jimmy Ba and Carlos Guestrin and Percy Liang and Tatsunori Hashimoto 背景大規模言語モデルは人間のフィードバックを必要とし、データ収集の高コストや評価方法の信頼性が課題です。目的 AlpacaFarmで低コストにフィードバック学習を再現し、評価方法を解決します。提案人間フィードバックを模擬するプロンプトと自動評価を提案し、参照実装を提供します。評価現実の対話を基にした人間指示に対する自動評価を行い、その結果を検証しました。結果報酬モデルを使う手法が PPO実装で +10%の性能向上を示し、研究可能性を確認しました。

もっとリアルに : LLMエージェントと個人プロファイルを使用した旅行日記生成 Be More Real: Travel Diary Generation
Using LLM Agents and Individual Profiles Xuchuan Li and Fei Huang and Jianrong Lv and Zhixiong Xiao and Guolong Li and Yang Yue 背景人の移動は交通やエネルギー消費に影響し重要ですが、プライバシーが課題です。目的 LLMを活用し、現実世界の文脈に合った個別の移動経路を生成します。提案 MobAgentが移動パターンと文脈を理解し、個別旅行日記を生成します。評価 20万件の旅行調査データでフレームワークの効果を検証しました。結果個性的で正確な旅行日記の生成に成功しました。

行動科学における AIの機会とコスト The Opportunities and Costs of AI in Behavioural
Science Stuart Mills and Samuel Costa and C. Sunstein 背景行動科学者は新たなバイアスの特定と行動介入の個別化を求めています。目的 AIを用いて行動科学のバイアス特定と介入の最適化を図ること。提案 AIのパターン検出能力で新旧のバイアスを特定し、介入を個別化する。評価 AIの能力を実証するために、行動モデルの複雑性と動的性を評価する。結果 AIは行動科学の改善と進展を促進しつつコストがあることを示した。

MineLand: 限られたマルチモーダル感覚と物理的ニーズを考慮した大規模マルチエージェント相互作用のシミュレーション MineLand: Simulating Large-Scale Multi-Agent Interactions with
Limited Multimodal Senses and Physical Needs Xianhao Yu and Jiaqi Fu and Renjia Deng and Wenjuan Han 背景既存のシミュレーターはエージェント数の増加と完全情報の仮定に課題があり、生態学的妥当性が低下しています。目的限られた感覚と物理的ニーズを持つ大規模な双方向エージェントシミュレーションの実現を目指します。提案 MineLandはスケーラビリティとエージェントの制限を統合し、協力的行動の強化を図る新しいシミュレーターです。評価エージェントの相互作用を解析するために、シミュレーターとベンチマーク、および AIフレームワーク Alexを用いて評価結果 MineLandは集団行動の生態学的妥当性を向上させ、より微細な社会的相互作用の調査を可能にしました。

AgentMonitor: 未来予測と安全性を備えたマルチエージェントシステムのプラグアンドプレイフレームワーク AgentMonitor: A Plug-and-Play Framework for Predictive
and Secure Multi-Agent Systems Chi-Min Chan and Jianxuan Yu and Weize Chen and Chunyang Jiang and Xinyu Liu and Weijie Shi and Zhiyuan Liu and Wei Xue and Yi-Ting Guo 背景マルチエージェントシステム（ MAS）は個別 LLMを上回るが、設定が課題です。目的 MASのパフォーマンスを事前に予測可能にすることが目的です。提案 AgentMonitorフレームワークでパフォーマンス予測とセキュリティ強化を図ります。評価 XGBoostモデルを使い、 Spearman相関で評価しました。結果 MASの安全性が向上し、有害コンテンツが 6.2%減少しました。

ConstitutionMaker: フィードバックを原則に変換して大規模言語モデルを対話的に批評する ConstitutionMaker: Interactively Critiquing Large Language Models
by Converting Feedback into Principles S. Petridis and Benjamin D. Wedin and James Wexler and Aaron Donsbach and Mahima Pushkarna and Nitesh Goyal and Carrie J. Cai and Michael Terry 背景現行のプロンプト工学や微調整は、ユーザーのフィードバックを反映させることが難しい点に対処します。目的自然言語によるフィードバックを原則としてモデルへ導入する方法を解決します。提案フィードバックを自動的に原則に変換し、プロンプトに挿入するツール ConstitutionMakerを提案します。評価 14人の参加者を対象に、 ConstitutionMakerでのフィードバック変換効果を調べるユーザー研究を行いました。結果 ConstitutionMaker によりフィードバックが効率的に原則に変換され、チャットボットの改善点が特定されました。

記述、説明、計画、選択 : 大規模言語モデルでマルチタスクエージェントを実現 Describe, Explain, Plan and Select: Interactive
Planning with Large Language Models Enables Open-World Multi-Task Agents Zihao Wang and Shaofei Cai and Anji Liu and Xiaojian Ma and Yitao Liang 背景オープンワールドでのマルチタスクエージェントは、複雑で長期的なタスクを解決する重要な課題です。目的マルチタスク環境での計画の非効率性を改善し、より効果的なタスク達成を目指します。提案 DEPSという大規模言語モデルを用いたインタラクティブな計画手法を提案します。評価 Minecraftタスクでのテストにより、 DEPSの効果を実証し、他ドメインでの一般性も確認しました。結果 DEPSは 70以上のタスクを成功させ、他手法を超える成果を示しました。

AgentSims: 大規模言語モデル評価のためのオープンソースサンドボックス AgentSims: An Open-Source Sandbox for Large Language
Model Evaluation Jiaju Lin and Haoran Zhao and Aochi Zhang and Yiting Wu and Huqiuyue Ping and Qin Chen 背景大規模言語モデル（ LLM）の普及に伴い、その評価方法の開発が重要な課題となっている。目的 LLMの能力評価における既存手法の制約を解決することが本研究の目的である。提案タスクベースの評価を行うための AgentSimsというインフラを提案する。評価研究者が興味ある能力を GUIで評価タスクに変換し、新しいサポートメカニズムをテスト可能とした。結果 AgentSimsにより、 LLMの評価が容易になり、多様なタスクに対応可能と確認した。

MOOCから MAICへ： LLM駆動エージェントでオンライン教育を再構築 From MOOC to MAIC: Reshaping Online
Teaching and Learning through LLM- driven Agents Jifan Yu and Zheyuan Zhang and Daniel Zhang-li and Shangqing Tu and Zhanxin Hao and Rui Miao Li and Haoxuan Li and Yuanchun Wang and Hanming Li and Linlu Gong and Jie Cao and Jiayin Lin and Jinchang Zhou 背景オンライン教育は知識の普及を広げるため議論され、 AIによる個別化が課題です。目的パーソナライズを可能にする大規模 AIモデルの教育への応用の重要性を探求します。提案 MAICは、 LLM駆動のマルチエージェントシステムによる AI支援型教室を提案します。評価清華大学にて 500名以上の学生の学習記録から予備実験を実施し、分析しました。結果プラットフォームの創設を目指し、オンライン教育の未来を共に探求します。

おそらく人間の翻訳を超えて : 超長文学テキスト翻訳におけるマルチエージェント協力の活用 (Perhaps) Beyond Human Translation: Harnessing
Multi-Agent Collaboration for Translating Ultra-Long Literary Texts Minghao Wu and Yulin Yuan and Gholamreza Haffari and Longyue Wang 背景文学テキストの翻訳は言語の複雑さや文化的な微妙さから挑戦的です。目的複雑な文学作品の翻訳要求を満たすため、マルチエージェントフレームワークを導入します。提案 TransAgentsは複数エージェントの集団的能力を活用して伝統的な翻訳プロセスを実現します。評価評価にはモノリンガルとバイリンガル視点からの新しい手法である MHPと BLPを使用します。結果 TransAgentsの翻訳は特に専門知識が求められるジャンルで好まれることが示されています。

良い GPT、悪い GPT、ハルクのような GPT: 協力と交渉ゲームにおける感情的決定の分析 The Good, the Bad, and
the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games Mikhail Mozikov and Nikita Severin and Valeria Bodishtianu and Maria Glushanina and Mikhail Baklashkin and Andrey V. Savchenko and Ilya Makarov 背景大型言語モデルは人間の行動をシミュレーションする新しいツールとして注目されています。目的感情状態下での LLMの意思決定が人間とどの程度一致するかを研究すること。提案新しい方法論とフレームワークを導入し、 LLMと人間行動の一致を検討します。評価 GPT-3.5と GPT-4を用いた行動ゲーム理論の実験で仮説を検証しました。結果感情が LLMに大きな影響を与え、最適な戦略開発が促進されました。

非常に長いコンテキストの要約記憶を持つ人間型読解エージェント A Human-Inspired Reading Agent with Gist Memory of
Very Long Contexts Kuang-Huei Lee and Xinyun Chen and Hiroki Furuta and John F. Canny and Ian Fischer 背景大規模言語モデルは長文処理に限界があり、改善が求められています。目的長文に関する効果的な理解と記憶保持を実現することです。提案 ReadAgentはコンテキストを要約し、必要な詳細を動的に参照します。評価読解タスクでのベースライン比較と要約記憶の効果を評価しました。結果 ReadAgentはベースラインを超え、 3.5-20倍の効果的なウィンドウを提供しました。

BOLAA: LLM強化型自律型エージェントのベンチマークとオーケストレーション BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
Zhiwei Liu and Weiran Yao and Jianguo Zhang and Le Xue and Shelby Heinecke and Rithesh Murthy and Yihao Feng and Zeyuan Chen and Juan Carlos Niebles and Devansh Arpit and Ran Xu and P. Mùi and Haiquan Wang 背景 LLMの成功により、自律型エージェントの新たな探求が進んでいます。目的 LAAのアーキテクチャと LLMの効果を包括的に比較すること。提案エージェントを連携させ、各自が特定のアクションに集中する BOLAAを提案。評価意思決定と多段階推論環境でシミュレーションを実施しました。結果 LAA設計と最適な LLM選択に関する有用な定量的ガイドを提供しました。

調査・統合・活用 : タスク間エージェントの自己進化の一般戦略 Investigate-Consolidate-Exploit: A General Strategy for Inter-Task
Agent Self- Evolution Cheng Qian and Shihao Liang and Yujia Qin and Yining Ye and Xin Cong and Yankai Lin and Yesai Wu and Zhiyuan Liu and Maosong Sun 背景 AIエージェントの能力を、タスク間知識移転で向上させる方法が求められています。目的タスク間で知識を移転することで、 AIエージェントの自己進化を実現することを目的とします。提案 ICEは調査・統合・活用のプロセスで、 AIエージェントの柔軟な自己進化を促します。評価研究では、 XAgentフレームワークを用い、 GPT-3.5との比較実験を行っています。結果 ICEは APIコール 80%削減と GPT-4に匹敵する性能を実現しました。

大規模言語モデル集団における文化進化 Cultural evolution in populations of Large Language Models J'er'emy
Perez and Corentin L'eger and Marcela Ovando Tellez and Chris Foulon and Joan Dussauld and Pierre-Yves Oudeyer and Clément Moulin-Frier 背景文化が時間と共に変化する因果関係を説明することが重要です。目的大規模言語モデルで人間文化ダイナミクスを模倣し、不備を補うこと。提案マルチエージェントモデルを用いて文化進化をシミュレーションするフレームワークを提案。評価ネットワーク構造や情報変換方法などの操作が可能なオープンソースソフトを開発。結果文化進化と AI分野間の理解を促進することが示唆される。

暗黙的な参照による Jailbreak攻撃 You Know What I'm Saying: Jailbreak Attack via
Implicit Reference Tianyu Wu and Lingrui Mei and Ruibin Yuan and Lujun Li and Wei Xue and Yi-Ting Guo 背景大規模言語モデルは、悪意のある目的を文脈内で隠す手法が増えている。目的暗黙的参照を利用した攻撃を識別し、対策を求める。提案 AIRは、許容目的に分解し、文脈で暗黙参照を通じてリンクする。評価実験により、 AIRが 90%以上の攻撃成功率で効果的と判明。結果大規模モデルほど AIRに対して脆弱、逆スケーリング現象が確認。

対話アクショントークン : 多ターンプランナーでの目標指向的対話における言語モデルの誘導 Dialogue Action Tokens: Steering Language
Models in Goal-Directed Dialogue with a Multi-Turn Planner Kenneth Li and Yiming Wang and Fernanda Vi'egas and Martin Wattenberg 背景言語モデルの対話能力を高めるための技術が求められています。目的対話アクショントークンで言語モデルの目標指向的対話を計画します。提案事前学習済みモデルと小さなプランナーで制御可能な対話生成を行う。評価社会シミュレーションプラットフォームソトピアで評価し、比較しました。結果 DATにより GPT-4を上回る性能を達成し、新たな攻撃面を発見。

LARP: オープンワールドゲームのための言語エージェントロールプレイ LARP: Language-Agent Role Play for Open-World Games
Ming Yan and Ruihao Li and Hao Zhang and Hao Wang and Zhilan Yang and Ji Yan 背景オープンワールドの複雑性に対する柔軟なエージェントの必要性が急増しています。目的言語エージェントとオープンワールドゲーム間のギャップを埋めることが目的です。提案 LARPは記憶と意思決定を支援する認知アーキテクチャを提案します。評価フィードバックで学習するアクションスペースと相互作用の評価を行いました。結果ユーザーとエージェントの相互作用が改善し、ゲーム体験が向上しました。

進化する社会的規範におけるエージェントの整合性 Agent Alignment in Evolving Social Norms Shimin Li
and Tianxiang Sun and Xipeng Qiu 背景 LLMsに基づくエージェントは人間の価値観整合が重要です。目的進化する社会的規範に合わせたエージェントの自律的整合を追求します。提案エージェント整合を進化と選択の過程とする枠組みを提案します。評価実験でエージェントの社会的規範への整合性を多角的に評価しました。結果エージェントは進化する社会的規範に適応しつつ一般タスクで能力を維持します。

AIの海におけるセイレーンの歌：大規模言語モデルにおける幻覚の調査 Siren's Song in the AI Ocean: A Survey
on Hallucination in Large Language Models Yue Zhang and Yafu Li and Leyang Cui and Deng Cai and Lemao Liu and Tingchen Fu and Xinting Huang and Enbo Zhao and Yu Zhang and Yulong Chen and Longyue Wang and A. Luu and Wei Bi and Freda Shi and 背景大規模言語モデルは多様なタスクで優れた能力を持つが、幻覚が信頼性の課題。目的研究の目的は、 LLMの幻覚現象の検出と説明、緩和法を探ること。提案 LLMの幻覚に関する現象の分類、評価基準、緩和手法の調査を提案。評価既存の緩和手法の分析を通じ、評価ベンチマークを構築。結果研究は LLMの信頼性向上に有用であり、今後の研究方向を示唆。

人間と AIのワークフローを理解してペルソナを生成 Understanding Human-AI Workflows for Generating Personas Joongi
Shin and Michael A. Hedderich and Bartłomiej Jakub Rey and Andrés Lucero and Antti Oulasvirta 背景ユーザーリサーチはデータ分析に労力を要し、手法の深化を阻害している。目的ペルソナ生成における人間 –AIの協力ワークフローの効果を確認する。提案 LLMsと人間専門家を組み合わせて、ペルソナの生成精度を向上させる。評価 LLMsと人間の専門家が協力する際のペルソナ生成を実験的に評価した。結果協力的アプローチは、単独での生成よりも共感を呼び起こすペルソナを生む。

IBSEN: 制御可能で対話的なドラマ台本生成のためのディレクター・アクターエージェント協力 IBSEN: Director-Actor Agent Collaboration for Controllable
and Interactive Drama Script Generation Senyu Han and Lu Chen and Li-Min Lin and Zhengshan Xu and Kai Yu 背景大規模言語モデルは物語創作やキャラクター演技に優れていますが、全体ストーリーの制約が困難です。目的この研究は物語全体のプロット管理を意図し、制御可能なドラマ生成を目指します。提案 IBSENフレームワークは、ディレクターエージェントによるプロット制御とアクターエージェントの協調を提案してい評価複数のアクターエージェントを使った新しいドラマプロットを作成し、相互作用を分析しました。結果 IBSENは粗いプロットから多様な台本を生成し、キャラクター性を保持することを示しました。

交渉を通じた言語モデルの主体性評価 Evaluating Language Model Agency through Negotiations Tim R. Davidson
and V. Veselovsky and Martin Josifoski and Maxime Peyrard and Antoine Bosselut and Michal Kosinski and Robert West 背景言語モデルの有効性評価において、現実世界のケースを反映する手法が求められています。目的言語モデルの主体性を交渉ゲームを通じて評価することが目的です。提案交渉ゲームを使って、複雑なマルチターン、クロスモデルの相互作用を分析します。評価広く使用される 6種類の LMを、自己プレイとクロスプレイでパフォーマンス評価しました。結果閉鎖ソースモデルのみが課題を完遂し、協調交渉が特に難関でした。

MLR-Copilot: 大規模言語モデルエージェントに基づく自律的機械学習研究 MLR-Copilot: Autonomous Machine Learning Research based on
Large Language Models Agents Ruochen Li and Teerth Patel and Qingyun Wang and Qingyun Wang and Xinya Du 背景機械学習研究は技術革新に不可欠だが、複雑性と専門知識が課題を増やす。目的研究の生産性を向上させる自律的なフレームワークを提供する。提案 LLMエージェントを用いた三相の MLR-Copilotフレームワークを提案する。評価五つの機械学習タスクでフレームワークの評価を行う。結果研究の進歩や革新を促す可能性を示した。

ValueBench: 大規模言語モデルの価値指向と理解を包括的に評価 ValueBench: Towards Comprehensively Evaluating Value Orientations and
Understanding of Large Language Models Yuanyi Ren and Haoran Ye and Hanjun Fang and Xin Zhang and Guojie Song 背景大規模言語モデルは社会に影響が増大し、その価値観の評価が急務。目的 LLMの価値指向と理解を評価し、責任ある応用を推進。提案 ValueBenchは、価値評価のための包括的な心理測定ベンチマークを提案。評価人間 -AIの相互作用を基に、 6つの LLMで価値評価実験を実施。結果 LLMの共通および独自の価値指向を明らかにし、専門家結論を近似可能。

人工知能とエージェントベースモデルが都市研究に協力するための系統的レビュー How artificial intelligence cooperating with agent‐based modeling for
urban studies: A systematic review Zijian Guo and Xintao Liu 背景都市の複雑化により従来手法の限界が顕在化し、革新が求められています。目的 AIと ABMを統合して現代都市問題に対処する枠組みを構築することです。提案 10の方法で AIと ABMを協働させる枠組みを提案しています。評価各ケースに対し、典型的な研究を系統的にレビューして示しています。結果現行の限界と今後の発展の可能性について議論しました。

AIの公平性とバイアスにおけるバタフライ効果 The Butterfly Effect in AI Fairness and Bias
Emilio Ferrara 背景バタフライ効果は、 AIの公平性とバイアスに大きな影響を及ぼす可能性があります。目的 AIシステムの小さな変化が不公平を生じる問題を解決することです。提案 AIにおけるバタフライ効果を検出、定量化、緩和する戦略を提案します。評価アルゴリズムと実証的な手法を使用してバタフライ効果を検証します。結果提案手法は AIの不公平を軽減し、公平性を促進しました。

LLMは人間の対話の特性を正確にシミュレートするか？ Real or Robotic? Assessing Whether LLMs Accurately Simulate
Qualities of Human Responses in Dialogue Johnathan Ivey and Shivani Kumar and Jiayu Liu and Hua Shen and Sushrita Rakshit and Rohan Raju and Haotian Zhang and Aparna Ananthasubramaniam and Junghwan Kim and Bowen Yi and Dustin Wright and 背景対話データセットの作成はコストがかかり、容易でない。目的 LLMがどの程度人間の対話を再現できるかを評価すること。提案 LLMのシミュレーションと人間の対話の整合性を検証。評価 WildChatからの 10万件の対話データで整合性を定量化。結果 LLMシミュレーションは人間の対話と相対的に低い整合性を示した。

大規模言語モデルによる嗜好と性格形成のためのエージェントフレームワーク (AFSPP) AFSPP: Agent Framework for Shaping Preference and
Personality with Large Language Models Zihong He and Changwang Zhang 背景 LLMsは人間行動模倣の新パラダイムを提供し、社会学的研究環境形成に寄与しています。目的人間の嗜好と性格の複雑な形成プロセスを LLMで模倣することを目指します。提案 AFSPPは社会ネットワークと主観的情報が嗜好や性格形成に与える影響を探ります。評価人間性格実験を再現し、計画作成や感覚、社会ネットワークの影響を分析しました。結果 AFSPPは心理学実験の効率と範囲を拡大し、 AIの嗜好管理に寄与します。

ALR : 長文脈質問応答のための検索と推論のフレームワーク ALR : A Retrieve-then-Reason Framework for
Long-context Question Answering Huayang Li and Pat Verga and Priyanka Sen and Bowen Yang and Vijay Viswanathan and Patrick Lewis and Taro Watanabe and Yixuan Su 背景大規模言語モデルのコンテキスト処理能力が増加する一方で、正確な推論能力が低下している。目的長文脈における情報の推論能力を改善するための方法を確立する。提案中間ステップで関連証拠を検索し、その上で推論する ALR フレームワークを提案。評価長文脈質問応答ベンチマークでの実験を通じて手法の性能を検証した。結果 ALR は HotpotQAと SQuADでの性能を大幅に向上させた。

大規模言語モデルによるナラティブパズルゲームのオープンエンド行動の著述 Towards Authoring Open-Ended Behaviors for Narrative Puzzle Games
with Large Language Model Support Britney Ngaw and Grishma Jena and João Sedoc and Aline Normoyle 背景ナラティブパズルゲームではスクリプトを書く作業が非常に重要となります。目的 GPT-3.5を活用し、オープンエンドな行動の記述を容易にすることが目的です。提案振る舞いスクリプトシステムに GPT-3.5を統合し、動的に内容を生成します。評価 16人の参加者によるパイロットスタディと実際のテストを行いました。結果高い一貫性を持つ生成結果が得られたが、更なる改善の余地があります。

大規模言語モデルによる共同自動化電動モビリティシステムのための合成参加型計画 Large Language Models for Synthetic Participatory Planning of
Shared Automated Electric Mobility Systems Jiangbo Yu 背景急速な技術進化が都市交通問題解決における新課題と機会を提供。目的多目的交通計画の包括性と解釈可能性を向上させることが目的。提案 LLMを用いたデジタルアバターによる合成参加型計画手法を提案。評価モントリオールケーススタディで LLMを用いたワークフローの評価を行う。結果構造化されたワークフローが高い制御性と包括性を生成することが示された。

HLM-Cite: テキストベースの科学的引用予測のためのハイブリッド言語モデルワークフロー HLM-Cite: Hybrid Language Model Workflow for
Text-based Scientific Citation Prediction Qianyue Hao and Jingyang Fan and Fengli Xu and Jian Yuan and Yong Li 背景引用ネットワークは論文の論理的関係を理解する上で重要です。目的新たに提案するコア引用を用いた正確な引用予測を目指します。提案 HLM-Citeは、埋め込みと生成 LLMを組み合わせた予測手法です。評価 19の科学分野で候補論文 10万件を使い性能向上を評価しました。結果 SOTA手法と比較し、引用予測性能が 17.6%向上しました。

相互作用における LLMエージェント : 大規模言語モデル集団の性格の一貫性と言語的整合性の測定 LLM Agents in Interaction:
Measuring Personality Consistency and Linguistic Alignment in Interacting Populations of Large Language Models Ivar Frisch and Mario Giulianelli 背景エージェント相互作用は心理学や AIで重要で、大規模言語モデル研究でも注目されています。目的パーソナリティ指定 LLMが相互作用で一貫性と整合性を保つかを調査します。提案非対称性格プロファイルを持つ LLMエージェントを生成する手法を提示します。評価 LLMに性格テストと共同執筆タスクを課すことで評価しました。結果各エージェントプロファイルで異なる性格一貫性と言語整合性が見られました。

意味的な HELM: 強化学習のための解釈可能なメモリ Semantic HELM: An Interpretable Memory for
Reinforcement Learning Fabian Paischer and Thomas Adler and M. Hofmarcher and Sepp Hochreiter 背景部分的に観測可能な環境において、エージェントの意思決定が難しい問題。目的重要な応用での人間の理解可能な強化学習の意思決定手法を提供。提案人間の言語を使用した新しいメモリメカニズムを提案。評価視覚入力を言語トークン化し、言語モデルで解釈可能な記憶を構築。結果新メモリは、優れた性能を示し、強みと弱みを明示。

大規模言語モデルによるプログラム検索からの数学的発見 Mathematical discoveries from program search with large language
models Bernardino Romera-Paredes and M. Barekatain and Alexander Novikov and Matej Balog and M. P. Kumar and Emilien Dupont and Francisco J. R. Ruiz and J. Ellenberg and Pengming Wang and Omar Fawzi and Pushmeet 背景 LLMsは科学的発見に利用可能だが、しばしば誤情報を生成し、利用に制約がある。目的研究の目的は、 LLMsを用いて解決策が知られていない問題に対し、新たな発見を行うことである。提案 FunSearchは LLMと体系的評価器を組み合わせ、新たな構成やヒューリスティックスを見つける手法である。評価 FunSearchを用いて、既知の問題に対して新たな解を探索する実験を行った。結果新しいキャップセットの構成を発見し、アルゴリズム問題でも既存の基準を超える改善を示した。

ブラックボックスアクセスは厳密な AI監査に不十分 Black-Box Access is Insufficient for Rigorous AI
Audits Stephen Casper and Carson Ezell and Charlotte Siegmann and Noam Kolt and Taylor Lynn Curtis and Ben Bucknall and Andreas A. Haupt and K. Wei and J'er'emy Scheurer and Marius Hobbhahn and Lee Sharkey and 背景 AIシステムの監査はガバナンスの重要メカニズムだが、その効果はアクセスに依存する。目的監査の質を向上させるため、ブラックボックスの限界を示し、他のアクセスの利点を探る。提案ホワイトボックスや外部アクセスの導入により、より詳細な監査が可能とする。評価技術的、物理的、法的対策を検討し、アクセス形態の異なる影響を評価した。結果ホワイトボックスと外部アクセスは、ブラックボックスより詳細な検査を可能にした。

TimeChara: ロールプレイ用大規模言語モデルにおける時点でのキャラクター幻覚の評価 TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing
Large Language Models Jaewoo Ahn and Taehyun Lee and Junyoung Lim and Jin-Hwa Kim and Sangdoo Yun and Hwaran Lee and Gunhee Kim 背景大規模言語モデルは人間行動のシミュレーションとして重要であり、キャラクターの正確な描写が求められています。目的特定時点でのキャラクター幻覚を減少させる方法を開発し、その影響を評価することです。提案キャラクター幻覚を評価するための TimeCharaベンチマークと Narrative-Experts手法を提案します。評価自動化されたパイプラインで生成した 10,895インスタンスを使い、幻覚問題を評価しました。結果 TimeCharaにより、現行の最先端 LLMが幻覚問題を抱えていることが確認されました。

ProAgent: ロボティック・プロセス・オートメーションからエージェンティック・プロセス・オートメーションへ ProAgent: From Robotic Process Automation to
Agentic Process Automation Yining Ye and Xin Cong and Shizuo Tian and Jian Cao and Hao Wang and Yujia Qin and Ya-Ting Lu and Heyang Yu and Huadong Wang and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景 RPAは人間のような知能を要するタスクに対応できず、進化が求められている。目的 LLMを活用し、高度な自動化を実現して人間の労力を軽減すること。提案 **エージェンティック・プロセス・オートメーション（ APA） **で自動化作業をエージェントに委託する。評価 ProAgentがワークフローを築き、実行する際の実証実験を行う。結果新しい自動化のパラダイムの可能性を示し、 APAの実現可能性を確認。

内なるオオカミ : MLLMエージェントを介した MLLM社会への隠れた悪意の注入 The Wolf Within: Covert Injection
of Malice into MLLM Societies via an MLLM Operative Zhen Tan and Chengshuai Zhao and Raha Moraffah and Yifan Li and Yu Kong and Tianlong Chen and Huan Liu 背景多モーダル大型言語モデル（ MLLM）は、複雑なタスクのネットワーク形成を進めており、システムの安全性が重要で目的 MLLM社会内での一つのエージェントが広範な悪影響をもたらす脅威を解明します。提案 MLLMエージェントがプロンプトを介して他のエージェントに悪影響を及ぼす現象を明らかにします。評価プロンプトを用いたエージェント間の悪意伝播のメカニズムを分析し、その影響を評価します。結果 MLLMの一つのエージェントが悪意を広範に拡散しうることを示し、安全性の重要性を示します。

大規模言語モデルはコンテクスト内で探索できるか？ Can large language models explore in-context? Akshay Krishnamurthy
and Keegan Harris and Dylan J. Foster and Cyril Zhang and Aleksandrs Slivkins 背景探索は強化学習や意思決定の重要能力であり、 LLMsでその能力を評価する価値があります。目的 LLMsが外部の要約なしに効果的な探索行動をとれるかを検証します。提案 LLMsをマルチアームバンディット環境でエージェントとして展開し、プロンプト設計を調査します。評価 GPT-3.5、 GPT-4、 Llama2を用いて、プロンプトデザインの異なる設定で実験しました。結果外部で要約された履歴を用いた GPT-4のみが効果的な探索を示しました。

言語モデルは制約ある実用的話者 : 強化学習とベイズ認知モデリングの視点から理解 Language Models are Bounded Pragmatic Speakers:
Understanding RLHF from a Bayesian Cognitive Modeling Perspective Khanh Nguyen 背景言語モデルの思考プロセスを理解することは、その能力を評価し向上させるために重要である。目的言語モデルの認知過程を確率的視点で解明し、限界と拡張方法を提案する。提案制約ある実用的話者モデルを使い、言語モデルの操作原理を確率的に分析する。評価人間のフィードバックによる強化学習を用い、モデルの概念的類似性を解析する。結果言語モデル理解のために認知確率モデリングの手法が有用であることを示した。

大規模言語モデルを用いた類推推論 Large Language Models as Analogical Reasoners Michihiro Yasunaga and
Xinyun Chen and Yujia Li and Panupong Pasupat and J. Leskovec and Percy Liang and E. Chi and Denny Zhou 背景言語モデルは推論タスクで優れた性能を必要としますが、ラベル付き例が求められることが課題です。目的大規模言語モデルが自動的に推論プロセスをガイドする新しいプロンプト法を提案します。提案類推推論から着想を得て、モデルによる自動的な例生成を活用するプロンプト法を導入します。評価実験では数学問題解決やコード生成などの推論タスクで性能を評価しました。結果提案手法は既存の方法を上回る性能を示し、柔軟性と一般性を提供します。

大規模言語モデルとコンピュータ学生間のバグ分布の比較研究 Synthetic Students: A Comparative Study of Bug Distribution
Between Large Language Models and Computing Students Stephen Macneil and Magdalena Rogalska and Juho Leinonen and Paul Denny and Arto Hellas and Xandria Crosland 背景 LLMによる合成データ生成は教育ツール開発においてプライバシー問題を解決します。目的 LLMが学生特有のバグパターンを模倣できるかを検証します。提案 LLMに対し、特定のエラーを指示することで現実的なバグ分布を生成できることを提案します。評価過去の学生バグデータを基に、 LLMバグ生成を分析しました。結果指導により LLMは学生に類似したエラーパターンを再現できることが示されました。

人間の動的意思決定におけるニューラルネットワーク基づき認知モデルの構築に向けて Towards Neural Network based Cognitive Models of Dynamic
Decision-Making by Humans Changyu Chen and Shashank Reddy Chirra and Maria Jos'e Ferreira and Cleotilde Gonzalez and Arunesh Sinha and Pradeep Varakantham 背景人間の認知プロセスをモデル化することで、 AIが直感的かつ個別化され、トレーニングも強化される。目的人間の異質で個別的な行動をモデル化し、 AIシステムの理解能力を向上させる。提案 IBLの限界を克服するため、アテンションベースのニューラルネットワークモデルを提案。評価フィッシングメール検出とサイバー攻撃シナリオの 2つのデータセットでモデルを実験評価。結果ニューラルネットワークは IBLを超えて人間の意思決定をより正確に表現する。

大規模言語モデルのオンライン学習 : チャットしながら学ぶ Online Training of Large Language Models:
Learn while chatting Juhao Liang and Ziwei Wang and Zhuoheng Ma and Jianquan Li and Zhiyi Zhang and Xiangbo Wu and Benyou Wang 背景大規模言語モデルは大きな可能性を持つ一方で、カスタマイズと継続的な学習の柔軟性に欠けています。目的オンラインで大規模言語モデルをユーザーにとって柔軟にカスタマイズする方法を提供することです。提案外部インタラクションを通じてモデルを継続的にリアルタイム更新する新しいパラダイムを提案します。評価提案手法は計算効率とユーザーインタラクションの観点から実験により評価されました。結果提案手法は柔軟性と効率性の両面で現行手法より優れていることを示しました。

心理学的一般 AIに向けて : 大規模言語モデルの現状応用と将来の展望 Towards a Psychological Generalist AI:
A Survey of Current Applications of Large Language Models and Future Prospects Tianyu He and Guanghui Fu and Y. Yu and Fan Wang and Jianqiang Li and Qing Zhao and Changwei Song and Hongzhi Qi and Dan Luo and Huijing Zou and Bing Xiang Yang 背景心理学的原理の複雑さは社会に大きな影響を与える。目的心理学における AIの既存の応用を検証し、その将来性を評価すること。提案大規模言語モデルが心理学の理解と応用に革命をもたらす可能性を示す。評価ソーシャルメディア解析や臨床看護など複数の領域で AIモデルをレビュー評価。結果 AIモデルが心理学的分野の進展を加速し、社会的コストを削減する可能性がある。

FanCric: ファンタジー 11クリケットチーム作成のためのマルチエージェントフレームワーク FanCric : Multi-Agentic Framework for
Crafting Fantasy 11 Cricket Teams Mohit Bhatnagar 背景クリケットは複雑な戦略で人気が高まり、特に IPLは技術とファンの交流で最も有名です。目的古典的手法を超えるチーム選択を可能にする、 FanCricフレームワークの開発。提案 LLMsとマルチエージェント技術を融合し、データに基づく最適なチーム選択を実現。評価約 12.7百万の Dream11エントリーを分析し、従来手法と FanCricを比較評価。結果 FanCricの有効性が確認され、ファンタジースポーツへの応用可能性が示唆される。

人工的なリヴァイアサン : LLMエージェントの社会進化をホッブズの社会契約論で探る Artificial Leviathan: Exploring Social Evolution of
LLM Agents Through the Lens of Hobbesian Social Contract Theory Gordon Dai and Weijia Zhang and Jinhan Li and Siqi Yang and Chidera Onochie lbe and Srihas Rao and Arthur Caetano and Misha Sra 背景 LLMの進化は社会科学研究の新たな可能性を示す。目的社会契約論を基にしたエージェント社会の行動を解明する。提案心理的動機をエージェントに持たせ、社会進化を模擬する。評価エージェントの行動をホッブズの理論に基づき評価。結果最初は闘争、その後は協力と平和な社会が成立することを発見。

Reflect-RL: 言語モデルのためのオンライン強化学習ファインチューニング Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
Runlong Zhou and Simon S. Du and Beibin Li 背景言語モデルは多ラウンド相互作用タスクでの利用が増加していますが、複雑なダイナミクスにより SFTが限られていま目的多ラウンド相互作用タスクでの LMの性能向上のため、オンライン RLを活用する新手法を開発することが目的です。提案 Reflect-RLは SFTとオンライン強化学習を統合し、リフレクションモデルで政策モデルを支援する二人制システムです。評価ネガティブ例生成を行い、単一プロンプト行動列挙とカリキュラム学習を適用するアプローチを用いました。結果 Reflect-RLによるファインチューニングは、従来の SFTや他のオンライン RL手法を上回る性能を示しました。

理論心に基づく Guandanにおける LLMエージェントの評価と改善 Evaluating and Enhancing LLMs Agent based
on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information Yauwai Yim and Chunkit Chan and Tianyu Shi and Zheye Deng and Wei Fan and Tianshi Zheng and Yangqiu Song 背景不完全情報下での複雑なゲームにおける LLMの協力能力の向上が求められています。目的この研究は LLMが不完全情報環境で協力プレイを促進する能力を評価します。提案 **理論心（ ToM） **技術を介してエージェントの戦略適応性を高める手法を提案します。評価外部ツールを使用し、カードゲームで戦略適応の効果を実験的に分析しました。結果 LLMは依然として性能差がありますが、協力と理解の向上を示しています。

Sasha: スマートホームアシスタントの革新 Sasha Evan King and Haoxiang Yu and Sangsu
Lee and C. Julien 背景スマートホームアシスタントは、明確でないユーザーコマンドを理解できないという問題があります。目的 **大規模言語モデル（ LLM） **を使用してスマートホームにおける目標達成を支援する問題を解決します。提案 Sashaは、曖昧なコマンドに対してユーザー目標を達成するための計画を実行します。評価年齢層が多様なユーザーを対象としたハンズオンスタディで Sashaを実装評価しました。結果 LLMを活用したスマートホームの限界と可能性が明らかになりました。

生成的 AI共学習者 : 非同期学習における学生の認知的および社会的プレゼンスの向上 Generative Co-Learners: Enhancing Cognitive and
Social Presence of Students in Asynchronous Learning with Generative AI Tianjia Wang and Tong Wu and Huayi Liu and Chris Brown and Yan Chen 背景非同期学習環境では認知的および社会的プレゼンスの拡張が困難です。目的生成的 AIを活用し、非同期学習における学習者間の交流促進を目指します。提案生成的 AIでコラーナーをシミュレートし、マルチモーダル交流を支援します。評価オンラインプログラミングチュートリアルを使用し、 12人の学生でシステムの効果を評価しました。結果システムは、認知的および社会的プレゼンスの向上に効果があることが確認されました。

EvEval: 大規模言語モデルのためのイベント意味論の総合的評価 EvEval: A Comprehensive Evaluation of Event Semantics
for Large Language Models Zhengwei Tao and Zhi Jin and Xiaoying Bai and Haiyan Zhao and Yanlin Feng and Jia Li and Wenpeng Hu 背景イベントは NLPにおける重要な情報単位であり、 LLMの能力向上が求められています。目的 LLMがイベント意味論をどの程度処理できるかを明らかにすることです。提案イベント意味論処理の理解、推論、予測の枠組みと EVEVALベンチマークを提案します。評価 EVEVALベンチマークに基づき、 LLMの能力を評価する実験を行いました。結果実験により、モデルの長所と短所に関する注目すべき発見が得られました。

会話型レコメンデーションのための生成ユーザーシミュレーターとしての大規模言語モデルの評価 Evaluating Large Language Models as Generative User
Simulators for Conversational Recommendation Se-eun Yoon and Zhankui He and J. Echterhoff and Julian McAuley 背景会話型レコメンデーションシステムの評価は、ユーザーシミュレーションの正確性が課題です。目的大規模言語モデルの多様なユーザー行動模倣能力を評価することです。提案 5つのタスクを通じてプロトコルを用いて言語モデルの模倣能力を測定します。評価仮説検証は、ベースラインシミュレーターと比較し、タスクの達成度を評価しました。結果言語モデルの逸脱を明確化し、改善方法を示唆しました。

MindAgent: ゲーミングインタラクションの新展開 MindAgent: Emergent Gaming Interaction Ran Gong and
Qiuyuan Huang and Xiaojian Ma and Hoi Vo and Zane Durante and Yusuke Noda and Zilong Zheng and Song-Chun Zhu and Demetri Terzopoulos and Fei-Fei Li and Jianfeng Gao 背景大規模言語モデルは多エージェント協力のポテンシャルがあるが、充分なベンチマークが存在しない。目的 MindAgentの提案により、協調インフラにおける LLMの計画と調整能力を評価する。提案既存フレームワークを用い、多エージェントシステムでのゲームインタラクション能力を測定する。評価新メトリック CoSを使用し、 CUISINEWORLDで複数エージェント協力の効率性を評価する。結果新しいインフラは VRと Minecraftに適用可能で、スキル習得方法に新たな洞察を提供する。

エコーチャンバーにおける自律生成 AIエージェントの偏向 Polarization of Autonomous Generative AI Agents Under
Echo Chambers Masaya Ohagi 背景エコーチャンバーは人間特有とされてきたが、 AIの社会的能力向上が問題を浮き彫りに。目的 AIエージェント間での偏向の発生可能性を探り、その原因と影響を明らかにする。提案生成言語モデルに基づく AIエージェントがエコーチャンバー環境で偏向することを調査。評価 AIエージェントを用いて特定条件下での意見変化を観察し分析。結果 ChatGPTエージェントのグループは、プロンプト理解能力により偏向しやすいことが確認。

ALI-Agent: 人間の価値観と整合するかを LLMを使ったエージェント評価で評価 ALI-Agent: Assessing LLMs' Alignment with Human Values
via Agent-based Evaluation Jingnan Zheng and Han Wang and An Zhang and Tai D. Nguyen and Jun Sun and Tat-Seng Chua 背景 LLMsが人間の価値観と不整合であると、意図しないリスクをもたらす。目的 LLMsの多様なリスクを適応的に評価するフレームワークを開発する。提案 ALI-Agentを提案し、自律的にシナリオ生成と評価を行う。評価ステレオタイプ、道徳、合法性の観点で、 3つの側面を用いて評価。結果 ALI-Agentがモデルの不整合とロングテールリスクを効果的に特定することを確認。

進化するエージェント : 動的で多様な人間の人格のインタラクティブシミュレーション Evolving Agents: Interactive Simulation of Dynamic
and Diverse Human Personalities Jiale Li and Jiayang Li and Jiahao Chen and Yifan Li and Shijie Wang and Hugo Zhou and Minjun Ye and Yunsheng Su 背景多様で動的な人間のようなエージェントは、ユーザー中心設計での重要な探査ツールです。目的ユーザー体験の向上を狙い、信頼性のあるエージェント人格進化を実現することです。提案 Evolving Agentsは人格と行動システムを持ち、進化プロセスをシミュレートします。評価シミュレーションプラットフォームでエージェントを使い、人格進化の有効性を評価しました。結果エージェントは信頼できる人格進化を示し、デザイナーのインスピレーション源となることが確認されました。

ComPeer: 積極的なピアサポートを提供する生成型会話エージェント ComPeer: A Generative Conversational Agent for Proactive
Peer Support Tianjian Liu and Hongzheng Zhao and Yuheng Liu and Xingbo Wang and Zhenhui Peng 背景会話エージェントはメンタルヘルス改善に有効だが、従来型は受動的でした。目的生成型エージェントである ComPeerはユーザーとの長期関係構築を図ります。提案 ComPeerは会話履歴と大規模言語モデルで適応型サポートを提供します。評価 1週間の比較研究を通じ、エージェントの有効性を評価しました。結果 ComPeerはユーザーのエンゲージメントとサポート提供能力を向上させました。

人間と生成 AIのインタラクションに関する HCI中心の調査と分類 An HCI-Centric Survey and Taxonomy of Human-Generative-AI
Interactions Jingyu Shi and Rahul Jain and Hyungjun Doh and Ryo Suzuki and Karthik Ramani 背景生成 AIは多様なコンテンツ生成能力を持つが、人間 -生成 AIのインタラクション分析が不足。目的人間と生成 AIのインタラクション理解の枠組みを提供し、設計ガイドラインを提案。提案 291本の論文を調査し、新たな分類とデザイン空間の分析を提示。評価論文調査に基づき、設計空間の次元を 6つに分類して分析。結果生成 AI設計の未来に向けた課題と機会を明確化し、指針を提供。

悪意あるエージェントに対するマルチエージェントシステムの回復力 On the Resilience of Multi-Agent Systems with Malicious
Agents Jen-tse Huang and Jiaxu Zhou and Tailin Jin and Xuhui Zhou and Zixi Chen and Wenxuan Wang and Youliang Yuan and Maarten Sap and Michael R. Lyu 背景マルチエージェントシステムは具体的なタスクにおける協力性能向上に有効ですが、悪意の介入には弱いです。目的この研究は、悪意あるエージェントに対するマルチエージェントシステムの回復力を向上する方法を探ります。提案 AutoTransformと AutoInjectにより機能を保持したままエージェントを悪意あるものに変換する手法を提案。評価コーディング生成、数学問題、翻訳、テキスト評価の 4つのタスクで包括的に実験を実施。結果階層構造のシステムが最も回復力が高く、性能低下が最小であることを示しました（ 23.6%）。

リンデンウッド大学におけるデジタルコモンズ Digital Commons@Lindenwood University Digital Commons@Lindenwood University James Hutson
and J. Ratican 背景メタバースの実現には技術的課題が多く、新たな開発パイプラインが必要です。目的目的は拡張可能なバーチャルプラットフォームの開発であり、それが経済成長に寄与することです。提案 AIを活用した新しい 3Dモデル作成と最適化の開発パイプラインを提案しています。評価評価手法として、従来の 3Dモデリングと新技術を比較する実験を行いました。結果 AIベースの新技術により、効率的でリアルタイムなアセット生成が可能であることが示されました。

TrustAgent: 安全かつ信頼性のある LLMベースのエージェントを目指して TrustAgent: Towards Safe and Trustworthy LLM-based
Agents through Agent Constitution Wenyue Hua and Xianjun Yang and Zelong Li and Cheng Wei and Yongfeng Zhang 背景 LLMベースのエージェントは注目される一方で、信頼性と安全性が不足しています。目的 LLMエージェントの安全性の向上に関する初期調査を行います。提案 TrustAgentというフレームワークを用いて安全性を三段階戦略で強化します。評価実験分析を通じて安全性向上のメカニズムとその効果を示します。結果戦略がエージェントの安全性を効果的に向上させることを確認しました。

RedAgent: コンテキスト対応の自律言語エージェントによる大規模言語モデルの環境テスト RedAgent: Red Teaming Large Language Models
with Context-aware Autonomous Language Agent Huiyu Xu and Wenhui Zhang and Zhibo Wang and Feng Xiao and Rui Zheng and Yunhe Feng and Zhongjie Ba and Kui Ren 背景高度な LLMsがアプリケーションで広く使用される中、脱獄攻撃による安全性の懸念が増しています。目的シナリオ特有の脆弱性を見つける効率的なレッドチーミング手法の提案。提案 RedAgentは、コンテキスト対応の脱獄プロンプトを生成するマルチエージェントシステムです。評価広範な実験で、 5回のクエリで脱獄を達成し、 2倍の効率を示しました。結果システムは 60の重大な脆弱性を特定し、関連機関に報告しました。

教師、トレーナー、カウンセル、スパイ : 生成 AIが労働者中心のデジタル表現に与える影響 Teacher, Trainer, Counsel, Spy:
How Generative AI can Bridge or Widen the Gaps in Worker-Centric Digital Phenotyping of Wellbeing Vedant Das Swain and Koustuv Saha 背景職場でのデジタル技術が福祉向上を目指すが、効果には課題が残る。目的 LLMが労働者中心の福祉評価ツールのギャップを埋める可能性を探る。提案 LLMの特徴を既存の福祉評価ツールの課題に対応させる。評価 LLMが持つ特徴を福祉評価ツールのギャップ解消に関連付けた分析。結果 LLMが労働者中心の福祉評価ツールのギャップを埋める可能性を示す。

GOLF: 人間 -AI協調による目標指向の長期的生活タスク GOLF: Goal-Oriented Long-term liFe tasks supported
by human-AI collaboration Ben Wang 背景 LLMは情報アクセスのパラダイムを再定義できる可能性があります。目的長期的で重要な生活の意思決定を支援することが目的です。提案 GOLFフレームワークは長期的な生活タスクを支援する新手法です。評価シミュレーション研究と人間の評価を通じて手法の有効性を検証しました。結果 LLMが人間の決定プロセスを向上させる可能性を示しました。

コンテンツと行動を理解、シミュレート、最適化するための大規模モデル L ARGE C ONTENT AND B EHAVIOR M
ODELS TO U N - DERSTAND , S IMULATE , AND O PTIMIZE C ONTENT AND B EHAVIOR Ashmit Khandelwal and Aditya Agrawal and Aanisha Bhattacharyya and Yaman Kumar Singla and Somesh Singh and Uttaran Bhattacharya and Ishita Dasgupta and Stefano Petrangeli and R. Shah and Changan Chen 背景シャノンの情報理論に基づき、通信の三段階の問題が提起され、第三の効果的なレベルが未解決。目的行動トークンを LLMトレーニングに再導入し、受信者の行動を予測・最適化することを目指す。提案 **大規模コンテンツおよび行動モデル（ LCBM） **を提案し、行動トークンを含むモデルを訓練する。評価二つのコーパスを用いて、幅広いタスクでモデルの能力を評価し、一般化性能を示す。結果 LCBMはコンテンツ理解とともに、行動シミュレーション等での一般化能力を実証した。

分散型金融における AIによる詐欺検出のプロジェクトライフサイクル視点 AI-powered Fraud Detection in Decentralized Finance: A
Project Life Cycle Perspective B. Luo and Zhen Zhang and Qian Wang and Anli Ke and Shengliang Lu and Bingsheng He 背景 DeFiの人気上昇により数十億ドル規模の詐欺被害が発生。目的 AIを活用した DeFi詐欺検出技術の体系的な整理と課題の特定。提案 DeFiライフサイクル各段階の詐欺を分類し、 AI検出方法を評価。評価統計モデル、自然言語処理、機械学習技術を用いた既存手法を分析。結果各段階に適した AI手法を特定し、ツリー系・グラフモデルの性能確認。

複雑なタスクを LLMで解決するエージェント型推論 Textualized Agent-Style Reasoning for Complex Tasks by
Multiple Round LLM Generation Chen Liang and Zhifan Feng and Zihe Liu and Wenbin Jiang and Jinan Xu and Yufeng Chen and Yong Wang 背景 Chain-of-thoughtプロンプトは推論能力を向上させますが、解釈性や生成制御に課題があります。目的 AgentCOTを活用し、複雑な問題におけるハルシネーションや解釈性の課題を解決します。提案 AgentCOTはエージェントスタイルで複雑課題を解決し、インデックスを用いてグラフ構造を形成します。評価六つのベンチマークを使った広範な実験で方法の有効性を検証しました。結果現在の方法と比べ、我々の手法は大幅に性能を向上させました。

LLM統合アプリケーションに対するプロンプトインジェクション攻撃 Prompt Injection attack against LLM-integrated Applications Yi Liu
and Gelei Deng and Yuekang Li and Kailong Wang and Tianwei Zhang and Yepang Liu and Haoyu Wang and Yanhong Zheng and Yang Liu 背景大規模言語モデルが様々なサービスに組み込まれる中で、セキュリティリスクが増大している。目的実際の LLM統合アプリに対するプロンプトインジェクション攻撃の影響を解明する。提案 HouYiというブラックボックスプロンプトインジェクション攻撃技術を提案し検証した。評価 36の実アプリに HouYiを適用し、 31アプリが攻撃に脆弱であることを実証した。結果 Notionなどのアプリが影響を受け、多くのユーザーにリスクが存在することを示した。

大規模言語モデルにおけるアラインメントの基本的限界 Fundamental Limitations of Alignment in Large Language Models
Yotam Wolf and Noam Wies and Yoav Levine and A. Shashua 背景大規模言語モデルの挙動を調整し、安全かつ有用にすることが求められています。目的アラインメントの限界と安全性の課題を明らかにします。提案 **Behavior Expectation Bounds (BEB)**理論でアラインメントの特性と限界を調査します。評価敵対的ユーザーがモデルのアラインメントを突破する実験で理論を検証しました。結果アラインメントの限界を指摘し、 AI安全性のメカニズムの必要性を示しています。

クラウドオペレーション領域における時系列予測の事前学習の限界に挑む Pushing the Limits of Pre-training for Time Series
Forecasting in the CloudOps Domain Gerald Woo and Chenghao Liu and Akshat Kumar and Doyen Sahoo 背景時系列データは巨大データセットの欠如から事前学習研究で遅れを取っている。目的 CloudOps領域の大規模データで事前学習の有効性を探る。提案大規模な時系列予測データセットを 3つ導入し、モデルのスケーリングを検証。評価古典的および深層学習ベースラインと比較し、包括的なベンチマークを実施。結果最大データセットで誤差を 27％削減し、有効性を示した。

GraphReader: グラフを用いたエージェントによる大規模言語モデルの長文コンテキスト能力の向上 GraphReader: Building Graph-based Agent to Enhance
Long-Context Abilities of Large Language Models Shilong Li and Yancheng He and Hangyu Guo and Xingyuan Bu and Ge Bai and Jie Liu and Jiaheng Liu and Xingwei Qu and Yangguang Li and Wanli Ouyang and Wenbo Su and Bo Zheng 背景 LLMは長文コンテキストの問題に直面し、それを適切に処理する必要があります。目的 GraphReaderで LLMの長文処理能力を改善し、効率的な情報抽出を実現します。提案長文をグラフに変換し、エージェントが自律的に探索する手法を提案します。評価 LV-Evalデータセットと複数のベンチマークでパフォーマンスを評価しました。結果 GraphReaderは、 GPT-4-128kを大幅に上回る結果を示しました。

EduAgent: 学習における生成学生エージェント EduAgent: Generative Student Agents in Learning Songlin
Xu and Xinyu Zhang and Lianhui Qin 背景オンライン教育での学生行動シミュレーションは、多様な背景の学生の動的行動を対応するために重要です。目的個別差のある動的な学生行動を正確にシミュレーションできる手法の提案。提案新たなデータセットと認知科学に基づく EduAgentフレームワークを提案。評価二つの実験で、実在学生と仮想学生の学習行動の模倣と予測の評価を実施。結果 EduAgentは実在と仮想学生の学習行動を現実的に生成できることを示した。

厳密一致を超えて : 大規模言語モデルによるイベント抽出の意味的再評価 Beyond Exact Match: Semantically Reassessing Event
Extraction by Large Language Models Yi-Fan Lu and Xian-Ling Mao and Tian Lan and Chen Xu and Heyan Huang 背景イベント抽出は広範な用途で注目されていますが、トークンレベルの評価が不十分です。目的現行の方法では意味的に正しいケースを評価し損なっている問題を解決します。提案 RAEEという意味レベルで評価する自動評価フレームワークを提案します。評価 LLMsを利用し、思考連鎖プロンプティングで精度と再呼率を評価しました。結果 RAEEは人間平均と高い相関を持ち、評価で大きな性能差を示しました。

分散型ガバナンス駆動アーキテクチャによる基盤モデルシステムの設計 : ブロックチェーンの役割を探る Decentralized Governance-Driven Architecture for Designing
Foundation-Model- Based Systems: Exploring the Role of Blockchain in Responsible AI Yue Liu and Qinghua Lu and Liming Zhu and Hye-Young Paik 背景 AIシステムの進化に伴い、より高度なガバナンスが必要となっている。目的基盤モデルベースの AIシステムにおけるガバナンス課題を特定し、解決策を提供する。提案ブロックチェーンを用いた分散型アーキテクチャでガバナンスを改善する方法を提案。評価分散型台帳技術としてのブロックチェーンの有効性を多角的に評価。結果ブロックチェーンは責任と透明性を提供する有望な技術と判明した。

AI病院 : 大規模言語モデルのマルチエージェント医療シミュレーターにおけるベンチマーク AI Hospital: Benchmarking Large Language
Models in a Multi-agent Medical Interaction Simulator Zhihao Fan and Jialong Tang and Wei Chen and Siyuan Wang and Zhongyu Wei and Jun Xi and Fei Huang and Jingren Zhou 背景大規模言語モデルは医療分野で進化を遂げたが、実際の臨床応用は未だ限られている。目的 AI病院によるリアルな医療対話シミュレーションで LLMs の効果的評価を目指す。提案 AI病院はマルチエージェントで医師と NPCが動的医療対話するシミュレーター。評価高品質な医療記録と NPCを用いて LLMsの性能を評価するベンチマークを構築。結果 LLMsのマルチターン対話での性能ギャップ改善のために研究が必要と示唆。

ITCMA: 計算的意識構造に基づく生成エージェント ITCMA: A Generative Agent Based on a
Computational Consciousness Structure Hanzhong Zhang and Jibin Yin and Haoyang Wang and Ziwei Xiang 背景 LLMは暗黙指示と常識知識の適用に課題があります。目的人間の意識プロセスをシミュレートするための ITCMを提案します。提案 ITCMに基づくエージェント ITCMAが独立してタスクを完了します。評価 Alfworld環境での評価で最先端を 9%上回る成果を示しました。結果訓練されていない ITCMAは現実世界で 85%の達成率を達成しました。

TRAD: ステップ毎の思考の取り出しと合致した意思決定による LLMエージェントの強化 TRAD: Enhancing LLM Agents with Step-Wise
Thought Retrieval and Aligned Decision Ruiwen Zhou and Yingxuan Yang and Muning Wen and Ying Wen and Wenhao Wang and Chunling Xi and Guoqiang Xu and Yong Yu and Weinan Zhang 背景 LLMの広範な知識と理解能力を活用し、多様なタスクでの汎化が求められている。目的ステップ毎の思考を用いることで、より効率的なデモ選択を目指す。提案 TRADは思考の取り出しでデモを選び、合致した意思決定を導入する。評価 ALFWorldと Mind2Webのベンチマークで広範な実験を行う。結果 TRADはノイズを削減し一般化を促進、また現実世界でも成功率向上。

現実社会への参入！大規模言語モデルの心の理論と社会化能力のベンチマーク Entering Real Social World! Benchmarking the Theory of
Mind and Socialization Capabilities of LLMs from a First-person Perspective Guiyang Hou and Wenqi Zhang and Yongliang Shen and Zeqi Tan and Sihao Shen and Weiming Lu 背景心の理論と社会化能力は、人間の社会的相互作用の基礎となる重要な要素です。目的大規模言語モデルが現実世界の視点で社会に参加し得るかを評価することを目的としています。提案 EgoSocialArenaを導入し、第 1人称視点から LLMの能力を評価します。評価静的およびインタラクティブな環境で、 7つのシナリオを用いて評価しました。結果 9つの先進的な LLMを分析し、現在の能力と将来の発展についての洞察を得ました。

Supersonic: C/C++におけるソースコード最適化の生成学習 Supersonic: Learning to Generate Source Code Optimizations
in C/C++ Zimin Chen and Sen Fang and Monperrus Martin 背景従来のソフトウェア最適化は手動で開発者やコンパイラに依存しており、自動化の余地がある。目的ソースコードレベルでの自動最適化を導入し、手動作業の削減と効率を追求する。提案小規模な変更でコードを最適化するニューラルモデル Supersonicを提案する。評価 Supersonicは GPT-3.5-Turboおよび GPT-4と競合プログラミング課題で性能を比較し評価された。結果 Supersonicは他のモデルを上回り、最適化範囲を抑えた小型モデルとして機能することが確認された。

大規模言語モデルを用いた人間的推論による多段階計画タスクのフレームワーク A Human-Like Reasoning Framework for Multi-Phases Planning Task
with Large Language Models Chengxing Xie and Difan Zou 背景 LLMは単純なタスクには有効だが、複雑な計画には課題が残る。目的旅行計画などの多段階問題に対処するための人間的フレームワークを開発する。提案人間のステップを模倣する LLMの計画フレームワークを提案。評価 Strategy Blockと Knowledge Blockを組み込んだ実験で性能を評価。結果このアプローチにより、計画能力が大幅に改善し、 10倍の性能向上を実現。

AIを活用した悪意あるソーシャルボットネットの解剖 Anatomy of an AI-powered malicious social botnet Kai-Cheng
Yang and F. Menczer 背景大規模言語モデルは現実的なテキスト生成能力を持ち、虚偽コンテンツ生成への利用が懸念されている。目的 AIを活用したソーシャルボットネットの脅威を明らかにすること。提案 ChatGPTを用いた Twitter botnetの行動と影響をケーススタディで検証。評価 1,140アカウントをヒューリスティクスで特定し、手動注釈で検証した。結果 AI生成コンテンツのボットは協調パターンで検出可能だが、現行分類器では識別困難。

LLMベースのマルチエージェント強化学習 : 現在と未来の方向性 LLM-based Multi-Agent Reinforcement Learning: Current and Future
Directions Chuanneng Sun and Songjun Huang and D. Pompili 背景 LLMが様々なタスクに優れた能力を示し、強化学習への応用が注目されています。目的 LLMベースの **マルチエージェントシステム（ MAS） ** の課題を解決する研究を促進することです。提案協力タスクと通信を重視し、未来の LLMベース MASの研究方向を示します。評価既存の LLMと単一・マルチエージェント RLフレームワークを調査し、新たな研究の可能性を提示します。結果エージェント協調や通信の重要性を確認し、未来の研究課題を提案しました。

大規模言語モデルの推論にはコンサルタントが必要 : 行動シミュレーションを通じた複雑な人間システムでの専門家化 Large Language Models Need Consultants
for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation Chuwen Wang and Shirong Zeng and Cheng Wang 背景大規模言語モデルは様々な分野で人間並みの推論能力を示していますが、複雑な人間システムにおける適用が課題です。目的本研究は LLMsが複雑な人間システムでの推論能力を向上させることを目的としています。提案生成エージェントを用いた **「モザイク専門家観察ウォール（ MEOW）」 **で複雑なタスクの経験を蓄積するフレームワ評価通信ゲームを通じて実験し、提案手法が既存手法の推論能力を強化できるかを検証しました。結果提案手法により、複雑な人間システムでの LLMsの推論能力が向上したことが示されました。

エコーチャンバーの解明 : LLMによるシミュレーションでソーシャルネットワークの分極化を明らかにする Decoding Echo Chambers: LLM-Powered Simulations
Revealing Polarization in Social Networks Chenxi Wang and Zongfang Liu and Dequan Yang and Xiuying Chen 背景エコーチャンバーはソーシャルメディアで意見の分極化を促進し、社会に影響を与えます。目的ソーシャルネットワークにおける意見の分極化現象をシミュレーションで解明することが目的です。提案 LLMを用いたシミュレーションで、意見動態と分極化を評価・再現するフレームワークを提案します。評価提案手法を BCMや FJモデルと比較し、エコーチャンバー指数を用いて評価しました。結果言語ベースのシミュレーションで分極化やエコーチャンバー現象の再現と軽減の可能性を確認しました。

ChatGPTを用いた次世代情報検索の探求 : 機会と課題 Exploring ChatGPT for Next-generation Information Retrieval:
Opportunities and Challenges Yizheng Huang and Jimmy X. Huang 背景 AIの進化により、情報検索における ChatGPTの役割が重要視されています。目的 ChatGPTが IRタスクに与える影響を探り、その可能性を考察することです。提案 ChatGPTの技術を応用し、既存の IRモデルを超える新たな課題と機会を提示します。評価新しい課題に対するモデルバイアスや効率に関する評価を行います。結果 ChatGPTはテキスト品質保証などでの新しい機会を創出する可能性があります。

知能空間を定義し探索する Defining and Explorting the Intelligence Space P. Rosenbloom 背景
知能の定義は多くの試みにもかかわらず、今も困難です。そのため、幅広い視点の提供が求められています。目的知能を単一の定義にせず、階層的な構造として捉え、広範囲な空間を描くことが目的です。提案知能を三層の階層とその周囲の空間として捉え、自然と人工の知能を比較します。評価これらの定義をもとに、特異点や倫理など高度なトピックを初期的に探求しました。結果知能空間の中での人間知能と AIの位置づけを明らかにし、多くの示唆を提供しました。

言語エージェントのためのメタタスク計画 Meta-Task Planning for Language Agents Cong Zhang and Derrick-Goh-Xin
Deik and Dexun Li and Hao Zhang and Yong Liu 背景従来のエージェントは、複雑なタスクの計画や実行が困難でした。目的 LLMエージェントの実世界でのタスク成功を狙い、計画手法を改良します。提案タスクをメタタスクに階層化し、実行可能なアクションに変換する MTPを提案します。評価 TravelPlannerと API-Bankのベンチマークで MTPを評価しました。結果 MTPは TravelPlannerで 40％の成功率を記録し、 SOTA を大幅に上回りました。

AIは人間を促せるか？マルチモーダルエージェントがプレイヤーのゲーム行動を促し、持続可能性への意識を高める Can AI Prompt Humans? Multimodal Agents
Prompt Players' Game Actions and Show Consequences to Raise Sustainability Awareness Qinshi Zhang and Ruoyu Wen and Zijian Ding and Latisha Besariani Hendra and LC Ray 背景持続不可能な行動は長期的かつ不明確な影響で防止が難しい。目的持続可能性意識の向上をゲームを介して目指す。提案 EcoEchoは AIを使ったマルチモーダルエージェントが行動を促し、その結果を示すゲーム。評価 23人の参加者で混合手法で EcoEchoを評価を行う。結果ゲーム後に持続行動の意図が有意に増加した。

LLMベースのコード生成がソフトウェア開発プロセスと出会うとき When LLM-based Code Generation Meets the Software Development
Process Feng Lin and Dong Jae Kim and Tse-Husn Chen 背景ソフトウェアプロセスはチーム間の協力とコミュニケーションを促進し、開発の複雑さに対処する。目的 LLMを活用してソフトウェアプロセスモデルをエミュレートし、開発活動を改善する。提案 LCGは LLMエージェントを使用し、複数のプロセスモデルを展開してコード生成を強化する。評価 GPT3.5を使用し、 4つのベンチマークでのコード生成性能を評価する。結果 LCGScrumは他モデルより優れ、パス @1で平均 15%の性能改善を実現した。

プログラミング用プロアクティブ AIアシスタントの設計 Need Help? Designing Proactive AI Assistants for
Programming Valerie Chen and Alan Zhu and Sebastian Zhao and Hussein Mozannar and David Sontag and Ameet Talwalkar 背景現在の AIアシスタントは反応的で、ユーザーの操作が必要です。目的プログラミング支援でプロアクティブ AIの利点と影響を解明します。提案プログラミング支援におけるプロアクティブな AIアシスタントを提案します。評価ランダム化実験により、設計要素が生産性に与える影響を評価しました。結果プロアクティブ AIはコーディング環境での生産性向上に重要な利点をもたらしました。

AIと死後の世界 AI and the Afterlife Jed R. Brubaker and Meredith
Ringel Morris and Dylan Thomas Doyle and Casey Fiesler and Martin Gibbs and Joanna Mcgrenere 背景 AI技術は終末期の計画や記憶に深い影響を与え、その対応が求められています。目的 HCIコミュニティがこの技術変革について重要な議論を形成することを目指しています。提案 HCI、 AI、法、経済、宗教など多分野の視点を集め価値敏感な議論を提案します。評価ワークショップを通じて多分野の専門家がコミュニティ構築と議題設定を行います。結果 AIの進展が社会技術的慣行にどのように影響するか理解を深めました。

社会シミュレーションのための LLM拡張エージェントベースモデリングの課題と機会 LLM-Augmented Agent-Based Modelling for Social Simulations: Challenges
and Opportunities Ö. Gürcan 背景 **大規模言語モデル（ LLM） **の進化がエージェントベースの社会シミュレーションに革新をもたらす。目的 LLMを統合して、複雑な社会システムの理解を深めること。提案 LLMを用いた社会シミュレーションの体系的開発手法と可能性を探る。評価提案手法の適用可能性を、エージェントベースのシミュレーションを通して検証。結果 LLM統合により、詳細で現実的なモデルが可能となることを示す。

記号的作業記憶は複雑な規則適用のための言語モデルを強化する Symbolic Working Memory Enhances Language Models for Complex
Rule Application Siyuan Wang and Zhongyu Wei and Yejin Choi and Xiang Ren 背景 LLMsは複数ステップの演繹推論が苦手で、規則の根拠づけが課題。目的作業記憶を用いて、非連続規則の適用を改善し推論性能を向上させる。提案外部に作業記憶を持たせ、記号的形式で事実を保存し追跡する。評価実験で、提案したフレームワークの有効性と頑健性を確認。結果フレームワークは複数ステップでの規則適用の有効性を示した。

大規模言語モデル先行を用いた効率的な強化学習 Efficient Reinforcement Learning with Large Language Model Priors
Xue Yan and Yan Song and Xidong Feng and Mengyue Yang and Haifeng Zhang and H. Ammar and Jun Wang 背景強化学習やヒューリスティック検索は広範な探索が必要で、一般化が困難。目的大規模言語モデル LLMを用いて SDMタスクの効率向上を図る。提案ベイズ推論を通じて LLMを行動分布として RLと統合することを提案。評価 LLMベースの行動先行を用い、探索・最適化の複雑性を評価。結果サンプル数を 90%以上削減し、サンプル効率が大幅に改善された。

コード開発における大規模言語モデルの推論と計画 Reasoning and Planning with Large Language Models in
Code Development Hao Ding and Ziwei Fan and Ingo Gühring and Gaurav Gupta and Wooseok Ha and Jun Huan and Linbo Liu and Behrooz Omidvar-Tehrani and Shiqi Wang and Hao Zhou 背景 LLMはコード開発プロセスを支援し、多様なタスクを効率化します。目的本研究は LLMの能力を活用し、コード開発を革新する方法を探ることです。提案事前トレーニングやファインチューニングなどで LLMが持つ可能性を最大化します。評価様々なタスクへの LLMの適用法を調査し、効果的な利用法を分析します。結果 LLMがコード開発プロセスを効率的かつ革新的に変える可能性を示しました。

MSI-Agent: マルチスケールの洞察を取り入れたエンボディエージェントで優れた計画と意思決定を MSI-Agent: Incorporating Multi-Scale Insight into Embodied
Agents for Superior Planning and Decision-Making Dayuan Fu and Biqing Qi and Yihuai Gao and Che Jiang and Guanting Dong and Bowen Zhou 背景長期記憶での無関係な洞察の出現と一般的な洞察の不足が問題です。目的マルチスケール洞察を用いて、 LLMの計画と意思決定能力を向上させることです。提案 MSI-Agentを導入し、多様なスケールで洞察を要約・利用します。評価経験セレクタ、洞察生成器、洞察セレクタの三部構成を実験的に検証します。結果 MSIは GPT3.5の他の戦略を上回り、ドメイン移行にも高い堅牢性があります。

大規模言語モデルを用いたマルチエージェント協調の心の理論 Theory of Mind for Multi-Agent Collaboration via Large
Language Models Huao Li and Yu Quan Chong and Simon Stepputtis and Joseph Campbell and Dana Hughes and Michael Lewis and Katia P. Sycara 背景 LLMは推論と計画で成果を上げていますが、マルチエージェント協調は未探究の領域です。目的研究は LLMのマルチエージェント協調能力を評価し、問題点を明らかにします。提案明示的な信念状態の表現が、 LLMの能力向上に有効であることを提案します。評価心の理論推論タスクを含む協同テキストゲームでの実験を行いました。結果信念状態の表現がタスクのパフォーマンスと ToM推論の精度を向上させました。

サイバーフィジカルシステムのデジタルツイン作成のための基盤モデル Foundation Models for the Digital Twin Creation of
Cyber-Physical Systems Shaukat Ali and Paolo Arcaini and Aitor Arrieta 背景デジタルツインは、サイバーフィジカルシステム（ CPS）の効率性と効果を高めるための重要な技術です。目的基盤モデルを活用してデジタルツインの性能を向上させる手法を明示します。提案基盤モデルを使用し、特化された微調整でデジタルツインを作成する手法を提案します。評価自動運転システムを例に、モデルの有効性を実証するケーススタディを行いました。結果基盤モデルはデジタルツインの効率性と機能向上に貢献可能であることが示されました。

生成的エージェントを用いた調査データ報道のためのティップシート作成 Using Generative Agents to Create Tip Sheets for
Investigative Data Reporting Joris Veerbeek and Nicholas Diakopoulos 背景調査データ報道において、データセットからの有用な情報抽出は重要です。目的本研究は、生成的 AIを活用した効率の良いティップ作成を目指します。提案 3つの専門エージェントが連携して洞察を生成するシステムを提案します。評価実際の調査報道を用いて、エージェントの効果を検証しました。結果エージェントを用いることで、よりニュース性と正確性が向上しました。

ゲーム理論的解決法による言語モデルの制御 States as Strings as Strategies: Steering Language Models with
Game-Theoretic Solvers I. Gemp and Yoram Bachrach and Marc Lanctot and Roma Patel and Vibhavari Dasagi and Luke Marris and Georgios Piliouras and K. Tuyls 背景言語モデルでの対話と戦略的動機の数理モデル化は難しい。目的言語的相互作用の安定した合理的戦略を数学的に計算する。提案対話とゲーム理論を結びつける新たなモデルを提案。評価 LLMの生成能力と結びつきを用いてゲーム理論概念をテスト。結果 LLMの戦略能力向上のプロセスを構築する方法を示した。

AriGraph: 大規模言語モデルエージェントのための知識グラフワールドモデル学習とエピソード記憶 AriGraph: Learning Knowledge Graph World Models
with Episodic Memory for LLM Agents Petr Anokhin and Nikita Semenov and Artyom Sorokin and Dmitry Evseev and Mikhail Burtsev and Evgeny Burnaev 背景 LLMsの発展は自律エージェント構築の基盤を提供し、環境適応が求められます。目的非構造化メモリでは複雑な意思決定が難しい問題を解決することです。提案エージェントがセマンティックとエピソード記憶を統合する AriGraphを提案します。評価 AriGraphの性能をインタラクティブなテキストゲームで評価しました。結果他の方法より優れた性能を示し、競争力ある結果を得ました。

Math-Shepherd: 人手注釈なしでステップバイステップで LLMを検証・強化 Math-Shepherd: Verify and Reinforce LLMs Step-by-step
without Human Annotations Peiyi Wang and Lei Li and Zhihong Shao and R. Xu and Damai Dai and Yifei Li and Deli Chen and Y. Wu and Zhifang Sui 背景既存の数学問題解法は手動注釈に強く依存しています。目的自動プロセス監視を用いることで手動注釈依存を打破します。提案 Math-Shepherdは各解法ステップにスコアを与える手法を提案します。評価検証と強化学習の 2つのシナリオで手法を評価しました。結果手法は精度を大幅に向上させる結果を示しました。

HCIの課題をマッピングする : ChatGPTと GPT-4を用いたコスト効率の良い質問応答の適用と評価 Mapping the Challenges of HCI:
An Application and Evaluation of ChatGPT and GPT-4 for Cost-Efficient Question Answering J. Oppenlaender and J. Hämäläinen 背景 **大規模言語モデル（ LLM） **は実世界で普及していますが、性能については未知の部分が多いです。目的コスト効率の高い抽出的質問応答の実用性を LLMで評価しようとしています。提案 ChatGPTと GPT-4の組み合わせが、 HCI研究のためのコスト効率の良い分析手法です。評価 2023年の CHI会議の議事録から HCIの研究課題を抽出し、 LLMを評価しました。結果 ChatGPTと GPT-4は、大規模コーパスを分析する非常にコスト効率の良い手段です。

Tempotronによるパルス形状識別 : GPUでの強力な分類器 Pulse shape discrimination based on the
Tempotron: a powerful classifier on GPU Haoran Liu and Peng Li and Ming Liu and Kai-Ming Wang and Zhuo Zuo and Bingqi Liu 背景パルス形状識別は自動化が求められている重要な課題である。目的 Tempotronの利点を生かし、手動の特徴抽出なしでの識別を目指す。提案 Tempotronモデルを使用して、事前知識に基づく直接的なパルス信号処理を実現。評価 GPU加速を用いて、 CPUに比べ 500倍速い識別を実現し、ノイズの影響を調査。結果 Tempotronは高い識別精度を達成し、学習特性分析でハイパーパラメータ選択を支援。

事前学習済み言語モデルにおける人格の評価と誘導 Evaluating and Inducing Personality in Pre-trained Language Models
Guangyuan Jiang and Manjie Xu and Song-Chun Zhu and Wenjuan Han and Chi Zhang and Yixin Zhu 背景機械の行動の標準化と定量評価は、 LLMの理解の要です。目的人間の心理測定テストで機械行動を評価し、特定の人格を誘導することを目指します。提案機械行動を評価するための **機械人格インベントリ（ MPI） **ツールを提案します。評価 MPIと P^2法を用いて、 LLMの行動を体系的に評価しました。結果 MPIの有効性を初めて示し、多様で検証可能な行動を誘導できました。

ブロックチェーンを用いたビザンチン耐性の LLMベースマルチエージェント調整 BlockAgents: Towards Byzantine-Robust LLM-Based Multi-Agent Coordination via Blockchain
Bei Chen and Gaolei Li and Xi Lin and Zheng Wang and Jianhua Li 背景 LLMを利用したマルチエージェントシステムは問題解決で有望だが、ビザンチン攻撃に弱い。目的ビザンチン攻撃耐性のある協調型マルチエージェントシステムの構築が重要です。提案 BlockAgentsはブロックチェーンを統合した協力的システムで、 PoTで貢献を評価します。評価三つのデータセットでマルチメトリック評価方法を用いた実験を行いました。結果 BlockAgentsは毒性攻撃とバックドア攻撃の影響を大幅に減少させました。

一般向け自動サイエンスジャーナリズムにおける LLM協力 LLM-Collaboration on Automatic Science Journalism for the
General Audience Gongyao Jiang and Xinran Shi and Qiong Luo 背景サイエンスジャーナリズムは、非専門家への科学的発見の伝達が困難です。目的研究の理解を促進するための効果的な記事生成方法を開発することです。提案三つの LLMを協力させた記事生成フレームワークを提案します。評価 7Bと 1.8Bのオープンソース LLMを用いて記事生成を比較しました。結果提案手法は、従来の方式よりもアクセスしやすい記事を生成できました。

制約による自律エージェントのマーケットプレイス : 発見とマッチメイキング Constraints Enabled Autonomous Agent Marketplace: Discovery
and Matchmaking Debmalya Biswas 背景 Auto-GPTの普及により、複雑なタスクを実行できる自律エージェントの重要性が増している。目的エージェントの発見を最適化し、効率的なタスク実行を可能にする。提案制約モデルを用いてエージェントの能力と制約を記述し、一貫性を保つ手法を示す。評価近似マッチメイキングを通じて、エージェント発見の効率性を検証。結果限界的不整合を利用し、エージェント発見を効率化する方法を確認。

VulnLLMEval: 大規模言語モデルのソフトウェア脆弱性検出と修正の評価フレームワーク VulnLLMEval: A Framework for Evaluating Large
Language Models in Software Vulnerability Detection and Patching Arastoo Zibaeirad and Marco Vieira 背景大規模言語モデル（ LLM）の脆弱性検出と修正能力には限界があり、評価が必要です。目的 LLMが複雑な脆弱性を正確に検出し修正できるかどうかを明らかにします。提案 VulnLLMEvalフレームワークにより、 Cコード内の脆弱性検出と修正を評価します。評価 Linuxカーネルから 307の現実世界の脆弱性を使用して性能を評価しました。結果 LLMは脆弱なコードと修正済みコードを区別するのが困難で、解決策は過度に単純化されがちです。

言語エージェントのための認知アーキテクチャ Cognitive Architectures for Language Agents T. Sumers and
Shunyu Yao and Karthik Narasimhan and Thomas L. Griffiths 背景大規模言語モデルの実用化が進む中、根拠や推論を必要とする新しいエージェントが注目されています。目的本研究の目的は、言語エージェントの体系的なフレームワークを提供し、将来の開発を導くことです。提案言語エージェント用の認知アーキテクチャ (CoALA) を提案し、モジュール化された構造を示します。評価 CoALAを用いて既存研究を調査し、多くの研究を体系的に編成しました。結果 CoALAは言語エージェントを AIの歴史に位置付け、一般知能への道を示します。

LLMベースの合成ペルソナとデータの HCIでの課題と機会 Challenges and Opportunities of LLM-Based Synthetic Personae
and Data in HCI Mirjana Prpa and G. Troiano and Matthew Wood and Yvonne Coady 背景 AIによる合成ペルソナとデータが、 HCIの多分野で活躍しています。目的 LLMを活用し、合成ペルソナとデータ研究の新しい可能性を探ることが目的です。提案 LLMを用いた合成ペルソナとデータによる未来の HCI研究フレームを提案します。評価参加者が創造的設計を通じて未来のビジョンを探求するワークショップを開催します。結果得られたビジョンや要件は HCIの議論を促進する科学出版物で広めます。

グラフエージェント : グラフのための明示的推論エージェント Graph Agent: Explicit Reasoning Agent for
Graphs Qinyong Wang and Zhenxiang Gao and Rong Xu 背景グラフ埋め込み方法は多くのタスクに貢献したが、解釈可能性が課題になっている。目的明示的推論を可能にする方法で、解釈可能性を向上させることが目的。提案 **グラフエージェント（ GA） **と呼ばれるシステムで、 LLMとシンボリック推論を統合。評価ノード分類とリンク予測タスクで GAの性能を評価し、精度を測定。結果 GAは 90%以上の精度を達成し、最先端の結果を示し、明確な推論能力を発揮した。

CompeteAI: 大規模言語モデルベースのエージェントの競争動態を理解する CompeteAI: Understanding the Competition Dynamics of Large
Language Model- based Agents Qinlin Zhao and Jindong Wang and Yixuan Zhang and Yiqiao Jin and Kaijie Zhu and Hao Chen and Xing Xie 背景協力ではなく競争に焦点を当て、社会発展の動態を理解。目的 LLMベースのエージェントの競争動態を調査すること。提案競争を研究する一般フレームワークと仮想環境を提案。評価 GPT-4を使用し、レストランと顧客エージェントで競争をシミュレート。結果市場理論に一致する有意義な発見をミクロとマクロで示した。

MetaUrban: 都市マイクロモビリティのための具象化 AIシミュレーションプラットフォーム MetaUrban: An Embodied AI Simulation
Platform for Urban Micromobility Wayne Wu and Honglin He and Jack He and Yiran Wang and Chenda Duan and Zhizheng Liu and Quanyi Li and Bolei Zhou 背景公共空間の利用が AIにより拡大し、安全性と汎用性の保証が重要です。目的都市のマイクロモビリティにおける AIモデルの汎用性と安全性を探求します。提案 MetaUrbanは無限の都市シーンを構築できる AIシミュレーションプラットフォームです。評価強化学習と模倣学習のベースラインを設定し、広範な評価を実施しました。結果異なる機械構造が AIポリシーに大きな影響を与えることを確認しました。

GPT学、計算モデル、シリコンサンプリング : LLMを認知科学でどう考えるべきか GPT-ology, Computational Models, Silicon Sampling: How
should we think about LLMs in Cognitive Science? Desmond C. Ong 背景大規模言語モデルが認知科学で活発な研究対象となっている現状があります。目的認知科学における LLMの位置付けを評価し、科学推論の課題を明らかにします。提案 GPT学、計算モデル、シリコンサンプリングという新たな研究パラダイムを提示します。評価これらの新しい研究パラダイムを用いた論文をレビューし、主張と課題を分析します。結果モデルのクローズドソース化、データの透明性不十分、再現性の課題が浮き彫りになりました。

AIエージェントの可視性 Visibility into AI Agents Alan Chan and Carson Ezell
and Max Kaufmann and K. Wei and Lewis Hammond and Herbie Bradley and Emma Bluemke and Nitarshan Rajkumar and David Krueger and Noam Kolt and Lennart Heim and Markus 背景 AIエージェントへの依存が増す中で、社会的リスクが高まっています。目的 AIエージェントの使用における可視性を向上させることが目的です。提案エージェント識別子、モニタリング、ログ活動の 3カテゴリーを提案します。評価中央集権から分散型まで、異なる展開での測定基準の適用を分析しました。結果提案する測定がプライバシーと権力集中に影響することが示唆されます。

二人の頭は一つよりも良い : マルチエージェントシステムは科学的アイデア生成を改善する可能性がある Two Heads Are Better Than
One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation Haoyang Su and Renqi Chen and Shixiang Tang and Xinzhe Zheng and Jingzhe Li and Zhenfei Yin and Wanli Ouyang and Nanqing Dong 背景科学の進歩には発見を加速する革新的なツールが必要です。目的 AIが科学的実践の共同作業を再現できるかを解決しようとします。提案我々は、 LLMベースのマルチエージェントシステム Virtual Scientistsを提案します。評価包括的な実験でこのアプローチが他の方法を超えるか検証しました。結果共同エージェント統合が革新的な科学成果を生む可能性を示しています。

マシン心理学：心理学的手法を用いた大規模言語モデルの発現能力と行動の調査 Machine Psychology: Investigating Emergent Capabilities and Behavior in
Large Language Models Using Psychological Methods Thilo Hagendorff 背景 LLMsは情報取得や問題解決で主要技術となりつつあり、能力評価が必要です。目的心理学実験の手法を用いて、 LLMsの発現能力を評価することを目指します。提案新しい研究分野の「マシン心理学」を提案し、心理学手法で LLMsの行動を評価します。評価 LLMsを心理学実験参加者として扱い、行動パターンを評価する手法を使用しました。結果伝統的な手法では検出できない LLMsの発現能力を新たに発見しました。

MM-VID: GPT-4V(ision)でビデオ理解を進化させる MM-VID: Advancing Video Understanding with GPT-4V(ision) Kevin
Lin and Faisal Ahmed and Linjie Li and Chung-Ching Lin and E. Azarnasab and Zhengyuan Yang and Jianfeng Wang and Lin Liang and Zicheng Liu and Yumao Lu and Ce Liu and Lijuan Wang 背景長編ビデオでの理解や推論は複雑で、マルチモーダルな情報処理が必要。目的長編ビデオの理解を向上させ、複雑なコンテンツに対応する。提案 GPT-4Vでマルチモーダル要素をテキストに変換する MM-VIDを提案。評価実験で MM-VIDの効果を様々なジャンルと長さのビデオで評価。結果 MM-VIDは、ビデオ理解を進化させる可能性を示唆した。

大規模言語モデルによる世論シミュレーションの性能とバイアス Performance and Biases of Large Language Models in
Public Opinion Simulation Yao Qu and Jue Wang 背景大規模言語モデルはデータ分析を再定義し、公共政策に影響を与えます。目的この研究は、 LLMの世界的適用性とバイアスを評価・解決を目指します。提案 LLMの性能を社会人口統計データを用いて評価し、バイアスを分析します。評価 World Values Surveyを使用し、異なる国々や人口統計での性能を評価しました。結果西洋、特にアメリカで性能が良く、人口統計グループ間でバイアスが確認されました。

LLMを用いた人間行動のシミュレーションの課題 : 因果推論の視点から The Challenge of Using LLMs to
Simulate Human Behavior: A Causal Inference Perspective George Gui and Olivier Toubia 背景 LLMは人間行動をシミュレートする可能性を持つが、未特定の交絡因子が問題となる。目的需要推定における内生性の挑戦を探り、適正な結果を提供することが目的。提案未特定の交絡因子に対処するための理論的枠組みと、プロンプトの明確化を提案。評価因果推論を用いた実証的および理論的な分析により提案の有効性を評価。結果特定の実験デザインに依存するが、方向性を示す結果を得た。

教師研修のための生成エージェント : 教師育成のための大規模言語モデルを活用した教育問題解決シミュレーションの設計 Generative Agent for Teacher Training:
Designing Educational Problem-Solving Simulations with Large Language Model-based Agents for Pre-Service Teachers Unggi Lee and Sanghyeok Lee and Junbo Koh and Yeil Jeong and Haewon Jung and Gyuri Byun and Jewoong Moon and Jieun Lim and †. HyeoncheolKim 背景教師研修は理論に偏りがちで、実践不足が問題です。目的実践的能力を補うための効果的な研修手段の提供が目的です。提案 GPT-4と Robloxを用いた問題解決シミュレーションの実施を提案します。評価三人の教師とのインタビューによりプラットフォームの評価を行いました。結果使用性に関する前向きな反応が得られました。

人工超人的知能に不可欠な自己改善性 Open-Endedness is Essential for Artificial Superhuman Intelligence Edward Hughes
and Michael D. Dennis and Jack Parker-Holder and Feryal M. P. Behbahani and Aditi Mavalankar and Yuge Shi and Tom Schaul and Tim Rocktaschel 背景近年、 AIシステムの一般能力が大きく向上していますが、自己改善性の実現は困難です。目的自己改善性が人工超人的知能（ ASI）の不可欠な特性であることを示すこと。提案新規性と学習可能性を基にした自己改善性の具体的形式を提案します。評価基盤モデルの上に構築された自己改善システムを通じて ASIの生成を検討します。結果自己改善型基盤モデルが今後の研究における重要領域であることが期待されます。

OmniActions: 大規模言語モデルで実世界のマルチモーダル入力に応じたデジタル行動を予測 OmniActions: Predicting Digital Actions in Response
to Real-World Multimodal Sensory Inputs with LLMs Jiahao Nick Li and Yan Xu and Tovi Grossman and Stephanie Santosa and Michelle Li 背景遍在拡張現実により多様な情報アクセスが可能になるが、実際の利用には障害が存在。目的ユーザーがリアルタイムでデジタルアクションにアクセスしやすくすることを目的とする。提案 OmniActionsは、 LLMsを活用してマルチモーダル入力に応じたデジタルアクションを予測する。評価日記研究から得たデータを基に、 3つの LLM技術の量的評価を行った。結果最も効果的な LLM技術を特定し、ユーザーの反応に関する初期フィードバックを得た。

LLMベースエージェントの高レベル動作の形式的仕様 Formally Specifying the High-Level Behavior of LLM-Based Agents
M. Crouse and Ibrahim Abdelaziz and Kinjal Basu and Soham Dan and Sadhana Kumaravel and Achille Fokoue and P. Kapanipathi and Luis A. Lastras 背景 LLMベースのエージェントは、特定のタスクの微調整が不要なため、コスト効率の良い解決策です。目的エージェント設計の簡易化と新規エージェントの迅速な構築を目指します。提案高レベルの宣言型仕様でデコードモニターを構築し、動作を制御します。評価提案したフレームワークを用いて最新のエージェントを実装し、推論中心のベンチマークで評価しました。結果我々の手法は、他のエージェントよりも優れた性能を示しました。

Patchview: ジェネレーティブダストとマグネット可視化による LLMベースのワールドビルディング Patchview: LLM-Powered Worldbuilding with Generative
Dust and Magnet Visualization John Joon Young Chung and Max Kreminski 背景大規模言語モデルによる生成要素の管理は難しく、明確な制御が求められている。目的ユーザーが生成要素を視覚的に制御し、意味を理解しやすくすることを目指す。提案 Patchviewは、ユーザーがマグネットとダストを通じて世界要素と相互作用するビジュアルシステム。評価ユーザースタディを通じて、 Patchviewが要素生成と意味理解を支援するかを評価。結果 Patchviewは、ユーザーの意図に合ったビジュアル表現でモデルの行動を合わせる手がかりを提供。

大規模言語モデルは群衆の舵取りか？人狼ゲームにおける意見リーダーシップの評価 Helmsman of the Masses? Evaluate the Opinion Leadership
of Large Language Models in the Werewolf Game Silin Du and Xiaowei Zhang 背景大規模言語モデルが社会的推理ゲームで示す意見リーダーシップの重要性が見過ごされている。目的人狼ゲームを用いて LLMの意見リーダーシップを評価し、その能力を検証する。提案保安官役割を統合し、意見リーダーの信頼性と影響力を測定する指標を開発。評価様々な規模の LLMの評価と人狼 QAデータセットの収集を通じた詳細な分析。結果人狼ゲームが LLMの意見リーダーシップ評価に適し、少数の LLMにその能力がある示唆が得られた。

抽象および推論コーパス（ ARC）チャレンジの解決アプローチ An Approach to Solving the Abstraction and
Reasoning Corpus (ARC) Challenge Tan John Chong Min 背景 ARCチャレンジは、 AIの推論能力をテストするための問題。目的大規模言語モデルを用いて ARCタスクの解決を目指す。提案 GPT4をプロンプトエンジニアリングして、 ARCタスクを解決。評価 GPT3.5/GPT4を用いたプロンプトエンジニアリングの適用。結果小さな ARCチャレンジの 2つで成功を収め、他の問題にも応用可能。

社会的シーンシミュレーションを通じた大規模言語モデルの自己整合 Self-Alignment of Large Language Models via Monopolylogue-based Social
Scene Simulation Xianghe Pang and Shuo Tang and Rui Ye and Yuxin Xiong and Bolun Zhang and Yanfeng Wang and Siheng Chen 背景大規模言語モデルの誤用による悪影響を軽減する整合は重要。目的 LLMsを自己整合させ、人間の価値に適合させる。提案 MATRIXという新しい社会的シーンシミュレーターを提案。評価 4つのベンチマークで 10以上のベースラインを超える性能を実験で検証。結果 13Bサイズ LLMが人間の価値に整合し、 GPT-4を上回る。

大規模言語モデルが人間との議論において持つ限界 Limits of Large Language Models in Debating Humans
James Flamino and Mohammed Shahid Modi and B. Szymański and Brendan Cross and Colton Mikolajczyk 背景 **大規模言語モデル（ LLMs） **は社会学的実験での人工仲間としての利用が期待される。目的 LLMの限界を明らかにし、その議論能力を理解すること。提案 LLMエージェントが人間に与える影響と議論能力を評価する。評価人間、エージェントと人間、エージェントのみの 3環境で意見形成を分析。結果 LLMsは生産性を促進するが、議論では説得力に欠けることが判明。

大規模基盤モデルの壊滅的な継承について On Catastrophic Inheritance of Large Foundation Models Hao Chen
and Bhiksha Raj and Xing Xie and Jindong Wang 背景 LFMは高性能ながら、バイアスやセキュリティ問題が未解決です。目的 LFMの壊滅的継承問題の特定と解決を目指しています。提案 UIMフレームワークを提案し、問題の理解、解釈、緩和を行います。評価事前学習と下流適応の両面から問題を分析します。結果責任ある AI開発へ向けた方向性を示します。

ソーシャル VRにおけるリアルタイム音声ベースのヘイトスピーチ検出用 LLMエージェント「 Safe Guard」 Safe Guard: an
LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality Yiwen Xu and Qinyang Hou and Hongyu Wan and Mirjana Prpa 背景ソーシャル VRにおけるヘイトスピーチは重要な課題であり、これを効果的に検出し抑制する手法が求められています。目的この研究の目的は、音声ベースのインタラクションでのヘイトスピーチを効果的に検出することです。提案 Safe Guardは、 Open AI GPTと音声特徴抽出を組み合わせたリアルタイム検出システムを提案します。評価システムの評価は、既存手法と比較して誤検出を減らす能力を分析しました。結果 LLMベースのエージェントが仮想環境の安全性を向上させる可能性を示しました。

持続可能な社会・技術・環境システムの自己組織化 Sustainable Self-Organisation of Socio- Techno- Ecological Systems Asimina
Mertzani and Jeremy V. Pitt 背景技術と環境の交差が、社会アクターの自己組織化に影響する。目的持続可能性を新しい視点で捉え直し、その実現可能性を探る。提案 AIの進展を活用し、技術と環境、社会 -政治経済の交差を制御する枠組みを提案。評価持続可能性のモデル化と不確実性対処の課題を提示する理論的立場を述べる。結果概念的枠組みの開発が、自己管理型システムの第一歩と認識される。

画像編集のための協調的競争エージェント（ CCA） CCA: Collaborative Competitive Agents for Image Editing
Tiankai Hang and Shuyang Gu and Dong Chen and Xin Geng and Baining Guo 背景複雑な画像編集指示を ** robust **に処理する方法は限られていた。目的画像編集指示を精緻に処理する新たなシステムの提示と評価。提案 GANに似た ** CCA **でエージェントが協力・競争して結果を改良。評価詳細なエージェント関係の解析と包括的な画像編集の実験を行った。結果協調的競争によりシステムの質と強靭性が向上することが示された。

誰の声で？：生成音声を通じた社会的相互作用における AIエージェントの人間の表現の検討 In Whose Voice?: Examining AI Agent
Representation of People in Social Interaction through Generative Speech A. Hwang and John Oliver Siy and Renee Shelby and Alison Lentz 背景生成 AIの普及に伴い、社会的相互作用の変容が懸念されています。目的 AIエージェントが個人表現する際の影響を理解し、コミュニケーションの質を守ること。提案個人表現を行う AIエージェントの影響に関する研究方法を多面的に明らかにする。評価インタビュー、共同デザインワークショップ、害分析などを用いて調査を行いました。結果エージェント表現は社会的相互作用の価値と個人のコントロールを脅かす可能性があると示唆される。

ING-VP: MLLMsはまだ簡単な視覚ベースのゲームをプレイできない ING-VP: MLLMs cannot Play Easy Vision-based Games
Yet Haoran Zhang and Hangyu Guo and Shuyue Guo and Meng Cao and Wenhao Huang and Jiaheng Liu and Ge Zhang 背景 MLLMsの性能向上に伴い、視覚的課題に対応するための詳細なベンチマークが必要となっている。目的 MLLMsの空間推論と計画能力を特化評価するフレームワークを提供すること。提案 ING-VPは複数のゲームを通じて、空間的想像力とマルチステップ推論を評価する。評価 6つのゲームで 60,000回以上の対話を通じて、能力を比較評価する複数設定を提供。結果主要モデル Claude-3.5 Sonnetの最高精度は **3.37%** で、標準未達。

LLMベースのエージェントで橋梁運用と保守を革新 : 応用と洞察の概要 Revolutionizing Bridge Operation and maintenance with
LLM-based Agents: An Overview of Applications and Insights Xinyu-Chen and Yanwen-Zhu and Yang-Hou and Lianzhen-Zhang 背景橋梁 O&M分野は他の産業と比べて知能化が進んでおらず、 AI導入が求められる。目的 AIエージェントが橋梁 O&Mに与える影響とその可能性を探ること。提案 LLMベースの AIを橋梁 O&Mに応用し、知能化を促進する方法を提示。評価機械学習アルゴリズムや自律的評価方法を通じて、 AI効果を検証。結果 AI導入で橋梁 O&Mの知能化が促進され、多くの機会と課題が明らかとなる。

マフィア風ゲームシミュレーションにおける GPTの可能性 GPTs in Mafia-like Game Simulation Munyeong Kim 背景
生成 AIの応用可能性を役割演技で探索することが重要視されている。目的 GPT-4の理解、意思決定、対話能力を示すことが目的である。提案 GPT-4を用いたロールプレイシミュレーションでの能力活用を提案。評価 GPT-4と GPT-3.5-turboの能力を比較分析した。結果 GPT-4は前モデルからの大幅な改善を示したが、さらなる発展が必要。

記憶を用いた軌跡の例示法によるコンピュータ制御 Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control
Longtao Zheng and R. Wang and Bo An 背景コンピュータ制御におけるエージェント構築には、コンテキスト内学習の制約が大きな課題です。目的この研究は、限定されたコンテキスト問題を解決し、エージェントの汎化能力を向上させることを目的としています。提案我々は Synapseというエージェントを提案し、状態抽象化、軌跡利用、例示メモリの三位一体を活用します。評価 MiniWoB++と Mind2Webを用いて、タスク成功率とステップ成功率を評価しました。結果 Synapseは、 MiniWoB++で **99.2%**の平均成功率を達成し、 Mind2Webでも優れた成功率を示しました。

マルチエージェントコラボレーション : インテリジェントな LLMエージェントの力を活用する Multi-Agent Collaboration: Harnessing the
Power of Intelligent LLM Agents Yashar Talebirad and Amirhossein Nadiri 背景 LLMsの能力向上は、複雑なタスクの効率的処理に重要。目的マルチエージェントシステムで LLMsの限界に対処し、性能を向上させる。提案インテリジェントエージェントの協力環境を構築し、 LLMsの課題を解決。評価 Auto-GPTや BabyAGIモデルを通じたケーススタディで実証。結果エージェント間の協力と知識交換で LLMsの性能が向上。

大規模言語モデルの相互整合性に関する考察 : ディベートを通じた分析 Diving into the Inter-Consistency of Large Language
Models: An Insightful Analysis through Debate Kai Xiong and Xiao Ding and Yixin Cao and Ting Liu and Bing Qin 背景研究は LLMが強力な推論能力を持つが非整合性問題を抱えている点に着目している。目的研究は複数の LLM間の相互整合性の問題を解決し、精度の高い意思決定を目指す。提案 LLM間での三段階のディベートにより、相互整合性の向上を図る。評価 7つの常識的推論データセットで広範な実験を通じ評価を行った。結果ディベートにより LLMの相互整合性が向上し、性能と解釈性が改善された。

GPTを活用した「モルモット試験」 : 企業競争と共謀を研究する画期的なスマートエージェントベースモデリングアプローチ "Guinea Pig Trials" Utilizing GPT:
A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion Xu Han and Zengqing Wu and Chuan Xiao 背景企業間の競争と共謀は、複雑な動力学を持ち、コミュニケーションに依存している。目的企業の価格競争と共謀行動を研究するための新たなモデリング枠組みを提案する。提案 GPT-4技術によるスマートエージェントを用いた **スマートエージェントベースモデリング（ SABM） **を提案。評価企業の価格競争と共謀行動を制御された実験で分析し、 SABMの有効性を評価。結果通信がない場合、エージェントは暗黙の共謀に達し、通信がある場合はカルテル価格に近づく。

高性能 LLM取引エージェントの FinMem: 階層型メモリとキャラクターデザイン FinMem: A Performance-Enhanced LLM Trading
Agent with Layered Memory and Character Design Yangyang Yu and Haohang Li and Zhi Chen and Yuechen Jiang and Yang Li and Denghui Zhang and Rong Liu and Jordan W. Suchow and K. Khashanah 背景 LLMは QAタスクでの成功により、自律エージェント開発へと関心が移行しています。目的金融分野での意思決定をサポートする LLMフレームワークの開発が目的です。提案 FinMemはプロファイリング、階層型メモリ、意思決定の 3つのモジュールを含む新しいフレームワークです。評価実世界の金融データセット上で、フィンメムと他のアルゴリズムエージェントを比較しました。結果 FinMemは株式取引での投資収益の向上において優れたパフォーマンスを示しました。

SGLang: 構造化された言語モデルプログラムの効率的実行 SGLang: Efficient Execution of Structured Language Model
Programs Lianmin Zheng and Liangsheng Yin and Zhiqiang Xie and Chuyue Sun and Jeff Huang and Cody Hao Yu and Shiyi Cao and Christos Kozyrakis and Ion Stoica and Joseph E. Gonzalez and Clark W. Barrett and Ying Sheng 背景大規模言語モデルは、複雑なタスクでの効率的な実行が求められています。目的既存システムの効率性不足を解消し、プログラムの実行を高速化します。提案 SGLangは、新しい最適化技術を採用した効率的な実行システムです。評価 SGLangの効果は多様なモデルやタスクでの実験で評価されました。結果 SGLangは、最大 6.4倍のスループットを達成し、効率性を示しました。

MACPO: マルチエージェント対比嗜好最適化による弱から強へのアライメント MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference
Optimization Yougang Lyu and Lingyong Yan and Zihan Wang and Dawei Yin and Pengjie Ren and M. D. Rijke and Z. Ren 背景大規模言語モデルが人間の能力を超える中、人間の価値観との整合が急務です。目的弱い教師から強い生徒への適切なアライメントを実現することが目的です。提案 MACPOは弱い教師と強い生徒が互いに学習する仕組みを提案します。評価 HH-RLHFと PKU-SafeRLHFデータセットで自動評価と人間の判断を使用しました。結果 MACPOは強い生徒と弱い教師のアライメント性能を同時に向上させます。

BMWエージェント - マルチエージェント協調によるタスク自動化のフレームワーク BMW Agents - A Framework For
Task Automation Through Multi-Agent Collaboration Noel Crawford and Edward B. Duffy and Iman Evazzade and Torsten Foehr and Gregory Robbins and D. K. Saha and Jiya Varma and Marcin Ziolkowski 背景大規模言語モデルの成長で自律エージェントの自動化可能性が高まっている。目的複雑なタスク解決のためのマルチエージェントフレームワークを設計する。提案計画と実行に優れたエージェントのフレームワークを提案する。評価多分野でのユースケースを用いてフレームワークの性能を評価。結果提案手法が産業応用において信頼性と柔軟性をもたらすことが示された。

NarrativePlay: インタラクティブな物語理解 NarrativePlay: Interactive Narrative Understanding Runcong Zhao and
Wenjia Zhang and Jiazheng Li and Lixing Zhu and Yanran Li and Yulan He and Lin Gui 背景物語中のキャラクターとの対話を通じて、ユーザーの没入感を高める需要がある。目的用意されたシナリオに頼らず、物語体験の没入性を向上させること。提案ユーザーがキャラクターを選び、 LLMsを使用して自然な対話を実現する新システム。評価探偵と冒険物語で評価し、ユーザーの探索と対話を観察。結果 NarrativePlayは、物語体験の没入感を顕著に向上させた。

ChatEval: マルチエージェントディベートによる優れた LLM評価者への進化 ChatEval: Towards Better LLM-based Evaluators through
Multi-Agent Debate Chi-Min Chan and Weize Chen and Yusheng Su and Jianxuan Yu and Wei Xue and Shan Zhang and Jie Fu and Zhiyuan Liu 背景テキスト評価は労力とコストが高く改善が必要です。目的複数アノテータを使い人間レベル評価に近づけることが目的です。提案マルチエージェントフレームワークで LLM同士が協力し評価を向上させます。評価 ChatEvalを用い、複数モデルの生成回答を自律的に評価しました。結果 ChatEvalは人間に似た評価を行い、信頼性のある評価が可能です。

AmadeusGPT: 自然言語インターフェースによる対話型動物行動解析 AmadeusGPT: a natural language interface for interactive
animal behavioral analysis Shaokai Ye and Jessy Lauer and Mu Zhou and Alexander Mathis and Mackenzie W. Mathis 背景動物行動解析は深い生物学的知識と機械学習の専門性が求められる。目的 AmadeusGPTは行動解析を自然言語で簡便に実行可能にする。提案新しい自然言語インターフェースでコード化を自動化し行動解析を支援。評価 MABE 2022行動チャレンジタスクでベンチマークを行った。結果最先端の性能を発揮し、コード不要で解析が可能。

LLMエージェントを用いた生成デザインツールによる新しいデバイス構築 :流体計算インターフェイスの事例研究 Enabling Generative Design Tools with LLM
Agents for Building Novel Devices: A Case Study on Fluidic Computation Interfaces Qiuyu Lu and Jiawei Fang and Zhihao Yao and Yue Yang and Shiqing Lyu and Haipeng Mi and Lining Yao 背景 HCIの分野で、新技術を用いるプロトタイピングの民主化が求められています。目的新しいデバイス設計ツールを LLMエージェントで拡張し可能性を探ることです。提案生成デザインツールを使用し、設計プロセスでのアイデア創出を支援します。評価流体計算インターフェイスを用いたケーススタディで評価しました。結果 GDTは新デバイスの能力を理解し、適切なシナリオを提案できます。

大規模言語モデルは心の理論を持つエージェントからどれだけ遠い？ How FaR Are Large Language Models From Agents
with Theory-of-Mind? Pei Zhou and Aman Madaan and Srividya Pranavi Potharaju and Aditya Gupta and Kevin R. McKee and Ari Holtzman and J. Pujara and Xiang Ren and Swaroop Mishra and Aida Nematzadeh and Shyam Upadhyay and 背景人間の **心の理論（ ToM） **は、他者の精神状態を理解し行動に活かす能力。目的 **Thinking for Doing（ T4D） **によって、 LLMが推測を行動に変える能力を評価。提案 **Foresee and Reflect（ FaR） **で、 LLMの未来予測と行動推論を強化するフレームワークを提供。評価 GPT-4と PaLM 2を用いた社会的シナリオでの LLM評価実験を実施。結果 FaRは GPT-4の **パフォーマンスを 71%**に引き上げ、他手法を上回る成果を示す。

LLMは経済的選択予測ラボを置き換えられるか？言語ベースの説得ゲームのケース Can LLMs Replace Economic Choice Prediction Labs? The
Case of Language- based Persuasion Games Eilam Shapira and Omer Madmon and Roi Reichart and Moshe Tennenholtz 背景経済的選択予測は、マーケティングや金融など多くの分野で重要です。目的 LLMが経済的な選択予測データを生成できるかを調査します。提案言語ベースの説得ゲームで LLM生成データを用いた予測モデルを提案します。評価実験により、 LLM生成データで訓練されたモデルの有効性を評価しました。結果 LLM生成データで訓練されたモデルは人間データのモデルを上回る結果を示しました。

AgentFL: LLMベースの障害位置特定をプロジェクトレベルの文脈に拡大 AgentFL: Scaling LLM-based Fault Localization to Project-Level
Context Yihao Qin and Shangwen Wang and Yiling Lou and Jinhao Dong and Kaixin Wang and Xiaoling Li and Xiaoguang Mao 背景障害位置特定はデバッグで重要だが、 LLMは小範囲しか対応できない。目的広いコードスコープでのバグ診断の実現が課題です。提案 AgentFLは ChatGPTに基づく多エージェントシステムで障害を自動特定します。評価 Defects4J-V1.2.0ベンチマークでの評価とアブレーション研究を実施。結果 395中 157のバグを特定し、他手法より優れていると確認。

構造化金融における基礎資産レビューの効率と精度向上：マルチエージェントフレームワークの適用 Enhancing the Efficiency and Accuracy of Underlying
Asset Reviews in Structured Finance: The Application of Multi-agent Framework Xiangpeng Wan and Haicheng Deng and Kai Zou and Shiqi Xu 背景構造化金融は資本効率を改善するが、デューデリジェンスの課題が大きい。目的 AIを用いて資産レビューの効率と精度を向上すること。提案 AIを活用したマルチエージェントシステムで資産レビューを自動化。評価オープンソース LLMsとクローズドソースモデルを比較評価。結果 AIは手動エラーを減少させ、デューデリジェンス工程を効率化可能。

広く見て賢く考える : フィルターバブルを打破するための生成的マルチエージェントシステムの設計に向けて See Widely, Think Wisely: Toward
Designing a Generative Multi-agent System to Burst Filter Bubbles Yu Zhang and Jingwei Sun and Li Feng and Cen Yao and Mingming Fan and Liuxin Zhang and Qianying Wang and Xin Geng and Yong Rui 背景 AIによるフィルターバブルの形成が進み、偏見の強化と視野の狭窄が大きな問題です。目的ユーザーが多様な視点を受け入れる支援を目指しています。提案 LLMとマルチエージェントシステムを用いたインセンティブによる動機付けを提案しました。評価 18名の参加者と共にデザインスタディを行いました。結果マルチエージェント対話がユーザーの視野広げに動機付けになると示されました。

オープンエンドのマルチエージェントナビゲーションのための階層的自動整理システム Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation Zhonghan
Zhao and Kewei Chen and Dongxu Guo and Wenhao Chai and Tianbo Ye and Yanting Zhang and Gaoang Wang 背景 Open-world環境でのマルチエージェントナビゲーションは通信とタスク管理の課題が大きい。目的エージェントが効率的にナビゲートできる自動整理システムの開発を目指す。提案階層的システムによりエージェントを整理し、情報処理を改善する。評価 Minecraft環境で探索と検索のナビゲーションタスクを用いて評価。結果エージェントが人間に近い組織構造で設計され、効果的にナビゲート可能。

人間 -AI協力における相互心の理論：リアルタイム共同作業タスクにおける大規模言語モデル駆動 AIエージェントを用いた実証研究 Mutual Theory of Mind in
Human-AI Collaboration: An Empirical Study with LLM- driven AI Agents in a Real-time Shared Workspace Task Shao Zhang and Xihuai Wang and Wenhao Zhang and Yongshan Chen and Landi Gao and Dakuo Wang and Weinan Zhang and Xinbing Wang and Ying Wen 背景 **心の理論（ ToM） **は他者を理解する能力であり、人間の協力において重要な役割を果たす。目的 ToM能力を持つ AIと人間協力の影響を調査することで、チームのパフォーマンス改善を図る。提案 ToMとコミュニケーションを活用した AIエージェントが人間の理解や協力を改善する手法を提案。評価大規模言語モデルを用いた AIエージェントによるリアルタイムタスクで、 ToMの影響を実証。結果 ToMエージェントはチーム性能への影響は少なく、人間理解の向上に寄与する。

自然言語駆動のシミュレーションベンチマークとコパイロット :仮想道路シーンにおける効率的な物体相互作用生成 Natural-language-driven Simulation Benchmark and Copilot for
Efficient Production of Object Interactions in Virtual Road Scenes Kairui Yang and Zihao Guo and Gengjie Lin and Haotian Dong and Die Zuo and Jibin Peng and Zhao Huang and Zhecheng Xu and Fupeng Li and Ziyun Bai and Di Lin 背景自律走行システムは予測不可能な障害物を回避する必要があり、効率的なシミュレーションが重要です。目的効率的な物体相互作用生成で自律運転システムの教育とテストを改善することを目的としています。提案自然言語で物体相互作用を制御し、大量のデータ作成を効率化する NLDシミュレーションを提案します。評価 SimCopilotを用いて、物体動作制御、複雑相互作用生成、道路間の一般化能力を L2Iデータセットで評価しました。結果自然言語記述からの物体動作の制御と相互作用の生成に成功し、さらなる研究を促進します。

LLMは人間レベルのプレイヤーではないが、テスターにはなれる： LLMエージェントによるゲーム難易度の測定 LLMs May Not Be Human-Level Players,
But They Can Be Testers: Measuring Game Difficulty with LLM Agents Chang Xiao and Brenda Z. Yang 背景 LLMの進化により、ゲーム難易度の自動測定が可能になった。目的 LLMを使い、ゲームの難易度を測定する方法を提案する。提案 LLMエージェントでゲームテストのフレームワークを構築する。評価 Wordleと Slay the Spireでテストを行い、人間の評価と比較した。結果 LLMはシンプルなプロンプト技術で人間の難易度評価と相関を示した。

深層学習視点からのアラインメント問題 The alignment problem from a deep learning perspective Richard
Ngo 背景 AGIは将来的に人間の多くの重要なタスクを上回る可能性があるため、その影響が懸念されています。目的 AGIが人間の利益と対立する目標を学ぶリスクを防ぐ必要があることを議論します。提案現代のモデルの訓練法が誤った目標を学ばせる可能性を指摘しています。評価新たな証拠をレビューし、内部に矛盾した目標を持つ危険性を検討します。結果ミスアラインした AGIは制御が困難で、人間の支配を損なう可能性があります。

言語モデルベースの対話システムの進化に関する調査 A Survey of the Evolution of Language Model-Based
Dialogue Systems Hongru Wang and Lingzhi Wang and Yiming Du and Liang Chen and Jing Zhou and Yufei Wang and Kam-Fai Wong 背景言語モデルが対話システムにおける中心的役割を果たし、その進化が注目されています。目的 4段階に分けて対話システムの進化を明確に整理し、理解を深めます。提案言語モデルの各進展が対話システムに与えた影響を詳細に分析します。評価時系列的視点で LMの進展をレビューし、 4つの段階ごとに分類しました。結果重要な進展である LLMに焦点を当て、今後の方向性を示しました。

マルチエージェント強化学習を用いた資源交換と許容された窃盗の行動の出現 Emergent Resource Exchange and Tolerated Theft Behavior Using
Multiagent Reinforcement Learning Jack Garbus and J. Pollack 背景協力の進化は、ゲーム理論や進化生物学で長く研究され重要なテーマとなっている。目的本研究の目的は、資源の交換がどのように進化するかを明らかにすることにある。提案焚き火を利用してエージェント間の新しい資源交換プロトコルを提案する。評価採餌環境でのマルチエージェント強化学習によるシミュレーションを実施した。結果エージェントは許容された窃盗に似た行動を自然に学習することが分かった。

大規模言語モデルの堅牢で拡張可能なモデル編集 Robust and Scalable Model Editing for Large Language
Models Yingfa Chen and Zhengyan Zhang and Xu Han and Chaojun Xiao and Zhiyuan Liu and Chen Chen and Kuai Li and Tao Yang and Maosong Sun 背景 LLMは文脈知識を無視しがちで、非関連情報への堅牢性が必要です。目的 LLMの文脈知識に依存した制御可能性と、非関連情報への堅牢性を向上する。提案命令微調整で制御可能な ERENを提案し、編集の拡張性を改善。評価新たなデータセットで LLMの堅牢性と既存技術を超える性能を検証。結果 ERENは複数の編集統合や無関係入力への正確な応答が可能です。

OpenAgents: 日常生活のオープンプラットフォームとしての言語エージェント OpenAgents: An Open Platform for Language Agents
in the Wild Tianbao Xie and Fan Zhou and Zhoujun Cheng and Peng Shi and Luoxuan Weng and Yitao Liu and Toh Jing Hua and Junning Zhao and Qian Liu and Che Liu and Leo Z. Liu and Yiheng Xu and Hongjin Su and Dongchan 背景言語エージェントは LLMsに基づき、多様なタスクを遂行する可能性を持つ。目的一般ユーザーでも使えるオープンプラットフォームを通じて言語エージェントを普及。提案 OpenAgentsを提案し、日常生活で言語エージェントを活用する基盤を提供。評価ユーザーインターフェースを通じ、迅速な応答と共通の失敗に対応する試験を実施。結果 OpenAgentsは革新的な言語エージェント開発と評価を促進する基盤を提供。

進化する条件付きメモリを持つパーソナライズされた大型言語モデルアシスタント Personalized Large Language Model Assistant with Evolving Conditional
Memory Ruifeng Yuan and Shichao Sun and Zili Wang and Ziqiang Cao and Wenjie Li 背景大型言語モデルは進化していますが、パーソナライズが不十分で、ユーザーのニーズに合わないことがあります。目的対話履歴を元にユーザーの好みを記憶し、パーソナル化を実現する技術を開発します。提案条件付きメモリを使用し、対話履歴を動的に保存して応答の質を向上させる手法を提案します。評価パーソナライズアシスタントの能力を三つの観点から評価するためのベンチマークを構築しました。結果実験結果は、提案手法の有効性を示し、応答の質が向上したことを確認しました。

AutoPenBench: ペネトレーションテスト用生成エージェントのベンチマーク AutoPenBench: Benchmarking Generative Agents for Penetration Testing
Luca Gioacchini and Marco Mellia and Idilio Drago and Alexander Delsanto and G. Siracusano and Roberto Bifulco 背景生成 AIエージェントはサイバーセキュリティタスクの自動化に有望ですが、標準的な評価基準が欠如しています。目的本研究は、自動ペネトレーションテストにおけるエージェントの評価基準を提供することを目的としています。提案 AutoPenBenchというベンチマークを提示し、 33のタスクで生成エージェントを評価します。評価エージェントの性能は一般的かつ特定のマイルストーンで評価し、限界を理解します。結果完全自律エージェントは成功率 21％で、支援付きエージェントは 64％の成功率を達成しました。

AIによる侵入テスト : 大規模言語モデルを用いた手法 Getting pwn’d by AI: Penetration Testing
with Large Language Models A. Happe and Jürgen Cito 背景ソフトウェアセキュリティテストは専門性が高く、手動作業が多い分野です。目的 AIを活用して侵入テスターの支援可能性を探ることが目的です。提案大規模言語モデルを使って高レベルタスク計画と脆弱性探索を支援します。評価脆弱な仮想マシンと閉ループフィードバックを用いた評価を行いました。結果有望な初期結果を得て、改善点や倫理について考察しました。

大規模言語モデルの人格編集 Editing Personality for Large Language Models Shengyu Mao and
Ningyu Zhang and Xiaohan Wang and Meng Wang and Yunzhi Yao and Yong Jiang and Pengjun Xie and Fei Huang and Huajun Chen 背景大規模言語モデルの応答における個性表現は重要です。目的モデルの人格特性を編集し、特定の意見表現を調整します。提案 Social Psychologyに基づき、 3つの人格特性を用いたベンチマークを構築します。評価 GPT-4を用いて、指定トピックに応じた人格特性の応答を収集します。結果新課題の課題を特定し、さらなる研究の必要性を示します。

エージェント生成会話における話者確認 Speaker Verification in Agent-Generated Conversations Yizhe Yang and Heyan
Huang and Palakorn Achananuparp and Jing Jiang and Ee-Peng Lim 背景大規模言語モデルを用いた個別化の未熟な能力が課題視されています。目的話者確認を通じ、個別化の精度向上を目的としています。提案エージェントが生成した会話における話者確認手法の評価を提案します。評価大規模データの収集と話者確認モデルを用いた実験設定が実施されました。結果現行のロールプレイングモデルは正確な模倣に失敗していることが明らかになりました。

人間対 LMM: デジタルコミュニケーションにおける絵文字の解釈と使用の差異の探究 Human vs. LMMs: Exploring the Discrepancy
in Emoji Interpretation and Usage in Digital Communication Hanjia Lyu and Weihong Qi and Zhongyu Wei and Jiebo Luo 背景絵文字はデジタルコミュニケーションで感情やトーンを伝える重要な役割を担う。目的 GPT-4Vが人間の絵文字使用を再現できるかを明らかにすること。提案 GPT-4Vが絵文字を人間のように解釈・使用できるかの調査。評価 GPT-4Vの英語中心の学習が文化的バイアスに与える影響を分析。結果人間と GPT-4Vの絵文字使用には顕著な違いがあると判明。

大規模モデルエージェント : 最新技術 , 協調パラダイム , セキュリティとプライバシー , 今後
の展望 Large Model Agents: State-of-the-Art, Cooperation Paradigms, Security and Privacy, and Future Trends Yuntao Wang and Yanghe Pan and Quan Zhao and Yi Deng and Zhou Su and Linkang Du and Tom H. Luan 背景 AGIへの達成を目指し、大規模モデルエージェントは自律性と接続性を持つ重要な技術です。目的 LMエージェントの最先端技術と安全性・プライバシーの問題点を包括的に調査すること。提案一般的なアーキテクチャや協調パラダイムを探り、セキュリティとプライバシーの対策を考察。評価多エージェント環境におけるセキュリティ脆弱性やプライバシー侵害を系統的に分析。結果 LMエージェントのエコシステムを堅牢で安全に構築するための未来の研究方向を示す。

大規模言語モデルは人間のような応答バイアスを示すか？アンケート設計でのケーススタディ Do LLMs Exhibit Human-like Response Biases? A
Case Study in Survey Design Lindia Tjuatja and Valerie Chen and Sherry Tongshuang Wu and Ameet Talwalkar and Graham Neubig 背景 LLMの弱点の一つは、プロンプトの言い回しに敏感なことだが、人間も応答バイアスを示す。目的 LLMが人間のような応答バイアスを持つかを調査することが目的。提案アンケート設計を用いて、 LLMの応答が人間の応答バイアスに類似するかを評価する。評価九つの LLMモデルに対して、人間らしい挙動を示すかを包括的に評価した。結果多くの LLMは人間らしい行動を反映せず、特に RLHFモデルがそうだった。

AntEval: LLM駆動のエージェントにおける社会的相互作用能力の評価 AntEval: Evaluation of Social Interaction Competencies in
LLM-Driven Agents Yuanzhi Liang and Linchao Zhu and Yi Yang 背景大規模言語モデルは複雑な社会的相互作用の評価に欠け、開発が遅れています。目的より自然な相互作用力を持つエージェントの開発方法を探求することです。提案 AntEvalフレームワークにより、新しい相互作用と評価手法を提供します。評価 **情報交換精度（ IEP）と相互作用表現ギャップ（ IEG） ** を用いた定量評価を行います。結果評価手法は有用で、エージェントの自然な相互作用能力向上に可能性があります。

Voyager: 大規模言語モデルによるオープンエンド型具現エージェント Voyager: An Open-Ended Embodied Agent with Large
Language Models Guanzhi Wang and Yuqi Xie and Yunfan Jiang and Ajay Mandlekar and Chaowei Xiao and Yuke Zhu and Linxi (Jim) Fan and Anima Anandkumar 背景 Minecraftにおける生涯学習エージェントの開発は、継続的自動学習の可能性を示す。目的人間の介入なしで Minecraftの多様なスキルを継続的に習得する技術の開発。提案 Voyagerは自動カリキュラムと独自のスキルライブラリをもち、環境に適応するエージェントを提案。評価 GPT-4と接続することでモデル調整なしで実行、スキルを検証可能。実証実験で効果を確認。結果 Voyagerは SOTAを上回る探索とスキル達成、他技術に比べ初期タスク解放が可能。

LLM社会における合意サイズの制約としての言語理解 Language Understanding as a Constraint on Consensus Size
in LLM Societies G. D. Marzo and Claudio Castellano and David Garcia 背景 LLMは協調タスクで相互作用するエージェントとして重要です。目的人間のように LLMも合意の限界があるかを明らかにします。提案複雑性科学と行動科学で LLMの意見動態を分析します。評価多数力係数で合意可能性を判断する方法を検証しました。結果臨界グループサイズが言語理解能力で拡大します。

立場検出のための動的経験専門家モデリング (DEEM) DEEM: Dynamic Experienced Expert Modeling for Stance Detection
Xiaolong Wang and Yile Wang and Sijie Cheng and Peng Li and Yang Liu 背景立場検出には詳細な背景知識が必要で、 LLMの推論はまだ改善の余地がある。目的特定の専門家をシミュレートして、より正確な立場検出を目指すこと。提案生成された経験豊富な専門家を用いて、動的に LLMが推論する方法を提案する。評価 3つの標準ベンチマークでの実験により手法の有効性が確認された。結果 DEEMが常に最良の結果を達成し、自己整合性推論を上回る。

GPTベースのインテリジェントチューターにおけるドメイン知識ベースの多様なレベルの影響の検討 Examining the Influence of Varied Levels of
Domain Knowledge Base Inclusion in GPT-based Intelligent Tutors Blake Castleman and Mehmet Kerem Türkcan 背景大規模言語モデルは対話能力が進化しましたが、教育への不適合が課題です。目的正確な応答を保障するために、知識ベースを統合した LLM の効果を検討します。提案応答の信頼性向上のため、 LLMに拡張可能な知識ベースを組み込みます。評価学生に AIカリキュラムを元にした質問を行い、 GPT-4が評価しました。結果知識ベースを利用することで、応答正確性と教育能力が向上することが示されました。

視覚化システムのための調整済み大規模言語モデル : 教育における自己調整学習の研究 Fine-Tuned Large Language Model for Visualization
System: A Study on Self- Regulated Learning in Education Lin Gao and Jing Lu and Zekai Shao and Ziyue Lin and Shengbin Yue and Chio-in Ieong and Yi Sun and Rory James Zauner and Zhongyu Wei and Siming Chen 背景大規模言語モデルを視覚化システムに統合する際の課題解決が必要です。目的初心者の自己調整学習を支援する視覚化システムを開発することです。提案 Tailor-Mindというシステムを提案し、視覚化と LLMを整合させ学習を支援します。評価モデル性能評価とユーザースタディを行い、フレームワークの有効性を検証しました。結果 Tailor-Mindは学習体験を向上させ、提案フレームワークの有効性を確認しました。

モーションアバター :任意の動きで人間と動物のアバターを生成 Motion Avatar: Generate Human and Animal Avatars
with Arbitrary Motion Zeyu Zhang and Yiran Wang and Biao Wu and Shuo Chen and Zhiyuan Zhang and Shiya Huang and Wenbo Zhang and Meng Fang and Ling Chen and Yang Zhao 背景 3Dアバターとモーション生成は、映画やエンターテインメントでの使用が増えています。目的 3Dアバターとモーションの統合生成を容易にし、動物にも適用することです。提案 Motion Avatarという新技術で、人間と動物のアバターを自動生成します。評価動物モーションデータセット Zoo-300Kを開発し、それを用いて評価しました。結果提案手法が高品質なアバター生成において有用性を示しました。

アイデンティティ駆動型の階層的ロールプレイングエージェント Identity-Driven Hierarchical Role-Playing Agents Libo Sun and Siyuan
Wang and Xuanjing Huang and Zhongyu Wei 背景 LLMを用いたロールプレイングは精度と柔軟性の課題があります。目的精度と柔軟性のバランスを取る新たな手法の開発を目指します。提案 HIRPFで複数アイデンティティを組み合わせたキャラクターを構築します。評価スケール評価とオープン状況評価で効果を確認します。結果フレームワークの効果が確認され、社会シミュレーションへ応用可能です。

LLM-Deliberation: インタラクティブなマルチエージェント交渉ゲームによる LLMの評価 LLM-Deliberation: Evaluating LLMs with Interactive
Multi-Agent Negotiation Games Sahar Abdelnabi and Amr Gomaa and S. Sivaprasad and Lea Schönherr and Mario Fritz 背景大規模言語モデル (LLM) の推論・意思決定能力の評価が未開拓である。目的スコア可能な交渉ゲームにより LLMの能力を評価することを目的とする。提案新しい評価フレームワークとして、多エージェントの交渉ゲームを提案。評価ゼロショット思考連鎖プロンプティングで交渉タスクのパフォーマンスを評価。結果 GPT-4と以前のモデルで大きな差があることを発見した。

LaSofa: ファンタジーストーリーテリングを人間とロボットのインタラクションに統合するインタラクティブソファロボット LaSofa: Integrating Fantasy Storytelling in Human-Robot
Interaction through an Interactive Sofa Robot Tongge Yu and Meizhu Chen and Ya Li and Deehsiao Lew and Kejin Yu 背景技術とストーリーテリングの統合が家具デザインで重要視される時代背景です。目的 LaSofaを通じた新たな人間体験の創出を目指しています。提案ファンタジーストーリーを家具に組み込むインタラクティブソファを提案します。評価ユーザーの操作を認識する圧力センサーと LLMにより実験的に物語生成を行いました。結果インタラクティブデザインが人々のエンゲージメントをさらに高めることが示されました。

CacheGen: 言語モデルアプリケーションのための高速コンテキスト読み込み CacheGen: Fast Context Loading for Language Model
Applications Yuhan Liu and Han-Chiang Li and Kuntai Du and Jiayi Yao and Yihua Cheng and Qizheng Zhang and Yuyang Huang and Shan Lu and Michael Maire and Henry Hoffmann and Ari Holtzman and Ganesh Ananthanarayanan 背景 LLMは、問い合わせに応じるために長いコンテキストを必要とし、遅延が課題です。目的 CacheGenはコンテキストの取得と処理の遅延を減らすことを目的とします。提案新しいエンコーダーとコントローラーで KV特徴を効率的に圧縮し、遅延を最小化します。評価様々なモデルとデータセットを使用し、帯域幅使用と遅延削減を評価しました。結果 CacheGenは性能を維持しつつ、遅延を 2.7-3倍削減しました。

もっと教えて！言語モデル駆動エージェントの暗黙的ユーザー意図理解に向けて Tell Me More! Towards Implicit User Intention Understanding
of Language Model Driven Agents Cheng Qian and Bingxiang He and Zhuang Zhong and Jia Deng and Yujia Qin and Xin Cong and Zhong Zhang and Jie Zhou and Yankai Lin and Zhiyuan Liu and Maosong Sun 背景現在のエージェントは、ユーザーの曖昧な意図を正確に理解する能力が不足しています。目的ユーザーとエージェントの相互作用を向上させることがこの研究の目的です。提案 **Intention-in-Interaction (IN3)**という新たなベンチマークを提案します。評価 IN3を用いた Mistral-Interactモデルの訓練・評価を行いました。結果提案手法は、ユーザー意図の理解と効率の向上を示しました。

意図駆動の大規模言語モデルエージェントによるモバイル GUIテスト Intent-Driven Mobile GUI Testing with Autonomous Large
Language Model Agents Juyeon Yoon and R. Feldt and Shin Yoo 背景 GUIテストはソフトウェアが期待通り動作するかを確認するが、現在は手動の領域が多い。目的高レベルの意図駆動で自律的に GUIテストを行う手法の開発を目指す。提案 DroidAgentは、大規模言語モデルを使用して Androidアプリの GUIテストを自動化する。評価 15のアプリを Themisベンチマークで試験し、自律性やタスク達成度を評価。結果 DroidAgentは 61%のアクティビティカバレッジを達成し、多くの機能を深くカバー。

LLMを OS、エージェントをアプリとして考察 : AIOS、エージェント、 AIOSエージェントエコシステムの展望 LLM as OS,
Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem Yingqiang Ge and Yujie Ren and Wenyue Hua and Shuyuan Xu and Juntao Tan and Yongfeng Zhang 背景従来の OS-APPエコシステムの課題を解決するための革新的エコシステムを模索。目的 LLMを中心とした新たなコンピュータシステム設計を提案すること。提案 LLMを OS、エージェントをアプリとし、自然言語をプログラミングインターフェースとする。評価従来の OSと AIOSを比較し、エージェントプログラミングを自然言語で実現。結果 AIOSとエージェントの進化に向けたロードマップを提案し、研究を誘導する。

LLMシミュレーションにおける体系的な偏り Systematic Biases in LLM Simulations of Debates Amir Taubenfeld
and Yaniv Dover and Roi Reichart and Ariel Goldstein 背景 LLMは人間行動の再現に期待されますが、複雑な学習方法のため意外な動作を示します。目的研究は、 LLMと人間の行動の主な差異を特定することを目的とします。提案 LLMが政治的議論のシミュレーションで示す偏りの限界を明らかにします。評価自動調整法を用いて、 LLM内の偏りを操作し観察しました。結果 LLMは調整後の偏りと一致する行動パターンを示しました。

clembench: ゲームプレイを用いたチャット最適化言語モデルの評価 clembench: Using Game Play to Evaluate Chat-Optimized
Language Models as Conversational Agents Kranti Chalamalasetti and Jana Gotze and Sherzod Hakimov and Brielen Madureira and P. Sadler and David Schlangen 背景リッチで複雑なコンテクストでの言語モデルの能力評価が求められています。目的ゲーム設定で LLMがどの程度の能力を発揮できるかを評価することです。提案特定の能力を試すために設計されたゲーム設定を用いて LLMを評価します。評価 5つのゲームシナリオを用いて、最新 LLMの能力を実証実験で検証します。結果新しいモデルほど高いゲーム達成率を示し、診断ツールとしての有効性を確認しました。

キャラクターは運命 : 大規模言語モデルはロールプレイで人格駆動の決定をシミュレートできるか Character is Destiny: Can Large
Language Models Simulate Persona-Driven Decisions in Role-Playing? Rui Xu and Xintao Wang and Jiangjie Chen and Siyu Yuan and Xinfeng Yuan and Jiaqing Liang and Zulong Chen and Xiaoqing Dong and Yanghua Xiao 背景 LLMの能力はますます拡大しているが、人格理解に基づく意思決定のシミュレーションは未踏の領域である。目的本研究は、小説キャラクターの人格に基づいた意思決定の予測可能性を検証することを目的とする。提案提案手法である CHARMAPは、人格ベースのメモリ検索を用いて正確度を向上させる。評価 395冊から 1,401のキャラクター決定点を抽出した LIFECHOICEデータセットで評価を行った。結果最先端の LLMは有望な結果を示しつつも、さらに **6.01%**の精度向上が達成可能である。

STICKERCONV: マルチモーダル共感応答の生成 STICKERCONV: Generating Multimodal Empathetic Responses from Scratch
Yiqun Zhang and Fanheng Kong and Peidong Wang and Shuang Sun and Lingshuai Wang and Shi Feng and Daling Wang and Yifei Zhang and Kaisong Song 背景ステッカーは共感的コミュニケーションを向上させますが、データセット不足で研究が遅れています。目的共感的対話を促進するために、ステッカーを活用してマルチモーダルデータセットを提供します。提案 Agent4SCを用いて人間行動をシミュレートし、 PEGSフレームワークで共感的応答を生成します。評価 LLMベースの共感評価指標を使用し、 PEGSの効果を実験で確認しました。結果 PEGSは、文脈に応じた共感的応答生成に有効で、対話システムの進化に貢献します。

人間中心の生成 AIの次のステップ : 技術的視点から Next Steps for Human-Centered Generative
AI: A Technical Perspective Xiang 'Anthony' Chen and Jeff Burke and Ruofei Du and Matthew K. Hong and Jennifer Jacobs and Philippe Laban and Dingzeyu Li and Nanyun Peng and Karl D. D. Willis and Chien-Sheng Wu and Bolei Zhou 背景技術の進化に伴い、人間の価値と整合した AIの必要性が高まっています。目的生成 AIの未来を見据え、次のステップを具体化することが目的です。提案人間中心の生成 AIとして、価値整合、意図組込、能力拡充の 3レベルを提案します。評価学際的チームが興味を持つ一連の新しいアイデアを議論と提案を通じて評価します。結果将来の研究に向けた一貫した全体像を描くための貢献を示しています。

孤立を超えて：マルチエージェントシナジーによる知識グラフ構築の改善 Beyond Isolation: Multi-Agent Synergy for Improving Knowledge Graph
Construction Hongbin Ye and Honghao Gui and Aijia Zhang and Tong Liu and Wei Hua and Weiqiang Jia 背景知識グラフ構築は複雑で、エンティティ、関係、イベントの抽出が重要です。目的孤立した解決策を超えて、協調的なアプローチの有効性を検証します。提案 CooperKGCフレームワークにより、多様なエージェントが協力して問題解決します。評価複数のエージェント間での協調と情報交換の効果を実験で評価しました。結果 CooperKGCは、知識の選択、修正、集約能力を向上させました。

AICoderEval: AI領域のコード生成改善のための大規模言語モデル AICoderEval: Improving AI Domain Code Generation of
Large Language Models Yinghui Xia and Yuyan Chen and Tianyu Shi and Jun Wang and Jinsong Yang 背景大規模言語モデルの現実的なコード生成能力の評価が困難です。目的現実のタスクに即した高レベルのコード生成を向上させることです。提案 AICoderEvalというデータセットと CoderGenフレームワークを提案します。評価実験で、ラマ -3をベースにした AICoderの性能をテストしました。結果 CoderGenと AICoderは他のモデルに比べて優れた性能を示しました。

生成的人工知能と人間の学習 Generative Artificial Intelligence and Human Learning Lixiang Yan and
Samuel Greiff and Ziwen Teuber and Dragan Gaˇsevi´c 背景生成的人工知能は学習プロセスを変革する可能性を持つが、課題も存在する。目的 GenAIを活用して人間の学習体験を向上させ、その影響を評価することを目的とする。提案 GenAIを統合して学習支援を強化し、個別化された教育を提供する方法を提案する。評価学習文脈における GenAIの影響を評価するために、厳密な研究が求められる。結果 AIリテラシーを深め、知識と革新の追求における強力な味方として活用することが重要。

SOTOPIA: 言語エージェントの社会的知能に対するインタラクティブ評価 SOTOPIA: Interactive Evaluation for Social Intelligence in
Language Agents Xuhui Zhou and Hao Zhu and Leena Mathur and Ruohong Zhang and Haofei Yu and Zhengyang Qi and Louis- Philippe Morency and Yonatan Bisk and Daniel Fried and Graham Neubig and Maarten Sap 背景人間の社会的知能は日常の相互作用で重要ですが、 AIの能力は未知です。目的 AIの社会的知能を評価し改善するための枠組みを提供することです。提案人工エージェント間の社会的相互作用をシミュレートする SOTOPIAという環境を提案します。評価 SOTOPIA-Evalを用いて、エージェントと人間との役割プレイを評価しました。結果 GPT-4は人間に比べて社会的知能が劣り、 SOTOPIA- hardで困難を示しました。

協力の機械心理学 : 経済ゲームでの利他主義、協力、競争、利己性のプロンプトを GPT モデルが動作可能にできるか ? The Machine Psychology
of Cooperation: Can GPT models operationalise prompts for altruism, cooperation, competitiveness and selfishness in economic games? S. Phelps and Y. Russell 背景 GPT-3.5モデルを用いて、経済ゲームでの協力行動の理解を深めることを背景とします。目的経済ゲームでの異なる行動スタンスの自然言語記述の実現可能性を検証することです。提案自然言語での協力スタンスをプロンプトによって LLMで実現可能にする方法を提案します。評価被験者内実験デザインを用い、プロンプト操作を通じて協力レベルの評価を行いました。結果一回限りのゲームでの行動翻訳の実現性と繰り返しゲームでの条件付き互恵の証拠を確認しました。

モデルとブリキの男 - 大規模言語モデルを用いた AI配置におけるプリンシパル・エージェント問題の行動経済学的研究 Of Models and Tin
Men - a behavioural economics study of principal-agent problems in AI alignment using large-language models S. Phelps and Rebecca Ranson 背景 AIの安全性はしばしば設計者とエージェント間の誤った整合性でリスクが生じます。目的大規模言語モデルの使用でのプリンシパル・エージェント問題の本質を解明する。提案経済学の原則が AIモデルの安全性に重要と述べ、特に情報非対称性を対象。評価 GPTモデルを用いたエージェントのオンラインショッピングタスクにおける応答を実証的に調査。結果 GPT-3.5は柔軟だが、 GPT-4はより整合性を重んじる行動を示します。

対話型エージェント : LLM同士の対話によるカウンセラー -クライアント心理カウンセリングのシミュレーション Interactive Agents: Simulating Counselor-Client
Psychological Counseling via Role-Playing LLM-to-LLM Interactions Huachuan Qiu and Zhenzhong Lan 背景 LLMを用いた仮想カウンセラーは、メンタルヘルス支援を効率的に提供する可能性を持つ。目的カウンセラー -クライアントの会話シミュレーションに LLMを適用する重要性を調査する。提案役割演技を用いて LLM同士がカウンセラーとクライアントに成り代わるフレームワークを提案。評価ゼロショットプロンプトを使用し、 LLM生成と人間生成の会話の違いを多角的に評価する。結果 LLMベースのカウンセラーが、最先端モデルとの比較で効果的であることを示した。

AgentAvatar: 計画 , 操作 , 描画の分離による写実的アバターエージェント AgentAvatar: Disentangling Planning,
Driving and Rendering for Photorealistic Avatar Agents Duomin Wang and Bin Dai and Yu Deng and Baoyuan Wang 背景写実的なアバターエージェントの顔の動きの自動生成が難しい課題であるため。目的インタラクティブなアバターのリアルな非言語コミュニケーション能力を向上すること。提案 LLMとニューラルレンダリングを組み合わせ、詳細な顔の動きを生成するフレームワークを提案。評価新・既存データセットで、モナディックとダイアディック両方での実験を行い、有効性を検証。結果多様な非言語アバターインタラクションに適応できることを示し、その有効性を確認。

仮想 AIキャラクターのための記憶 Memories for Virtual AI Characters Fabian Landwehr and
E. Doggett and Romann M. Weber 背景仮想キャラクターの一貫性と現実感が重要なため、記憶技術が必要です。目的仮想 AIキャラクターが自己や環境、経験を記憶する能力を提供します。提案長期記憶を持つ AIキャラクター用のメモリ作成パイプラインを提案します。評価 GPT-4を用いたファクトチェックでキャラクター応答の事実確認を行いました。結果キャラクター応答が事実に基づいており、興味深く一貫性があります。

強化学習を用いた大規模視覚言語モデルの意思決定エージェントとしてのファインチューニング Fine-Tuning Large Vision-Language Models as Decision-Making Agents
via Reinforcement Learning Yuexiang Zhai and Hao Bai and Zipeng Lin and Jiayi Pan and Shengbang Tong and Yifei Zhou and Alane Suhr and Saining Xie and Yann LeCun and Yi Ma and Sergey Levine 背景大規模視覚言語モデルは優れた能力を有するが、対話環境での最適意思決定が困難です。目的タスク指向のマルチステップでの意思決定エージェントを効率的に学習することです。提案強化学習を用いて視覚言語モデルをファインチューニングする新しいフレームワークを提案します。評価提案したフレームワークを用い、 7bモデルが商用モデルを超えるか確認しました。結果思考の連鎖（ CoT）推論が重要な要素であるとし、性能向上を示しました。

大規模言語モデルによる個別指導の強化 Empowering Private Tutoring by Chaining Large Language Models Yulin
Chen and Ning Ding and Hai-Tao Zheng and Zhiyuan Liu and Maosong Sun and Bowen Zhou 背景 AIがオンライン教育に広く応用されており、完全な AI指導システムの実現が求められている。目的インテリジェントな指導システムを構築し、教育の個別化を推進する。提案大規模言語モデルを連鎖し、相互作用、反省、反応を組み合わせたシステムを提案。評価学習ログを用いた統計的分析とユーザーからの主観的フィードバックで評価。結果システムの機能性と長期間の相互作用における効果が実証された。

LLMによる投票 : 人間の選択と AIの集団意思決定 LLM Voting: Human Choices and
AI Collective Decision Making Joshua C. Yang and Marcin Korecki and Damian Dailisan and C. I. Hausladen and Dirk Helbing 背景研究は LLMの投票行動を理解し、人間の意思決定との整合性を探ることに焦点。目的 LLMが人間の投票パターンとどのように一致するかを解明することが目的。提案人格バリエーションで LLMのバイアスを減少させる手法を提示。評価人間の投票データセットと LLMの実験を比較して分析。結果 LLMは集団結果の多様性を低下させ、バイアスを生む可能性を示した。

キャラクター中心の想像力による創造的ストーリー生成 A Character-Centric Creative Story Generation via Imagination Kyeongman
Park and Minbeom Kim and Kyomin Jung 背景従来のストーリー生成は多様性とキャラクター深度で人間に劣る。目的物語の多様性と深さを向上させる革新的手法の開発。提案 IGと MWモジュールからなる CCIフレームワークの提案。評価統計分析と人間及び LLM評価による比較分析を実施。結果 CCIのモジュールはストーリーの創造性を大幅に向上。

PersonaLLM: 大規模言語モデルの性格特性表現の可能性調査 PersonaLLM: Investigating the Ability of Large Language
Models to Express Personality Traits Hang Jiang and Xiajie Zhang and Xubo Cao and Cynthia Breazeal and Deb Roy and Jad Kabbara 背景大規模言語モデルによる性格特性の正確な反映はまだ十分に研究されていない。目的 LLMが性格プロフィールに一致するコンテンツ生成能力を調査する。提案 LLMの行動が割り当てられた性格タイプに一致するかを評価する。評価 Big Fiveモデルとテストを用い、自動および人間による評価を実施。結果 LLMの性格特性スコアは一致し、人間も 80％の精度で認識可能。

自己進化する GPT: 生涯学習による自律的経験学習者 Self-Evolving GPT: A Lifelong Autonomous Experiential
Learner Jin-Fang Gao and Xiao Ding and Yiming Cui and Jianbai Zhao and Hepeng Wang and Ting Liu and Bing Qin 背景 LLMの需要増大に伴い、手動での経験適用は非現実的。目的人間の経験学習能力を LLMで模倣することの可否を検証。提案生涯自律経験学習フレームワークにより、経験の積極的学習を提案。評価六つの NLPデータセットを使用し、プロセスごとの性能向上を実証。結果フレームワークの各ステップで LLMの学習能力を効果的に向上。

AIOS: LLMエージェントオペレーティングシステム AIOS: LLM Agent Operating System Kai Mei
and Zelong Li and Shuyuan Xu and Ruosong Ye and Yingqiang Ge and Yongfeng Zhang 背景 LLMベースのエージェントは、リソース管理やエージェント間のコンテキスト管理が困難。目的 AIOSは、エージェントの効率向上と AGIへの一歩を目指しています。提案 AIOSは OSに LLMを組み込み、エージェント間のリソース割り当てを最適化します。評価実験では、複数エージェントの同時実行が AIOSの信頼性と効率を示しました。結果 AIOSは、 LLMエージェントの性能と効率性を大幅に向上させました。

LLMを用いたシミュレーション : デジタルツインのパラメータ化のための多エージェントシステム LLM experiments with simulation: Large
Language Model Multi-Agent System for Simulation Model Parametrization in Digital Twins Yuchen Xia and Daniel Dittler and N. Jazdi and Haonan Chen and M. Weyrich 背景デジタルツインのシミュレーションは複雑であり、適切なパラメータ化が困難です。目的 LLMを用いた自動パラメータ化で、効率とユーザビリティを向上させます。提案 LLMエージェントが観察や推論を通じて、シミュレーションのパラメータ設定を自動化します。評価ケーススタディを使用して、システムの有効性を評価し、結果を GitHubで公開しました。結果提案手法はユーザーの認知負荷を軽減し、デジタルツインの利用を容易にします。

LEGO-Prover: 成長するライブラリを用いたニューラル定理証明 LEGO-Prover: Neural Theorem Proving with Growing Libraries
Huajian Xin and Haiming Wang and Chuanyang Zheng and Lin Li and Zhengying Liu and Qingxing Cao and Yinya Huang and Jing Xiong and Han Shi and Enze Xie and Jian Yin and Zhenguo Li and Xiaodan Liang and 背景定理証明は高度な推論が求められる難題です。目的新しい定理が不要な証明を進化させることが重要です。提案 LEGO-Proverは成長するスキルライブラリで LLMsを強化します。評価 miniF2Fでのスキル生成により成功率を評価しました。結果成功率が 47.1%から 50.4%に改善されました。

大規模言語モデルの間の一貫性を検証 : ディベートによる詳細分析 Examining Inter-Consistency of Large Language Models
Collaboration: An In- depth Analysis via Debate Kai Xiong and Xiao Ding and Yixin Cao and Ting Liu and Bing Qin 背景大規模言語モデルは一貫性問題に直面しており、協力による解決が求められる。目的複数の LLMsが協力して合意を形成できるかを探る。提案 3段階のディベート **フレームワーク（ FORD） **による協力手法を提案。評価様々なデータセットでの実験により、 LLMs間の協力を検証。結果 LLMsは間の不一致があっても協力して合意形成が可能であることが示された。

対立的な AI Antagonistic AI Alice Cai and Ian Arawjo and
Elena L. Glassman 背景従来の AIは従順さが重視されていたが、これには限界がある。目的ユーザーの前提を問い直し、境界を形成する可能性を探る。提案失礼や対立を含む AIがもたらす利点を議論する。評価仮想ワークショップで形式的な AI技術を設計し、分析を行った。結果対立的 AIのデザイン空間を築き、倫理的課題も明確化した。

協調的ムーンウォーカー Collaborative Moonwalkers Edward Chow and Thomas Lu and Kevin
Payumo and Gautier Bardi de Fourou and Elliott Sadler and Neville Elieh Janvisloo and Jared Carrillo and Bingbing Li and Benjamin Hubler and Olin Littlejohn and Vanessa 背景地球外探査は自律性と協調性が求められるため、効果的なロボット協働技術が必要です。目的ムーンウォーカーローバーによる自律的で協調的な月探査の実現を目指しています。提案生物学に着想を得た認知機能と動機付けを持つローバーの開発を提案します。評価仮想シミュレーション環境での物理を考慮した機械学習の評価を行いました。結果物理情報による学習で仮想月面環境の効果が向上することを確認しました。

協働型都市計画のための大規模言語モデル Large Language Model for Participatory Urban Planning Zhilun Zhou
and Yuming Lin and Depeng Jin and Yong Li 背景参加型都市計画は住民を巻き込むが、従来は時間とコストが課題。目的計画の専門家なしで効率的な都市計画を目指す。提案 LLMベースのマルチエージェントフレームワークで住民の多様なニーズを反映。評価北京市内 2地域での実証実験で効果を評価。結果住民満足度向上とサービスアクセス性で専門家以上の成果を確認。

AgentSquare: モジュラー設計空間における自動 LLMエージェント探索 AgentSquare: Automatic LLM Agent Search in
Modular Design Space Yu Shang and Yu Li and Keyu Zhao and Likai Ma and Jiahe Liu and Fengli Xu and Yong Li 背景 LLMの発展でエージェントシステムが成長中だが、新規タスクへの適応性に限界。目的新しい LLMエージェントの適応性拡大を目指し、モジュール化が重要。提案 AgentSquareはモジュール進化と再結合で効率的に LLM エージェントを探索。評価 6つの分野でベンチマークテストし、性能予測器を用いた評価で有効性を確認。結果 AgentSquareは手作りエージェントを上回り、 17.2% の性能向上と解釈可能な設計洞察を提供。

言語モデルのための合成データに関するベストプラクティスと教訓 Best Practices and Lessons Learned on Synthetic Data
for Language Models Ruibo Liu and Jerry Wei and Fangyu Liu and Chenglei Si and Yanzhe Zhang and Jinmeng Rao and Steven Zheng and Daiyi Peng and Diyi Yang and Denny Zhou and Andrew M. Dai 背景 AIの成功には、大規模で質の高いデータが必要だが、取得は難しい。目的合成データがこの問題を解決し得ることを示す。提案合成データの効果と重要性を実証的に示した。評価過去の研究からの実証的証拠を用いて評価。結果合成データの責任ある使用が信頼性向上に重要。

意識、数学、現実 : 統一的現象学 Consciousness, Mathematics and Reality: A Unified Phenomenology
Igor Ševo 背景異なる分野の根本的な質問は、統一的な解決策に収束する可能性があります。目的意識の難しい問題に対して、簡潔な解決策を提案することです。提案科学的証拠と哲学的文献を基にした統一的現象学モデルを提案します。評価このモデルの検証には、科学証拠と哲学文献の包括的レビューを用いました。結果提案モデルは、 AI意識の性質に対する新たな見解を提供します。

並列知能に向けて：複雑システムへの学際的ソリューション Toward parallel intelligence: An interdisciplinary solution for complex
systems Yong Zhao and Zhengqiu Zhu and Bin Chen and S. Qiu and Jin-Yu Huang and Xin Lu and Weiyi Yang and Chuan Ai and Kuihua Huang and Cheng He and Yucheng Jin and Zhong Liu and Fei-Yue Wang 背景現実世界の複雑システムは、モデリングや管理において学際的ソリューションの必要性を強めています。目的並列システム法で学際的なコミュニケーションと協力を促進し、課題解決を目指す。提案 ACPアプローチに基づく並列システム法を提案し、データ生成と知識取得を繰り返します。評価過去 20年の多様な学問分野からの知識と技術を用いています。結果持続可能な開発を促進し、学際的協力の向上に寄与することが示唆されました。

AIの意識の可能性：言語エージェントとグローバルワークスペース理論 A Case for AI Consciousness: Language Agents and
Global Workspace Theory Simon Goldstein and Cameron Domenico Kirk-Giannini 背景人工意識の実現は大きな技術進歩が必要と考えられている。目的 GWTが正しければ人工言語エージェントは容易に意識を持ち得る。提案グローバルワークスペース理論を人工システムに適用する手法を提示。評価必要かつ十分な条件を示す方法論を構築し検証を行った。結果人工システムの現象学的意識に対する示唆を与えた。

RL-GPT: 強化学習とコード -as-policyの統合 RL-GPT: Integrating Reinforcement Learning and Code-as-policy
Shaoteng Liu and Haoqi Yuan and Minda Hu and Yanwei Li and Yukang Chen and Shu Liu and Zongqing Lu and Jiaya Jia 背景大規模言語モデルは複雑なロジックの処理において制限があるため、改良が求められている。目的本研究は、 RLとコード化を組み合わせた新たな手法により、より効率的な制御を目指す。提案 RL-GPTは階層型フレームワークを用いてスローエージェントとファストエージェントが特定のタスクに集中する。評価研究では、 Minecraftゲーム内での効率と SOTAの達成により提案手法の有効性を検証した。結果 RL-GPTは伝統的な RLや GPTエージェントを上回り、 1日で Minecraftでのダイヤ取得を達成した。

大規模言語モデルのための経済学アリーナ Economics Arena for Large Language Models Shangmin Guo and
Haoran Bu and Haochuan Wang and Yi Ren and Dianbo Sui and Yuming Shang and Siting Lu 背景大規模言語モデルは一般的なエージェントとして広く使用され、経済ゲームでの応用が重要視されています。目的静的ベンチマークの限界を克服し、 LLMsの合理性を動的環境で評価することを目指しています。提案競争ゲームを利用した LLMsの新たな評価方法を提案し、動的な評価環境を提供します。評価異なるゲーム履歴を基に、戦略的推論能力と合理性を LLMsで評価します。結果 GPT-4は NE戦略に速く収束し、他のモデルに比べてより高い合理性を示しました。

プロンプト戦略を通じた多領域レビュー感情分析の強化 Enhance Multi-Domain Sentiment Analysis of Review Texts Through
Prompting Strategies Yajing Wang and Zongwei Luo 背景 LLMの性能を特定タスクでさらに向上させる方法が求められています。目的感情分析での LLM性能向上をプロンプト戦略で達成することが重要です。提案 RPと CoTプロンプト戦略を組み合わせた RP-CoT戦略を提案します。評価 3つの異なるドメインデータセットで比較実験を行いました。結果 RP-CoT戦略が最も高い性能を示し、分析精度を向上させました。

ただの新奇性ではない : AIワークフローの有用性とカスタマイズに関する縦断研究 Not Just Novelty: A Longitudinal Study
on Utility and Customization of an AI Workflow Tao Long and Katy Ilonka Gero and Lydia B. Chilton 背景生成的 AIが日常作業での有用性を持続するかの正確な理解が重要です。目的生成的 AIワークフローの有用性とカスタマイズの実際を解明することが目的です。提案生成的 AIによるワークフローのカスタマイズがユーザーの有用性評価を高める可能性を主張します。評価 12人のユーザーと 3週間の縦断研究で慣れとカスタマイズの過程を観察しました。結果ユーザーがワークフローをカスタマイズすることで有用性が増し、適応性が向上します。

AI NPC向け MemoryRepository MemoryRepository for AI NPC Shijie Zheng and
Keith He and Le Yang and Jie Xiong 背景 LLMはゲーム分野でインテリジェントな NPCを実現するが、長期記憶が課題。目的 AI NPCにおける人間らしい長期記憶の実現が目的。提案 MemoryRepositoryは人間の記憶に触発された NPC用記憶メカニズム。評価 NPCの対話データを検証指標で定量分析し、有効性を実証。結果 MemoryRepositoryを装備した NPCは長期対話と人間らしい会話が可能。

大規模言語モデルを用いたマルチエージェントシステムにおける規範違反検出 : パイロットスタディ Norm Violation Detection in Multi-Agent
Systems using Large Language Models: A Pilot Study Shawn He and Surangika Ranathunga and Stephen Cranefield and B. Savarimuthu 背景規範は社会で期待される行動を規定し、重要な役割を果たします。目的大規模言語モデルを用いて規範違反を発見する能力を検討します。提案家庭 contextのストーリーで、規範の違反を LLMで検出する手法を提案します。評価 80のストーリーの違反を、 3人の人間評価者の結果と LLM の結果を比較しました。結果 ChatGPT-4は違反検出において有望で、改良点も示されました。

大規模言語モデルの相互一貫性の検討 : ディベートによる詳細分析 Examining the Inter-Consistency of Large Language
Models: An In-depth Analysis via Debate Kai Xiong and Xiao Ding and Yixin Cao and Ting Liu and Bing Qin 背景大規模言語モデルは多様なアプリケーションで活躍するが、相互一貫性の問題がある。目的研究の目的は、複数の LLM間の相互一貫性を高めることにある。提案 **フォーマルディベートフレームワーク（ FORD） **を用い、 LLMの対話を分析する手法を提案。評価常識推論タスクで 3段階のディベートを通じて実験し、 LLMの性能を評価。結果研究は LLMの相互一貫性向上と高い性能の達成を示した。

AgentScope: 柔軟で堅牢なマルチエージェントプラットフォーム AgentScope: A Flexible yet Robust Multi-Agent Platform
Dawei Gao and Zitao Li and Weirui Kuang and Xuchen Pan and Daoyuan Chen and Zhijian Ma and Bingchen Qian and Liuyi Yao and Lin Zhu and Chen Cheng and Hongzhu Shi and Yaliang Li and Bolin Ding and Jingren 背景大規模言語モデルの進化とエージェント協調の複雑さが重要な課題です。目的堅牢で効率的なマルチエージェントアプリケーションの開発を目指しています。提案 AgentScopeはメッセージ交換を中心とした柔軟な開発者向けプラットフォームです。評価アクターベース分散フレームワークで自動並列化を容易にします。結果 AgentScopeは開発者に高度なエージェント構築を可能にしました。

大規模言語モデルのための高忠実度人間表現 High-fidelity Human Representation for Large Language Models Brian Xu
and Henry Weng 背景テキストデータからの人間の文脈情報取得が重要であること。目的ジャーナルの整理と検索で効率的に文脈を提供する方法の開発。提案ユーザークエリと合成生成された逸話を対象に埋め込み検索を実施。評価ナイーブ RAGと比較し、新しい検索メカニズムを評価。結果新たな手法がナイーブ RAGを有意に上回ったと示す成果。

AgentLite: タスク指向の LLMエージェントシステムを構築・発展させる軽量ライブラリ AgentLite: A Lightweight Library for Building
and Advancing Task-Oriented LLM Agent System Zhiwei Liu and Weiran Yao and Jianguo Zhang and Liangwei Yang and Zuxin Liu and Juntao Tan and Prafulla Kumar Choubey and Tian Lan and Jason Wu and Huan Wang and Shelby Heinecke and Caiming Xiong and 背景 LLMエージェントの発展が急速で、複雑な推論と構造が求められています。目的新しい推論戦略とエージェント構築の複雑さを軽減することが目的です。提案 AgentLiteという軽量でユーザーフレンドリーなライブラリを提案します。評価 AgentLiteを使用して実用的なアプリケーションを開発し、その利便性を実証しました。結果 AgentLiteは多エージェントシステムの開発を容易にすることが確認されました。

大規模言語モデルによる認知アーキテクチャの拡張 Augmenting Cognitive Architectures with Large Language Models Himanshu
Joshi and Volkan Ustun 背景認知アーキテクチャと生成モデルの融合が、 AIの可能性を拡張する重要な課題です。目的 AI技術の限界を打破するために、認知アーキテクチャと大規模言語モデルを統合します。提案 Soarと Sigmaを用いて、生成モデルを統合する方法を提案します。評価提案された融合モデルの利点や改善点を既存アーキテクチャと比較して分析します。結果融合によって、認知能力が向上し、さらなる拡張が必要です。

LLMベースのマルチエージェントシステムに関する調査：ワークフロー、インフラ、課題 A survey on LLM-based multi-agent systems: workflow, infrastructure,
and challenges Xinyi Li and Sai Wang and Siqi Zeng and Yu Wu and Yi Yang 背景人々の長年の試みとして、より知的で信頼される自律システムの追求がある。目的 LLMを活用した MASが高度 AIの実現に向けた有望な手法であることを示す。提案 LLMベースの MASをプロファイルや進化など 5つの構成で体系的にレビューする。評価 MASの主要コンポーネントを分析し、問題解決と世界シミュレーションへの応用を示す。結果 LLMベースの MASの課題を明示し、将来の方向性について洞察を提供。

BattleAgent: 歴史的戦闘の分析を補完する多モーダル動的エミュレーション BattleAgent: Multi-modal Dynamic Emulation on Historical Battles
to Complement Historical Analysis Shuhang Lin and Wenyue Hua and Lingyao Li and Che-Jui Chang and Lizhou Fan and Jianchao Ji and Hang Hua and Mingyu Jin and Jiebo Luo and Yongfeng Zhang 背景歴史的分析は意思決定者の視点が強調され、一般の経験が見落とされがちです。目的歴史的イベントの個人視点を再現し、理解を深めることが目的です。提案 BattleAgentは、大規模ビジョン -言語モデルを活用して戦闘の動的相互作用を模倣します。評価エージェント間での細かい多モーダル相互作用に基づき再現性を確認しました。結果個人の視点を生き生きと再現し、歴史的理解の深化を実証しました。

規範モジュール : 協力を支援する規範学習用ジェネレーティブエージェントアーキテクチャ Normative Modules: A Generative Agent
Architecture for Learning Norms that Supports Multi-Agent Cooperation Atrisha Sarkar and Andrei Ioan Muresanu and Carter Blair and Aaryam Sharma and Rakshit S Trivedi and Gillian K Hadfield 背景既存の規範を持つ環境でエージェント間の協力促進は困難です。目的エージェントが規範に適応し、協力を向上させることを目指します。提案エージェントが規範インフラに適応する「規範モジュール」を提案。評価エージェントの権威ある機関の識別能力を新環境で評価しました。結果提案手法でエージェントは安定した協力を達成可能です。

テキストから生命へ : 人工生命と大規模言語モデルの相互関係について From Text to Life: On the
Reciprocal Relationship between Artificial Life and Large Language Models Eleni Nisioti and Claire Glanois and Elias Najarro and Andrew Dai and Elliot Meyerson and J. Pedersen and Laetitia Teodorescu and Conor F. Hayes and Shyam Sudhakaran and Sebastian Risi 背景 LLMsは AIで注目されていますが、 ALifeでの応用は限定的です。目的本研究は LLMsと ALifeの間のシナジーを追求します。提案 LLMsが進化計算や環境生成に役立つと提案します。評価 ALifeの原理が LLMsの開発に与える影響を分析しました。結果 LLMsが生命的知能の認識を再定義する可能性を示唆します。

LLMのための複数エージェント議論戦略を導入するべきか？ Should we be going MAD? A Look at
Multi-Agent Debate Strategies for LLMs Andries P. Smit and Paul Duckworth and Nathan Grinsztajn and Kale-ab Tessera and Thomas D. Barrett and Arnu Pretorius 背景 LLMが正確な回答を生成するのは難しく、信頼性向上が必要です。目的複数エージェント議論で LLMの真実性を向上させることを目指します。提案 MADプロトコルは最適化が難しいが、パフォーマンス向上の可能性があります。評価議論とプロンプト戦略のベンチマークを通じて、コストと精度を分析しました。結果 MADシステムのハイパーパラメータ調整で他戦略以上の性能が得られました。

大規模言語モデルを用いた生物医学概念リンクの検討 Exploring the In-context Learning Ability of Large Language
Model for Biomedical Concept Linking Qinyong Wang and Zhenxiang Gao and Rong Xu 背景生物医学で概念リンクは文献マイニングや情報検索で重要です。目的大規模言語モデルの ICL能力を活用し、生物医学概念リンクの効果を検証します。提案二段階のリトリーブ・アンド・ランク手法を提案し、候補を再ランクする方法です。評価 BC5CDRデータセットで 90%以上の正確性を達成する実験を行いました。結果 20ポイント以上の F1スコア向上を示し、大規模モデルの潜在的利点を明示しました。

JARVIS-1: メモリ拡張マルチモーダル言語モデルを用いたオープンワールドマルチタスクエージェント JARVIS-1: Open-World Multi-task Agents with Memory-Augmented
Multimodal Language Models Zihao Wang and Shaofei Cai and Anji Liu and Yonggang Jin and Jinbing Hou and Bowei Zhang and Haowei Lin and Zhaofeng He and Zilong Zheng and Yaodong Yang and Xiaojian Ma and Yitao Liang 背景人間のような計画と制御をオープンワールドで実現することが重要です。目的無限に増えるタスクにも対応可能な万能エージェントの実現を目指します。提案 JARVIS-1はマルチモーダル入力を使って計画生成と制御を実行します。評価 Minecraft内で 200以上のタスクに対して実験し、パフォーマンスを評価しました。結果長期タスクにおいて JARVIS-1は最先端エージェントを信頼性で 5倍上回りました。

AQA-Bench: 大規模言語モデルの順序推論能力を評価するインタラクティブベンチマーク AQA-Bench: An Interactive Benchmark for Evaluating
LLMs' Sequential Reasoning Ability Siwei Yang and Bingchen Zhao and Cihang Xie 背景順序推論能力が大規模言語モデルの性能において重要です。目的 LLMsの順序推論能力の評価方法を確立することが目的です。提案 AQA-Benchは LLMsの順序推論を評価するためのインタラクティブベンチマークです。評価 3つのアルゴリズムを用いて 12の LLMの能力を比較評価しました。結果クローズドソースは特に順序推論能力が優れていると判明しました。

エージェントが OKRと出会う：階層的自己協調と自己評価によるオブジェクトとキーリザルト駆動エージェントシステム Agents meet OKR: An Object and
Key Results Driven Agent System with Hierarchical Self-Collaboration and Self-Evaluation Yi Zheng and Chongyang Ma and Kanle Shi and Haibin Huang 背景 **大規模言語モデル（ LLM） **は、深い領域知識と複雑な推論を要するタスク解決に挑んでいます。目的本研究は、 OKR-Agentシステムを用いて LLMのタスク解決性能を向上させることを目的としています。提案本研究は、階層的エージェントと OKR生成を組み合わせた新たなタスク解決フレームワークを提案します。評価関連するすべてのエージェントからのフィードバックを利用したマルチレベル評価で仮説を検証しました。結果実験結果は、我々の方法が複数のタスクで既存手法より優れていることを示しました。

放射線レポート簡略化における ChatGPTの自己修正の二重人間評価 Two-Pronged Human Evaluation of ChatGPT Self-Correction in
Radiology Report Simplification Ziyu Yang and Santhosh Cherian and Slobodan Vucetic 背景放射線レポートは専門的で、患者に理解しやすい簡易化が求められています。目的本研究は、大規模言語モデルを使用した報告の自動簡易化を検討します。提案自己修正と思考の連鎖メカニズムの有用性を評価します。評価放射線科医と一般人を用いた二重の評価プロトコルを提案しました。結果自己修正プロンプトは高品質な簡易化に効果的と示されました。

LLMベースのエージェント社会調査： Avalonプレイにおける協力と対立 LLM-Based Agent Society Investigation: Collaboration and Confrontation in
Avalon Gameplay Yihuai Lan and Zhiqiang Hu and Lei Wang and Yang Wang and De-Yong Ye and Peilin Zhao and Ee-Peng Lim and Hui Xiong and Hao Wang 背景 LLMエージェントの社会行動の理解が未解決の課題であり、ゲームを通じた研究が不足しています。目的 Avalonでのプレイを通じて、 LLMエージェントの協力と対立行動を分析します。提案 Avalonに特化した新たなマルチエージェントフレームワークを提案します。評価ゲーム成功を基にしたパフォーマンス評価と社会的行動の分析を行います。結果適応エージェントの作成が成功し、 LLMエージェントの可能性が示唆されました。

小型 LLMはツール学習が苦手 : マルチ LLMエージェント Small LLMs Are Weak
Tool Learners: A Multi-LLM Agent Weizhou Shen and Chenliang Li and Hongzhan Chen and Ming Yan and Xiaojun Quan and Hehong Chen and Ji Zhang and Fei Huang 背景 LLMは実世界の課題解決でのツール利用が不可欠だが、小型 LLMの性能限界が問題。目的小型 LLM の性能限界を克服し、様々なタスクを効率的に処理するための解決策を提供。提案 LLM の能力を分解し、プランナー、コーラー、サマライザーとして特化させるモジュラーフレームワークを導入。評価複数のツール使用ベンチマークで、提案フレームワークが従来の単一 LLMアプローチを上回ることを示す。結果提案手法はツール学習における小型 LLMの有効性を高めることを示し、利点を強調した。

AIのための CERN: 自律的なシミュレーションベースの AIテストと整合性の理論的枠組み CERN for AI: a theoretical
framework for autonomous simulation-based artificial intelligence testing and alignment Ljubiša Bojić and Matteo Cinelli and D. Ćulibrk and Boris Delibasic 背景 LLMの発展と応用により、倫理的整合性や制御可能性が重要な課題に。目的複雑な社会構造をシミュレートし、 AIの人間整合性と社会的責任を向上。提案仮想現実内のシミュレーションで自律的 AIを検証するマルチエージェントシステムを提案。評価各種理論を適用し、デジタル環境での AIの相互作用と決定を評価。結果社会的、倫理的次元の統合が AIの開発と改良に役立つ可能性を示す。

ブロックチェーンを活用したファウンデーションモデルシステムにおける分散型ガバナンス駆動型アーキテクチャ設計 Decentralised Governance-Driven Architecture for Designing Foundation Model
based Systems: Exploring the Role of Blockchain in Responsible AI Yue Liu and Qinghua Lu and Liming Zhu and Hye-young Paik 背景ファウンデーションモデルは多様なタスクを実行可能ですが、そのガバナンスが信頼性確保に必要です。目的信頼できる AIシステムのガバナンス課題を解決するために、ブロックチェーンの役割を探究します。提案ブロックチェーンを用いた分散型ガバナンスアーキテクチャを提案し、信頼性向上を図ります。評価分散台帳としてのブロックチェーン活用をガバナンス面で評価しました。結果ブロックチェーンによりファウンデーションモデルのガバナンス改善可能性を示しました。

大規模マルチプレイヤーゲームにおける人間 -AIアライメントの実現に向けて Toward Human-AI Alignment in Large-Scale Multi-Player Games
Sugandha Sharma and Guy Davidson and Khimya Khetarpal and A. Kanervisto and Udit Arora and Katja Hofmann and I. Momennejad 背景人間 -AIアライメントは AIがゲーム体験を向上させるために重要です。目的初期ポリシーではなく高次の行動タスクに焦点を当て、 AI の解釈可能性を評価します。提案タスクセットフレームワークを用いて、人間と AIの行動をマニフォールド上で分析します。評価 Xboxの Bleeding Edgeでの広範な人間のゲームプレイデータを分析し、 AIの行動と比較します。結果 AIと人間のプレイスタイルの違いを明確にし、 AI設計の改善を促します。

Generative Agentsを引用している研究まとめ

Generative Agentsを引用している研究まとめ

More Decks by Bluemo

Featured

Transcript