LLMのファインチューニングに用いるデータ件数 Using LangSmith to Support Fine-tuning (langchain.dev) https://blog.langchain.dev/using-langsmith-to- support-fine-tuning-of-open-source-llms/
“良質な” 学習データは 2026 年ごろまでに枯渇する 学習データの枯渇 [Villalobos et al. 2022/10] Will we run out of data? Limits of LLM scaling based on human-generated data https://arxiv.org/abs/2211.04325 • データ効率のよい学習方法を探求 したり、検索エンジンでは収集が できないプライベートなデータを 活用する • テキスト以外のマルチモーダルの 学習データ (例: 画像や動画) から の転移によりテキストに相乗効果 を与えるか調査する • 学習データの合成がモデルの性能 に与える影響に注意しながら、合 成したデータに多様性を持せたり、 検証可能にする方法を探求する 学習データの枯渇を回避するには?
が生じることを指摘 生成データの学習によるモデル崩壊 [Villalobos et al. 2023/05] The Curse of Recursion: Training on Generated Data Makes Models Forget https://arxiv.org/abs/2305.17493v3
et al. 2024/10] A Survey on Data Synthesis and Augmentation for Large Language Models https://arxiv.org/abs/2410.12896 ▪ General Model Distillation 強力な (よりパラメータ数の大きい) 汎用 的なモデルを用いて学習データを合成し、 弱い汎用モデルの学習に用いる ▪ Domain Specific Model Distillation モデルを特定の問題領域 (例えばコーディ ングや数学など) に対応させるために学習 データを生成させる ▪ Model Self-Improvement モデルに自分自身の能力を向上させるた めの学習データを生成させる ▪ Data Augmentation 元のデータの本質的な性質を保ったまま、 データの多様性や量を増やす プログラミングは合成 データが検証しやすい 問題領域 (コンパイル、 実行、テストができる)
(Evol-instruct) により 増強し、StarCoder をファインチューニングした結果、GPT-3.5 レベルまで性能を向上 WizardCoder [Microsoft, 2023/06] WizardCoder: Empowering Code Large Language Models with Evol-Instruct https://arxiv.org/abs/2306.08568 Please increase the difficulty of the given programming test question a bit. You can increase the difficulty using, but not limited to, the following methods: {method} {question}
リポジトリと連携し、 自動的にソフトウェアを開発するオープンソースの AI エージェント Aider [Gauthier and contributors, 2023/06] Aider is AI pair programming in your terminal https://aider.chat/ LLM が実行計画を出力 LLM が実行計画に沿って、ソースコード の差分 (パッチ) を生成 ツールを利用して Git リポジトリに差分を 適用し、コミット操作を自動的に実行 ユーザからチャットで目的・指示を与える
• CodeLlama, DeepSeekCoder を追加学習し SOTA を達成 OpenCodeInterpreter [Zheng et al., 2024/02] OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement https://arxiv.org/abs/2402.14658
の最高スコア 18.9 % を獲得 SWE-Bench の提案時の最高スコアは 4% 程度だったが、新たな手法・ツールが急速に発展 例: Aider + GPT-4o による SWE Bench スコア Aider is SOTA for both SWE Bench and SWE Bench Lite https://aider.chat/2024/06/02/main- swe-bench.html
[Schlangen, 2019/08] Language Tasks and Language Games: On Methodology in Current Natural Language Processing Research https://arxiv.org/abs/ 1908.10747
Networks and Deep Learning”, http://neuralnetworksanddeeplearning.com/ http://nnadl-ja.github.io/nnadl_site_ja/index.html (日本語版) • 情報処理推進機構, “自然言語処理技術の進化:AIによる「ことば」の処理から汎用AIへ 最新の動向について”, https://www.ipa.go.jp/digital/chousa/trend/ai.html • 西田京介, 西田光甫, 風戸広史, “大規模言語モデル入門”, ソフトウェア工学シンポジウム 2023 チュートリアル, https://ses.sigse.jp/2024/wp-content/uploads/2024/08/SES2024_SES2024_チュートリアル.pdf • 太田真人,“ICLR2024 LLMエージェントの研究動向”, https://speakerdeck.com/masatoto/iclr2024-llmezientonoyan-jiu-dong-xiang • Wang et al., “Agents in Software Engineering: Survey, Landscape, and Vision”, https://arxiv.org/abs/2409.09030 • Xi et al., “The Rise and Potential of Large Language Model Based Agents: A Survey”, https://arxiv.org/abs/2309.07864 • Wang et al., “A Survey on Large Language Model based Autonomous Agents”, https://arxiv.org/abs/2308.11432