AIコードエディタの基盤となるLLMのFlutter性能評価

AIコードエディタの基盤となる LLMのFlutter性能評価関澤瞭 2025/03/21

なぜFlutterの勉強会でLLM評価の話？個人的にLLMそのもののDart/Flutter性能を上げていきたいからそのために… - 非アカデミア側でデータセット作成を進める必要がある - LLM研究者はFlutter単体には関心を持ちづらい（というか無い） - 自分が作りたいがFlutter歴が浅いので、色々な経験者から意見を募りたい

なぜFlutterの勉強会でLLM評価の話？モデルの評価プロセスを理解すると、より効果的な改善が可能になるから - アプリ開発者が個人でLLMのチューニングを行う時代 - 職種関係なく、R&DやML/DS職以外にも身近なものに - 個人がAIコードエディタを使い倒す上で、引き出しが増えるはず

「LLMを評価する」とは

大規模言語モデル（LLM）のエッセンス「LLMを評価する」とはおすすめ書籍 https://amzn.asia/d/7kdSHGD テキスト符号化テキスト復号化入力出力
出力を末尾に追加巨大な「関数」

AIコードエディタ裏側でLLMを使っている「LLMを評価する」とは https://www.cursor.com/ja 何が違うの？ ex. Cursor

性能評価の重要性利用者目線 - 特定の用途で性能がいいモデルがあるのであれば、それを使いたい - モデルを導入する際に誰かに説明するためのデータ・資料が欲しい LLM開発者目線 - 作成したモデルが本当に使えるのか明らかにする -
作成したモデルが現状出来ないことは何なのか明らかにする「LLMを評価する」とは https://speakerdeck.com/chokkan/jsai2024-tutorial-llm?slide=64

評価プロセスの大枠「LLMを評価する」とはタスクを定義する評価指標を定めるデータセットを作成するモデルの出力を分析する

タスクを定義する ≒ 入出力を定義する「LLMを評価する」とは修正実装説明検出入力：実装の詳細出力：コード
入力：修正方針&コード出力：コード入力：コード（&検出したいこと）出力：コード&説明入力：コード（&何を知りたいか）出力：説明開発におけるユースケース

評価プロセスの大枠「LLMを評価する」とはタスクを定義する評価指標・手法を定めるデータセットを作成するモデルの出力を分析する

評価手法を定める 1. 人手評価 a. タスク・分野の専門家 b. クラウドソーシング 2. 自動評価 a.
定量的な基準を実装（ex. BLEU, ROUGE） b. LLM-as-a-judge; GPT-4と人間の評価判断が80%以上一致 [Zheng et al., 23] 「LLMを評価する」とは正しい答えを出しているか⇨1a, 2aが良さそう指定のフォーマットに則っているか⇨2が良さそう倫理的に問題がないか⇨1, 2bが良さそうだが2aでできることもありそう出力: I have pen 正解：I have a pen

評価プロセスの大枠「LLMを評価する」とはタスクを定義する評価指標を定めるデータセットを作成するモデルの出力を分析する

データセットの作成設定したタスクと評価指標・方法を踏まえて、データを作成・収集する 1. 人手 a. タスク・分野の専門家 b. クラウドソーシング 2. 自動
a. 大規模コーパスからクローリング b. テンプレートを用意し、単語や文章を埋めていく c. LLM Synthetic Dataset（LLMを用いた人工的データセット）「LLMを評価する」とは

データセット品質の担保 - 分量 - 妥当なデータ数があるか - 正確性 - 間違ったラベリングがされていないか -
ラベルの偏り - ex. はい/いいえで答えるタスクで、答えが「はい」のデータが9割 - 網羅性 - タスクが持つ複数の要素をカバーできているか - ex. 「テストコード生成タスク」⇨単体/Widget/E2E/etc.. - データの多様性 - 特定の単語やパターンが繰り返されていないか「LLMを評価する」とは

作成したデータセットの公開 GitHub Hugging Face Dataset https://huggingface.co/datasets

評価プロセスの大枠「LLMを評価する」とはタスクを定義する評価指標を定めるデータセットを作成するモデルの出力を分析する（割愛）

FlutterにおけるLLM 評価

Flutter固有タスクの候補 FlutterにおけるLLM評価タスクを定義する評価指標を定めるデータセットを作成する UI実装・修正 Riverpodを用いたロジックの実装・修正 Widgetテスト・E2Eテストの実装・修正設計の変更・リアーキテクチャネイティブコードからDartへの変換

評価指標・手法の候補 FlutterにおけるLLM評価 UI実装・修正 - ビルドが通るかまで見る - snapshotツールと併用する Riverpodを用いたロジックの実装・修正 - Riverpodのバージョンまで見る
Widgetテスト・E2Eテストの実装・修正 - テストが通るかまで見る - snapshotツールと併用するタスクを定義する評価指標・手法を定めるデータセットを作成する

データセットの候補 FlutterにおけるLLM評価タスクを定義する評価指標を定めるデータセットを作成するデータの収集元 GitHubのpublic repo 各種packageのonboarding ここが一番悩んでいるので、
意見を募集しています…！

簡易実験

具体例簡易実験タスク定義：Widget Testから1行消した部分を、正しく補完できるか評価指標：完全一致（消した行とモデル出力が一言一句同じか）あっていればTrue間違えればFalseとし, Trueの数を正答率とするデータセット：個人プロジェクトで書いたTest10件出力を分析：対象モデルはGPT-4o

結果簡易実験結果 90%成功した（さすが）失敗した例 NotiﬁerProviderのmockでoverrideWithValueを使おうとしていた仮説 - テスト対象の元ファイルをcontextとして与えれば、providerの種類を間違えなさそう
- 学習データcutoﬀが2024春なので、riverpodの知識は更新されているはず

皆さんもやってみてください！今回の簡易実験は各ステップに色々な穴がありますぜひどのように改善できるかを考えてみてくださいまた、他のタスク設定や評価指標で実験した結果を是非公開してください😊 簡易実験

結言

- LLM評価について知ることで、AIコードエディタをより活用できる - LLMのFlutter性能を上げるのは、研究者ではなくFlutterコミュニティ - LLMにできないことは無限にあるはずで、より多くの個人が評価実験を行い共有することで改善が加速するまとめ結言

個人の展望 - Dart/Flutter性能評価ベンチマークの作成＆公開 - より広範なモデルに対する評価実験 - AIコードエディタそのものの活用法の研究結言

References - Zheng, Lianmin, et al. "Judging llm-as-a-judge with mt-bench
and chatbot arena." Advances in Neural Information Processing Systems 36 (2023): 46595-46623. - https://speakerdeck.com/chokkan/jsai2024-tutorial-llm

AIコードエディタの基盤となるLLMのFlutter性能評価

AIコードエディタの基盤となるLLMのFlutter性能評価

alquist

Other Decks in Programming

Featured

Transcript