Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コード生成ツールの導入判断 のための評価方法の提案

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

コード生成ツールの導入判断 のための評価方法の提案

Avatar for Tasuku Hori

Tasuku Hori

April 18, 2024
Tweet

More Decks by Tasuku Hori

Other Decks in Technology

Transcript

  1. 生成AIの活用判断に迫られる 2022/3/15 OpenAI 『New GPT-3 capabilities:Edit & insert』 2022/11/15 ORICON

    NEWS 『小室哲哉「マウスのよう な存在」 理研での研究内容を解説 AI×音楽の将来について 白熱対談が実現』 2023/6/28 Yahoo(KYODO) 『対話型AI活用で生産性向上 パナソニック傘下、作業大 幅短縮』 2023/7/28 AI+ ITmedia 『非IT企業も「AIプログラミ ングのない時代には戻れない」 「GitHub Copilot」導入した 東急の内製開発チーム、手応 えは?』 2023/5/22 Impress Watch 『G7広島サミット閉幕 デジタ ルやAIについても議論』 2023/6/5 Yahoo(KAI-YOU) 『AIイラスト販売サービス「petapi」 批判うけて、クリエイターへの配慮不足 を謝罪 方針転換を表明』 2023/6/15 ORICON NEWS 『音楽作家団体連合、生成AIで 「創作者が不利益を被るおそれ」 問題解消へ意見表明』 2023/5/29 GIZMODE 『ChatGPTは会社で使っていいの? 禁止している企業8つの例』 使おう! 大丈夫? テーマ選定の背景 Copyright © 2024 EXA CORPORATION 3
  2. 社内 別の研究 テーマへ 生成AIに対する”日本の戦略” 提案書作成支援ツール 文章要約ツール 1. 大規模言語モデルを自ら開発する • 数百億円あれば同じようなものは作れる(ただし、その間に相手はもっと先に行く。)

    • 今後のインパクトの大きさを考えればこの戦いに参入するチケットとしては安い。この機会 が開いているウィンドウは短い。 2. APIを使いサービスを作ることを奨励する • ChatGPTなどのAPIを使って、ローカライズした専用アプリ、専用ソフトウェアが多く出 現。国内の市場になるので、最低限ここはしっかり伸ばすべき。 • 一方Apple Store等と同じく、手数料を払い続けないといけない。 3. ユーザとしての活用を促進する • DXが進んでいない現状において、言語による指示ができることは、DXの決め手になる可 能性はある • つまり、DXにおけるリープブロック。(アフリカに固定電話が入っていないのに携帯が入っ たように。) ※2023/2/17 『AIの進化と日本の戦略』東京大学松尾研究室 p30より引用 詳細は書籍を参考に コード生成ツール テーマ選定の背景 Copyright © 2024 EXA CORPORATION 4
  3. 主なコード生成AI 組織 名称 概要 無料版 有料版 備考 OpenAI Codex OpenAI

    GPTを使ったコード生成API、IDEのプラグイン経由で コード生成支援に使われる - - 2023年3月、Codexモデルは非推奨に(2023/4/24 時点のDocumentationトッ プ) Microsoft Codex GPT-3シリーズの後継Code-Cushmanモデルを使ったコード生 成API、IDEのプラグイン経由で使用する事ができる。 Azure無償枠内 での使用 0.024ドル/1000 トークン 価格は2023/4/24時点、米国西部2リージョン(日本リージョンは選択でき なかった) GitHub Copilot OpenAI Codexをもとにしたコード生成API、IDEのプラグイン 経由でコード生成支援に使われる 30日間 Indivisuals:10ド ル/月 Business:19ド ル/月 Business版を使うと提案要求時に自コードが送信されるが、提案返信時に破 棄される。Indivisual版の場合コードスニペット(ソース、関連ファイル、同 時に開いている別のファイル、リポジトリURL、ファイルパスなど)が収 集・保持される可能性がある。 Google Bard 2023/3/24にアナウンスされたGoogle社のChatGPTに相当する APIおよび活用したサービス、日本でも利用可能とのこと(日 本語性能は高くないという二次情報あり) 要順番待ちリス ト登録 N/A ※2023/4/24時点では、順番待ちリストに参加可能 Amazon CodeWhisperer AWS提供のコード生成サービス、IDEから利用する Individual Professional 19 ドル/月 Pro版は組織単位のポリシー管理(ex. OSSコードに類似する生成を許可する か)が可能 BigCode santacoder HuggingFaceに登録された学習済みモデル(GPT-2ベース)、 ローカルPCで動作可能 OSS - CodeML Open RAIL-M v0.1ライセンス準拠 ※2023/4/27時点 テーマ選定の背景 Copyright © 2024 EXA CORPORATION 5
  4. 検証方法 サンプルシステム2 サンプルシステム1 グループ1 1日で開発 Copilotを使用 1日で開発 Copilotを使用しない ✕ グループ2

    1日で開発 Copilotを使用 1日で開発 Copilotを使用しない ✕ 開発後 完了アンケート提出 【ユーザ観点】 【定量・定性評価】 ✕ QCD指標 QCD指標 【組織観点】 【定量評価】 提起した課題と結論 今回 Copyright © 2024 EXA CORPORATION 7
  5. 計測指標 • 作業時間 • 参加者による報告 • 単位:時間(小数点1位) • 0.0~7.5時間 •

    ソースコード • 潜在リスク回避率 • 潜在リスクチェックリスト • 0~100% • E2Eテスト合格率 • E2Eテストケース • 0~100% 対象がコードなので潜在リスク発生確率がそもそも低い 受け入れテストレベルの粒度で作成 《潜在リスクチェックリスト》 《E2Eテストシナリオ・テストケース》 提起した課題と結論 Copyright © 2024 EXA CORPORATION 8
  6. 品質:1.2%向上 《品質指標》 E2Eテスト合格率×潜在リスク回避率 • E2Eテスト合格率 • 合格件数/総件数 • 潜在リスク回避率 •

    潜在リスク合格件数/総件数 • 今回すべて100% • 品質にリスクを加えるため積を採用 • 最大値100%、値が大きいほど高品質 67% 68% Copilotなし Copilotあり 品質指標 ✕ 提起した課題と結論 Copyright © 2024 EXA CORPORATION 9
  7. コスト:10%向上 《コスト指標》 Cost Performance Index • CPI:コスト効率指標 • 出来高(EV)/実コスト(AC) •

    対計画でのコスト効率の良さ悪さ • CPIが60% • メンバは計画の6割しか生産性を出していない • Copilotなし/ありコスト効率を相対比較でき る • サンプル開発では100%を超えることはない 82% 92% Copilotなし Copilotあり コスト指標 ✕ 提起した課題と結論 Copyright © 2024 EXA CORPORATION 10
  8. 納期:17分/日短縮 《納期指標》 作業時間余剰率 • 作業時間余剰率 • 余剰時間(平均)=1日-実作業時間(平均) • 作業時間余剰率=余剰時間(平均)/7.5H •

    2指標と合わせるために余剰を採用 • 最大値100%、値が大きいほど高品質 11% 14% Copilotなし Copilotあり 納期指標 ✕ 提起した課題と結論 Copyright © 2024 EXA CORPORATION 11
  9. SE経験別QCD • 経験年数が高いほど効率よく扱っていた -10% 10% 30% 50% 70% 90% 110%

    130% 150% 170% A B C 納期指標 Copilotなし Copilotあり -10% 10% 30% 50% 70% 90% 110% 130% 150% 170% A B C 品質指標 Copilotなし Copilotあり -10% 10% 30% 50% 70% 90% 110% 130% 150% 170% A B C コスト指標 Copilotなし Copilotあり ✕ Q C D ✕ ✕ ✕ ✕ ✕ ✕ ✕ ✕ 提起した課題と結論 自社内における 組織メリットを享受できる 要員編成方法をGet! Copyright © 2024 EXA CORPORATION 12
  10. 論文を執筆して • 苦労したこと • 実は、あまりなかった • 8月末に論文化決定し、約半月で執筆 • 良かったこと •

    研究開発テーマとしての社内稟議 → 論文概要の査読 • 社外での評価 Copyright © 2024 EXA CORPORATION 14