Slide 1

Slide 1 text

LLM による技術ブログレビューを 導入してみた時の話 Jagu’e’r Tech Writers 分科会 Meetup #3

Slide 2

Slide 2 text

自己紹介 ● 仕事内容 ○ クラウドエース株式会社 ○ Google Cloud を中心としたコンサル、インテグレーションに従事 ○ 主にコンテナ領域を専門としながらアプリ、インフラ、マネジメント全般を 担当 ● その他 ○ リモートでの資格試験では自宅の浴室で受験 ○ Google Cloud Champion Innovators (Modern Architecture, Serverless App Development) ○ Google Cloud Partner Top Engineer 2024 ○ Google Cloud Partner Tech Blog Challenge 2024 受賞 間瀬 真 (@Makocchan_Re)

Slide 3

Slide 3 text

当社は Zenn にて技術ブログを発信してい ますが、レビュープロセスを経て外部公開 をしています。 レビュープロセスに LLM によるレビューを 組み込んだ時の話をします。 & 本日話すこと

Slide 4

Slide 4 text

ブログ公開までのプ ロセス Zenn 連携用の GitHub リポジトリ ①ブログ執筆 ②Pull Request(PR)作成 ③マネージャーによる PR のレビュー ④PR マージ ⑤ブログ公開

Slide 5

Slide 5 text

レビュー観点例 ・文章の内容に(技術的な視点でみて)誤りがないか ・文章表現において分かりづらくないか、不適切ではないか ・Zenn の禁止事項に該当する内容ではないか ・自社の広報で定めるルールに反していないか - Google Cloud を GCP や Google Cloud Platform と書かないこと - 半角英数記号の前後には半角スペースを挿入すること - 「最強」みたいな誇張表現をしないこと - などなど

Slide 6

Slide 6 text

私が文書のレビュー が苦手だった 当時(2023 初秋)、LLM のキャッチアップを個人的 にしたかった 動機・課題 GPT-3.5 です GPT-4 です PaLM です PaLM 2 です GPT-4-turbo です

Slide 7

Slide 7 text

レビュー精度を 評価した上で本格導入 を検討 試用期間 評価 本格導入 Bad... ブログ執筆者による フィードバックを収集

Slide 8

Slide 8 text

50%以上の Good 評 価を目標として設定 50 %

Slide 9

Slide 9 text

Slack での レビュー運用を構築 Slack レビュア(bot) 記事執筆 特定チャンネルより レビュー依頼 レビュー結果の返信 Bad... レビュー結果に対する評価 slack-app slack-app 評価の蓄積 ※ Slack は、米国およびその他の国で登録された Slack Technologies, Inc. の商標およびサービス マークです。

Slide 10

Slide 10 text

期待値コントロール のためのキャラ設定 @article-reviewer さん ● 記事内容をチェックするプロフェッショナル ● おじいちゃんなので的外れなことも多々指摘してし まいます。 ● 真面目すぎて文章内容のチェックしかできず、会話 することはできません。

Slide 11

Slide 11 text

本格導入判断ライン 評価期間において、 約 80% 以上ポジティブ な評価を獲得

Slide 12

Slide 12 text

評価振り返り 精度には関係ないバグでネガ ティブ評価をもらってしまうこと も 精度の問題によるレビュー指 摘誤りも多々見られた レビュー指摘された箇所が分かりにくい。指摘箇所 の行数を教えてくれるが誤っている。 修正不要な指摘をしてしまう 自分の名前が誤りと指摘された などなど

Slide 13

Slide 13 text

本格運用では、GitHub Actions によるレビュー を実施 記事執筆 GitHub Actions LLM によるレビュー レビュー結果を PR レビューコメントまた はコメントとして追加 レビュー結果/評価結果の蓄積 GitHub リポジトリ

Slide 14

Slide 14 text

暫定運用からの改善点 その 1 レビュー指摘箇所の特定は LLM にはやらせない

Slide 15

Slide 15 text

暫定運用からの改善点 その 2 LLM による W チェックを導入 レビュー結果 一次レビュー 二次レビュー (おじいちゃんとはライバル関係) 最終判断は人間に委ねるように注意を促す

Slide 16

Slide 16 text

暫定運用からの改善点 その 3 コードのレビューは止める ブログでのコードはサンプルコードや一部簡略化された 記載が多く、指摘としては多いが修正に繋がらないので トークンの無駄と判断 コードレビューに使うくらいなら、 W チェックにトークンを 割いた方がいいと判断

Slide 17

Slide 17 text

まとめと感想 LLM に全てをやらせない。ルールベースにできるも のはその方が確実なのと、プロンプトも減るので他 の観点の精度向上が期待できる。 誤字脱字や不自然な文章表現、固有名詞の誤りな どの検出は得意そう。 私のレビューは不要にならなかった。 現状はあくまでも文章校正のセルフチェックツール としての位置付けに。

Slide 18

Slide 18 text

Thank you ※Google Cloud は Google LLC の商標です。