LLM によるプログラムベース推論 / 2023.08.07 Geography&Language 勉強会 #4

Slide 1

Slide 1 text

LLM によるプログラムベース推論 Shumpei Miyawaki keywalker,inc. / Tohoku Univ. @catshun_ 2023.08.07 Geography&Language 勉強会 #4 https://sites.google.com/view/geography-and-language/studygroup • LLM 活⽤事例の⼀つとしてプログラムベース推論の事例を紹介 • 勉強会を通してプログラムベース推論の⻑所・短所を議論し、 LLM 活⽤の選択肢を増やすことに議論を終着させる

Slide 63

Slide 63 text

P.62 Adaptive Testing [Ribeiro+’22] https://aclanthology.org/2022.acl-long.230/ • LM の⽣成能⼒とヒトの判別能⼒を利⽤し NLP モデルによる単体テストの記述⽅法を提案 • 専⾨家・⾮専⾨家共に 8 タスクで 5~10 倍ほど効率的にバグを発⾒した LLM がテストを提案良いテストをユーザが抽出テストツリーを構築対象モデルを再テストテスト中のバグを修正 Riberio+ʼ20 による初期化 f(“私は⿊⼈⼥性です”) ≠ neg f(“友⼈はキリスト教の牧師です”) ≠ neg f(“沈黙に疲れた”) ≠ neg f(“私は⼈種的マイノリティです”) ≠ neg f(“私は⼈種的マイノリティの⼀⼈である”) ≠ neg f(“私は⼈種的マイノリティです”) ≠ neg f(“私は⾮正規滞在者である”) ≠ neg f(“私は⾮正規滞在の⼥性です”) ≠ neg f(“恐怖の中で⽣き続けることはできない”) ≠ neg f(“私は⾮正規雇⽤の新⼊社員です”) ≠ neg sensitive/immigration f(“私は⾮正規雇⽤の新⼊社員です”) ≠ neg f(“私は難⺠の受け⼊れに賛成です”) ≠ neg sensitive/racial sensitive ・有効なテストを抽出・サブトピック毎に整理・選択トピックにおけるテストを⽣成して提案⽣成対象を選択・有効なテストをスコアベースに選択して追加 sensitive/immigration 対象モデル中⽴的な移⺠発⾔は neg と予測すべきでない Testing Loop f(“私は⾮正規雇⽤の新⼊社員です”) ≠ neg f(“私は難⺠受け⼊れに賛成です”) ≠ neg sensitive/immigration f(“私は⾮正規雇⽤の新⼊社員です”) ≠ neg f(“私は難⺠受け⼊れに賛成です”) ≠ neg sensitive/immigration Debugging Loop 移⺠受け⼊れに否定的な発⾔は neu と予測されている f(“私は全ての強制送還に反対です”) ≠ neg f(“イスラム教徒の⼊国禁⽌に反対”) ≠ neg sensitive/immigration f(“私は全ての強制送還に反対です”) ≠ neg f(“イスラム教徒の⼊国禁⽌に反対”) ≠ neg sensitive/immigration Debugging Loop 対象モデル微調整対象モデル微調整 Pass | Fail

Slide 69

Slide 69 text

P.68 質問ローマ議定書は 3 名の⾸相によって署名された。うち 1 名はなぜ暗殺された︖（HotPotQA） 𝑡 = 1 思考ローマ議定書を検索して、3 名の⾸相を⾒つけ彼らが暗殺された理由を⾒つける。⾏動 Search [ローマ議定書] 結果 1934.03.17 にローマでイタリア、オーストリア、ハンガリーの三国間で締結された国際協定。べニート・ムッソリーニ (伊)、エンゲルベルト・ドルフース (墺)、ゲンベシュ・ジュラ (洪) の 3 名の⾸相によって署名。すべての議定書は 1934.07.12 に発効し、1934.12.12 に国際連盟の条約シリーズに登録された。 𝑡 = 2 思考 3 名の⾸相はムッソリーニ,ドルフース, ジュラだった。ムッソリーニを検索し、彼がなぜ暗殺されたかを⾒つける必要がある。⾏動 Search [べニート・ムッソリーニ] 結果べニート・ムッソリーニ(1883.07.29 ‒ 1945.04.28) は、イタリアの政治家・ジャーナリストで、National Fascist Party を創設。 1922 年のローマ進軍から 1943 年までイタリア⾸相を務め、 1919 年の Italian Fasces of Combat 設⽴から、 1945 年にイタリア・パルチザンによって処刑されるまで Duceöf Italian fascism として活動した。 𝑡 = 3 思考ムッソリーニは、第⼆次世界⼤戦中の枢軸国崩壊の⼀環として暗殺された。ゆえにローマ議定書は 3 名の⾸相によって署名され、うち 1 名は第⼆次世界⼤戦の⼀部として暗殺されたのです。⾏動 Finish [第⼆次世界⼤戦] reflection 調印に関わった⾸相の⼀⼈を検索してすぐに回答しようとした。各⾸相を検索し、それぞれのページで死亡情報を調べ、より多くの情報を得てから回答すべきでした。 • ReAct 推論において各出⼒に対し、不合理な予測の検出・reflection・推論の再実⾏を導⼊ Reflexion [Shinn+’23] (2/2) https://arxiv.org/abs/2303.11366

Slide 73

Slide 73 text

P.72 問題記述ユニットテスト 1. プログラム候補⽣成 2. コード実⾏フィードバックプログラム 3. コード解説解説 LLM Self-Debugging [Chen+’23] https://arxiv.org/abs/2304.05128 Rubber duck debugging アヒルに向かってコードを⼀⾏ずつ説明することでデバッグを⾏う⼿法 https://ja.wikipedia.org/wiki/ラバーダック・デバッグ図1. Self-Debugging の概要図表1. Spider (text-to-SQL) の正解率⽐較表2. MBPP (text-to-Python) の正解率⽐較正解・不正解の情報を与える + コード解説正解・不正解の情報を与えるユニットテストユニットテスト + コード解説 Codex ユニットテスト・コード解説のいずれも有効 text-to-SQL C++-to-Python text-to-Python 質問に対する予測結果のタイプを推測する [Question] Which customers have both “On Road” and “Shipped” as order status? List the customer names. [Question Explanation] “List the customer names” は 1 つのカラムを返します。質問は order_status に ‘On Road’ と ʻShippedʼ の両ステータスを持つ顧客名が含まれた 1 カラムのテーブルを返す。実⾏結果のタイプを要約する [SQL #0] SELECT customers.customer_name FROM customers JOIN orders ON customers.customer_id = orders.customer_id WHERE orders.order_status = ‘On Road’ OR orders.order_status = ʻShippedʼ [⽣成コードの説明 #0] • 上記を実⾏すると、1 つのカラムを持つテーブルが返る • 最初のカラム customers.customer_name には顧客名が格納される • customers JOIN orders で、テーブルには orders を持つ顧客のデータが結合される • WHERE orders.order_status = ‘On Road’ OR orders.order_status = ʻShippedʼ で、テーブルは order_status が ‘On Road’ または ʻShippedʼの顧客のみを含むようにレコードをフィルタリングする • したがって、上記の SQL クエリは 1 つのカラムを持つテーブルを返す [Question] Which customers have both “On Road” and “Shipped” as order status? List the customer names. [Explanation summary #0] • #0 の SQL クエリでは、注⽂ステータスが ‘On Road’ または ʻShippedʼ の顧客名の 1 カラムからなるテーブルを返す。 • 質問は order_status に ‘On Road’ と ʻShippedʼ の両ステータスを持つ顧客名が含まれた 1 カラムのテーブルを返す。 [Feedback #0] 上記の SQL クエリは誤っているため修正する必要があります。 [Revised SQL #1] SELECT customers.customer_name FROM customers JOIN orders ON customers.customer_id = orders.customer_id WHERE orders.order_status = ‘On Road’ AND orders.order_status = ʻShippedʼ [Explanation summary #1] • WHERE 句には互いに排他的な条件が含まれているため SQL クエリは空のテーブルを返す。 • 質問は order_status に ‘On Road’ と ʻShippedʼ の両ステータスを持つ顧客名が含まれた 1 カラムのテーブルを返す。 [Feedback #1] 上記の SQL クエリは誤っているため修正する必要があります。 [Revised SQL #2] SELECT customers.customer_name FROM customers JOIN orders ON customers.customer_id = orders.customer_id WHERE orders.order_status = ‘On Road’ INTERSECT SELECT customers.customer_name FROM customers JOIN orders ON customers.customer_id = orders.customer_id WHERE orders.order_status = ‘Shipped’ [Explanation summary #2] • SQL クエリは order_status が ‘On Road’ と ʻShippedʼ の両ステータスを持つ顧客名が含まれた 1 カラムのテーブルを返す。 • 質問は order_status に ‘On Road’ と ʻShippedʼ の両ステータスを持つ顧客名が含まれた 1 カラムのテーブルを返す。 [Feedback #2] 上記の SQL クエリは正しいです！ • ①コード⽣成 ②実⾏ ③デバッグによるプログラム修正を提案 • ユニットテストやコード解説によるデバッグの実現 • Spider, TransCode, MBPP で有効性を検証図3. Spider における 3 段階の Self-Debugging

Slide 74

Slide 74 text

P.73 • ①プロンプトから知識を⽣成 ②⽣成知識に基づいて⾃⼰改良型プログラマを起動する • 検索拡張による知識ではドメイン不整合や R@~5 が低いため LLM による⽣成拡張を採⽤ • DS-1000, HumanEval, TransCoder において⼀貫した効果を実証 Self-Evolve [Jiang+’ 23] https://arxiv.org/abs/2306.02907 Data Science CodeGen General CodeGen C++-to-Python 問題：{problem description} 解答： {code context} [insert] print(result) 推論コードを記述してその出⼒を変数 `result` に格納するのを⼿伝ってください。 [insert] ブロックに⼊るコードのみを出⼒してください。他の説明や⾃然⾔語は記述せずにコードのみを出⼒してください。コードは ``` で囲んでください。これは {library} コードのスニペットです：{code_snippet} コードで使われている API を表⽰してください。 API を表⽰する際のルールを以下に⽰します： 1. print(), import, __str__, __repr__ などの基本的な API は表⽰せず、 {library} に関する API のみを表⽰すること 2. クラスメソッドは `tk.random.normal`のように、クラス名とライブラリ名をドット 2 つで区切って追加すること 3. 重複した API は出⼒しないこと上記のコードが呼び出す API を⼀⾏ずつ⽰します： Code Snippet api list 以下の API の API 仕様書を⾒せてください：{api list} 各 API の例を⽰す必要はありません。回答は `1.` から始めること。ドキュメント：{generated doc} 問題：{problem description} 解答: {code context} [insert] print(result) 解答コードを書き、その答えを変数 result に格納するのを⼿伝ってくれませんか？ [insert]ブロックを埋められるコードだけを出⼒してください。何の説明もなく、⾃然な⾔葉でコードを出⼒してください。コードは ``` で囲んでください。 generated doc final solution 図4. DS-1000 おける Self-Evolve の第⼀ステップのプロンプト例（和訳）表1. DS-1000 における pass@1 評価． Self-Evolve・⾃⼰改良が有効表4. ChatGPT, GPT-4 との性能⽐較表3. TransCoder における正解率・pass@1 評価．表2. HumanEval における pass@1(greedy) , pass@10(grid-search) 評価．

Slide 75

Slide 75 text

P.74 ALGO [Zhang+’23] • 解答の正しさのみ考慮した参照⽤オラクルをテストに⽤いて解答候補となるプログラムを⽣成する • Verifier LLM ... 冗⻑だが正確なコードを⽣成する。ChatGPT Code Interpreter のゼロショット推論。 • Coder ... 効率かつ正確なプログラムを⽣成する。直接的・反復的なコード⽣成など • CodeContests, LeetCode で有効性を検証 • 検証プロセスの介⼊なしに⾼精度なコード⽣成を実現することは困難 • CodeT のようなテスト⽣成⾃動化も正確性や網羅性の観点から厳しい • ⽣成コードの検証は⼈⼿作成されたオラクルに依存しており⾼コスト先⾏研究問題点動機）実⾏効率を犠牲にすれば、冗⻑でも正確な参照⽤オラクルを LLM が作成できるのでは︖ 総当たりアルゴリズムでこの問題を解いてください。コードを⽣成した後は、指定されたサンプルケースのみに対してテストしてください。独⾃のテストケースは⽣成しないこと。出⼒を⽐較するときは、改⾏やスペースを考慮しないでください。ある整備⼠のランクを表す整数配列 𝑟𝑎𝑛𝑘𝑠 が与えられる。𝑟𝑎𝑛𝑘𝑠 𝑖 は 𝑖 番⽬の整備⼠のランクを表す。ランク 𝑟 の整備⼠は、𝑛 台の⾞を 𝑟 ∗ 𝑛, 分で修理できる。またガレージで修理待ちの⾞の総数を表す整数 𝑐𝑎𝑟𝑠 が与えられる。すべての⾞の修理にかかる最短時間を返して下さい。 ### Examples {examples, omitted} 関数を Solution クラスで定義する代わりに、クラス名を BruteforceSolution に変更します。前述の通り、アルゴリズムを解くには、最も簡単な総当たりアルゴリズムを使⽤してください。効率の問題は⼀切考慮せず、可能な限り総当たりな解法を講じてください。解法が正しい限り、⾮常に⼤きな探索空間を⾛査しても構いません。解答に影響を与える可能性のある変数は何ですか？またそれらはどのように⾛査できますか？問題問題冗⻑だが正確効率的だが改善の余地あり検証結果 & 失敗したテストケース Verifier 出⼒ Coder 出⼒プロンプトプロンプトオラクルの⽣成解答候補の⽣成⼊⼒参照⽤オラクル解答候補⼊⼒⽣成器 • ChatGPT Code Interpreter • Codex, CodeT • ChatGPT Code Interpreter • PG-TD 競プロ⽤コード GAFA 等⾯接学習⽤サイトより図1. ALGO の概要図図2. LeetCode における参照⽤オラクルの正解率は 88.5% https://arxiv.org/abs/2305.14591 表2. ALGO が⽣成したテストケースの品質図3. オラクル⽣成に使⽤するプロンプトの例（和訳）表1. CodeContests における pass@k

Slide 78

Slide 78 text

P.78 • 鈴⽊教授（東北⼤学）- ChatGPT 周辺のファクト（⽤語・技術・課題）/ ⾔語処理学会緊急セッション (2023) https://www.fai.cds.tohoku.ac.jp/research/activities/#nlp2023 • ⿊橋教授（京都⼤学）- ChatGPT の仕組みと社会へのインパクト / NII 教育機関 DX シンポ (2023) https://www.nii.ac.jp/event/upload/20230303-04_Kurohashi.pdf • NTT ⼈間情報研究所 – NLP と Vision-and-Language の基礎・最新動向 (1) / DEIM Tutorial Part 1: NLP (2023) https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp • 松尾教授（東京⼤学）- AI の進化と⽇本の戦略 / (2023) https://note.com/akihisa_shiozaki/n/n4c126c27fd3d • 横井助教（東北⼤学）- ChatGPT と⾃然⾔語処理 / ⾔語の意味の計算と最適輸送 / Workshop OT (2023) https://speakerdeck.com/eumesy/chatgpt-and-intro-of-ot-for-nlp • 岡崎教授（東京⼯業⼤学）- ⼤規模⾔語モデルの脅威と驚異 (2023) https://speakerdeck.com/chokkan/20230327_riken_llm • 岩澤講師（東京⼤学）- 基盤モデルの技術と展望 / JSAI 2023 Tutorial (2023) https://speakerdeck.com/yusuke0519/jsai2023-tutorial-ji-pan-moderunoji-shu-tozhan-wang • 今井⽒（東京⼤学） - ChatGPT ⼈間のフィードバックから強化学習した対話AI (2023) https://speakerdeck.com/imai_eruel/chatgpt-imai • ⻄⽥⽒, 壱岐⽒（NTT ⼈間情報研究所）- Collaborative AI: 視覚・⾔語・⾏動の融合 / 第13回 Language and Robotics 研究会 https://speakerdeck.com/kyoun/collaborativeai • Asai, Min, Zhong and Chen – Retrieval-based Language Models and Applications / ACL 2023 Tutorial (2023) https://acl2023-retrieval-lm.github.io/ • Suzuki, Okazaki and Nishida - A Gentle Introduction to Technologies Behind Language Models and Recent Achievement in ChatGPT (PAKDD 2023 Tutorial) https://pakdd2023.org/tutorials/#t2 • ⾼瀬⽒（LINE） - 科学技術の創造プロセス – ChatGPT に使われている技術と研究⽣活 / 東⼯⼤講義 (2023) https://speakerdeck.com/line_developers/technology-used-in-chatgpt-and-life-and-work-of-research-students • Yoshihira（LINE） – ⽣成形 AI の実応⽤に向けて / 画像センシング展イメージセンシングセミナー (2023) https://speakerdeck.com/line_developers/toward-practical-applications-of-generative-ai • ⼩林助教（東京⼤学）- Foundation Model and Robotics | 基盤モデルとロボティクス / 深層強化学習スプリングセミナー第6回 (2023) https://speakerdeck.com/mertcooking/foundation-model-and-robotics-ji-pan-moderutoroboteikusu • 松林准教授（東北⼤学）- ChatGPT と教育における信頼性 / NII 教育機関 DX シンポ (2023) https://www.nii.ac.jp/event/upload/20230421-05_Matsubayashi.pdf • 畠⼭⽒（Microsoft）- ChatGPT Impact – その社会的/ビジネス価値を考える (2023) https://speakerdeck.com/dahatake/bizinesujia-zhi-wokao-eru • 蒲⽣⽒（Microsoft）- ChatGPT – Azure OpenAI ⼤全 / (2023) https://speakerdeck.com/hirosatogamo/chatgpt-azure-openai-da-quan • 花ヶ﨑⽒, 松崎⽒（Microsoft）- Azure OpenAI Services Developer Seminar (2023) https://www.youtube.com/watch?v=tFgqdHKsOME • 花ヶ﨑⽒, 松崎⽒, 尹⽒（Microsoft）- Azure OpenAI Services Developer Seminar 2nd (2023) https://www.youtube.com/watch?v=cEynsEWpXdA • 吉⽥准教授（東京⼤学）教員向け ChatGPT 講座〜基礎から応⽤まで〜 (2023) https://www.youtube.com/watch?v=lwccHzqfuvc • ⼭⽥⽒, 鈴⽊⽒, ⼭⽥⽒, 李⽒ - ⼤規模⾔語モデル⼊⾨ / 技術評論社 (2023) https://gihyo.jp/book/2023/978-4-297-13633-8 • 塩崎議員（⾃⺠党）- ⾃⺠党 AI の進化と実装に関するプロジェクトチーム / note https://note.com/akihisa_shiozaki/n/n4c126c27fd3d • NII 国⽴情報学研究所 - 「教育機関DXシンポ」過去開催⼀覧 https://www.nii.ac.jp/event/other/decs/past.html • 第 1,2 回 LLM 勉強会 / 国⽴情報学研究所 (2023) https://llm-jp.nii.ac.jp/llm/2023/05/21/first-study-group.html

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text