Slide 1

Slide 1 text

LLM Summer 2023 コンペ解法 11位 – 20位枠での優秀賞 hayataka 2023年11⽉28⽇

Slide 2

Slide 2 text

⾃⼰紹介 社会⼈枠(スタートアップ枠)で参加しました。普段は、科学技術情報を活⽤したデータ分析やメディア制作 (Podcast制作、記事執筆等)に取り組んでいます。興味ある⽅はお声がけください! https://twitter.com/hayataka88 • 1st コンペ:3位 / score 4.90 • 2nd コンペ:11位-20位 / score 5.04 コンペ結果

Slide 3

Slide 3 text

コンペ内容のおさらい 本コンペでは、下記の3種類のタスクをLLMに解かせてスコアを競う。 元⽂章:⽶宇宙開発企業スペースX(エックス)の宇 宙船「クルードラゴン」 ⾶⾏⼠のダグ・ハーリー⽒とボブ・ベ ンケン⽒を乗せたクルードラゴンは、フロリダ州ペンサコーラ の南に位置するメキシコ湾に、4つのメインパラシュートを開 いて着⽔した。 クルードラゴンがパラシュートでメキシコ湾上 空に浮かぶ光景は、この宇宙船が⼤気圏突⼊で燃える ことなく耐え抜いたことを⽰した。・・・ ↓ 要約:⽶航空宇宙局(NASA)の宇宙⾶⾏⼠2⼈が 28⽇、⽶⺠間企業スペースXの宇宙船「クルードラゴン」で メキシコ湾に着⽔し、無事帰還した。 [問題]:コンビニのカウンターで買えるのは? [選択肢]:[1. ⼈間, 2. 従業員, 3. マネージャー, 4. レジ, 5. ホ ットコーヒー] ↓ [答えの選択肢番号]:5 [問題]:何かをして愉快な気もちになることを何という? [選択肢]:[1. 深呼吸する, 2. 落ち込む, 3. 楽しむ, 4. 学習す る, 5. 悲しむ] ↓ [答えの選択肢番号]:3 仕事の熱意を取り戻すためのアイデアを5つ挙げてください。 ↓ 回答: 1. ⾃分の仕事に対する意義を再確認する。 2. 仕事に対する感謝の気持ちを持ち、それを⽇記に書き 留める。 3. 仕事に対する挑戦を考え、それを実⾏する。 4. 仕事に対する興味を持ち、それを⾃分の仕事に反映 させる。 5. 仕事に対する感謝の気持ちを共有する。 Type1. 選択問題 Type2. ⽂章要約 Type3. 指⽰実⾏

Slide 4

Slide 4 text

Type1. 選択問題 • StableBeluga-13B、weblab-10b-instruction-sft、ELYZA-japanese-Llama-2-7b-fast-instruct等を試したところ、One shotで精度向上したが、他のプロンプトエンジニアリングやInstruction Tuningでは、あまり精度が上がらなかった。 • そこで、選択問題にファインチューニングされたエンコーダーモデルも試そうと考えた。最終的には、東北⼤BERTモデルがベースで、選 択問題にファインチューニングされたモデル(bert-large-japanese-v2-finetuned-commonsenseQA[1])を採⽤した。なお、 1st コンペの正解数は40/50問で、推論時間は9秒であった(4GPU)。 [1] https://huggingface.co/Mizuiro-sakura/bert-large-japanese-v2-finetuned-commonsenseQA 元コードのほとんどを、BERT⽤ に書き換えた。

Slide 5

Slide 5 text

Type1. 選択問題 ちなみに、slackでも話題になっていた「コンビニでコーヒー買えない問題」や「チャチャチャ問題」も正解していた。

Slide 6

Slide 6 text

Type1. 選択問題 BERTの⽇本語モデルの選択の際、まず「結局⽇本語⼤規模⾔語モデルってどれを使えばいいの?[1]」という記事を参考にした。次に、 JCommonsenseQAデータセット(JCQA)でファインチューニングされているものを、Hugging Faceで調べた。その結果、Mizuiro-sakura さんという⽅が⾊々なファインチューニング済みモデルを公開しており、その中で⾼精度であった東北⼤ベースのモデルを利⽤した。 [1] https://zenn.dev/hellorusk/articles/8e73cd5fb8f58e https://huggingface.co/Mizuiro-sakura/bert-large-japanese-v2- finetuned-commonsenseQA 東北⼤BERT(JCQA学習済) https://huggingface.co/Mizuiro-sakura/deberta-v2-japanese-base-finetuned- commonsenseqa 京⼤DeBERTa(JCQA学習済)

Slide 7

Slide 7 text

Type2. ⽂章要約 • モデル選択:複数のモデルを試した中で、openorca_stxのスコアが最も良かったため採⽤した。 • プロンプトの⼯夫:One-ShotやFew-Shotでは逆に悪くなったため、Zero-shotにした。ただし、プロンプトとしては、「簡潔に表現 してください。似た内容を繰り返さないようにしてください。⽇本語でお願いします。」と⼯夫した。 • その他の⼯夫:max_lengthを固定値ではなく、⼊⼒トークン+500というように動的に変化させた。そうすることで、特に要約タス クで、max_lengthを超えてしまった時、設問の⼀部を使って要約する、ということを回避できるため、スコアが向上した。

Slide 8

Slide 8 text

Type3. 指⽰実⾏ • モデル選択:複数のモデルを試した中で、StableBeluga-13Bが定性的に最も良いと思ったため、採⽤した。 • プロンプトの⼯夫:One-Shotかつ、「あなたは博識な⼈物です。」と役割・設定を伝えた。また、英語で出⼒してしまうこともあっ たので、「例題を参考に、⽇本語で回答してください。」と⽇本語で出⼒するように指⽰した。 • その他の⼯夫:要約タスク同様、max_lengthを固定値ではなく、⼊⼒トークン+500というように動的に変化させた。 プロンプト

Slide 9

Slide 9 text

所感 ■ できたこと • 「やりたいことに応じて、世の中のモデルを調べ、⽐較検討する」という基本動作はできるようになった(各種リーダーボードを⾒たり、 Hugging Faceを検索したり、実際に試して精度を⽐較したり・・・)。 ■ できなかったこと、やってみたかったこと • 事後学習で精度を上げるということはできなかった。少し試したがあまり精度が良くならなかったため、モデル選択の⽅に時間をかけ てしまった。 • 今回はタスク種別ごとにモデルを切り替えたが、ChatGPTは1つのモデルで様々なタスクに対応しているのではないか?そうなると、1 つのモデルで、様々なタスクの精度を⾼められるような⼯夫も試してみたかった。

Slide 10

Slide 10 text

謝辞 松尾研の皆様、参加者の皆さん、ありがとうございました! Slackでの積極的な情報交換など、素敵なコミュニティになっていたと感じます。 未来の受講⽣のためにも、これからも開催していただけると嬉しいです。