Upgrade to Pro — share decks privately, control downloads, hide ads and more …

gpt-3.5-turboのFine-tuningによる分類タスク改善の試み

Nyosu
August 31, 2023
2k

 gpt-3.5-turboのFine-tuningによる分類タスク改善の試み

2023/8/30 LLM Applcation Vol.2のLT内容。
音声メモ日記アプリ「シャべマル」の絵文字分類タスクを、OpenAI社のgpt-3.5-turboのFine-tuningを用いて改善に試みた話になります。

Nyosu

August 31, 2023
Tweet

Transcript

  1. 󰞴 ⾃⼰紹介 ‧個⼈開発が好きなエンジニア(Swift, Python)🐣 ‧今年5⽉~10⽉まで育休(LLM無職の⽣活スタイル) ‧LLMを活⽤したPoCやプロダクト作りが趣味 ‧ChatGPT対応のSlackBot ‧arXiv最新論⽂のサマリSlack Bot ‧会話型求⼈検索システム(PoC)

    ‧⻑時間対応の⽂字起こしシステム ‧毎朝⾝近な歴史を教えるLINE Bot「rekky」 ‧アイデアを創発する⾳声認識メモアプリ「ideaPot」 ‧しゃべって丸投げできる⾳声メモアプリ「シャべマル」 今年作ったもの
  2. 📝 メモから絵⽂字を分類する 買い物メモ。今晩は鶏肉と トマトを使ったカレーを作 ろうと思っているから、鶏 肉2パックとトマト5個が必 要。 朝ごはんにはシリアルを 食べるから、牛乳1リット ルも忘れずに。...

    ⽂字起こし内容 買い物 Vector(topic) Vectors(emoji) 類似度計算 ChatGPT API Function Callingで トピックを一つ生成 text-embedding-ada-002 でベクトルに変換 1番類似するものを システム的に選択 絵文字ベクトル (1364種類) shopping-bags
  3. shopping-bags 📝 メモから絵⽂字を分類する 買い物メモ。今晩は鶏肉と トマトを使ったカレーを作 ろうと思っているから、鶏 肉2パックとトマト5個が必 要。 朝ごはんにはシリアルを 食べるから、牛乳1リット

    ルも忘れずに。... ⽂字起こし内容 買い物 Vector(topic) Vectors(emoji) 類似度計算 ChatGPT API Function Callingで トピックを一つ生成 text-embedding-ada-002 でベクトルに変換 1番類似するものを システム的に選択 絵文字ベクトル (1364種類) 絵文字が1364種類なので、 few-shotなどで教えるのは無理
  4. shopping-bags 📝 メモから絵⽂字を分類する 買い物メモ。今晩は鶏肉と トマトを使ったカレーを作 ろうと思っているから、鶏 肉2パックとトマト5個が必 要。 朝ごはんにはシリアルを 食べるから、牛乳1リット

    ルも忘れずに。... ⽂字起こし内容 買い物 Vector(topic) Vectors(emoji) 類似度計算 ChatGPT API Function Callingで トピックを一つ生成 text-embedding-ada-002 でベクトルに変換 1番類似するものを システム的に選択 絵文字ベクトル (1364種類) トピックに対応する絵文字が 存在しないケースがある 情報がかなり欠落する (特に長文の場合) 絵文字が1364種類なので、 few-shotなどで教えるのは無理
  5. 📝 メモから絵⽂字を分類する 買い物メモ。今晩は鶏肉と トマトを使ったカレーを作 ろうと思っているから、鶏 肉2パックとトマト5個が必 要。 朝ごはんにはシリアルを 食べるから、牛乳1リット ルも忘れずに。...

    ⽂字起こし内容 shopping-bags Vector(topic) Vectors(emoji) 類似度計算 Fine-tuningモデルで 絵文字名を出力 text-embedding-ada-002 でベクトルに変換 1番類似するものを システム的に選択 絵文字ベクトル (1364種類) shopping-bags
  6. 😎 絵⽂字分類に特化させたFine-tuning 学習用データセットの作成( ×100) user message メモ内容をgpt-3.5-turboを用いて生成 例)買い物メモ。今日はトマトと鶏肉を使った ... assistant

    message 生成したメモに自力で絵文字をラベリングしたもの 例)shopping-bags あなたは与えられたメモ内容に対して、最も該当する絵文字ラベル を分類します。 system message epoch数1,3,6,8,9,10で試してみた 存在する絵文字ラベルが生成されたら OK🙆 ※epoch数とは「一つの訓練データを何回繰 り返して学習させるか」の数のこと