メールの分類をLLMをつかってやってみた

メールの分類を LLMをつかってやってみた ramo

自己紹介 ramo 仕事→ URIHOというサービス開発。好きなフレームワーク→ remix, sveltekit マイブーム→ cloudﬂare workers
最近matzさんとツーショット撮りました

URIHOについて販売企業 URIHOは企業間取引において発生する売掛金の未払い・倒産に備える保証サービスです。購入企業

やりたいこと問い合わせメールの分類を行ってよくある質問ページを拡充したい！

やったこと 1600件の問い合わせメールのうち 1000件を手動で分類 ↓ 分類モデルを作成し、残り600件の分類を自動化内容の傾向の把握

技術的にやったこと LLMのBERTをファインチューニングして分類モデルを作成しましたその結果、少量のデータでもそれなりの精度になった

技術的にやったこと・「cl-tohoku/bert-base-japanese-v3」というBERTモデルを使用・Hugging Faceのtransformersライブラリを使用する・AutoModelForSequenceClassiﬁcationというクラスを使用して分類問題を解けるようにファインチューニング

やったこと tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-v3") encoding = tokenizer(df_email['Content'].tolist(), padding=True, truncation=True, return_tensors="pt",
max_length=256) model = AutoModelForSequenceClassification.from_pretrained("cl-tohoku/bert-base-japanese-v3", num_labels=len(df_email['question_id'].unique())) # 訓練用のデータの準備等（省略） model.train()

結果分類の種類「よくある質問ページに書いてあること」「サービスの説明をしてください」「広告」「その他」

結果分類の種類「よくある質問ページに書いてあること」「サービスの説明をしてください」「広告」「その他」 →　90％の精度で分類可能に！

結果分類の種類「よくある質問ページに書いてあること」 ↓ よくある質問ページの大分類(５択)　＋　それ以外でタグ付けを行って学習

結果分類の種類「よくある質問ページに書いてあること」 ↓ よくある質問ページの大分類(５択)　＋　それ以外でタグ付けを行って学習 ↓ 約81%の精度

結果 90％の精度で分類可能に！

その他手法・Sentence Transformer + lightGBM →55% ・BoW + SVM →37%
・TF-IDF + SVM →40%

まとめ・LLMを使うと少数のデータでもそれなりの精度がでる・Hugging Faceでなんでもできる！

以上です。

メールの分類をLLMをつかってやってみた

メールの分類をLLMをつかってやってみた

ramo798

More Decks by ramo798

Featured

Transcript