Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストとは何か論争にAI(gpt-2)で終止符を打とうとした話

pao
December 21, 2021
180

 データサイエンティストとは何か論争にAI(gpt-2)で終止符を打とうとした話

こちらのイベントで話した内容です
https://abeja-innovation-meetup.connpass.com/event/231352/

こちらの記事の話をしています。
https://qiita.com/pao2/items/cedc59aa612c237bcc2b

pao

December 21, 2021
Tweet

Transcript

  1. 自己紹介 2 • pao • データサイエンスグループ マネージャー • リモートワーク from 名古屋

    • コンペ中毒者(Kaggle Master / atmaCup 1st x3) • 遊びで機械学習使うのが好き • 息子が可愛い
  2. • 話すこと ◦ 実際の生成例 ◦ 文章生成の難しさ ◦ (時間があればデモ) • 話さないこと

    ◦ gpt-2の具体的な仕組み ◦ 文章生成の様々なアルゴリズム 今日話すこと・話さないこと 9
  3. 文書生成の簡単な仕組み 11 事前学習 文書から次の単語を予測するタスクで学習 モデル 昔々、あるところにおじいさんと おばあさん: 0.8 犬: 0.1

    ロボット: 0.03 お姉さん: 0.02 ・・・・ ←正解 文書生成 1. 昔々、あるところにおじいさんと → おばあさん 2. 昔々、あるところにおじいさんとおばあさん → が 3. 昔々、あるところにおじいさんとおばあさんが → いました 再帰的に次の単語を予測していく
  4. • Docbaseに溜まった社内の共有ドキュメントを利用 ◦ MTGログや業務内容のメモ、ポエムなど ◦ ちょうどNotion移行のタイミングでデータのダンプがされていた 自社データでのFinetuning 15 python3 ./transformers/examples/pytorch/language-modeling/run_clm.py

    \ --model_name_or_path=rinna/japanese-gpt2-medium \ --train_file=../data/007_train.txt \ --validation_file=../data/007_valid.txt \ --do_train \ --do_eval \ --num_train_epochs=5 \ --save_steps=3000 \ --per_device_train_batch_size=2 \ --per_device_eval_batch_size=2 \ --output_dir=data/007_output \ --use_fast_tokenizer=False Transformersでポン
  5. • なかなかうまく行かない・・・ ◦ 同じ単語を出力し続ける ◦ <unk>の連続 ◦ 謎の文書: ▪ データサイエンティストとは、![スクリーンショット

    2019-12-xx xx.xx.xx.png] ▪ データサイエンティストとは、データの取り扱いに関する契約・・・ • 前処理を増やしながらTry&Error ◦ Markdown系記号の除去(表、見出し、箇条書き、リンク、チェックリスト等) ◦ 短い文の削除 ◦ 英語のみの文書を除く ◦ tokenizeした上でDS → データサイエンティストに変換 (アドベントカレンダー当日)試行錯誤・・・・ 16