Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストとは何か論争にAI(gpt-2)で終止符を打とうとした話

pao
December 21, 2021
160

 データサイエンティストとは何か論争にAI(gpt-2)で終止符を打とうとした話

こちらのイベントで話した内容です
https://abeja-innovation-meetup.connpass.com/event/231352/

こちらの記事の話をしています。
https://qiita.com/pao2/items/cedc59aa612c237bcc2b

pao

December 21, 2021
Tweet

Transcript

  1. 2021/12/20
    データサイエンティストとは何か論争に
    AI(gpt-2)で決着つけようとした話

    View full-size slide

  2. 自己紹介
    2
    ● pao
    ● データサイエンスグループ マネージャー
    ● リモートワーク from 名古屋
    ● コンペ中毒者(Kaggle Master / atmaCup 1st x3)
    ● 遊びで機械学習使うのが好き
    ● 息子が可愛い

    View full-size slide

  3. 過去の遊び
    3

    View full-size slide

  4. 今回の遊び
    4
    これについてお話します!
    https://qiita.com/pao2/items/cedc59aa612c237bcc2b

    View full-size slide

  5. データサイエンティストとは?
    5
    データサイエンティストはxxxで、機械学習エンジニアはyyy、データアナリスト
    はzzzだ
    データサイエンティストにとって、DockerとGitはhogehoge
    データサイエンティストとは、ビジネスで価値をなんとかかんとか
    データサイエンティストは、意思決定にデータで・・・・・

    View full-size slide

  6. 6
    データサイエンティストって何だー

    View full-size slide

  7. 7
    そうだ!AIに聞いてみよう!

    View full-size slide

  8. ● gpt-2に「データサイエンティストとは、」と入力して、後続の文章を生成し
    てもらう
    ● データサイエンティストが作ったAIに、データサイエンティストとは何かを
    聞くというところが重要
    ○ アンパンマンに自分を作った「ジャムおじさんとは?」と聞くようなもの
    AI(gpt-2)に聞いてみる
    8
    gpt-2
    データサイエンティストとは、 XXXXな人である。
    INPUT OUTPUT

    View full-size slide

  9. ● 話すこと
    ○ 実際の生成例
    ○ 文章生成の難しさ
    ○ (時間があればデモ)
    ● 話さないこと
    ○ gpt-2の具体的な仕組み
    ○ 文章生成の様々なアルゴリズム
    今日話すこと・話さないこと
    9

    View full-size slide

  10. ● rinna社が公開している事前学習済みモデルを利用
    まずは事前学習済みモデルから
    10
    https://rinna.co.jp/

    View full-size slide

  11. 文書生成の簡単な仕組み
    11
    事前学習
    文書から次の単語を予測するタスクで学習
    モデル
    昔々、あるところにおじいさんと
    おばあさん: 0.8
    犬: 0.1
    ロボット: 0.03
    お姉さん: 0.02
    ・・・・
    ←正解
    文書生成
    1. 昔々、あるところにおじいさんと → おばあさん
    2. 昔々、あるところにおじいさんとおばあさん → が
    3. 昔々、あるところにおじいさんとおばあさんが → いました
    再帰的に次の単語を予測していく

    View full-size slide

  12. 結果
    12
    データサイエンティストとは、コンピュータの処理能力や計算資源を活用する専門家。 

    データサイエンティストとは、機械学習や人工知能(ai)などの技術を活用して問題を解決する専門家。

    データサイエンティストとは、データを収集・分析して課題の発見、解決、創出するスペシャリストである。

    Qiitaにも記載した結果
    その他の生成例
    <それっぽい>
    データサイエンティストとは、データが何らかの問題を解決するための様々な方法で使われているかどうかの「鍵」となるデータを識別する専門家
    データサイエンティストとは、データ分析のスペシャリスト。 データサイエンティストになるには、統計学や機械学習などの知識が必要となる。
    <怪しい例>
    データサイエンティストとは、人工知能の「仕事」をどう変えるのか ?(nhkニュース) - yahoo! ニュース

    View full-size slide

  13. 13
    既にそれっぽいけど、もっと本質的な何
    かがほしい

    View full-size slide

  14. 14
    自社のデータを使って学習させてみる

    View full-size slide

  15. ● Docbaseに溜まった社内の共有ドキュメントを利用
    ○ MTGログや業務内容のメモ、ポエムなど
    ○ ちょうどNotion移行のタイミングでデータのダンプがされていた
    自社データでのFinetuning
    15
    python3 ./transformers/examples/pytorch/language-modeling/run_clm.py \
    --model_name_or_path=rinna/japanese-gpt2-medium \
    --train_file=../data/007_train.txt \
    --validation_file=../data/007_valid.txt \
    --do_train \
    --do_eval \
    --num_train_epochs=5 \
    --save_steps=3000 \
    --per_device_train_batch_size=2 \
    --per_device_eval_batch_size=2 \
    --output_dir=data/007_output \
    --use_fast_tokenizer=False
    Transformersでポン

    View full-size slide

  16. ● なかなかうまく行かない・・・
    ○ 同じ単語を出力し続ける
    ○ の連続
    ○ 謎の文書:
    ■ データサイエンティストとは、![スクリーンショット 2019-12-xx xx.xx.xx.png]
    ■ データサイエンティストとは、データの取り扱いに関する契約・・・
    ● 前処理を増やしながらTry&Error
    ○ Markdown系記号の除去(表、見出し、箇条書き、リンク、チェックリスト等)
    ○ 短い文の削除
    ○ 英語のみの文書を除く
    ○ tokenizeした上でDS → データサイエンティストに変換
    (アドベントカレンダー当日)試行錯誤・・・・
    16

    View full-size slide

  17. 17
    データサイエンティストとは、
    お客さんに寄り添って、データを見て分析をする
    ことで、ビジネスをより面白くしたり、楽しくしたり
    することができる人です。
    奇跡の一文

    View full-size slide

  18. ● 文書生成難しい
    ○ 奇跡の一文に出会えたが最終モデルでも他の文は散々だった
    ○ 丸暗記みたいな文章が多い
    ○ 締め切りギリギリにやるものではない
    ○ パラメータよりもINPUTデータをどう用意するかのほうが大事そう
    ● 文書生成楽しい
    ○ 予測!精度!とは少し違う機械学習の世界
    ○ 遊びでやるには楽しめる
    やってみた感想
    18

    View full-size slide

  19. 19
    ありがとうございました!
    (最後にデモ)

    View full-size slide