科学技術の創造プロセス - ChatGPTに使われている技術と研究⽣活のアレコレ

科学技術の創造プロセス ChatGPTに使われている技術と研究⽣活のアレコレ LINE株式会社⾼瀬翔 2023/7/25 1

⾃⼰紹介 • 2008-2017︓東北⼤学（学⼠-博⼠） • 2017-2018︓NTT CS研（ポスドク） • 2018-2022︓東⼯⼤（研究員） • 2020-2022︓東⼯⼤（助教）
• 2022- ︓LINE株式会社（シニアリサーチャー） • ⾃然⾔語処理の研究に従事 • 特に系列変換タスク（機械翻訳・要約⽣成）に取り組む • 最近では（GPTのような）⼤規模⾔語モデルも対象 • 最近は効率的なニューラルモデルの研究に従事 • 効率に関する研究論⽂︓NeurIPS 20, NAACL 21, ACL Findings 22, 23 などに採択 2

⾃然⾔語処理とは • ⼈の⽤いる⾔葉（⾃然⾔語）を計算機で処理する • 翻訳，要約，情報検索，情報抽出，… 3 ウンベルト・エーコの新作，『バウドリーノ』は農⺠の⼦バウドリーノがバルバロッサとも呼ばれる神聖ローマ皇帝フリードリヒ1世に寵愛され，⼗字軍に随⾏する物語．前半は史実を元
にした展開となっているが，物語が進むにつれて，史実からは⼤きく外れ，想像⼒に富んだエーコの筆致が…… エーコの新作，史実と想像⼒のまじわる冒険物語 Baudolino, a new novel by Umberto Eco, is the story of a peasant boy Baudolino who is favored by the Holy Roman Emperor Friedrich I, also known as Barbarossa, and accompanies him on the 3rd crusade …… 作品名バウドリーノ著者ウンベルト・エーコ … … 情報抽出要約翻訳

⾃然⾔語処理の歴史と今⽇の話の位置づけ 4 IUUQTNFEJVNDPN!BOUPJOFMPVJTBCSJFGIJTUPSZPGOBUVSBMMBOHVBHFQSPDFTTJOHQBSUGGCDCFCDF IUUQTNFEJVNDPN!BOUPJOFMPVJTBCSJFGIJTUPSZPGOBUVSBMMBOHVBHFQSPDFTTJOHQBSUGFFF ࠓ೔࿩͢ൣғ χϡʔϥϧωοτΛ༻͍ͨ ࣗવݴޠॲཧ ࣗવݴޠॲཧͷ࢝·Γ ೥ʹ8FBWFS͕8JFOFSʹग़ͨ͠खࢴͰ ػց຋༁ͷՄೳੑʹ͍ͭͯݴٴ
ͦͷ೥ޙͷ೥ʹػց຋༁ͷΞΠσΞ Λ·ͱΊ֮ͨॻΛॻ͍ͨ

今⽇の話題 • 前半︓ChatGPTに⾄るまでのニューラル⾔語モデル • 単語埋め込み • 系列を扱うニューラルモデル • 後半︓（⼤学）⽣活について認識しておくと良さそうな話 •
研究とは︖ • 研究室の⽣活は︖ • 企業での⽣活は︖ 5

ニューラル⾃然⾔語処理の隆盛 • 2017年辺り︓ニューラル機械翻訳によって流暢な訳が可能に • Google翻訳 • DeepL 6 •
2022年末︓ChatGPTの登場で⾃然⾔語処理ブームに（︖）任意の話題について⾃然⾔語で流暢な応答が可能

重要︓⾔語モデルとは • ニューラル機械翻訳も ChatGPT も基本はニューラル⾔語モデル • ⾔語モデル︓⾃然⾔語としての確からしさを計算 • P(I have
a dream) > P(a have I dream) • 同時確率を条件付き確率の積で計算 • 与えられた系列の次の単語を予測するモデルとしても利⽤可能 • I have a の次は dream が来そう… 7   NTTW e 2i Encoder-Decoder 2 2RNN Encoder-Decoder P(I have a dream) > P(a have I dream) > P(fuga spam hoge) : •  2RNN e •  2 P P(I have a dream) = P(I)P(have | I)P(a | I have)P(dream | I have a) I have a dream Pe W Model PennT LSTM (Za Variationa

N-gram ⾔語モデル • 単語の⽣起確率が直前 N-1 単語に依存するモデル • 算出法︓訓練データ（コーパス）中の出現頻度をカウント • I
have a が100回出現したうち，90回は続く単語が dream だった → I have a の後に dream が出現する確率は 90% • ⽋点1︓単語間の類似性を考慮できない • I と You や He は似た振る舞いだが完全に異なる単語扱い • ⽋点2︓N が⼤きいと訓練データから⼗分な統計量が得られない • 与えられた 20-gram に⼀致する系列が訓練データにない → ⽣成確率 0︖ • ニューラル⾔語モデルはこれらの⽋点を克服可能 8 • %@.=4 05 – P(I have a dream) > P(a have I dream) – &(49716 49>05 • #!$C+perplexity – 8A=':',D+-B – 32 "!'< → ;#!$ – /,),? < * 3 tD?G(, }O\ § ¯¡+RNNtD }9@+cª x+V*SY§1x!$9@6·S §¬+L t(!&+1! 6x RU~+(!&x Encoder-Decoder6a$Pm¶°ib'wi RNN Encoder-Decoder,~tD?G P(I have a dream) > P(a have I dream) > P(fuga spam hoge) : •  j+RNNtD?G*);HBG)9@6} •  ¯¡+D?G+k6!cª6r"3('z¥ P(I have a dream) = P(I)P(have | I)P(a | I have)P(dream | I have a) I have a dream I have a dream P(I) P(have | I) P(a | I have) P(dream | I have a) } 9@ RNNt D?G gdream = σ(Wg e’dream +bg ) P(dream | I have a) hdream Softmax(s’dream ) sdream =(Whdream +b) gdream sdream }9@+x s’dream ?=<>@P ¹IyN§ + PennTreebank Wikitext-2 Model PennTreebank* LSTM (Zaremba+, 2014) Variational LSTM (Gal+, 20 Variational RHN (Zilly+ 201 Variational RHN + WT Variational RH * 5 Variational RHN * 10 Pointer Sentinel LSTM (Me Neural Architecture Search Wikitext-2*3 LSTM (Zaremba+ 2014) Variational LSTM (Gal+ 20 Variational LSTM + cache Variational RHN + WT + ca Pointer Sentinel LSTM (Me 1-gram 2-gram 3-gram 4-gram

ニューラル⾔語モデル • ⽣起確率をニューラルネットで計算するモデル • 算出法︓訓練データを再現するよう学習したモデルを⼊⼒に適⽤ • 単語の埋め込み表現を利⽤することで単語間の類似性を考慮可能 • ⽋点1（単語間の類似性を考慮できない）の克服 •
系列の情報をニューラルネットの隠れ層で表現 → 無限-gramを⾃然に扱える • ⽋点2（N が⼤きいと訓練データから⼗分な統計量が得られない）の克服 9 何らかのニューラルネット I have a P(I) P(have | I) P(a | I have) P(dream | I have a) <BOS> 各条件（⼊⼒単語列）に対し確率を計算 0.83 -1.56 0.37 … -0.42 I 単語を埋め込み表現に変換し，ニューラルネットに⼊⼒

埋め込み表現︓単語の実数ベクトルによる表現 • 埋め込み表現（Embedding）︓各単語に対応した実数ベクトル • ベクトル空間上で各単語の特徴を共有 • 似た単語は似た埋め込みに • ランダムな値で初期化，学習を通じて特徴を反映 11
0.64 -1.46 0.03 … 0.28 似た単語＝似た埋め込み異なる単語は遠いベクトル 0.78 -1.22 0.15 … 1.25 dog: cat: train: -1.53 1.08 0.07 … -0.43 単語の数だけベクトルを⽤意 2次元で表現すると… dog cat train bike

埋め込みを⼊⼒として使う • 単語の数だけ埋め込み表現を⽤意 • 埋め込みベクトルの次元数 × 単語数の⾏列 12 何らかのニューラルネット <BOS>
I have a 各単語に対応する埋め込み表現（列ベクトル）を⾏列から抜き出して⼊⼒する 0.83 -1.56 0.37 … -0.42 P(I) P(have | I) P(a | I have) P(dream | I have a) ⾏ベクトル 0.83 -1.56 0.37 … -0.42 列ベクトル転置

最近の発展︓サブワードの利⽤（1/2） • コーパス上には無数の単語が存在する • 表記ゆれ • 例︓overfit, over-fit, over fit
はそれぞれ別の単語や単語列として扱われる • 活⽤・形態素の組み合わせ • 例︓play, playing, player はそれぞれ別の単語として扱われる • 単語数が多い（語彙が巨⼤）と問題がある • 単語埋め込み⾏列のサイズ（＝学習パラメータ）が増える • 埋め込み⾏列は次元数 × 単語数 • （英語で）スペース区切りを単語だと思うとウェブコーパスでは100万種類以上の単語が • 多くの単語は学習が⼗分にされない • 単語の出現頻度は Zipf則に従う＝多くの語はほとんど出現しない 13

最近の発展︓サブワードの利⽤（2/2） • 単語数が多い問題の解決法 • 頻度上位 N 個の単語のみ利⽤ • サブワードの利⽤ •
頻度上位 N 個の単語のみ利⽤ • コーパス内での出現頻度上位 N 個の単語のみを語彙に含める • 語彙にない単語は UNK などの特殊単語に置き換え • N は 1万 - 10万がよく使われる • サブワード（部分⽂字列）の利⽤ • 単語を頻度の⾼い N 個の⽂字列で表現 • 例えば pl, ay, er が語彙にある場合︓play → pl ay, player → pl ay er • 語彙は N個のサブワード • どのようにサブワードを得るか︖ • いくつかの⼿法が存在︓Byte Pair Encoding，Unigram ⾔語モデル 14

Recurrent Neural Network (RNN) • 埋め込み（または下層のベクトル）と⾃⾝の出⼒を⼊⼒ • 原型は1980年代に提案される • 様々な発展型が存在︓LSTM，GRU
16 RNN <BOS> I have a RNN RNN RNN 出⼒を次のタイムステップの⼊⼒としても使⽤＝前のタイムステップに依存した表現が得られる＝系列を扱える⽋点タイムステップを順に計算する必要がある → 系列の⻑さに応じた計算時間を要する → 遅い︕

Transformer • 系列の各時刻について並列計算を可能に • 並列計算により RNN（+ LSTM，GRU）より速い • アテンションで計算を⾏う •
アテンション︓⼊⼒ベクトルの重み付き和を出⼒とする • ⼊⼒も含めたアテンション︓セルフアテンション • 重みは各タイムステップで独⽴に計算可能＝並列計算可能 17 <BOS> I have Transformer Transformer Transformer a Transformer <BOS>, I, have, a の埋め込みの重み付き和を計算し，出⼒

パラメータの学習 • パラメータ（重み⾏列）はランダムに初期化 • 初期は出⼒もランダム • 良い出⼒のニューラルネットをどう得るか︖ • 学習︓訓練データを再現するパラメータを求める •
正確には訓練データとの誤差を最⼩化する • 例えば翻訳の場合︓対訳の⽂対が訓練データ • 数⼗万以上の⽂対が必要 18 英-⽇翻訳の訓練データ I have a dog I have read the book … ⽝を飼ってますその本は読み終わった …

データ数が多いほど性能も良い • 訓練データが⼤きいほど性能向上 • 翻訳の訓練に使⽤する対訳⽂数を変えると…… 19 Because 30 years ago,
I'm from New Jersey, and I was six, and I lived there in my parents' house in a town called Livingston, and this was my childhood bedroom. 30年前私はジャージー出⾝で 6歳でした両親の家にはLiventという町に住んでいましたこれは⼦どもの寝室でした 30 年前私はニュージャージー出⾝で6歳でした両親の住むリビングトンという町に住んでいましたこれは⼦供の頃の寝室ですおよそ30年前スズズズズズズズズで私の頃です翻訳元の英⽂ 1万 10万 20万

（任意のタスクの）訓練データを無数につくれるか︖ • 時間・⾦銭的な⾯で難しい – 例えば翻訳では…… • 訓練データとしてある⾔語の⽂の対訳が必要 • 新聞記事の⽇
→ 英翻訳︓約1300円 / ⽂ • ニューラルモデル学習には100万⽂対以上欲しい＝13億円!? • 解決策︓既にあるデータを活⽤ – 例えば翻訳では…… • 同⼀内容について複数⾔語で書かれている記事を利⽤ 20 ある事柄について⽇本語，英語の Wikipediaから対訳⽂を抽出

⾔語モデルの訓練データは構築が容易 • ⾔語モデルの学習︓各⽂脈（単語列）の次に出現する単語を予測 • 任意の（⾃然⾔語の）⽂書＝⾔語モデルの訓練データ • ウェブ上の⽂書（例︓Wikipedia）をそのまま使える︕ • ⼤量のコーパスを訓練データとして利⽤可能 →
質の良い（ニューラル）⾔語モデルが構築可能︕ 21 何らかのニューラルネット I have a I have a dream <BOS> I have a dream that one day …

性能は訓練データ数とパラメータ数に対数⽐例 • ⾔語モデルの性能はパラメータ数・訓練データに対数⽐例 • 学習にかけた計算コストに対数⽐例する，という⾒⽅もある • 近年の報道ではパラメータ数だけが取り沙汰される印象があるが… 22 22 Dataset
Size tokens Parameters non-embedding Compute PF-days, non-embedding Test Loss Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset size, and amount of compute2 used for training. For optimal performance all three factors must be scaled up in tandem. Empirical performance has a power-law relationship with each individual factor when not bottlenecked by the other two. [Kalpan+ 20] 低いほど良い

質の良い⾔語モデルは様々なタスクに適⽤可 • ⼤規模コーパスで質の良いニューラル⾔語モデルを学習 • 応⽤タスクでの学習なしに適⽤可能に（Zero-shot と呼ばれる設定） • 問題の説明 + 問題を⼊⼒
• e.g., ChatGPT 23 ウンベルト・エーコの新作，『バウドリーノ』は農⺠の⼦が…… Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… ⼤量の⽂書で⾔語モデルを学習 English to Japanese: Where is my cat? 私の猫はどこですか︖ Summarization: ウンベルト・エーコの新作，『バウドリーノ』は農⺠の⼦バウドリーノがバルバロッサとも呼ばれる…… エーコの新作，史実と想像⼒のまじわる冒険物語

より良い応答を⾏うモデルを⽬指して • ⼤規模コーパスで学習したニューラル⾔語モデルをチューニング • 対話形式のやりとりのデータでチューニングする • 指⽰（質問）と応答の対からなる訓練データを⽤いて⾏う • 訓練データを再現する（誤差を最⼩化する）ようにパラメータを更新 •
強化学習を⽤いて⾏う • モデルの応答がどの程度良いかを推定するモデルを構築 • モデルがなるべく良い応答を⾏うようにパラメータを更新する 24 訓練データ⾃然⾔語処理の歴史を簡潔に説明してください黎明期︓機械翻訳は暗号解読のようにして解けるのではないかというアイデアから⾃然⾔語処理は始まりました，当時は… 停滞期︓⼈⼿でのルール構築は…

課題︓誤りや事実と異なる情報を含む出⼒ • 誤りを含む例 • 特に⾃然⾔語での計算問題に弱い • 複利考慮なし︓110万円 • 事実と異なる情報を含む出⼒ 25
何故か 2% → 0.1にだいたい15世紀だが… ダンテは13-14世紀誰か分からない…

抽象的・哲学的な議論と倫理⾯の問題 • ⼤規模⾔語モデルは知能・知性があるのか︖ • 根本的には次の単語を予測しているだけ • そもそも知能・知性とはどういうことか︖ • データから⼈の⾔語活動は模倣できているように⾒える •
⼤規模⾔語モデルに知能・知性がないなら⼈にもないのでは︖ • ⾼瀬の意⾒︓⼈も⾼度に知能的な活動をほとんど（もしくは全く）⾏っていない • ⼈は⼀般的に知能・知性を持っているという⼤前提がナンセンス • いずれにせよ⼯学的には⾮常に強⼒でこれからも発展し続けると考えられる • 倫理的な観点の問題 • （⼈の出⼒した）データを学習しているだけなので内在する偏⾒も取得する • ⼈種，性差，国籍，政治的背景などに関するバイアス • 先天的な倫理の⽋如＝危険な情報の出⼒を⽌めるのが難しい • （作成者が意図的に⽌めなければ）⼤量破壊兵器の製造⽅法なども出⼒する可能性がある • ChatGPT が偏⾒や危険な情報の出⼒を抑えているのはかなりスゴい • 技術者にも哲学・倫理に関する知識や社会情勢の認識が必要︕ 26

ここまでのまとめ • ニューラル⾔語モデルの技術を概観 • ⾔語モデル︓次の単語を予測するモデル • ChatGPTも⾔語モデル • ニューラル⾔語モデルの要素 •
単語の埋め込み表現 • 系列を扱うニューラルモデル • RNN系，Transformer • ⼤量の訓練データで学習した⾔語モデルは任意のタスクに応⽤可能 • ⾔語モデルの訓練データは⾃然⾔語の任意の⽂書＝⼤量のウェブ⽂書が利⽤可能 • チューニングを⾏うことでより良い応答が可能に 27

今⽇の話題 • 前半︓ChatGPTに⾄るまでのニューラル⾔語モデル • 単語埋め込み • 系列を扱うニューラルモデル • 後半︓（⼤学）⽣活について認識しておくと良さそうな話 •
研究とは︖ • 研究室の⽣活は︖ • 企業での⽣活は︖ 28

研究って何︖ • ⾼瀬の認識︓未知の事柄を明らかにし，それを周知すること • 周知する⼿段・場所︓論⽂と学会 • ⼯学的には⽋点を克服しより良いものをつくること • Transformer を例にとると…
• 当時のニューラル⾃然⾔語処理での主流のモデルはRNN系（LSTM） • RNN系の⽋点は • 各タイムステップの計算は直前のタイムステップに依存する＝系列⻑に依存した計算時間 • ⼊⼒系列が⻑い場合に情報が失われる可能性がある • Transformer ではセルフアテンションを利⽤することで • 各タイムステップの計算は独⽴に可能＝並列計算可能で⾼速化 • 各タイムステップから直接情報を得られる＝情報が失われる懸念を解消 29

多くの研究は地味で役に⽴たない • 役⽴つはずのものの中で真に使える技術はごく⼀部 • 知⾒は次の研究につながっていく＝間接的には全て役に⽴っている • 例︓RNN系を⽤いたニューラル⾔語モデルの性能競争 30 2014 78.4︓LSTM⾔語モデル
[Zaremba+ 14] (Google) 2016 75.0︓LSTM⾔語モデル [Gal+ 16] (各層のドロップアウトを同⼀にする) 2017 68.5︓Recurrent Highway Network [Zilly+ 17] 66.1︓単語の埋め込みと出⼒⾏列を共有 [Inan+ 17] 64.4︓出⼒直前にゲートを追加 [Takase+ 17] 60.3︓Simple Recurrent Unit [Lei+ 17] (Google) 54.4︓Mixture of Softmaxes [Yang+ 18] 2018 52.4︓Mixture of Softmaxes（すべての層から確率を計算）[Takase+ 18] 47.2︓上記のEnsemble [Takase+ 18] 62.4︓強化学習で適した構造を探索 [Zoph+ 17] (Google) Penn Treebank コーパスでの Perplexity（低いほうが良い）⾔語モデルの性能改善のために様々な技術やモデルが提案されてきたが現在の⼤規模⾔語モデルで利⽤されている技術はほぼない

世に出る前には多くの失敗が存在する • 研究では未知の事柄を明らかにする • アイデアは良くても実装が悪くて上⼿くいかない • 仮説に誤りがある • 仮説が正しいことはかなり珍しい（教員が間違えていることもたくさんある） •
研究室配属されたばかりでよくある光景 • ただし，⻑年分野で活躍している⼈は経験・知識から来る勘を持つ • 上⼿くいくと思うアイデアの成功率が⾼い 31 学⽣教員・ポスドク〇〇という⼿法を改良すれば××ができるように思うのでやってみない︖ 実装してみたけど性能が良くないです〇〇の実装は成功してます︖良くないは具体的には︖実験の回数と規模は︖… ……（精神攻撃されてやる気なくなってきたな……）

Takase and Kobayashi (NeurIPS 20) の例 32 ⾯⽩い話ですねこれって他のことにも使えません︖ 例えば埋め込み表現のパラメータ削減とか
今の⼿法を〇〇というふうにして使う訳ですよねいけそうな気がします始まり︓Kobayashi さんの書き途中の論⽂を読ませてもらう 20⽇後プロトタイプできました上⼿くいく雰囲気を感じますいろいろ試⾏錯誤しました前は△△という式でしたけど最終的には××にしようと思います。これをやることで表現⼒が上がるので 2ヶ⽉後もうちょっと上⼿くできそうだし証明もできそう考えます

Takase and Kobayashi (NeurIPS 20) の例 33 ⾯⽩い話ですねこれって他のことにも使えません︖ 例えば埋め込み表現のパラメータ削減とか
今の⼿法を〇〇というふうにして使う訳ですよねいけそうな気がします始まり︓Kobayashi さんの書き途中の論⽂を読ませてもらう 20⽇後プロトタイプできました上⼿くいく雰囲気を感じますいろいろ試⾏錯誤しました前は△△という式でしたけど最終的には××にしようと思います。これをやることで表現⼒が上がるので 2ヶ⽉後もうちょっと上⼿くできそうだし証明もできそう考えますこれは極めて上⼿くいった事例それでも上⼿くいったと確信に⾄るまで3ヶ⽉かかる（この最中にも細かいやりとりは⾏う）

論⽂って何︖ • 明らかにした未知の事柄を周知する⼿段 • 専⾨家の査読によって内容の妥当性が担保されている • 査読︓2-4⼈程度の専⾨家が内容の妥当性を議論・検討，承認されれば出版 • 出版後に不正確であることが明らかになる場合もある •
査読は国内の学会ではないことの⽅が多い • 論⽂誌掲載＝論⽂，学会に出版されたもの＝予稿と呼んだ⽅が誤りは少ない • 学会と併設ワークショップの区別も曖昧に宣伝している⼈も多い • 近年の arXiv に公開されている論⽂は査読を経ていないことも多い • 主張が⼤きすぎることがままある • ⾃然⾔語処理の⼀部のタスクで⾼性能 → ⾃然⾔語処理の主なタスクで⼈間と同等以上 • 鵜呑みにした⼈がTwitterやブログで紹介するので輪をかけて誤解を招く状況 34

研究のサイクル 35 解くべき問題の精査と主要⽂献の調査アイデア・仮説の精査と実験計画の策定実装・実験論⽂化発表⼀旦忘れる
⼀旦忘れる採択不採択いい感じの場合良くない場合飽きた場合

研究ってつらいんですか︖ • 個⼈的にはそうは思わないが向き不向きはありそう • Try & Error が苦ではない • 論⽂を書くのも苦ではない
• ろくに読んでないと思われる査読者から雑な⾮難を受けるのは苦痛 • 研究職でなくても誰もやったことがないことへの挑戦は発⽣する • 未知の事柄に向き合う苦痛は⼤なり⼩なり存在する • 研究は評価関数が⽐較的定まっているので楽 • 製品開発は評価関数が不明なこともしばしば… • 「いい感じのものをなるべく早めに、いい感じにつくってください」 • まず⾃分は完璧でも天才でもないことを受け⼊れる • 上⼿くいかない事柄があることを受け⼊れる 36

研究で培う能⼒は研究以外にも応⽤可能 • 未知の事柄を探求する技術 • 現状の問題は何か︖何ができたら良いのか︖ • 仮説は何か︖仮説の検証はどうするか︖仮説のどこが誤っていそうか︖… • ⼈を説得する技術 •
査読あり会議（＝トップ会議）に通す＝査読者を説得する • 提⽰した説明に納得してもらう • 課題，前提条件，課題の解決法，検証法，検証結果，… • 論理的に⼈を説得する技術は役に⽴つ • 様々な⾯接 • 組織（研究室や社内のチーム）内／外での⾃分の仕事の価値の説明 • 論理的な⽂書をきちんと書く教育を受ける機会は（⼤学以外にはほぼ）ない • 論理的な整合性について⾔語化できる⼈は⾮常に稀＝指摘され，改善する機会がない 37

論⽂業績があることの短期的なメリット • 国際会議の場合︓海外旅⾏に⾏ける • アメリカやヨーロッパに1週間ほど無料で⾏ける • IJCAI 2022（ウィーン）︓総額はおよそ80万円 • ACL
2023（トロント）︓総額はおよそ70万円 • ただし所属組織に⼗分な予算がある場合に限る • （特に博⼠に進む場合）予算獲得で有利 • 就職・インターンで有利（かもしれない） • 技術⾊の強い会社では有利な気がするが伝統的な⼤企業では不明 • 奨学⾦の返還免除申請で有利（らしい） 38

⼤学と企業の研究⽣活の違い • よく聞く⾔説︓企業に⽐べると⼤学での研究は⾃由 • ⼯学の場合にはあまり違いがないと思える • ⼯学研究のモチベーションは役に⽴つこと • 企業の分散が⼤きすぎるので⼀概に⾔えない •
基礎研究が可能な場合から製品に直結の開発まで • 環境としてどちらが良い／悪いの⼀般論はない • 働く上では⼤学教員の待遇は企業よりも悪い，は事実に思う • それぞれの組織の特徴を知ることが重要 • インターンシップ • 個⼈の体験談 39

学部⽣へのアドバイス • ⾃分の進路を狭めすぎない • 広い視野で，選択肢はなるべく多く持っていた⽅が良い • AIの研究がやりたいのでAIの教科書を読んでいるしAIの研究室に配属されたい → 研究室配属で希望が通らなかったときにどうする︖ •
絶望してやる気を失うのがよくあるケース • 最初は興味がなくても意外と⾯⽩いかもしれない • 様々な⾯⽩さを受容できるように⾒聞を広めておく • （必修）講義の試験くらいは⾼い成績をおさめられた⽅が良い • 理解できていなければ質問をする • きちんと質問することは重要な能⼒のひとつなので⾝につけた⽅が良い • 講義も本来はコミュニケーション，理解したかったらきちんと対話を 40

研究室配属前に思い出して欲しいこと • 研究室には⾒学に⾏ったほうが良い • 最低でも1年，⻑いと5年以上付き合う相⼿や居場所の雰囲気を知るべき • 候補の研究室は最低でも3つほど持っておいた⽅が良い • なぜその研究室なのか︖を考えること •
扱う分野が似ている研究室が複数ある場合もある，各研究室の特⾊は︖ • 例えば東⼯⼤には⾃然⾔語処理の研究室は少なくとも3つある • 研究室の業績と誰がそれを⾏っているかを確認したほうが良い • 学部⽣や修⼠の学⽣が査読あり論⽂を書いているか︖どの程度の割合か︖ • できれば研究を主に指導していそうなのは誰か，まで調べられると良い • 博⼠，ポスドク，助教は研究室の主⼒だが卒業や異動が発⽣しうるので学年や任期の確認 • 直感を信じるのは重要，名声で判断するのは危険 41

例︓⾼瀬が⾃然⾔語処理を始めて博⼠になるまで • 研究室配属前にやったこと︓研究室⾒学のみ，あとは直感 • ⼤学⼊学前 - 研究室配属直前︓ロボットの研究室に⾏くつもりだった • 東北⼤の情報系にはロボットの研究室はあるが，機械系に⼊学すべきでは︖ •
研究室配属直前︓系内のすべての研究室を⾒学する • 東北⼤にはかつて，系内のすべての研究室を⾒学する習慣があった • ここで⾃然⾔語処理（乾健太郎教授）と出会う • ⾯⽩そうなので後⽇，もっと時間を取って研究室⾒学 • ここで当時博⼠1年，現 JAIST 准教授の井之上さんと話す • ⾯⽩そうなので第１希望にすることを決める • 学部4年 - 修⼠卒業︓なんとなくやり過ごす • 国際会議で発表したり IBM東京基礎研でインターンシップをしたり学振を取ったり • 博⼠2年︓NTT CS研へインターンシップに⾏く • 岡崎直観准教授（現東⼯⼤教授）の伝⼿で • この辺でようやく論⽂の書き⽅が分かってくる • 博⼠卒業 - 現在︓企業研究所に⾏ったり⼤学で教員をやったりして今に⾄る 42

まとめ • ChatGPT に使われている技術を紹介 • ニューラル⾔語モデル︓ニューラルネットを⽤いて次の単語を予測 • ⾔語モデルの訓練データは構築が容易 → 質の良い⾔語モデルが訓練可能
• 質の良い⾔語モデルは任意のタスクをそれなりに解ける • チューニングでさらに良い性能へ • 研究・論⽂とは，および研究⽣活における実利的な Tips の紹介 • 結実するまでには忍耐が必要 • 結実しても思ったほどのインパクトがないことも • 1つの進路（研究，研究室，研究分野）に固執しすぎず幅広い選択肢を • 後半の話は下記インタビュー記事も関連します • https://www.nlp.ecei.tohoku.ac.jp/doctoral-voices/001/ • 東北⼤NLPグループ -> 博⼠課程修了者の声 43

科学技術の創造プロセス - ChatGPTに使われている技術と研究⽣活のアレコレ

科学技術の創造プロセス - ChatGPTに使われている技術と研究⽣活のアレコレ

LINE Developers

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript

科学技術の創造プロセス ChatGPTに使われている技術と研究⽣活のアレコレ LINE株式会社⾼瀬翔 2023/7/25 1

⾃⼰紹介 • 2008-2017︓東北⼤学（学⼠-博⼠） • 2017-2018︓NTT CS研（ポスドク） • 2018-2022︓東⼯⼤（研究員） • 2020-2022︓東⼯⼤（助教）

今⽇の話題 • 前半︓ChatGPTに⾄るまでのニューラル⾔語モデル • 単語埋め込み • 系列を扱うニューラルモデル • 後半︓（⼤学）⽣活について認識しておくと良さそうな話 •

ニューラル⾃然⾔語処理の隆盛 • 2017年辺り︓ニューラル機械翻訳によって流暢な訳が可能に • Google翻訳 • DeepL 6 •

重要︓⾔語モデルとは • ニューラル機械翻訳も ChatGPT も基本はニューラル⾔語モデル • ⾔語モデル︓⾃然⾔語としての確からしさを計算 • P(I have

N-gram ⾔語モデル • 単語の⽣起確率が直前 N-1 単語に依存するモデル • 算出法︓訓練データ（コーパス）中の出現頻度をカウント • I

埋め込みを⼊⼒として使う • 単語の数だけ埋め込み表現を⽤意 • 埋め込みベクトルの次元数 × 単語数の⾏列 12 何らかのニューラルネット <BOS>

最近の発展︓サブワードの利⽤（1/2） • コーパス上には無数の単語が存在する • 表記ゆれ • 例︓overfit, over-fit, over fit

最近の発展︓サブワードの利⽤（2/2） • 単語数が多い問題の解決法 • 頻度上位 N 個の単語のみ利⽤ • サブワードの利⽤ •

Recurrent Neural Network (RNN) • 埋め込み（または下層のベクトル）と⾃⾝の出⼒を⼊⼒ • 原型は1980年代に提案される • 様々な発展型が存在︓LSTM，GRU

Transformer • 系列の各時刻について並列計算を可能に • 並列計算により RNN（+ LSTM，GRU）より速い • アテンションで計算を⾏う •

パラメータの学習 • パラメータ（重み⾏列）はランダムに初期化 • 初期は出⼒もランダム • 良い出⼒のニューラルネットをどう得るか︖ • 学習︓訓練データを再現するパラメータを求める •

データ数が多いほど性能も良い • 訓練データが⼤きいほど性能向上 • 翻訳の訓練に使⽤する対訳⽂数を変えると…… 19 Because 30 years ago,

（任意のタスクの）訓練データを無数につくれるか︖ • 時間・⾦銭的な⾯で難しい – 例えば翻訳では…… • 訓練データとしてある⾔語の⽂の対訳が必要 • 新聞記事の⽇

質の良い⾔語モデルは様々なタスクに適⽤可 • ⼤規模コーパスで質の良いニューラル⾔語モデルを学習 • 応⽤タスクでの学習なしに適⽤可能に（Zero-shot と呼ばれる設定） • 問題の説明 + 問題を⼊⼒

課題︓誤りや事実と異なる情報を含む出⼒ • 誤りを含む例 • 特に⾃然⾔語での計算問題に弱い • 複利考慮なし︓110万円 • 事実と異なる情報を含む出⼒ 25

ここまでのまとめ • ニューラル⾔語モデルの技術を概観 • ⾔語モデル︓次の単語を予測するモデル • ChatGPTも⾔語モデル • ニューラル⾔語モデルの要素 •

今⽇の話題 • 前半︓ChatGPTに⾄るまでのニューラル⾔語モデル • 単語埋め込み • 系列を扱うニューラルモデル • 後半︓（⼤学）⽣活について認識しておくと良さそうな話 •

研究って何︖ • ⾼瀬の認識︓未知の事柄を明らかにし，それを周知すること • 周知する⼿段・場所︓論⽂と学会 • ⼯学的には⽋点を克服しより良いものをつくること • Transformer を例にとると…

Takase and Kobayashi (NeurIPS 20) の例 32 ⾯⽩い話ですねこれって他のことにも使えません︖ 例えば埋め込み表現のパラメータ削減とか

Takase and Kobayashi (NeurIPS 20) の例 33 ⾯⽩い話ですねこれって他のことにも使えません︖ 例えば埋め込み表現のパラメータ削減とか

研究のサイクル 35 解くべき問題の精査と主要⽂献の調査アイデア・仮説の精査と実験計画の策定実装・実験論⽂化発表⼀旦忘れる

研究ってつらいんですか︖ • 個⼈的にはそうは思わないが向き不向きはありそう • Try & Error が苦ではない • 論⽂を書くのも苦ではない

研究で培う能⼒は研究以外にも応⽤可能 • 未知の事柄を探求する技術 • 現状の問題は何か︖何ができたら良いのか︖ • 仮説は何か︖仮説の検証はどうするか︖仮説のどこが誤っていそうか︖… • ⼈を説得する技術 •

論⽂業績があることの短期的なメリット • 国際会議の場合︓海外旅⾏に⾏ける • アメリカやヨーロッパに1週間ほど無料で⾏ける • IJCAI 2022（ウィーン）︓総額はおよそ80万円 • ACL

まとめ • ChatGPT に使われている技術を紹介 • ニューラル⾔語モデル︓ニューラルネットを⽤いて次の単語を予測 • ⾔語モデルの訓練データは構築が容易 → 質の良い⾔語モデルが訓練可能