にした展開となっているが,物語が進むにつれ て,史実からは⼤きく外れ,想像⼒に富んだ エーコの筆致が…… エーコの新作, 史実と想像⼒のまじわる冒険物語 Baudolino, a new novel by Umberto Eco, is the story of a peasant boy Baudolino who is favored by the Holy Roman Emperor Friedrich I, also known as Barbarossa, and accompanies him on the 3rd crusade …… 作品名 バウドリーノ 著者 ウンベルト・エーコ … … 情報抽出 要約 翻訳
a dream) > P(a have I dream) • 同時確率を条件付き確率の積で計算 • 与えられた系列の次の単語を予測するモデルとしても利⽤可能 • I have a の次は dream が来そう… 7 NTTW e 2i Encoder-Decoder 2 2RNN Encoder-Decoder P(I have a dream) > P(a have I dream) > P(fuga spam hoge) : • 2RNN e • 2 P P(I have a dream) = P(I)P(have | I)P(a | I have)P(dream | I have a) I have a dream Pe W Model PennT LSTM (Za Variationa
系列の情報をニューラルネットの隠れ層で表現 → 無限-gramを⾃然に扱える • ⽋点2(N が⼤きいと訓練データから⼗分な統計量が得られない)の克服 9 何らかのニューラルネット I have a P(I) P(have | I) P(a | I have) P(dream | I have a) <BOS> 各条件(⼊⼒単語列) に対し確率を計算 0.83 -1.56 0.37 … -0.42 I 単語を埋め込み表現に変換し, ニューラルネットに⼊⼒
系列の情報をニューラルネットの隠れ層で表現 → 無限-gramを⾃然に扱える • ⽋点2(N が⼤きいと訓練データから⼗分な統計量が得られない)の克服 10 何らかのニューラルネット I have a P(I) P(have | I) P(a | I have) P(dream | I have a) <BOS> 各条件(⼊⼒単語列) に対し確率を計算 0.83 -1.56 0.37 … -0.42 I 単語を埋め込み表現に変換し, ニューラルネットに⼊⼒
I have a 各単語に対応する 埋め込み表現(列ベクトル)を ⾏列から抜き出して⼊⼒する 0.83 -1.56 0.37 … -0.42 P(I) P(have | I) P(a | I have) P(dream | I have a) ⾏ベクトル 0.83 -1.56 0.37 … -0.42 列ベクトル 転置
系列の情報をニューラルネットの隠れ層で表現 → 無限-gramを⾃然に扱える • ⽋点2(N が⼤きいと訓練データから⼗分な統計量が得られない)の克服 15 何らかのニューラルネット I have a P(I) P(have | I) P(a | I have) P(dream | I have a) <BOS> 各条件(⼊⼒単語列) に対し確率を計算 0.83 -1.56 0.37 … -0.42 I 単語を埋め込み表現に変換し, ニューラルネットに⼊⼒
アテンション︓⼊⼒ベクトルの重み付き和を出⼒とする • ⼊⼒も含めたアテンション︓セルフアテンション • 重みは各タイムステップで独⽴に計算可能=並列計算可能 17 <BOS> I have Transformer Transformer Transformer a Transformer <BOS>, I, have, a の埋め込みの 重み付き和を計算し,出⼒
I'm from New Jersey, and I was six, and I lived there in my parents' house in a town called Livingston, and this was my childhood bedroom. 30年前 私は ジャージー出⾝で 6歳でした 両親の 家にはLiventとい う町に住んでいま した これは ⼦ど もの寝室でした 30 年前 私は ニュージャージー 出⾝で6歳でした 両親の住むリビン グトンという町に 住んでいました こ れは⼦供の頃の寝 室です およそ30年前 スズズズズズズ ズズで 私の頃 です 翻訳元の英⽂ 1万 10万 20万
Size tokens Parameters non-embedding Compute PF-days, non-embedding Test Loss Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset size, and amount of compute2 used for training. For optimal performance all three factors must be scaled up in tandem. Empirical performance has a power-law relationship with each individual factor when not bottlenecked by the other two. [Kalpan+ 20] 低いほど良い
• e.g., ChatGPT 23 ウンベルト・エー コの新作,『バウ ドリーノ』は農⺠ の⼦が…… Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… ⼤量の⽂書で ⾔語モデルを学習 English to Japanese: Where is my cat? 私の猫はどこですか︖ Summarization: ウンベルト・エーコの新作,『バウドリーノ』は農⺠ の⼦バウドリーノがバルバロッサとも呼ばれる…… エーコの新作, 史実と想像⼒のまじわる冒険物語