自然言語処理を役立てるのはなぜ難しいのか

Slide 1

Slide 1 text

自然言語処理を役立てるのはなぜ難しいのか Preferred Networks 海野裕也

Slide 2

Slide 2 text

2 2008: 東大情報理工コンピュータ科学専攻修士、自然言語処理 2008-2011: 日本アイ・ビー・エム（株）東京基礎研究所 2011-2016: Preferred Infrastructure ● 分散機械学習Jubatus、自然言語処理、テキスト解析 2016-: Preferred Networks、リテール担当VP ● OSS開発、対話、ロボット、物流ロボット、流通・小売自己紹介：海野裕也

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Vision 自分たちの手で革新的かつ本質的な技術を開発し、未知なる領域にチャレンジしていく。私たちはソフトウェアとハードウェアを高度に融合し、自動車やロボットなどのデバイスをより賢く進化させます。常に変化する環境や状況に柔軟に対処できる賢いデバイスができれば、物理世界をリアルタイムにセンシングし、現実世界そのものが計算可能になります。技術を使って、自分たちが見たことが無い、まだ知らない世界を知りたい。すでにわかっている領域で勝負するのではなく、技術の力で想像を超えた世界に挑戦していきます。現実世界を計算可能にする Preferred Networks Vision：

Slide 5

Slide 5 text

5 テキストマイニングは Nice to haveである

Slide 6

Slide 6 text

6 Q: 身の回りで自然言語処理の技術を使ったサービスは？

Slide 7

Slide 7 text

7 Q: その中で、月1000円以上払ったものは？

Slide 8

Slide 8 text

8 プロフェッショナル向けより一般人向けを

Slide 9

Slide 9 text

9 ● SIGRAPH 2013のUCLAとディズニーの論文 ● 雪のシミュレーション ● どこからどうみても、 2013年にヒットしたあの映画で使われている技術社会に影響を与える研究開発

Slide 10

Slide 10 text

10 10年くらい考えてきたことを話しますお金を払ってまで使っている自然言語処理のツールは非常に少ない。何故か？

Slide 11

Slide 11 text

11 自然言語処理はなぜ難しい

Slide 12

Slide 12 text

12 ● 研究と開発の質的な違いとは ● 言語処理固有の難しさとは ● LLMが生み出された背景は？ ● 言語処理の社会応用を考える鍵は今日考えたいこと

Slide 13

Slide 13 text

13 自然言語処理に関して色んなことが言われている近年の自然言語処理技術の発展は目まぐるしい 10年前に出来なかったことが出来るようになった LLMがブレークスルーをもたらした

Slide 14

Slide 14 text

14 研究と製品の致命的な違い研究の仮想敵は研究者製品の仮想敵は代替手段

Slide 15

Slide 15 text

15 （他の研究に比べて）すごい研究であることと、（他の手段に比べて）役に立たないこと、が両立する研究の罠

Slide 16

Slide 16 text

16 Q: 言語処理における代替手段とは？

Slide 17

Slide 17 text

17 言語処理の代替手段は人間

Slide 18

Slide 18 text

18 言語の正しさは、ふつう母語話者を基準に考える走る速度、持てる重さ、記憶できる量を超える機械を作れても、機械が人より流暢な言語を持つことは原理的にできない「言語」の意味で人間を超えることができない

Slide 19

Slide 19 text

言語そのもので勝負しない

Slide 20

Slide 20 text

20 精度よりも量や速度が重要量速度

Slide 21

Slide 21 text

という話を2年前にしたが・・・

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

23 文（単語列）が確率的に生成されていると仮定したモデル（統計的）言語モデルとは？文：吾輩は猫である © IkamusumeFan サンプリング

Slide 24

Slide 24 text

24 ● 次の単語の出現確率が、直近単語のみで決定されると仮定する ● 単語の出現頻度の割り算で簡単にパラメタ推定できる ● 20年前はデファクトスタンダードだった昔はN-gram言語モデル P(w n | w n-1 , …, w 1 ) ≒ P(w n | w n-1 , w n-2 )

Slide 25

Slide 25 text

25 ● x（例：英語）からy（例：日本語）への変換を求める問題を考える ● ベイズの定理で、変換の正しさと、言語の流暢性（言語モデル）に分解できる ● 言語モデルはラベルなしデータで作れるので、流暢性を上げやすい言語モデルは生成系タスクで使われていた P(y|x) ∝ P(x|y) P(y)

Slide 26

Slide 26 text

26 当初みんなこんな気持ちだったよね？？？「日本語：吾輩は猫である、英語：・・・」に続く言葉を予想させたら英訳っぽいのできたよﾊﾊﾊ、ﾅｲｽｼﾞｮｰｸ 😂

Slide 27

Slide 27 text

27 LLMは言語処理なのか？？？ LLM 言語知識思考

Slide 28

Slide 28 text

28 言語の流暢性以外の価値が大きい知識の量思考の速度

Slide 29

Slide 29 text

29 大規模であることが重要だった T. Bron, et. al. Language Models are Few-Shot Learners. NeurIPS2020. より

Slide 30

Slide 30 text

30 コンピュータはずっと速くなっていたんだし、この流れは予見できたのでは？ 🤔

Slide 31

Slide 31 text

2006 年

Slide 32

Slide 32 text

32 ● AWSが出たのが2006年（M1のころ） ● 自宅の通信はADSL（10Mbpsくらいしかでない）クラウド環境が出始め

Slide 33

Slide 33 text

33 ● MapReduce論文が出たのが2006年、Hadoopも同じ頃に出て、個人で分散計算環境の構築ができるようになった分散計算が流行り始め

Slide 34

Slide 34 text

34 ● 2007年にCUDAが初めて出た ● その前後でGPGPUの存在は知っていたが、気の狂ったことをする人がいるものだと思っていた ● 当時の言語処理の機械学習は疎行列演算が多く、データ量に対して演算が少なかった GPGPUが出始め © Berkut

Slide 35

Slide 35 text

35 ● 2006年頃から、立て続けに新しい手法が出てきた ● それまでは、全データで勾配を計算するバッチ学習が主流（L-BFGSなど）だったが、以降100-1000倍くらい学習が速くなったオンライン学習が流行り始め

Slide 36

Slide 36 text

36 深層学習ライブラリが出始め ● Theanoが2007年、Torch（Lua製）は2002年に最初のリリース ● TensorFlowもPyTorchも当然無い ● そもそもニューラルネット自体やっている人がほとんどいない ● 手計算で微分して、自分で実装する方が普通だった

Slide 37

Slide 37 text

37 データ量の対数でしか精度が上がっていなかった J. Suzuki, H. Isozaki, Semi-Supervised Sequential Labeling and Segmentation using Giga-word Scale Unlabeled Data. ACL08より

Slide 38

Slide 38 text

今、当たり前にあるものが何一つなかった

Slide 39

Slide 39 text

もしみなさんが、未来の「LLM」を見つけようとしているのであれば、今の時点であれはちょっと・・・と思うようなテーマに飛びつくしか無い（必要条件であって十分条件じゃない）

Slide 40

Slide 40 text

40 ● 研究室の同期が学習ベース（ロジスティック回帰）の言語モデルの研究を修論でしていた ● 京大コーパス（たしか）の学習に1週間かかって、精度がでなくて頭を抱えていた記憶がある・・・ ● 今思い返せば圧倒的な先見の明であった、が・・・仮に手を出したら幸せだったのだろうか？ 😇

Slide 41

Slide 41 text

少し見方を変えよう

Slide 42

Slide 42 text

42 あらゆるレイヤーの進歩によってLLMが可能になったとも言えるコンピュータ科学の進歩がLLMを生み出したアルゴリズムバッチ学習からオンライン学習計算機環境オンプレからクラウド、クラスタプログラミング TFやPyTorchの登場開発環境 CUDAなどの開発環境の進化プロセッサ CPUからGPUへ

Slide 43

Slide 43 text

未来の「LLM」も単一の技術ではなく、コンピュータ科学の総合格闘技になる、かも

Slide 44

Slide 44 text

44 ● 深層学習登場によって、演算性能がネックとなった ● Transformerの登場以降、決定的にメモリ帯域が重要になった ● 結果的にプロセッサに求められる要件が大きく変わろうとしてる LLM時代はメモリ帯域ネックへ © smial (talk) © Berkut ?

Slide 45

Slide 45 text

45 ● 3D積層メモリは物理的にデータとメモリが近いため圧倒的高メモリ帯域を実現可能 ● 世界最速のLLM推論を目指す積層メモリを使って超高メモリ帯域を目指す

Slide 46

Slide 46 text

46 ITの仕事は二極化が進む（？）みんなが使う強い寡占の基盤技術例：プロセッサ、DB、コンパイラ、… 各業界に特化した課題解決例：アプリ、ソリューション、コンサル、…

Slide 47

Slide 47 text

47 言葉そのものの意義を考える書き言葉知識の蓄積話し言葉意図の伝達・新聞、本、Web ・検索や解析など、知識の利用が目的・会話、指示、交渉・意図や指示の理解など、やりとりが目的

Slide 48

Slide 48 text

48 インターフェースとしての自然言語処理記号の世界物理の世界・画像処理・センサー・制御・プランニング・自然言語処理・音声処理・UI

Slide 49

Slide 49 text

49 言語そのものが道具である言語背後の問題

Slide 50

Slide 50 text

Slide 51

Slide 51 text

Slide 52

Slide 52 text

52 ● 精度以外の部分で勝負する ● LLMはコンピュータ科学の総合格闘技 ● 道具と割り切って特定ドメインに飛び込む道も前半のまとめ

Slide 53

Slide 53 text

53 未来の話

Slide 54

Slide 54 text

54 チャンスかピンチか（なにかすごいこと）やるぞー失敗しそうだ・・・エラい人ボク

Slide 55

Slide 55 text

55 本当にリスクかどうか考えるうまくいったやらなかったうまくいかなかった・未踏の挑戦に貢献できた・他の仕事ができる・うまくいったときに公開する・解雇される（本当に？）・会社が潰れる（本当に？）

Slide 56

Slide 56 text

56 挑戦できるときに挑戦できるか技術の下地適切な投資と期待実行できる環境

Slide 57

Slide 57 text

57 ● 人工知能は閉塞感があり、できることは限られていた ● 誰も技術に期待しておらず、「そういうのはいらない」と言われ続けた ● 特定の技術領域でも難しすぎて、分野横断的なチームを構成できない 15年前の「人工知能」はどうだったか

Slide 58

Slide 58 text

58 挑戦できるタイミングは一瞬 http://blog.livedoor.jp/lunarmodule7/archives/4504511.html ● ちょうど今、一部の分野では十分な精度になるかどうかの過渡期 ● 技術は進歩し続ける、できることが減ることはない ● 挑戦できるタイミングは一瞬、早すぎても遅すぎてもだめ

Slide 59

Slide 59 text

Slide 60

Slide 60 text

Slide 61

Slide 61 text

61 ● 私が中高生の時（20年前）にMDは流行した ● 高校生のときにMP3プレイヤーが出現したが、1, 2曲しか入らず、絶対に流行らないと思った ● 今、「ちょっと頭おかしい」とおもうような技術に投資するくらいがちょうどよい未来の当たり前は今の非常識

Slide 62

Slide 62 text

62 ● 探索と活用のトレードオフ ● 全部そこそこな状態は、過剰にリスクを回避している ● 組織が失敗に寛容にならないと一番良い期待値を取れない全部成功しなくていい 50%は失敗しないといけません新卒のときに言われたことば

Slide 63

Slide 63 text

Slide 64

Slide 64 text

64 ● 社内技術カンファレンス：年3回 ● テックトーク、技術トーク：隔週 ● 読書会：週1回 ● 社内勉強会：不定期技術は1日にしてならず継続的に技術を生み出せる会社風土を醸成する

Slide 65

Slide 65 text

65 最後に

Slide 66

Slide 66 text

66 若い人のほうが真実を知っている

Slide 67

Slide 67 text

67 We are hiring!! 26年卒　新卒採用 ● 本日より募集開始 ○ Ex：Engineer、Reseacher、MN-Core Softwear Engineer ● ホームページからご応募ください 2025年度　夏季インターンシップ ● 来春ホームページより情報公開予定 career page スーパーコンピューターを自社開発深層学習用プロセッサー MN-Core X（旧twitter）

Slide 68

Slide 68 text

Making the real world computable