Upgrade to Pro — share decks privately, control downloads, hide ads and more …

深層学習による機械とのコミュニケーション @DeNA TechCon 2017

Yuya Unno
February 10, 2017
21

深層学習による機械とのコミュニケーション @DeNA TechCon 2017

Yuya Unno

February 10, 2017
Tweet

More Decks by Yuya Unno

Transcript

  1. ⾃⼰紹介 海野 裕也 l -2008 東⼤情報理⼯修⼠ l ⾃然⾔語処理 l 2008-2011

    ⽇本アイ・ビー・エム(株)東京基礎研 l 2011-2016 (株)プリファードインフラストラク チャー l 2016- (株)プリファードネットワークス l ⾃然⾔語処理、機械学習、テキストマイニング l ChainerなどのOSS開発 l 対話処理など NLP若⼿の会共同委員⻑(2014-) 「オンライン機械学習」(2015, 講談社) 2
  2. 深層学習とは l 層の深いニューラルネット l それに端を発する,複雑な構造の⽬的関数を 持った機械学習⼿法全般のトレンド 7 Szegedy, et.al. Going

    Deeper with Convolutions. He, et.al. Deep Residual Learning for Image Recognition Krizhevsky, et.al. ImageNet Classification with Deep ConvolutionalNeural Networks
  3. ⾃然⾔語処理における深層学習のトレンド推移 l 2012年 l ⽊構造再帰ネットワーク,⾔語モデル l 2013年 l 埋め込みベクトルの学習 l

    2014年 l LSTM,符号化復号化モデル l 2015年 l 注意機構 l 2016年 l 畳み込みネットワーク,記憶のモデル化 8
  4. Recurrent Neural Network Language Model (RNNLM) [Mikolov+10] l t-1⽂字読んだときの「状 態」をベクトル化して、t

    ⽂字⽬をその「状態」か ら当てる l 直前までの⽂脈情報が埋 め込まれている雰囲気 l http://rnnlm.org 9 ⽂字、単語 時刻 t-1 の隠れ層 隠れ層 次の⼊⼒ の予測 コピー
  5. 複数の情報を結びつける研究が出現 21 ⾔語と画像 Vinyals, et.al. Show and Tell: A Neural

    Image Caption Generator Ren, et.al. Exploring Models and Data for Image QuestionAnswering ⾔語と操作 Yu, et.al. Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks ⾔語と映像 Wan, et.al. Learning Language Games through Interaction
  6. スマートフォン時代にブレークした技術(1/2) l 予測⼊⼒ l 1970年代にはアイデアがあったが、PC向けには普及 しなかった l 携帯電話の普及に合わせて普及 l ⾳声⼊⼒

    l ⾳声⼊⼒ソフトは2000年前後に⼀⻫に発売されたが、 結局キーボードを置き換えなかった l ところが、スマホからの⾳声検索や⾳声インター フェースになって花開く 34
  7. スマートフォン時代にブレークした技術(2/2) l 情報収集技術 l RSSリーダーをはじめ、情報収集アプリは2000年台 前半には存在した l ⼤々的に普及するようになったのはつい最近 l 機械翻訳(これから)

    l 機械翻訳ソフトは2000年前後に⼀⻫に発売されたが、 結局普及しなかった l ⼗分な翻訳リソースの得られない旅⾏シーンなどで 役に⽴つはず 35
  8. ブレークした技術はデバイスの特徴を捉えている l 予測⼊⼒ l 不⾃由な携帯電話の⼊⼒インターフェース l ⾳声⼊⼒ l 不⾃由な携帯電話の⼊⼒インターフェース l

    検索などの短いクエリーの⼊⼒をサポート l 情報収集技術 l 細かい検索条件を⼊⼒しなくていい l 開いた時間に利⽤する l 機械翻訳 l ⽇常の最低限の翻訳が必要なときつかえる 37
  9. 38

  10. インターフェースとしての⾃然⾔語 l コトバは⼈間に情報を伝える重要なツール l ⾳声のデータは、⽂字におこして初めて理解できる l 映像情報のままでは検索もままならない l ヒトの存在する限り重要性は変わらない l

    ⼈間とのインターフェースとして必要性がなくなる ことはない l 逆にヒトが排除されて⾃動化されていく領域では、 コトバの重要度が下がる可能性もある 41
  11. 時代とともにデータが変化してきた l ~90年台 l 新聞記事,社内⽂書 l ~2000年台 l インターネットの普及,Web記事 l

    CGMデータの出現 l ~2010年代 l SNSデータ l スマートフォンの普及 l ~今 l チャットアプリの普及 l ⾳声対話ロボット 43
  12. 書き⾔葉と話し⾔葉の⽐較 書き⾔葉 l 余計な単語が少ない l ⽐較的⽂が⻑く,複雑な 構造をとることもある l ⼀⽂でも複雑な情報を表 現する

    話し⾔葉 l ⾔い間違いや⾔いよどみ l ⽂は短く,単純 l 単体では意味をなさない 発話も多く,複数の発話 の関係が重要になる 45
  13. 50