Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LINEにおける人工知能分野の取り組みのご紹介 / Introduction to LINE's efforts in the field of artificial intelligence

LINEにおける人工知能分野の取り組みのご紹介 / Introduction to LINE's efforts in the field of artificial intelligence

戸上 真人(LINE株式会社 AI開発室 室長)

第20回情報科学技術フォーラム(FIT2021)での登壇資料です。
https://www.ipsj.or.jp/event/fit/fit2021/splist-IndustrialSession.html

「LINEにおける人工知能分野の取り組みのご紹介」
LINEではAI事業を「戦略事業」として位置づけており、アジアNo.1のAIテックリードカンパニーを目指し、積極的に事業展開しています。AIテクノロジーブランド「LINE CLOVA」として、音声認識、顔画像認識、文字認識、自然言語処理、セキュリティなど自社で技術開発し、コールセンターのAI化や、デジタル本人確認(eKYC)、RPA/OCRなど、マーケットニーズ・ペインポイントが明確な領域を定め、急速に事業拡大を続けています。また、新規事業分野事業としてGPT-XをはじめとしたBig Model、本人確認を発展したDigital認証基盤の構築、それらを"公正"に実現するためのTrustworhy AI(信頼できるAI)の研究開発に取り組んでいます。「より自然なユーザー体験をLife on LINEにもたらすことで、これからの当たり前を作り出す」をビジョンに、生活やビジネスに潜む煩わしさを解消し、AI技術が生活やビジネスの一部に溶け込んだサービス創出を目指しています。このセッションでは、そのサービス開発の組織的取り組みについての概要をご紹介いたします。

【略歴】日立製作所、Stanford大学客員研究員を経て2018年LINE入社。音声認識の研究開発チームであるSpeechチームのマネージャを経て、2021年よりAI開発室室長。2020年「Pythonで学ぶ音源分離」執筆。2011年東京大学工学系研究科航空宇宙工学専攻博士後期課程修了。博士(工学)。IEEE Senior Member。

53850955f15249a1a9dc49df6113e400?s=128

LINE Developers
PRO

August 25, 2021
Tweet

Transcript

  1. 戸上真人 博士(工学) LINE AI開発室 室長 IEEE Senior Member LINEにおける人工知能分野の 取り組みのご紹介

  2. 自己紹介 Biography • 2002.03 東京大学大学院工学系研究科航空宇宙工学 専攻修士課程修了 • 2011.09 同博士後期課程修了 博士(工学)

    • 2002.04-2003.9 みずほコーポレート銀行 • 2003.10-2018.05 日立中研 • 2016.10-2018.05 Hitachi America, Stanford • 2018.06- LINE 専門分野 • 雑音環境の音声認識,音源分離
  3. LINE's Mission

  4. MAU:171million (Top 4 Regions) 89million 50million 21million 10million

  5. ひとにやさしいAI › ひとにやさしいAI ≠ 人の仕事を奪うもの、効率化のみを追求するもの › 「Life on LINE」の実現。ひとびとの生活のあたりまえを実現する ›

    ひとの生活や仕事の中に存在する煩わしいことを肩代わりする、ひとに寄 り添ったAIの実現 とことん「ひと」を理解し、ひとにとって使いやすいAIを 提供する。そのために、メディアコンテンツの認識・生成の ためのAI開発にフォーカス
  6. None
  7. None
  8. NEST (Neural End-to-End Speech Transcriber) › 人の話し言葉の認識性能向上にフォーカスした音声認識技術 › 音響モデルと言語モデルを単一のDNN として統合的に学習

    › 話者認識技術と統合し、議事録アプリの ペインポイントである「誰の発言かが 分からない」に対応 議事録アプリへの適用
  9. マルチメディアデータの自動的なタグ付け › 環境音の分類 街中の監視システム › 叫び声 › 銃の発砲音 › 窓ガラスの割れる音

    部屋のモニタリング › 音声 › 犬の鳴き声 › 家電の音 環境音識別:背景
  10. Annual international competition and workshop; DCASE 2020 2019 2018 2017

    2016 0 100 200 300 400 500 参加者数 環境音識別:注目度が近年向上
  11. › 21チーム,72システム中で1位 › ベースラインのシステムと比較して、 14.6 % 識別率向上 › 2位のチームのシステムと比較して、 3.3

    % 識別率が勝った Our team http://dcase.community/challenge2020/task-sound-event-detection-and-separation-in-domestic-environments-results 環境音識別:DCASE2020 Task 4 結果
  12. Fast Parallel High-quality GAN Efficient WaveNet 多重損失 関数 R. Yamamoto

    et al., “Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram,” in Proc. ICASSP, 2020, pp. 703. 引用数≧180件 音声合成:Parallel WaveGAN
  13. 1.36 4.46 4.06 1 1.5 2 2.5 3 3.5 4

    4.5 5 Parallel WaveGAN Single STFT Loss Reference 音声合成:Parallel WaveGANの性能評価
  14. WaveNet Parallel WaveGAN x 10,000 高速 音声合成:Parallel WaveGANの速度評価

  15. None
  16. None
  17. None
  18. 超大規模深層モデルの進展 › Dark Dataを処理するための教師無学習に関する技術の進展(自己教師有学習など) › 超大規模深層モデルの進展(多階層Transformerなど) › 言語モデル,画像認識,音声認識などの複数の分野で類似技術の研究が進展 › 大規模,汎用的な深層モデルに関する研究の学会-産業界連携での推進

    › 大規模深層モデルの評価方法の策定・コンテスト実施 › 倫理基準の策定 (Trustworthy AIの観点)
  19. 超大規模言語モデル:GPT-3 › 言語モデルのパラメータ数の大規模化の傾向 › BERT(2018): 3.4億, GPT-2(2019):15億,GPT-3(2020): 1750億 › 多階層の構造により,複雑な文脈を理解した上で,次の単語を予測する事が可能に

    › 少数の事例からタスクの推定する事が可能に(in context learning) › 「こんにちは=Hello, おはよう=Good morning,では,こんばんはは?」 › 質問応答、翻訳などの様々なタスクに単一のモデルで対応可能に › 教師有学習と異なり,教師ラベルを有する大量の学習データを用意する必要が 無い。教師ラベルを有さない大量の学習データ(DarkData)でDNNを学習可能。 大規模なDNN, 大量の教師無データ(DarkData),汎用モデル T.B. Brown, et al., “Language models are few-shot learners,” NeurIPS 2020
  20. None
  21. None
  22. Demo

  23. None
  24. まとめ › ひとの生活や仕事の中に存在する煩わしいことを肩代わりする、ひとに寄 り添ったAIの実現に向けたLINEのプロダクト開発状況を紹介 › ひとにとって使いやすいI/Fを実現するため、メディアコンテンツ認識・生成 技術の開発にフォーカス › これからの将来を、R&D Visionとしてまとめ、今後の中長期的なAI開発

    につなげる
  25. None