LINEにおける人工知能分野の取り組みのご紹介 / Introduction to LINE's efforts in the field of artificial intelligence

戸上真人博士（工学） LINE AI開発室室長 IEEE Senior Member LINEにおける人工知能分野の取り組みのご紹介

自己紹介 Biography • 2002.03 東京大学大学院工学系研究科航空宇宙工学専攻修士課程修了 • 2011.09 同博士後期課程修了博士（工学）
• 2002.04-2003.9 みずほコーポレート銀行 • 2003.10-2018.05 日立中研 • 2016.10-2018.05 Hitachi America, Stanford • 2018.06- LINE 専門分野 • 雑音環境の音声認識，音源分離

LINE's Mission

MAU:171million (Top 4 Regions) 89million 50million 21million 10million

ひとにやさしいAI › ひとにやさしいAI ≠ 人の仕事を奪うもの、効率化のみを追求するもの › 「Life on LINE」の実現。ひとびとの生活のあたりまえを実現する ›
ひとの生活や仕事の中に存在する煩わしいことを肩代わりする、ひとに寄り添ったAIの実現とことん「ひと」を理解し、ひとにとって使いやすいAIを提供する。そのために、メディアコンテンツの認識・生成のためのAI開発にフォーカス

NEST (Neural End-to-End Speech Transcriber) › 人の話し言葉の認識性能向上にフォーカスした音声認識技術 › 音響モデルと言語モデルを単一のDNN として統合的に学習
› 話者認識技術と統合し、議事録アプリのペインポイントである「誰の発言かが分からない」に対応議事録アプリへの適用

マルチメディアデータの自動的なタグ付け › 環境音の分類街中の監視システム › 叫び声 › 銃の発砲音 › 窓ガラスの割れる音
部屋のモニタリング › 音声 › 犬の鳴き声 › 家電の音環境音識別：背景

Annual international competition and workshop; DCASE 2020 2019 2018 2017
2016 0 100 200 300 400 500 参加者数環境音識別：注目度が近年向上

› 21チーム，72システム中で1位 › ベースラインのシステムと比較して、 14.6 % 識別率向上 › 2位のチームのシステムと比較して、 3.3
% 識別率が勝った Our team http://dcase.community/challenge2020/task-sound-event-detection-and-separation-in-domestic-environments-results 環境音識別：DCASE2020 Task 4 結果

Fast Parallel High-quality GAN Efficient WaveNet 多重損失関数 R. Yamamoto
et al., “Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram,” in Proc. ICASSP, 2020, pp. 703. 引用数≧180件音声合成：Parallel WaveGAN

1.36 4.46 4.06 1 1.5 2 2.5 3 3.5 4
4.5 5 Parallel WaveGAN Single STFT Loss Reference 音声合成：Parallel WaveGANの性能評価

WaveNet Parallel WaveGAN x 10,000 高速音声合成：Parallel WaveGANの速度評価

超大規模深層モデルの進展 › Dark Dataを処理するための教師無学習に関する技術の進展（自己教師有学習など） › 超大規模深層モデルの進展（多階層Transformerなど） › 言語モデル，画像認識，音声認識などの複数の分野で類似技術の研究が進展 › 大規模，汎用的な深層モデルに関する研究の学会-産業界連携での推進
› 大規模深層モデルの評価方法の策定・コンテスト実施 › 倫理基準の策定 (Trustworthy AIの観点）

超大規模言語モデル：GPT-3 › 言語モデルのパラメータ数の大規模化の傾向 › BERT(2018): 3.4億， GPT-2(2019)：15億，GPT-3(2020): 1750億 › 多階層の構造により，複雑な文脈を理解した上で，次の単語を予測する事が可能に
› 少数の事例からタスクの推定する事が可能に(in context learning) › 「こんにちは＝Hello, おはよう=Good morning，では，こんばんはは？」 › 質問応答、翻訳などの様々なタスクに単一のモデルで対応可能に › 教師有学習と異なり，教師ラベルを有する大量の学習データを用意する必要が無い。教師ラベルを有さない大量の学習データ（DarkData)でDNNを学習可能。大規模なDNN, 大量の教師無データ(DarkData)，汎用モデル T.B. Brown, et al., “Language models are few-shot learners,” NeurIPS 2020

まとめ › ひとの生活や仕事の中に存在する煩わしいことを肩代わりする、ひとに寄り添ったAIの実現に向けたLINEのプロダクト開発状況を紹介 › ひとにとって使いやすいI/Fを実現するため、メディアコンテンツ認識・生成技術の開発にフォーカス › これからの将来を、R&D Visionとしてまとめ、今後の中長期的なAI開発
につなげる

LINEにおける人工知能分野の取り組みのご紹介 / Introduction to LINE'...

LINEにおける人工知能分野の取り組みのご紹介 / Introduction to LINE's efforts in the field of artificial intelligence

LINE Developers

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript

戸上真人博士（工学） LINE AI開発室室長 IEEE Senior Member LINEにおける人工知能分野の取り組みのご紹介

自己紹介 Biography • 2002.03 東京大学大学院工学系研究科航空宇宙工学専攻修士課程修了 • 2011.09 同博士後期課程修了博士（工学）

LINE's Mission

MAU:171million (Top 4 Regions) 89million 50million 21million 10million

ひとにやさしいAI › ひとにやさしいAI ≠ 人の仕事を奪うもの、効率化のみを追求するもの › 「Life on LINE」の実現。ひとびとの生活のあたりまえを実現する ›

NEST (Neural End-to-End Speech Transcriber) › 人の話し言葉の認識性能向上にフォーカスした音声認識技術 › 音響モデルと言語モデルを単一のDNN として統合的に学習

マルチメディアデータの自動的なタグ付け › 環境音の分類街中の監視システム › 叫び声 › 銃の発砲音 › 窓ガラスの割れる音

Annual international competition and workshop; DCASE 2020 2019 2018 2017

› 21チーム，72システム中で1位 › ベースラインのシステムと比較して、 14.6 % 識別率向上 › 2位のチームのシステムと比較して、 3.3

Fast Parallel High-quality GAN Efficient WaveNet 多重損失関数 R. Yamamoto

1.36 4.46 4.06 1 1.5 2 2.5 3 3.5 4

WaveNet Parallel WaveGAN x 10,000 高速音声合成：Parallel WaveGANの速度評価

超大規模言語モデル：GPT-3 › 言語モデルのパラメータ数の大規模化の傾向 › BERT(2018): 3.4億， GPT-2(2019)：15億，GPT-3(2020): 1750億 › 多階層の構造により，複雑な文脈を理解した上で，次の単語を予測する事が可能に

Demo