Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LINEにおける人工知能分野の取り組みのご紹介 / Introduction to LINE's efforts in the field of artificial intelligence

LINEにおける人工知能分野の取り組みのご紹介 / Introduction to LINE's efforts in the field of artificial intelligence

戸上 真人(LINE株式会社 AI開発室 室長)

第20回情報科学技術フォーラム(FIT2021)での登壇資料です。
https://www.ipsj.or.jp/event/fit/fit2021/splist-IndustrialSession.html

「LINEにおける人工知能分野の取り組みのご紹介」
LINEではAI事業を「戦略事業」として位置づけており、アジアNo.1のAIテックリードカンパニーを目指し、積極的に事業展開しています。AIテクノロジーブランド「LINE CLOVA」として、音声認識、顔画像認識、文字認識、自然言語処理、セキュリティなど自社で技術開発し、コールセンターのAI化や、デジタル本人確認(eKYC)、RPA/OCRなど、マーケットニーズ・ペインポイントが明確な領域を定め、急速に事業拡大を続けています。また、新規事業分野事業としてGPT-XをはじめとしたBig Model、本人確認を発展したDigital認証基盤の構築、それらを"公正"に実現するためのTrustworhy AI(信頼できるAI)の研究開発に取り組んでいます。「より自然なユーザー体験をLife on LINEにもたらすことで、これからの当たり前を作り出す」をビジョンに、生活やビジネスに潜む煩わしさを解消し、AI技術が生活やビジネスの一部に溶け込んだサービス創出を目指しています。このセッションでは、そのサービス開発の組織的取り組みについての概要をご紹介いたします。

【略歴】日立製作所、Stanford大学客員研究員を経て2018年LINE入社。音声認識の研究開発チームであるSpeechチームのマネージャを経て、2021年よりAI開発室室長。2020年「Pythonで学ぶ音源分離」執筆。2011年東京大学工学系研究科航空宇宙工学専攻博士後期課程修了。博士(工学)。IEEE Senior Member。

LINE Developers

August 25, 2021
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 自己紹介 Biography • 2002.03 東京大学大学院工学系研究科航空宇宙工学 専攻修士課程修了 • 2011.09 同博士後期課程修了 博士(工学)

    • 2002.04-2003.9 みずほコーポレート銀行 • 2003.10-2018.05 日立中研 • 2016.10-2018.05 Hitachi America, Stanford • 2018.06- LINE 専門分野 • 雑音環境の音声認識,音源分離
  2. ひとにやさしいAI › ひとにやさしいAI ≠ 人の仕事を奪うもの、効率化のみを追求するもの › 「Life on LINE」の実現。ひとびとの生活のあたりまえを実現する ›

    ひとの生活や仕事の中に存在する煩わしいことを肩代わりする、ひとに寄 り添ったAIの実現 とことん「ひと」を理解し、ひとにとって使いやすいAIを 提供する。そのために、メディアコンテンツの認識・生成の ためのAI開発にフォーカス
  3. NEST (Neural End-to-End Speech Transcriber) › 人の話し言葉の認識性能向上にフォーカスした音声認識技術 › 音響モデルと言語モデルを単一のDNN として統合的に学習

    › 話者認識技術と統合し、議事録アプリの ペインポイントである「誰の発言かが 分からない」に対応 議事録アプリへの適用
  4. Annual international competition and workshop; DCASE 2020 2019 2018 2017

    2016 0 100 200 300 400 500 参加者数 環境音識別:注目度が近年向上
  5. › 21チーム,72システム中で1位 › ベースラインのシステムと比較して、 14.6 % 識別率向上 › 2位のチームのシステムと比較して、 3.3

    % 識別率が勝った Our team http://dcase.community/challenge2020/task-sound-event-detection-and-separation-in-domestic-environments-results 環境音識別:DCASE2020 Task 4 結果
  6. Fast Parallel High-quality GAN Efficient WaveNet 多重損失 関数 R. Yamamoto

    et al., “Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram,” in Proc. ICASSP, 2020, pp. 703. 引用数≧180件 音声合成:Parallel WaveGAN
  7. 1.36 4.46 4.06 1 1.5 2 2.5 3 3.5 4

    4.5 5 Parallel WaveGAN Single STFT Loss Reference 音声合成:Parallel WaveGANの性能評価
  8. 超大規模言語モデル:GPT-3 › 言語モデルのパラメータ数の大規模化の傾向 › BERT(2018): 3.4億, GPT-2(2019):15億,GPT-3(2020): 1750億 › 多階層の構造により,複雑な文脈を理解した上で,次の単語を予測する事が可能に

    › 少数の事例からタスクの推定する事が可能に(in context learning) › 「こんにちは=Hello, おはよう=Good morning,では,こんばんはは?」 › 質問応答、翻訳などの様々なタスクに単一のモデルで対応可能に › 教師有学習と異なり,教師ラベルを有する大量の学習データを用意する必要が 無い。教師ラベルを有さない大量の学習データ(DarkData)でDNNを学習可能。 大規模なDNN, 大量の教師無データ(DarkData),汎用モデル T.B. Brown, et al., “Language models are few-shot learners,” NeurIPS 2020