超大規模深層モデル時代における学会と産業界との関わり方 / Relationship between academic societies and industry in the era of ultra-large scale deep modeling

戸上真人博士（工学） LINE株式会社超大規模深層モデル時代における学会と産業界との関わり方

⾃⼰紹介 -*/&"*։ൃࣨ ࣨ௕ ݉ "*3FTFBSDIνʔϜϚωʔδϟ ਓ޻஌ೳֶձཧࣄ 5PLZP#*4)#BTI0SHBOJ[FS #JPHSBQIZ •
೔ཱதݚ • )JUBDIJ"NFSJDB 4UBOGPSE • -*/& 3FTFBSDI • ࡶԻ؀ڥͷԻ੠ೝࣝɼԻݯ෼཭

発表の流れ › LINEにおけるR&Dの状況のご紹介（日本音響学会との関わりも含めて） › LINE R&D Vision策定，DarkData活用の超大規模深層モデルの進展 › 超大規模深層モデル時代における産業界と学会の連携について

MAU:167million (Top 4 Regions) 86million 47million 21million 13million * As
of Sep. 2020

LINE AI Speech Video Voice NLU Data OCR Vision Face
LINE Shopping Lens Adult Image Filter Scene Classification Ad image Filter Visual Search Analogous image Product Image Lip Reading Fashion Image Spot Clustering Food Image Indonesia LINE Split Bill LINE MUSIC Playlist OCR LINE CONOMI Handwritten Font Receipt OCR Credit card OCR Bill OCR Document Intelligence Identification Face Sign eKYC Face Sign Auto Cut Auto Cam Transcription Telephone network Voice recognition Single-Demand STT Simple voice High quality voice Voice Style Transfer Active Leaning Federated Leaning Action recognition Pose estimation Speech Note Vlive Auto Highlight Content Center AI CLOVA Dubbing LINE AiCall CLOVA Speaker Gatebox Papago Video Insight LINE CLOVA AI Interactive Avatar Interactive Avatar Media 3D Avatar LINE Profile Lip Reading LINE’s AI Technology

LINE における研究活動⾳声・⾳響処理環境⾳識別技術 DNNベースの⾳声合成（Parallel WaveGAN）⾮DNNベース/DNN ベースの⾳源分離技術機械学習差分プライバシー
画像処理点群データ解析 2019 (6）: ICASSP (3）INTERSPEECH (2）WASPAA (1） 2020（26）: ICASSP (11) EUSIPCO (3) INTERSPEECH (4) DCASE (1) APSIPA (3) CVPR (1) ICDE (1) 2021: ICASSP (7) ICRA (1) IUI(1)

DCASE Task 4 結果 › 21チーム，72システム中で1位 › ベースラインのシステムと比較して、 14.6 %
識別率向上 › 2位のチームのシステムと比較して、 3.3 % 識別率が勝った Our team http://dcase.community/challenge2020/task-sound-event-detection-and-separation-in-domestic-environments-results

賛助会員の活動を通して › 会社に依存しないコミュニティとしての音響学会の重要性は益々増してきている › 日本のAI関連・音声関連の人材が流動化するにつれて、会社に依存しないコミュニティの重要度が増す › 音響学会の賛助会員として音響学会と繋がっている事が、企業における魅力に（候補者が安心感を持ってその会社に入る事ができる。特に孤軍奮闘が予想される立ち上げ時期に有効！） ›
人の採用，共同研究のシーズを見つける

Tokyo BISH Bashと電気音響研究会共催 › Tokyo BISH Bash: サンフランシスコ中心に開催されている音声・音響関連のエンジニアが集うミートアップ(BISH Bash)のTokyo版
› 2020/10月の電気音響研究会と共催(エンジニアコミュニティとの新しい接点）

超大規模深層モデルの進展 › DarkDataを処理するための教師無学習に関する技術の進展（自己教師有学習など） › 超大規模深層モデルの進展（多階層Transformerなど） › 言語モデル，画像認識，音声認識などの複数の分野で類似技術の研究が進展 › 大規模，汎用的な深層モデルに関する研究の学会-産業界連携での推進 ›
大規模深層モデルの評価方法の策定・コンテスト実施 › 倫理基準の策定 (Trustworthy AIの観点）

超大規模言語モデル：GPT-3 › 言語モデルのパラメータ数の大規模化の傾向 › BERT(2018): 3.4億， GPT-2(2019)：15億，GPT-3(2020): 1750億 › 多階層の構造により，複雑な文脈を理解した上で，次の単語を予測する事が可能に
› 少数の事例からタスクの推定する事が可能に(in context learning) › 「こんにちは＝Hello, おはよう=Good morning，では，こんばんはは？」 › 質問応答、翻訳などの様々なタスクに単一のモデルで対応可能に › 教師有学習と異なり，教師ラベルを有する大量の学習データを用意する必要が無い。教師ラベルを有さない大量の学習データ（DarkData)でDNNを学習可能。大規模なDNN, 大量の教師無データ(DarkData)，汎用モデル T.B. Brown, et al., “Language models are few-shot learners,” NeurIPS 2020

DALL-E › 文字列からの画像生成のための超大規模モデル › 120億パラメータ，文字列と画像の2.5億ペアのデータから学習 A. Ramesh, et al., “Zero-Shot
Text-to-Image Generation,” arxiv 2021/2 画像生成例(Ramesh2021のFig.2) 大規模なDNN, 大量の教師無データ(DarkData)，汎用モデル

wav2vec2.0 › 音声認識における大規模モデル › 音声波形から学習, 12/24層のTransformer › ~5万時間の書き起こしなし音声データでPre-training。最小10分の書き起こし音声データでFine-tuningしたモデルで、Librispeechクリーン音声のWER 4.8%
› Pre-trainingモデルの多言語対応の可能性 [Yi 2021] › 別の言語でPre-trainingしたモデルをターゲット言語でFine-tuningしたモデルが教師有学習したモデルを凌駕大規模なDNN, 大量の教師無データ(DarkData)，汎用（言語非依存)モデル A. Baevski, et al., “wav2vec 2.0: A Framework for Self-Supervised Learning B. of Speech Representations,” arxiv 2020/6

超大規模深層モデル時代における今後の学会と産業界の関わり方 › 日本における工学的な音声研究のあり方 › 日本語特有要素が薄れる中で，日本固有の課題に即した音声研究の方向性を定義 › Pre-trainedモデルを活用した応用研究 › ハッカソン、コンテストの実施
› 産業界が認証済のPre-trainedモデルをサービス化，応用研究向けに普及推進 › Trustworthy AIの観点 › 汎用大規模モデルを用いたシステムの説明可能性/信頼性/公平性の評価 › 倫理基準の策定

超大規模深層モデル時代における学会と産業界との関わり方 / Relationship betw...

超大規模深層モデル時代における学会と産業界との関わり方 / Relationship between academic societies and industry in the era of ultra-large scale deep modeling

LINE Developers

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript

戸上真人博士（工学） LINE株式会社超大規模深層モデル時代における学会と産業界との関わり方

⾃⼰紹介 -/&"։ൃࣨ ࣨ௕ ݉ "3FTFBSDIνʔϜϚωʔδϟ ਓ޻஌ೳֶձཧࣄ 5PLZP#4)#BTI0SHBOJ[FS #JPHSBQIZ •

発表の流れ › LINEにおけるR&Dの状況のご紹介（日本音響学会との関わりも含めて） › LINE R&D Vision策定，DarkData活用の超大規模深層モデルの進展 › 超大規模深層モデル時代における産業界と学会の連携について

MAU:167million (Top 4 Regions) 86million 47million 21million 13million * As

LINE AI Speech Video Voice NLU Data OCR Vision Face

LINE における研究活動⾳声・⾳響処理環境⾳識別技術 DNNベースの⾳声合成（Parallel WaveGAN）⾮DNNベース/DNN ベースの⾳源分離技術機械学習差分プライバシー

DCASE Task 4 結果 › 21チーム，72システム中で1位 › ベースラインのシステムと比較して、 14.6 %

Tokyo BISH Bashと電気音響研究会共催 › Tokyo BISH Bash: サンフランシスコ中心に開催されている音声・音響関連のエンジニアが集うミートアップ(BISH Bash)のTokyo版

超大規模言語モデル：GPT-3 › 言語モデルのパラメータ数の大規模化の傾向 › BERT(2018): 3.4億， GPT-2(2019)：15億，GPT-3(2020): 1750億 › 多階層の構造により，複雑な文脈を理解した上で，次の単語を予測する事が可能に

DALL-E › 文字列からの画像生成のための超大規模モデル › 120億パラメータ，文字列と画像の2.5億ペアのデータから学習 A. Ramesh, et al., “Zero-Shot