Upgrade to Pro — share decks privately, control downloads, hide ads and more …

超大規模深層モデル時代における学会と産業界との関わり方 / Relationship between academic societies and industry in the era of ultra-large scale deep modeling

超大規模深層モデル時代における学会と産業界との関わり方 / Relationship between academic societies and industry in the era of ultra-large scale deep modeling

戸上 真人(LINE株式会社)
日本音響学会2021年春季研究発表会 技術動向レビューの発表資料です。
https://acoustics.jp/annualmeeting/program/#link_review

LINE Developers

March 09, 2021
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 -*/&"*։ൃࣨ ࣨ௕ ݉ "*3FTFBSDIνʔϜϚωʔδϟ ਓ޻஌ೳֶձཧࣄ 5PLZP#*4)#BTI0SHBOJ[FS #JPHSBQIZ • 

    ೔ཱதݚ • )JUBDIJ"NFSJDB 4UBOGPSE •  -*/& 3FTFBSDI • ࡶԻ؀ڥͷԻ੠ೝࣝɼԻݯ෼཭
  2. LINE AI Speech Video Voice NLU Data OCR Vision Face

    LINE Shopping Lens Adult Image Filter Scene Classification Ad image Filter Visual Search Analogous image Product Image Lip Reading Fashion Image Spot Clustering Food Image Indonesia LINE Split Bill LINE MUSIC Playlist OCR LINE CONOMI Handwritten Font Receipt OCR Credit card OCR Bill OCR Document Intelligence Identification Face Sign eKYC Face Sign Auto Cut Auto Cam Transcription Telephone network Voice recognition Single-Demand STT Simple voice High quality voice Voice Style Transfer Active Leaning Federated Leaning Action recognition Pose estimation Speech Note Vlive Auto Highlight Content Center AI CLOVA Dubbing LINE AiCall CLOVA Speaker Gatebox Papago Video Insight LINE CLOVA AI Interactive Avatar Interactive Avatar Media 3D Avatar LINE Profile Lip Reading LINE’s AI Technology
  3. LINE における研究活動 ⾳声・⾳響処理 環境⾳識別技術 DNNベースの⾳声合成(Parallel WaveGAN) ⾮DNNベース/DNN ベースの⾳源分離技術 機械学習 差分プライバシー

    画像処理 点群データ解析 2019 (6): ICASSP (3)INTERSPEECH (2)WASPAA (1) 2020(26): ICASSP (11) EUSIPCO (3) INTERSPEECH (4) DCASE (1) APSIPA (3) CVPR (1) ICDE (1) 2021: ICASSP (7) ICRA (1) IUI(1)
  4. DCASE Task 4 結果 › 21チーム,72システム中で1位 › ベースラインのシステムと比較して、 14.6 %

    識別率向上 › 2位のチームのシステムと比較して、 3.3 % 識別率が勝った Our team http://dcase.community/challenge2020/task-sound-event-detection-and-separation-in-domestic-environments-results
  5. 超大規模言語モデル:GPT-3 › 言語モデルのパラメータ数の大規模化の傾向 › BERT(2018): 3.4億, GPT-2(2019):15億,GPT-3(2020): 1750億 › 多階層の構造により,複雑な文脈を理解した上で,次の単語を予測する事が可能に

    › 少数の事例からタスクの推定する事が可能に(in context learning) › 「こんにちは=Hello, おはよう=Good morning,では,こんばんはは?」 › 質問応答、翻訳などの様々なタスクに単一のモデルで対応可能に › 教師有学習と異なり,教師ラベルを有する大量の学習データを用意する必要が 無い。教師ラベルを有さない大量の学習データ(DarkData)でDNNを学習可能。 大規模なDNN, 大量の教師無データ(DarkData),汎用モデル T.B. Brown, et al., “Language models are few-shot learners,” NeurIPS 2020
  6. DALL-E › 文字列からの画像生成のための超大規模モデル › 120億パラメータ,文字列と画像の2.5億ペアのデータから学習 A. Ramesh, et al., “Zero-Shot

    Text-to-Image Generation,” arxiv 2021/2 画像生成例(Ramesh2021のFig.2) 大規模なDNN, 大量の教師無データ(DarkData),汎用モデル
  7. wav2vec2.0 › 音声認識における大規模モデル › 音声波形から学習, 12/24層のTransformer › ~5万時間の書き起こしなし音声データでPre-training。最小10分の書き起こし音 声データでFine-tuningしたモデルで、Librispeechクリーン音声のWER 4.8%

    › Pre-trainingモデルの多言語対応の可能性 [Yi 2021] › 別の言語でPre-trainingしたモデルをターゲット言語でFine-tuningしたモデルが 教師有学習したモデルを凌駕 大規模なDNN, 大量の教師無データ(DarkData),汎用(言語非依存)モデル A. Baevski, et al., “wav2vec 2.0: A Framework for Self-Supervised Learning B. of Speech Representations,” arxiv 2020/6
  8. 超大規模深層モデル時代における 今後の学会と産業界の関わり方 › 日本における工学的な音声研究のあり方 › 日本語特有要素が薄れる中で,日本固有の課題に即した音声研究の方向性を定義 › Pre-trainedモデルを活用した応用研究 › ハッカソン、コンテストの実施

    › 産業界が認証済のPre-trainedモデルをサービス化,応用研究向けに普及推進 › Trustworthy AIの観点 › 汎用大規模モデルを用いたシステムの説明可能性/信頼性/公平性の評価 › 倫理基準の策定