Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2002_Interspeech報告.pdf
Search
Ryo Masumura
February 13, 2020
Research
0
510
2002_Interspeech報告.pdf
Ryo Masumura
February 13, 2020
Tweet
Share
More Decks by Ryo Masumura
See All by Ryo Masumura
クロスモーダル表現学習の研究動向: 音声関連を中心として
ryomasumura
3
1.1k
MediaGnosis IEEE ICIP2023 Industry Seminar
ryomasumura
0
470
複数人会話データを活用した音声言語処理とアプリケーション(slud研究会招待講演)
ryomasumura
0
950
1907_ICASSP報告.pdf
ryomasumura
0
160
対話コンテキストを扱うターン交替点検出の検討
ryomasumura
0
520
階層再帰型Encoder-Decoderに基づく談話コンテキストEnd-to-End音声認識
ryomasumura
0
710
学会に発表者として継続的に参加するためのセルフマネージメント
ryomasumura
11
8.3k
対話コンテキストを考慮したニューラル通話シーン分割
ryomasumura
1
400
複数言語複数タスクを扱う発話意図推定モデリングのための敵対的学習の検討
ryomasumura
0
350
Other Decks in Research
See All in Research
Computational OT #4 - Gradient flow and diffusion models
gpeyre
0
310
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
410
最適化と機械学習による問題解決
mickey_kubo
0
140
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
320
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
3.6k
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
960
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
120
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.2k
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.6k
「エージェントって何?」から「実際の開発現場で役立つ考え方やベストプラクティス」まで
mickey_kubo
0
120
学生向けアンケート<データサイエンティストについて>
datascientistsociety
PRO
0
3.5k
線形判別分析のPU学習による朝日歌壇短歌の分析
masakat0
0
140
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
140
7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
690
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.6k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
Faster Mobile Websites
deanohume
307
31k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
Building Applications with DynamoDB
mza
95
6.5k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Transcript
SLP第131回研究会 国際会議INTERSPEECH2019報告 音声の自己教師あり表現学習 NTT 増村 亮
自己教師あり(Self-Supervised)表現学習とは? • ラベルなしのデータのみから行える範囲内でタスクを設定し、 それを解くモデル化を行うことで表現空間を学習する手法 (これまではUnsupervised Learningでまとめられていたが最近はこう呼ぶ) • 代表的な例①:オートエンコーダのモデリング • 考え方:入力自身を復元できるような表現は有用な表現のはず
• 代表的な例②:自己回帰モデリング • 考え方:未来のコンテキストを予測できるような表現は有用な表現のはず • 強み: 教師あり学習等の事前学習に コスト0で手に入るラベルなしデータを活用できること
音声分野の研究例① • Audio Word2Vec [Chung+ Interspeech 2016] • アイデア:入力セグメント自身を復元できるように学習した 表現空間は有用なのでは?
つまり、系列オートエンコーダを構成
音声分野の研究例② • Speech2Vec [Chung+ Interspeech 2018] • アイデア:前後のセグメントを予測できるように学習した 表現空間は有用なのでは? 今のセグメントから
前後のセグメントを予測
音声分野の研究例③ • Unspeech [Milde+ Interspeech 2018] • アイデア:あるセグメントを周辺セグメントから予測できるように 学習した表現空間は有用なのでは? 周辺セグメントから
間のセグメントを予測するタスクを解く
音声分野の研究例④ • Contrastive Predictive Coding [van den Oord+ NIPS 2018]
• アイデア:未来のセグメントかどうかを見分けられるように学習し た表現空間は有用なのでは? 未来のセグメントを相互情報量 基準で見分けられるようにする
Interspeech2019における研究動向 • 自然言語処理分野のBERT等の成功により、 自己教師あり表現学習の文献が増加傾向にある • 注目①:これまでの特徴量抽出のノウハウを利用した表現学習 • 注目②:”発話内という情報”を明示的に利用した表現学習 ~その1~ •
注目③:”発話内という情報”を明示的に利用した表現学習 ~その2~ • 注目④: Transformer自己回帰モデルベースの表現学習
• アイデア:波形情報から対数パワースペクトルや MFCC、F0、零交差率を予測できるエンコーダは 音声を扱う問題に有用な表現を埋め込むことがで きるのでは? • 結果:エンコーダにSincNet[Ravanelli+ 2018]を 用いて学習することにより、MFCCやログメル フィルタバンク係数よりも高い性能を達成、特に
話者認識や感情分類では特に有用 Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks Santiago Pascual, Mirco Ravanelli, Joan Serrà, Antonio Bonafonte1, Yoshua Bengio 「これまでの特徴量抽出のノウハウを利用した表現学習」
• アイデア:同一発話内の音声に対してエンコーダの 出力が類似するように、そして異なる発話から取り 出された音声に対してエンコーダの出力が類似しな いようモデル化すれば、話者の分類に有用な表現を 得られるのでは? • 結果:エンコーダにSincNetを用いて学習してから、 さらにd-vectorを学習することにより、話者認識タ スクにおいて高い性能を達成
Learning Speaker Representations with Mutual Information Mirco Ravanelli, Yoshua Bengio 「 ”発話内という情報”を明示的に利用した表現学習 ~その1」
Self-supervised speaker embeddings Themos Stafylakis, Johan Rohdin, Oldrich Plchot, Petr
Mizera, Lukas Burget • アイデア:同一音声内の別セグメントのオートエ ンコーディング(音素系列経由のオートエンコー ディング)を助けることができる表現は、話者等 の情報を含む表現なのでは? ※ ASRを使う点はややずるい… • 結果:学習した表現を話者認識タスクで利用する ことで、d-vectorと遜色ない性能を達成 「 ”発話内という情報”を明示的に利用した表現学習 ~その2~」
Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion
Recognition Zheng Lian, Jianhua Tao, Bin Liu, Jian Huang 「Transformer自己回帰モデルベースの表現学習」 • アイデア:Transformerのデコーダ部分である masked multi-head self attentionベースの自 己回帰モデルを用いて、現在までの情報から未 来のフレームを予測できるように学習すれば有 用なエンコーダを構成できるのでは? • 結果:感情認識タスクの事前学習に用いること により高い性能を達成