聴覚障害と音声情報処理

聴覚障害と音声情報処理ふじえもん (@fujiengineer) 1 2024-02-19_LongなLT会_UN-FROZEN

LTに入る前に．．．ふじえもんです．最近，LTでの発信の情報保障のあり方について考えています． 2

話すことはできるだけ事前に字幕に仕込んでおく • 最近，ろう・難聴者を主な対象として字幕の提供が進んでるけど，音声認識はいつも正確じゃない．．．けどリアルタイムで音声を文字にかえてくれる． • この良さを生かしつつ，より伝わるスライド，発信方法はないだろうか？ • トークはたいてい話すことが決まっている．→なら，その場で生成しなくても，予めスライドや原稿で示すと，正しく，スライドを出すと同時に伝えられるじゃん！ •
その場のアドリブ，質疑応答もあるけど．これは一旦横に置いといて． • ということで，下の方にテキストボックスをおいてみた．１８ｐｔで40文字ぐらいおけるみたい． • で，スライド内容と字幕の境目を示すために線をおいてみた．色とか太さとかあるいは別のなにかで置き換えた方がみやすいとか，識別しやすいとかあるかな今回は，こんな感じでスライドごとに字幕を入れています． 3

その場のアドリブ，質疑応答もあるけど．これは一旦横に置いといて． • ということで，下の方にテキストボックスをおいてみた．１８ｐｔで40文字ぐらいおけるみたい． • で，スライド内容と字幕の境目を示すために線をおいてみた．色とか太さとかあるいは別のなにかで置き換えた方がみやすいとか，識別しやすいとかあるかな音声認識って音声を文字に変えてくれて便利ですよね．でも誤字脱字もあります． 4

その場のアドリブ，質疑応答もあるけど．これは一旦横に置いといて． • ということで，下の方にテキストボックスをおいてみた．１８ｐｔで40文字ぐらいおけるみたい． • で，スライド内容と字幕の境目を示すために線をおいてみた．色とか太さとかあるいは別のなにかで置き換えた方がみやすいとか，識別しやすいとかあるかなその字幕に修正を行うとより綺麗な字幕になりますが，文字通訳の用意は大変．．． 5

その場のアドリブ，質疑応答もあるけど．これは一旦横に置いといて． • ということで，下の方にテキストボックスをおいてみた．１８ｐｔで40文字ぐらいおけるみたい． • で，スライド内容と字幕の境目を示すために線をおいてみた．色とか太さとかあるいは別のなにかで置き換えた方がみやすいとか，識別しやすいとかあるかな予め話すことは決まっているので，事前に字幕を用意することにしてみました． 6

その場のアドリブ，質疑応答もあるけど．これは一旦横に置いといて． • ということで，下の方にテキストボックスをおいてみた．１８ｐｔで40文字ぐらいおけるみたい． • で，スライド内容と字幕の境目を示すために線をおいてみた．色とか太さとかあるいは別のなにかで置き換えた方がみやすいとか，識別しやすいとかあるかなということで，今日は口話＋中間型手話＋字幕を使って話します． 7

その場のアドリブ，質疑応答もあるけど．これは一旦横に置いといて． • ということで，下の方にテキストボックスをおいてみた．１８ｐｔで40文字ぐらいおけるみたい． • で，スライド内容と字幕の境目を示すために線をおいてみた．色とか太さとかあるいは別のなにかで置き換えた方がみやすいとか，識別しやすいとかあるかなスライドに字幕をつけていたら１４０ページにもなりました． 8

その場のアドリブ，質疑応答もあるけど．これは一旦横に置いといて． • ということで，下の方にテキストボックスをおいてみた．１８ｐｔで40文字ぐらいおけるみたい． • で，スライド内容と字幕の境目を示すために線をおいてみた．色とか太さとかあるいは別のなにかで置き換えた方がみやすいとか，識別しやすいとかあるかな Discordスレで感想・意見などください．勿論，LTへの感想・質問もお待ちしてます． 9

ふじえもんってだれ？ • 筑波技術大学産業技術学部産業情報学科 4年次（１５期生） ◦ 支援技術学コース情報保障工学領域 ◦
このコースは2020年度から開設．最初の代のひとり． • 専門は情報科学と情報保障（とくに聴覚障害） • 学部の特別研究テーマのキーワード ◦ ろう・難聴者，目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/　 • 伝音性難聴で骨導補聴器を使っています． • 2024年04月からはエンジニア󰳕（研究・開発）としておしごと．ふじえもんです．アイコンは名字の「FUJIE」をもとにつくりました． 10

このコースは2020年度から開設．最初の代のひとり． • 専門は情報科学と情報保障（とくに聴覚障害） • 学部の特別研究テーマのキーワード ◦ ろう・難聴者，目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/　 • 伝音性難聴で骨導補聴器を使っています． • 2024年04月からはエンジニア󰳕（研究・開発）としておしごと．筑波技術大学で，情報科学と聴覚障害に関する情報保障について勉強しています． 11

このコースは2020年度から開設．最初の代のひとり． • 専門は情報科学と情報保障（とくに聴覚障害） • 学部の特別研究テーマのキーワード ◦ ろう・難聴者，目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/　 • 伝音性難聴で骨導補聴器を使っています． • 2024年04月からはエンジニア󰳕（研究・開発）としておしごと．卒研のキーワードはスライドにある通りで，音源分離を主に扱っていました． 12

このコースは2020年度から開設．最初の代のひとり． • 専門は情報科学と情報保障（とくに聴覚障害） • 学部の特別研究テーマのキーワード ◦ ろう・難聴者，目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/　 • 伝音性難聴で骨導補聴器を使っています． • 2024年04月からはエンジニア󰳕（研究・開発）としておしごと．ポートフォリオにこれまでの活動とプロダクト，スライドなどをまとめています． 13

今日話すこと 1. 聴覚障害があると生活でどんなことで困る？ 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて，文字での情報提供 b. 音声強調，雑音抑制-補聴器はどうやって補聴してくれているのか？ c.
音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．今日はこんな感じで３つの音声情報処理と諸々について３０分を目標に話します． 14

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．せっかくなのでここの大学のシラバスを見て，学べることを確認してみましょう． 15

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．時間があれば最近のトレンドについても話します．（もう30分話すかも？） 16

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．参考文献はちょいちょい出てきますが最後にまとめています．勉強の参考にどうぞ． 17

前提として... • 聴覚障害🦻や情報保障については基本知識があるものとします． • 筑波技大の学生（ろう・難聴者）が音声情報処理を学ぶ第一歩として使える資料を目指します． • 理論的な話は抑えめに． • LTではふわっと理解して，詳細は後述の資料で確認してください．
◦ LTが終わったころには，音声情報処理「チョットワカル」に． • 音声🗣に関する説明が多いですが，音声によるコミュニケーションを強要する意図はありません󰢃．音声って学ぶ機会がそこまで多くないし，勉強しにくい分野だと思います． 18

◦ LTが終わったころには，音声情報処理「チョットワカル」に． • 音声🗣に関する説明が多いですが，音声によるコミュニケーションを強要する意図はありません󰢃．研プロ（２，３年次）から始める人にとっては，講義を待ってられないですよね． 19

◦ LTが終わったころには，音声情報処理「チョットワカル」に． • 音声🗣に関する説明が多いですが，音声によるコミュニケーションを強要する意図はありません󰢃．そこで，本学の学生が音声情報処理を学ぶ第一歩として使える資料を目指します． 20

◦ LTが終わったころには，音声情報処理「チョットワカル」に． • 音声🗣に関する説明が多いですが，音声によるコミュニケーションを強要する意図はありません󰢃．この時間では，ふわっと音声情報処理の概要を知ってもらえればOKです． 21

◦ LTが終わったころには，音声情報処理「チョットワカル」に． • 音声🗣に関する説明が多いですが，音声によるコミュニケーションを強要する意図はありません󰢃． LTが終わるころには，音声情報処理「チョットワカル」になっているはずです． 22

◦ LTが終わったころには，音声情報処理「チョットワカル」に． • 音声🗣に関する説明が多いですが，音声によるコミュニケーションを強要する意図はありません󰢃．また，大事なこととして音声によるコミュニケーションを強要する意図はありません． 23

このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ． ◦ なにから始めればいいの？？？ ◦ 音声🗣ってなんだ？ ◦ 音声認識ってなんだ？ ◦
キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 24 自分が研究プロジェクトで研究を始めるにあたって，何から始めればいいのかわからなかったのがきっかけです．

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 25 ２年次の前期に受けたプロジェクトでは音声認識に関するテーマに決めました．

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 26 でも音声認識って？そもそも音声って？ほかに何が必要なの？

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 27 とにかく疑問だらけです．２年次の講義だけだととても足りません．

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 28 なので自分で勉強するしかない．ということで教員や図書館からたくさん借りました

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 29 あとで使った本，資料，ソフトなど出てきます．

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 30 ４年次では，ＭＴＧのたびに教員から数冊借りて読んでの繰り返しでした．

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 31 いまだに積読があります．．．( ﾉД`)ｼｸｼｸ…

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 32 このＬＴでは，聴覚障害に関する課題について研究・開発をする学生のために，

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 33 とくに音声コミュニケーションに関わる音声情報処理について３つほど取り上げて，

キカイガクシュウ？ ◦ 信号処理ってなぁに？🧐 • 講義資料を求めて，Open Cource Ware (OCW)の閲覧，勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた． ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人（とくに後輩）も困るだろう→喋ろう！！ 34 概要とか勉強に使える資料とか，最近の状況とかを話します．

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．今日はこんな感じで喋ります．時間いっぱい話します．質問はDiscordに． 35

1.聴覚障害があるとどんなことで困る？ 36

1.そもそも聴覚障害って？ • 聴覚に携わる感覚器官に障害があること．聴力の損失が起きる． ◦ 外耳から中耳→伝音性難聴．音が小さく聞こえる ◦ 内耳から聴神経→感音性難聴．聞こえにくくなる．ひずみが入って聞こえる． ◦ 上記2つが混じっている→混合性難聴．老人性難聴に多く見られる．上記の特徴を持つ． •
聴力の損失を補う機器 ◦ 補聴器 ▪ 気導，骨導，軟骨伝導 ◦ 人工内耳 ◦ 補聴援助システム（Phonakのロジャーシリーズ）そもそも聴覚障害ってなんでしょうか？ 37

聴力の損失を補う機器 ◦ 補聴器 ▪ 気導，骨導，軟骨伝導 ◦ 人工内耳 ◦ 補聴援助システム（Phonakのロジャーシリーズ）聴覚に携わる感覚器官に障害があることで聴力の損失が起きることです． 38

聴力の損失を補う機器 ◦ 補聴器 ▪ 気導，骨導，軟骨伝導 ◦ 人工内耳 ◦ 補聴援助システム（Phonakのロジャーシリーズ）伝音性難聴や感音性難聴，混合性難聴があります． 39

聴力の損失を補う機器 ◦ 補聴器 ▪ 気導，骨導，軟骨伝導 ◦ 人工内耳 ◦ 補聴援助システム（Phonakのロジャーシリーズ）補聴器とか人工内耳，Phonak（フォナック）のロジャーとかありますよね． 40

1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り，聞き分けが難しい ◦ 音声や環境音の聴取が難しく，情報の内容がわからない ▪ 音声認識，環境音認識，音源定位 ▪ 音声強調，雑音抑制 ◦
発話の聞き分けが難しく，複数人が同時に話しているときに，特定の声に集中することが難しい ▪ 音源分離，目的話者抽出聴覚障害があることで日常生活でどう困るでしょうか？ 41

発話の聞き分けが難しく，複数人が同時に話しているときに，特定の声に集中することが難しい ▪ 音源分離，目的話者抽出音声や環境音の聞き取り，聞き分けが難しいですよね． 42

発話の聞き分けが難しく，複数人が同時に話しているときに，特定の声に集中することが難しい ▪ 音源分離，目的話者抽出音声や環境音の聴取が難しく，情報の内容がわからない． 43

発話の聞き分けが難しく，複数人が同時に話しているときに，特定の声に集中することが難しい ▪ 音源分離，目的話者抽出そんなときには音声認識で音声を文字に変えることで情報を得ることができます． 44

発話の聞き分けが難しく，複数人が同時に話しているときに，特定の声に集中することが難しい ▪ 音源分離，目的話者抽出また，補聴器にもいろんな処理が入っています．音声強調とか雑音抑制とか． 45

発話の聞き分けが難しく，複数人が同時に話しているときに，特定の声に集中することが難しい ▪ 音源分離，目的話者抽出また，複数人の発話の聞き分けって難しいですよね． 46

発話の聞き分けが難しく，複数人が同時に話しているときに，特定の声に集中することが難しい ▪ 音源分離，目的話者抽出とくにグループワークとか飲み会とか．ほかにも苦労した場面があるかもしれません 47

1.聴覚障害があることで日常生活でどう困るのか • 自己の発話の聴覚フィードバックが得にくい ◦ 自分の声の音量や発音を調節するためのフィードバックが得にくく，発話が不明瞭に． ◦ 状況は違うけど場面緘黙とか声が出しにくい状況とか ▪ チャットとか，音声合成を使って文章の読み上げ．
聞き取りが難しいのは他人の声だけじゃなくて自分の発話もです． 48

耳から自分の発話の特徴や音量を確認するのが難しい． 49

そうすると，音のずれを修正するのが難しくなり発話の明瞭度に影響します． 50

それから，状況は違うんですけど場面緘黙とか様々な事情で声が出しにくいことが 51

ありますよね．そこでチャットをしますが，気が付かれないこともあります． 52

最近FISH（３年の４人で構成されたチーム）がSekoeを出してましたが， 53

音声合成を使って文章の読み上げをすることで相手に伝えることができます． 54

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．では，ここからメインに入ります．まずは音声認識です． 55

2.音声認識-どんな方法で実現されてきたか • ルールベース→統計モデル（HMM, GMM)→深層学習（DNN)と変遷音声認識は音声を文字に変える技術です． 56 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による
End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

2.音声認識-どんな方法で実現されてきたか • ルールベース→統計モデル（HMM, GMM)→深層学習（DNN)と変遷最初はヒューリスティックとかＤＰマッチングとかルールベースで作られました． 57 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による

2.音声認識-どんな方法で実現されてきたか • ルールベース→統計モデル（HMM, GMM)→深層学習（DNN)と変遷そして統計モデルに，混合正規分布とか隠れマルコフモデルとかに代わりました． 58 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による

2.音声認識-どんな方法で実現されてきたか • ルールベース→統計モデル（HMM, GMM)→深層学習（DNN)と変遷最近では，ニューラルネットによる処理に置き換わり，ＣＮＮやＲＮＮ，ＤＮＮなど 59 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による

2.音声認識-どんな方法で実現されてきたか • ルールベース→統計モデル（HMM, GMM)→深層学習（DNN)と変遷一つのモデルとしてまとめて音声認識処理をするようになってきています． 60 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による

2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •
確率論（ベイズ確率） • 自然言語処理 • 機械学習これは確率モデルでの音声認識システムの図です． 61 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習音声入力があって，サンプリングレートとかノイズ除去とかの信号処理を行って， 62 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習ベイズ確率がもとになっている音声認識エンジンで文字へと変換されます． 63 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習エンジンの中には，音響モデル，単語辞書，言語モデルといくつかレイヤがあります． 64 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習先ほどいろいろレイヤが出てきていたんですが，それを内部でまとめて処理している65 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習のがＥｎｄ-to-Endの特徴です．音声入力をしてモデルに入れると文字が出てくる． 66 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習内部の処理はブラックボックスで，手法による効果，結果との分析が難しくなります． 67 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習音声認識に関わる学問はざっと書き出しただけでもこんなにあります． 68 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習音声ひとつとっても音声学やら音韻論やら小児や高齢者の発音の違いとか 69 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

確率論（ベイズ確率） • 自然言語処理 • 機械学習とにかくやればやるほどやるべきものがどんどん積みあがっていく毎日です．（今も 70 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.より引用

2.音声認識-キーワード • E2E (End-to-End) →一つの統合モデルで直接処理． ◦ CTC, Attention, RNN, DNN
• Automatic Speech Recognition ; ASR • Streaming →リアルタイム処理．できるだけ低遅延で． • Robust →頑健．ノイズの影響を受けにくい． • Adaption →特定の話者，環境に合わせてパーソナライズ ◦ 話者適応，環境適応調べるときのキーワードとしてはこんな感じ． 71

• Automatic Speech Recognition ; ASR • Streaming →リアルタイム処理．できるだけ低遅延で． • Robust →頑健．ノイズの影響を受けにくい． • Adaption →特定の話者，環境に合わせてパーソナライズ ◦ 話者適応，環境適応音声認識の課題としては，遅延だったり精度，いろんな人の声に対応するなど， 72

• Automatic Speech Recognition ; ASR • Streaming →リアルタイム処理．できるだけ低遅延で． • Robust →頑健．ノイズの影響を受けにくい． • Adaption →特定の話者，環境に合わせてパーソナライズ ◦ 話者適応，環境適応まだまだ解く問題がありますよね．適応とかは興味がありそうな人が何人かいそう． 73

2.音声認識-文献まず読んだのはこの３冊．もちろんほかにもいっぱいあるけどまず読むべきはこれ. 74 Pythonで学ぶ音声認識機械学習実践シリーズ IT Text 音声認識システム（改訂2版）機械学習による
音声認識

2.音声認識-文献 • 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.
• Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. これは日本語と英語それぞれでの音声認識の概要論文です． 75

• Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. ３０ページ以上？あるので読むのは大変だし，次々と知らない単語が出てきます． 76

• Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 自分も１，２年読んでるけど，なんだかんだ研究に集中してて全部は読めてません． 77

• Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. ざっくり何度か通読したけど，細かい流れは追えてないです．．．orz 78

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．さて，次は音源分離とか音声強調の話です． 79

2.音源分離，音声強調，雑音抑制 • よく似ているが目的が異なる． • 音源分離 ◦ 複数の音源が混ざった音声から，特定の音源を分離・抽出する • 音声強調 ◦
音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っている音源分離，音声強調，雑音抑制，似てるんですけど処理の目的が違います． 80

音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っている音源分離は，複数の音源から，分ける．特定の音源を取り出す処理です． 81

音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っているマイクアレイと呼ばれる物理的なアプローチからDNNまでいろんな手法があります． 82

音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っている続いて，音声強調．これは信号から音声だと思われる特徴だけを強化して， 83

音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っているノイズを抑えるようにして，入力信号に対して重みづけをしています． 84

音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っているただ増幅するだけだと歪み（ひずみ）も大きくなるのが難しい処理です． 85

音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っているそして，雑音抑制．入力信号から背景ノイズを除去します．多いのは環境音ですね． 86

音声っぽい信号成分を強化して，聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去．主にエアコンや風の音など環境音が対象． ◦ 補聴器にも入っている音声強調，雑音抑制は補聴器にも入っています． 87

2.音源分離，音声強調，雑音抑制-キーワード • Blind Source Separation; BSS • Masking • 独立成分分析
(Independent Component Analysis; ICA) • Speech Enhancement • Noise Reduction • SNR (Signal-to-Noise Rate; SNR) • Fourier Transform　→FFT, SFTT, DFT キーワードはこんな感じ．英語の文献が充実しているので英語多めです． 88

2.音源分離，音声強調，雑音抑制-キーワード • Spectrogram • メル周波数ケプストラム (Mel-Frequency Cepstral Coefficients; MFCC) •
Wienerフィルタ • 窓関数→矩形窓，ハン窓，ハミング窓，ブラックマン窓 • ビームフォーミング • 最小平均二乗誤差 (Minimum Mean Square Error; MMSE) あとはこんなキーワードとか． 89

2.音源分離，音声強調，雑音抑制-文献本だけじゃなくてスライドもあります．これは去年６月の音学シンポジウムの 90 Pythonで学ぶ音源分離（機械学習実践シリーズ）深層学習を利用した音声強調音源分離技術の基礎と応用

2.音源分離，音声強調，雑音抑制-文献招待講演で使われたスライドです．めっちゃ読んでて楽しいのでぜひ． 91 Pythonで学ぶ音源分離（機械学習実践シリーズ）深層学習を利用した音声強調音源分離技術の基礎と応用

2.音源分離-文献 • 戸上真人. (2023). 音源分離技術の基礎と動向―確率モデル/深層学習に基づく方法の概観―. 電子情報通信学会基礎・境界ソサイエティ Fundamentals Review,
16(4), 257-271. • https://github.com/tky823/DNN-based_source_separati on/blob/main/README_ja.md • Wang, D., & Chen, J. (2018). Supervised speech separation based on deep learning: An overview. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(10), 1702-1726. そして概要論文です． 92

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．最後に音声合成． 93

2.音声合成 • Text-to-Speech; TTS • テキストから音声を合成 • 音声認識の逆の操作 • 音声のパラメータ（音高，持続時間，声質など）をモデル化
専門外なのでここは薄いです．まあやってるのは音声認識の逆の操作です． 94

2.音声合成-キーワード • Text-to-Speech; TTS • フォルマント合成 • 調音 • 音声符号化
• WaveNet • 音声変換 • ピッチ制御 • パラメトリック合成キーワードです． 95

2.音声合成-文献 • 文献とスライドです．東大の資料むずいけどオススメです． 96 Pythonで学ぶ音声合成機械学習実践シリーズ東京大学応用音響学東京大学信号処理論特論第7回
(2018/06/05)

2.音声合成-文献 • Tan, X., Qin, T., Soong, F., & Liu,
T. Y. (2021). A survey on neural speech synthesis. arXiv preprint arXiv:2106.15561. • Triantafyllopoulos, A., Schuller, B. W., İymen, G., Sezgin, M., He, X., Yang, Z., ... & Tao, J. (2023). An overview of affective speech synthesis and conversion in the deep learning era. Proceedings of the IEEE. そして概要論文，最近の状況はこちらから． 97

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．では，技大では何を学べるでしょうか．シラバスをみてみましょう． 98

3.本学の講義から何を学べるかシラバスを見てみよう • 数学→高校数学の復習，行列計算 • 解析学→微積分 • 線形代数学→行列計算 • 聴覚科学→聴覚障害，聴覚の原理，補聴器，人工内耳 •
統計・確率A〜D→正規分布，ANOVAとか．ベイズは自分で． • 信号処理論・演習→フーリエ変換とか．Pythonを使って手を動かす． • 機械学習・演習→画像認識，DNN，PyTorch，CNN，Transformer • 音声・音響工学→音声の声質，音声情報処理，音声認識，音声合成まあこんな感じです．一つ注意なのが，ベイズ確率は多分講義ではやらないはず． 99

3.本学の講義から何を学べるかシラバスを見てみよう • 数学→高校数学の復習，行列計算 • 解析学→微積分 • 線形代数学→行列計算 • 聴覚科学→聴覚障害，聴覚の原理，補聴器，人工内耳 •
統計・確率A〜D→正規分布，ANOVAとか．ベイズは自分で． • 信号処理論・演習→フーリエ変換とか．Pythonを使って手を動かす． • 機械学習・演習→画像認識，DNN，PyTorch，CNN，Transformer • 音声・音響工学→音声の声質，音声情報処理，音声認識，音声合成なので自分で勉強しましょう．． 100

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．最近のトレンドについて最後に話して終わります． 101

4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for
Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある自分が卒研やるなかで見聞きしたプロジェクト，研究例です． 102

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある Googleは聴覚障害者とかALSとか様々な理由で発話が難しい場合に， 103

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある流暢な音声へと変換するプロジェクトがあります．まだデータを集めている段階？ 104

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある NTTのコミュニケーション科学基礎研究所のSpeakerBeam． 105

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだあるこれは，自分が聞き取りたい人の声を取り出す研究です． 106

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある既存の音源分離モデルの中に，特定の話者に合わせた適応ネットワークを乗算する 107

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだあることで，目的話者の発話の抽出したモデルになります． 108

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだあるこれを３年後期に見つけて研プロDから使っていました． 109

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだあるあとは補聴器での音声明瞭度向上のためのチャレンジもあります． 110

Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだあるデータが与えられて，こんな技術で良くなったよ！みてみて！どやぁします． 111

4.2024-02-19時点での最先端/SOTA (State-of-the-Art) • Whisper (OpenAI) →ﾀﾌﾞﾝ最高精度の音声認識モデル ◦ 68万時間分の多言語音声データ ◦ 最近国内でもOSSの音声認識モデルが続出．
• Conv-TasNet　→　音源分離モデル ◦ 時間領域に注目して入力音声を直接処理 ◦ 畳み込みで次元削減するのが特徴音声認識と音源分離の最先端モデルはＷｈｉｓｐｅｒとConv-TasNetです． 112

今日話すこと 1. 聴覚障害があると生活でどんなことで困る？ 2. 聴覚障害と音声信号処理 a. 音声認識-音声を文字に変えて，文字での情報提供 b. 音声強調，雑音抑制-補聴器はどうやって補聴してくれているのか？ c.
音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．最後にまとめです． 113

5.まとめ • 音声認識，音源分離，音声合成について • 本学で何を学べるか-「基礎的なこと」は学べる ◦ 実際に研究・開発を始めるには足りない ◦ 自分で勉強，輪読（ゼミとか研究室で．），LLMを活用 •
このスライドから学習の手がかりはつかめるはず • おまけにもオススメ本とか調べ方とか書いてます．みてね！今日は音声認識，音源分離，音声合成について紹介しました． 114

5.まとめ • 音声認識，音源分離，音声合成について • 本学で何を学べるか-「基礎的なこと」は学べる ◦ 実際に研究・開発を始めるには足りない ◦ 自分で勉強，輪読（ゼミとか研究室で．），LLMを活用 •
このスライドから学習の手がかりはつかめるはず • おまけにもオススメ本とか調べ方とか書いてます．みてね！このスライドや参考文献が研プロ，研究での参考になれば幸いです． 115

音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献，サイト，ソフトなど．おまけの参考文献です．結構あります． 116

6.参考文献(人によってはこっちがメイン？） • 音声を学ぶ，処理するためのソフト • 音声情報処理に関わるシリーズ，オススメ本，講義資料 • その技術の基礎を学外で学ぶには • その技術の基礎を学ぶには •
その技術の概要，近況を学ぶには • 学会もあるよ！ • 参考文献こんな感じの内容が付録に入ってます． 117

音声を学ぶ，処理するためのソフト音声を処理するソフトは主に４つあります． 118 Audacity Praat MATLAB Python 音声データ編集音声分析高度な数学的モデリング
科学技術計算豊富なライブラリインタプリタ言語

音声を学ぶ，処理するためのソフトＡｕｄａｃｉｔｙは音声データの編集やスペクトログラムを見たりすることができます． 119 Audacity Praat MATLAB Python 音声データ編集音声分析高度な数学的モデリング

音声を学ぶ，処理するためのソフトＰｒａａｔ（ぷらーと）は音声学でよく使われる音声分析ソフトです． 120 Audacity Praat MATLAB Python 音声データ編集音声分析高度な数学的モデリング

音声を学ぶ，処理するためのソフト MATLABは大学PCにも入ってる便利な計算言語です．あんま使ったことないけど． 121 Audacity Praat MATLAB Python 音声データ編集音声分析高度な数学的モデリング

音声を学ぶ，処理するためのソフトそしてみんな大好きPython,早く動かせるので実験，研究でよく使われます． 122 Audacity Praat MATLAB Python 音声データ編集音声分析高度な数学的モデリング

音声情報処理に関わるシリーズ，オススメ本，講義資料 • 音響テクノロジーシリーズ • 次世代信号情報処理シリーズ • 音響学講座 • 「音響学」を学ぶ前に読む本 •
東京大学音響音声学 • 東京大学応用音響学 • 東京大学信号処理論特論 • まだまだあるよ！本とか講義資料はこんな感じのを読んでおけばいいと思います． 123

その技術の基礎を学外で学ぶには • “OCW”(Open Cource Ware), “講義資料”， “pdf” ◦ 大学が無料で公開しているオンラインのコースウェア（教材） ◦
MIT（マサチューセッツ工科大学）での取り組みがはじまり ◦ 動画資料も公開されていることもある • セミナー，講座，検定 ◦ 統計検定 ◦ G検定，E検定あとはOCWを見たり，学外の講座，検定とかもやってみるとよさそうです． 124

その技術の基礎を学ぶにはこんな感じで調べると，今のGoogleは提案してくれます． 125

その技術の概要，近況を学ぶには • “概要論文”, “overview”, “review”, “sota”と検索ワードに入れるとその技術の概要として，これまでの歴史や使われてきた手法が網羅された論文が見つかりやすい • 大まかに流れをつかむことができる
• 日本語だけじゃなくて英語でも調べること • 参考文献が大量なので次の一歩に踏み出す材料がいっぱいあるあとは論文を調べるときにこんなキーワードを含めるといいです． 126

学会もあるよ！ • 音声コミュニケーション研究会 ◦ 2024–03-20(水）　オンライン • 第151回(2024年春季)研究発表会 ◦ 2024-03-06(水）〜08(金）　拓殖大学 •
第152回(2024年秋季)研究発表会 ◦ 2024-09-04(水）〜06(金）　関西大学 • https://acoustics.jp/events/schedule/ 学会もあります． 127

参考文献-音声認識 • 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.
• Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 128

参考文献-音声認識 • Pythonで学ぶ音声認識 • IT Text　音声認識システム • 機械学習による音声認識 129

参考文献-音源分離，音声強調 • Pythonで学ぶ音源分離 • 深層学習を利用した音声強調　 https://www.slideshare.net/yumakoizumi75/ss-250029 132 • 音源分離技術の基礎と応用〜音源分離ﾁｮｯﾄﾜｶﾙになるための手引き〜 https://www.docswell.com/s/d-kitamura/ZQ898R-2023
0624 130

参考文献-音源分離，音声強調 • 戸上真人. (2023). 音源分離技術の基礎と動向―確率モデル/深層学習に基づく方法の概観―. 電子情報通信学会基礎・境界ソサイエティ Fundamentals Review,
16(4), 257-271. • https://github.com/tky823/DNN-based_source_separati on/blob/main/README_ja.md • Wang, D., & Chen, J. (2018). Supervised speech separation based on deep learning: An overview. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(10), 1702-1726. 131

参考文献-音源合成 • Pythonで学ぶ音声合成 • 東京大学猿渡・高道研究室　講義資料 https://sp.ipc.i.u-tokyo.ac.jp/lecture • Tan, X.,
Qin, T., Soong, F., & Liu, T. Y. (2021). A survey on neural speech synthesis. arXiv preprint arXiv:2106.15561. • Triantafyllopoulos, A., Schuller, B. W., İymen, G., Sezgin, M., He, X., Yang, Z., ... & Tao, J. (2023). An overview of affective speech synthesis and conversion in the deep learning era. Proceedings of the IEEE. 132

スライドのこだわり • フォントは BIZ UDPGothic ◦ モリサワのUniversal Design （UD) なゴシックフォント
◦ UDP はすべての文字種が等幅で表示されるようにしている ◦ 読みやすさと美しさを兼ね備えたフォント • 背景色は柔らかな印象を与える淡い色に．長時間でも読んで疲れにくい． • 文字色は黒色でコントラストを効かせて読みやすく． • 主に，大見出し，内容，字幕，スライド番号で構成しています． • 作図はdraw.io（ER図とかアーキテクチャ作るのに便利）で． • １ページに１つの主張． • このスライドテンプレを配布してます．ご興味があればリンクかQRコードから．ちなみにこのスライド色々こだわりがあります．テンプレはQRコードからどうぞ． 133

聴覚障害と音声情報処理

聴覚障害と音声情報処理

More Decks by ふじえもん

Other Decks in Education

Featured

Transcript