Upgrade to Pro — share decks privately, control downloads, hide ads and more …

聴覚障害と音声情報処理

 聴覚障害と音声情報処理

2024年02月19(月)に筑波技術大学開発サークルUN-FROZENの企画,LongなLT会で使った資料です.

ふじえもん

February 19, 2024
Tweet

More Decks by ふじえもん

Other Decks in Education

Transcript

  1. 話すことはできるだけ事前に字幕に仕込んでおく • 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. • この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? • トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! •

    その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. • ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. • で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな 今回は,こんな感じでスライドごとに字幕を入れています. 3
  2. 話すことはできるだけ事前に字幕に仕込んでおく • 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. • この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? • トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! •

    その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. • ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. • で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな 音声認識って音声を文字に変えてくれて便利ですよね.でも誤字脱字もあります. 4
  3. 話すことはできるだけ事前に字幕に仕込んでおく • 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. • この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? • トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! •

    その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. • ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. • で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな その字幕に修正を行うとより綺麗な字幕になりますが,文字通訳の用意は大変... 5
  4. 話すことはできるだけ事前に字幕に仕込んでおく • 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. • この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? • トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! •

    その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. • ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. • で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな 予め話すことは決まっているので,事前に字幕を用意することにしてみました. 6
  5. 話すことはできるだけ事前に字幕に仕込んでおく • 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. • この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? • トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! •

    その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. • ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. • で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな ということで,今日は口話+中間型手話+字幕を使って話します. 7
  6. 話すことはできるだけ事前に字幕に仕込んでおく • 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. • この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? • トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! •

    その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. • ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. • で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな スライドに字幕をつけていたら140ページにもなりました. 8
  7. 話すことはできるだけ事前に字幕に仕込んでおく • 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. • この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? • トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! •

    その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. • ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. • で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな Discordスレで感想・意見などください.勿論,LTへの感想・質問もお待ちしてます. 9
  8. ふじえもんってだれ? • 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ◦ 支援技術学コース 情報保障工学領域 ◦

    このコースは2020年度から開設.最初の代のひとり. • 専門は情報科学と情報保障(とくに聴覚障害) • 学部の特別研究テーマのキーワード ◦ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  • 伝音性難聴で骨導補聴器を使っています. • 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. ふじえもんです.アイコンは名字の「FUJIE」をもとにつくりました. 10
  9. ふじえもんってだれ? • 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ◦ 支援技術学コース 情報保障工学領域 ◦

    このコースは2020年度から開設.最初の代のひとり. • 専門は情報科学と情報保障(とくに聴覚障害) • 学部の特別研究テーマのキーワード ◦ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  • 伝音性難聴で骨導補聴器を使っています. • 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. 筑波技術大学で,情報科学と聴覚障害に関する情報保障について勉強しています. 11
  10. ふじえもんってだれ? • 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ◦ 支援技術学コース 情報保障工学領域 ◦

    このコースは2020年度から開設.最初の代のひとり. • 専門は情報科学と情報保障(とくに聴覚障害) • 学部の特別研究テーマのキーワード ◦ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  • 伝音性難聴で骨導補聴器を使っています. • 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. 卒研のキーワードはスライドにある通りで,音源分離を主に扱っていました. 12
  11. ふじえもんってだれ? • 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ◦ 支援技術学コース 情報保障工学領域 ◦

    このコースは2020年度から開設.最初の代のひとり. • 専門は情報科学と情報保障(とくに聴覚障害) • 学部の特別研究テーマのキーワード ◦ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション • ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  • 伝音性難聴で骨導補聴器を使っています. • 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. ポートフォリオにこれまでの活動とプロダクト,スライドなどをまとめています. 13
  12. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 今日はこんな感じで3つの音声情報処理と諸々について30分を目標に話します. 14
  13. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. せっかくなのでここの大学のシラバスを見て,学べることを確認してみましょう. 15
  14. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 時間があれば最近のトレンドについても話します.(もう30分話すかも?) 16
  15. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 参考文献はちょいちょい出てきますが最後にまとめています.勉強の参考にどうぞ. 17
  16. 前提として... • 聴覚障害🦻や情報保障については基本知識があるものとします. • 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. • 理論的な話は抑えめに. • LTではふわっと理解して,詳細は後述の資料で確認してください.

    ◦ LTが終わったころには,音声情報処理「チョットワカル」に. • 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. 音声って学ぶ機会がそこまで多くないし,勉強しにくい分野だと思います. 18
  17. 前提として... • 聴覚障害🦻や情報保障については基本知識があるものとします. • 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. • 理論的な話は抑えめに. • LTではふわっと理解して,詳細は後述の資料で確認してください.

    ◦ LTが終わったころには,音声情報処理「チョットワカル」に. • 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. 研プロ(2,3年次)から始める人にとっては,講義を待ってられないですよね. 19
  18. 前提として... • 聴覚障害🦻や情報保障については基本知識があるものとします. • 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. • 理論的な話は抑えめに. • LTではふわっと理解して,詳細は後述の資料で確認してください.

    ◦ LTが終わったころには,音声情報処理「チョットワカル」に. • 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. そこで,本学の学生が音声情報処理を学ぶ第一歩として使える資料を目指します. 20
  19. 前提として... • 聴覚障害🦻や情報保障については基本知識があるものとします. • 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. • 理論的な話は抑えめに. • LTではふわっと理解して,詳細は後述の資料で確認してください.

    ◦ LTが終わったころには,音声情報処理「チョットワカル」に. • 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. この時間では,ふわっと音声情報処理の概要を知ってもらえればOKです. 21
  20. 前提として... • 聴覚障害🦻や情報保障については基本知識があるものとします. • 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. • 理論的な話は抑えめに. • LTではふわっと理解して,詳細は後述の資料で確認してください.

    ◦ LTが終わったころには,音声情報処理「チョットワカル」に. • 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. LTが終わるころには,音声情報処理「チョットワカル」になっているはずです. 22
  21. 前提として... • 聴覚障害🦻や情報保障については基本知識があるものとします. • 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. • 理論的な話は抑えめに. • LTではふわっと理解して,詳細は後述の資料で確認してください.

    ◦ LTが終わったころには,音声情報処理「チョットワカル」に. • 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. また,大事なこととして音声によるコミュニケーションを強要する意図はありません. 23
  22. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 24 自分が研究プロジェクトで研究を始めるにあたって,何から始めればいいのかわから なかったのがきっかけです.
  23. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 25 2年次の前期に受けたプロジェクトでは音声認識に関するテーマに決めました.
  24. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 26 でも音声認識って?そもそも音声って?ほかに何が必要なの?
  25. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 27 とにかく疑問だらけです.2年次の講義だけだととても足りません.
  26. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 28 なので自分で勉強するしかない.ということで教員や図書館からたくさん借りました
  27. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 29 あとで使った本,資料,ソフトなど出てきます.
  28. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 30 4年次では,MTGのたびに教員から数冊借りて読んでの繰り返しでした.
  29. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 31 いまだに積読があります...( ノД`)シクシク…
  30. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 32 このLTでは,聴覚障害に関する課題について研究・開発をする学生のために,
  31. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 33 とくに音声コミュニケーションに関わる音声情報処理について3つほど取り上げて,
  32. このLTをしようと思ったきっかけ • 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ◦ なにから始めればいいの??? ◦ 音声🗣ってなんだ? ◦ 音声認識ってなんだ? ◦

    キカイガクシュウ? ◦ 信号処理ってなぁに?🧐 • 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 • MTGを重ねるごとに教員・図書館からたくさん借りた. ◦ 積読📚たくさん...😭 • 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 34 概要とか勉強に使える資料とか,最近の状況とかを話します.
  33. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 今日はこんな感じで喋ります.時間いっぱい話します.質問はDiscordに. 35
  34. 1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り,聞き分けが難しい ◦ 音声や環境音の聴取が難しく,情報の内容がわからない ▪ 音声認識,環境音認識,音源定位 ▪ 音声強調,雑音抑制 ◦

    発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ▪ 音源分離,目的話者抽出 聴覚障害があることで日常生活でどう困るでしょうか? 41
  35. 1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り,聞き分けが難しい ◦ 音声や環境音の聴取が難しく,情報の内容がわからない ▪ 音声認識,環境音認識,音源定位 ▪ 音声強調,雑音抑制 ◦

    発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ▪ 音源分離,目的話者抽出 音声や環境音の聞き取り,聞き分けが難しいですよね. 42
  36. 1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り,聞き分けが難しい ◦ 音声や環境音の聴取が難しく,情報の内容がわからない ▪ 音声認識,環境音認識,音源定位 ▪ 音声強調,雑音抑制 ◦

    発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ▪ 音源分離,目的話者抽出 音声や環境音の聴取が難しく,情報の内容がわからない. 43
  37. 1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り,聞き分けが難しい ◦ 音声や環境音の聴取が難しく,情報の内容がわからない ▪ 音声認識,環境音認識,音源定位 ▪ 音声強調,雑音抑制 ◦

    発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ▪ 音源分離,目的話者抽出 そんなときには音声認識で音声を文字に変えることで情報を得ることができます. 44
  38. 1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り,聞き分けが難しい ◦ 音声や環境音の聴取が難しく,情報の内容がわからない ▪ 音声認識,環境音認識,音源定位 ▪ 音声強調,雑音抑制 ◦

    発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ▪ 音源分離,目的話者抽出 また,補聴器にもいろんな処理が入っています.音声強調とか雑音抑制とか. 45
  39. 1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り,聞き分けが難しい ◦ 音声や環境音の聴取が難しく,情報の内容がわからない ▪ 音声認識,環境音認識,音源定位 ▪ 音声強調,雑音抑制 ◦

    発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ▪ 音源分離,目的話者抽出 また,複数人の発話の聞き分けって難しいですよね. 46
  40. 1.聴覚障害があることで日常生活でどう困るのか • 音声や環境音の聞き取り,聞き分けが難しい ◦ 音声や環境音の聴取が難しく,情報の内容がわからない ▪ 音声認識,環境音認識,音源定位 ▪ 音声強調,雑音抑制 ◦

    発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ▪ 音源分離,目的話者抽出 とくにグループワークとか飲み会とか.ほかにも苦労した場面があるかもしれません 47
  41. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. では,ここからメインに入ります.まずは音声認識です. 55
  42. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 これは確率モデルでの音声認識システムの図です. 61 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  43. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 音声入力があって,サンプリングレートとかノイズ除去とかの信号処理を行って, 62 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  44. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 ベイズ確率がもとになっている音声認識エンジンで文字へと変換されます. 63 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  45. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 エンジンの中には,音響モデル,単語辞書,言語モデルといくつかレイヤがあります. 64 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  46. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 先ほどいろいろレイヤが出てきていたんですが,それを内部でまとめて処理している65 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  47. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 のがEnd-to-Endの特徴です.音声入力をしてモデルに入れると文字が出てくる. 66 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  48. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 内部の処理はブラックボックスで,手法による効果,結果との分析が難しくなります. 67 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  49. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 音声認識に関わる学問はざっと書き出しただけでもこんなにあります. 68 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  50. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 音声ひとつとっても音声学やら音韻論やら小児や高齢者の発音の違いとか 69 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  51. 2.音声認識-関わる学問 • 音声学 • 音響学 • 信号処理 ◦ フーリエ変換 •

    確率論(ベイズ確率) • 自然言語処理 • 機械学習 とにかくやればやるほどやるべきものがどんどん積みあがっていく毎日です.(今も 70 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用
  52. 2.音声認識-キーワード • E2E (End-to-End) →一つの統合モデルで直接処理. ◦ CTC, Attention, RNN, DNN

    • Automatic Speech Recognition ; ASR • Streaming →リアルタイム処理.できるだけ低遅延で. • Robust →頑健.ノイズの影響を受けにくい. • Adaption →特定の話者,環境に合わせてパーソナライズ ◦ 話者適応,環境適応 調べるときのキーワードとしてはこんな感じ. 71
  53. 2.音声認識-キーワード • E2E (End-to-End) →一つの統合モデルで直接処理. ◦ CTC, Attention, RNN, DNN

    • Automatic Speech Recognition ; ASR • Streaming →リアルタイム処理.できるだけ低遅延で. • Robust →頑健.ノイズの影響を受けにくい. • Adaption →特定の話者,環境に合わせてパーソナライズ ◦ 話者適応,環境適応 音声認識の課題としては,遅延だったり精度,いろんな人の声に対応するなど, 72
  54. 2.音声認識-キーワード • E2E (End-to-End) →一つの統合モデルで直接処理. ◦ CTC, Attention, RNN, DNN

    • Automatic Speech Recognition ; ASR • Streaming →リアルタイム処理.できるだけ低遅延で. • Robust →頑健.ノイズの影響を受けにくい. • Adaption →特定の話者,環境に合わせてパーソナライズ ◦ 話者適応,環境適応 まだまだ解く問題がありますよね.適応とかは興味がありそうな人が何人かいそう. 73
  55. 2.音声認識-文献 • 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.

    • Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. これは日本語と英語それぞれでの音声認識の概要論文です. 75
  56. 2.音声認識-文献 • 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.

    • Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 30ページ以上?あるので読むのは大変だし,次々と知らない単語が出てきます. 76
  57. 2.音声認識-文献 • 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.

    • Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 自分も1,2年読んでるけど,なんだかんだ研究に集中してて全部は読めてません. 77
  58. 2.音声認識-文献 • 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.

    • Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. ざっくり何度か通読したけど,細かい流れは追えてないです...orz 78
  59. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. さて,次は音源分離とか音声強調の話です. 79
  60. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている 音源分離,音声強調,雑音抑制,似てるんですけど処理の目的が違います. 80
  61. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている 音源分離は,複数の音源から,分ける.特定の音源を取り出す処理です. 81
  62. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている マイクアレイと呼ばれる物理的なアプローチからDNNまでいろんな手法があります. 82
  63. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている 続いて,音声強調.これは信号から音声だと思われる特徴だけを強化して, 83
  64. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている ノイズを抑えるようにして,入力信号に対して重みづけをしています. 84
  65. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている ただ増幅するだけだと歪み(ひずみ)も大きくなるのが難しい処理です. 85
  66. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている そして,雑音抑制.入力信号から背景ノイズを除去します.多いのは環境音ですね. 86
  67. 2.音源分離,音声強調,雑音抑制 • よく似ているが目的が異なる. • 音源分離 ◦ 複数の音源が混ざった音声から,特定の音源を分離・抽出する • 音声強調 ◦

    音声っぽい信号成分を強化して,聞き取りやすく ◦ 補聴器にも入っている • 雑音抑制 ◦ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ◦ 補聴器にも入っている 音声強調,雑音抑制は補聴器にも入っています. 87
  68. 2.音源分離,音声強調,雑音抑制-キーワード • Blind Source Separation; BSS • Masking • 独立成分分析

    (Independent Component Analysis; ICA) • Speech Enhancement • Noise Reduction • SNR (Signal-to-Noise Rate; SNR) • Fourier Transform →FFT, SFTT, DFT キーワードはこんな感じ.英語の文献が充実しているので英語多めです. 88
  69. 2.音源分離,音声強調,雑音抑制-キーワード • Spectrogram • メル周波数ケプストラム (Mel-Frequency Cepstral Coefficients; MFCC) •

    Wienerフィルタ • 窓関数→矩形窓,ハン窓,ハミング窓,ブラックマン窓 • ビームフォーミング • 最小平均二乗誤差 (Minimum Mean Square Error; MMSE) あとはこんなキーワードとか. 89
  70. 2.音源分離-文献 • 戸上真人. (2023). 音源分離技術の基礎と動向―確率モデル/深層学 習に基づく方法の概観―. 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review,

    16(4), 257-271. • https://github.com/tky823/DNN-based_source_separati on/blob/main/README_ja.md • Wang, D., & Chen, J. (2018). Supervised speech separation based on deep learning: An overview. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(10), 1702-1726. そして概要論文です. 92
  71. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 最後に音声合成. 93
  72. 2.音声合成-キーワード • Text-to-Speech; TTS • フォルマント合成 • 調音 • 音声符号化

    • WaveNet • 音声変換 • ピッチ制御 • パラメトリック合成 キーワードです. 95
  73. 2.音声合成-文献 • Tan, X., Qin, T., Soong, F., & Liu,

    T. Y. (2021). A survey on neural speech synthesis. arXiv preprint arXiv:2106.15561. • Triantafyllopoulos, A., Schuller, B. W., İymen, G., Sezgin, M., He, X., Yang, Z., ... & Tao, J. (2023). An overview of affective speech synthesis and conversion in the deep learning era. Proceedings of the IEEE. そして概要論文,最近の状況はこちらから. 97
  74. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. では,技大では何を学べるでしょうか.シラバスをみてみましょう. 98
  75. 3.本学の講義から何を学べるかシラバスを見てみよう • 数学→高校数学の復習,行列計算 • 解析学→微積分 • 線形代数学→行列計算 • 聴覚科学→聴覚障害,聴覚の原理,補聴器,人工内耳 •

    統計・確率A〜D→正規分布,ANOVAとか.ベイズは自分で. • 信号処理論・演習→フーリエ変換とか.Pythonを使って手を動かす. • 機械学習・演習→画像認識,DNN,PyTorch,CNN,Transformer • 音声・音響工学→音声の声質,音声情報処理,音声認識,音声合成 まあこんな感じです.一つ注意なのが,ベイズ確率は多分講義ではやらないはず. 99
  76. 3.本学の講義から何を学べるかシラバスを見てみよう • 数学→高校数学の復習,行列計算 • 解析学→微積分 • 線形代数学→行列計算 • 聴覚科学→聴覚障害,聴覚の原理,補聴器,人工内耳 •

    統計・確率A〜D→正規分布,ANOVAとか.ベイズは自分で. • 信号処理論・演習→フーリエ変換とか.Pythonを使って手を動かす. • 機械学習・演習→画像認識,DNN,PyTorch,CNN,Transformer • 音声・音響工学→音声の声質,音声情報処理,音声認識,音声合成 なので自分で勉強しましょう.. 100
  77. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 最近のトレンドについて最後に話して終わります. 101
  78. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある 自分が卒研やるなかで見聞きしたプロジェクト,研究例です. 102
  79. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある Googleは聴覚障害者とかALSとか様々な理由で発話が難しい場合に, 103
  80. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある 流暢な音声へと変換するプロジェクトがあります.まだデータを集めている段階? 104
  81. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある NTTのコミュニケーション科学基礎研究所のSpeakerBeam. 105
  82. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある これは,自分が聞き取りたい人の声を取り出す研究です. 106
  83. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある 既存の音源分離モデルの中に,特定の話者に合わせた適応ネットワークを乗算する 107
  84. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある ことで,目的話者の発話の抽出したモデルになります. 108
  85. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある これを3年後期に見つけて研プロDから使っていました. 109
  86. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある あとは補聴器での音声明瞭度向上のためのチャレンジもあります. 110
  87. 4.最近のトレンド • GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 • NTTCS研のSpeakerBeam→目的話者抽出 • Clarity Enhancement Challenge for

    Hearing Aid Speech Intelligibility Enhancement ◦ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ • ほかにもまだまだある データが与えられて,こんな技術で良くなったよ!みてみて!どやぁします. 111
  88. 4.2024-02-19時点での最先端/SOTA (State-of-the-Art) • Whisper (OpenAI) →タブン最高精度の音声認識モデル ◦ 68万時間分の多言語音声データ ◦ 最近国内でもOSSの音声認識モデルが続出.

    • Conv-TasNet → 音源分離モデル ◦ 時間領域に注目して入力音声を直接処理 ◦ 畳み込みで次元削減するのが特徴 音声認識と音源分離の最先端モデルはWhisperとConv-TasNetです. 112
  89. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声信号処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 最後にまとめです. 113
  90. 5.まとめ • 音声認識,音源分離,音声合成について • 本学で何を学べるか-「基礎的なこと」は学べる ◦ 実際に研究・開発を始めるには足りない ◦ 自分で勉強,輪読(ゼミとか研究室で.),LLMを活用 •

    このスライドから学習の手がかりはつかめるはず • おまけにもオススメ本とか調べ方とか書いてます.みてね! 今日は音声認識,音源分離,音声合成について紹介しました. 114
  91. 5.まとめ • 音声認識,音源分離,音声合成について • 本学で何を学べるか-「基礎的なこと」は学べる ◦ 実際に研究・開発を始めるには足りない ◦ 自分で勉強,輪読(ゼミとか研究室で.),LLMを活用 •

    このスライドから学習の手がかりはつかめるはず • おまけにもオススメ本とか調べ方とか書いてます.みてね! このスライドや参考文献が研プロ,研究での参考になれば幸いです. 115
  92. 今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c.

    音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. おまけの参考文献です.結構あります. 116
  93. 音声情報処理に関わるシリーズ,オススメ本,講義資料 • 音響テクノロジーシリーズ • 次世代信号情報処理シリーズ • 音響学講座 • 「音響学」を学ぶ前に読む本 •

    東京大学 音響音声学 • 東京大学 応用音響学 • 東京大学 信号処理論特論 • まだまだあるよ! 本とか講義資料はこんな感じのを読んでおけばいいと思います. 123
  94. その技術の基礎を学外で学ぶには • “OCW”(Open Cource Ware), “講義資料”, “pdf” ◦ 大学が無料で公開しているオンラインのコースウェア(教材) ◦

    MIT(マサチューセッツ工科大学)での取り組みがはじまり ◦ 動画資料も公開されていることもある • セミナー,講座,検定 ◦ 統計検定 ◦ G検定,E検定 あとはOCWを見たり,学外の講座,検定とかもやってみるとよさそうです. 124
  95. その技術の概要,近況を学ぶには • “概要論文”, “overview”, “review”, “sota”と検索ワードに入れる とその技術の概要として,これまでの歴史や使われてきた手法が網羅さ れた論文が見つかりやすい • 大まかに流れをつかむことができる

    • 日本語だけじゃなくて英語でも調べること • 参考文献が大量なので次の一歩に踏み出す材料がいっぱいある あとは論文を調べるときにこんなキーワードを含めるといいです. 126
  96. 学会もあるよ! • 音声コミュニケーション研究会 ◦ 2024–03-20(水) オンライン • 第151回(2024年春季)研究発表会 ◦ 2024-03-06(水)〜08(金) 拓殖大学 •

    第152回(2024年秋季)研究発表会 ◦ 2024-09-04(水)〜06(金) 関西大学 • https://acoustics.jp/events/schedule/ 学会もあります. 127
  97. 参考文献-音声認識 • 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386.

    • Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 128
  98. 参考文献-音源分離,音声強調 • 戸上真人. (2023). 音源分離技術の基礎と動向―確率モデル/深層学 習に基づく方法の概観―. 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review,

    16(4), 257-271. • https://github.com/tky823/DNN-based_source_separati on/blob/main/README_ja.md • Wang, D., & Chen, J. (2018). Supervised speech separation based on deep learning: An overview. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(10), 1702-1726. 131
  99. 参考文献-音源合成 • Pythonで学ぶ音声合成 • 東京大学 猿渡・高道研究室 講義資料 https://sp.ipc.i.u-tokyo.ac.jp/lecture • Tan, X.,

    Qin, T., Soong, F., & Liu, T. Y. (2021). A survey on neural speech synthesis. arXiv preprint arXiv:2106.15561. • Triantafyllopoulos, A., Schuller, B. W., İymen, G., Sezgin, M., He, X., Yang, Z., ... & Tao, J. (2023). An overview of affective speech synthesis and conversion in the deep learning era. Proceedings of the IEEE. 132
  100. スライドのこだわり • フォントは BIZ UDPGothic ◦ モリサワのUniversal Design (UD) なゴシックフォント

    ◦ UDP はすべての文字種が等幅で表示されるようにしている ◦ 読みやすさと美しさを兼ね備えたフォント • 背景色は柔らかな印象を与える淡い色に.長時間でも読んで疲れにくい. • 文字色は黒色でコントラストを効かせて読みやすく. • 主に,大見出し,内容,字幕,スライド番号で構成しています. • 作図はdraw.io(ER図とかアーキテクチャ作るのに便利)で. • 1ページに1つの主張. • このスライドテンプレを配布してます.ご興味があればリンクかQRコードから. ちなみにこのスライド色々こだわりがあります.テンプレはQRコードからどうぞ. 133