Slide 1

Slide 1 text

聴覚障害と音声情報処理 ふじえもん (@fujiengineer) 1 2024-02-19_LongなLT会_UN-FROZEN

Slide 2

Slide 2 text

LTに入る前に... ふじえもんです.最近,LTでの発信の情報保障のあり方について考えています. 2

Slide 3

Slide 3 text

話すことはできるだけ事前に字幕に仕込んでおく ● 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. ● この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? ● トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! ● その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. ● ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. ● で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな 今回は,こんな感じでスライドごとに字幕を入れています. 3

Slide 4

Slide 4 text

話すことはできるだけ事前に字幕に仕込んでおく ● 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. ● この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? ● トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! ● その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. ● ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. ● で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな 音声認識って音声を文字に変えてくれて便利ですよね.でも誤字脱字もあります. 4

Slide 5

Slide 5 text

話すことはできるだけ事前に字幕に仕込んでおく ● 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. ● この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? ● トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! ● その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. ● ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. ● で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな その字幕に修正を行うとより綺麗な字幕になりますが,文字通訳の用意は大変... 5

Slide 6

Slide 6 text

話すことはできるだけ事前に字幕に仕込んでおく ● 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. ● この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? ● トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! ● その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. ● ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. ● で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな 予め話すことは決まっているので,事前に字幕を用意することにしてみました. 6

Slide 7

Slide 7 text

話すことはできるだけ事前に字幕に仕込んでおく ● 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. ● この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? ● トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! ● その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. ● ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. ● で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな ということで,今日は口話+中間型手話+字幕を使って話します. 7

Slide 8

Slide 8 text

話すことはできるだけ事前に字幕に仕込んでおく ● 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. ● この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? ● トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! ● その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. ● ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. ● で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな スライドに字幕をつけていたら140ページにもなりました. 8

Slide 9

Slide 9 text

話すことはできるだけ事前に字幕に仕込んでおく ● 最近,ろう・難聴者を主な対象として字幕の提供が進んでるけど,音声認識はい つも正確じゃない...けどリアルタイムで音声を文字にかえてくれる. ● この良さを生かしつつ,より伝わるスライド,発信方法はないだろうか? ● トークはたいてい話すことが決まっている.→なら,その場で生成しなくても,予 めスライドや原稿で示すと,正しく,スライドを出すと同時に伝えられるじゃん! ● その場のアドリブ,質疑応答もあるけど.これは一旦横に置いといて. ● ということで,下の方にテキストボックスをおいてみた.18ptで40文字ぐらい おけるみたい. ● で,スライド内容と字幕の境目を示すために線をおいてみた.色とか太さとかあ るいは別のなにかで置き換えた方がみやすいとか,識別しやすいとかあるかな Discordスレで感想・意見などください.勿論,LTへの感想・質問もお待ちしてます. 9

Slide 10

Slide 10 text

ふじえもんってだれ? ● 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ○ 支援技術学コース 情報保障工学領域 ○ このコースは2020年度から開設.最初の代のひとり. ● 専門は情報科学と情報保障(とくに聴覚障害) ● 学部の特別研究テーマのキーワード ○ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション ● ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  ● 伝音性難聴で骨導補聴器を使っています. ● 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. ふじえもんです.アイコンは名字の「FUJIE」をもとにつくりました. 10

Slide 11

Slide 11 text

ふじえもんってだれ? ● 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ○ 支援技術学コース 情報保障工学領域 ○ このコースは2020年度から開設.最初の代のひとり. ● 専門は情報科学と情報保障(とくに聴覚障害) ● 学部の特別研究テーマのキーワード ○ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション ● ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  ● 伝音性難聴で骨導補聴器を使っています. ● 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. 筑波技術大学で,情報科学と聴覚障害に関する情報保障について勉強しています. 11

Slide 12

Slide 12 text

ふじえもんってだれ? ● 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ○ 支援技術学コース 情報保障工学領域 ○ このコースは2020年度から開設.最初の代のひとり. ● 専門は情報科学と情報保障(とくに聴覚障害) ● 学部の特別研究テーマのキーワード ○ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション ● ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  ● 伝音性難聴で骨導補聴器を使っています. ● 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. 卒研のキーワードはスライドにある通りで,音源分離を主に扱っていました. 12

Slide 13

Slide 13 text

ふじえもんってだれ? ● 筑波技術大学 産業技術学部 産業情報学科 4年次(15期生) ○ 支援技術学コース 情報保障工学領域 ○ このコースは2020年度から開設.最初の代のひとり. ● 専門は情報科学と情報保障(とくに聴覚障害) ● 学部の特別研究テーマのキーワード ○ ろう・難聴者, 目的話者抽出, HASPI, HASQI, 補聴器, 音声コミュニケーション ● ポートフォリオ「ふじえもんのおへや」がありますhttps://fujiemon.dev/  ● 伝音性難聴で骨導補聴器を使っています. ● 2024年04月からはエンジニア󰳕(研究・開発)としておしごと. ポートフォリオにこれまでの活動とプロダクト,スライドなどをまとめています. 13

Slide 14

Slide 14 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 今日はこんな感じで3つの音声情報処理と諸々について30分を目標に話します. 14

Slide 15

Slide 15 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. せっかくなのでここの大学のシラバスを見て,学べることを確認してみましょう. 15

Slide 16

Slide 16 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 時間があれば最近のトレンドについても話します.(もう30分話すかも?) 16

Slide 17

Slide 17 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 参考文献はちょいちょい出てきますが最後にまとめています.勉強の参考にどうぞ. 17

Slide 18

Slide 18 text

前提として... ● 聴覚障害🦻や情報保障については基本知識があるものとします. ● 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. ● 理論的な話は抑えめに. ● LTではふわっと理解して,詳細は後述の資料で確認してください. ○ LTが終わったころには,音声情報処理「チョットワカル」に. ● 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. 音声って学ぶ機会がそこまで多くないし,勉強しにくい分野だと思います. 18

Slide 19

Slide 19 text

前提として... ● 聴覚障害🦻や情報保障については基本知識があるものとします. ● 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. ● 理論的な話は抑えめに. ● LTではふわっと理解して,詳細は後述の資料で確認してください. ○ LTが終わったころには,音声情報処理「チョットワカル」に. ● 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. 研プロ(2,3年次)から始める人にとっては,講義を待ってられないですよね. 19

Slide 20

Slide 20 text

前提として... ● 聴覚障害🦻や情報保障については基本知識があるものとします. ● 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. ● 理論的な話は抑えめに. ● LTではふわっと理解して,詳細は後述の資料で確認してください. ○ LTが終わったころには,音声情報処理「チョットワカル」に. ● 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. そこで,本学の学生が音声情報処理を学ぶ第一歩として使える資料を目指します. 20

Slide 21

Slide 21 text

前提として... ● 聴覚障害🦻や情報保障については基本知識があるものとします. ● 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. ● 理論的な話は抑えめに. ● LTではふわっと理解して,詳細は後述の資料で確認してください. ○ LTが終わったころには,音声情報処理「チョットワカル」に. ● 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. この時間では,ふわっと音声情報処理の概要を知ってもらえればOKです. 21

Slide 22

Slide 22 text

前提として... ● 聴覚障害🦻や情報保障については基本知識があるものとします. ● 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. ● 理論的な話は抑えめに. ● LTではふわっと理解して,詳細は後述の資料で確認してください. ○ LTが終わったころには,音声情報処理「チョットワカル」に. ● 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. LTが終わるころには,音声情報処理「チョットワカル」になっているはずです. 22

Slide 23

Slide 23 text

前提として... ● 聴覚障害🦻や情報保障については基本知識があるものとします. ● 筑波技大の学生(ろう・難聴者)が音声情報処理を学ぶ第一歩として 使える資料を目指します. ● 理論的な話は抑えめに. ● LTではふわっと理解して,詳細は後述の資料で確認してください. ○ LTが終わったころには,音声情報処理「チョットワカル」に. ● 音声🗣に関する説明が多いですが, 音声によるコミュニケーションを強要する意図はありません󰢃. また,大事なこととして音声によるコミュニケーションを強要する意図はありません. 23

Slide 24

Slide 24 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 24 自分が研究プロジェクトで研究を始めるにあたって,何から始めればいいのかわから なかったのがきっかけです.

Slide 25

Slide 25 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 25 2年次の前期に受けたプロジェクトでは音声認識に関するテーマに決めました.

Slide 26

Slide 26 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 26 でも音声認識って?そもそも音声って?ほかに何が必要なの?

Slide 27

Slide 27 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 27 とにかく疑問だらけです.2年次の講義だけだととても足りません.

Slide 28

Slide 28 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 28 なので自分で勉強するしかない.ということで教員や図書館からたくさん借りました

Slide 29

Slide 29 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 29 あとで使った本,資料,ソフトなど出てきます.

Slide 30

Slide 30 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 30 4年次では,MTGのたびに教員から数冊借りて読んでの繰り返しでした.

Slide 31

Slide 31 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 31 いまだに積読があります...( ノД`)シクシク…

Slide 32

Slide 32 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 32 このLTでは,聴覚障害に関する課題について研究・開発をする学生のために,

Slide 33

Slide 33 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 33 とくに音声コミュニケーションに関わる音声情報処理について3つほど取り上げて,

Slide 34

Slide 34 text

このLTをしようと思ったきっかけ ● 音声情報処理の勉強・研究を始めるときに困ったのがきっかけ. ○ なにから始めればいいの??? ○ 音声🗣ってなんだ? ○ 音声認識ってなんだ? ○ キカイガクシュウ? ○ 信号処理ってなぁに?🧐 ● 講義資料を求めて,Open Cource Ware (OCW)の閲覧,勉強🖊 ● MTGを重ねるごとに教員・図書館からたくさん借りた. ○ 積読📚たくさん...😭 ● 自分が困ったので多分他の人(とくに後輩)も困るだろう→喋ろう!! 34 概要とか勉強に使える資料とか,最近の状況とかを話します.

Slide 35

Slide 35 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 今日はこんな感じで喋ります.時間いっぱい話します.質問はDiscordに. 35

Slide 36

Slide 36 text

1.聴覚障害があるとどんなことで困る? 36

Slide 37

Slide 37 text

1.そもそも聴覚障害って? ● 聴覚に携わる感覚器官に障害があること.聴力の損失が起きる. ○ 外耳から中耳→伝音性難聴.音が小さく聞こえる ○ 内耳から聴神経→感音性難聴.聞こえにくくなる.ひずみが入って聞こえる. ○ 上記2つが混じっている→混合性難聴.老人性難聴に多く見られる.上記の特徴を持つ. ● 聴力の損失を補う機器 ○ 補聴器 ■ 気導,骨導,軟骨伝導 ○ 人工内耳 ○ 補聴援助システム(Phonakのロジャーシリーズ) そもそも聴覚障害ってなんでしょうか? 37

Slide 38

Slide 38 text

1.そもそも聴覚障害って? ● 聴覚に携わる感覚器官に障害があること.聴力の損失が起きる. ○ 外耳から中耳→伝音性難聴.音が小さく聞こえる ○ 内耳から聴神経→感音性難聴.聞こえにくくなる.ひずみが入って聞こえる. ○ 上記2つが混じっている→混合性難聴.老人性難聴に多く見られる.上記の特徴を持つ. ● 聴力の損失を補う機器 ○ 補聴器 ■ 気導,骨導,軟骨伝導 ○ 人工内耳 ○ 補聴援助システム(Phonakのロジャーシリーズ) 聴覚に携わる感覚器官に障害があることで聴力の損失が起きることです. 38

Slide 39

Slide 39 text

1.そもそも聴覚障害って? ● 聴覚に携わる感覚器官に障害があること.聴力の損失が起きる. ○ 外耳から中耳→伝音性難聴.音が小さく聞こえる ○ 内耳から聴神経→感音性難聴.聞こえにくくなる.ひずみが入って聞こえる. ○ 上記2つが混じっている→混合性難聴.老人性難聴に多く見られる.上記の特徴を持つ. ● 聴力の損失を補う機器 ○ 補聴器 ■ 気導,骨導,軟骨伝導 ○ 人工内耳 ○ 補聴援助システム(Phonakのロジャーシリーズ) 伝音性難聴や感音性難聴,混合性難聴があります. 39

Slide 40

Slide 40 text

1.そもそも聴覚障害って? ● 聴覚に携わる感覚器官に障害があること.聴力の損失が起きる. ○ 外耳から中耳→伝音性難聴.音が小さく聞こえる ○ 内耳から聴神経→感音性難聴.聞こえにくくなる.ひずみが入って聞こえる. ○ 上記2つが混じっている→混合性難聴.老人性難聴に多く見られる.上記の特徴を持つ. ● 聴力の損失を補う機器 ○ 補聴器 ■ 気導,骨導,軟骨伝導 ○ 人工内耳 ○ 補聴援助システム(Phonakのロジャーシリーズ) 補聴器とか人工内耳,Phonak(フォナック)のロジャーとかありますよね. 40

Slide 41

Slide 41 text

1.聴覚障害があることで日常生活でどう困るのか ● 音声や環境音の聞き取り,聞き分けが難しい ○ 音声や環境音の聴取が難しく,情報の内容がわからない ■ 音声認識,環境音認識,音源定位 ■ 音声強調,雑音抑制 ○ 発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ■ 音源分離,目的話者抽出 聴覚障害があることで日常生活でどう困るでしょうか? 41

Slide 42

Slide 42 text

1.聴覚障害があることで日常生活でどう困るのか ● 音声や環境音の聞き取り,聞き分けが難しい ○ 音声や環境音の聴取が難しく,情報の内容がわからない ■ 音声認識,環境音認識,音源定位 ■ 音声強調,雑音抑制 ○ 発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ■ 音源分離,目的話者抽出 音声や環境音の聞き取り,聞き分けが難しいですよね. 42

Slide 43

Slide 43 text

1.聴覚障害があることで日常生活でどう困るのか ● 音声や環境音の聞き取り,聞き分けが難しい ○ 音声や環境音の聴取が難しく,情報の内容がわからない ■ 音声認識,環境音認識,音源定位 ■ 音声強調,雑音抑制 ○ 発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ■ 音源分離,目的話者抽出 音声や環境音の聴取が難しく,情報の内容がわからない. 43

Slide 44

Slide 44 text

1.聴覚障害があることで日常生活でどう困るのか ● 音声や環境音の聞き取り,聞き分けが難しい ○ 音声や環境音の聴取が難しく,情報の内容がわからない ■ 音声認識,環境音認識,音源定位 ■ 音声強調,雑音抑制 ○ 発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ■ 音源分離,目的話者抽出 そんなときには音声認識で音声を文字に変えることで情報を得ることができます. 44

Slide 45

Slide 45 text

1.聴覚障害があることで日常生活でどう困るのか ● 音声や環境音の聞き取り,聞き分けが難しい ○ 音声や環境音の聴取が難しく,情報の内容がわからない ■ 音声認識,環境音認識,音源定位 ■ 音声強調,雑音抑制 ○ 発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ■ 音源分離,目的話者抽出 また,補聴器にもいろんな処理が入っています.音声強調とか雑音抑制とか. 45

Slide 46

Slide 46 text

1.聴覚障害があることで日常生活でどう困るのか ● 音声や環境音の聞き取り,聞き分けが難しい ○ 音声や環境音の聴取が難しく,情報の内容がわからない ■ 音声認識,環境音認識,音源定位 ■ 音声強調,雑音抑制 ○ 発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ■ 音源分離,目的話者抽出 また,複数人の発話の聞き分けって難しいですよね. 46

Slide 47

Slide 47 text

1.聴覚障害があることで日常生活でどう困るのか ● 音声や環境音の聞き取り,聞き分けが難しい ○ 音声や環境音の聴取が難しく,情報の内容がわからない ■ 音声認識,環境音認識,音源定位 ■ 音声強調,雑音抑制 ○ 発話の聞き分けが難しく,複数人が同時に話している ときに,特定の声に集中することが難しい ■ 音源分離,目的話者抽出 とくにグループワークとか飲み会とか.ほかにも苦労した場面があるかもしれません 47

Slide 48

Slide 48 text

1.聴覚障害があることで日常生活でどう困るのか ● 自己の発話の聴覚フィードバックが得にくい ○ 自分の声の音量や発音を調節するためのフィードバック が得にくく,発話が不明瞭に. ○ 状況は違うけど場面緘黙とか声が出しにくい状況とか ■ チャットとか,音声合成を使って文章の読み上げ. 聞き取りが難しいのは他人の声だけじゃなくて自分の発話もです. 48

Slide 49

Slide 49 text

1.聴覚障害があることで日常生活でどう困るのか ● 自己の発話の聴覚フィードバックが得にくい ○ 自分の声の音量や発音を調節するためのフィードバック が得にくく,発話が不明瞭に. ○ 状況は違うけど場面緘黙とか声が出しにくい状況とか ■ チャットとか,音声合成を使って文章の読み上げ. 耳から自分の発話の特徴や音量を確認するのが難しい. 49

Slide 50

Slide 50 text

1.聴覚障害があることで日常生活でどう困るのか ● 自己の発話の聴覚フィードバックが得にくい ○ 自分の声の音量や発音を調節するためのフィードバック が得にくく,発話が不明瞭に. ○ 状況は違うけど場面緘黙とか声が出しにくい状況とか ■ チャットとか,音声合成を使って文章の読み上げ. そうすると,音のずれを修正するのが難しくなり発話の明瞭度に影響します. 50

Slide 51

Slide 51 text

1.聴覚障害があることで日常生活でどう困るのか ● 自己の発話の聴覚フィードバックが得にくい ○ 自分の声の音量や発音を調節するためのフィードバック が得にくく,発話が不明瞭に. ○ 状況は違うけど場面緘黙とか声が出しにくい状況とか ■ チャットとか,音声合成を使って文章の読み上げ. それから,状況は違うんですけど場面緘黙とか様々な事情で声が出しにくいことが 51

Slide 52

Slide 52 text

1.聴覚障害があることで日常生活でどう困るのか ● 自己の発話の聴覚フィードバックが得にくい ○ 自分の声の音量や発音を調節するためのフィードバック が得にくく,発話が不明瞭に. ○ 状況は違うけど場面緘黙とか声が出しにくい状況とか ■ チャットとか,音声合成を使って文章の読み上げ. ありますよね.そこでチャットをしますが,気が付かれないこともあります. 52

Slide 53

Slide 53 text

1.聴覚障害があることで日常生活でどう困るのか ● 自己の発話の聴覚フィードバックが得にくい ○ 自分の声の音量や発音を調節するためのフィードバック が得にくく,発話が不明瞭に. ○ 状況は違うけど場面緘黙とか声が出しにくい状況とか ■ チャットとか,音声合成を使って文章の読み上げ. 最近FISH(3年の4人で構成されたチーム)がSekoeを出してましたが, 53

Slide 54

Slide 54 text

1.聴覚障害があることで日常生活でどう困るのか ● 自己の発話の聴覚フィードバックが得にくい ○ 自分の声の音量や発音を調節するためのフィードバック が得にくく,発話が不明瞭に. ○ 状況は違うけど場面緘黙とか声が出しにくい状況とか ■ チャットとか,音声合成を使って文章の読み上げ. 音声合成を使って文章の読み上げをすることで相手に伝えることができます. 54

Slide 55

Slide 55 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. では,ここからメインに入ります.まずは音声認識です. 55

Slide 56

Slide 56 text

2.音声認識-どんな方法で実現されてきたか ● ルールベース→統計モデル(HMM, GMM)→深層学習(DNN)と変遷 音声認識は音声を文字に変える技術です. 56 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 57

Slide 57 text

2.音声認識-どんな方法で実現されてきたか ● ルールベース→統計モデル(HMM, GMM)→深層学習(DNN)と変遷 最初はヒューリスティックとかDPマッチングとかルールベースで作られました. 57 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 58

Slide 58 text

2.音声認識-どんな方法で実現されてきたか ● ルールベース→統計モデル(HMM, GMM)→深層学習(DNN)と変遷 そして統計モデルに,混合正規分布とか隠れマルコフモデルとかに代わりました. 58 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 59

Slide 59 text

2.音声認識-どんな方法で実現されてきたか ● ルールベース→統計モデル(HMM, GMM)→深層学習(DNN)と変遷 最近では,ニューラルネットによる処理に置き換わり,CNNやRNN,DNNなど 59 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 60

Slide 60 text

2.音声認識-どんな方法で実現されてきたか ● ルールベース→統計モデル(HMM, GMM)→深層学習(DNN)と変遷 一つのモデルとしてまとめて音声認識処理をするようになってきています. 60 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 61

Slide 61 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 これは確率モデルでの音声認識システムの図です. 61 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 62

Slide 62 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 音声入力があって,サンプリングレートとかノイズ除去とかの信号処理を行って, 62 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 63

Slide 63 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 ベイズ確率がもとになっている音声認識エンジンで文字へと変換されます. 63 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 64

Slide 64 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 エンジンの中には,音響モデル,単語辞書,言語モデルといくつかレイヤがあります. 64 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 65

Slide 65 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 先ほどいろいろレイヤが出てきていたんですが,それを内部でまとめて処理している65 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 66

Slide 66 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 のがEnd-to-Endの特徴です.音声入力をしてモデルに入れると文字が出てくる. 66 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 67

Slide 67 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 内部の処理はブラックボックスで,手法による効果,結果との分析が難しくなります. 67 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 68

Slide 68 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 音声認識に関わる学問はざっと書き出しただけでもこんなにあります. 68 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 69

Slide 69 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 音声ひとつとっても音声学やら音韻論やら小児や高齢者の発音の違いとか 69 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 70

Slide 70 text

2.音声認識-関わる学問 ● 音声学 ● 音響学 ● 信号処理 ○ フーリエ変換 ● 確率論(ベイズ確率) ● 自然言語処理 ● 機械学習 とにかくやればやるほどやるべきものがどんどん積みあがっていく毎日です.(今も 70 河原達也. (2018). 音声認識技術の変遷と最先端 ――深層学習による End-to-End モ デル――. 日本音響学会誌, 74(7), 381-386.より引用

Slide 71

Slide 71 text

2.音声認識-キーワード ● E2E (End-to-End) →一つの統合モデルで直接処理. ○ CTC, Attention, RNN, DNN ● Automatic Speech Recognition ; ASR ● Streaming →リアルタイム処理.できるだけ低遅延で. ● Robust →頑健.ノイズの影響を受けにくい. ● Adaption →特定の話者,環境に合わせてパーソナライズ ○ 話者適応,環境適応 調べるときのキーワードとしてはこんな感じ. 71

Slide 72

Slide 72 text

2.音声認識-キーワード ● E2E (End-to-End) →一つの統合モデルで直接処理. ○ CTC, Attention, RNN, DNN ● Automatic Speech Recognition ; ASR ● Streaming →リアルタイム処理.できるだけ低遅延で. ● Robust →頑健.ノイズの影響を受けにくい. ● Adaption →特定の話者,環境に合わせてパーソナライズ ○ 話者適応,環境適応 音声認識の課題としては,遅延だったり精度,いろんな人の声に対応するなど, 72

Slide 73

Slide 73 text

2.音声認識-キーワード ● E2E (End-to-End) →一つの統合モデルで直接処理. ○ CTC, Attention, RNN, DNN ● Automatic Speech Recognition ; ASR ● Streaming →リアルタイム処理.できるだけ低遅延で. ● Robust →頑健.ノイズの影響を受けにくい. ● Adaption →特定の話者,環境に合わせてパーソナライズ ○ 話者適応,環境適応 まだまだ解く問題がありますよね.適応とかは興味がありそうな人が何人かいそう. 73

Slide 74

Slide 74 text

2.音声認識-文献 まず読んだのはこの3冊.もちろんほかにもいっぱいあるけどまず読むべきはこれ. 74 Pythonで学ぶ音声認識 機械学習実践シリーズ IT Text 音声認識 システム(改訂2版) 機械学習による 音声認識

Slide 75

Slide 75 text

2.音声認識-文献 ● 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386. ● Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). ● Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. これは日本語と英語それぞれでの音声認識の概要論文です. 75

Slide 76

Slide 76 text

2.音声認識-文献 ● 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386. ● Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). ● Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 30ページ以上?あるので読むのは大変だし,次々と知らない単語が出てきます. 76

Slide 77

Slide 77 text

2.音声認識-文献 ● 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386. ● Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). ● Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 自分も1,2年読んでるけど,なんだかんだ研究に集中してて全部は読めてません. 77

Slide 78

Slide 78 text

2.音声認識-文献 ● 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386. ● Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). ● Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. ざっくり何度か通読したけど,細かい流れは追えてないです...orz 78

Slide 79

Slide 79 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. さて,次は音源分離とか音声強調の話です. 79

Slide 80

Slide 80 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている 音源分離,音声強調,雑音抑制,似てるんですけど処理の目的が違います. 80

Slide 81

Slide 81 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている 音源分離は,複数の音源から,分ける.特定の音源を取り出す処理です. 81

Slide 82

Slide 82 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている マイクアレイと呼ばれる物理的なアプローチからDNNまでいろんな手法があります. 82

Slide 83

Slide 83 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている 続いて,音声強調.これは信号から音声だと思われる特徴だけを強化して, 83

Slide 84

Slide 84 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている ノイズを抑えるようにして,入力信号に対して重みづけをしています. 84

Slide 85

Slide 85 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている ただ増幅するだけだと歪み(ひずみ)も大きくなるのが難しい処理です. 85

Slide 86

Slide 86 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている そして,雑音抑制.入力信号から背景ノイズを除去します.多いのは環境音ですね. 86

Slide 87

Slide 87 text

2.音源分離,音声強調,雑音抑制 ● よく似ているが目的が異なる. ● 音源分離 ○ 複数の音源が混ざった音声から,特定の音源を分離・抽出する ● 音声強調 ○ 音声っぽい信号成分を強化して,聞き取りやすく ○ 補聴器にも入っている ● 雑音抑制 ○ 不要な背景ノイズを除去.主にエアコンや風の音など環境音が対象. ○ 補聴器にも入っている 音声強調,雑音抑制は補聴器にも入っています. 87

Slide 88

Slide 88 text

2.音源分離,音声強調,雑音抑制-キーワード ● Blind Source Separation; BSS ● Masking ● 独立成分分析 (Independent Component Analysis; ICA) ● Speech Enhancement ● Noise Reduction ● SNR (Signal-to-Noise Rate; SNR) ● Fourier Transform →FFT, SFTT, DFT キーワードはこんな感じ.英語の文献が充実しているので英語多めです. 88

Slide 89

Slide 89 text

2.音源分離,音声強調,雑音抑制-キーワード ● Spectrogram ● メル周波数ケプストラム (Mel-Frequency Cepstral Coefficients; MFCC) ● Wienerフィルタ ● 窓関数→矩形窓,ハン窓,ハミング窓,ブラックマン窓 ● ビームフォーミング ● 最小平均二乗誤差 (Minimum Mean Square Error; MMSE) あとはこんなキーワードとか. 89

Slide 90

Slide 90 text

2.音源分離,音声強調,雑音抑制-文献 本だけじゃなくてスライドもあります.これは去年6月の音学シンポジウムの 90 Pythonで学ぶ音源分離 (機械学習実践シリーズ) 深層学習を利用した音声強調 音源分離技術の基礎と応用

Slide 91

Slide 91 text

2.音源分離,音声強調,雑音抑制-文献 招待講演で使われたスライドです.めっちゃ読んでて楽しいのでぜひ. 91 Pythonで学ぶ音源分離 (機械学習実践シリーズ) 深層学習を利用した音声強調 音源分離技術の基礎と応用

Slide 92

Slide 92 text

2.音源分離-文献 ● 戸上真人. (2023). 音源分離技術の基礎と動向―確率モデル/深層学 習に基づく方法の概観―. 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review, 16(4), 257-271. ● https://github.com/tky823/DNN-based_source_separati on/blob/main/README_ja.md ● Wang, D., & Chen, J. (2018). Supervised speech separation based on deep learning: An overview. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(10), 1702-1726. そして概要論文です. 92

Slide 93

Slide 93 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 最後に音声合成. 93

Slide 94

Slide 94 text

2.音声合成 ● Text-to-Speech; TTS ● テキストから音声を合成 ● 音声認識の逆の操作 ● 音声のパラメータ(音高,持続時間,声質など)をモデル化 専門外なのでここは薄いです.まあやってるのは音声認識の逆の操作です. 94

Slide 95

Slide 95 text

2.音声合成-キーワード ● Text-to-Speech; TTS ● フォルマント合成 ● 調音 ● 音声符号化 ● WaveNet ● 音声変換 ● ピッチ制御 ● パラメトリック合成 キーワードです. 95

Slide 96

Slide 96 text

2.音声合成-文献 ● 文献とスライドです.東大の資料むずいけどオススメです. 96 Pythonで学ぶ音声合成 機械学習実践シリーズ 東京大学 応用音響学 東京大学 信号処理論特論第7回 (2018/06/05)

Slide 97

Slide 97 text

2.音声合成-文献 ● Tan, X., Qin, T., Soong, F., & Liu, T. Y. (2021). A survey on neural speech synthesis. arXiv preprint arXiv:2106.15561. ● Triantafyllopoulos, A., Schuller, B. W., İymen, G., Sezgin, M., He, X., Yang, Z., ... & Tao, J. (2023). An overview of affective speech synthesis and conversion in the deep learning era. Proceedings of the IEEE. そして概要論文,最近の状況はこちらから. 97

Slide 98

Slide 98 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. では,技大では何を学べるでしょうか.シラバスをみてみましょう. 98

Slide 99

Slide 99 text

3.本学の講義から何を学べるかシラバスを見てみよう ● 数学→高校数学の復習,行列計算 ● 解析学→微積分 ● 線形代数学→行列計算 ● 聴覚科学→聴覚障害,聴覚の原理,補聴器,人工内耳 ● 統計・確率A〜D→正規分布,ANOVAとか.ベイズは自分で. ● 信号処理論・演習→フーリエ変換とか.Pythonを使って手を動かす. ● 機械学習・演習→画像認識,DNN,PyTorch,CNN,Transformer ● 音声・音響工学→音声の声質,音声情報処理,音声認識,音声合成 まあこんな感じです.一つ注意なのが,ベイズ確率は多分講義ではやらないはず. 99

Slide 100

Slide 100 text

3.本学の講義から何を学べるかシラバスを見てみよう ● 数学→高校数学の復習,行列計算 ● 解析学→微積分 ● 線形代数学→行列計算 ● 聴覚科学→聴覚障害,聴覚の原理,補聴器,人工内耳 ● 統計・確率A〜D→正規分布,ANOVAとか.ベイズは自分で. ● 信号処理論・演習→フーリエ変換とか.Pythonを使って手を動かす. ● 機械学習・演習→画像認識,DNN,PyTorch,CNN,Transformer ● 音声・音響工学→音声の声質,音声情報処理,音声認識,音声合成 なので自分で勉強しましょう.. 100

Slide 101

Slide 101 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 最近のトレンドについて最後に話して終わります. 101

Slide 102

Slide 102 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある 自分が卒研やるなかで見聞きしたプロジェクト,研究例です. 102

Slide 103

Slide 103 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある Googleは聴覚障害者とかALSとか様々な理由で発話が難しい場合に, 103

Slide 104

Slide 104 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある 流暢な音声へと変換するプロジェクトがあります.まだデータを集めている段階? 104

Slide 105

Slide 105 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある NTTのコミュニケーション科学基礎研究所のSpeakerBeam. 105

Slide 106

Slide 106 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある これは,自分が聞き取りたい人の声を取り出す研究です. 106

Slide 107

Slide 107 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある 既存の音源分離モデルの中に,特定の話者に合わせた適応ネットワークを乗算する 107

Slide 108

Slide 108 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある ことで,目的話者の発話の抽出したモデルになります. 108

Slide 109

Slide 109 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある これを3年後期に見つけて研プロDから使っていました. 109

Slide 110

Slide 110 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある あとは補聴器での音声明瞭度向上のためのチャレンジもあります. 110

Slide 111

Slide 111 text

4.最近のトレンド ● GoogleのParrotron→構音障害者の発話を流暢な音声へと変換 ● NTTCS研のSpeakerBeam→目的話者抽出 ● Clarity Enhancement Challenge for Hearing Aid Speech Intelligibility Enhancement ○ 補聴器を使ったときの音声明瞭度強調に関するチャレンジ ● ほかにもまだまだある データが与えられて,こんな技術で良くなったよ!みてみて!どやぁします. 111

Slide 112

Slide 112 text

4.2024-02-19時点での最先端/SOTA (State-of-the-Art) ● Whisper (OpenAI) →タブン最高精度の音声認識モデル ○ 68万時間分の多言語音声データ ○ 最近国内でもOSSの音声認識モデルが続出. ● Conv-TasNet → 音源分離モデル ○ 時間領域に注目して入力音声を直接処理 ○ 畳み込みで次元削減するのが特徴 音声認識と音源分離の最先端モデルはWhisperとConv-TasNetです. 112

Slide 113

Slide 113 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声信号処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. 最後にまとめです. 113

Slide 114

Slide 114 text

5.まとめ ● 音声認識,音源分離,音声合成について ● 本学で何を学べるか-「基礎的なこと」は学べる ○ 実際に研究・開発を始めるには足りない ○ 自分で勉強,輪読(ゼミとか研究室で.),LLMを活用 ● このスライドから学習の手がかりはつかめるはず ● おまけにもオススメ本とか調べ方とか書いてます.みてね! 今日は音声認識,音源分離,音声合成について紹介しました. 114

Slide 115

Slide 115 text

5.まとめ ● 音声認識,音源分離,音声合成について ● 本学で何を学べるか-「基礎的なこと」は学べる ○ 実際に研究・開発を始めるには足りない ○ 自分で勉強,輪読(ゼミとか研究室で.),LLMを活用 ● このスライドから学習の手がかりはつかめるはず ● おまけにもオススメ本とか調べ方とか書いてます.みてね! このスライドや参考文献が研プロ,研究での参考になれば幸いです. 115

Slide 116

Slide 116 text

今日話すこと 1. 聴覚障害があると生活でどんなことで困る? 2. 聴覚障害と音声情報処理 a. 音声認識-音声を文字に変えて,文字での情報提供 b. 音声強調,雑音抑制-補聴器はどうやって補聴してくれているのか? c. 音声合成-口話が難しい場合の発信手段として文字の読み上げ 3. 本学の講義で何を学べるかシラバスを見てみよう 4. 最近のトレンド〜プロジェクト・研究・開発・プロダクト〜 5. まとめ 6. 参考文献として勉強に使える文献,サイト,ソフトなど. おまけの参考文献です.結構あります. 116

Slide 117

Slide 117 text

6.参考文献(人によってはこっちがメイン?) ● 音声を学ぶ,処理するためのソフト ● 音声情報処理に関わるシリーズ,オススメ本,講義資料 ● その技術の基礎を学外で学ぶには ● その技術の基礎を学ぶには ● その技術の概要,近況を学ぶには ● 学会もあるよ! ● 参考文献 こんな感じの内容が付録に入ってます. 117

Slide 118

Slide 118 text

音声を学ぶ,処理するためのソフト 音声を処理するソフトは主に4つあります. 118 Audacity Praat MATLAB Python 音声データ編集 音声分析 高度な数学的モデリング 科学技術計算 豊富なライブラリ インタプリタ言語

Slide 119

Slide 119 text

音声を学ぶ,処理するためのソフト Audacityは音声データの編集やスペクトログラムを見たりすることができます. 119 Audacity Praat MATLAB Python 音声データ編集 音声分析 高度な数学的モデリング 科学技術計算 豊富なライブラリ インタプリタ言語

Slide 120

Slide 120 text

音声を学ぶ,処理するためのソフト Praat(ぷらーと)は音声学でよく使われる音声分析ソフトです. 120 Audacity Praat MATLAB Python 音声データ編集 音声分析 高度な数学的モデリング 科学技術計算 豊富なライブラリ インタプリタ言語

Slide 121

Slide 121 text

音声を学ぶ,処理するためのソフト MATLABは大学PCにも入ってる便利な計算言語です.あんま使ったことないけど. 121 Audacity Praat MATLAB Python 音声データ編集 音声分析 高度な数学的モデリング 科学技術計算 豊富なライブラリ インタプリタ言語

Slide 122

Slide 122 text

音声を学ぶ,処理するためのソフト そしてみんな大好きPython,早く動かせるので実験,研究でよく使われます. 122 Audacity Praat MATLAB Python 音声データ編集 音声分析 高度な数学的モデリング 科学技術計算 豊富なライブラリ インタプリタ言語

Slide 123

Slide 123 text

音声情報処理に関わるシリーズ,オススメ本,講義資料 ● 音響テクノロジーシリーズ ● 次世代信号情報処理シリーズ ● 音響学講座 ● 「音響学」を学ぶ前に読む本 ● 東京大学 音響音声学 ● 東京大学 応用音響学 ● 東京大学 信号処理論特論 ● まだまだあるよ! 本とか講義資料はこんな感じのを読んでおけばいいと思います. 123

Slide 124

Slide 124 text

その技術の基礎を学外で学ぶには ● “OCW”(Open Cource Ware), “講義資料”, “pdf” ○ 大学が無料で公開しているオンラインのコースウェア(教材) ○ MIT(マサチューセッツ工科大学)での取り組みがはじまり ○ 動画資料も公開されていることもある ● セミナー,講座,検定 ○ 統計検定 ○ G検定,E検定 あとはOCWを見たり,学外の講座,検定とかもやってみるとよさそうです. 124

Slide 125

Slide 125 text

その技術の基礎を学ぶには こんな感じで調べると,今のGoogleは提案してくれます. 125

Slide 126

Slide 126 text

その技術の概要,近況を学ぶには ● “概要論文”, “overview”, “review”, “sota”と検索ワードに入れる とその技術の概要として,これまでの歴史や使われてきた手法が網羅さ れた論文が見つかりやすい ● 大まかに流れをつかむことができる ● 日本語だけじゃなくて英語でも調べること ● 参考文献が大量なので次の一歩に踏み出す材料がいっぱいある あとは論文を調べるときにこんなキーワードを含めるといいです. 126

Slide 127

Slide 127 text

学会もあるよ! ● 音声コミュニケーション研究会 ○ 2024–03-20(水) オンライン ● 第151回(2024年春季)研究発表会 ○ 2024-03-06(水)〜08(金) 拓殖大学 ● 第152回(2024年秋季)研究発表会 ○ 2024-09-04(水)〜06(金) 関西大学 ● https://acoustics.jp/events/schedule/ 学会もあります. 127

Slide 128

Slide 128 text

参考文献-音声認識 ● 河原達也. (2018). 音声認識技術の変遷と最先端――深層学習による End-to-End モデル――. 日本音響学会誌, 74(7), 381-386. ● Li, J. (2022). Recent advances in end-to-end automatic speech recognition. APSIPA Transactions on Signal and Information Processing, 11(1). ● Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR. 128

Slide 129

Slide 129 text

参考文献-音声認識 ● Pythonで学ぶ音声認識 ● IT Text 音声認識システム ● 機械学習による音声認識 129

Slide 130

Slide 130 text

参考文献-音源分離,音声強調 ● Pythonで学ぶ音源分離 ● 深層学習を利用した音声強調  https://www.slideshare.net/yumakoizumi75/ss-250029 132 ● 音源分離技術の基礎と応用〜音源分離チョットワカルになるための手引き〜 https://www.docswell.com/s/d-kitamura/ZQ898R-2023 0624 130

Slide 131

Slide 131 text

参考文献-音源分離,音声強調 ● 戸上真人. (2023). 音源分離技術の基礎と動向―確率モデル/深層学 習に基づく方法の概観―. 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review, 16(4), 257-271. ● https://github.com/tky823/DNN-based_source_separati on/blob/main/README_ja.md ● Wang, D., & Chen, J. (2018). Supervised speech separation based on deep learning: An overview. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(10), 1702-1726. 131

Slide 132

Slide 132 text

参考文献-音源合成 ● Pythonで学ぶ音声合成 ● 東京大学 猿渡・高道研究室 講義資料 https://sp.ipc.i.u-tokyo.ac.jp/lecture ● Tan, X., Qin, T., Soong, F., & Liu, T. Y. (2021). A survey on neural speech synthesis. arXiv preprint arXiv:2106.15561. ● Triantafyllopoulos, A., Schuller, B. W., İymen, G., Sezgin, M., He, X., Yang, Z., ... & Tao, J. (2023). An overview of affective speech synthesis and conversion in the deep learning era. Proceedings of the IEEE. 132

Slide 133

Slide 133 text

スライドのこだわり ● フォントは BIZ UDPGothic ○ モリサワのUniversal Design (UD) なゴシックフォント ○ UDP はすべての文字種が等幅で表示されるようにしている ○ 読みやすさと美しさを兼ね備えたフォント ● 背景色は柔らかな印象を与える淡い色に.長時間でも読んで疲れにくい. ● 文字色は黒色でコントラストを効かせて読みやすく. ● 主に,大見出し,内容,字幕,スライド番号で構成しています. ● 作図はdraw.io(ER図とかアーキテクチャ作るのに便利)で. ● 1ページに1つの主張. ● このスライドテンプレを配布してます.ご興味があればリンクかQRコードから. ちなみにこのスライド色々こだわりがあります.テンプレはQRコードからどうぞ. 133