Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コンピュータによる音の表現

 コンピュータによる音の表現

2023/5/24更新

Naoki Kato

July 17, 2019
Tweet

More Decks by Naoki Kato

Other Decks in Education

Transcript

  1. by Naoki Kato © Naoki Kato © Naoki Kato コンピュータにおける情報の表現

    情報をビット列で表現すると コンピュータに入力(記憶)することができる なんらかの処理をすることができる はじめに ⽂字や絵図 映像 ⾳楽
  2. by Naoki Kato © Naoki Kato © Naoki Kato 標本化

    一定の間隔を置いてデータを取り出す 3時間おきに取り出す アナログデータのディジタル化 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324
  3. by Naoki Kato © Naoki Kato © Naoki Kato 量子化

    離散的な値に近似 2.5度置きの値に近似 標本化は時空間の量子化 アナログデータのディジタル化 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324
  4. by Naoki Kato © Naoki Kato © Naoki Kato 符号化

    離散的な値にコード(ビット列)を割当 22.5度を000,35度を111 アナログデータのディジタル化 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324 000 010 100 110 101 011 001 111 011 011 101 110 110 101 011 011・・・
  5. by Naoki Kato © Naoki Kato © Naoki Kato 音は空気の振動波

    周波数の違いが音の高低の違いとなる 音の基本 波長:0.01秒 周波数:100Hz ド レ 時間
  6. by Naoki Kato © Naoki Kato © Naoki Kato オクターブ

    周波数が倍になると,1オクターブ上 音の基本
  7. by Naoki Kato © Naoki Kato © Naoki Kato 実際の音(音色)

    基本の周波数に加え,倍の周波数,三倍の周波数, などの音がまざったもの 音の基本
  8. by Naoki Kato © Naoki Kato © Naoki Kato 実際の音(音色)

    音の強弱(ビブラート)も音色として感じる 音の基本 + ポーン
  9. by Naoki Kato © Naoki Kato © Naoki Kato 聴覚とは

    音の基本 空気の振動 ⿎膜 ((((((((((((((((((((((((((((((( 蝸⽜ リンパ液が振動 基底膜 周波数によって 振動する場所が変わる 有⽑細胞から内⽿神経へ
  10. by Naoki Kato © Naoki Kato © Naoki Kato 音のサンプリング(標本化)

    一定周期(標本化周期)ごとの波の強さを記録 サンプリングレート =1/標本化周期 =標本化周波数 音のディジタル表現
  11. by Naoki Kato © Naoki Kato © Naoki Kato 音の強さの量子化と符号化

    波(音)の強さを段階的表現(量子化)し, 新しい値(コード)を与える(符号化) 音のディジタル表現 強さ 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001
  12. by Naoki Kato © Naoki Kato © Naoki Kato コンピュータが生成する正弦波を聞いて

    みよう http://lab.bmoon.jp/joho/sws/ 「ド」を探してみよう! 演習:音のディジタル表現
  13. by Naoki Kato © Naoki Kato © Naoki Kato サンプリング定理とは

    波を構成する正弦波のうち, 最高周波数 f’’ の 2 よりも高い周波数で サンプリングすれば,忠実に再現可能 サンプリング定理 周波数 f 周波数 f’ 周波数 f’’
  14. by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?

    1周期に何回とれば再現可能 サンプリング定理
  15. by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?

    1周期に2回以下だと サンプリング定理 v 0 標 本 化 周 波 数 折 り 返 し 成 分
  16. by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?

    1周期に2回より多くとっても・・・ サンプリング定理 v 0 標 本 化 周 波 数
  17. by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?

    1周期に2回より多くとっても 折り返し成分がないことが保障できれば 標本化周波数より低いものが元の周波数 サンプリング定理 v 0 標 本 化 周 波 数 これ
  18. by Naoki Kato © Naoki Kato © Naoki Kato サンプリング定理とは

    最高周波数 f’’ の 2 倍より大きな周波数で サンプリング すべての周波数の正弦波が忠実に再現 元の波も忠実に再現 サンプリング定理 周波数 f 周波数 f’ 周波数 f’’
  19. by Naoki Kato © Naoki Kato © Naoki Kato エイリアシング

    2×f’’ 以下でサンプリングすると サンプリング定理 f f’ f’’ v 0 標 本 化 周 波 数 元にはない低い⾳が⼊り込む
  20. by Naoki Kato © Naoki Kato © Naoki Kato アンチエイリアシング

    周期gでサンプリングするときは g/2 以上をカット サンプリング定理 f f’ f’’
  21. by Naoki Kato © Naoki Kato © Naoki Kato サンプリングしたデータのサイズ

    サンプリング周波数:44.1kHz 量子化ビット:16bit チャンネル数:2チャンネル(ステレオ) 1秒間につき 44100×16×2 ≒1,411,200bit ビットレート:1411kbps 5分の曲だと 1,411,200×5×60 = 423,360,000bit ≒ 53,000,000byte = 53MByte ≒ CD には14曲くらい マルチメディアデータのサイズ
  22. by Naoki Kato © Naoki Kato © Naoki Kato データ圧縮

    マルチメディアデータのデータ量は膨大 データ圧縮が重要となる 可逆圧縮 完全に元に戻せるが,圧縮率は低い あらゆる種類のデータに適用 非可逆圧縮 元に戻すことはできないが,圧縮率が高い データの種類ごとに異なる手法 マルチメディアデータでは, 非可逆圧縮 可逆圧縮の順に行うことが多い マルチメディアデータのサイズ
  23. by Naoki Kato © Naoki Kato © Naoki Kato 可逆圧縮

    ランレングス符号 繰り返しの無駄をはぶく LZW圧縮 辞書を用いた圧縮法 パタン(単語)に対して符号を与える マルチメディアデータのサイズ AAABBCCCCCAC A3B2C5A1C1
  24. by Naoki Kato © Naoki Kato © Naoki Kato 可逆圧縮

    ハフマン符号 出現確率に基づいて最適な符号を与える 5文字表現するには 3bit 必要なので 3×21 = 63bit 必要 ※個数の多いほうに1,少ない方に0 4bit×1+4bit×3+3bit×4+2bit×5+1bit×8 = 46bit マルチメディアデータのサイズ AAAAABBCABDDDEEAABDDE 個数 字 1 C 3 E 4 B 5 D 8 A 4 13 8 0 1 0 0 1 1 1 0 C 0011 E 1011 B 111 D 01 A 0
  25. by Naoki Kato © Naoki Kato © Naoki Kato 音データにおける独特な非可逆圧縮技術

    過少可聴限界 聞こえない音を無視 マスキング レベルの高い周波数の周りの周波数を無視 レベルの高い音の前後を無視 などなど マルチメディアデータのサイズ
  26. by Naoki Kato © Naoki Kato © Naoki Kato マスキング現象(静的スペクトルマスキング)

    聞こえる音の大きさ マルチメディアデータのサイズ 強度⽐ 106倍 1012倍 0 60 120 強度(dB) 1018倍 180 0 20 100 1k 10k 可聴限界 可聴閾 ささやき 会話 叫び声 雷鳴 痛覚閾
  27. by Naoki Kato © Naoki Kato © Naoki Kato マスキング現象(動的スペクトルマスキング)

    周波数が近い音がはいってくると 低音の振動が高音の振動にかぶる 高音が聞こえない マルチメディアデータのサイズ ⾼い⾳で振動 低い⾳で振動 蝸⽜の⼊り⼝側 10kHzだとこのように振動 100Hzだとこのように振動 基底膜 強さ
  28. by Naoki Kato © Naoki Kato © Naoki Kato マスキング現象(テンポラルマスキング)

    大きな音が入ってくると 音が消えてもしばらく振動(細胞も活性化したまま) 小さめの音が入ってきてもうまく聞こえない マルチメディアデータのサイズ 強さ 次の⾳ ) ) ))) ) ) ) ))) )
  29. by Naoki Kato © Naoki Kato © Naoki Kato ファイル形式とコーデック

    コーデック 音データの符号化・複合化方式 ファイル形式(コンテナ) 符号化した音データを格納するファイルの形式 音のデータファイル コンテナ コーデック(圧縮形式) WAV PCM(⾮圧縮), ADPCM, WMA, MP3, など AIFF 標準AIFF(⾮圧縮) MPEG MPEG Audio Layer Ⅰ,Ⅱ,Ⅲ MP4 AAC, MP3, Apple Lossless MP3 MP3
  30. by Naoki Kato © Naoki Kato © Naoki Kato 標準的ファイルフォーマット

    WAV:Windows Vista まで標準の音声記録用 WAVコンテナに非圧縮のLPCMデータを格納 WMA ASFコンテナにWMAコーデックを格納 AIFF:Mac標準の音声記録用 AIFFコンテナに非圧縮のLPCMデータを格納 音のデータファイル
  31. by Naoki Kato © Naoki Kato © Naoki Kato よく使われるファイルフォーマット

    MP3:MPEG Audio Layer-3 WAVコンテナにMP3コーデックのデータを格納 ビットレート128kbpsでは15kHzあたり以上をカット ビットレート192kbpsでは21kHzあたり以上をカット CDのビットレートの 1/10 MP3コーデックのデータを格納できるコンテナ AVI,MOV,MP4,MPEG-2システム,Ogg,ASF 音のデータファイル
  32. by Naoki Kato © Naoki Kato © Naoki Kato よく使われるファイルフォーマット

    MP4:MPEG 4-AAC MP4コンテナにAACコーデックのデータを格納 MP3より高圧縮率・高音質を目標 ビットレート128kbpsでは18kHzあたり以上をカット RealAudio 様々なコーデックを組合せて格納 ストリーミングに対応 音のデータファイル
  33. by Naoki Kato © Naoki Kato © Naoki Kato 可逆圧縮を用いたファイルフォーマット

    Apple Lossless コーデック m4a:MP4コンテナに格納 mov:MOVコンテナに格納(QuickTime) FLACコーデック fla:FLACコンテナに格納 ogg:Oggコンテナに格納 音のデータファイル
  34. by Naoki Kato © Naoki Kato © Naoki Kato 123appsのオーディオコンバータで

    WAVファイルを M4A(高品質,最高品質) MP3(標準,エコノミー) に変換して, ファイルサイズと音質を比較しよう 演習
  35. by Naoki Kato © Naoki Kato © Naoki Kato お

    おし しま まい い 音の表現