Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
コンピュータによる音の表現
Search
Naoki Kato
PRO
July 17, 2019
Education
2
490
コンピュータによる音の表現
2025年度更新
Naoki Kato
PRO
July 17, 2019
Tweet
Share
More Decks by Naoki Kato
See All by Naoki Kato
デジタル教科書の現在地と今後の展望
naokikato
PRO
0
43
複数カメラ活用による授業の遠隔参観や収録コンテンツ開発の促進
naokikato
PRO
0
28
教育DXの推進に向けて
naokikato
PRO
0
20
個別最適な学びと協働的な学びから児童の学びを深めさせるICT機器の活用
naokikato
PRO
1
33
なぜDXが必要なのか 〜教育の情報化の現状と展望〜
naokikato
PRO
0
35
教科書の捉えの変化
naokikato
PRO
0
38
教育現場における生成AIの活用とこれからの学校
naokikato
PRO
0
120
学校や家庭における効果的なICTの活用
naokikato
PRO
0
95
学校や家庭における効果的なICTの活用
naokikato
PRO
0
27
Other Decks in Education
See All in Education
人になにかを教えるときに考えていること(2025-05版 / VRC-LT #18)
sksat
4
1k
Visualisation Techniques - Lecture 8 - Information Visualisation (4019538FNR)
signer
PRO
0
2.4k
マネジメント「される側」 こそ覚悟を決めろ
nao_randd
10
5.4k
アントレプレナーシップ教育 ~ 自分で自分の幸せを決めるために ~
yoshizaki
0
130
미국 교환학생 가서 무료 홈스테이 살면서 인턴 취업하기
maryang
0
110
GitHubとAzureを使って開発者になろう
ymd65536
1
130
2025年度春学期 統計学 第10回 分布の推測とは ー 標本調査,度数分布と確率分布 (2025. 6. 12)
akiraasano
PRO
0
150
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
470
推しのコミュニティはなんぼあってもいい / Let's join a lot of communities.
kaga
2
1.8k
モンテカルロ法(3) 発展的アルゴリズム / Simulation 04
kaityo256
PRO
7
1.3k
今も熱いもの!魂を揺さぶる戦士の儀式:マオリ族のハカ
shubox
0
210
2025年度春学期 統計学 第5回 分布をまとめるー記述統計量(平均・分散など) (2025. 5. 8)
akiraasano
PRO
0
130
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.4k
Rails Girls Zürich Keynote
gr2m
95
14k
Designing Experiences People Love
moore
142
24k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Scaling GitHub
holman
460
140k
Become a Pro
speakerdeck
PRO
29
5.4k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
by Naoki Kato ©Naoki Kato ©Naoki Kato 音の表現 Computer Science,
Engineering and Literacy
by Naoki Kato © Naoki Kato © Naoki Kato コンピュータにおける情報の表現
情報をビット列で表現すると コンピュータに入力(記憶)することができる なんらかの処理をすることができる はじめに ⽂字や絵図 映像 ⾳楽
by Naoki Kato © Naoki Kato © Naoki Kato 標本化
一定の間隔を置いてデータを取り出す 3時間おきに取り出す アナログデータのディジタル化 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324
by Naoki Kato © Naoki Kato © Naoki Kato 量子化
離散的な値に近似 2.5度置きの値に近似 標本化は時空間の量子化 アナログデータのディジタル化 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324
by Naoki Kato © Naoki Kato © Naoki Kato 符号化
離散的な値にコード(ビット列)を割当 22.5度を000,35度を111 アナログデータのディジタル化 0 5 10 15 20 25 30 35 40 1 2 3 4 5 6 7 8 9 101112131415161718192021222324 000 010 100 110 101 011 001 111 011 011 101 110 110 101 011 011・・・
by Naoki Kato © Naoki Kato © Naoki Kato 音は
音の基本
by Naoki Kato © Naoki Kato © Naoki Kato 音は空気の振動波
音の基本 波長:0.01秒 = 周波数:100Hz 時間
by Naoki Kato © Naoki Kato © Naoki Kato 音を感じる聴覚とは
音の基本 空気の振動 ⿎膜 ((((((((((((((((((((((((((((((( 蝸⽜ リンパ液が振動 基底膜 周波数によって 振動する場所が変わる 有⽑細胞から内⽿神経へ
by Naoki Kato © Naoki Kato © Naoki Kato 音は空気の振動波
周波数の違いを音の高低の違いとして認識する 音の基本 波長:0.01秒 ド レ 時間 = 周波数:100Hz
by Naoki Kato © Naoki Kato © Naoki Kato オクターブ
周波数が倍になると,1オクターブ上 音の基本
by Naoki Kato © Naoki Kato © Naoki Kato 実際の音(音色)
基本の周波数に加え,倍の周波数,三倍の周波数, などの音がまざったもの 音の基本
by Naoki Kato © Naoki Kato © Naoki Kato 実際の音(音色)
音の強弱(ビブラート)も音色として感じる 音の基本 + ポーン
by Naoki Kato © Naoki Kato © Naoki Kato 音のサンプリング(標本化)
一定周期(標本化周期)ごとの波の強さを記録 サンプリングレート =1/標本化周期 =標本化周波数 音のディジタル表現
by Naoki Kato © Naoki Kato © Naoki Kato 音の強さの量子化と符号化
波(音)の強さを段階的表現(量子化)し, 新しい値(コード)を与える(符号化) 音のディジタル表現 強さ 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001
by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?
元の周期の1/12周期で取ると その点を通る正弦波に戻せる サンプリング定理 ただし より短波長(高周波)の正弦波は いくらでも考えられるので無視
by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?
サンプリング点を通る正弦波を作るが, 波長の短い高周波の正弦波はいくらでも作れるので もっとも長波長(低周波)を選択する サンプリング定理 v 0 標 本 化 周 波 数 より大きい成分 は捨てる
by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?
では1周期に何回とれば再現可能だろうか 6回?5回?4回?3回?2回?1回? サンプリング定理
by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?
サンプリング定理 3回 2回 2回未満 2回未満
by Naoki Kato © Naoki Kato © Naoki Kato 正弦波を再現するためには?
1周期に2回以下だとどうなる? サンプリング定理 v 0 標 本 化 周 波 数 折 り 返 し 成 分 元の周波数 よりも 長波長(短周波)の 正弦波が作れて しまう
by Naoki Kato © Naoki Kato © Naoki Kato サンプリング定理とは
最高周波数 f’’ の 2 倍より大きな周波数で (2回より多く)サンプリング すべての周波数の正弦波が忠実に再現 元の波も忠実に再現 サンプリング定理 周波数 f 周波数 f’ 周波数 f’’
by Naoki Kato © Naoki Kato © Naoki Kato エイリアシング
2×f’’ 以下でサンプリングすると サンプリング定理 f f’ f’’ v 0 標 本 化 周 波 数 元にはない低い⾳が⼊り込む
by Naoki Kato © Naoki Kato © Naoki Kato アンチエイリアシング
周期gでサンプリングするときは g/2 以上をカット サンプリング定理 f f’ f’’ v 0 標 本 化 周 波 数 元にはない低い⾳が⼊らないように ただし⾼い⾳は消える
by Naoki Kato © Naoki Kato © Naoki Kato サンプリングしたデータのサイズ
サンプリング周波数:44.1kHz 量子化ビット:16bit チャンネル数:2チャンネル(ステレオ) 1秒間につき 44100×16×2 ≒1,411,200bit ビットレート:1411kbps 5分の曲だと 1,411,200×5×60 = 423,360,000bit ≒ 53,000,000byte = 53MByte ≒ CD には14曲くらい マルチメディアデータのサイズ
by Naoki Kato © Naoki Kato © Naoki Kato データ圧縮
マルチメディアデータのデータ量は膨大 データ圧縮が重要となる 可逆圧縮 完全に元に戻せるが,圧縮率は低い あらゆる種類のデータに適用 非可逆圧縮 元に戻すことはできないが,圧縮率が高い データの種類ごとに異なる手法 マルチメディアデータでは, 非可逆圧縮 可逆圧縮の順に行うことが多い マルチメディアデータのサイズ
by Naoki Kato © Naoki Kato © Naoki Kato 可逆圧縮
ランレングス符号 繰り返しの無駄をはぶく LZW圧縮 辞書を用いた圧縮法 パタン(単語)に対して符号を与える マルチメディアデータのサイズ AAABBCCCCCAC A3B2C5A1C1
by Naoki Kato © Naoki Kato © Naoki Kato 可逆圧縮
ハフマン符号 出現確率に基づいて最適な符号を与える 5文字表現するには 3bit 必要なので 3×21 = 63bit 必要 ※個数の多いほうに1,少ない方に0 4bit×1+4bit×3+3bit×4+2bit×5+1bit×8 = 46bit マルチメディアデータのサイズ AAAAABBCABDDDEEAABDDE 個数 字 1 C 3 E 4 B 5 D 8 A 4 13 8 0 1 0 0 1 1 1 0 C 0011 E 1011 B 111 D 01 A 0
by Naoki Kato © Naoki Kato © Naoki Kato 音データにおける独特な非可逆圧縮技術
過少可聴限界 聞こえない音を無視 マスキング レベルの高い周波数の周りの周波数を無視 レベルの高い音の前後を無視 などなど マルチメディアデータのサイズ
by Naoki Kato © Naoki Kato © Naoki Kato マスキング現象(静的スペクトルマスキング)
聞こえる音の大きさ マルチメディアデータのサイズ 強度⽐ 106倍 1012倍 0 60 120 強度(dB) 1018倍 180 0 20 100 1k 10k 可聴限界 可聴閾 ささやき 会話 叫び声 雷鳴 痛覚閾
by Naoki Kato © Naoki Kato © Naoki Kato マスキング現象(動的スペクトルマスキング)
周波数が近い音がはいってくると 低音の振動が高音の振動にかぶる 高音が聞こえない マルチメディアデータのサイズ ⾼い⾳で振動 低い⾳で振動 蝸⽜の⼊り⼝側 10kHzだとこのように振動 100Hzだとこのように振動 基底膜 強さ
by Naoki Kato © Naoki Kato © Naoki Kato マスキング現象(テンポラルマスキング)
大きな音が入ってくると 音が消えてもしばらく振動(細胞も活性化したまま) 小さめの音が入ってきてもうまく聞こえない マルチメディアデータのサイズ 強さ 次の⾳ ) ) ))) ) ) ) ))) )
by Naoki Kato © Naoki Kato © Naoki Kato ファイル形式とコーデック
コーデック 音データの符号化・複合化方式 ファイル形式(コンテナ) 符号化した音データを格納するファイルの形式 音のデータファイル コンテナ コーデック(圧縮形式) WAV PCM(⾮圧縮), ADPCM, WMA, MP3, など AIFF 標準AIFF(⾮圧縮) MPEG MPEG Audio Layer Ⅰ,Ⅱ,Ⅲ MP4 AAC, MP3, Apple Lossless MP3 MP3
by Naoki Kato © Naoki Kato © Naoki Kato 標準的ファイルフォーマット
WAV:Windows Vista まで標準の音声記録用 WAVコンテナに非圧縮のLPCMデータを格納 WMA ASFコンテナにWMAコーデックを格納 AIFF:Mac標準の音声記録用 AIFFコンテナに非圧縮のLPCMデータを格納 音のデータファイル
by Naoki Kato © Naoki Kato © Naoki Kato よく使われるファイルフォーマット
MP3:MPEG Audio Layer-3 WAVコンテナにMP3コーデックのデータを格納 ビットレート128kbpsでは15kHzあたり以上をカット ビットレート192kbpsでは21kHzあたり以上をカット CDのビットレートの 1/10 MP3コーデックのデータを格納できるコンテナ AVI,MOV,MP4,MPEG-2システム,Ogg,ASF 音のデータファイル
by Naoki Kato © Naoki Kato © Naoki Kato よく使われるファイルフォーマット
MP4:MPEG 4-AAC MP4コンテナにAACコーデックのデータを格納 MP3より高圧縮率・高音質を目標 ビットレート128kbpsでは18kHzあたり以上をカット RealAudio 様々なコーデックを組合せて格納 ストリーミングに対応 音のデータファイル
by Naoki Kato © Naoki Kato © Naoki Kato 可逆圧縮を用いたファイルフォーマット
Apple Lossless コーデック m4a:MP4コンテナに格納 mov:MOVコンテナに格納(QuickTime) FLACコーデック fla:FLACコンテナに格納 ogg:Oggコンテナに格納 音のデータファイル
by Naoki Kato © Naoki Kato © Naoki Kato 演
演習 習 音の表現
by Naoki Kato © Naoki Kato © Naoki Kato 123appsのオーディオコンバータで
WAVファイルを M4A(高品質,最高品質) MP3(標準,エコノミー) に変換して, ファイルサイズと音質を比較しよう 演習
by Naoki Kato © Naoki Kato © Naoki Kato お
おし しま まい い 音の表現