Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rubyで音声「データ」を作る
Search
Shogo Kawahara
April 30, 2025
Programming
57
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Rubyで音声「データ」を作る
Shogo Kawahara
April 30, 2025
More Decks by Shogo Kawahara
See All by Shogo Kawahara
rspec の --tag オプションがこんなに便利だったなんて...
kawahara
0
1
データベースだけじゃないN+1とその対策
kawahara
0
1.3k
CoderDojo 千葉県総武線沿線の取り組み
kawahara
1
420
SendGrid Template Engine 奮闘記
kawahara
0
370
Other Decks in Programming
See All in Programming
タクシーアプリ『GO』の バックエンド開発のおける AI利活用と若者のすべて
pyama86
3
2k
Swiftのレキシカルスコープ管理
kntkymt
0
220
Language Server 使ってる? 〜VSCode と Zed の場合〜 / Are you using a Language Server? ~For VS Code and Zed~
handlename
0
780
AI時代のUIはどこへ行く?その2!
yusukebe
21
7k
Contextとはなにか
chiroruxx
0
290
JJUG CCC 2026 Spring: JSpecify で実現する Kotlin フレンドリーな Java API 設計
ternbusty
1
160
Skillsは効率化、Agentsは"自分の拡張"——Builder時代のエージェント編成(CC Night 2026)
wemra
1
120
技術記事、 専門家としてのプログラマ、 言語化
mizchi
3
690
net-httpのHTTP/2対応について
naruse
0
470
IBM Bobを活用したレガシーアプリの最新化
oniak3ibm
PRO
1
190
Composerを使ったサプライチェーン攻撃の様子を眺めてみる #phpstudy
o0h
PRO
2
240
コンテキストの使い捨てをやめる — ビジネスルール駆動開発と miko —
ioki
0
190
Featured
See All Featured
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
GitHub's CSS Performance
jonrohan
1033
470k
Visualization
eitanlees
152
17k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.4k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
Typedesign – Prime Four
hannesfritz
42
3.1k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
580
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
エンジニアに許された特別な時間の終わり
watany
107
250k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
390
Transcript
Rubyで 音声「データ」を作る Shogo Kawahara
[email protected]
kyobashi.rb 2025.04.30
RubyKaigi 2025 よかったね もちろん船でいきました
こんな内容が面白かったと思った • Ruby LSP が Conference 中リリースされてすげえと思った ◦ YARD で
Docs 書いてたけど、Ruby LSP に移行して結構時が立ったので、そろそろ inline rbs に よる型情報の補完とかをやり始めようと思った (何気に対応している ) ◦ Ruby LSP を介して、MCP に繋げていくところとか夢があるとは思った • ZJIT (ジージット) は夢があるよね • もちろん最後のトークはプログラマーとして考えさせられた ◦ AIが型を捕捉するようになる理論 ◦ たのしいプログラミングとは何か
こんな内容が面白かったと思った • Ruby LSP が Conference 中リリースされてすげえと思った ◦ YARD で
Docs 書いてたけど、Ruby LSP に移行して結構時が立ったので、そろそろ inline rbs に よる型情報の補完とかをやり始めようと思った (何気に対応している ) ◦ Ruby LSP を介して、MCP に繋げていくところとか夢があるとは思った • ZJIT (ジージット) は夢があるよね • もちろん最後のトークはプログラマーとして考えさせられた ◦ AIが型を捕捉するようになる理論 ◦ たのしいプログラミングとは何か • 音声
ちょっくら自分も音声やってみるか • ずっとこういうコードを書こうと思ってた。特に理由はない。単純にFUNとして。 • やりたいことは以下。 なんか文字列 なんか文字列
いまだにカセットで音楽を聞く • インディーズな感じの曲を探りたいと思ったらカセット • ゲーム音楽とかもカセットで売ってたりするよ • 自分で録音もできて最高 (?) ◦ つまりデータも記録できるってことだよね。
昔はカセットにデータを記録していたらしい • 私はここまで古い人間ではないので、先人の知恵を探る • MSXやファミコンは下記のような機器で、市販のカセットにデータを記録していたら しい • フロッピーは高いがカセットは安い時代 • 参考
◦ https://xtech.nikkei.com/atcl/nxt/column/18/00531/122600009/?P=2 ◦ https://yosshin4004.github.io/famibe/overview/index.html
データから音声に変換するやり方はいろいろあるらしい • 文字列「こんにちは」 -> バイナリ「111000…」 ◦ これは結局のところ、文字符号方式である ◦ UTF-8 にすれば、日本語も行けそうではある
• バイナリ「111000…」 -> 音声「アナログの波」 ◦ いろいろ探るとこれも単純に 1つ。というわけではなくいろいろ方式がある ◦ 「変調方式」というらしい ◦ https://www.ritsumei.ac.jp/se/re/izumilab/lecture/06comm/index.htm ◦ FSK (Frequency Shift Keying) ◦ ASK (Amplitude Shift Keying) ◦ PSK (Phase Shift Keying) ▪ Pre-Shared Key ではない ◦ QAM (Quadrature Amplitude Modulation)
データから音声に変換するやり方はいろいろあるらしい • 文字列「こんにちは」 -> バイナリ「111000…」 ◦ これは結局のところ、文字符号方式である ◦ UTF-8 にすれば、日本語も行けそうではある
• バイナリ「111000…」 -> 音声「アナログの波」 ◦ いろいろ探るとこれも単純に 1つ。というわけではなくいろいろ方式がある ◦ 「変調方式」というらしい ◦ https://www.ritsumei.ac.jp/se/re/izumilab/lecture/06comm/index.htm ◦ FSK (Frequency Shift Keying) => データにあわせ周波数を変える , 初期の「モデム」もこれ ◦ ASK (Amplitude Shift Keying) => 振幅の有無で制御する , ノイズに弱い ◦ PSK (Phase Shift Keying) => 位相をかえる (波をずらす) ▪ Pre-Shared Key ではない ◦ QAM (Quadrature Amplitude Modulation) => 位相もかえるし、振幅もかえる
FSKの仕組みはすげぇシンプル 周波数が低い = 0 周波数が高い = 1 普通は開始と終了を 示すプリアンブルをつ ける
(0, 1以外の周波 数) 011.. と読める
やってみよう • デモだよ。実演するよ。
楽しいかも、でやってみたけどこれは実用的なのでは? • 特に電子工作の分野では(本当に)実用性がありそう ◦ PCからデバイスに対して phone plug を通じてデータを送信する ◦ デバイスにマイクがあれば、スピーカを通じて一斉に何らかの動きをさせることはできる
▪ ただ、ノイズ除去とか、チェックパリティとか、ネットワークでいうところの物理層とかデータリン ク層がやるような実装はある程度考えなきゃいけない ◦ つまり、Bluetooth や WiFi のモジュールなしで通信ができる ! ◦ (配信機器のLiveShellはPCと機器を音声プラグで繋げて設定情報流せました ) • ステガノグラフィー (情報を他の情報に隠蔽する) ◦ 人間が聞こえない高周波にデータを載せて、可聴範囲には通常の音楽データを入れるといったテク ニックがありそう ◦ 実装的にはローパスフィルターでデータ部分だけ取り出すイメージ ◦ ただし、カセットテープやデッキがそこまで高周波に対応していない可能性もある • TRICK のお供にもどうぞ ◦ これを使えば音がコードとして機能できるようになる ◦ 聞くとテクノな音楽だが、デコードすると実行可能 ! みたいな技もできる。だれかやって。
次にやりたいこと • RubyでFAXを送受信する ◦ 文字が行けるなら画像だ ! という感じだが、FAXはQAMという方式で変調しているらしい。これもい つかやっておこう ◦ WiFi7
のキー技術はこの辺を使っているので (音ではなく電波だが ) 最新技術と関係ないわけでも ない