Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rubyで音声「データ」を作る
Search
Shogo Kawahara
April 30, 2025
Programming
57
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Rubyで音声「データ」を作る
Shogo Kawahara
April 30, 2025
More Decks by Shogo Kawahara
See All by Shogo Kawahara
rspec の --tag オプションがこんなに便利だったなんて...
kawahara
0
1
データベースだけじゃないN+1とその対策
kawahara
0
1.3k
CoderDojo 千葉県総武線沿線の取り組み
kawahara
1
420
SendGrid Template Engine 奮闘記
kawahara
0
370
Other Decks in Programming
See All in Programming
依存関係から依存物へ―Dependencyという言葉の歴史をひも解く
j_lee
0
110
Inside Stream API
skrb
1
680
net-httpのHTTP/2対応について
naruse
0
470
Lemonade + Foundry Toolkit でお手軽アプリ開発
seosoft
1
320
ユニットテストの先へ:テスト技法で要求・仕様を整理するJava開発実践 / Beyond_Unit_Testing_Practical_Java_Development_Techniques_for_Organizing_Requirements_and_Specifications
shimashima35
0
390
Observability in Practice:Grafana 與 Edge Device SRE 的那些事
blueswen
0
160
Technical Debt: Understanding it Rightly, Engaging it Rightly #LaravelLiveJP
shogogg
0
210
Vite+ Unified Toolchain for the Web
naokihaba
0
240
AIで効率化できた業務・日常
ochtum
0
120
The Arts and Crafts of Work in the AI Era — Toward Mastery in Software Development
kuranuki
1
750
Webフレームワークの ベンチマークについて
yusukebe
0
160
RTSPクライアントを自作してみた話
simotin13
0
530
Featured
See All Featured
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
400
How STYLIGHT went responsive
nonsquared
100
6.2k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
Documentation Writing (for coders)
carmenintech
77
5.4k
Faster Mobile Websites
deanohume
310
31k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
The agentic SEO stack - context over prompts
schlessera
0
810
Transcript
Rubyで 音声「データ」を作る Shogo Kawahara
[email protected]
kyobashi.rb 2025.04.30
RubyKaigi 2025 よかったね もちろん船でいきました
こんな内容が面白かったと思った • Ruby LSP が Conference 中リリースされてすげえと思った ◦ YARD で
Docs 書いてたけど、Ruby LSP に移行して結構時が立ったので、そろそろ inline rbs に よる型情報の補完とかをやり始めようと思った (何気に対応している ) ◦ Ruby LSP を介して、MCP に繋げていくところとか夢があるとは思った • ZJIT (ジージット) は夢があるよね • もちろん最後のトークはプログラマーとして考えさせられた ◦ AIが型を捕捉するようになる理論 ◦ たのしいプログラミングとは何か
こんな内容が面白かったと思った • Ruby LSP が Conference 中リリースされてすげえと思った ◦ YARD で
Docs 書いてたけど、Ruby LSP に移行して結構時が立ったので、そろそろ inline rbs に よる型情報の補完とかをやり始めようと思った (何気に対応している ) ◦ Ruby LSP を介して、MCP に繋げていくところとか夢があるとは思った • ZJIT (ジージット) は夢があるよね • もちろん最後のトークはプログラマーとして考えさせられた ◦ AIが型を捕捉するようになる理論 ◦ たのしいプログラミングとは何か • 音声
ちょっくら自分も音声やってみるか • ずっとこういうコードを書こうと思ってた。特に理由はない。単純にFUNとして。 • やりたいことは以下。 なんか文字列 なんか文字列
いまだにカセットで音楽を聞く • インディーズな感じの曲を探りたいと思ったらカセット • ゲーム音楽とかもカセットで売ってたりするよ • 自分で録音もできて最高 (?) ◦ つまりデータも記録できるってことだよね。
昔はカセットにデータを記録していたらしい • 私はここまで古い人間ではないので、先人の知恵を探る • MSXやファミコンは下記のような機器で、市販のカセットにデータを記録していたら しい • フロッピーは高いがカセットは安い時代 • 参考
◦ https://xtech.nikkei.com/atcl/nxt/column/18/00531/122600009/?P=2 ◦ https://yosshin4004.github.io/famibe/overview/index.html
データから音声に変換するやり方はいろいろあるらしい • 文字列「こんにちは」 -> バイナリ「111000…」 ◦ これは結局のところ、文字符号方式である ◦ UTF-8 にすれば、日本語も行けそうではある
• バイナリ「111000…」 -> 音声「アナログの波」 ◦ いろいろ探るとこれも単純に 1つ。というわけではなくいろいろ方式がある ◦ 「変調方式」というらしい ◦ https://www.ritsumei.ac.jp/se/re/izumilab/lecture/06comm/index.htm ◦ FSK (Frequency Shift Keying) ◦ ASK (Amplitude Shift Keying) ◦ PSK (Phase Shift Keying) ▪ Pre-Shared Key ではない ◦ QAM (Quadrature Amplitude Modulation)
データから音声に変換するやり方はいろいろあるらしい • 文字列「こんにちは」 -> バイナリ「111000…」 ◦ これは結局のところ、文字符号方式である ◦ UTF-8 にすれば、日本語も行けそうではある
• バイナリ「111000…」 -> 音声「アナログの波」 ◦ いろいろ探るとこれも単純に 1つ。というわけではなくいろいろ方式がある ◦ 「変調方式」というらしい ◦ https://www.ritsumei.ac.jp/se/re/izumilab/lecture/06comm/index.htm ◦ FSK (Frequency Shift Keying) => データにあわせ周波数を変える , 初期の「モデム」もこれ ◦ ASK (Amplitude Shift Keying) => 振幅の有無で制御する , ノイズに弱い ◦ PSK (Phase Shift Keying) => 位相をかえる (波をずらす) ▪ Pre-Shared Key ではない ◦ QAM (Quadrature Amplitude Modulation) => 位相もかえるし、振幅もかえる
FSKの仕組みはすげぇシンプル 周波数が低い = 0 周波数が高い = 1 普通は開始と終了を 示すプリアンブルをつ ける
(0, 1以外の周波 数) 011.. と読める
やってみよう • デモだよ。実演するよ。
楽しいかも、でやってみたけどこれは実用的なのでは? • 特に電子工作の分野では(本当に)実用性がありそう ◦ PCからデバイスに対して phone plug を通じてデータを送信する ◦ デバイスにマイクがあれば、スピーカを通じて一斉に何らかの動きをさせることはできる
▪ ただ、ノイズ除去とか、チェックパリティとか、ネットワークでいうところの物理層とかデータリン ク層がやるような実装はある程度考えなきゃいけない ◦ つまり、Bluetooth や WiFi のモジュールなしで通信ができる ! ◦ (配信機器のLiveShellはPCと機器を音声プラグで繋げて設定情報流せました ) • ステガノグラフィー (情報を他の情報に隠蔽する) ◦ 人間が聞こえない高周波にデータを載せて、可聴範囲には通常の音楽データを入れるといったテク ニックがありそう ◦ 実装的にはローパスフィルターでデータ部分だけ取り出すイメージ ◦ ただし、カセットテープやデッキがそこまで高周波に対応していない可能性もある • TRICK のお供にもどうぞ ◦ これを使えば音がコードとして機能できるようになる ◦ 聞くとテクノな音楽だが、デコードすると実行可能 ! みたいな技もできる。だれかやって。
次にやりたいこと • RubyでFAXを送受信する ◦ 文字が行けるなら画像だ ! という感じだが、FAXはQAMという方式で変調しているらしい。これもい つかやっておこう ◦ WiFi7
のキー技術はこの辺を使っているので (音ではなく電波だが ) 最新技術と関係ないわけでも ない