Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20250413_湘南kaggler会_音声認識で使うのってメルス・・・なんだっけ?
Search
suguuuuuすぐー
April 12, 2025
Technology
1
840
20250413_湘南kaggler会_音声認識で使うのってメルス・・・なんだっけ?
LTです。
自分の勉強してた内容をまとめたものです。
非音声の専門家のため、間違ってるかも。
suguuuuuすぐー
April 12, 2025
Tweet
Share
More Decks by suguuuuuすぐー
See All by suguuuuuすぐー
【gensparkお試し、内容未確認】kaggle Bird+ CLEF2025解法まとめ
sugupoko
0
81
【GenSparkお試し】kaggle CMI3 overview
sugupoko
0
150
20250515_今更ながら2023年に参加したHuBMAP金ソリューションを綺麗にまとめ
sugupoko
0
170
20250307_kaggle_CZIIコンペ振り返り_関西Kaggler会_交流会_in_Osaka_2025#1
sugupoko
1
860
20240803_関東kaggler会_HMS振り返り&チームで取り組むkaggle
sugupoko
1
2.2k
202309 kaggle 銀 LLM science exam まとめ資料
sugupoko
1
670
金_kaggle_hubmap_202307_instance-segmenataion
sugupoko
1
240
銀_kaggle_火山コンペ_20230615
sugupoko
1
640
反省_kaggle_時系列データ_202305_手話コンペ
sugupoko
1
540
Other Decks in Technology
See All in Technology
[OCI Skill Mapping] AWSユーザーのためのOCI(2025年8月20日開催)
oracle4engineer
PRO
2
150
Oracle Base Database Service:サービス概要のご紹介
oracle4engineer
PRO
2
20k
第4回 関東Kaggler会 [Training LLMs with Limited VRAM]
tascj
12
1.8k
実践アプリケーション設計 ①データモデルとドメインモデル
recruitengineers
PRO
3
260
会社にデータエンジニアがいることでできるようになること
10xinc
9
1.6k
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
30k
AIエージェント就活入門 - MCPが履歴書になる未来
eltociear
0
520
人を動かすことについて考える
ichimichi
2
330
Product Management Conference -AI時代に進化するPdM-
kojima111
0
220
TypeScript入門
recruitengineers
PRO
19
6.5k
攻撃と防御で実践するプロダクトセキュリティ演習~導入パート~
recruitengineers
PRO
2
200
Yahoo!広告ビジネス基盤におけるバックエンド開発
lycorptech_jp
PRO
1
280
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Git: the NoSQL Database
bkeepers
PRO
431
65k
Practical Orchestrator
shlominoach
190
11k
Music & Morning Musume
bryan
46
6.7k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Transcript
ええっと、音声とかでよく使うのって、メルス・・・なんだっけ? 2025/4/13 湘南Kaggler会 LT ※本日の登壇は、会社を代表するものではなく個人的なものです。 ※自分整理用の超基礎的な内容です。 ※専門家じゃないので間違った内容を含むかもです。
2025/04/13 湘南kaggler会 2 自己紹介:すぐー / 小林 秀(こばやし すぐる) ◆ AI/組み込みソフトウェアエンジニア
@エンタメ事業に力入れてる家電メーカー ◆ Kaggle Master ➢ https://www.kaggle.com/sugupoko ➢ 金3枚 (入賞2回、HMS1st 、RSNA2024 3rd) ⚫ コンペ始めて3年半、最近金取れるようになって来た ➢ 専門は画像だけど、興味のあるコンペはなんでも出ちゃう ⚫ LLMコンペ、とかとか。 ➢ 参加スタンス:社内結成チーム、おしゃべり好きなので。 ◆ 好きなキャラクター:おぱんちゅうさぎ 普段のアイコンは コレ⇒ たかまる作 @2025/4/12
2025/04/13 湘南kaggler会 3 これらに共通した要素はなーんだ? ヒント:メルス・・・なんだっけ?
2025/04/13 湘南kaggler会 4 これらに共通した要素はなーんだ? ヒント:メルス・・・なんだっけ? A. 周波数変換です。 ん、そもそも「周波数変換」ってなに?
2025/04/13 湘南kaggler会 5 周波数変換とは • 時間領域 → 周波数領域 • 「波(信号)を成分となる振動数(周波数)ごとに分解する」イメージ
• フーリエ変換(Fourier Transform)が代表例 • なぜ必要か? • 時間軸だけでは見えにくい「成分の周波数分布」「周期性」を可視化 • 異なる振動数(周波数)成分を分離して解析することで、ノイズ除去 やパターン解析に役立つ 周波数解析におけるフーリエ変換を数式を使わずにわかりやすく解説! - ケイエルブイ これはスペクトル↑
2025/04/13 湘南kaggler会 6 代表的な手法と特徴 ◆ フーリエ変換(Fourier Transform) ➢ 基本的な周波数変換の手法時間領域の信号全体を一括で周波数成分に分解周波数ごとの強度(振幅スペクトル)と位相情報を得られる ◆
離散フーリエ変換(DFT)/ 高速フーリエ変換(FFT) ➢ デジタル信号(サンプリングされた信号)向けFFTはDFTを高速に計算できるアルゴリズム ◆ 短時間フーリエ変換(STFT) ➢ 一定の時間窓で区切ってフーリエ変換する時間変化する周波数成分を解析しやすい ◆ ウェーブレット変換(Wavelet Transform) ➢ ウェーブレットという局所化した基底関数で周波数成分を展開非定常信号や局所的な特徴把握に強み あ、いろいろあるんだ。 いつどんなの使うの?
2025/04/13 湘南kaggler会 7 どこで何使うの? ◆ 応用事例 ➢ 音響・音楽分野: ⚫ 時間・周波数両面の解析が求められるため
STFT や CQT、FFT、ウェーブレット変換 ➢ 画像解析: ⚫ 2次元の信号処理に適した FFT や DWT、バイオーソゴナルウェーブレット、フレームレット変換が中心 ➢ 地震解析: ⚫ 非定常かつ局所的な現象を捉えるため CWT、DWT、HHTなど ➢ 脳波解析: ⚫ 瞬間的な周波数変化やノイズ対策のために STFT、DWT、HHT など ◆ 選び方は下記による ➢ 信号の特性(定常性、非定常性、線形性、非線形性) ➢ 解析目的(周波数分解能、時間局所性、計算効率、再構成精度) いろいろむずかしいなぁ、一つでなんでも使えるわけじゃないんだな。
2025/04/13 湘南kaggler会 8 クイズタイム 小野寺さんの撮ったメジロの鳴き声を解析するにはどの変換? ヒント:メルス・・・なんだっけ? ※私は小野寺さんの鳥写真を見るのが好きです
2025/04/13 湘南kaggler会 9 クイズタイム 小野寺さんの撮ったメジロの鳴き声を解析するにはどの変換? ヒント:メルス・・・なんだっけ? A. STFTです。 あれ、、、メルスペクトログラムってなんだっけ? ※私は小野寺さんの鳥写真を見るのが好きです
2025/04/13 湘南kaggler会 10 ややこしい名称の持ち主たち ◆ スペクトログラム(Spectrogram) ➢ STFTで複数のスペクトルを並べたもの ➢ 音声の時間×周波数の変化を可視化したもの
◆ メルスペクトログラム(Mel Spectrogram) ➢ スペクトログラムを人間の聴覚に近いスケールに変換 ➢ メルフィルタで高音域を粗く、低音域を細かく ◆ MFCC(Mel-Frequency Cepstral Coefficients) ➢ メルスペクトログラムから音の特徴量(特徴ベクトル)を抽出したもの ➢ 音声認識などでよく使われる「コンパクトな特徴表現」 LibROSA で MFCC(メル周波数ケプストラム係数)を算出して楽器の音色を分析 なるほど~、ちゃんと知らないで使ってましたわぁ STFT (スペクトログラム) 名称の関係図
2025/04/13 湘南kaggler会 11 ちなみに、HMS - Harmful Brain Activity Classification コンペでは「スカログラム」を利用しました
◆ スカログラム:音声をウェーブレット変換(CWT)で時間×周波数に分解したもの ◆ HMSコンペ:脳波EEGの解析コンペ、電極が18個あるデータ ◆ 周波数変換の使い方: 1電極データあたり40x625で生成し縦にスタック ◆ なんでこんな設定にしたのか?: ➢ 512x512にした理由: MaxViTに入れたかったから ➢ 横軸を625で生成した理由:時間解像度を上げて非定常性を極限まで観測しやすくしたかったから。512に近い数字に調整したかったから。 ➢ 縦軸を40で生成した理由:縦の情報はあんまりいらなかったから。18個スタックして512に近い数字に調整したかったから。 ➢ 縦に並べた理由:横の解像度を高くし、チャネル間の相関を見れる用にしたかったから(Jun koda method @ 飛行機雲コンペ)
2025/04/13 湘南kaggler会 12 図で見るとこんな違いが! ◆ 上段:スペクトログラム ➢ STFTによる、時間×周波数の構造が見える ◆ 中段:メルスペクトログラム
➢ 周波数軸が人間の聴覚に近いよう圧縮されてる ◆ 下段:スカログラム ➢ ウェーブレットで多解像度に分析、スケール軸で見える細かさが違う
2025/04/13 湘南kaggler会 13 おまけ:秘技superlets変換 (Used in HMS 1st place solution)
◆ STFT(短時間フーリエ変換)の問題 ➢ 点窓サイズ(解析する時間幅)を固定する必要がある ➢ そのせいで… ⚫ 窓が短い → 時間は細かく見えるが、周波数が粗い ⚫ 窓が長い → 周波数は細かく見えるが、時間がぼやける ➢ → 時間と周波数のトレードオフ ◆ Wavelet変換(CWT)の問題点 ➢ スケールに応じて時間幅を変える → 多解像度で便利 ➢ でも、1つのウェーブレット関数で分析するので… ⚫ 低周波では解像度が高いけど ⚫ 高周波になると時間も周波数も解像度が落ちる ➢ → 解像度が周波数依存で非対称、高周波が苦手 ◆ Superlets(スーパーレット変換)とは? ➢ 複数の異なるスケールのウェーブレットを組み合わす手法 ➢ 各周波数ごとに複数のスケールで解析し、幾何平均融合! ⚫ 高い時間解像度(細かい瞬間がわかる) ⚫ 高い周波数解像度(周波数の違いもわかる)を同時に実現! Superlets CWT STFT
2025/04/13 湘南kaggler会 14 今年も開催中!~2025/6/2まで!!