Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Speech Frameworkを使った音声認識の基本
Search
Masashi
January 29, 2025
Programming
0
22
Speech Frameworkを使った音声認識の基本
Mobile勉強会 ウォンテッドリー × チームラボ × Sansan #18 〜新技術の導入〜
https://sansan.connpass.com/event/338706/
Masashi
January 29, 2025
Tweet
Share
More Decks by Masashi
See All by Masashi
Eight iOSを支えるアーキテクチャ
kawabe
1
600
これだけは伝えたい設計の技術
kawabe
0
1.2k
EightのUI Component化の取り組み
kawabe
0
120
Other Decks in Programming
See All in Programming
Pythonでもちょっとリッチな見た目のアプリを設計してみる
ueponx
1
530
Grafana Cloudとソラカメ
devoc
0
140
ペアーズでの、Langfuseを中心とした評価ドリブンなリリースサイクルのご紹介
fukubaka0825
2
310
CNCF Project の作者が考えている OSS の運営
utam0k
6
710
2,500万ユーザーを支えるSREチームの6年間のスクラムのカイゼン
honmarkhunt
6
5.2k
お前もAI鬼にならないか?👹Bolt & Cursor & Supabase & Vercelで人間をやめるぞ、ジョジョー!👺
taishiyade
5
3.9k
負債になりにくいCSSをデザイナとつくるには?
fsubal
9
2.4k
『GO』アプリ データ基盤のログ収集システムコスト削減
mot_techtalk
0
120
Amazon Q Developer Proで効率化するAPI開発入門
seike460
PRO
0
110
2024年のkintone API振り返りと2025年 / kintone API look back in 2024
tasshi
0
220
Software Architecture
hschwentner
6
2.1k
『品質』という言葉が嫌いな理由
korimu
0
160
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
51
7.4k
Into the Great Unknown - MozCon
thekraken
35
1.6k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Visualization
eitanlees
146
15k
Statistics for Hackers
jakevdp
797
220k
It's Worth the Effort
3n
184
28k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
Being A Developer After 40
akosma
89
590k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Transcript
Speech FrameworkΛͬͨ Իೝࣝͷجຊ
Տล խ࢙ɹMasashi Kawabe NOT A HOTEL גࣜձࣾ Smart Home νʔϜ
ιϑτΣΞΤϯδχΞ
ࣨʹεΠονϦϞίϯͳ͘ɺͯ͢ Home Controller͔Βૢ࡞ɻ ੈքதɺͲ͜ͷNOT A HOTELʹߦͬͯɺ ·ΔͰࣗͷΑ͏ʹ໎͏͜ͱͳͯ͘͢ͷػ ثͷૢ࡞͕Ͱ͖·͢ɻ Home Controller
Speech Framework • iOS ඪ४ͷԻೝࣝ Framework • ԻࡁΈͷԻϑΝΠϧͷೝࣝ, ϚΠΫೖྗΛར༻ͨ͠ϦΞϧλΠϜͳ Իͷೝ͕ࣝՄೳ
• ຊޠαϙʔτ • iOS 10.0 Ҏ߱Ͱར༻Մೳ
Speech Framework ΛͬͨԻೝࣝͷ࠷খ࣮
Իೝࣝͷதؒ݁Ռͷऔಘ • SFSpeechRecognitionRequest ͷ shouldReportPartialResults ϓϩύςΟͰɺԻೝࣝͷதؒ݁ՌΛऔಘ͢Δɾऔಘ͠ͳ͍ͷ ੍ޚ͕Մೳ • σϑΥϧτ true
( தؒ݁ՌΛऔಘ͢Δ ) • a • Իೝࣝͷ࠷ऴతͳ݁Ռ͚͕ͩඞཁͳ߹ɺ shouldReportPartialResults Λfalse ʹઃఆ͢Δ
Իೝࣝͷதؒ݁Ռऔಘͷ༗ແʹΑΔڍಈͷҧ͍
ΦϯσόΠεͰͷԻೝࣝ • ϓϥΠόγʔΛߟྀͯ͠ɺΦϯσόΠεͰԻೝࣝΛͤ͞Δ͜ͱ͕Ͱ͖Δ • ωοτϫʔΫʹܨ͕ͣͱԻೝ͕ࣝՄೳ • ͨͩ͠ɺServer ϕʔεͷԻೝࣝͱൺֱͯ͠ਫ਼͕ߴ͘ͳ͍ • Server
ϕʔεͷԻೝࣝɺԻೝࣝͷ࠷େ࣌ؒͷ੍ݶ, Ұ͋ͨΓͷճ੍ݶ͕͋Δͱ͍͏σϝϦοτ͕͋Δ • SFSpeechRecognitionRequest ͷ requiresOnDeviceRecognition ϓϩύςΟͰɺ༗ޮԽͰ͖Δ • a
ݴޠϞσϧͷΧελϚΠζ • ԻೝࣝͷݴޠϞσϧΛΧελϚΠζ͢Δ͜ͱͰɺಛఆͷϢʔεέʔε ͚ʹೝࣝਫ਼Λ্͛Δ͜ͱ͕Ͱ͖Δ • iOS 17.0 Ҏ߱Ͱར༻Մೳ • ΧελϚΠζͨ͠ݴޠϞσϧΛར༻͢ΔʹɺΦϯσόΠεͰԻೝࣝ
ͤ͞Δඞཁ͕͋Δ • a
ΧελϚΠζͨ͠ݴޠϞσϧͷ࡞
ΧελϚΠζͨ͠ݴޠϞσϧͷ࡞ • PhraseCount ΦϒδΣΫτΛར༻͢Δ͜ͱͰɺਖ਼֬ͳϑϨʔζΛ ΧελϜϞσϧʹొ͢Δ͜ͱ͕Ͱ͖Δ • ಛఆͷϑϨʔζΛೝࣝͤ͘͢͢͞Δ •
ΧελϚΠζͨ͠ݴޠϞσϧͷ࡞ • ΞϓϦͰઐ༻ޠͳͲҰൠతͰͳ͍୯ޠΛ༻͢Δ߹ɺ༻ޠͷεϖϧ ͱൃԻͷϖΞΛఆٛ͠ɺΧελϜϞσϧʹొ͢Δ͜ͱ͕Ͱ͖Δ • ൃԻ X-SAMPA ܗࣜ •
ΧελϚΠζͨ͠ݴޠϞσϧͷར༻ • ࡞ͨ͠ΧελϜݴޠϞσϧ SFSpeechRecognitionRequest ͷ customizedLanguageModel ϓϩύςΟʹઃఆ͢Δ͜ͱͰར༻Մೳ •
ࢀߟ • Advances in Speech Recognition • https://developer.apple.com/videos/play/wwdc2019/256 • Customize
on-device speech recognition • https://developer.apple.com/videos/play/ wwdc2023/10101 • Recognizing speech in live audio • https://developer.apple.com/documentation/speech/ recognizing-speech-in-live-audio