Upgrade to Pro — share decks privately, control downloads, hide ads and more …

軽量音声認識OSS Parapper

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

軽量音声認識OSS Parapper

ローカルAIに向き合う展示会 vol.2 のLTで発表しました。
https://techplay.jp/event/995914

OSSとして公開中!ぜひご活用ください!
https://github.com/Parakeet-Inc/Parapper-ASR

Avatar for nadare

nadare

June 28, 2026

More Decks by nadare

Other Decks in Technology

Transcript

  1. 2 自己紹介 nadare / ⾦⼦ 剛⼠ Parakeet株式会社 AIボイチェン「Paravo」の研究開発 Kaggle Competitions

    Master + AtCoder ⻘ - 計算機‧時間制限のあるコンペが得意 - ローカルAIに向き合い8年?
  2. 4 これまでのリアルタイム音声認識 速度・費用・精度に 課題あり Whisper は遅い ⾼精度だが、GPU が必要。 CPUのみの環境や、GPUが弱 いとリアルタイムには遅い

    クラウドAPIは高い ブラウザ内蔵は不安定 Google Speech to Text OpenAI realtime whisperは 約160円/時間 ⻑時間使うには負担が⼤きい ブラウザ内蔵⾳声認識は 環境依存で不安定 認識精度も⽤途によっては不 ⼗分
  3. 5 これからのリアルタイム音声認識 速度・費用・精度に優れた Parapper 軽量モデルで速い ReazonSpeech k2v2を採⽤ 量⼦化された軽量モデルで、 CPUのみでもサクサク 超コスパよし

    安定したチューニング ローカルで動くので無料 翻訳もテキストベース翻訳の ためほとんどかからない ⾃然⾔語処理‧⾳声AIの知⾒ AI研究で培ったノウハウで ⾼精度にチューニング
  4. 6 こだわり 多方面からの 高速化・軽量化 Rustの採⽤ Tauriを⽤いて作成 Rust + TypeScriptを採⽤ ⾼速‧低容量‧簡単導⼊

    ONNX化されたモデル モデル選定 AIモデルはONNX形式で実⾏ ONNX Runtimeも最新化し ⾼速化の恩恵を受ける ノイズキャンセル ‧VAD‧TTSの各部品につい て CPUで⾼速‧⾼品質を選定
  5. 7 こだわり こまめに表⽰‧まとめて⾼精度 ユーザーに見える表示 1 部分推論 こまめに... 2 部分推論 こまめにひょうじで...

    3 確定表示 こまめに表示で体感速度よし! 確定 部分推論と全体推論を実施 CPUで⾼速なモデルなので ⼆重に推論しても余裕 部分表⽰の実装で 体感速度アップ!
  6. 8 こだわり 形態素解析を⽤いたヒューリスティック分割 判定 例 句読点、終助詞 「。」「~よね」「~か」 動詞・形容詞等の終止形 「話す」「美しい」「静かだ」 体言止め・末尾の形状詞

    「~なコーヒー」「~が綺麗」 VADの判定と合わせて MeCab + UniDicを⽤いた⽂末の ルールベース判定で分割 リアルタイム字幕の観点では BERTベースのTurnDetectorより ⾼速かつ使いやすい! UniDicを用いた判定方法と例
  7. 9 今後の予定 もっと便利に、 リアルタイム特化 Streamingモデル対応 Nemotron 3.5 ASR streaming ストリーム処理も簡略化

    モバイル対応 ツール連携 ⾳声認識をスマホで動かし ⽂字起こしからPCを解放! 便利機能は外部(ゆかコネ)に AIAvaterkitにも連携したい