Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cram school DX - Tried to Make English Conversa...

SatakeYusuke
September 28, 2024
4

Cram school DX - Tried to Make English Conversation Application

「10年ぐらい英語勉強しても、全然話せないよね。」学習塾を経営していて日々感じるのは、日本の教育方法が英語のSpeaking能力が非常に育ちにくいということです。ここを学習塾の立場から英語のSpeaking能力をなんとか伸ばせないか?と考えたことが発表のきっかけです。

私も現職への入社から2ヶ月が経ち、英語は私の前にそびえたっている課題でもあります。所属するチームは勤務こそ日本ですが、海外メンバーとのミーティングは全て英語で実施となります。生徒のため、私の首の為にも英語力をなんとか改善したいと思います。 

SatakeYusuke

September 28, 2024
Tweet

More Decks by SatakeYusuke

Transcript

  1. @fe_js_engineer @fe_js_engineer satyus 佐竹祐亮 / Yusuke Satake Microsoft Japan Digital

    Startups & ISV Microsoft Evangelist Works • 日本マイクロソフトのスタートアップチームの技術営業 • 佐竹塾とProAcaの経営 • スポーツベッティングアプリケーション開発 本発表は個人的な見解であり、所属する会社・組織とは全く関係ありませ んのでご了承ください。 comunity • .NETラボ • PoC部
  2. アプリケーションを強化する音声機能 音声テキスト変換 OpenAI Whisper モデルを含む テキスト読み上げ 音声翻訳 話者認識 AZURE ツール

    カスタマイズと統合を支援する Speech Studio 取り込みクライアント バッチツールキット Speech SDK 柔軟な導入オプション クラウド、オンプレミス、エッジ Azure AI Speech の概要 © 2023 Microsoft Corporation. All rights reserved
  3. Azure AI Speechの能力 包括的なカスタマイズ機能 ランタイムのカスタマイズ可能なフレーズ リスト. カスタム音声による包括的なオフライン カスタマイズ。 豊富な機能セット 認識結果を含む豊富なメタデータ。話者のダイアライゼーション。

    幅広い音声テクノロジのセット 音声の文字起こしと翻訳を超えた音声技術: ニューラルテキスト読み上げ、話者認 識、キーワードスポッティング、発音評価。 高精度で幅広い言語 任意のプロバイダーでの多くの言語:140の言語/ロケールにわたる76の言語 (Whisper :57の言語)。 言語 ID と翻訳 最大10言語間の言語変化の継続的な識別。音声翻訳 API は、幅広い言語の音声 + 機械翻訳を組み合わせたものです。 大量のデータのバッチ処理 Azure AI Speech には、リアルタイムまたはバッチ処理を通じてオーディオを大 規模に処理する機能が用意されています。リアルタイムとバッチの両方で実績のあ る大規模なオーディオ処理。 © 2023 Microsoft Corporation. All rights reserved
  4. Azure AI Speech 価格オプション 製品 価格 Azure AI 音声バッチ (Whisper

    モデルを含む) $0.36/時間 Azure OpenAI Service での Whisper $0.36/時間 Azure AI Speech real-time (従量課金) 標準音声 $ 1 /時間 カスタム音声 $ 1.4 /時間 Azure AI 音声コミットメント レベル (標準モデルとカスタム モデルの両方に適用) 2,000時間 20%割引 10,000時間 35%割引 50,000時間 50%割引 © 2023 Microsoft Corporation. All rights reserved
  5. OpenAI Whisper モデルの概要 • WhisperはOpenAIのエンコーダ - デコーダー トランスフォーマーで、 30秒のオーディオチャンクを処理し、それらを複数の言語のテキスト に変換すると同時に、それらの言語から英語へのテキストの翻訳も提供

    します(つまり、翻訳の出力は英語のみ)。 • OpenAI には、Whisper モデルを使用するための 2 つのシンプルな REST API が用意されています。 • Transcribe (文字起こし) • Translate (翻訳) • 最大57言語を認識する単一モデル • 高速の単一ファイル同期処理を実行 • 書式設定されたテキストでの表示の出力 • SRTおよびVTTビデオキャプションファイルへの直接出力を提供 • プロンプトによるランタイムのカスタマイズをサポート © 2023 Microsoft Corporation. All rights reserved
  6. Whisper モデルの能力 読みやすさの向上 文の境界、句読点、単語の大文字化、コンテキストに基づく数値の書式設 定のより良い識別(例「アルバニー開発コード」9.208(2)")、人間の会話 に見られる流暢さと繰り返しの除去 多言語サポート 話されている言語を自動的に認識 混合された言語の認識 英語への直接翻訳をサポート

    ランタイムのカスタマイズ 精度を向上させ、自然言語プロンプトを通じて生成される出力に影響を与 える 高速文字起こし ストリーミングオーディオ入力は無いが、ファイルの認識は非常に高速 最大20倍のリアルタイムファクター(RTF):10分のオーディオクリップを30 秒で処理 © 2023 Microsoft Corporation. All rights reserved
  7. API の比較 API タイプ 説明 Azure AI Speech モデル Whisper

    モデル リアルタイム ストリーミング • サービスに継続的にストリーミングされる音声 • 音声の着信時に処理 • 中間 (単語単位) の結果と最終 (発話レベル) 結果を最 小限の遅延で提供 SDK (Websocket) 該当なし 同期的な 単一ファイルの音声 • 単一ファイルの音声が要求ペイロードに含まれる • 可能な限り迅速に処理する • 音声圧縮に応じて15〜30分以内の音声に制限されてい る(最大25MB) REST Sync API REST Sync API (Azure OpenAI) 非同期な 一括ファイル処理 • オンラインストレージ内の音声ファイル • 多数のファイルを並行して処理する • 非常に長いファイル(音声時間:最大1GB)を処理 Batch Async API Batch Async API (Azure AI Speech) © 2023 Microsoft Corporation. All rights reserved
  8. Azure AI SpeechとWhisperどっちを使う? Azure AI SpeechとWhisperの使い分けについてまとめてみました。 Whisper モデル 人間による可読性が重要なキャプション 言語が混在した音声

    Speech モデル 音声からテキストへのリアルタイムストリーミング処理 (ライブキャプションやエージェントアシストなど) Azure AI 音声モデルがより正確な単一言語の文字起こし と翻訳 (末尾言語、テレフォニー音声など)。 © 2023 Microsoft Corporation. All rights reserved
  9. DEMO① ~native level student~ Sentences : I am currently in

    the second year of junior high school and am a Japanese-Thai quarter. I can speak English at a native level. I am a member of the brass band club and practice euphonium everyday. Sentences output by the generating AI : I am currently in the second year of junior high school and I am a Japanese high qu arter. I can speak English at a native level. I am a member of the brass band club an d practice euphonium every day. The similarity between the original text and the AI-generated text is approximately 97.7%.
  10. DEMO② ~advance level student~ Sentences : Nice to meet you.

    My name is Sawa. I was a member of the volleyball club in junior high school and I am a member of the tea ceremony club in high school. I have 5 years of programming experience and am in charge of native application development using ReactNative. Mr. Satake is very interesting! Sentences output by the generating AI : Nice to meet you. My name is Sawa. I was a member of the Bible Club in junior high scho ol and I am a member of the Tea Ceremony Club in high school. I have five years of progra mming experience and I mean charge of native application development using Create Nat ive. Mr. Sazaki is very interesting. The similarity between the original text and the AI-generated text is approximately 85.71%.
  11. DEMO③ ~beginner level student~ Sentences : My name is Fubuki.

    My age is 14 years old. My hobby is collecting figures. I am looking forward to working with you. Sentences output by the generating AI : My name is Shubuki Maya again is 14 years old. My hobby is collecting, collecting fears. I am looking for two working with you. The similarity between the original text and the AI-generated text is approximately 85.6%.
  12. 最後に いかがだったでしょうか。  今回はAzure AI Serviceを用いたAzure AI Speechに焦点を当てて発表致し ました。 

    英語教育における、英語を毎日話すことが大事というところの毎日という大き な課題にアプローチ出来る方法を検討しております。  今後はAzureの発音評価やテキスト読み上げアバターの機能を使用して、より 英語でのコミュニケーションが楽しくなるような場を作れればと考えております。