Cram school DX - Tried to Make English Conversation Application

学習塾DX 塾生の英会話スキル向上を AIで実現する話 .NETラボ9月 YUSUKE SATAKE

@fe_js_engineer @fe_js_engineer satyus 佐竹祐亮 / Yusuke Satake Microsoft Japan Digital
Startups & ISV Microsoft Evangelist Works • 日本マイクロソフトのスタートアップチームの技術営業 • 佐竹塾とProAcaの経営 • スポーツベッティングアプリケーション開発本発表は個人的な見解であり、所属する会社・組織とは全く関係ありませんのでご了承ください。 comunity • .NETラボ • PoC部

Agenda  はじめに  アプリの概要と全体アーキテクチャ  各リソースの説明  DEMO 
まとめ

はじめに  「10年ぐらい英語勉強しても、全然話せないよね。」学習塾を経営していて日々感じるのは、日本の教育方法が英語のSpeaking 能力が非常に育ちにくいということです。ここを学習塾の立場から英語の Speaking能力をなんとか伸ばせないか？と考えたことが発表のきっかけです。  私も現職への入社から2ヶ月が経ち、英語は私の前にそびえたっている課題でもあります。所属するチームは勤務こそ日本ですが、海外メンバーとのミーティングは全て英語
で実施となります。生徒のため、私の首の為にも英語力をなんとか改善したいと思います。

今回実装したアプリケーションの概要とアーキテクチャ処理フローについて 1. Next.jsで構築したアプリケーションへuserが音声で話しかける 2. SpeechToTextを使って音声 →テキストへ変換 3.
OpenAIへ質問 4. TextToSpeechを使ってテキスト→音声へ変換

アプリケーションを強化する音声機能音声テキスト変換 OpenAI Whisper モデルを含むテキスト読み上げ音声翻訳話者認識 AZURE ツール
カスタマイズと統合を支援する Speech Studio 取り込みクライアントバッチツールキット Speech SDK 柔軟な導入オプションクラウド、オンプレミス、エッジ Azure AI Speech の概要 © 2023 Microsoft Corporation. All rights reserved

Azure AI Speechの能力包括的なカスタマイズ機能ランタイムのカスタマイズ可能なフレーズリスト. カスタム音声による包括的なオフラインカスタマイズ。豊富な機能セット認識結果を含む豊富なメタデータ。話者のダイアライゼーション。
幅広い音声テクノロジのセット音声の文字起こしと翻訳を超えた音声技術: ニューラルテキスト読み上げ、話者認識、キーワードスポッティング、発音評価。高精度で幅広い言語任意のプロバイダーでの多くの言語:140の言語/ロケールにわたる76の言語 (Whisper :57の言語)。言語 ID と翻訳最大10言語間の言語変化の継続的な識別。音声翻訳 API は、幅広い言語の音声 + 機械翻訳を組み合わせたものです。大量のデータのバッチ処理 Azure AI Speech には、リアルタイムまたはバッチ処理を通じてオーディオを大規模に処理する機能が用意されています。リアルタイムとバッチの両方で実績のある大規模なオーディオ処理。 © 2023 Microsoft Corporation. All rights reserved

Azure AI Speech 価格オプション製品価格 Azure AI 音声バッチ (Whisper
モデルを含む) $0.36/時間 Azure OpenAI Service での Whisper $0.36/時間 Azure AI Speech real-time (従量課金) 標準音声 $ 1 /時間カスタム音声 $ 1.4 /時間 Azure AI 音声コミットメントレベル (標準モデルとカスタムモデルの両方に適用) 2,000時間 20%割引 10,000時間 35%割引 50,000時間 50%割引 © 2023 Microsoft Corporation. All rights reserved

OpenAI Whisper モデルの概要 • WhisperはOpenAIのエンコーダ - デコーダートランスフォーマーで、 30秒のオーディオチャンクを処理し、それらを複数の言語のテキストに変換すると同時に、それらの言語から英語へのテキストの翻訳も提供
します(つまり、翻訳の出力は英語のみ)。 • OpenAI には、Whisper モデルを使用するための 2 つのシンプルな REST API が用意されています。 • Transcribe (文字起こし) • Translate (翻訳) • 最大57言語を認識する単一モデル • 高速の単一ファイル同期処理を実行 • 書式設定されたテキストでの表示の出力 • SRTおよびVTTビデオキャプションファイルへの直接出力を提供 • プロンプトによるランタイムのカスタマイズをサポート © 2023 Microsoft Corporation. All rights reserved

Whisper モデルの能力読みやすさの向上文の境界、句読点、単語の大文字化、コンテキストに基づく数値の書式設定のより良い識別(例「アルバニー開発コード」9.208(2)")、人間の会話に見られる流暢さと繰り返しの除去多言語サポート話されている言語を自動的に認識混合された言語の認識英語への直接翻訳をサポート
ランタイムのカスタマイズ精度を向上させ、自然言語プロンプトを通じて生成される出力に影響を与える高速文字起こしストリーミングオーディオ入力は無いが、ファイルの認識は非常に高速最大20倍のリアルタイムファクター(RTF):10分のオーディオクリップを30 秒で処理 © 2023 Microsoft Corporation. All rights reserved

API の比較 API タイプ説明 Azure AI Speech モデル Whisper
モデルリアルタイムストリーミング • サービスに継続的にストリーミングされる音声 • 音声の着信時に処理 • 中間 (単語単位) の結果と最終 (発話レベル) 結果を最小限の遅延で提供 SDK (Websocket) 該当なし同期的な単一ファイルの音声 • 単一ファイルの音声が要求ペイロードに含まれる • 可能な限り迅速に処理する • 音声圧縮に応じて15〜30分以内の音声に制限されている（最大25MB） REST Sync API REST Sync API (Azure OpenAI) 非同期な一括ファイル処理 • オンラインストレージ内の音声ファイル • 多数のファイルを並行して処理する • 非常に長いファイル(音声時間：最大1GB)を処理 Batch Async API Batch Async API (Azure AI Speech) © 2023 Microsoft Corporation. All rights reserved

Azure AI SpeechとWhisperどっちを使う？ Azure AI SpeechとWhisperの使い分けについてまとめてみました。 Whisper モデル人間による可読性が重要なキャプション言語が混在した音声
Speech モデル音声からテキストへのリアルタイムストリーミング処理 (ライブキャプションやエージェントアシストなど) Azure AI 音声モデルがより正確な単一言語の文字起こしと翻訳 (末尾言語、テレフォニー音声など)。 © 2023 Microsoft Corporation. All rights reserved

今回実装したアプリケーションの概要とアーキテクチャ

DEMO - 学習塾へ試験的に導入してみた話

DEMO  検証観点 1. 音声の認識精度 2. TextToSpeechまでのスピード 3. OpenAIの質問回答精度

DEMO① ~native level student~

DEMO① ~native level student~ Sentences : I am currently in
the second year of junior high school and am a Japanese-Thai quarter. I can speak English at a native level. I am a member of the brass band club and practice euphonium everyday. Sentences output by the generating AI : I am currently in the second year of junior high school and I am a Japanese high qu arter. I can speak English at a native level. I am a member of the brass band club an d practice euphonium every day. The similarity between the original text and the AI-generated text is approximately 97.7%.

DEMO② ~advance level student~

DEMO② ~advance level student~ Sentences : Nice to meet you.
My name is Sawa. I was a member of the volleyball club in junior high school and I am a member of the tea ceremony club in high school. I have 5 years of programming experience and am in charge of native application development using ReactNative. Mr. Satake is very interesting! Sentences output by the generating AI : Nice to meet you. My name is Sawa. I was a member of the Bible Club in junior high scho ol and I am a member of the Tea Ceremony Club in high school. I have five years of progra mming experience and I mean charge of native application development using Create Nat ive. Mr. Sazaki is very interesting. The similarity between the original text and the AI-generated text is approximately 85.71%.

DEMO③ ~beginner level student~

DEMO③ ~beginner level student~ Sentences : My name is Fubuki.
My age is 14 years old. My hobby is collecting figures. I am looking forward to working with you. Sentences output by the generating AI : My name is Shubuki Maya again is 14 years old. My hobby is collecting, collecting fears. I am looking for two working with you. The similarity between the original text and the AI-generated text is approximately 85.6%.

AI×人間の伴走型支援で英語教育をUpdate  英語を使いこなす為の要素毎日読んで、話して、書いて、聞くことが出来ればどんな人でも１年ぐらいで英語がある程度使いこなせるようになるはず。  AIに担当してもらうこと毎日話し相手になってもらうこと発音の矯正 
人間が担当すること継続するモチベーション管理や、タスク管理、英語の文法などのお伝え

最後にいかがだったでしょうか。  今回はAzure AI Serviceを用いたAzure AI Speechに焦点を当てて発表致しました。 
英語教育における、英語を毎日話すことが大事というところの毎日という大きな課題にアプローチ出来る方法を検討しております。  今後はAzureの発音評価やテキスト読み上げアバターの機能を使用して、より英語でのコミュニケーションが楽しくなるような場を作れればと考えております。

Thank you!!

参考資料  https://zenn.dev/microsoft/articles/azure_next_english_lesson

Cram school DX - Tried to Make English Conversa...

Cram school DX - Tried to Make English Conversation Application

SatakeYusuke

More Decks by SatakeYusuke

Featured

Transcript

学習塾DX 塾生の英会話スキル向上を AIで実現する話 .NETラボ9月 YUSUKE SATAKE

@fe_js_engineer @fe_js_engineer satyus 佐竹祐亮 / Yusuke Satake Microsoft Japan Digital

Agenda  はじめに  アプリの概要と全体アーキテクチャ  各リソースの説明  DEMO 

今回実装したアプリケーションの概要とアーキテクチャ処理フローについて 1. Next.jsで構築したアプリケーションへuserが音声で話しかける 2. SpeechToTextを使って音声 →テキストへ変換 3.

アプリケーションを強化する音声機能音声テキスト変換 OpenAI Whisper モデルを含むテキスト読み上げ音声翻訳話者認識 AZURE ツール

Azure AI Speech 価格オプション製品価格 Azure AI 音声バッチ (Whisper

Azure AI SpeechとWhisperどっちを使う？ Whisper モデル Speech モデル © 2023 Microsoft

API の比較 API タイプ説明 Azure AI Speech モデル Whisper

Azure AI SpeechとWhisperどっちを使う？ Azure AI SpeechとWhisperの使い分けについてまとめてみました。 Whisper モデル人間による可読性が重要なキャプション言語が混在した音声

今回実装したアプリケーションの概要とアーキテクチャ

DEMO - 学習塾へ試験的に導入してみた話

DEMO  検証観点 1. 音声の認識精度 2. TextToSpeechまでのスピード 3. OpenAIの質問回答精度

DEMO① ~native level student~

DEMO① ~native level student~ Sentences : I am currently in

DEMO② ~advance level student~

DEMO② ~advance level student~ Sentences : Nice to meet you.

DEMO③ ~beginner level student~

DEMO③ ~beginner level student~ Sentences : My name is Fubuki.

最後にいかがだったでしょうか。  今回はAzure AI Serviceを用いたAzure AI Speechに焦点を当てて発表致しました。 

Thank you!!

参考資料  https://zenn.dev/microsoft/articles/azure_next_english_lesson