Slide 1

Slide 1 text

学習塾DX 塾生の英会話スキル向上を AIで実現する話 .NETラボ9月 YUSUKE SATAKE

Slide 2

Slide 2 text

@fe_js_engineer @fe_js_engineer satyus 佐竹祐亮 / Yusuke Satake Microsoft Japan Digital Startups & ISV Microsoft Evangelist Works • 日本マイクロソフトのスタートアップチームの技術営業 • 佐竹塾とProAcaの経営 • スポーツベッティングアプリケーション開発 本発表は個人的な見解であり、所属する会社・組織とは全く関係ありませ んのでご了承ください。 comunity • .NETラボ • PoC部

Slide 3

Slide 3 text

Agenda  はじめに  アプリの概要と全体アーキテクチャ  各リソースの説明  DEMO  まとめ

Slide 4

Slide 4 text

はじめに  「10年ぐらい英語勉強しても、全然話せないよね。」 学習塾を経営していて日々感じるのは、日本の教育方法が英語のSpeaking 能力が非常に育ちにくいということです。ここを学習塾の立場から英語の Speaking能力をなんとか伸ばせないか?と考えたことが発表のきっかけです。  私も現職への入社から2ヶ月が経ち、英語は私の前にそびえたっている課題で もあります。 所属するチームは勤務こそ日本ですが、海外メンバーとのミーティングは全て英語 で実施となります。 生徒のため、私の首の為にも英語力をなんとか改善したいと思います。

Slide 5

Slide 5 text

今回実装したアプリケーションの概要とアーキテクチャ 処理フローについて 1. Next.jsで構築したアプリケー ションへuserが音声で話しか ける 2. SpeechToTextを使って音声 →テキストへ変換 3. OpenAIへ質問 4. TextToSpeechを使ってテキ スト→音声へ変換

Slide 6

Slide 6 text

アプリケーションを強化する音声機能 音声テキスト変換 OpenAI Whisper モデルを含む テキスト読み上げ 音声翻訳 話者認識 AZURE ツール カスタマイズと統合を支援する Speech Studio 取り込みクライアント バッチツールキット Speech SDK 柔軟な導入オプション クラウド、オンプレミス、エッジ Azure AI Speech の概要 © 2023 Microsoft Corporation. All rights reserved

Slide 7

Slide 7 text

Azure AI Speechの能力 包括的なカスタマイズ機能 ランタイムのカスタマイズ可能なフレーズ リスト. カスタム音声による包括的なオフライン カスタマイズ。 豊富な機能セット 認識結果を含む豊富なメタデータ。話者のダイアライゼーション。 幅広い音声テクノロジのセット 音声の文字起こしと翻訳を超えた音声技術: ニューラルテキスト読み上げ、話者認 識、キーワードスポッティング、発音評価。 高精度で幅広い言語 任意のプロバイダーでの多くの言語:140の言語/ロケールにわたる76の言語 (Whisper :57の言語)。 言語 ID と翻訳 最大10言語間の言語変化の継続的な識別。音声翻訳 API は、幅広い言語の音声 + 機械翻訳を組み合わせたものです。 大量のデータのバッチ処理 Azure AI Speech には、リアルタイムまたはバッチ処理を通じてオーディオを大 規模に処理する機能が用意されています。リアルタイムとバッチの両方で実績のあ る大規模なオーディオ処理。 © 2023 Microsoft Corporation. All rights reserved

Slide 8

Slide 8 text

Azure AI Speech 価格オプション 製品 価格 Azure AI 音声バッチ (Whisper モデルを含む) $0.36/時間 Azure OpenAI Service での Whisper $0.36/時間 Azure AI Speech real-time (従量課金) 標準音声 $ 1 /時間 カスタム音声 $ 1.4 /時間 Azure AI 音声コミットメント レベル (標準モデルとカスタム モデルの両方に適用) 2,000時間 20%割引 10,000時間 35%割引 50,000時間 50%割引 © 2023 Microsoft Corporation. All rights reserved

Slide 9

Slide 9 text

Azure AI SpeechとWhisperどっちを使う? Whisper モデル Speech モデル © 2023 Microsoft Corporation. All rights reserved

Slide 10

Slide 10 text

OpenAI Whisper モデルの概要 • WhisperはOpenAIのエンコーダ - デコーダー トランスフォーマーで、 30秒のオーディオチャンクを処理し、それらを複数の言語のテキスト に変換すると同時に、それらの言語から英語へのテキストの翻訳も提供 します(つまり、翻訳の出力は英語のみ)。 • OpenAI には、Whisper モデルを使用するための 2 つのシンプルな REST API が用意されています。 • Transcribe (文字起こし) • Translate (翻訳) • 最大57言語を認識する単一モデル • 高速の単一ファイル同期処理を実行 • 書式設定されたテキストでの表示の出力 • SRTおよびVTTビデオキャプションファイルへの直接出力を提供 • プロンプトによるランタイムのカスタマイズをサポート © 2023 Microsoft Corporation. All rights reserved

Slide 11

Slide 11 text

Whisper モデルの能力 読みやすさの向上 文の境界、句読点、単語の大文字化、コンテキストに基づく数値の書式設 定のより良い識別(例「アルバニー開発コード」9.208(2)")、人間の会話 に見られる流暢さと繰り返しの除去 多言語サポート 話されている言語を自動的に認識 混合された言語の認識 英語への直接翻訳をサポート ランタイムのカスタマイズ 精度を向上させ、自然言語プロンプトを通じて生成される出力に影響を与 える 高速文字起こし ストリーミングオーディオ入力は無いが、ファイルの認識は非常に高速 最大20倍のリアルタイムファクター(RTF):10分のオーディオクリップを30 秒で処理 © 2023 Microsoft Corporation. All rights reserved

Slide 12

Slide 12 text

API の比較 API タイプ 説明 Azure AI Speech モデル Whisper モデル リアルタイム ストリーミング • サービスに継続的にストリーミングされる音声 • 音声の着信時に処理 • 中間 (単語単位) の結果と最終 (発話レベル) 結果を最 小限の遅延で提供 SDK (Websocket) 該当なし 同期的な 単一ファイルの音声 • 単一ファイルの音声が要求ペイロードに含まれる • 可能な限り迅速に処理する • 音声圧縮に応じて15〜30分以内の音声に制限されてい る(最大25MB) REST Sync API REST Sync API (Azure OpenAI) 非同期な 一括ファイル処理 • オンラインストレージ内の音声ファイル • 多数のファイルを並行して処理する • 非常に長いファイル(音声時間:最大1GB)を処理 Batch Async API Batch Async API (Azure AI Speech) © 2023 Microsoft Corporation. All rights reserved

Slide 13

Slide 13 text

Azure AI SpeechとWhisperどっちを使う? Azure AI SpeechとWhisperの使い分けについてまとめてみました。 Whisper モデル 人間による可読性が重要なキャプション 言語が混在した音声 Speech モデル 音声からテキストへのリアルタイムストリーミング処理 (ライブキャプションやエージェントアシストなど) Azure AI 音声モデルがより正確な単一言語の文字起こし と翻訳 (末尾言語、テレフォニー音声など)。 © 2023 Microsoft Corporation. All rights reserved

Slide 14

Slide 14 text

今回実装したアプリケーションの概要とアーキテクチャ

Slide 15

Slide 15 text

DEMO - 学習塾へ試験的に導入してみた話

Slide 16

Slide 16 text

DEMO  検証観点 1. 音声の認識精度 2. TextToSpeechまでのスピード 3. OpenAIの質問回答精度

Slide 17

Slide 17 text

DEMO① ~native level student~

Slide 18

Slide 18 text

DEMO① ~native level student~ Sentences : I am currently in the second year of junior high school and am a Japanese-Thai quarter. I can speak English at a native level. I am a member of the brass band club and practice euphonium everyday. Sentences output by the generating AI : I am currently in the second year of junior high school and I am a Japanese high qu arter. I can speak English at a native level. I am a member of the brass band club an d practice euphonium every day. The similarity between the original text and the AI-generated text is approximately 97.7%.

Slide 19

Slide 19 text

DEMO② ~advance level student~

Slide 20

Slide 20 text

DEMO② ~advance level student~ Sentences : Nice to meet you. My name is Sawa. I was a member of the volleyball club in junior high school and I am a member of the tea ceremony club in high school. I have 5 years of programming experience and am in charge of native application development using ReactNative. Mr. Satake is very interesting! Sentences output by the generating AI : Nice to meet you. My name is Sawa. I was a member of the Bible Club in junior high scho ol and I am a member of the Tea Ceremony Club in high school. I have five years of progra mming experience and I mean charge of native application development using Create Nat ive. Mr. Sazaki is very interesting. The similarity between the original text and the AI-generated text is approximately 85.71%.

Slide 21

Slide 21 text

DEMO③ ~beginner level student~

Slide 22

Slide 22 text

DEMO③ ~beginner level student~ Sentences : My name is Fubuki. My age is 14 years old. My hobby is collecting figures. I am looking forward to working with you. Sentences output by the generating AI : My name is Shubuki Maya again is 14 years old. My hobby is collecting, collecting fears. I am looking for two working with you. The similarity between the original text and the AI-generated text is approximately 85.6%.

Slide 23

Slide 23 text

AI×人間の伴走型支援で英語教育をUpdate  英語を使いこなす為の要素 毎日読んで、話して、書いて、聞くことが出来ればどんな人でも1年ぐらいで英語 がある程度使いこなせるようになるはず。  AIに担当してもらうこと 毎日話し相手になってもらうこと 発音の矯正  人間が担当すること 継続するモチベーション管理や、タスク管理、英語の文法などのお伝え

Slide 24

Slide 24 text

最後に いかがだったでしょうか。  今回はAzure AI Serviceを用いたAzure AI Speechに焦点を当てて発表致し ました。  英語教育における、英語を毎日話すことが大事というところの毎日という大き な課題にアプローチ出来る方法を検討しております。  今後はAzureの発音評価やテキスト読み上げアバターの機能を使用して、より 英語でのコミュニケーションが楽しくなるような場を作れればと考えております。

Slide 25

Slide 25 text

Thank you!!

Slide 26

Slide 26 text

参考資料  https://zenn.dev/microsoft/articles/azure_next_english_lesson