Cloud Speech-to-Text API GoogleCloudPlatform ⾳声Buff Text Google Sheets API 事前にSpredSheet⽤意(共有(Doc_idで) Textを Cellに追加 gspread Text Text ▪google.cloud.speech ★Google Cloud Speech-to-Text API 認識モデル command_and_search ・・・ ⾳声検索やコマンドコールに適したモデル [以下、⽇本語対応していません] phone-call ・・・ 電話から発せられた⾳声に適したモデル video ・・・ 動画の字幕作成などに適したモデル
Cloud Speech-to-Text API GoogleCloudPlatform ⾳声Buff Text Google Sheets API 事前にSpredSheet⽤意(共有(Doc_idで) Textを Cellに追加 gspread Text Text ポッドキャストでNHK ニュースを流してみた。 ニュース⾳声から変換されたテキストが追記されていった︕ 例) 東京都は、13⽇都内で新たに10⼈が新型コロナウイルスに感染していることを確認したと発表し ました。また、12⽇の都内の陽性率は暫定値で5.0%でした。 ⭐良かった点 ・かなり正確変換、⽇本語特有の同⾳異義語も息継ぎや⽂終了までに⽂脈から推定して訂正して くれる。 ・専⾨⽤語の変換ミスがあるが、時事ネタもキチンと変換。
Cloud Speech-to-Text API GoogleCloudPlatform ⾳声Buff Text Google Sheets API 事前にSpredSheet⽤意(共有(Doc_idで) Textを Cellに追加 gspread Text Text 1.Cloud Speech-to-Text API のレスポンスが悪い。 ①特に⾳声6〜7秒以上の場合。処理が追いつかないと、 読み漏れで変換を⾶ばしてしまう。 →これが致命的。(⽇本語だからか︖) (テストしたリソースは⼗分なハズだが…︓eo光、PC︓i5 MEM16G) 2.課⾦が発⽣する,受ける⾳声データの上限がある。 今は…無料で$300分のサービス利⽤中だが、$0.006/15 秒 ⾳声データ,1回利⽤5分まで、1⽇:1728秒=19分弱 3.Proxy環境でポート制限(ssh)があると、利⽤できない
Cloud Speech-to-Text API GoogleCloudPlatform ⾳声Buff Text Google Sheets API 事前にSpredSheet⽤意(共有(Doc_idで) Textを Cellに追加 gspread Text Text 3.pyaudio ①端末の環境に依存する部分が⼤きい︕ ・pythonは、3.6までしか対応していない(最近更新されていない) ・OS︓macOS,ubuntu,windows10proと試したが…唯⼀win10proのみ動作 →ネット上では、⾳声のサンプリングレートや1回の採取時間 を調整すれば…など情報があったが、うまく⾏きませんでした。
Cloud Speech-to-Text API GoogleCloudPlatform ⾳声Buff Text Google Sheets API 事前にSpredSheet⽤意(共有(Doc_idで) Textを Cellに追加 gspread Text Text 今回、トライしてみて、 ①⾳声データのAPIへの受け渡しなどで改善の余地ありだが、 やはり⽇本語&複数⼈の会話の⽂字起こしは、まだハードルが⾼い いずれ…ZoomやGoogleMeetで⽇本語⽂字起こし機能がでてくるだろうが… ②とはいえ、GCPのAPI、制限があるもの、簡単に利⽤できたかな。 (もう⾳声の話で無くなっていますが…) APIサービスの組み合わせで、様々な仕組みが作れそうだと実感 ③もうひとつ、副産物として…
API GoogleCloudPlatform ⾳声Buff Text Google Sheets API 事前にSpredSheet⽤意(共有(Doc_idで) Textを Cellに追加 gspread Text Text もうひとつ、副産物として…趣味のアナログシンセの⾳の⾒える化︔︔ せっかく⾳声データの取り込めるようになったので、 ⾳声の⾒える化、やってみた。 ①オシロスコープ X軸︓時間、Y軸︓⾳の⼤きさ、周波数の波 ↓フーリエ変換掛けると… ②スペクトルアナライザー x:周波数 , y:周波数毎の⾳の⼤きさ PyQt5 pyqtgraph