Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pixnet hackthon - workshop

Pixnet hackthon - workshop

blue chen

July 17, 2018
Tweet

More Decks by blue chen

Other Decks in Education

Transcript

  1. 10 Voice Assistant - Core Process voice command One Mic

    process Local Speech Recognition Wake up Biometrics Speech to text yes: react no: stop Natural Language Understanding Application Wakeup step Voice command step Short commend Sound monitoring Pixnet Hackthon focus
  2. 11 Voice Assistant - Core Process voice command One Mic

    process Local Speech Recognition Wake up Biometrics Speech to text yes: react no: stop Natural Language Understanding Application Wakeup step Voice command step Short commend Sound monitoring 今⽇日課程 2:接 Bing API 今⽇日課程 1:客製化喚醒詞
  3. 今⽇日課程 1: 客製化⾃自⼰己的喚醒詞 若若現成的開燈跟關燈不容易易喚醒,可以再次錄⾳音 若若要在 Command line 中啟動: 可以輸入 python

    vad1.py on 啟動錄⾳音, on 可改為 off (關燈) tmp (客製化指令) 記得進入訓練模式 python train-tmp.py 1 2
  4. 今⽇日課程 1: 客製化⾃自⼰己的喚醒詞 啟動應⽤用程式 若若要在 Command line 中啟動,可以輸入 python tmp.py

    0.65 2
 0.65 為模型靈敏度,0-1 越⾼高越容易易被喚醒
 2 為麥克風靈敏度, 0-2 越⾼高越靈敏
  5. 今⽇日課程 2: Speech To Text 安裝⼀一下 Node.js 環境 安裝 NVM

    wget -qO- https://raw.githubusercontent.com/creationix/nvm/v0.33.11/install.sh | bash source ~/.bashrc ⽤用 NVM 安裝 Node.js nvm install node.js 套件地址 https://github.com/noopkat/ms-bing-speech-service 安裝 npm install ms-bing-speech-service 安裝套件
  6. NN Layer Output Input 以聲⾳音識別為例例 轉換 轉換 聲⾳音前處理理挑的套件要顧及開發平台 1. 不建議在

    Google AIY kit ⽤用 librosa 2. 建議在 Google AIY kit 使⽤用 C base 的前處理理套件
  7. 以聲⾳音輸出為例例 NN Layer Output Input 轉換 轉換 ⾳音檔採樣是常⾒見見問題: 1. Linux

    ⾳音源底層⽤用 alsa, 官⽅方 RPI 版本的效能低弱 2. 8K , 16K, 48K 採樣影響 Input 維度,前處理理後的標準值不同 3. 模型不可重覆使⽤用機率⾼高 前處理理 後處理理 將維度轉回真 實可聽的聲⾳音 很花時間