Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pixnet hackthon - workshop

Pixnet hackthon - workshop

blue chen

July 17, 2018
Tweet

More Decks by blue chen

Other Decks in Education

Transcript

  1. 洞洞 ⾒見見 未 來來
    ∽ၻᇹ৘8PSLTIPQ
    Blue Chen ([email protected])
    2018/07/17 @ Pixnet

    View Slide

  2. 硬體介紹
    Google Voice Kit 介紹

    View Slide

  3. 較不建議 Deep Learning
    Framework
    Community 彈性多元
    語⾳音助理理建議使⽤用 Model B 版本

    View Slide

  4. 雙麥克風
    擴充槽

    View Slide

  5. 裝 Button
    找顆 LED
    燈裝進去
    裝上 Speaker

    View Slide

  6. 1 2 3
    4 5 6

    View Slide

  7. 安裝 RPI
    •WINDOWS 版本

    https://www.botsheet.com/cht/raspberry-pi-tutorial-install-raspbian-windows/
    •MAC 版本

    https://www.botsheet.com/cht/raspberry-pi-tutorial-install-raspbian-windows/

    View Slide

  8. 詳情:https://github.com/shivasiddharth/GassistPi
    安裝 Mic Firmware
    先在 /home/pi 下 git clone https://github.com/shivasiddharth/GassistPi.git
    若若喇喇叭有聲⾳音即是成功

    View Slide

  9. 語⾳音助理理介紹
    架構

    View Slide

  10. 10
    Voice Assistant - Core Process
    voice
    command
    One Mic
    process
    Local
    Speech
    Recognition
    Wake up
    Biometrics
    Speech to text
    yes: react
    no: stop
    Natural Language
    Understanding Application
    Wakeup step
    Voice command step
    Short commend
    Sound monitoring
    Pixnet Hackthon focus

    View Slide

  11. 11
    Voice Assistant - Core Process
    voice
    command
    One Mic
    process
    Local
    Speech
    Recognition
    Wake up
    Biometrics
    Speech to text
    yes: react
    no: stop
    Natural Language
    Understanding Application
    Wakeup step
    Voice command step
    Short commend
    Sound monitoring
    今⽇日課程 2:接 Bing API
    今⽇日課程 1:客製化喚醒詞

    View Slide


  12. B C
    C
    B
    A
    可以即時分離現場所有⼈人聲

    View Slide

  13. 講 5 次,迅速客製化喚醒詞
    今⽇日課程 1: 客製化⾃自⼰己的喚醒詞
    ⼩小秘訣: 我們錄⾳音不受限⼀一定要安靜環境,若若機器使⽤用環境處在⾼高吵雜噪⾳音下,
    使⽤用這樣的錄⾳音⾳音檔能在這類環境有更更好的效果。

    View Slide

  14. 今⽇日課程 1: 客製化⾃自⼰己的喚醒詞
    若若現成的開燈跟關燈不容易易喚醒,可以再次錄⾳音
    若若要在 Command line 中啟動:
    可以輸入 python vad1.py on 啟動錄⾳音, on 可改為 off (關燈) tmp (客製化指令)
    記得進入訓練模式 python train-tmp.py
    1
    2

    View Slide

  15. 今⽇日課程 1: 客製化⾃自⼰己的喚醒詞
    啟動應⽤用程式
    若若要在 Command line 中啟動,可以輸入 python tmp.py 0.65 2

    0.65 為模型靈敏度,0-1 越⾼高越容易易被喚醒

    2 為麥克風靈敏度, 0-2 越⾼高越靈敏

    View Slide

  16. 今⽇日課程 1: 客製化⾃自⼰己的喚醒詞
    python tmp.py 0.65 2
    Output 出結果,後續可以基於這個去串串接接下的程式

    View Slide

  17. https://azure.microsoft.com/zh-tw/services/cognitive-services/directory/
    今⽇日課程 2: Speech To Text
    1
    2 點擊這個
    先申請免費帳⼾戶
    串串接微軟的 Bing 服務

    View Slide

  18. 今⽇日課程 2: Speech To Text
    Copy 此串串⽂文字

    View Slide

  19. 今⽇日課程 2: Speech To Text
    安裝⼀一下 Node.js 環境
    安裝 NVM
    wget -qO- https://raw.githubusercontent.com/creationix/nvm/v0.33.11/install.sh | bash
    source ~/.bashrc
    ⽤用 NVM 安裝 Node.js
    nvm install node.js
    套件地址
    https://github.com/noopkat/ms-bing-speech-service
    安裝
    npm install ms-bing-speech-service
    安裝套件

    View Slide

  20. 今⽇日課程 2: Speech To Text
    中⽂文: zh-CN
    貼上剛剛的 key

    View Slide

  21. 今⽇日課程 1 + 2 整合
    以 Node.js 為例例
    將 Output 後的
    規則去作後續識別

    View Slide

  22. Demo
    KKBOX ⾳音樂串串流機

    View Slide

  23. 經驗分享
    幾個製作 NN 模型需注意的地⽅方

    View Slide

  24. NN Layer
    Output
    Input
    以聲⾳音識別為例例
    轉換 轉換
    聲⾳音前處理理挑的套件要顧及開發平台
    1. 不建議在 Google AIY kit ⽤用 librosa
    2. 建議在 Google AIY kit 使⽤用 C base 的前處理理套件

    View Slide

  25. 以聲⾳音輸出為例例
    NN Layer
    Output
    Input
    轉換 轉換
    ⾳音檔採樣是常⾒見見問題:
    1. Linux ⾳音源底層⽤用 alsa, 官⽅方 RPI 版本的效能低弱
    2. 8K , 16K, 48K 採樣影響 Input 維度,前處理理後的標準值不同
    3. 模型不可重覆使⽤用機率⾼高
    前處理理 後處理理
    將維度轉回真
    實可聽的聲⾳音
    很花時間

    View Slide

  26. 26
    www.relajet.com

    View Slide