改造 ReSpeaker 2-MIC HAT 台灣樹莓派

姓名標示 — 非商業性 — 相同方式分享 CC (Creative Commons) 姓名標示 — 你必須給予 適當表彰、提供指向本授權 條款的連結,以及 指出(本作品的原始版本)是否已 被變更。你可以任何合理方式為前述表彰,但不得以 任何方式暗示授權人為你或你的使用方式背書。 非商業性 — 你不得將本素材進行商業目的之使 用。 相同方式分享 — 若你重混、轉換本素材,或依本 素材建立新素材,你必須依本素材的授權條款來 散布你的貢獻物。

3 ● Raspberry Pi 官方經銷商 ● 專注 Raspberry Pi 應用與推廣 , 舉辦社群活動 關於我們

4 ● COSCUP,MakerConf,PyCon,HKOSCon 講者 ● 投影片 ● ● 程式碼 ● 分享 x 教學

6 ● ReSpeaker 2-Mic HAT 使用 ● Linux ALSA 介紹 ● Google Assistant 介紹 ● ReSpeaker 2-Mic HAT 改造 本次主題

7 ● 硬體:Raspberry Pi 4B ● 作業系統:2021-05-07-raspios-buster-armhf.img ( ● 為了可以使用USB轉TTL傳輸線 ● 修改/boot/config.txt, 新增三行 – dtoverlay=pi3-miniuart-bt – core_freq=250 – enable_uart=1 ● 修改/boot/cmdline.txt, 將quiet splash的quiet移除 今日環境 刪除 quiet 新增三行

● $ sudo apt-get update --allow-releaseinfo- change ● $ sudo apt-get install -y vim git ● $ sudo apt-get install -y python3-pyaudio ● $ sudo apt-get install -y sox flac libatlas- base-dev espeak mpg123 ● $ sudo pip3 install -U SpeechRecognition python-vlc gtts openai ● $ sudo ln -s /usr/lib/arm-linux- gnueabihf/ /usr/lib/arm- linux-gnueabihf/ ● $ sudo pip3 install -U yt-dlp (hackmd) 安裝所需軟體

● # 安裝新版 Dialogflow ● $ sudo pip3 install -U google-cloud-dialogflow ● $ sudo pip3 install grpcio-tools ● $ sudo pip3 install -I --force-reinstall grpcio (hackmd) 安裝所需軟體

● # 安裝 Voice Engine + Echo Cancellation ● $ sudo apt-get install -y libspeexdsp-dev speex ● $ sudo apt-get install swig3.0 ● $ sudo ln -s /usr/bin/swig3.0 /usr/bin/swig ● $ sudo pip3 install -U speexdsp (hackmd) 安裝所需軟體

15 實驗 1: 錄音 / 播音 目的 : 使用 ALSA 相關工具

● 特色 ● 使用 WM8960(low power stereo codec) ● 2 Microphones ● 3.5mm Audio Jack ● JST2.0 Speaker Out ● 2 Grove Interfaces ● 1 User Button ReSpeaker 2-Mics Pi HAT

ReSpeaker 2-Mics Pi HAT

● $ cd ~ ● $ git clone voicecard.git ● $ cd seeed-voicecard ● $ sudo ./ --compat-kernel ● $ sudo reboot (hackmd) 安裝設定

測試是否安裝成功? aplay -l arecord -l

攜帶型喇叭 電源開關 ( 有兩段大小聲 ) miniUSB 充電

ReSpeaker 2-Mics + 喇叭 喇叭接在 ReSpeaker 上

● 列出目前可 record 的音訊裝置 ● $ arecord -l ● 錄音 (mono, stereo) ● $ arecord -D plughw:2,0 -d 3 -f dat -c 1 mono.wav ● $ arecord -D plughw:2,0 -r 16000 -f S16_LE 16k.wav ● $ arecord -D plughw:2,0 -f dat stereo.wav 測試錄音 (arecord)

● 列出目前可 playback 的音訊裝置 ● $ aplay -l ● 播放音訊 ● $ aplay -D plughw:2,0 mono.wav ● $ aplay -D plughw:2,0 16k.wav ● $ aplay -D plughw:2,0 stereo.wav 播放 (aplay)

● 列出PulseAudio 的Audio 輸出: ● $ pactl list short sinks 0 1 alsa_output.platform-bcm2835_audio.analog-stereo 2 alsa_output.platform-soc_sound.stereo-fallback ● 設定PulseAudio 的Audio 預設輸出 ● $ pactl set-default-sink 1 # 1 是3.5mm Audio Jack ● $ pactl set-default-sink 2 # 2 是ReSpeaker 設定 PulseAudio Sound Server 預設輸出

● $ aplay stereo.wav Playing WAVE 'stereo.wav' : Signed 16 bit Little Endian, Rate 48000 Hz, Stereo 聲音格式 mono stereo

26 使用 alsamixer 控制音量

$ alsamixer 按鍵盤上下鍵調整音量

按 F5 顯示所有功能 按 tab 切換功能 按 F5 會顯示 音效卡所有功能

按 F6 可切換音效卡 切換到 ReSpeaker 音效卡

調整 ReSpeaker 音效卡 結束按 ESC 退出 Microphone 和 Speaker 設定同時出現 先調整音量大小

● 儲存 ALSA 設定到 ~/.config/asound.state ● $ alsactl --file ~/.config/asound.state store ● 將 ALSA 設定載入 ● $ alsactl --file ~/.config/asound.state restore 儲存和載入 ALSA 設定

32 Linux 輸入與輸出的處理流程

● Sound Card & Device 音效卡的資訊流

現代的 Linux Consumer Audio Stack

● 是一個軟體架構 (software framework) 和部 份的 Linux Kernel, 提供音效卡驅動程式 API ● 包括指令列工具 ● alsactl, amixer, arecord/aplay and alsamixer ALSA (Advanced Linux Sound Architecture)

● /usr/share/alsa/alsa.conf => hook 兩個檔案 + 預設使用 Card 0 和 Device 0 作為音訊設備 ● /etc/asound.conf( 系統層級的設定檔 ) ● ~/.asoundrc( 使用者層級的設定檔 ) ● 相關名詞 (device) ● control: 音效卡的控制 , 例如通道選擇 / 混音 / 麥克風控制等 ● pcmc: 用於錄音的 pcm 設備 ● pcmp: 用於播放的 pcm 設備 ● seq: 音序器 ● timer: 計時器 相關設定檔

將喇叭插到 Pi 上的 3.5mm Audio Jack 改成預設 audio 從 3.5mm jack 輸出 , 打以下指令 $ pactl set-default-sink 1

● espeak( 支援多國語言 ) ● festival( 不支援中文 ) ● zhspeak( 支援中文 ) ● gtts-cli( 支援多國語言 , 需要連網 ) Text to Speech(TTS) on Linux

● $ pactl set-default-sink 1 ● $ espeak "hello world" ● $ espeak -p90 "hello world" ● $ espeak -vzh " 你好 " ● $ echo " 你好帥 " > words.txt ● $ espeak -vzh+m2 -s 150 -f words.txt -p: 音調 ( 預設 50) -vzh: 中文 m2: 第二種男生聲音 f2: 第二種女生聲音 -s: 速度 espeak

● 需要下載安裝執行檔和 ogg 音訊檔 ● $ cd ~ ● $ wget -O zhspeak_4.3.0.tar.gz ● $ tar zxvf zhspeak_4.3.0.tar.gz ● $ cd ~/zhspeak/bin ● $ ./zhspeak 你好帥 zhspeak

● 英文 ● $ gtts-cli 'hello' --output hello.mp3 ● $ mpg123 hello.mp3 ● 中文 ● $ gtts-cli 'Taipei 現在溫度是 31 度 ' -l zh-TW --output hello.mp3 ● $ mpg123 hello.mp3 gtts-cli ( 需要聯網 )

控制 ReSpeaker 2-Mics 的 GPIO

接到實體腳位 11 接到實體腳位 32

44 import RPi.GPIO as GPIO import time GPIO.setmode(GPIO.BOARD) BTN_PIN = 11 GPIO.setup(BTN_PIN, GPIO.IN) def mycallback(channel): print("Button pressed") try: GPIO.add_event_detect(BTN_PIN, \ GPIO.FALLING, \ callback=mycallback, \ bouncetime=200) while True: time.sleep(10) finally: GPIO.cleanup() 測試按鍵 ( 實體腳位 11)

45 DEMO $ cd ~/hack-respeaker/01-gpio $ python3

Grove 接頭 ● 由 seeedstudio 設計的 grove system ● 數位輸出 / 輸入由四根 pin 控制

47 ● LED_PIN = 32 GPIO.setup(LED_PIN, GPIO.OUT, initial=GPIO.LOW) ● try: while True: print("LED is on") ● GPIO.output(LED_PIN, GPIO.HIGH) time.sleep(2) print("LED is off") ● GPIO.output(LED_PIN, GPIO.LOW) time.sleep(2) except KeyboardInterrupt: print("Exception: KeyboardInterrupt") finally: GPIO.cleanup() 測試 GPIO12( 實體腳位 32)

48 DEMO $ cd ~/hack-respeaker/01-gpio $ python3

49 實驗 2: Google Assistant 目的 : 設定 Google 服務

使用 Google Assistant SDK

Slide 52

Slide 53 text


● 特色 ● Hotword detection ● Voice control ● Natural language understanding ● SDK 元件 ● Google Assistant Library – 原生 Python ● Google Assistant Service – 使用 gRPC API 傳遞 , 可和 Go, Java, C#, Node.js or Ruby 介接 安裝 Google Assistant SDK

● 設定 Google Assistant 的順序 ● 專案 (project)> 模型 (model)> 設備 (device) ● 在 建立專案 ● 在 設定功能與權限 設定 Google Assistant 基本概念

● 安裝 Google Assistant Library ● 建立專案 ● 啟用 Google Assistant API ● 產生驗證檔案 ● 用範例程式測試 操作步驟 - Configure a Developer Project and Account Settings

● 從 建立專案

Slide 59

Slide 60 text

● 啟用 Google Assistant API

API & Service > Dashboard

Dashboard > Enable API

搜尋 Google Assistant API

啟用 Google Assistant API

● 產生驗證檔案 選擇專案

選擇 OAuth 驗證方式

Slide 68

Slide 69

Slide 70

Slide 71

Slide 72

Slide 73

Slide 74

Slide 75

Slide 76 text

將網址貼到瀏覽器 如果出現 401 的錯誤 點選 Learn more

在 support email 選擇自己的 email 感謝淡江大學資創系 Ting 的貢獻 選擇自己的 email 以後 save

Slide 79

Slide 80 text


建立 OAuth 驗證檔

Google Home Architecture

服務串接情境 可使用任意裝置

Device Type

Device Trait

使用 Google Assistant SDK

● 但 Google 不再維護了 ...

● 測試預設喇叭和麥克風功能 ● > ● 使用文字輸入和 Google Assistant 交談 ● > ● 按下 Enter 後 , 使用語音和 Google Assistant 交談 ● > 測試其他範例程式

● (env) $ python ~/assistant-sdk-python/google-assistant- sdk/googlesamples/assistant/grpc/ (hackmd) 執行 開始錄音 , 請講話

● (env) $ python ~/assistant-sdk-python/google-assistant- sdk/googlesamples/assistant/grpc/ --device- model-id --device-id (hackmd) 執行 請輸入文字

● 問時間 (what time is it)

● 問天氣 (how is the weather tomorrow)

● (env) $ python ~/assistant-sdk-python/google-assistant- sdk/googlesamples/assistant/grpc/ --device- model-id --device-id (hackmd) 執行 按下 Enter 以後開始說話

● 問時間 (what time is it) 即時的 Speech to Text

96 實驗 3: 語音轉文字 (STT) 目的 : 語音辨識和語音喚醒

使用麥克風收音後 , 該怎麼變成文字 ?

● 語言系統由發音 (phonetics), 音韻 (phonology), 形態 (morphology), 詞彙 (lexicon), 句法 (syntax), 語義 (semantics), 語用學 (pragmatics) 等所組成

99 目前 Google Assistant 支援的語系

● STT(Speech to Text) 含訊號處理 (Signal), 聲學處理 (Acoustic) 和語言處理 (Language) 語音訊號處理 + 自然語音處理

● 支援多種語音辨識引擎 ● CMU Sphinx (works offline) ● Google Speech Recognition ● Google Cloud Speech API ● ● Microsoft Bing Voice Recognition ● Houndify API ● IBM Speech to Text ● Snowboy Hotword Detection (works offline) 使用 SpeechRecognition 套件

試試看 Google 的 STT 吧 #!/usr/bin/python3 ● import speech_recognition as sr r = sr.Recognizer() with sr.Microphone() as source: r.adjust_for_ambient_noise(source, duration=1) print('Say something>>> ') audio = r.listen(source, timeout=10) print('Google Speech Recognition thinks you said:') sent = r.recognize_google(audio, language="zh-TW") print("{}".format(sent))

103 DEMO $ cd ~/hack-respeaker/03-stt $ python3

104 ● r = sr.Recognizer() ● # 停止動態門檻值 ● r.dynamic_energy_threshold = False ● # 停止多少秒數後視為結束語句 ● r.pause_threshold = 1 ● # 最小語句秒數 ● r.phrase_threshold = 0.3 ● # 開始和結束的等待秒數 ● r.non_speaking_duration = 0.5 speech_recognition 常用參數

105 Text-to-Speech(TTS) Linguistic * 正規化 * 斷詞斷句 * 字轉音 * 標記詞性 Acoustic * 音量 * 音頻 * 語速 Synthesis * 疊加合成 * 共振峰合成 * 線性編碼預測合成

試試看 Google 的 TTS 吧 #!/usr/bin/python3 from gtts import gTTS from pygame import mixer def speak(sentence, lang, loops=1): with tempfile.NamedTemporaryFile(delete=True) as fp: tts = gTTS(text=sentence, lang=lang)'{}.mp3'.format( mixer.init()'{}.mp3'.format( sentence = 'Hello World' speak(sentence, 'en') time.sleep(2)

107 DEMO $ cd ~/hack-respeaker/03-stt $ python3

Slide 109

● 在一段音訊中 , 可針對特定喚醒詞被觸發的演算法 ● 好的喚醒詞檢測引擎 ● 低的錯誤接收率 (FAR, false acceptance rate) ● 低的錯誤拒絕率 (FRR, false rejection rate) ● 低的資源利用率 喚醒詞檢測引擎 C 比 A 好

Slide 111

● 一個高度客製化的喚醒詞檢測引擎 , 並且 ● 可客製化喚醒詞 ● 一直監聽 , 但保護隱私 ● 輕巧 , 容易移植 Snowboy

解碼器 (decoder) 結構 ├── ├── ├── ├── ├── ├── requirements.txt ├── resources │ ├── ding.wav │ ├── dong.wav │ ├── common.res │ └── snowboy.umdl ├── ├── └── version snowboy 喚醒詞模型 由 SWIG 產生的 Python 封裝檔 使用 SWIG 編譯的動態鏈接庫 控制樹莓派 GPIO

Slide 113 text import snowboydecoder model = sys.argv[1] signal.signal(signal.SIGINT, signal_handler) detector = snowboydecoder.HotwordDetector(model, sensitivity=0.5) print('Listening... Press Ctrl+C to exit') detector.start(detected_callback=snowboydecoder.play_audio_file, interrupt_check=interrupt_callback, sleep_time=0.03) ● detector.terminate()

114 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3 resources/snowboy.umdl

整合 SpeechRecognition import snowboydecoder detector = snowboydecoder.HotwordDetector(model, sensitivity=0.5) def audioRecorderCallback(fname): r = sr.Recognizer() with sr.AudioFile(fname) as source: audio = r.record(source) # read the entire audio file print(r.recognize_google(audio, language="zh-TW")) detector.start(detected_callback=detectedCallback, audio_recorder_callback=audioRecorderCallback, interrupt_check=interrupt_callback, sleep_time=0.01) detector.terminate() 可調整靈敏度,通常從 0.38 到 0.5

116 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3 resources/snowboy.umdl

訓練自己的喚醒詞 (hotword)

( 原本 ) 在 snowboy 平台建立喚醒詞

( 原本 ) 一共要做三次 開始錄音

120 ● snowboy 雲端喚醒詞平台在 2020/12/31 關閉 在 2017 賣給百度

121 ● 我們移植 snowboy 功能 , 重新建立新的訓練平台 ● 使用網頁版的 snowboy 訓練 ● 訓練喚醒詞

122 ● 錄製喚醒詞 , 取名 record1.wav, 結束按 ctrl+c ● pi$ cd ~ ● pi$ rec -r 16000 -c 1 -b 16 -e signed-integer -t wav record1.wav (hackmd) 錄製三次喚醒詞

123 ● 使用網頁版的 snowboy 訓練

124 ● 上傳使用 rec 指令錄製的喚醒詞 第二步 : 上傳 record1.wav 和 record2.wav 和 record3.wav 第一步 : 選擇檔案

125 ● 訓練完喚醒詞後可以下載 訓練完成後 , 可以下載喚醒詞模型 將此一模型放到 pi 的 snowboy/resources 目錄下

126 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3 resources/hotword.pmdl 使用自訂喚醒詞 , 可能需要調整靈敏度

127 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3 resources/hotword.pmdl 使用自訂喚醒詞喚醒後再做 STT

● # 語音合成英文以後用 mpg123 播放 ● $ gtts-cli 'hello' --output hello.mp3 ● $ mpg123 hello.mp3 ● # 轉成 wave 檔以後用 aplay 播放 ● $ mpg123 -w ding.wav hello.mp3 ● $ aplay ding.wav 使用 mpg123 將 MP3 轉成 wav

● 預設的回應語檔名為 ding.wav, 檔案路徑 在 /path/to/snowboy/resources 下 ● 將做好的 ding.wav 放到 resources 下 ( 先備份 ) ● $ cd ~/hack-audio/03-stt/snowboy ● $ mv resources/ding.wav resources/ding.wav.bak ● $ mv ding.wav resources/ 換掉回應語 ding.wav

130 DEMO 自訂喚醒詞和回應語 $ cd ~/hack-respeaker/03-stt/snowboy $ python3 resources/hotword.pmdl

131 實驗 4: 使用 Dialogflow 平台 目的 : 自然語言了解 (NLU)

自然語言處理 (NLP)

自然語言理解 (NLU) - Natural Language Understanding

● ● ● ● 威盛 ) ● UNIT(Baidu 服务 ) ● DUI( 思必 服务 驰 ) 自然語言理解 (NLU) 平台

● 可能的問句 ● 請告訴我明天天氣如何? ● 明天外面是不是很熱? ● 台北下星期會不會下雨 ● 天氣怎麼樣 ● 下星期會下雨嗎 ● Intent( 意圖 ) => 問天氣 ● Entity( 實體 ) => 日期 , 地點 明天台北的天氣如何?

● Agent ● 一個具有特定功能範圍的 NLU 模型 ● Intent ● 一個句子的意圖 , 通常可以用一句話回答 ● Entity ● 自然語言中有關鍵意義的參數 , 如時間 / 城市 ● User Says ● 使用者用自然語言說出的一句話 自然語言理解 (NLU) 重要元素

● 原名稱為, 或是 Speaktoit ● 提供自然語言對話和人機互動技術 ● 支援 Android, iOS 和 Windows Phone ● Google 在 2017 年收購 , 改名為 dialogflow ● 已整合到 Google Cloud 等服務 Dialogflow

● 建立⼀個 Agent( 代理 AI) ● 建立所需的 Entity( 句⼦中的物件 ) ● 建立所有的 Intent( 句⼦的意圖 ) ● 測試 (Testing) 和訓練 (Training) 使用 Dialogflow 步驟

● 登入使用

建立新的 Agent

建立新的 Agent 要分析的語言 , 建立後不可改 自動建立 GCP 專案

主控台 點選後會展開左邊選單

建立新的 Entities 建立新的 Entities

Entity 屬性 ( 名稱 ) 記得存檔 Entity 代號 同義詞 Entity 內容

再建立一個 Entity( 動作 ) Entity 代號 記得存檔 同義詞 Entity 內容

在沒有建立 Intent 輸入文字測試 開燈

回傳預設結果 預設回應 Default Fallback Intent

建立新的 Intent 預設回應 Default Fallback Intent

建立新的 Intent Intent 名稱 可能的用語 (User Says)

輸入可能的用語 (User Says) 可能的用語 自動識別出 Entity

再輸入一個可能的用語 (User Says) 再輸入可能的用語 自動識別出 Entity 存檔後測試

測試輸入 有認得 Intent, 可是沒有內容 開燈 開燈

新增 Intent 的回覆 新增回覆

先用底線將句子連成一個單字 完成後存檔 通常是有意義的句子 , 利如 turn_on_light_ok

測試輸入 有認得 , 並且 傳回正確回覆 開燈 開燈

測試新的輸入 如果不認得 去開燈

使用 Training 功能 剛剛的測試用語

( 如果沒有自動選取的話 ) 還要做些微調 將字選取起來以後選擇對應的 Entity 燈對應到 light

將字選取起來以後選擇對應的 Entity 燈對應到 turn_on ( 如果沒有自動選取的話 ) 還要做些微調

記得要先存檔 存檔

認得新的用語了 有認得 , 並且 傳回正確回覆 開燈 去開燈

● 根據不同的用語 (User Says) ● 去開燈 ● 燈打開 ● 打開燈 ● 對應到相同的意圖 (Intent) ● turnOnLight ● 並且有相同的回應 (Response) ● turn_on_light_ok 目前 Dialogflow 會了什麼?

但如果判斷錯了怎麼辦? 判斷錯誤 關燈

加強訓練! 點選進入

把錯誤的找出來 , 剃除掉 改成預設回應 修改完後存檔

再試一次 不再判斷錯誤 關燈

● v1 的 API 比較簡單 , 但安全性弱 (2021 已停用 ) ● v2 的 API 要設定 Google Cloud Platform 該如何整合到程式裡?

168 使用 v2 的 API(OAuth 2)

Slide 170

Slide 171

Slide 172

Slide 173

Slide 174

Slide 175

Slide 176

Slide 177

Slide 178

Slide 179

● $ nano ~/hack-respeaker/smart_speaker.conf [dialogflow] google_app_credential = FIXME ● project_id = FIXME print(response.text) 將儲存路徑寫在設定檔 將 google_app_credential 換成自己的 例如 : /home/pi/ 檔名 .json

project_id 在哪裡? project_id

config = configparser.ConfigParser()'../smart_speaker.conf') os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = config.get('dialogflow', 'google_app_credential') project_id = config.get('dialogflow', 'project_id') query = sys.argv[1] def detect_intent_texts(project_id, session_id, texts, language_code): import dialogflow_v2 as dialogflow session_client = dialogflow.SessionsClient() session = session_client.session_path(project_id, session_id) text_input = dialogflow.types.TextInput( text=texts, language_code=language_code) query_input = dialogflow.types.QueryInput(text=text_input) response = session_client.detect_intent( session=session, query_input=query_input) ● detect_intent_texts(project_id, session_id, query, language_code) Python 程式串接

182 DEMO $ cd ~/hack-respeaker/04-nlu $ python3 開燈 自己定義的查詢字串

使用 Python 呼叫 v2 API 成功 Intent 回覆 查詢字串

● ImportError: /lib/arm-linux- gnueabihf/ version `GLIBC_2.33' not found (required by /usr/local/lib/python3.7/dist- packages/grpc/_cython/cygrpc.cpython-37m-arm- ● 解決方法: # 再裝一次 grpcio 和 grpcio-tools ● $ sudo pip3 install -I --force-reinstall grpcio ● $ sudo pip3 install grpcio-tools 如果遇到錯誤如下

將 Dialogflow 整合到服務裡

● 1. 使用客製化關鍵字喚醒 Pi ● snowboy 客製化 ● 2. 利用 ' 開燈 ' 或是 ' 燈打開 ' 等句子讓 LED 亮或是暗 ● 用 STT 讀取語音輸入 (snowboy/ ● 把文字用 request 送到 dialogflow( 改造 Google AIY Voice Kit

187 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3 resources/hotword.pmdl

用自訂喚醒詞喚醒後再做 NLU Intent 回覆 查詢字串 自訂喚醒詞

189 讓我們的 AIY 更智慧一點

用瀏覽器播 Youtube

● 1. 給予搜尋字串回傳影片列表 ● 2. 解析 HTML 找出視訊來源 (yt-dlp) ● 需先安裝套件 $ sudo pip3 install -U yt-dlp ● 3. 使用多媒體播放器播放音訊串流 (vlc) 用程式播 Youtube 裡面的音樂

● 因為 youtube_dl 在 2020/10 美國唱片業協會 (RIAA) 控 訴 , 因此專案被 github 下架 , 之後更新不頻繁且不穩定 ● yt-dlp 是 youtube-dl 的分支 , 主要在添加新功能和打 patch, 並維持和 youtube_dl 同步 ● 使用的 function 和 youtube_dl 完全一樣 ! 使用 yt-dlp 原因

從 yt_dlp 找來源再用 vlc 播放 ● import yt_dlp as youtube_dl ydl_opts = {音訊參數} ● def play_music(name): with youtube_dl.YoutubeDL(ydl_opts) as ydl: meta = ydl.extract_info(name, download=False) if meta: info = meta['entries'][0] playurl = info['url'] print(playurl) Instance = vlc.Instance() player = Instance.media_player_new() Media = Instance.media_new(playurl) Media.get_mrl() player.set_media(Media)

● 修改第四行 , 將 yt_dlp 更名為 youtube_dl ● import youtube_dl 改為 import yt_dlp as youtube_dl 修改 4 4 將 yt_dlp 取別名 , 名稱為 youtube_dl

195 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3 " 查詢字串 " " 周杰倫 青花瓷 "

● AttributeError: module 'vlc' has no attribute 'Instance' ● 解決方法: # 先移除 ● $ sudo apt-get remove -y --purge vlc* libvlc* ● $ sudo pip uninstall -y vlc python-vlc ● $ sudo pip3 uninstall -y vlc python-vlc ● $ sudo apt-get clean # 再重新安裝 ● $ sudo apt-get install -y vlc ● $ sudo pip3 install -U python-vlc 如果遇到錯誤如下

● 1. 建立新的 Entity( 播 , 歌手 , 曲名 ) ● 2. 建立新的 Intent( 解析播音樂自然語言 ) ● 3. 回傳 Response 分析出的歌手和曲名 再用 Dialogflow 分析吧

先建立新的 Entity 新增完畢後存檔 播放

再建立新的 Intent

取個喜歡的名字吧 playMusic

先建立新的 Entity 可能的用語 自動識別出 Entity 是系統的 Entity

將不認識的曲名加到 @sys.any @sys.any 將字選取起來以後選擇對應的 Entity

@sys.any 加入一筆資料了 雪狼湖

可用的變數 變數代號

新增回應 (Response) 1. 使用空白分隔變數 2. 變數名稱開頭符號為 $ 選擇 $music-artist

輸入回應的下一個變數 1. 使用空白分隔變數 2. 變數名稱開頭符號為 $ 選擇 $any

輸入完成後記得存檔 play $music-artist $any

測試輸入 有認得 , 並且 傳回正確回覆 播張學友的雪狼湖

再訓練一筆試試看 放蔡依林的舞孃

將不認識的曲名加到 @sys.any @sys.any 將字選取起來以後選擇對應的 Entity

測試輸入 放蔡依林的舞孃 play 蔡依林 舞孃

● 根據不同的用語 (User Says) ● 播張學友的雪狼湖 ● 放蔡依林的舞孃 ● 對應到相同的意圖 (Intent) ● playMusic ● 根據使用者輸入回應帶有變數的結果 (Response) ● play 蔡依林 舞孃 ● play 張學友 雪狼湖 目前 Dialogflow 會了什麼?

● JSON(JavaScript Object Notation) 是一種資料結構 ● 物件 (object) 以 { } 表示 ● 鍵 / 值 (collection) 以 : 表示 ● 陣列 (array) 以 [ ] 表示 ● 最外層用 {} 包起來 資料使用 JSON 結構傳送

解析回傳結果 查詢字串 Entities Intent 回覆

215 DEMO $ cd ~/hack-respeaker/04-nlu $ python3 放蔡依 林的舞孃 自己定義的查詢字串

整合到程式裡面成功 play 蔡依林 舞孃 查詢字串

整合其他服務 (Youtube)

● 1. 使用客製化關鍵字喚醒 Pi ● snowboy 客製化 ● 2. 語音輸入 ' 播 ooo 的 xxx’ ● 用 STT 讀取語音輸入 (snowboy/ ● 把文字用 request 送到 dialogflow( ● 根據回傳 response, 播 Youtube 音樂 ( 新技能:點歌播放

219 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3 resources/hotword.pmdl

使用自訂喚醒詞喚醒後再做 NLU Youtube 音訊來源 查詢字串 使用自訂喚醒詞 Intent 回覆

221 整合 ChatGPT

● OpenAI 開發的 AI 聊天機器人程式 , 於 2022/11 推出 ● 基於 GPT-3.5 和 GPT-4 的大型語言模型 (LLM) 並以強化 學習訓練 ChatGPT Chat Generative Pre-trained Transformer

ChatGPT 網頁版

串接 GhatGPI API( 需付費 ) import openai ● ● openai.api_key = config.get('dialogflow', 'openai_api_key') ● ● messages = [] ● message = "樹莓派可以吃嗎?" ● ● if message: ● messages.append( ● {"role": "user", "content": message}, ● ) ● chat = openai.ChatCompletion.create( ● model="gpt-3.5-turbo", messages=messages ● ) ● ● reply = chat.choices[0].message.content ● print(f"ChatGPT: {reply}") 向 ChatGPT 問問題 ChatGPT 使用的模型

225 DEMO $ cd ~/hack-respeaker/03-stt/snowboy $ python3

226 Raspberry Pi Rocks the World Thanks