機械学習のための音声信号処理(基礎編)/ Speech Signal Processing

59613a9ebdbfacb213e86dd470c52025?s=47 moonlight-aska
October 21, 2018
440

機械学習のための音声信号処理(基礎編)/ Speech Signal Processing

2018年10月21日開催の「大江橋Pythonの会#3」の資料です.

59613a9ebdbfacb213e86dd470c52025?s=128

moonlight-aska

October 21, 2018
Tweet

Transcript

  1. None
  2.    NARA

  3.   안녕하세요

  4.    

  5.    

  6. None
  7.   

  8. f P t

  9. None
  10. None
  11. None
  12. None
  13. None
  14. None
  15. Convolutional Recurrent Neural Network

  16.    

  17.   [音情報処理論 音声処理における信号処理1より引用]

  18. None
  19. None
  20.  ×

  21.  

  22. ×

  23.  [音声言語処理特論 第2回音声認識の基礎、DPマッチングの基礎より引用]

  24.    

  25. None
  26. None
  27. None
  28. None
  29. None
  30. None
  31.    

  32. https://www.kaggle.com/c/tensorflow-speech-recognition-challenge

  33. None
  34. MFCC12 ΔMFCC12 ΔΔMFCC12

  35. None
  36. None
  37. None
  38. None
  39. --- No. 6795 edc53350_nohash_0.wav (house ) --- * 1位 :

    house (0.999820) 2位 : cat (0.000060) 3位 : off (0.000032) 4位 : yes (0.000024) 5位 : down (0.000013) --- No. 6796 e95c70e2_nohash_0.wav (house ) --- * 1位 : house (0.999953) 2位 : off (0.000012) 3位 : cat (0.000005) 4位 : eight (0.000004) 5位 : happy (0.000004) --- No. 6797 258f4559_nohash_0.wav (house ) --- * 1位 : house (0.999980) 2位 : off (0.000007) 3位 : happy (0.000004) 4位 : cat (0.000004) 5位 : eight (0.000002) --- No. 6798 1657c9fa_nohash_0.wav (house ) --- * 1位 : house (0.999972) 2位 : off (0.000011) 3位 : yes (0.000003) 4位 : happy (0.000003) 5位 : cat (0.000003) ---------- Total Accuracy ---------- 1位 : 93.57 % ( 6361 / 6798 ) 2位 : 96.78 % ( 6579 / 6798 ) 3位 : 97.78 % ( 6647 / 6798 ) 4位 : 98.35 % ( 6686 / 6798 ) 5位 : 98.57 % ( 6701 / 6798 )
  40.    

  41. None
  42. NARA

  43. None
  44. None
  45. None
  46. https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html