Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Diapositivas explicando la integración de recon...

Diapositivas explicando la integración de reconocedores de voz en robots sociales.

Fernando Alonso Martín

October 19, 2016
Tweet

More Decks by Fernando Alonso Martín

Other Decks in Education

Transcript

  1. 1.  Seman)c  Grammars:  subset  of  the   language  –  speaker

     independent   2.  Sta)s)cal  Model  Of  Language  (SML):   free  language-­‐  speaker  independent.   •  Needs  InformaHon  ExtracHon(IE)  NLP  to     preprocess  the  ASR  output    to  get  semanHc   informaHon.  
  2. 1.  Grammar  based     •  Subset  of  the  language.

      •  SemanHc  informaHon  built-­‐into  the   grammar.   •  Used    à  fill  informaHon  slots.   •   +  Grammar  size  à  -­‐  Accuracy   •   +  Grammar  size  à  +  Naturalness   conversaHon.  
  3. public  $root  =  $integrador;       $integrador  =  [$GARBAGE]

     $juego;     $juego  =  (        "adivinar  personajes":AKINATOR  |        "habla  mas  bajo":BAJARVOLUMEN  |        "callate  ya":CALLARSE  |        "no  sigas   diciendo  mas  cosas":CALLARSE  |        "escondite":ESCONDITE  |  "quien  soy":ESCONDITE  |        "ahorcado":HANGMAN  |        "deja  de   hacer  esto":PARAR  |  "dejalo  ya":PARAR  |    "estate  quieta":PARAR  |        "callate  un  momento":PAUSESPEECH  |        "reconocer  animales":PELUCHES  |  "reconocer   peluches":PELUCHES  |        "peluches":PELUCHES  |  "jugar  con  los  peluches":PELUCHES  |        "animales":PELUCHES  |  "jugar  con   los  animales":PELUCHES  |        "ya  puedes  seguir  hablando":RESUMESPEECH  |        "persigueme":SIGUEME  |  "pilla  pilla":SIGUEME   |  "seguir":SIGUEME  |        "sigueme":SIGUEME  |  "vamonos  de  paseo":SIGUEME  |        "vamos  a  dar  una  vuelta":SIGUEME  |   "vente  conmigo":SIGUEME  |        "habla  mas  alto":SUBIRVOLUMEN  |        "tres  en  raya":TICTACTOE  |        "habla  lo  mas  alto   posible":VOLUMENMAX  |        "habla  lo  mas  bajo  posible":VOLUMENMIN)   {<@Game  $value>};       Example  of  Seman)c  Grammar  
  4. •  Nuance  Recognizer  v10.  (3,000$-­‐  5,000$   aprox)   • 

    Verbio  Recognizer  (1,000$  aprox.)   •   Sphinx  4.  Free   •   OpenEars  (based  on  Sphinx).  Free   •   Loquendo  ASR  (now  Nuance).  1,000$   •   LumenVox.  2,500$  –  3,500$   •   SVOX    (now  Nuance).  Unkown.   •   Verbyx.  Unkown.   •  Speereo.  Unkown.   SoNware  
  5. •  2.  Sta)s)cal  Language  model   – DictaHon  mode.   – 

     Natural  language  (built-­‐into  word  out  of   typical  dicHonaries,  but  present  in  “street   vocabulary”).     –  Needs  a  postprocess  phase.  This  try  to  get   the  semanHc  informaHon  of  the  text   transcribed  using  Natural  Language   Understanding    =>  InformaHon  ExtracHon,   AbstracHng,  etc.      
  6. •  GoogleASR  web  Service   •  Nuance  AudioMining  /  SayAnything

      •  Verbyx  SLM.   •  SpeechPro:  Nestor  Speech  TranscripHon  System   SoNware  for  ASR  -­‐  SML   SoNware  for  Informa)on  Extrac)on   •  -­‐  TextAlyHcs   •  -­‐  Bitext   •  -­‐  Semantria   •  -­‐  LextAlyHcs   •  -­‐  LexalyHcs     •  -­‐  AlchemyAPI     •  -­‐  Repustate     •  -­‐  OpenDover     •  -­‐  Lymbix   •  -­‐  Market  SenHnel     •  -­‐  uClassify   •  -­‐  Aiaioo  Labs  
  7.   AUDIO  CHALLENGES  FOR  HRI  or  HCI.   PREPROCESS  AUDIO

     SIGNAL,  BEFORE  TO  ASR     (Fernando  Alonso  Mar7n)  
  8. –  Sta)onary  Noise  Cancela)on:  bandpass  filter..   –  Ac)ve  Noise

     Cancela)on  =>  Necessary  dedicated   microphones  and  powerful  algorithms.   –   Ac)ve  Echo  Cancela)on:  remove  the  robot  or  computer   sound  of  the  signal  received.   –  Voice  Ac)vity  Detec)on  (VAD):  determinate  voice  and   unvoice  audio  samples  (when  the  audio-­‐voice  start  and   end).  ASR  built-­‐into  very  simple  VAD  system  (designed  for   telephonic  applicaHons)  based  on  volume  threshold.   •  ¿Push  talk  or  VAD?   –   Sound  Source  Separa)on  (SSS):  split  the  audio  signal  on   several  channels.  Each  channel  corresponds  to  a  peer.