#Kanana #MultiModal #LLM #음성인식 #STT
LLM을 활용하여 기존 E2E 기반 음성인식기의 성능을 개선한 방법을 소개합니다.
일반적으로 LLM 기반의 디코더를 E2E 음성인식기에 적용할 경우 성능은 높아지지만, 디코딩 속도가 현저히 느려지는 문제가 있습니다.
이때 LLM 디코더의 언어 능력을 E2E 음성인식기의 디코더로 전이시켜 연산량은 유지하면서도 음성인식률을 크게 향상시키는 방법을 공유합니다.
발표자 : jessie.e, heize.v
카나나 알파 Multimodal LLM Application 조직의 제씨입니다.
오디오, 언어 등 다양한 모달리티의 입출력을 다루는 멀티모달 LLM을 연구하고 있습니다.
카나나 알파 Multimodal LLM Application 조직의 헤이즈입니다.
사람처럼 듣고 이해하는 실용적인 AI를 연구하고 있습니다.