Upgrade to Pro — share decks privately, control downloads, hide ads and more …

커스텀 음성 합성: 1문장 녹음으로 1초만에 커스텀 음성 합성기 만들기

kakao
December 08, 2022

커스텀 음성 합성: 1문장 녹음으로 1초만에 커스텀 음성 합성기 만들기

#Speech #TTS

카카오엔터프라이즈에서는 커스텀 음성 합성 기술을 사용하여 1개의 문장만 가지고 그 사람의 목소리로 합성음을 만들 수 있습니다. 본 세션에서는 커스텀 음성 합성이 기존 음성합성과 달리, 소용량 데이터만으로 목소리 추가를 가능케하는 근본적인 이유를 선보이고, 간단한 배경 기술 설명과 데모를 선보입니다.

발표자 : ronda.jung
카카오엔터프라이즈 voice interface 팀의 론다입니다. 극소량의 데이터로 고품질 커스텀 음성 합성기를 만드는 연구를 하고 있습니다.

kakao

December 08, 2022
Tweet

More Decks by kakao

Other Decks in Programming

Transcript

  1. 1문장 녹음으로 1초만에 커스텀 음성 합성기 만들기 Copyright 2022. Kakao

    Corp. All rights reserved. Redistribution or public display is not permitted without written permission from Kakao. 커스텀 음성 합성 정성희 ronda. jung 카카오 엔터프라이즈 if(kakao)2022
  2. 커스텀 음성 합성이란? 기존 음성 합성기에 목소리 추가하기 어려웠던 이유

    커스텀 음성 합성기에 목소리 추가하기 쉬운 이유 데모
  3. 커스텀 음성 합성이란? 기존 음성 합성기에 목소리 추가하기 어려웠던 이유

    커스텀 음성 합성기에 목소리 추가하기 쉬운 이유 데모
  4. 커스텀 음성 합성이란? -합성기가 새로운 목소리를 지원하기 위해 소량의 데이터만

    사용하도록 하는 기술 -녹음해야 하는 문장 수가 적기 때문에 일반인도 합성기를 쉽게 만들 수 있다 -성우의 목소리를 추가할 때도 기간이 짧게 들고 비용이 줄어든다 누구나 원하는 목소리로 합성기를 쉽게 만들 수 있게 해주는 기술
  5. 커스텀 음성 합성이란? 기존 음성 합성기에 목소리 추가하기 어려웠던 이유

    일반 합성기의 합성/훈련/목소리 추가 다화자 합성기의 합성/훈련/목소리 추가 커스텀 음성 합성기에 목소리 추가하기 쉬운 이유 데모
  6. 합성기 - 훈련 - 화자의 스크립트와 음성 데이터가 짝으로 GPU에

    입력되어, 그 관계를 학습한 결과, 합성기 (= encoder + decoder)가 훈련된다. - Encoder: 텍스트를 이해하는 모듈 - Decoder: 소리를 생성하는 모듈 Encoder Decoder
  7. 합성기 - 서비스 화자 추가 - 새로운 화자의 데이터로 encoder,

    decoder 훈련하는 것이 필요 - 추가된 화자만큼 모델 수 증가, 유지 관리 포인트 증가 - 단일 모델을 훈련할만큼의 신규 화자 음성 녹음 필요 (수만 문장)
  8. 다화자 합성기 - 합성 - 다화자 합성기: 여러명의 목소리를 제공하는

    하나의 합성기 - 음색을 선택하고 스크립트를 입력 - 선택된 화자 목소리로 합성음을 출력
  9. 다화자 합성기 - 훈련 - 화자 공통: 한벌의 encoder, decoder를

    여러 화자가 공유 - Speaker embedding: 화자 고유의 음색 정보를 저장하는 파라미터 - 공유하는 파라미터가 있기 때문에 화자 한명당 필요한 문장 수가 줄어든다 Encoder Decoder Speaker embedding
  10. 다화자 합성기 - 서비스 화자 추가 - 모델의 파라미터 일부를

    여러 화자가 공유하고 있기 때문에 모델 업데이트 과정에서 기존 화자들의 합성음도 영향을 받는다. - 신규화자당 수천 문장의 데이터 필요.
  11. Q) 목소리 추가 비용 줄이려면? A) 다 만들어진 합성기에 “목소리만”

    할 수 있는 합성기를 만들자 커스텀 음성 합성
  12. 커스텀 음성 합성이란? 기존 음성 합성기에 목소리 추가하기 어려웠던 이유

    커스텀 음성 합성기에 목소리 추가하기 쉬운 이유 적응 기반 커스텀 합성기 Zerofshot 커스텀 합성기 두 접근 비교 데모
  13. 두가지 커스텀 합성기 방식 비교 적응기반 zerofshot 기반 훈련과정 -

    1단계: 다화자 TTS 훈련 - 2단계: 목적 화자로 적응 훈련 - 적응 훈련 필요 없음.1단계. 연구주제 - 어떤 파라미터들을 튜닝해야 화자당 문 장 수는 줄어들면서 유사도는 올라갈지 - Speaker encoder 구조, loss 단점 - 적응 훈련 시간과 gpu 비용 - 적응 과정에서 업데이트된 파라미터 저 장 용량 필요 필요한 데이터 사이즈 - 20 문장 - 1 문장
  14. 커스텀 음성 합성이란? 기존 음성 합성기에 목소리 추가하기 어려웠던 이유

    커스텀 음성 합성기에 목소리 추가하기 쉬운 이유 데모
  15. 템플릿 모든 템플릿에는 가이드가 그려져 있습니다. 가이드를 확인 후 작업해

    주세요 기본 가이드 보기> 안내선> 안내선 보기 커스텀 음성 합성이란? - 합성기가 새로운 목소리를 지원하기 위해 소량의 데이터만 사용하도록 하는 기술 - 녹음해야 하는 문장 수가 적기 때문에 일반인도 합성기를 쉽게 만들 수 있다 - 성우의 목소리를 추가할 때도 기간이 짧게 들고 비용이 줄어든다 è 누구나 원하는 목소리로 합성기를 쉽게 만들 수 있게 해주는 기술 spk param xxxx … … yyyy 다화자 합성기 - 합성 - 다화자 합성기: 여러명의 목소리를 제공하는 하나의 합성기 - 음색을 선택하고 스크립트를 입력 - 선택된 화자 목소리로 합성음을 출력 Q) “그러면 제 목소리로도 합성기 만들 수 있나요?” A) “ 카엔에서는 한문장이면 됩니다!” Q&A