🎥 프로젝트 소개
https://youtu.be/ymO01WB9g0U

<aside>
🎯 Problem
- Glow_TTs, Hifi_Gan 모델링을 활용하여 구현한 Text to Speech
- 공개된 KSS 데이터로 학습을 진행되어도 특정 은행 & 증권 용어에 발음이 부정확한 문제가 계속 됨
- 특정 발음의 문장 & 단어의 수 부족하다는 것을 확인
- 또한 실제 음향 신호와 비슷하게 오디오를 생성하는 생성 모델인 HIFI GAN의 학습에서 Generator와 Discriminator 생성에서 과적합이 발생하는 것을 확인
- 비음화, 설측음화, 격음화, 숫자(기수, 서수)에 맞는 전처리 하여 생성한 Spectogram을 자연스러운 한국어 음성을 wav파일 혹은 바이너리 음성 데이터를 추출
</aside>
<aside>
🎯 Resolution
- 은행 & 증권 관련 용어가 들어간 900단어 & 300문장을 직접 녹음하여 학습 음성 데이터 추가
- HiFiGan의 과적합의 loss 문제를 해결하기 위해 음성 초기 scalestat값 설정
- 기계음이 줄어든 자연스러운 음성으로 개선
</aside>
📌 키워드
#Text to Speech #Glow_TTS #Hifi_Gan # KSS데이터
💻 사용 기술
Python
, Glow_tts
, Hifi_gan
, Tensorflow_gpu
, Pytorch
, Docker
📅 개발 일정
(2021.10.01 → 2021.12.30)
👥 역할
개발환경 설정