단 5초 학습…음성복제 ‘뚝딱’

단 5초의 샘플만으로 음성을 복제할 수 있는 개방형 텍스트-음성(TTS) 모델이 공개됐다.

지난 16일(현지시간) 미국 AI 스타트업 자이프라가 조노스라는 두 개의 TTS 모델을 발표했다.

이 모델은 단 5초 길이의 샘플만으로 음성을 복제할 수 있으며 30초 이하의 녹음으로 현실적인 음성 합성이 가능하다고 밝혔다.

조노스 모델은 각각 ‘트랜스포머 기반 모델’과 ‘트랜스포머-SSM 하이브리드 모델’로 구성되며 20만 시간 이상의 음성 데이터를 학습해 다양한 발화 스타일을 구현할 수 있도록 설계됐다.

자이프라는 이 모델을 허깅페이스에서 아파치2.0 라이선스로 공개했으며 AI 학습을 통해 얻은 핵심 데이터를 함께 배포해 사용자가 직접 학습하지 않아도 동일한 성능으로 활용할 수 있도록 했다.

실제 테스트 결과 5초 길이의 샘플만으로도 원본과 유사한 음성을 생성할 수 있었으며 트랜스포머-SSM 하이브리드 모델은 순수 트랜스포머 모델보다 약 20% 더 빠른 속도로 음성을 합성할 수 있는 것으로 나타났다.

그러나 긴 문장을 생성하면 발화 속도나 말의 흐름에서 차이가 느껴질 수 있는 한계도 확인됐다.

자이프라는 조노스 모델을 API를 통해 유료 서비스로 제공하는 동시에 로컬 환경에서도 직접 실행할 수 있도록 지원한다고 밝혔다.

한편 AI 음성복제 기술이 악용될 가능성이 제기되면서 사기, 허위 정보 생성, 정치적 조작 등의 위험이 우려된다.

하지만 성대 질환이나 사고로 목소리를 잃은 사람들에게는 유용하게 활용될 수 있다는 평가도 나온다.

많이본 뉴스