수퍼톤 시프트·플레이, 본격 서비스…“AI 오디오 시장 주도권 잡는다”

노광현 기자 승인 2024.11.04 09:05 의견 0


AI 오디오 기업 수퍼톤이 AI 음성 서비스를 본격화하며 글로벌 오디오 콘텐츠 시장에서 입지 다지기에 나선다. 창작자들에게 완성도 높은 음성 콘텐츠 기반을 제공해 관련 생태계 활성화에 기여하겠다는 포부다.

수퍼톤은 AI 기반 실시간 음성 변환 서비스 ‘수퍼톤 시프트’가 이달 5일 글로벌 정식 출시된다고 4일 밝혔다. 지난해 11월 개최된 국제 게임 전시회 ‘지스타 2023’에서 선공개한지 1년여 만이다. 같은 해 지스타에서 동시에 공개된 TTS(Text-to-Speech) 기술 기반의 AI 음성 서비스 ‘수퍼톤 플레이’는 지난달 31일 오픈 베타 테스트(OBT)를 시작했다.

두 서비스에는 수퍼톤이 자체 개발한 낸시(NANSY, Neural Analysis & Synthesis)가 적용됐다. 낸시는 수퍼톤 AI 기술의 근간이 되는 파운데이션 모델로, 목소리를 음색·발음·음고·강세 등 4개의 구성 요소로 분석하고 이를 개별적으로 제어해 재합성할 수 있다.

수퍼톤 시프트는 낸시를 기반으로 사용자의 목소리를 분석해 실시간으로 원하는 캐릭터의 목소리로 바꿔주는 서비스다. 올해 4월부터 6개월 간 오픈 베타 테스트를 진행했고 글로벌 누적 다운로드 25만 건 이상을 기록하며 세계 각지에서 다양한 사용자 의견을 수집했다. 이를 바탕으로 내부 연구 개발을 거친 시프트는 이번 정식 출시에서 콘텐츠 제작과 사용 환경에 유용한 기능들을 대폭 강화했다. 오픈 베타 테스트 당시 선보인 캐릭터 보이스를 10개에서 38개로 확대했고, 2주마다 새로운 보이스를 추가할 예정이다. 시스템 언어는 영어 외에도 일본어를 추가해 보다 많은 일본 현지 콘텐츠 크리에이터가 사용할 수 있도록 했다. 또, 사용자 편의성을 고려해 일부 UX·UI도 개선했다.

수퍼톤 플레이는 텍스트를 음성으로 변환하는 TTS 기술을 적용한 AI 음성 서비스다. 50개의 목소리 캐릭터별로 한국어·일본어·영어 등 3개 언어를 지원, 총 150개의 보이스 옵션을 제공한다. 대본에 어울릴만한 보이스 옵션을 선택해 1차로 음성을 만든 뒤, 낸시를 활용해 목소리 구성 요소들을 다양하게 조합하면 연출 의도에 최적화된 음성을 구현할 수 있다.

텍스트를 풍부한 감정 표현까지 가능한 음성으로 만들어내는 것이 수퍼톤 플레이의 강점이다. 실제 사람의 발화 스타일은 물론, 감성 정보까지 학습시켜 자연스러운 목소리를 생성하는 수퍼톤 고유의 TTS 기술이 기반이 됐기 때문이다. 이번 오픈 베타 테스트에서 수퍼톤은 낸시를 고도화해, 목이 잠긴 듯한 목소리나 울부짖음 등 독특한 음색도 실감나게 표현할 수 있도록 했다.

시프트 정식 버전과 플레이 오픈 베타 버전은 수퍼톤 공식 홈페이지에서 다운로드해 사용할 수 있다. 플레이는 오픈 베타 테스트 기간 사용자 의견을 수집해 서비스를 개선한 뒤, 내년 상반기 정식 출시된다.

이밖에 수퍼톤은 음향 전문가를 겨냥한 서비스도 선보였다. 이달 1일 출시된 ‘수퍼톤 에어’는 특정 오디오 콘텐츠가 녹음된 장소의 울림이나 반사음 등을 추출하고, 이를 다른 오디오에 적용해 해당 공간의 음향을 재현하는 오디오 플러그인이다. 예를 들어 동굴이나 성당, 체육관 등에서 녹음된 콘텐츠에서 공간 음향을 추출하고, 이를 다른 오디오에 적용해 마치 해당 장소에서 직접 녹음된 듯한 공간감을 만들어내는 것이다. 수퍼톤은 수퍼톤 에어를 통해 포스트 프로덕션 엔지니어들이 간편하게 공간 음향을 구현하고, 오디오 후반 작업의 편의성과 효율성을 높일 것으로 기대하고 있다.

이교구 수퍼톤 대표는 “수퍼톤 제품들의 핵심 가치는 창작 과정에서 필요한 상상력과 표현력의 경계를 확장해 창작자의 의도가 청중에게 더 깊고 울림있게 전달되는 스토리텔링을 가능하게 하는 것”이라며 “이를 위해 지속적으로 기술을 개발하고, 경쟁력을 강화할 것”이라고 말했다.

저작권자 ⓒ 뉴코노미, 무단 전재 및 재배포 금지