메타의 새로운 ‘Voicebox’ AI는 ChatGPT처럼 학습하는 텍스트 음성 변환 도구입니다.

Meta AI는 최첨단 인공지능 모델과 비교 가능한 성능을 가진 결과물을 최대 20배 빠르게 생성하는 “차별화된” 텍스트 음성 변환기(Voicebox)를 공개했다고 최근 발표했다.

새로운 시스템인 Voicebox는 기존 TTS 아키텍처를 버리고 OpenAI의 ChatGPT나 Google의 Bard와 유사한 모델을 사용한다.

ElevenLabs Prime Voice AI와 같은 유사한 TTS 모델과의 주요 차이점 중 하나는 Meta의 제품이 맥락 학습을 통해 일반화할 수 있다는 것이다.

ChatGPT나 기타 변형 모델과 마찬가지로 Voicebox는 대규모 훈련 데이터셋을 사용한다. 대량의 오디오 데이터를 사용한 이전 시도는 심각하게 저하된 오디오 출력을 초래했다. 이러한 이유로 대부분의 TTS 시스템은 작고, 고도로 취합된, 레이블이 지정된 데이터셋을 사용한다.

Meta는 이러한 한계를 피하기 위해 레이블과 취합을 버리고 “인펠링” 오디오 정보를 처리할 수 있는 아키텍처를 사용하는 새로운 훈련 방식을 도입했다.

Meta AI는 6월 16일 블로그 게시물에서 Voicebox가 “최첨단 성능으로 특정적으로 훈련받지 않은 음성 생성 작업에 일반화할 수 있는 최초의 모델”이라고 설명했다.

이러한 기능으로 Voicebox는 텍스트를 음성으로 번역하고, 원하지 않는 잡음을 제거하고 대체 음성을 합성하며, 화자의 목소리를 다른 언어 출력에 적용할 수 있다.

Meta가 발표한 동반 연구논문에 따르면, 사전 훈련된 Voicebox 시스템은 원하는 출력 텍스트와 3초 오디오 클립만으로 이 모든 작업을 수행할 수 있다.

강력한 음성 생성 기술의 등장은 소셜 미디어 기업들이 모니터링에 대한 고민을 계속하고 있고, 미국에서는 대선이 다가오면서 온라인 미스인포메이션 탐지의 한계를 다시 한번 시험해야 하는 민감한 시기에 이루어졌다.

예를 들어, 전 미국 대통령인 도널드 트럼프는 현재 직무를 떠난 후 기밀 정부 자료를 잘못 다룬 혐의에 직면해 있다. 그의 경우, 그가 잠재적인 위법 행위를 인정한 것으로 밝혀진 오디오 녹음이 증거로 인용되고 있다.

현재 전 대통령이 이러한 오디오 파일에서 묘사된 내용을 부인할 의향이 있는지는 없으나, 그의 사례는 데이터 무결성이 미국 법률 체계의 핵심에 있으며, 이에 따라 민주주의가 형성된다는 것을 보여준다.

Voicebox는 이와 같은 종류의 도구 중 첫 번째가 아니지만, 가장 강력한 것 중 하나로 보인다. 따라서 Meta는 회사가 “진짜와 가짜 오디오의 차이를 쉽게 감지할 수 있는” Voicebox가 생성한 음성인지를 판별하기 위한 도구를 개발했다고 주장한다. 블로그 게시물에 따르면:

“이러한 강력한 새로운 AI 혁신과 마찬가지로, 우리는 이 기술이 남용될 가능성과 의도하지 않은 피해 가능성을 인식합니다. 우리 논문에서는 진짜 음성과 Voicebox로 생성된 오디오를 구별할 수 있는 매우 효과적인 분류기를 구축한 방법을 상세히 설명합니다.”

암호화폐 세계에서는 인공지능이 대부분의 기업의 일상적인 업무에 인터넷이나 전기와 마찬가지로 필수적인 요소가 되었다. 최대 규모의 거래소는 고객 상호작용 및 감성 분석을 위해 AI 챗봇을 사용하고, 트레이딩 봇은 일상적인 것으로 자리 잡았다.

관련기사: 바이비트, AI 기반 트레이딩 도구로 ChatGPT 도입

이러한 Voicebox와 같은 강력한 텍스트 음성 변환 시스템이 자동화된 거래와 결합되면, 현재 암호화폐 용어나 다국어 지원에 어려움을 겪을 수 있는 암호화폐 거래자들에게 큰 도움이 될 수 있다.