Mistral, 음성 생성을 위한 새로운 오픈 소스 모델 출시

프랑스 AI 회사 미스트랄(Mistral)은 목요일 음성 AI 비서나 고객 지원과 같은 기업 사용 사례에서 사용할 수 있는 새로운 오픈 소스 텍스트 음성 변환 모델을 출시했습니다.기업이 영업 및 고객 참여를 위한 음성 에이전트를 구축할 수 있는 이 모델은 Mistral을 ElevenLabs, Deepgram 및 OpenAI와 같은 업체와 직접 경쟁하게 만듭니다.

Voxtral TTS라고 불리는 새로운 모델은 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어를 포함한 9개 언어를 지원합니다.

"우리 고객은 음성 모델을 요구해 왔습니다. 그래서 우리는 스마트워치, 스마트폰, 노트북 또는 기타 엣지 장치에 들어갈 수 있는 작은 크기의 음성 모델을 만들었습니다. 그 비용은 시중에 나와 있는 다른 제품에 비해 매우 저렴하지만 최첨단 성능을 제공합니다."라고 Mistral AI의 과학 운영 담당 부사장인 Pierre Stock은 전화 인터뷰 중 TechCrunch에 말했습니다.

Mistral은 새 모델이 5초 미만의 샘플로 사용자 정의 음성을 적응할 수 있으며 음성 흐름의 미묘한 악센트, 억양, 억양 및 불규칙성과 같은 특성도 포착할 수 있다고 말했습니다.Ministral 3B를 기반으로 하는 이 모델은 음성의 특성을 잃지 않고 언어 간을 쉽게 전환할 수 있어 더빙이나 실시간 번역과 같은 사용 사례에 유용합니다.Stock은 회사가 모델이 로봇이 아닌 인간의 소리를 내기를 원했다고 말했습니다.

회사에 따르면 이 모델은 실시간 성능을 위해 제작되었습니다.모델이 입력을 받은 후 '말하기' 시작하는 시간을 측정하는 첫 번째 오디오 도달 시간(TTFA)은 500자의 10초 샘플에 대해 90ms입니다.또한 이 모델의 실시간 요소(RTF)는 6x이므로 약 1.6초 안에 10초짜리 클립을 렌더링할 수 있습니다.

이미지 크레딧: 미스트랄 AI

Earlier this year, Mistral launched a pair of transcription models, one for large batch processing and the other for real-time use cases with low latency.새로운 음성 모델을 통해 회사는 기업에 전체 음성 제품 제품군을 제공하는 것을 목표로 하고 있습니다.

"우리는 오디오, 텍스트, 이미지 및 출력을 포함한 다중 모드 입력 스트림을 처리할 수 있는 엔드 투 엔드 플랫폼을 가질 계획입니다. 그 주요 이점은 오디오를 입력 또는 출력으로 지원하는 엔드 투 엔드 에이전트 시스템을 통해 훨씬 더 많은 정보를 얻을 수 있다는 것입니다."라고 Stock은 말했습니다.

Mistral, 음성 생성을 위한 새로운 오픈 소스 모델 출시

관련 글