Cohere, 전사 전용 오픈 소스 음성 모델 출시

엔터프라이즈 AI 회사 Cohere는 목요일에 첫 번째 음성 모델을 출시했습니다. Transcribe는 메모 작성 및 음성 분석과 같은 작업에 사용할 수 있는 오픈 소스 자동 음성 인식 모델입니다.

20억 개의 매개변수로 상대적으로 가벼운 이 모델은 자체 호스팅을 원하는 사람들을 위해 소비자급 GPU와 함께 사용하기 위한 것입니다.현재 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어, 중국어, 일본어, 한국어, 베트남어, 아랍어 등 14개 언어를 지원합니다.

Cohere에 따르면 Transcribe는 Hugging Face Open ASR 리더보드에서 Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 및 Qwen3-ASR-1.7B Speech와 같은 모델을 능가하며 벤치마크의 다른 어떤 모델보다 낮은 평균 단어 오류율(WER) 5.42를 달성했습니다.

회사는 인간 평가자가 전사본의 정확성, 일관성 및 유용성을 평가했을 때 Transcribe가 다른 모델에 비해 평균 61%의 승률을 기록했다고 주장합니다.하지만 이 모델은 포르투갈어, 독일어, 스페인어를 표기해야 했기 때문에 경쟁 모델에 뒤처졌습니다.

Cohere에 따르면 Transcribe는 1분에 525분의 오디오를 처리할 수 있으며 이는 동급 모델에 비해 높은 수준입니다.

이 회사는 Transcribe를 엔터프라이즈 에이전트 오케스트레이션 플랫폼인 North에 통합할 계획이며 API를 통해 이 모델을 무료로 제공하고 있습니다.이 모델은 Cohere의 관리형 추론 플랫폼인 Model Valut에서도 사용할 수 있습니다.

Granola 및 Wispr Flow와 같은 메모 작성 및 받아쓰기 앱에 대한 수요가 증가함에 따라 음성 인식 모델의 인기가 점점 높아지고 있습니다.

Cohere, 전사 전용 오픈 소스 음성 모델 출시

관련 글