DeepSeek, 프론티어 모델과 격차 좁힌 새 AI 모델 미리 공개

중국 AI 연구소 DeepSeek는 최신 대형 언어 모델인 DeepSeek V4의 두 가지 미리 보기 버전을 출시했습니다. 이는 지난해 V3.2 모델에 대한 많은 기대를 모았던 업데이트이자 AI 세계를 강타한 R1 추론 모델과 함께 제공됩니다.

회사에 따르면 DeepSeek V4 Flash와 V4 Pro는 각각 100만 개 토큰의 컨텍스트 창을 갖춘 전문가 혼합 모델입니다. 이는 대규모 코드베이스나 문서를 프롬프트에 사용할 수 있을 만큼 충분합니다.전문가 혼합 접근 방식에는 추론 비용을 낮추기 위해 작업당 특정 수의 매개변수만 활성화하는 것이 포함됩니다.

Pro 모델에는 총 1조 6천억 개의 매개변수(490억 활성)가 있어 Moonshot AI의 Kimi K 2.6(1조 1천억), MiniMax의 M1(4,560억), DeepSeek V3.2(6,710억)의 두 배 이상을 능가하는 가장 큰 개방형 가중치 모델입니다.더 작은 V4 플래시에는 2,840억 개의 매개변수(130억 개의 활성)가 있습니다.

DeepSeek은 두 모델 모두 아키텍처 개선으로 인해 DeepSeek V3.2보다 더 효율적이고 성능이 뛰어나며 추론 벤치마크에서 현재의 개방형 및 폐쇄형 모델과의 "간격을 거의 좁혔습니다"라고 말합니다.

이 회사는 새로운 V4-Pro-Max 모델이 추론 벤치마크에서 오픈 소스 동료보다 성능이 뛰어나고 일부 작업에서는 OpenAI의 GPT-5.2 및 Gemini 3.0 Pro를 능가한다고 주장합니다.코딩 경쟁 벤치마크에서 DeepSeek은 두 V4 모델의 성능이 "GPT-5.4와 비슷하다"고 말했습니다.

그러나 이 모델은 지식 테스트, 특히 OpenAI의 GPT-5.4 및 Google의 최신 Gemini 3.1 Pro에서 프론티어 모델보다 약간 뒤처지는 것으로 보입니다.이 지연은 "최첨단 개척 모델을 약 3~6개월 뒤지는 개발 궤적"을 암시한다고 연구소는 썼습니다.

V4 Flash와 V4 Pro는 모두 오디오, 비디오, 이미지 이해 및 생성을 지원하는 많은 비공개 소스 피어와 달리 텍스트만 지원합니다.