DeepSeek, 소음 없이 인공지능 전문 모델의 업데이트 버전을 발표하다
4월 30일, 중국 스타트업 DeepSeek는 최대의 오픈 AI 모델 플랫폼인 Hugging Face에 새로운 모델 Prover-V2를 업로드했지만, 이를 소셜 미디어에 알리지 않았다.
알고리즘 세계의 수학적 천재
DeepSeek의 Prover 시리즈는 수학 문제를 해결하기 위해 설계된 전문 모델이다. 흥미롭게도, 회사는 Hugging Face 페이지에서 새로운 모델에 대한 세부 정보를 제공하지 않았다. 검토된 파일들에 따르면, Prover-V2는 놀라운 6710억 개의 매개변수를 가진 DeepSeek V3 모델을 기반으로 구축된 것으로 보인다.
V3는 효율적인 학습과 작업을 보장하는 ‘전문가 혼합’ 아키텍처를 사용한다. 이 아키텍처는 최소한의 비용으로 최대 성능을 얻을 수 있는 스마트한 접근 방법이다. 비싼 슈퍼 전문가 한 명 대신, 필요할 때만 일하는 전문 팀을 고용하는 것을 상상해보라 — 바로 그것이다, 절약!
기술 거인 간의 경쟁
Prover-V2의 출시는 Alibaba가 Qwen3을 발표한 직후에 이루어졌다. 전자상거래 거인은 테스트를 인용하며 그들의 최신 모델이 DeepSeek-R1 및 OpenAI의 추론 모델 o1을 능가한다고 주장했다.
Prover-V2는 8월에 데뷔한 이전 버전 Prover-V1.5의 업데이트이다. 이는 DeepSeek가 V3 모델로 세계를 놀라게하기 전에 4개월이 지난 후이다. 회사는 V3가 서구 경쟁자들이 고급 AI 모델을 훈련하는 데 소모하는 비용과 에너지의 일부로 개발되었다고 주장했다.
“우리 팀은 효율성에서 혁신을 이루었습니다,”라고 DeepSeek의 경영진이 말할 수 있었다. “우리는 혁신이 거대한 데이터 센터와 작은 나라의 GDP에 해당하는 예산을 필요로 하지 않는다는 것을 증명했습니다.”
고급 AI를 위한 수학의 열쇠
Prover-V1.5에 대한 기술 보고서에서 DeepSeek는 전문 모델의 사전 훈련 작업이 정리된 정리 증명과 수학적 추론에서 기본 모델의 능력을 향상시켰다고 언급했다.
기본 다목적 모델의 수학적 기술을 강화할 수 있는 수학 중심 모델 개발은 DeepSeek가 곧 추가 제품을 출시할 것이라는 추측을 불러일으켰다.
DeepSeek는 새로운 모델 개발 일정이나 진행 상황을 공식적으로 공유하지 않지만, 회사는 Prover 모델 업데이트를 포함하여 최신 연구 결과를 정기적으로 발표하고 있다.
지난 달 DeepSeek는 V3 기본 모델의 업데이트도 발표했으며, 회사 웹사이트에 따르면, 이는 향상된 추론 능력, 최적화된 프로그래밍, 그리고 중국어 작문 기술이 개선되었다.
AI 산업 내에서 이 방향에 대한 관심이 높아짐에 따라 DeepSeek는 곧 새로운 추론 모델 R2를 발표할 것으로 예상된다.
▼
우리의 Telegram 채널에서 가장 흥미롭고 중요한 뉴스를 확인하세요!