DeepSeek发布两款新模型,推理能力比肩GPT-5
目前,DeepSeek官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放,以供社区评测与研究。
2025-12-04 08:40:43
来源:中国电子报、电子信息产业网 陈存  

12月1日,DeepSeek正式发布两款新模型——DeepSeek-V3.2与DeepSeek-V3.2-Speciale,在多项智能体评测中均达到当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。

DeepSeek称,标准版DeepSeek-V3.2适合日常使用,例如问答和通用智能体任务场景。在公开的推理类基准测试中,其性能已达到GPT-5水平,仅略低于Gemini-3.0-Pro,同时输出长度显著缩短,降低了计算开销与用户等待时间。

值得注意的是,V3.2并没有针对这些测试集的工具进行特殊训练,这意味着V3.2在真实应用场景中能够展现出较强的泛化性。

不同于过往版本在思考模式下无法调用工具的局限,DeepSeek-V3.2还是首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。

长思考增强版DeepSeek-V3.2-Speciale进一步结合了DeepSeek-Math-V2的定理证明能力,具备指令跟随、数学证明与逻辑验证能力,在主流推理基准测试中的表现可媲美Gemini-3.0-Pro。

据悉,该模型还成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。

目前,DeepSeek官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放,以供社区评测与研究。

最新文章
1
告别“大马拉小车”!海尔4Hz超低频中央空调,重新定义家居舒适节能新标准
2
聚势小说剧,创享新流量,快手小程序行业沙龙引领内容变革
3
商品卡环比增长60%,快手商品卡川流计划助力德佑解锁货架场增量
4
古穿今开启双向救赎,快手星芒短剧《伪装游戏》诠释热血青春友谊
5
商品卡川流计划助力品牌全域经营,蓝月亮快手泛货架GMV超千万元
6
从品质立信到自主可控:“超激鼓”激光打印机成国产打印机品牌新标杆
7
从“藏起来”到“摆C位”,追觅洗地机的高端化如何制胜全球
8
苹果2026和2027产品路线图:可折叠iPhone、iPhone 18 Pro等
9
11月内销下滑29%:新国标让电动车市场凉了三分之一
10
2026年国补继续,期待细则出台
11
GCC运营商如何实践5G-A体验经营?
12
云加速器部署节点份额NVIDIA占据近72%,AMD占比仅5.8%
13
WWDC 2026前瞻:iOS 27重磅曝光!AI健康+Siri升级+跨设备功能齐发力
14
扫地机鼻祖iRobot破产,被中国制造“扫”下神坛
15
格力再填全球标准空白 这次改变的不仅仅是暖通空调行业
16
大金空调50%用铝换热器,国内品牌跟进铝代铜,消费知情很重要
17
当“大力神杯”遇上省电黑科技,海信空调大薄荷套系青岛惊艳亮相
18
促进家电消费,“两新”政策助力2026年“国补”继续
19
iOS 26.3 Beta1更新登场!值得一看的4大重点与细节
20
苹果确认正在开发可折叠iPhone、AirTag 2和数十款其他设备
关于我们

微信扫一扫,加关注

商务合作
  • QQ:61149512