2025年3月24日深夜,杭州深度求索人工智能公司(DeepSeek)在开源平台Hugging Face悄然发布了其DeepSeek-V3模型的最新版本——V3-0324。尽管没有高调宣传,但这一更新依然迅速引发了全球开发者社区的震动和热议。
DeepSeek-V3-0324在参数规模上进行了微调,从6710亿增加至6850亿,虽然增幅不大,但结合其混合专家(MoE)架构的动态激活机制,实际可用参数峰值达到了370亿,较前代提升了17%。这一技术升级使得模型在代码生成、数学推理和通用任务能力上实现了显著提升。
在代码生成方面,DeepSeek-V3-0324仅用2分钟便生成了400余行代码,这些代码不仅包含了粒子背景动画、赛博朋克UI、响应式设计等前沿元素,而且在效率、审美与功能完整性上实现了跨越式发展。AI编码工具aider的开发者保罗·高蒂尔进行的多语言测试显示,该模型在代码生成任务上的得分达到了55%,逼近Claude 3.7 Sonnet的62%。更重要的是,DeepSeek-V3-0324开始理解“代码可读性”这一高阶需求,在生成的HTML代码中主动添加了注释与模块化结构,进一步提升了代码的质量和可维护性。
在数学推理方面,DeepSeek-V3-0324也展现出了出色的能力。面对“布须曼人喝牛奶”等逻辑题,模型不再满足于简单给出结论,而是尝试进行分步推导并反思错误。在Kcores大模型竞技场测试中,该模型的单次输出长度首次触发了token上限,展现出了系统性思考的雏形。
除了代码生成和数学推理能力外,DeepSeek-V3-0324在文科类问题的回答结构上也有所优化,成为其另一大亮点。模型能够更准确地理解问题背景,并给出结构清晰、逻辑连贯的回答。
值得一提的是,DeepSeek-V3-0324采用了MIT协议进行开源,彻底打破了“开源模型能力受限”的固有认知。开发者不仅可以自由商用该模型,还能通过模型蒸馏技术进行二次开发。此外,DeepSeek团队在成本控制方面也取得了显著成效。据技术报告披露,V3完整训练成本仅为557.6万美元,耗时278.8万GPU小时,单位成本较行业平均水平低30%以上。同时,模型采用专家混合(MoE)和多词预测(MTP)技术,在保持高性能的同时减少了能耗,碳足迹较同类产品降低了40%。
DeepSeek-V3-0324的发布不仅展现了中国AI技术的崛起,也为全球AI领域注入了新的活力。多位技术评测者报告称,该模型的编程能力大幅提升,已经接近Claude 3.5的水平。同时,社区对新模型的快速响应能力和生态系统的适应能力也给予了高度评价。
未来,DeepSeek团队将继续拓展多语言支持,并进一步优化模型在医疗、金融等垂直领域的应用。他们表示,将秉持开放、合作的精神,与全球开发者共同推动AI技术的创新和发展。随着DeepSeek-V3-0324的发布,我们有理由相信,中国AI大模型将在全球市场上掌握更大的话语权,为全球AI技术的发展贡献更多的智慧和力量。