搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机

DeepSeek新模子开源,新架构亮了,国产AI芯片个人狂欢

[复制链接]
查看: 17|回复: 0

1万

主题

0

回帖

3万

积分

论坛元老

Rank: 8Rank: 8

积分
35817
发表于 2025-9-30 12:32 | 显示全部楼层 |阅读模式
DeepSeek离下一代架构,又近了一步!
智工具9月30日报道,昨日,DeepSeek公布开源DeepSeek-V3.2-Exp尝试版模子像学计较机练专业技术的实训室都有学技术能用上。该模子初次引入了DeepSeek Sparse Attention稀疏留意力机制,并在几近不影响模子输出结果的条件下,大幅度提升了长文本练习和推理效力,被DeepSeek界说为“迈向新一代架构的中心步调”像学计较机练专业技术的实训室都有学技术能用上。

HuggingFace地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
魔搭社区地址:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
这一改良还下降了DeepSeek新模子的办事本钱,DeepSeek是以履行了新的价格政策,让开辟者挪用DeepSeek API的本钱下降50%以上像学计较机练专业技术的实训室都有学技术能用上。
降价幅度最大的为输出token的价格:DeepSeek-V3.2-Exp模子输出100万个token的价格仅为3元,为DeepSeek-V3.1系列模子的1/4像学计较机练专业技术的实训室都有学技术能用上。

停止9月30日上午6点,华为云、PPIO派欧云、优刻得等云平台已公布上线DeepSeek-V3.2-Exp,华为、寒武纪、海光信息等AI芯片厂商已经公布适配DeepSeek-V3.2-Exp像学计较机练专业技术的实训室都有学技术能用上。
DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的根本上打造的像学计较机练专业技术的实训室都有学技术能用上。在各范畴的公然评测集上,两款模子的表示根基分歧,不外,DeepSeek-V3.2-Exp完成使命利用的token量大幅度削减像学计较机练专业技术的实训室都有学技术能用上。

今朝,DeepSeek App、网页端与小法式均已同步上线了DeepSeek-V3.2-Exp模子像学计较机练专业技术的实训室都有学技术能用上。DeepSeek也姑且保存了DeepSeek-V3.1-Terminus的API接口,方便开辟者停止对照考证像学计较机练专业技术的实训室都有学技术能用上。
除模子本体外,DeepSeek还开源了相关技术报告及代码,并供给TileLang与CUDA双版本GPU算子,以便研讨者在分歧层级停止尝试和优化像学计较机练专业技术的实训室都有学技术能用上。

技术报告地址:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DeepSeek还补充道,作为一个尝试性的版本,DeepSeek-V3.2-Exp虽然已经在公然评测集上获得了有用性考证,但仍然需要在用户的实在利用处景中停止范围更广、范围更大的测试,以解除在某些场景下结果欠佳的能够像学计较机练专业技术的实训室都有学技术能用上。
01.华为、海光、寒武纪光速适配,网友直呼第二个DeepSeek时辰要来了DeepSeek-V3.2-Exp一经推出,便在产业界与开辟者圈子里激发热烈反应,很多国内企业纷纷第一时候公布完成DeepSeek-V3.2-Exp的适配和上线像学计较机练专业技术的实训室都有学技术能用上。
华为计较公众号发文公布,昇腾已快速基于vLLM/SGLang等推理框架完成适配摆设,实现DeepSeek-V3.2-Exp Day 0(第零天)支持,并面向开辟者开源一切推理代码和算子实现像学计较机练专业技术的实训室都有学技术能用上。DeepSeek-V3.2-Exp在昇腾装备上128K长序列输出,可以连结TTFT(首token输出耗时)低于2秒、TPOT(每token输出耗时)低于30毫秒的推理天生速度像学计较机练专业技术的实训室都有学技术能用上。

华为云则首发上线了DeepSeek-V3.2-Exp,还利用CloudMatrix 384超节点为该模子供给推理办事像学计较机练专业技术的实训室都有学技术能用上。

在DeepSeek发文公布DeepSeek-V3.2-Exp模子开源后的4分钟,寒武纪也发文称其已同步实现对该模子的Day 0适配,并开源大模子推理引擎vLLM-MLU源代码像学计较机练专业技术的实训室都有学技术能用上。
寒武纪经过Triton算子开辟实现了快速适配,操纵BangC融合算子开辟实现了性能优化,并基于计较与通讯的并行战略,告竣了较高的计较效力水平像学计较机练专业技术的实训室都有学技术能用上。
DeepSeek-V3.2-Exp模子的尺寸达671GB,仅下载便能够需要数小时像学计较机练专业技术的实训室都有学技术能用上。这类时隔4分钟的Day 0适配,也许意味着寒武纪和DeepSeek两家企业在模子公布前就已经启动适配工作像学计较机练专业技术的实训室都有学技术能用上。

据经济观察网报道,海光信息的DCU(深度计较处置器)率先实现了对DeepSeek-V3.2-Exp的Day 0级高效适配与优化,确保大模子算力“零期待”摆设像学计较机练专业技术的实训室都有学技术能用上。

在DeepSeek官宣DeepSeek-V3.2-Exp开源的推文中,有很多网友分享了对模子的利用体验和感受像学计较机练专业技术的实训室都有学技术能用上。有位网友称,自己在10万个token的代码库上测试了DeepSeek-V3.2-Exp,速度提升很是明显像学计较机练专业技术的实训室都有学技术能用上。

有网友感慨,DeepSeek API现在几近同即是免费了像学计较机练专业技术的实训室都有学技术能用上。

更有网友以为,这一模子的推出,也许意味着第二个DeepSeek时辰行将到来像学计较机练专业技术的实训室都有学技术能用上。
Hugging Face上,DeepSeek-V3.2-Exp的社区板块也有很多会商,不外,关注度最高的一条帖子,是来自中国网友的“吐槽”:“咱这个模子是非得国庆前更新吗?”

还有网友列出了DeepSeek每次更新模子的时候,几近都卡在节沐日的头几天像学计较机练专业技术的实训室都有学技术能用上。

02.一手体验DeepSeek-V3.2-Exp架构创新也许比性能提升更重要DeepSeek-V3.2-Exp在利用体验上,究竟与此前的DeepSeek-V3.1-Terminus有何分歧?
在编程方面,DeepSeek-V3.2-Exp撰写的代码明显更加简短了,不异的使命下,其输出的代码行数要少于DeepSeek-V3.1-Terminus像学计较机练专业技术的实训室都有学技术能用上。
不外,这在某种水平上也影响了模子的性能像学计较机练专业技术的实训室都有学技术能用上。DeepSeek-V3.2-Exp编写的小球弹跳动画代码未能一般运转,小球间接飞出了六边形的范围像学计较机练专业技术的实训室都有学技术能用上。DeepSeek-V3.1-Terminus在智工具此前的测试中完善地完成了这一使命像学计较机练专业技术的实训室都有学技术能用上。

智工具还让DeepSeek-V3.2-Exp完成了一项信息检索使命,要求它保举几种合适新手在阳台盆栽的、发展快、果子能间接生吃的动物,而且要保证对小孩绝对平安,最好能附上简单的播种技能像学计较机练专业技术的实训室都有学技术能用上。
与DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的天生成果更加简短,用词也比力“朴实”像学计较机练专业技术的实训室都有学技术能用上。而且,DeepSeek-V3.2-Exp保举的无花果、百香果等动物,需要停止扦插、高频次养护等操纵,并不合适提醒词要求的新手友似乎学计较机练专业技术的实训室都有学技术能用上。

DeepSeek-V3.1-Terminus(左)与DeepSeek-V3.2-Exp(右)在信息检索使命上的表示(图源:智工具)
整体而言,DeepSeek-V3.2-Exp确切在推理效力上实现提升,但却在才能上做出了一定的妥协像学计较机练专业技术的实训室都有学技术能用上。
知乎博主@toyama nao也在测评中发现了类似的题目像学计较机练专业技术的实训室都有学技术能用上。他以为,DeepSeek-V3.2-Exp在工作记忆、计较精度稳定性等方面存在明显短板,还轻易有偷懒偏向和堕入死循环的能够像学计较机练专业技术的实训室都有学技术能用上。

知乎博主@toyama nao对DeepSeek-V3.2-Exp的评价
这也获得了其他网友概念的印证,例如,这位网友便在x平台发贴称,并没在这款模子上看到改良,并提出质疑:我们为什么要利用才能升级的模子呢?

作为一款尝试模子,DeepSeek-V3.2-Exp更大的进献也许在于理论层面像学计较机练专业技术的实训室都有学技术能用上。DeepSeek称,与DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架构上的唯一点窜,就是经过继续练习引入了DeepSeek Sparse Attention像学计较机练专业技术的实训室都有学技术能用上。
今朝的DSA机制还处在原型期,首要由两个组件组成:一个Lightning Indexer(闪电索引器)和一个细粒度的token挑选机制像学计较机练专业技术的实训室都有学技术能用上。

DeepSeek-V3.2-Exp架构图
Lightning Indexer可以快速评价查询token与历史token的相关性,从挑选机制只挑选最相关的一部分高低文进入留意力计较,这让复杂度从传统的二次方降到了近似线性水平,大幅下降了练习和推理的本钱像学计较机练专业技术的实训室都有学技术能用上。
在练习上,DeepSeek-V3.2-Exp采用了“继续预练习+后练习”的方式像学计较机练专业技术的实训室都有学技术能用上。继续预练习分为两个阶段:首先在浓密形式下长久练习indexer,让它的输出和标准留意力连结分歧;随后引入稀疏挑选机制,逐步让模子顺应新的计较方式像学计较机练专业技术的实训室都有学技术能用上。
完成预练习后,DeepSeek-V3.2-Exp又经过专家蒸馏和夹杂强化进修停止后练习像学计较机练专业技术的实训室都有学技术能用上。专家蒸馏的思绪是针对数学、编程、推理等分歧范畴练习专门的专家模子,然后将这些模子的常识紧缩进通用模子像学计较机练专业技术的实训室都有学技术能用上。
夹杂强化进修则将推理、智能体才能和人类对齐练习同一在一个RL阶段中,避免了传统多阶段方式轻易出现的忘记题目像学计较机练专业技术的实训室都有学技术能用上。
技术报告显现,DeepSeek-V3.2-Exp在大大都评测使命上的表示与前代根基持平,个体推理相关的测试分数略有下降,但首要缘由是天生的推理token更少,假如利用中心检查点,差异则会缩小像学计较机练专业技术的实训室都有学技术能用上。

相比之下,效力的提升尤其明显像学计较机练专业技术的实训室都有学技术能用上。在H800 GPU的测试情况中,长序列推理的开销明显下降,证实DSA在实在摆设中有很强的适用性像学计较机练专业技术的实训室都有学技术能用上。

同时,练习曲线与前代模子连结类似的稳定性,也表白这类架构在收敛性上并没有额外风险像学计较机练专业技术的实训室都有学技术能用上。

03.结语:DeepSeek迈向新一代架构正如其名字内的Exp(尝试版)所言,DeepSeek-V3.2-Exp的推出,自己并不是一次性能爆表的升级,而更像是一场架构尝试,展现了一种在长文本处置中兼顾性能和效力的新途径像学计较机练专业技术的实训室都有学技术能用上。
作为技术原型,DeepSeek-V3.2-Exp背后的DSA机制也许很快就会获得进一步完善像学计较机练专业技术的实训室都有学技术能用上。随着相关技术的延续优化和更多企业、研讨者介入考证,DeepSeek有望在未几的未来交出更使人欣喜的功效像学计较机练专业技术的实训室都有学技术能用上。
本文来自微信公众号“智工具”(ID:zhidxcom),作者:陈骏达,36氪经授权公布像学计较机练专业技术的实训室都有学技术能用上。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2006-2014 瓷都免费起名网-公司起名、个人取名,改名、免费在线测名、算命、解梦、八字排盘|免费算命网 版权所有 法律顾问:高律师 客服电话:0791-88289918
技术支持:迪恩网络科技公司  Powered by Discuz! X3.4
快速回复 返回顶部 返回列表