手机浏览器扫描二维码访问
孟繁岐并不是第一次听说DeepSeek的名字,虽然此前DS在大众之中不能说是完全无人知晓,但说它是籍籍无名也不为过。
比起天然拥有海量客户的互联网大厂们推出的AI模型,DS即便免费,但终究天然地在积累用户方面有着巨大的劣势。
孟繁岐此前注意到DS,主要便是因为他们的技术路线与孟繁岐的几个设想相似。
由于在降低技术成本上颇有建树,DS的API价格要低于市场平均水平许多,这使得它慢慢积累了一些技术型的用户。不过这个规模在孟繁岐眼中,还远远上不了桌。
前两个月,DeepSeek已经迭代到了第三代。
逐渐缩小的性能差异并没有引起孟繁岐足够的重视。
而今天,详细的技术报告以及R1版本的发布,才终于让他明白,自己实在是后知后觉。
震撼到孟繁岐的并不是单纯性能上的逼近,而是诸多技术细节透露出的海量信息。
比如,FP8的成功实现。
孟繁岐有些不相信这个事实。
半精度和FP8是他一直在大力推动的事情,而现在,DS反而成为了首个在超大规模模型上证明了FP8训练完全可行的公司。
孟繁岐沉着脸,翻阅着DS的技术报告,他们对框架内部的操作细节并不吝啬。
哪些核心操作做了FP8的量化,在什么步骤应该转回BF16,又在哪里应该使用全精度FP32计算,标注十分详细。
向量层、输出层、MoE门控模块、标准化运算和注意力运算模块进行了精度保留,而前向,激活反向,权重反向则用FP8执行。
针对前向反向采用FP8会带来的许多问题,报告中也知无不言。
在低精度训练框架中,由于 FP8格式的指数位较少导致其动态范围受限,经常出现数值溢出和下溢的问题。传统方法是将输入张量的最大绝对值映射到 FP8格式的最大可表示值,将输入分布对齐到可表示范围内。然而,这种方法使得低精度训练对激活值中的极端值特别敏感,可能导致量化精度显著下降。
孟繁岐也走到过这一步,部分FP8,部分BF16/FP32。仅仅如此是不够的。
DS最终采用的方案是在核心算子内部GEMM操作里引入缩放因子,这同样是孟繁岐曾经考虑过的事情。
但closeai最终没有这样做,因为英伟达显卡的FP8并不直接支持这一功能。
小镇神仙情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,小镇神仙-小镇伯爵-小说旗免费提供小镇神仙最新清爽干净的文字章节在线阅读和TXT下载。...
从前,有这样一座关。 从前,有这样一群人。 这座关,寸寸染血。 这些人,不死不还。 只为在尸山血海中,弥留之际,转身时,能见那身后闪烁的万家灯火,岁岁平安。...
孙谚识经营一间小杂货店,生意一般,有点穷酸,一人一狗,一日三餐。 一天,店里来了一对兄妹。 四五岁的妹妹朗月拿着孙谚识高中的照片,张口就叫:“爸爸!” 十八九岁的哥哥朗颂揪扯孙谚识的衣领,张口就骂:“人渣!” 大龄未婚单身汉——孙谚识为了证明自己不是抛妻弃子的人渣败类,也为了搞清楚这对兄妹的来历,不得不暂时收留即将流落街头的穷酸兄妹。 他本以为会开启一段鸡飞狗跳的糟乱日子,结果却和两人相处得意外和谐。 然好景不长,一些和孙谚识有关的流言蜚语在深巷中流传,一些有关他的秘密被一层层揭破。 被亲生父亲怨恨,被郎颂撞破性向,又恰逢前任来吃回头草,孙谚识烦透了别人的非议,试图向现实低头。 然而朗颂却突然向他亲近,说:“哥,我不可以吗?”...
古代农家生活作者:老衲不懂爱文案毕业两年事业小有所成的周颐却在一场车祸中意外穿越到一个架空时代的农家小院里。瘸腿的爹,软弱的娘,还有四个阶梯般的姐姐,旁观的祖父,狠心的祖母,心思各异的叔叔婶婶,还有一大串郎和丫,小小农家院子是非却不少。周颐的农家生活会走向何方....内容标签:布衣生活天之骄子穿越时空科举搜索关键字:主...
末法时代,为了守护人类活下去的希望,孱弱的人族与兽族进行了一次决战。而兽族在兽皇的带领下,即将攻破人族的最后一道防线。杀戮君皇莫无情为抵御兽族的进攻不惜铤而走险,却不料遭到自己人背叛,最后惨遭兽族分食而亡。意外的是他带着前世的记忆回到了十六岁那一年......重活一世,他却发现这个世界并不是他所想象的那么简单.........
?本书名称:师尊她清心寡欲本书作者:路非路大王本书简介:宁凉穿成小说里觊觎小徒弟的天云宗宗主,表面清冷傲气,内心却对小徒弟洛岐充满难以启齿的幻想。准备拿下小徒弟时,被他打成重伤,修为尽失。刚好穿越过来的宁凉:“……”小徒弟实在太迷人了,光外貌原著都花了整整两页来描写,谁见了不想把他占为己有?但宁凉想活着,反正小徒弟也不...