对话中国工程院院士：DeepSeek，究竟厉害在哪里？

【对话中国工程院院士：DeepSeek，究竟厉害在哪里？】1月27日，DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek成为中国区第一。DeepSeek究竟厉害在哪里？今日，中国工程院院士、清华大学计算机系教授郑纬民及多位AI圈人士在与新浪科技沟通中，指出了DeepSeek其成功出圈的关键所在。在郑纬民看来，DeepSeek通过自研的MLA架构和DeepSeek MOE架构，为其自身的模型训练成本下降，起到了关键作用。他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV Cache，该架构和DeepSeek-V3模型中FFN 层的改造相配合，打造了目前公开最大的稀疏MoE 层，这成为DeepSeek训练成本低最关键的原因。” 此外，据郑纬民透露，DeepSeek还解决了“非常大同时非常稀疏的MoE模型”使用的性能难题，而这也成了“DeepSeek训练成本低最关键的原因”。

对话中国工程院院士：DeepSeek，究竟厉害在哪里？

最新快讯搜索