十里店大学吧 关注:9,965贴子:389,793
  • 18回复贴,共1

DeepSeek深度探索专题

只看楼主收藏回复

DeepSeek是如何实现模型成本的降低的呢?郑纬民指出,“DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。”
他指出,“MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训练成本低最关键的原因。”
据了解,KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对(即key- value数值),以提高计算效率。
具体而言,在模型运算过程中,KV cache会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的token键值,通过模型运算计算出注意力分数,有效控制被存储token的输入输出,通过“以存换算”避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。
此外,据郑纬民透露,DeepSeek还解决了“非常大同时非常稀疏的MoE模型”使用的性能难题,而这也成了“DeepSeek训练成本低最关键的原因”。
“DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。”郑纬民说
此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。
早先,图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)认为,DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。


IP属地:四川1楼2025-01-28 00:40回复
    让子弹再飞一会,这才是AI爆火的第二年,以后还会出现怪物级的AI大模型,算法会不断优化


    IP属地:广东来自Android客户端2楼2025-01-28 02:53
    回复
      难得此类AI帖子


      IP属地:北京来自Android客户端3楼2025-01-28 05:39
      回复
        当地时间1月27日,欧美股市人工智能主题股票遭抛售。美国市场方面,纳斯达克综合指数跌幅达3.07%。人工智能主题的美股龙头企业英伟达公司股票暴跌近17%,市值蒸发5927亿美元,创下美股史上最大单日市值损失纪录。博通公司股价下跌17%,超威半导体公司(AMD)股价下跌6%,微软股价下跌2%。此外,人工智能领域的衍生品,如电力供应商也受到重创,美国联合能源公司股价下跌21%,vistra的股价下跌29%。美国媒体分析认为,这主要是因受到中国AI初创公司DeepSeek人工智能模型的冲击。据悉,DeepSeek的人工智能助手已取代OpenAI的ChatGPT,成为美国苹果应用商店下载量最大的免费应用程序。据报道,DeepSeek开发的模型在多项测试中表现都优于OpenAI,且成本不到600万美元。央视记者在纳斯达克交易所现场就此对纳斯达克副主席麦柯奕进行了采访。麦柯奕表示,他认为,DeepSeek将是人工智能领域革命的重要组成部分。(央视)


        IP属地:四川来自Android客户端4楼2025-01-28 08:05
        回复
          DeepSeek团队部分成员:
          1、邵智宏 学历:学霸中的学霸!他是清华大学交互式人工智能(CoAI)课题组的博士生!
          2. 朱琪豪 学历:北京大学计算机学院软件研究所2024届的博士毕业生,人家可厉害了,发表了16篇CCF - A类论文。
          3. Pelyi Wang 学历:北京大学的博士生。
          4. 吴保 学历:2019年从北京航空航天大学博士毕业的。成就也不小,在微软MSRA参与过小冰和必应百科项目。
          5. 吴作凡 学历:那是被保送进清华大学的。成就相当耀眼,是第28届国际信息学奥林匹克竞赛(IOI2016)的金 牌选手。
          6. 任之洲 学历:也是保送进入清华大学的哦。成就一堆。NOIP普及组一等奖、NOIP提高组一等奖、NOI2014金 牌、IOI2016金 牌,拿了个遍。
          7. 代达励 学历:2024年从北京大学计算机学院计算语言所博士毕业的。成就也不少哦,获EMNLP 2023最 佳长论文奖、CCL 2021最 佳中文论文奖,还发表了20多篇学术论文。
          8. 王炳宣 学历:北京大学元培学院的硕士。
          9. 赵成钢 学历:清华大学毕业的。成就也不错哦,是CCF NOI2016银牌得主,还三次获得世界大学生超算竞赛冠 军。
          10. 周雨杨 学历:北京大学信息科学技术学院的。成就那叫一个突出,IOI2020国际金 牌,ICPC全球总决赛金 牌(全球第 二名)太牛了。
          11. 罗煜翔 学历:保送到北京大学英才班的。成就也是杠杠的,NOI2019金 牌、APIO2019金 牌、NOIP2018提高组一等奖、IOI2020世界第三、ICPC冠 军,拿奖拿到手软。
          12. 郭达雅 学历:2023年从中山大学博士毕业的。成就也不含糊,在NeurIPS、ICLR、AAAI、ACL、EMNLP等顶会发表了好几篇论文,2021年入围全球AI华人新星百强,2020年还获得微软学者称号。
          13. 高华佐 学历:北京大学物理系的。曾在旷视、阶跃工作过。
          14. 曾旺丁 学历:北邮的研究生,师从张洪刚教 授。
          Deepseek团队部分成员里有北大7人,清华4人,北邮2人,中大1人,北航1人。


          IP属地:四川来自Android客户端5楼2025-01-28 08:28
          回复
            DeepSeek团队都是名校毕业,其成员学历:
            1. 邵智宏
            学历:清华大学交互式人工智能(CoAI)课题组博士生
            *
            2. 朱琪豪
            学历:北京大学计算机学院软件研究所2024届博士毕业生
            成就:发表CCF-A类论文16篇
            *
            3. Pelyi Wang
            学历:北京大学博士生
            *
            4. 吴保
            学历:2019年北京航空航天大学博士毕业。
            成就:在微软MSRA参与过小冰和必应百科项目。
            *
            5. 吴作凡
            学历:保送进入清华大学。
            成就:第28届国际信息学奥林匹克竞赛(IOI2016)金牌选手。
            *
            6. 任之洲
            学历:保送进入清华大学。
            成就:NOIP普及组一等奖、NOIP提高组一等奖、NOI2014金牌、IOI2016金牌。
            *
            7. 代达励
            学历:2024年博士毕业于北京大学计算机学院计算语言所
            成就:获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖,发表学术论文20篇+
            *
            8. 王炳宣
            学历:北京大学元培学院硕士。
            *
            9. 赵成钢
            学历:清华大学。
            成就:CCF NOI2016银牌得主,三次获得世界大学生超算竞赛冠军。
            *
            10. 周雨杨
            学历:北京大学信息科学技术学院。
            成就:IOI2020国际金牌,ICPC全球总决赛金牌(全球第二名)。
            *
            11. 罗煜翔
            学历:保送至北京大学英才班。
            成就:NOI2019金牌、APIO2019金牌、NOIP2018提高组一等奖、IOI2020世界第三、ICPC冠军。
            *
            12. 郭达雅
            学历:2023年博士毕业于中山大学
            成就:在NeurIPS、ICLR、AAAI、ACL、EMNLP等顶会发表数篇论文,2021年入围全球AI华人新星百强,2020年获得微软学者。
            *
            13. 高华佐
            学历:北京大学物理系。
            成就:曾在旷视、阶跃工作
            *
            14. 曾旺丁
            学历:北邮研究生,师从张洪刚教授。
            *
            Deepseek团队成员有北大7人,清华4人,北邮2人,中大1人,北航1人,大部分还是竞赛生出身,这些成员基本都是来自北京各大高校,只能说北京的高校实力还是太强了,而且这些成员大部分没有出过国留过学,可以说纯粹的本土研发团队,不少人还是毕业生和才毕业不久的年轻人,但他们的才华及实战经验一点也不逊色国外同行,真的太牛了!【图片】【图片】


            IP属地:四川来自Android客户端6楼2025-01-28 08:39
            回复
              1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。
              DeepSeek究竟厉害在哪里?近日,浙江大学计算机博士、美国南加州大学访问学者、《业务驱动的推荐系统:方法与实践》作者傅聪在与新浪科技沟通中,解析了DeepSeek成功出圈背后的技术原理。
              目前,业界对于DeepSeek的喜爱主要集中在三个方面。第一,在技术层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI 4o和o1模型的能力。第二,DeepSeek研发的这两款模型成本更低——仅为OpenAI 4o和o1模型的十分之一左右。第三,DeepSeek把这一两大模型的技术都开源了,这让更多的AI团队,能够基于最先进同时成本最低的模型,开发更多的AI原生应用。


              IP属地:四川来自Android客户端7楼2025-01-28 08:49
              回复
                那么,DeepSeek是如何实现模型成本的降低?同时还保证模型效果比肩OpenAI 4o和o1模型的呢?
                傅聪在深入研究Deepseek开源论文24小时后表示:“Deepseek确实有两把刷子,他们通过Multi-Head latent Attention(MLA)和DeepSeek MOE架构,节省了大量的显存,进而实现底层算力的高效利用,以更低的成本,训练出更加出色的模型效果,这种技术思路,是在DeepSeek V2版本发布时就已经得到验证。”
                据傅聪介绍,目前,DeepSeek用于降低模型训练成本的技术,至少包括以下四类:
                第一,DeepSeek使用了一种先进的、不需要辅助损失函数的专家加载均衡技术,该技术能保证每个token下,少量专家网络参数被真正激活的情况下,不同的专家网络能够以更均衡的频率被激活,防止专家网络激活扎堆。
                “在DeepSeek V2时,他们在2360亿参数规模的模型上已验证了这一策略的有效性,这次DeepSeekV3他们在6710亿参数规模的模型上进一步验证了这一策略,这个规模基本接近头部玩家目前最好的商用模型参数规模,我们也看到deepseek V3所展示出的能力,在benchmark效果上与GPT4o和Claude-3.5能打个有来有回。”傅聪表示。
                第二,DeepSeek还设计了一种“对偶流水线(Dual Pipeline)机制”,可以通过极致的流水线调度,把GPU中用于模型训练中数学运算的算力,和通信相关的算力在流水线执行过程中进行“并行隐藏”,实现了在训练过程所有的时间中GPU几乎不间断地进行运算。理论上,这个流水线机制,可以让GPU的指令执行流水线中的“气泡”,比目前最好的技术设计降低接近一半,同时只略微增加显存的消耗。
                第三,DeepSeek技术团队还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。
                第四,DeepSeek还实现并应用了FP8混合精度训练的架构,在架构中的不同计算环节,灵活地、交替地使用FP8、BF16、FP32不同精度的“数字表示”,并在参数通信的部分过程也应用了FP8传输。在大大加快计算速度的同时,也降低了通信开销。


                IP属地:四川来自Android客户端8楼2025-01-28 08:51
                回复
                  模型成本优化外,对于如何提升模型效果?傅聪指出,除了沿用MLA架构外,DeepSeek还应用了多token预测技术(multi token prediction),使得模型训练的时候,会同时预测序列后面更远的、不同位置的token。这可能使得模型有了对“更远未来”的感知能力,以此增强模型的效果。
                  在傅聪看来,DeepSeek V3是一个基础模型,事实上距离OpenAI的o1还有较大距离。真正帮助DeepSeek追赶o1的是最新模型DeepSeek-R1,该模型几乎单纯使用强化学习技术进行“后训练”,让模型的推理能力得到了极大的提升。简单来说,就是让R1模型在“后训练”过程中,通过学习CoT(思维链)的方式,一步一步推理得出结果,而不是直接预测答案。“这一方案,也是圈子内大家对OpenAI o1模型实现路径的猜测,而Deepseek用极快的速度,验证了这一路径的可行性!”傅聪表示。
                  在傅聪看来,DeepSeek R1所带来的技术突破,不仅证明了强化学习(RL)以及 inference time scaling law这条路子的可行性。还证明了即便是小模型(7~13B),也可以通过CoT + RL实现思考和自我演化(self- evolution),大幅提升推理能力。之前小模型往往因为幻觉严重,备受诟病,现在看来很多小模型在充分优化后,也具备在应用场景落地的潜力。
                  此外,R1的出现也会让学界和产业界更加重视合成数据,“后训练”时代,对基于CoT思想的优质合成推理数据的需求,将会大大增加。


                  IP属地:四川来自Android客户端9楼2025-01-28 08:53
                  回复
                    创始人之前搞量化基金的,我也算作了贡献,从去年10月份到现在不到半年被量化收割了20多个W了。。。。本来对量化有点深恶痛绝的,现在看到deepseek都能做空美股干翻英伟达了,也算是欣慰了。


                    IP属地:四川来自Android客户端10楼2025-01-28 08:58
                    收起回复
                      有网友在向DeepSeek-V3模型提问“你是谁”时,DeepSeek-V3将自己识别为ChatGPT 。在进一步提问DeepSeek API的问题,它回答也是如何使用OpenAI API的说明,甚至讲了一些与GPT-4一模一样的笑话。 美国人从0到1,中国人在他基础上训练、蒸馏、提炼。 最大价值就是“拼多多”版本AI,降低成本、围堵封锁、 能迅速接近它实力,但还无法超越。


                      IP属地:四川来自iPhone客户端11楼2025-01-28 09:00
                      收起回复
                        Deepseek能不能一直火不知道,但确实改变了基本范式。基于该开源模型能迭代衍生更多模型。


                        IP属地:四川12楼2025-01-28 10:10
                        回复
                          问了几个问题,感觉错误很多,非常不成熟。


                          IP属地:四川来自Android客户端13楼2025-01-28 11:59
                          回复