想象一个人工智能模型,它不仅比传统计算更强大,而且以更低的成本提供更高效的性能。这不是科幻小说。隆重推出DeepSeek-V2[1],世界上最强大的开源MoE 模型。
DeepSeek-V2是一种强大的混合专家(MoE)语言模型,具有经济训练和高效推理的特点。它由236B个参数组成,其中21B用于激活每个标签。与DeepSeek 67B 相比,DeepSeek-V2 具有更好的性能,同时节省了42.5% 的训练成本,KV 缓存减少了93.3%,最大生成吞吐量提高了5.76 倍。
DeepSeek 是一家探索通用人工智能(AGI) 本质并致力于整合研究、工程和业务的公司。
DeepSeek-V2 的综合能力
在目前主流的大型机型列表中,DeepSeek-V2有着出色的表现。
中文综合能力(AlignBench)是开源模型中最强大的,与GPT-4-Turbo、文心4.0等闭源模型处于同一水平,而英语综合能力(MT-Bench)位居榜首。第一级:通用英语水平(MT-Bench)与最强开源模型LLaMA3-70B同级,超过MoE最强开源模型Mixtral 8x22B,基于知识、数学、推理、编程方面的成就, ETC。支持128K上下文窗口
全新的模型结构
随着人工智能的潜力不断被挖掘,我们不禁要问:推动智能进步的关键是什么? DeepSeek-V2 给出的答案为——。它是创新架构和成本效益的完美结合。
DeepSeek-V2 具有236B 总参数和21B 激活次数,几乎达到70B 至110B Dense 模型的能力,但消耗的内存仅为同类模型的1/5 至1/100。 8卡H800机器每秒可处理超过100,000个令牌的输入,每秒可输出超过50,000个令牌。这不仅是技术的飞跃,也是成本管理的革命。
随着AI技术的快速发展,DeepSeek-V2的到来不仅代表着技术的进步,也迎来了智能应用的激增。人工智能的门槛将降低,更多企业和个人将能够享受到高效的智能服务。
中文能力 VS 价格
对于中文功能,DeepSeek-V2 在AlignBench 排名中领先全球,同时提供极具竞争力的API 定价。
模型和论文双开源
DeepSeek-V2 不仅仅是一个模型,它是智慧世界的关键。开启低成本、高性能AI应用新篇章。 DeepSeek-V2的开源特性是我们激发更多人创新精神、共同推进人类智能未来的信念的最好证明。
模型权重:https://huggingface.co/deepseek-ai 开源地址:https://github.com/deepseek-ai/DeepSeek-V2 随着AI不断发展,您认为DeepSeek-V2将如何改变世界?感兴趣的话,访问聊天。前往deepseek.com亲身体验DeepSeek-V2带来的技术变革。
参考
[1] DeepSeek-V2: https://www.deepseek.com/zh
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。