全球开源MoE模型登场，中文能力卓越，价格仅GPT4Turbo百分之一？开源模型是什么

小条 2024-07-05

bdee33bd44fc44fd86a9c0303a130d7b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720747240&x-signature=sgBOZV5QfH2%2FIa9BcSXw5GMzFwE%3D 想象一个人工智能模型，它不仅比传统计算更强大，而且以更低的成本提供更高效的性能。这不是科幻小说。隆重推出DeepSeek-V2[1]，世界上最强大的开源MoE 模型。

e3e53f123fe74d26a0beaceb8e62fe3c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720747240&x-signature=%2B7mIgsHQUMh%2FT96x0nd9uB0zcOQ%3D DeepSeek-V2是一种强大的混合专家（MoE）语言模型，具有经济训练和高效推理的特点。它由236B个参数组成，其中21B用于激活每个标签。与DeepSeek 67B 相比，DeepSeek-V2 具有更好的性能，同时节省了42.5% 的训练成本，KV 缓存减少了93.3%，最大生成吞吐量提高了5.76 倍。

DeepSeek 是一家探索通用人工智能(AGI) 本质并致力于整合研究、工程和业务的公司。

DeepSeek-V2 的综合能力

在目前主流的大型机型列表中，DeepSeek-V2有着出色的表现。

中文综合能力（AlignBench）是开源模型中最强大的，与GPT-4-Turbo、文心4.0等闭源模型处于同一水平，而英语综合能力（MT-Bench）位居榜首。第一级：通用英语水平（MT-Bench）与最强开源模型LLaMA3-70B同级，超过MoE最强开源模型Mixtral 8x22B，基于知识、数学、推理、编程方面的成就， ETC。支持128K上下文窗口 dc0e91c604894d6da6a23dcc7cb6a4ea~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720747240&x-signature=q%2FwIe7PCwO4SgEzNecC1Doy5b7o%3D

全新的模型结构

随着人工智能的潜力不断被挖掘，我们不禁要问：推动智能进步的关键是什么？ DeepSeek-V2 给出的答案为——。它是创新架构和成本效益的完美结合。

DeepSeek-V2 具有236B 总参数和21B 激活次数，几乎达到70B 至110B Dense 模型的能力，但消耗的内存仅为同类模型的1/5 至1/100。 8卡H800机器每秒可处理超过100,000个令牌的输入，每秒可输出超过50,000个令牌。这不仅是技术的飞跃，也是成本管理的革命。

随着AI技术的快速发展，DeepSeek-V2的到来不仅代表着技术的进步，也迎来了智能应用的激增。人工智能的门槛将降低，更多企业和个人将能够享受到高效的智能服务。

中文能力 VS 价格

对于中文功能，DeepSeek-V2 在AlignBench 排名中领先全球，同时提供极具竞争力的API 定价。

8968a749c1ca41ddb9e0baa9ddb9f6db~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720747240&x-signature=7uclN1Y5NsAgawAFT4qWmnqzGso%3D 2c246d64694540b2b89b74c3bf8bfe43~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720747240&x-signature=ZwOQ3wa3yb7nnkKJWNcaFEgizFk%3D

模型和论文双开源

DeepSeek-V2 不仅仅是一个模型，它是智慧世界的关键。开启低成本、高性能AI应用新篇章。 DeepSeek-V2的开源特性是我们激发更多人创新精神、共同推进人类智能未来的信念的最好证明。

模型权重：https://huggingface.co/deepseek-ai 开源地址：https://github.com/deepseek-ai/DeepSeek-V2 随着AI不断发展，您认为DeepSeek-V2将如何改变世界？感兴趣的话，访问聊天。前往deepseek.com亲身体验DeepSeek-V2带来的技术变革。

参考

[1] DeepSeek-V2: https://www.deepseek.com/zh

全球开源MoE模型登场，中文能力卓越，价格仅GPT4Turbo百分之一？开源模型是什么

DeepSeek-V2 的综合能力

全新的模型结构

中文能力 VS 价格

模型和论文双开源

猜你喜欢

全球开源MoE模型登场，中文能力卓越，价格仅GPT4Turbo百分之一？开源模型是什么

克隆vmware，virsh 克隆虚拟机

混合专家模型 (MoE) 详解（MOE模型结构详解）

模型的“分⼯的艺术”：MoE技术如何提升计算效率

开启hyper-v，怎么使用hyper-v

揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相（阶跃响应是什么意思）

win10的hyper-v在哪，win10 hyper-v使用教程

hyper-v以后安装操作系统，hyper v安装linux

hyper-v server 2019安装教程，hyperv安装教程

多世界说，多个世界