几年前,当Xilinx没有被收购、Altera还没有独立的时候,FPGA厂商的产品PPT总是拿GPU来进行比较。特别是在执行AI时,与GPU相比,它具有更优越的性能和功耗,而且也更加灵活。
相比之下,如今,人工智能和大规模语言模型(LLM)的趋势不仅没有消失,反而变得越来越流行。近期,FPGA厂商都在“暗中”专注于推出针对AI的新产品。
那么问题来了,与GPU 相比,FPGA 的性价比如何? FPGA 会进入法学硕士领域吗?
Achronix:运行LLM 比GPU 便宜
2019年5月,Achronix推出了其“FPGA+”系列产品Speedster7t FPGA。事实上,之所以称为FPGA+,是因为该芯片属于eFPGA IP 领域,即内置于定制SoC 或ASIC 设备中的FPGA IP 核。
作为FPGA赛道的“小众”玩家,Achronix的定位一直很明确。这是关于堆放材料的。它采用台积电7nm FinFET工艺打造,并采用具有片上支持的新型二维片上网络(2D NoC)技术。芯片处理引擎需要融合FPGA和ASIC技术的优势,当时的具体做法是支持GDDR6、400G以太网端口。等等,仍然可以扩展。
近日,Achronix公布了LLM中FPGA器件的基准测试结果。
通过比较Speedster7t 和Llama2 70B 型号的领先GPU 推理性能,Achronix 计算出基于FPGA 的解决方案的每个代币价格(美元/代币)增加了200%。除了成本优势之外,在比较FPGA 和GPU 卡的相对功耗时,Achronix 发现与基于GPU 的解决方案相比,生成的每个令牌的千瓦时增加了200%。
Achronix 在基准测试中还表示,这些优势表明FPGA 可以成为一种经济高效且节能的LLM 解决方案。
AMD:FPGA更适合低延迟场景
2024年6月,AMD推出了首款面向大规模数据处理市场的加速卡产品Alveo V80。它非常适合高性能计算、数据分析、金融技术、网络安全、存储或人工智能计算应用。除了使用Versal FPGA 自适应SoC 外,它还包含HBM。
特别是从架构角度来看,Alveo V80是Versal HBM系列家族中最大的器件,Alveo V80加速卡基于7nm工艺的AMD Versal XCV80 HBM系列自适应SoC,拥有2574K LUT逻辑单元和10848个DSP计算。包含32GB DDR4 DIMM 扩展插槽的逻辑片。使用PCle Gen5 接口,带宽可以达到800GB/s,并消除许多瓶颈。之前的第4代;MCIO连接有可扩展的GTY,可以实现一系列存储卡的连接,高度为3/4,总功率为300W,采用被动冷却,可开发。使用Vivado 工具。
与传统的GPU 加速卡必须连接到CPU 并具有很大的扩展限制相比,Alveo V80 等网络附加加速卡提供到网络的低延迟传输以及CPU 之间的旁路连接等更加灵活。 CPU 和加速器消除了PCIe 连接瓶颈,无需单独的网卡,从而最大限度地提高加速卡和计算密度。
谈到GPU 和FPGA,AMD 认为各自在不同领域表现出色,各有优势。实际应用可能有不同的计算、功耗和编程模式要求,导致GPU、FPGA和ASIC加速卡之间的选择不同。
GPU主要擅长浮点、并行和定点,可以提供大量的HBM,而FPGA擅长实时处理,具有低延迟、灵活性和非常丰富的内存架构资源。就像乐高积木一样,它们可以定制、连接和组装。
Alveo系列产品主要针对具有高延迟要求的金融领域,这些领域需要内联网络、实时处理(例如实时传感器处理)或非常灵活的功能,这使得FPGA自适应SoC解决方案非常有吸引力。在实践中,您还应该考虑不同的架构。例如,您需要非常低的延迟,并且需要高度的灵活性,以便为定制工作负载实现非常好的每瓦性能。所以FPGA在这方面是非常好的。合身。
2022年AMD收购Xilinx时,Xilinx也宣布了其AIE(人工智能引擎)架构。
再看AI加速产品线,目前的Versal中已经引入了第一代AIE,而且搭载AIE的Versal性能远超T4 GPU,其密度肯定会有所提升。可以处理更多类型的数据,并分配内存以提高效率。第三代引入了更专业的数据类型来提供机器学习,将基本性能提高了2-3 倍。下一代芯片将不断推出新芯片以显着提高性能。
英特尔:FPGA的三大AI市场
早期,英特尔将FPGA 与GPU 进行比较。 2020年,英特尔推出了首款人工智能优化的FPGA——英特尔Stratix 10 NX FPGA。英特尔已经包含了一个名为神经处理单元(NPU)的人工智能软处理器。在实际测试中,获得的平均性能高于NVIDIA T4 GPU。 NVIDIA V100 GPU 分别高出24 倍和12 倍。
FPGA最大的优势在于可以通过添加NPU等插件轻松提升AI性能。
虽然Intel FPGA的AI性能非常强大,但在拆分Altera之前,Intel仍然更倾向于将FPGA算作加速器的一种,并没有能够将加速结合起来形成“超异构计算”架构,而是给予了它更多的重视。
CPU 非常适合处理一次执行一项计算的标量运算(例如控制流),并且非常易于处理并且可以并发执行。 GPU 适合处理涉及同时计算大量数据的向量运算。许多块运算需要专门的矩阵加速和数据访问,而FPGA 特别适合稀疏运算,这可以显着减少I/O 和计算消耗。通过整合这些,你可以获得你所需要的并做出良好的组合。
当英特尔今年3 月剥离Altera 时,它开发了“全部采用人工智能”的FPGA。
英特尔表示,由于AI引发的巨大市场需求,FPGA市场空间将远大于想象,预计未来几年整体市场规模将达到约550亿美元。预计2022年至2023年FPGA市场规模约为90亿至100亿美元,年复合增长率为7%至8%。此外,人工智能为FPGA 市场带来了巨大机遇,分析师预测,到2028 年,基于FPGA 的解决方案的市场规模将额外增长30 亿美元。
市场空间如此之大,以至于没有必要将FPGA与CPU捆绑在一起。独立后,Altera将继续服务于英特尔Xeon Scalable处理器对高端FPGA的需求,并有望根据市场需求进一步发展,根据自身规划扩大产品范围。
当时英特尔还强调,未来英特尔FPGA将会有三大市场,而FPGA将进一步主导这三个市场中的LLM市场和边缘AI市场。
首先,IPU 相当于服务器中的服务器。其次,当前市场正在发生重大变化。例如,随着可编程网络的扩展和智能边缘的到来,EPF、时间敏感网络(TSN)和P4可编程解决方案都需要以英特尔的IPU/SmartNIC为核心进行跨网络协同。三是交通、汽车、零售等嵌入式领域。就食物、住房和交通而言,AI/ML正在不断被用来改善。由于生产效率和安全性以及FPGA 的优越特性,所有这些都可以降低TCO。 FPGA、GPU、ASIC,哪个更强,哪个更弱?
事实上,加速器之争已经持续多年,争论主要集中在GPU、FPGA 和ASIC 之间。
GPU是相对成熟的产品,峰值处理能力很强,同时在图形显示领域占据强势地位,自然会赶上半导体热潮,成为市场宠儿。 FPGA 相对于GPU 的主要优势是能源效率、延迟和可编程性。
ASIC 是为特定目的或应用而设计的定制电子电路。定制肯定会提高其性能和功耗。这也解释了为什么亚马逊和微软的人工智能芯片比英伟达的GPU 好得多。成功是定制的,失败也是如此。该算法迭代时间较长,灵活性较差,可适应的场景较少。目前,可编程FPGA对于实现和加速最苛刻的算法至关重要,而ASIC不能用于实现这些硬件算法,直到算法非常成熟并最终建立起来。
理性来说,GPU、FPGA、ASIC都擅长为厂商和下游用户调优CPU计算,但有些应用场景需要更多的计算能力或者更好的性能是有可能的。但在实施过程中,需要综合考虑TCO(总拥有成本)、上市时间、建设难度、各种系统的兼容性等,需要考虑谁强谁弱很难判断。
FPGA 之所以不像GPU 那样出名,可能是因为其价格较高或采用门槛非常高。然而,对于AI和LLM来说,FPGA具有独特的优势。
未来,FPGA可能会分为两类:数据中心应用和边缘应用,前者可能以加速卡的形式存在,后者可能以SoC的形式存在。原文链接:https://www.eeworld.com.cn/am9yv98
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。