AI芯片
AI芯片
芯片分类
CPU(中央处理器)
CPU是通用芯片,可以执行各种任务,包括机器学习。然而,由于CPU并没有专门设计来执行机器学习,因此在处理大型数据集和复杂模型时可能会遇到性能瓶颈。
- 英特尔:英特尔酷睿处理器(具有内置的Intel AVX-512指令集),英特尔至强处理器
- AMD:AMD EPYC服务器处理器
- 华为:昇腾910、昇腾920处理器
- IBM:Power9芯片
- 海光
- 海思
- 飞腾
- 龙芯
- 申威
GPU(图形处理器)
GPU最初是为了图形渲染而设计的,但由于其高度并行化的结构,也被广泛应用于机器学习领域。GPU比CPU更快地处理大型数据集和复杂模型,因为它可以同时执行多个计算任务。
英伟达
推理GPU:
- Jetson Nano:适用于低功耗、嵌入式设备上的机器学习任务。
- Jetson Xavier NX:适用于AI边缘计算,提供高性能、低功耗的推理能力。
- Tesla T4:适用于数据中心和云端应用场景的深度学习推理加速卡。
- Tesla P4:适用于企业级推理加速,可支持多个模型同时进行推理。
训练GPU:
- GeForce系列:主要面向消费级市场,适合小规模的深度学习训练任务。
- Quadro系列:适合专业工作站和数据科学家使用的中高端图形卡。
- Titan系列:适用于开发人员和研究人员进行深度学习训练和研究。
- Tesla V100:适用于大规模深度学习训练任务的高性能计算卡。
- A100:NVIDIA最新推出的全球第一款5nm GPU,是目前全球最强大的数据中心加速器之一,适合大规模的 AI 训练和推理等深度学习任务。
AMD
推理GPU:
- AMD Radeon Instinct MI100:针对 HPC 和 AI 工作负载设计的加速器,提供高性能、低功耗的推理能力。
- AMD Radeon VII:基于 Vega 架构的高性能显卡,可用于机器学习应用的推理。
- AMD Radeon RX 6000 系列:包括 RX 6900 XT、RX 6800 XT、RX 6800、RX 6700 XT 四款显卡,适合轻度的深度学习任务。
训练GPU:
- AMD Radeon Instinct MI50 和 MI60:专为 AI 训练而设计的加速器,提供高性能的训练能力。
- AMD Radeon VII:除了用于推理,也可以进行中小规模的深度学习训练。
- AMD Radeon RX 6000 系列:虽然主要定位为游戏显卡,但也可以在轻度深度学习训练任务中发挥一定作用。
Intel:
推理GPU:
- Intel Xe-LP系列:主要用于轻量级推理任务,例如移动设备上的图像识别、语音识别等。
训练GPU:
- Intel Xe-HP系列:专注于训练任务,可以处理更大规模、更复杂的深度学习模型。
景嘉微
推理GPU:
- Juno AI加速器:一款专为AI推理而设计的加速卡,适用于各类边缘计算设备和物联网设备等场景。
- KaiXinXing系列:包括K510、K520、K550三款显卡,适合中小型数据中心进行AI推理应用。
训练GPU:
-
KaiXinXing KX-7000系列:适用于深度学习训练,具有高性能、低功耗等特点。
- 天数智芯
- 壁仞科技
- 登临科技
在GPU方面,目前国内厂商与Nvidia在GPU上仍存在较大差距。制程方面,目前Nvidia已率先到达4nm,国内厂商多集中在7nm;算力方面,国内厂商大多不支持双精度(FP64)计算,在单精度(FP32)及定点计算(INT8)方面与国外中端产品持平。天数智芯、壁仞科技的AI芯片产品在单精度性能上超过NVIDIA A100;接口方面,壁仞科技与Nvidia率先使用PCle5.0,其余厂商多集中在PCle4.0;生态方面,国内企业多采用OpenCL进行自主生态建设,与Nvidia CUDA的成熟生态相比,差距较为明显。
FPGA(可编程逻辑门阵列)
FPGA基于硬件电路,可以通过重新配置来执行不同的任务。由于FPGA可以高度优化,因此在执行某些特定类型的机器学习任务时,它可以比CPU和GPU更快,但是配置FPGA需要额外的时间和努力,并且有较高的成本。
- 寒武纪科技:Cambricon-1M、Cambricon-1H、Cambricon-1A等系列
- 龙芯中科:FeiTeng-2000系列、FeiTeng-4000系列
- 赛灵思:Alveo系列
FPGA全球市场呈现“两大两小”格局,Altera与Xilinx市占率共计超80%,Lattice和Microsemi市占率共计超10%;整体来看,安路科技、紫光同创等厂商处于国际中端水平。工艺制程方面,当前国产厂商先进制程集中在28nm,落后于国际16nm水平;在等效LUT数量上,国产厂商旗舰产品处于200K水平,仅为XILINX高端产品的25%左右。
ASIC(专用集成电路)
ASIC是专门为某些特定任务设计的芯片,这些任务需要高度优化的硬件结构。与FPGA不同,ASIC一旦制造出来就不能重新配置。ASIC通常比其他类型的芯片更快,但需要更长的时间和更高的成本来设计和制造。
- 云知声:天元系列
- 华为:昇腾系列
- 瑞萨电子:RV1S9353A系列
目前国产厂商集中采用7nm工艺制程,与国外ASIC厂商相同;算力方面,海思的昇腾910在BF16浮点算力和INT8定点算力方面超越Googel最新一代产品TPUv4。遂原科技和寒武纪的产品在整体性能上也与Googel比肩。
云端、边缘和终端AI芯片应用情况
应用场景 | 可部署芯片 | 芯片特征 | 计算能力 | 功耗 | 应用 | |
云端 | 训练 | GPU/ASIC | 高吞吐量、高精确率、可编程性、分布式、可扩展性、高内存与带宽 | >30TOPS | >50W | 云、HPC、数据中心 |
推理 | GPU/ASIC/FPGA | 高吞吐量、高精确率,分布式、可扩展性、低延时 | >30TOPS | >50W | 云、HPC、数据中心 | |
边缘 | GPU/ASIC/FPGA | 降低AI计算延迟、可单独部署或与其他设备组合(如5G基站)、可将多个终端用户进行虚拟化、较小的机架空间、扩展性及加速算法 | 5~30TOPS | 4~15W | 智能制造、智慧家居、智慧交通、智慧金融等 | |
终端 | GPU/ASIC/FPGA | 低功耗、高能效、推理任务为主、较低的吞吐量、低延迟、成本敏感 | <8TOPS | <5W | 各类消费电子、物联网领域 |