AI芯片

AI芯片

芯片分类

CPU(中央处理器)

CPU是通用芯片,可以执行各种任务,包括机器学习。然而,由于CPU并没有专门设计来执行机器学习,因此在处理大型数据集和复杂模型时可能会遇到性能瓶颈。

GPU(图形处理器)

GPU最初是为了图形渲染而设计的,但由于其高度并行化的结构,也被广泛应用于机器学习领域。GPU比CPU更快地处理大型数据集和复杂模型,因为它可以同时执行多个计算任务。

英伟达
推理GPU:
训练GPU:
AMD
推理GPU:
训练GPU:
Intel:
推理GPU:
训练GPU:
景嘉微
推理GPU:
训练GPU:

在GPU方面,目前国内厂商与Nvidia在GPU上仍存在较大差距。制程方面,目前Nvidia已率先到达4nm,国内厂商多集中在7nm;算力方面,国内厂商大多不支持双精度(FP64)计算,在单精度(FP32)及定点计算(INT8)方面与国外中端产品持平。天数智芯、壁仞科技的AI芯片产品在单精度性能上超过NVIDIA A100;接口方面,壁仞科技与Nvidia率先使用PCle5.0,其余厂商多集中在PCle4.0;生态方面,国内企业多采用OpenCL进行自主生态建设,与Nvidia CUDA的成熟生态相比,差距较为明显。

FPGA(可编程逻辑门阵列)

FPGA基于硬件电路,可以通过重新配置来执行不同的任务。由于FPGA可以高度优化,因此在执行某些特定类型的机器学习任务时,它可以比CPU和GPU更快,但是配置FPGA需要额外的时间和努力,并且有较高的成本。

FPGA全球市场呈现“两大两小”格局,Altera与Xilinx市占率共计超80%,Lattice和Microsemi市占率共计超10%;整体来看,安路科技、紫光同创等厂商处于国际中端水平。工艺制程方面,当前国产厂商先进制程集中在28nm,落后于国际16nm水平;在等效LUT数量上,国产厂商旗舰产品处于200K水平,仅为XILINX高端产品的25%左右。

ASIC(专用集成电路)

ASIC是专门为某些特定任务设计的芯片,这些任务需要高度优化的硬件结构。与FPGA不同,ASIC一旦制造出来就不能重新配置。ASIC通常比其他类型的芯片更快,但需要更长的时间和更高的成本来设计和制造。

目前国产厂商集中采用7nm工艺制程,与国外ASIC厂商相同;算力方面,海思的昇腾910在BF16浮点算力和INT8定点算力方面超越Googel最新一代产品TPUv4。遂原科技和寒武纪的产品在整体性能上也与Googel比肩。

云端、边缘和终端AI芯片应用情况

应用场景 可部署芯片 芯片特征 计算能力 功耗 应用
云端 训练 GPU/ASIC 高吞吐量、高精确率、可编程性、分布式、可扩展性、高内存与带宽 >30TOPS >50W 云、HPC、数据中心
推理 GPU/ASIC/FPGA 高吞吐量、高精确率,分布式、可扩展性、低延时 >30TOPS >50W 云、HPC、数据中心
边缘 GPU/ASIC/FPGA 降低AI计算延迟、可单独部署或与其他设备组合(如5G基站)、可将多个终端用户进行虚拟化、较小的机架空间、扩展性及加速算法 5~30TOPS 4~15W 智能制造、智慧家居、智慧交通、智慧金融等
终端 GPU/ASIC/FPGA 低功耗、高能效、推理任务为主、较低的吞吐量、低延迟、成本敏感 <8TOPS <5W 各类消费电子、物联网领域
Table of Contents