NVIDIA 显卡信息

deviceQuery

Detected 1 CUDA Capable device(s)   检测到1个可用的NVIDIA显卡设备
Device 0: “Tesla T4”   显卡型号
CUDA Driver Version / Runtime Version 11.0 / 10.0 CUDA驱动版本/CUDA运行库版本
CUDA Capability Major/Minor version number: 7.5 CUDA 计算能力的主版本号/次版本号
Total amount of global memory: 15110 MBytes (15843721216 bytes) 全局内存总量
(40) Multiprocessors, ( 64) CUDA Cores/MP: 2560 CUDA Cores 40个流多处理器(SM),每个流多处理器中包含64 个 CUDA 核心,共2560个CUDA核心(执行实际计算的单元)
GPU Max Clock rate: 1590 MHz (1.59 GHz) 最大时钟频率(时钟频率决定运算速度)
Memory Clock rate: 5001 Mhz 显存的时钟频率(影响显存的读写速度)
Memory Bus Width: 256-bit 显存总线宽度(SM和显存之间的数据传输带宽)
L2 Cache Size: 4194304 bytes L2 缓存是 GPU 上的一级缓存,用于加速数据访问
Maximum Texture Dimension Size (x,y,z) 1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384) 纹理的最大维度大小(纹理是用于存储图像数据的特殊内存区域)
Maximum Layered 1D Texture Size, (num) layers 1D=(32768), 2048 layers 分层 1D 纹理的最大尺寸和层数
Maximum Layered 2D Texture Size, (num) layers 2D=(32768, 32768), 2048 layers 分层 2D 纹理的最大尺寸和层数
Total amount of constant memory: 65536 bytes 常量内存大小(存储在内核执行期间不会改变的数据)
Total amount of shared memory per block: 49152 bytes 每个线程块可用的共享内存大小
Total number of registers available per block: 65536 每个线程块可用的寄存器总数(寄存器是 GPU 上速度最快的存储单元,用于存储线程的局部变量)
Warp size: 32 Warp大小(Warp 是 GPU 调度的基本单位)
Maximum number of threads per multiprocessor: 1024 一个SM中最多有1024个线程,即一个SM中可以有1024/32=32个线程束Warp
Maximum number of threads per block: 1024 一个线程块最多可用的线程数目
Max dimension size of a thread block (x,y,z): (1024, 1024, 64) block 内三维中各维度的最大值
Max dimension size of a grid size (x,y,z): (2147483647, 65535, 65535) grid 内三维中各维度的最大值
Maximum memory pitch: 2147483647 bytes 最大内存间距(图像或二维数据在内存中每一行所占用的字节数)
Texture alignment: 512 bytes 纹理对齐要求值
Concurrent copy and kernel execution: Yes with 3 copy engine(s) 支持并发的内存复制和内核执行,拥有 3 个复制引擎(意味着 GPU 可以同时进行数据传输和计算)
Run time limit on kernels: No 内核运行无时间限制
Integrated GPU sharing Host Memory: No 集成 GPU 不与主机内存共享
Support host page-locked memory mapping: Yes 支持主机页面锁定内存映射
Alignment requirement for Surfaces: Yes 表面对齐要求
Device has ECC support: Enabled 支持 ECC(ECC 内存可以检测和纠正内存错误)
Device supports Unified Addressing (UVA): Yes 设备支持统一寻址
Device supports Compute Preemption: Yes 设备支持计算抢占。这意味着可以中断正在运行的内核,以便运行更高优先级的任务。
Supports Cooperative Kernel Launch: Yes 支持协作内核启动
Supports MultiDevice Co-op Kernel Launch: Yes 支持多设备协作内核启动
Device PCI Domain ID / Bus ID / location ID: 0 / 59 / 0 设备的 PCI 域 ID、总线 ID 和位置 ID
Compute Mode:   计算模式
< Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >   默认模式允许多个主机线程同时使用 cudaSetDevice() 函数来选择设备。
Table of Contents