PHYSICS
NVIDIA Warp 是一个开发者框架,用于在 Python 中构建和加速数据生成和空间计算。Warp 让程序员能够轻松编写用于仿真 AI、机器人开发和机器学习 (ML) 的 GPU 加速、基于内核的程序。借助 Warp,Python 开发者可以创建 GPU 加速的 3D 仿真工作流,从而在 PyTorch、JAX、Modulus 和 NVIDIA Omniverse™ 中驱动 ML 工作流。优势包括仿真性能等同于原生 CUDA 代码,以及 Python 的便捷性和开发者工作效率。
Related blogs:
DATA SCIENCE & PROCESSING
cuDF - Doc
cuDF(发音为“KOO-dee-eff”)是一个用于加载、连接、聚合、过滤和以其他方式操作数据的 GPU DataFrame 库。 cuDF 利用 libcudf(一个超快的 C++/CUDA 数据帧库)和 Apache Arrow 列格式来提供 GPU 加速的 pandas API。
Related blogs:
cuML - Doc
cuML 是一套快速的 GPU 加速机器学习算法,专为数据科学和分析任务而设计。我们的 API 与 Sklearn 的 API 相同,我们为从业者提供简单的拟合 - 预测 - 转换范式,而无需在 GPU 上编程。
Related blogs:
COMPUTER AIDED ENGINEERING
NVIDIA cuDSS (预览版) 是经过优化的第一代 GPU 加速的直接稀疏求解器库,用于求解具有超稀疏矩阵的线性系统。直接稀疏求解器是数值计算的重要组成部分,适用于自动驾驶和过程模拟等实时应用,在这些应用中,日益复杂和高吞吐量需要强大的直接求解器。
Related blogs:
用于稀疏计算的 GPU 库 API。cuSPARSE 主机 API 提供 GPU 加速的基本线性代数例程,cuSPARSELt 主机 API 提供结构化稀疏支持,可利用稀疏张量核心实现 GEMM。稀疏技术在机器学习、AI、计算流体动力学、地震勘探和计算科学领域得到广泛应用。
Related blogs:
NVIDIA cuFFT 库提供 GPU 加速的快速傅里叶变换 (FFT) 实现,用于构建跨学科的应用程序,例如深度学习、计算机视觉、计算物理学、分子动力学、量子化学以及地震和医学成像。
Related blogs:
AmgX 提供了一条在 NVIDIA GPU 上加速核心求解器技术的简单路径。AmgX 可为模拟的计算密集型线性求解器部分提供高达 10 倍的加速,特别适合隐式非结构化方法。
DEEP LEARNING
NVIDIA TensorRT-LLM 为用户提供易于使用的 Python API 来定义大语言模型 (LLM) ,并构建包含先进优化的 NVIDIA TensorRT 引擎,以便在 NVIDIA GPU 上高效执行推理。TensorRT-LLM 还包含用于创建用于执行 TensorRT 引擎的 Python 和 C++ 运行时的组件。
Related blogs:
NVIDIA Megatron-Core 是一个基于 PyTorch 的开源库,可在数千个 GPU 上以惊人的速度大规模训练大型模型。它采用 GPU 优化的训练技术,采用先进的系统级创新技术,所有这些创新均可通过可组合的 API 访问。Megatron-Core 与 NVIDIA NeMo™ 无缝集成,提供端到端云原生解决方案,用于构建、自定义和部署大语言模型 (LLM) 。
Related blogs:
NVIDIA 集合通信库 (NCCL) 可实现针对 NVIDIA GPU 和网络进行性能优化的多 GPU 和多节点通信基元。NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程,这些例程均经过优化,可通过节点内的 PCIe 和 NVLink 高速互联以及节点间的 NVIDIA Mellanox 网络实现高带宽和低延迟。
Related blogs:
NVIDIA CUDA® 深度神经网络库 (cuDNN) 是一个 GPU 加速的深度神经网络基元库,能够以高度优化的方式实现标准例(如前向和反向卷积、池化层、归一化和激活层)。
Related blogs:
CUTLASS - Doc
CUTLASS 是 CUDA C++ 模板抽象的集合,用于在 CUDA 内的所有级别和规模上实现高性能矩阵乘法 (GEMM) 。
Related blogs:
cuBLAS 库可提供基本线性代数子程序 (BLAS) 的 GPU 加速实现。cuBLAS 利用针对NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
Related blogs:
QUANTUM CHEMISTRY
cuEquivariance - Doc
cuEquivariance 是一个 Python 库,旨在促进使用分段张量乘积构建高性能等方差神经网络。cuEquivariance 提供了一个全面的 API,用于描述分段张量乘积,以及用于执行这些乘积的优化 CUDA 核函数。此外,cuEquivariance 还为 PyTorch 和 JAX 提供绑定,确保广泛的兼容性和易于集成。
Related blogs:
NVIDIA cuTENSOR 是一个 GPU 加速的张量线性代数库,用于张量收缩、归约和元素级运算。借助 cuTENSOR,应用可以利用 NVIDIA GPU 上的专用 Tensor Core 实现高性能张量计算,并加速深度学习训练和推理、计算机视觉、量子化学和计算物理工作负载。
Related blogs:
QUANTUM COMPUTING
作为一个包含经过优化的库和工具的 SDK,NVIDIA cuQuantum 可用于加速量子计算工作流。借助 NVIDIA Tensor Core GPU,开发者可以使用 cuQuantum 将基于状态向量和张量网络方法的量子电路模拟加速一个数量级。
Related blogs:
CUDA-Q 是一个开源量子开发平台,它编排了运行有用的大规模量子计算应用所需的硬件和软件。
Related blogs:
WEATHER ANALYTICS
EARTH-2 - Webpage
NVIDIA Earth-2 将 AI、GPU 加速、物理仿真和计算机图形的强大功能相结合,以超高的准确性和速度在全球范围内模拟和可视化天气和气候预测。该平台由用于 AI、可视化和仿真微服务及参考实现组成。
Related blogs:
MEDICAL IMAGING
MONAI - Doc
MONAI 框架是 Project MONAI 创建的开源基础。MONAI 是一个免费的、社区支持的、基于 PyTorch 的框架,用于医疗健康成像领域的深度学习。它提供针对领域优化的基础功能,用于在原生 PyTorch 范式中开发医疗健康成像训练工作流。
Related blogs:
GENE SEQUENCING
NVIDIA® Parabricks® 是一个可扩展的基因组学分析软件套件,能够充分利用全栈加速计算在几分钟内处理数据。它与所有领先的测序仪器兼容,支持多种生物信息学工作流程,并集成了 AI,有助于实现超高的准确性,并允许用户随心定制。Parabricks 是一种经济高效且节省空间的解决方案,非常适合用于侧重推进疾病理解和管理的大型基因组学项目。
Related blogs:
DECISION OPTIMIZATION
NVIDIA® cuOpt™ 能够借助加速计算更快地做出更好的决策,从而优化运营。cuOpt 能够帮助团队解决具有多重约束的复杂路线规划问题,并且能够提供动态重新规划路线、作业调度和机器人仿真等新功能,同时实现亚秒级求解器响应时间。凭借 23 项创下世界纪录的基准,cuOpt 包揽了过去三年内最大路线规划基准方面的世界纪录。
Related blogs:
5G/6G SIGNAL PROCESSING
NVIDIA Aerial 是一套用于设计、模拟和操作无线网络的加速计算平台、软件和服务。Aerial 包含用于电信公司、云服务提供商 (CSP) 和构建商业 5G 网络的企业的强化 RAN 软件库。学术和行业研究人员可以访问云端或本地 Aerial 设置,用于 6G 方面的高级无线、人工智能和机器学习 (ML) 研究。
Related blogs:
NVIDIA Aerial 是一套用于设计、模拟和操作无线网络的加速计算平台、软件和服务。Aerial 包含用于电信公司、云服务提供商 (CSP) 和构建商业 5G 网络的企业的强化 RAN 软件库。学术和行业研究人员可以访问云端或本地 Aerial 设置,用于 6G 方面的高级无线、人工智能和机器学习 (ML) 研究。
Related blogs:
Sionna™ 是一个 GPU 加速的开源库,用于链路级模拟。此开源库支持对复杂的通信体系架构进行快速的原型设计,并为在 6G 信号处理中机器学习集成提供原生支持。
Related blogs:
COMPUTATIONAL LITHOGRAPHY
cuLITHO - Webpage
NVIDIA cuLitho 是一个库,包含优化的工具和算法, 用于 GPU 加速计算光刻和半导体制造工艺, 比目前基于 CPU 的方法多个数量级。
Related blogs:
NUMERICAL COMPUTING
NVIDIA cuPyNumeric 立志成为 NumPy 的嵌入式替代库,将 NVIDIA 平台上的分布式和加速计算引入 Python 社区。
Related blogs: