DLRM 訓(xùn)練
取消
清空記錄
歷史記錄
清空記錄
歷史記錄
NVIDIA A100 Tensor Core GPU 可針對(duì) AI、數(shù)據(jù)分析和 HPC 應(yīng)用場(chǎng)景,在不同規(guī)模下實(shí)現(xiàn)出色的加速,有效助力更高性能的彈性數(shù)據(jù)中心。A100 采用 NVIDIA Ampere 架構(gòu),是 NVIDIA 數(shù)據(jù)中心平臺(tái)的引擎。A100 的性能比上一代產(chǎn)品提升高達(dá) 20 倍,并可劃分為七個(gè) GPU 實(shí)例,以根據(jù)變化的需求進(jìn)行動(dòng)態(tài)調(diào)整。A100 提供 40GB 和 80GB 顯存兩種版本,A100 80GB 將 GPU 顯存增加了一倍,并提供超快速的顯存帶寬(每秒超過(guò) 2 萬(wàn)億字節(jié) [TB/s]),可處理超大型模型和數(shù)據(jù)集。
DLRM 訓(xùn)練
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
當(dāng)今的 AI 模型面臨著對(duì)話式 AI 等更高層次的挑戰(zhàn),這促使其復(fù)雜度呈爆炸式增長(zhǎng)。訓(xùn)練這些模型需要大規(guī)模的計(jì)算能力和可擴(kuò)展性。
NVIDIA A100 Tensor Core 借助 Tensor 浮點(diǎn)運(yùn)算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍之多的性能,并且無(wú)需更改代碼;若使用自動(dòng)混合精度和 FP16,性能可進(jìn)一步提升 2 倍。與 NVIDIA? NVLink?、NVIDIA NVSwitch?、PCIe 4.0、NVIDIA? InfiniBand? 和 NVIDIA Magnum IO? SDK 結(jié)合使用時(shí),它能擴(kuò)展到數(shù)千個(gè) A100 GPU。
2048 個(gè) A100 GPU 可在一分鐘內(nèi)成規(guī)模地處理 BERT 之類(lèi)的訓(xùn)練工作負(fù)載,這是非??焖俚慕鉀Q問(wèn)題速度。
對(duì)于具有龐大數(shù)據(jù)表的超大型模型(例如深度學(xué)習(xí)推薦模型 [DLRM]),A100 80GB 可為每個(gè)節(jié)點(diǎn)提供高達(dá) 1.3TB 的統(tǒng)一顯存,而且吞吐量比 A100 40GB 多高達(dá) 3 倍。
NVIDIA 的領(lǐng)先地位在 MLPerf 這個(gè)行業(yè)級(jí) AI 訓(xùn)練基準(zhǔn)測(cè)試中得到印證,創(chuàng)下多項(xiàng)性能紀(jì)錄。
A100 引入了突破性的功能來(lái)優(yōu)化推理工作負(fù)載。它能在從 FP32 到 INT4 的整個(gè)精度范圍內(nèi)進(jìn)行加速。多實(shí)例 GPU (MIG) 技術(shù)允許多個(gè)網(wǎng)絡(luò)同時(shí)基于單個(gè) A100 運(yùn)行,從而優(yōu)化計(jì)算資源的利用率。在 A100 其他推理性能增益的基礎(chǔ)之上,僅結(jié)構(gòu)稀疏支持一項(xiàng)就能帶來(lái)高達(dá)兩倍的性能提升。
在 BERT 等先進(jìn)的對(duì)話式 AI 模型上,A100 可將推理吞吐量提升到高達(dá) CPU 的 249 倍。
在受到批量大小限制的極復(fù)雜模型(例如用于自動(dòng)語(yǔ)音識(shí)別用途的 RNN-T)上,顯存容量有所增加的 A100 80GB 能使每個(gè) MIG 的大小增加一倍,并提供比 A100 40GB 高 1.25 倍的吞吐量。
NVIDIA 產(chǎn)品的出色性能在 MLPerf 推理測(cè)試中得到驗(yàn)證。A100 再將性能提升了 20 倍,進(jìn)一步擴(kuò)大了這種性能優(yōu)勢(shì)。
BERT-LARGE 推理
BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100:采用稀疏技術(shù)的 NVIDIA TensorRT? (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8。
RNN-T 推理:?jiǎn)瘟?/p>
MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。
為了獲得新一代的發(fā)現(xiàn)成果,科學(xué)家們希望通過(guò)仿真來(lái)更好地了解我們周?chē)氖澜纭?/p>
NVIDIA A100 采用雙精度 Tensor Core,實(shí)現(xiàn)了自 GPU 推出以來(lái)高性能計(jì)算性能的巨大飛躍。結(jié)合 80GB 的超快 GPU 顯存,研究人員可以在 A100 上將 10 小時(shí)雙精度仿真縮短到 4 小時(shí)以?xún)?nèi)。HPC 應(yīng)用還可以利用 TF32 將單精度、密集矩陣乘法運(yùn)算的吞吐量提高高達(dá) 10 倍。
對(duì)于具有超大數(shù)據(jù)集的高性能計(jì)算應(yīng)用,顯存容量增加的 A100 80GB 可在運(yùn)行材料仿真 Quantum Espresso 時(shí)將吞吐量提升高達(dá) 2 倍。極大的顯存容量和超快速的顯存帶寬使 A100 80GB 非常適合用作新一代工作負(fù)載的平臺(tái)。
熱門(mén) HPC 應(yīng)用
應(yīng)用加速的幾何平均值與 P100 加速性能對(duì)比:基準(zhǔn)應(yīng)用:Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT-Large Fine Tuner]、Quantum Espresso [AUSURF112-jR]、隨機(jī)森林 FP32 [make_blobs (160000 x 64 : 10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | 包含雙路 CPU 和 4 塊 NVIDIA P100、V100 或 A100 GPU 的 GPU 節(jié)點(diǎn)。
Quantum Espresso
Quantum Espresso measured using CNT10POR8 dataset, precision = FP64。
大數(shù)據(jù)分析基準(zhǔn)測(cè)試 | 針對(duì) 10TB 數(shù)據(jù)集的 30 次分析零售查詢(xún)、ETL、ML、NLP | V100 32GB,RAPIDS/Dask | A100 40GB 和 A100 80GB,RAPIDS/Dask/BlazingSQL
數(shù)據(jù)科學(xué)家需要能夠分析和可視化龐大的數(shù)據(jù)集,并將其轉(zhuǎn)化為寶貴見(jiàn)解。但是,由于數(shù)據(jù)集分散在多臺(tái)服務(wù)器上,橫向擴(kuò)展解決方案往往會(huì)陷入困境。
搭載 A100 的加速服務(wù)器可以提供必要的計(jì)算能力,并能利用大容量顯存、超過(guò) 2 TB/s 的顯存帶寬以及通過(guò) NVIDIA? NVLink? 和 NVSwitch? 實(shí)現(xiàn)的可擴(kuò)展性,處理這些工作負(fù)載。通過(guò)結(jié)合 InfiniBand、NVIDIA Magnum IO? 和 RAPIDS? 開(kāi)源庫(kù)套件(包括用于執(zhí)行 GPU 加速的數(shù)據(jù)分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 數(shù)據(jù)中心平臺(tái)能夠加速這些大型工作負(fù)載,并實(shí)現(xiàn)超高的性能和效率水平。
在大數(shù)據(jù)分析基準(zhǔn)測(cè)試中,A100 80GB 提供的見(jiàn)解吞吐量比 A100 40GB 高兩倍,因此非常適合處理數(shù)據(jù)集大小急增的新型工作負(fù)載。
BERT Large 推理
BERT Large 推理 | 采用稀疏技術(shù)的 NVIDIA TensorRT? (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8。
A100 結(jié)合 MIG 技術(shù)可以更大限度地提高 GPU 加速的基礎(chǔ)設(shè)施的利用率。借助 MIG,A100 GPU 可劃分為多達(dá) 7 個(gè)獨(dú)立實(shí)例,讓多個(gè)用戶都能使用 GPU 加速功能。借助 A100 40GB,每個(gè) MIG 實(shí)例可分配多達(dá) 5GB,而隨著 A100 80GB 顯存容量的增加,此大小可翻倍至 10GB。
MIG 與 Kubernetes、容器和基于服務(wù)器虛擬化平臺(tái)的服務(wù)器虛擬化配合使用。MIG 可讓基礎(chǔ)設(shè)施管理者為每項(xiàng)作業(yè)提供大小合適的 GPU,同時(shí)確保服務(wù)質(zhì)量 (QoS),從而擴(kuò)大加速計(jì)算資源的影響范圍,以覆蓋每位用戶。
性能出色,輕松處理各種工作負(fù)載。
十分適合處理各種工作負(fù)載。
A100 80GB PCIe | A100 80GB SXM | |
---|---|---|
FP64 | 9.7 TFLOPS | |
FP64 Tensor Core | 19.5 TFLOPS | |
FP32 | 19.5 TFLOPS | |
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* | |
BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
INT8 Tensor Core | 624 TOPS | 1248 TOPS* | |
GPU 顯存 | 80GB HBM2 | 80GB HBM2e |
GPU 顯存帶寬 | 1935 GB/s | 2039 GB/s |
最大熱設(shè)計(jì)功耗 (TDP) | 300W | 400W *** |
多實(shí)例 GPU | 最大為 7 MIG @ 5GB | 最大為 7 MIG @ 10GB |
外形規(guī)格 | PCIe 雙插槽風(fēng)冷式或單插槽液冷式 | SXM |
互連 | NVIDIA? NVLink? 橋接器 2 塊 GPU:600 GB/s ** PCIe 4.0:64 GB/s | NVLink:600 GB/s PCIe 4.0:64 GB/s |
服務(wù)器選項(xiàng) | 合作伙伴及配備 1 至 8 個(gè) GPU 的 NVIDIA 認(rèn)證系統(tǒng)? | NVIDIA HGX? A100 合作伙伴和配備 4、8 或 16 塊 GPU 的 NVIDIA 認(rèn)證系統(tǒng) 配備 8 塊 GPU 的 NVIDIA DGX? A100 |
* 采用稀疏技術(shù)
** SXM4 GPU 通過(guò) HGX A100 服務(wù)器主板連接;PCIe GPU 通過(guò) NVLink 橋接器可橋接多達(dá)兩個(gè) GPU
*** 400W TDP(適用于標(biāo)準(zhǔn)配置)。HGX A100-80 GB 自定義散熱解決方案 (CTS) SKU 可支持高達(dá) 500W 的 TDP
NVIDIA A100 Tensor Core GPU 可針對(duì) AI、數(shù)據(jù)分析和 HPC 應(yīng)用場(chǎng)景,在不同規(guī)模下實(shí)現(xiàn)出色的加速,有效助力更高性能的彈性數(shù)據(jù)中心。A100 采用 NVIDIA Ampere 架構(gòu),是 NVIDIA 數(shù)據(jù)中心平臺(tái)的引擎。A100 的性能比上一代產(chǎn)品提升高達(dá) 20 倍,并可劃分為七個(gè) GPU 實(shí)例,以根據(jù)變化的需求進(jìn)行動(dòng)態(tài)調(diào)整。A100 提供 40GB 和 80GB 顯存兩種版本,A100 80GB 將 GPU 顯存增加了一倍,并提供超快速的顯存帶寬(每秒超過(guò) 2 萬(wàn)億字節(jié) [TB/s]),可處理超大型模型和數(shù)據(jù)集。
DLRM 訓(xùn)練
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
當(dāng)今的 AI 模型面臨著對(duì)話式 AI 等更高層次的挑戰(zhàn),這促使其復(fù)雜度呈爆炸式增長(zhǎng)。訓(xùn)練這些模型需要大規(guī)模的計(jì)算能力和可擴(kuò)展性。
NVIDIA A100 Tensor Core 借助 Tensor 浮點(diǎn)運(yùn)算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍之多的性能,并且無(wú)需更改代碼;若使用自動(dòng)混合精度和 FP16,性能可進(jìn)一步提升 2 倍。與 NVIDIA? NVLink?、NVIDIA NVSwitch?、PCIe 4.0、NVIDIA? InfiniBand? 和 NVIDIA Magnum IO? SDK 結(jié)合使用時(shí),它能擴(kuò)展到數(shù)千個(gè) A100 GPU。
2048 個(gè) A100 GPU 可在一分鐘內(nèi)成規(guī)模地處理 BERT 之類(lèi)的訓(xùn)練工作負(fù)載,這是非常快速的解決問(wèn)題速度。
對(duì)于具有龐大數(shù)據(jù)表的超大型模型(例如深度學(xué)習(xí)推薦模型 [DLRM]),A100 80GB 可為每個(gè)節(jié)點(diǎn)提供高達(dá) 1.3TB 的統(tǒng)一顯存,而且吞吐量比 A100 40GB 多高達(dá) 3 倍。
NVIDIA 的領(lǐng)先地位在 MLPerf 這個(gè)行業(yè)級(jí) AI 訓(xùn)練基準(zhǔn)測(cè)試中得到印證,創(chuàng)下多項(xiàng)性能紀(jì)錄。
A100 引入了突破性的功能來(lái)優(yōu)化推理工作負(fù)載。它能在從 FP32 到 INT4 的整個(gè)精度范圍內(nèi)進(jìn)行加速。多實(shí)例 GPU (MIG) 技術(shù)允許多個(gè)網(wǎng)絡(luò)同時(shí)基于單個(gè) A100 運(yùn)行,從而優(yōu)化計(jì)算資源的利用率。在 A100 其他推理性能增益的基礎(chǔ)之上,僅結(jié)構(gòu)稀疏支持一項(xiàng)就能帶來(lái)高達(dá)兩倍的性能提升。
在 BERT 等先進(jìn)的對(duì)話式 AI 模型上,A100 可將推理吞吐量提升到高達(dá) CPU 的 249 倍。
在受到批量大小限制的極復(fù)雜模型(例如用于自動(dòng)語(yǔ)音識(shí)別用途的 RNN-T)上,顯存容量有所增加的 A100 80GB 能使每個(gè) MIG 的大小增加一倍,并提供比 A100 40GB 高 1.25 倍的吞吐量。
NVIDIA 產(chǎn)品的出色性能在 MLPerf 推理測(cè)試中得到驗(yàn)證。A100 再將性能提升了 20 倍,進(jìn)一步擴(kuò)大了這種性能優(yōu)勢(shì)。
BERT-LARGE 推理
BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100:采用稀疏技術(shù)的 NVIDIA TensorRT? (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8。
RNN-T 推理:?jiǎn)瘟?/p>
MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。
為了獲得新一代的發(fā)現(xiàn)成果,科學(xué)家們希望通過(guò)仿真來(lái)更好地了解我們周?chē)氖澜纭?/p>
NVIDIA A100 采用雙精度 Tensor Core,實(shí)現(xiàn)了自 GPU 推出以來(lái)高性能計(jì)算性能的巨大飛躍。結(jié)合 80GB 的超快 GPU 顯存,研究人員可以在 A100 上將 10 小時(shí)雙精度仿真縮短到 4 小時(shí)以?xún)?nèi)。HPC 應(yīng)用還可以利用 TF32 將單精度、密集矩陣乘法運(yùn)算的吞吐量提高高達(dá) 10 倍。
對(duì)于具有超大數(shù)據(jù)集的高性能計(jì)算應(yīng)用,顯存容量增加的 A100 80GB 可在運(yùn)行材料仿真 Quantum Espresso 時(shí)將吞吐量提升高達(dá) 2 倍。極大的顯存容量和超快速的顯存帶寬使 A100 80GB 非常適合用作新一代工作負(fù)載的平臺(tái)。
熱門(mén) HPC 應(yīng)用
應(yīng)用加速的幾何平均值與 P100 加速性能對(duì)比:基準(zhǔn)應(yīng)用:Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT-Large Fine Tuner]、Quantum Espresso [AUSURF112-jR]、隨機(jī)森林 FP32 [make_blobs (160000 x 64 : 10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | 包含雙路 CPU 和 4 塊 NVIDIA P100、V100 或 A100 GPU 的 GPU 節(jié)點(diǎn)。
Quantum Espresso
Quantum Espresso measured using CNT10POR8 dataset, precision = FP64。
大數(shù)據(jù)分析基準(zhǔn)測(cè)試 | 針對(duì) 10TB 數(shù)據(jù)集的 30 次分析零售查詢(xún)、ETL、ML、NLP | V100 32GB,RAPIDS/Dask | A100 40GB 和 A100 80GB,RAPIDS/Dask/BlazingSQL
數(shù)據(jù)科學(xué)家需要能夠分析和可視化龐大的數(shù)據(jù)集,并將其轉(zhuǎn)化為寶貴見(jiàn)解。但是,由于數(shù)據(jù)集分散在多臺(tái)服務(wù)器上,橫向擴(kuò)展解決方案往往會(huì)陷入困境。
搭載 A100 的加速服務(wù)器可以提供必要的計(jì)算能力,并能利用大容量顯存、超過(guò) 2 TB/s 的顯存帶寬以及通過(guò) NVIDIA? NVLink? 和 NVSwitch? 實(shí)現(xiàn)的可擴(kuò)展性,處理這些工作負(fù)載。通過(guò)結(jié)合 InfiniBand、NVIDIA Magnum IO? 和 RAPIDS? 開(kāi)源庫(kù)套件(包括用于執(zhí)行 GPU 加速的數(shù)據(jù)分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 數(shù)據(jù)中心平臺(tái)能夠加速這些大型工作負(fù)載,并實(shí)現(xiàn)超高的性能和效率水平。
在大數(shù)據(jù)分析基準(zhǔn)測(cè)試中,A100 80GB 提供的見(jiàn)解吞吐量比 A100 40GB 高兩倍,因此非常適合處理數(shù)據(jù)集大小急增的新型工作負(fù)載。
BERT Large 推理
BERT Large 推理 | 采用稀疏技術(shù)的 NVIDIA TensorRT? (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8。
A100 結(jié)合 MIG 技術(shù)可以更大限度地提高 GPU 加速的基礎(chǔ)設(shè)施的利用率。借助 MIG,A100 GPU 可劃分為多達(dá) 7 個(gè)獨(dú)立實(shí)例,讓多個(gè)用戶都能使用 GPU 加速功能。借助 A100 40GB,每個(gè) MIG 實(shí)例可分配多達(dá) 5GB,而隨著 A100 80GB 顯存容量的增加,此大小可翻倍至 10GB。
MIG 與 Kubernetes、容器和基于服務(wù)器虛擬化平臺(tái)的服務(wù)器虛擬化配合使用。MIG 可讓基礎(chǔ)設(shè)施管理者為每項(xiàng)作業(yè)提供大小合適的 GPU,同時(shí)確保服務(wù)質(zhì)量 (QoS),從而擴(kuò)大加速計(jì)算資源的影響范圍,以覆蓋每位用戶。
性能出色,輕松處理各種工作負(fù)載。
十分適合處理各種工作負(fù)載。
A100 80GB PCIe | A100 80GB SXM | |
---|---|---|
FP64 | 9.7 TFLOPS | |
FP64 Tensor Core | 19.5 TFLOPS | |
FP32 | 19.5 TFLOPS | |
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* | |
BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
INT8 Tensor Core | 624 TOPS | 1248 TOPS* | |
GPU 顯存 | 80GB HBM2 | 80GB HBM2e |
GPU 顯存帶寬 | 1935 GB/s | 2039 GB/s |
最大熱設(shè)計(jì)功耗 (TDP) | 300W | 400W *** |
多實(shí)例 GPU | 最大為 7 MIG @ 5GB | 最大為 7 MIG @ 10GB |
外形規(guī)格 | PCIe 雙插槽風(fēng)冷式或單插槽液冷式 | SXM |
互連 | NVIDIA? NVLink? 橋接器 2 塊 GPU:600 GB/s ** PCIe 4.0:64 GB/s | NVLink:600 GB/s PCIe 4.0:64 GB/s |
服務(wù)器選項(xiàng) | 合作伙伴及配備 1 至 8 個(gè) GPU 的 NVIDIA 認(rèn)證系統(tǒng)? | NVIDIA HGX? A100 合作伙伴和配備 4、8 或 16 塊 GPU 的 NVIDIA 認(rèn)證系統(tǒng) 配備 8 塊 GPU 的 NVIDIA DGX? A100 |
* 采用稀疏技術(shù)
** SXM4 GPU 通過(guò) HGX A100 服務(wù)器主板連接;PCIe GPU 通過(guò) NVLink 橋接器可橋接多達(dá)兩個(gè) GPU
*** 400W TDP(適用于標(biāo)準(zhǔn)配置)。HGX A100-80 GB 自定義散熱解決方案 (CTS) SKU 可支持高達(dá) 500W 的 TDP