Zi 字媒體

【了不起的晶元2】盤點40+公司的深度學習處理器

2021/12/25

yidianzixun

新智元編譯

作者：basicmi

編譯：Neko

【新智元導讀】本文列舉並介紹了現有的幾乎全部深度學習處理器，是值得收藏的超全資料。

Nvidia

GPU

英偉達最新的 GPU NVIDIA TESLA V100 單精度浮點性能達到15 TFlops，在新的 Tensor core 架構達到 120 TFlops，是FP16乘法或FP32累加，或適應ML。
英偉達將8個board包裝在他們的 DGX-1 for 960 Tensor TFlops
Nvidia Volta - 架構看點這篇文章對 Volta 架構做了一些分析

SoC

英偉達提供 NVIDIA DRIVE™PX，這是用於自動駕駛汽車的AI車載計算機和JETSON TX1 / TX2模塊，一個「自動駕駛應用的嵌入式平台」

英偉達的開源DLA

英偉達在GTC2017上宣布 XAVIER DLA 開源。雖然我們現在仍沒有看到有早期的可訪問版本，希望如期在9月份發布。從Nvidia開源深度學習加速器說起這篇文章有更多分析。

AMD

GPU

即將推出的 AMD Radeon Instinct MI25 宣稱 SP16 達到12.3 TFlop，或 FP16 達到 16.6 TFlops。如果你的計算適用Nvidia 的 Tensors，那麼 AMD 可能無法與之抗衡。與 AMD 的 484 GB/s相比，Nvidia的帶寬為900GB/s。

Intel

Nervana

英特爾收購的 Nervana Systems 除了 Nervana Engine ASIC 外還開發 GPU/software 方法。可比性能現在還不清楚。英特爾也計劃通過 Knights Crest 項目整合到Phi平台。NextPlatform 的一篇文章指出Nervana 2017年在28nm上的目標可能是55 TOPS/s。英特爾計劃在12月有一個NervanaCon，所以到時也許會公布第一批成果。

Mobileye EyeQ

Mobileye 目前正在開發第五代SoCEyeQ®5，作為視覺中央計算機執行完全自動駕駛（Level 5）車輛的感測器，將在2020年上路。為了滿足功耗和性能目標，EyeQ®SoC的設計是最先進的VLSI處理技術，第5代降低到7nm FinFET。

Movidius

Movidius VPU 是一個向量處理器陣列。

FPGA

Intel FPGA OpenCL 以及解決方案。

Google TPU

谷歌的TPU在性能上領先GPU，是驅動DeepMind的AlphaGo在圍棋比賽中贏了人類冠軍的硬體。原來的700MHz TPU具有用於8位計算的95 TFlop或16位計算的23TFlop，而僅需40W。這比GPU快得多，但現在比英偉達的V100慢，但不是以每W為基礎比較。新的TPU2被宣稱具有四晶元的TPU，並且可以實現約180 TFlop。每個晶元的性能都翻了一番，達到16位的45 TFlops。你可以看到英偉達的V100正在縮小這一差距。TPU或TPU2都不是開放出售。谷歌正在使其在雲端可用，TPU pod包含64個設備，最高可達11.5 PetaFlop的性能。

其他參考文章：

Google TPU 揭密

Google的神經網路處理器專利

脈動陣列 - 因Google TPU獲得新生

Xilinx

Xilinx提供「從邊緣到雲」的機器學習推理解決方案，並在他們的白皮書中聲稱自己的FPGA最適用於INT8。

雖然FPGA的性能令人印象深刻，但是供應商的較大晶元長期以來價格較高。找到價格和性能之間的平衡是FPGA的主要挑戰。

微軟FPGA

微軟將賭注放在FPGA，可以看這篇文章：「Microsoft Goes All in for FPGAs to Build Out AI Cloud」。

關於微軟FPGA，《連線》發了一篇很好的特寫：「Microsoft Bets Its Future on a Reprogrammable Computer Chip」

關於 FPGA in cloud，有另一篇挺好的參考文章：Inside the Microsoft FPGA-based configurable cloud

Qualcomm

高通公司圍繞ML已經有一段時間，發布了Zeroth SDK和Snapdragon神經處理引擎。高通在Hexagon DSP使用NPE是非常合理的。

Apple

彭博社的報道稱蘋果要做專用晶元，但沒有透露更多細節。不管晶元是不是被蘋果作為一個重要領域，這有助於蘋果與高通競爭。

Core ML是蘋果目前的機器學習應用程序。

ARM

DynamIQ是ARM給予AI時代的答案，雖然它可能不是革命性的設計，但確實是重要的。

ARM還提供了一個開源的Compute Library，其中包含為Arm Cortex-A系列CPU處理器和Arm Mali系列GPU實現軟體函數的綜合集成。

IBM TrueNorth

TrueNorth 是與 DARPA SyNAPSE 程序一起開發的 IBM 的 Neuromorphic CMOS ASIC。

HiSilicon（華為海思）

華為CEO余承東最近在2017年互聯網大會上宣布，華為正在開發AI晶元。

麒麟 for 智能手機

麒麟970可能具有一個嵌入式深度學習加速器。

Mobile Camera SoC

根據 Hi3559A V100ESultra-HD Mobile Camera SoC的簡要數據表，它具有雙核CNN@700 MHz神經網路加速引擎

Cambricon（寒武紀）

寒武紀致力於IP License，晶元服務，Smart Card和智能平台。

Horizon Robotics（地平線機器人）

地平線機器人已公布一個嵌入式人工智慧處理器架構 Brain Processing Unit（BPU）。

Deephi（深鑒科技）

DeePhi Tech在deep compression，編譯工具鏈，深度學習處理單元（DPU）設計，FPGA開發和系統級的優化等方面擁有前沿技術。

Bitmain（比特大陸）

比特大陸正在為AI開發處理器。

Wave Computing

Wave Computing 的Compute Appliance可以在3RU設備上以2.9 PetaOPS/秒的速度運行TensorFlow。

Graphcore

Graphcore在去年年底獲得3000萬美元投資，以支持他們的智能處理單單元（Intelligence Processing Unit，IPU）。

參考：解密又一個xPU：Graphcore的IPU

PEZY Computing K.K.

Pezy-SC 和 Pezy-SC2 分別是 Pezy 開發的1024核和2048核處理器。

自2006年6月以來，該公司的產品頁面消失了。不知道他們投入1億美元的MIMD架構現在如何。當時該架構被描述為每個ASIC具有256個小型DSP或tDSP核，以及適用於35W envelope 的稀疏矩陣處理的ARM控制器。

更多：Tenstorrent、Cerebras、Thinci、Koniku、Adapteva、Knowm、Mythic、Kalray、Brainchip、Groq、Aimotive、Deep Vision、Deep Scale、REM、Leepmind、Krtkl、TeraDeep、KAIST DNPU、Synopsys Embedded Vision、CEVA XM6、VeriSilicon VIP8000、Cadence P5/P6/C5……

以及所有參考文章鏈接，請參看原文GitHub：https://basicmi.github.io/Deep-Learning-Processor-List/

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點