RISC-V Upstartは、ML推論のパフォーマンスとエネルギー効率を目標としています

Machine Learning

大小を問わず、ますます多くのサプライヤーが人工知能ワークロード用のプロセッサーを作るために懸命に取り組んでいます。人工知能と機械学習は、自動化と分析を可能にする重要な要素であり、ローカルデータセンター、パブリッククラウドとプライベートクラウド、成長するエッジスペースにまたがる高度に分散したIT環境でますます重要な役割を果たしています。

人工知能チップ市場は、大規模な確立されたプレーヤーによって支配され続けています。先月のレポートで、市場調査会社のOmdiaは、数年前に機械学習を成長計画の中心として使用したNvidiaが、2020年も最大のサプライヤーであり続け、世界の収益40億米ドルのうち80.6を占めると述べました。 %シェア、うち32億米ドル。 Omdiaは、2026年までに、データセンターとクラウドのAIチップからの世界的な収益が376億米ドルに達すると予測しています。

そのような市場の成長は確かにチップメーカーを引き付けるでしょう。 Intelは2019年に人工知能チップメーカーのHabanaLabsを20億ドルで買収しました。3年前にNervanaSystemsを買収しましたが、それでもその取り組みを加速させたいと考えています。今年の4月、サンディエゴスーパーコンピューターセンターは、データセンターにハバナベースのシステムラックを10台近く設置する計画であると発表しました。

GoogleのTensorProcessor Unit(TPU)、AMD、IBM、ザイリンクスのEdge AI Platform、Amazon、機械学習用のAWS Inferentia AI推論チップなど、AIプロセッサを構築したり、AI機能をチップに注入したりし続ける企業もあります。

言い換えれば、ますます多くの小規模なスタートアップチップメーカーが、パフォーマンスからコスト効率、柔軟性に至るまで、さまざまな分野に焦点を当てて、市場に自分たちのためのスペースを開くことを望んでいます。 Graphcore、Ampere、Blaize、Cerebras、Groq、SambaNovaなど、これらの名前のいくつかは他の名前よりも馴染みがあります。

このリストでエスペラントのテクニックを計算します。同社は2014年に設立され、それ以来3回の資金調達で1億2400万ドルを調達し、4月の最後の資金調達は6100万ドルでした。 エスペラントは2020年12月にET-SoC-1をリリースしました。これは、オープンRISC-Vアーキテクチャに基づく7ナノメートルの機械学習プロセッサです。チップメーカーは、チップには、エネルギー効率の使用によるパフォーマンスの向上に重点を置いて、小さなパッケージに約1,100個のカスタムコアが含まれると述べました。

最近のHotChips 33仮想イベントで、エスペラントの創設者兼エグゼクティブチェアマンのDave Ditzelは、メインプロセッサまたはアクセラレータとして使用でき、既存のデータのニーズに適応するように設計された、いわゆるオンチップスーパーコンピュータの詳細を発表しました。センター。空冷環境での電力効率を改善します。

このチップはTSMCによって製造され、2,400万個のトランジスタを備えており、主に機械学習の推論ワークロード向けに設計されています。

「ハイパースケールデータセンターでの機械学習に推奨されるワークロードには、最も要求の厳しいパフォーマンスとメモリの要件がいくつかあります」とDitzel氏はプレゼンテーションで述べています。 「これらは主にx86サーバーで実行されます。追加のパフォーマンスに対する需要は急速に高まっています。単にデータセンターを増やしてサーバーを購入するのではなく、顧客はインストールしたサーバーの推論パフォーマンスを改善する方法を望んでいます。」

これらのシステムには通常、75〜120ワットの電力バジェットを持つPCIeカードスロットがあります。 Ditzel氏は、要件は基本的にエスペラントの機械学習チップのパラメーターを設定することであると述べました。同社は、最大6つのベンダーのチップを使用し、消費電力が120ワット以下のPCI3ベースのアクセラレータカードを構築する必要があります。

その後、カードのパフォーマンスは「x86ホストCPUのパフォーマンスよりもはるかに高い」必要があり、計算レートは100〜1,000TOPSであると彼は言いました。さらに、8ビット整数は多くの推論に使用できますが、カードは16ビットおよび32ビット浮動小数点データ型もサポートできる必要があります。また、少なくとも100GBのストレージスペースと100MBのオンチップメモリ​​が必要です。

「オフチップメモリ​​のレイテンシーが非常に大きく、処理が停止する可能性があるため、非常に大きく、めったにアクセスされないデータでの計算は困難です」とDitzel氏は述べています。 「最後に、機械学習ワークロードの急速な発展により、固定機能ハードウェアはすぐに時代遅れになるため、より一般的なプログラム可能なソリューションを強くお勧めします。」

エスペラントは、それぞれがベクトルテンソルユニットを備えた1,088個のエネルギー効率の高いET-Minion順序付きコアと、4個のET-Maxion順序なしコアを含むチップを開発しました。 ET-SoC-1は、1億6000万バイトを超えるオンチップSRAM、低電力LPDDR4x DRAMおよびeMMCフラッシュメモリを備えた大容量外部メモリ用のインターフェイス、およびPCIe x8Gen4およびその他のI / Oインターフェイスとの互換性を提供します。

最も重要なことは、チップは100〜200 TOPSのピークレートを駆動し、20ワット未満の電力で動作できることです。つまり、6つのチップの電力バジェットは120ワット未満になります。 ディッツェル氏は、これはチップ設計におけるエスペラントのルートから来ていると述べた。

「他のいくつかのソリューションは巨大なサーマルチップを使用し、アクセラレータカードの電力バジェット全体を使い果たします」と彼は言いました。 「エスペラントのアプローチは、依然として電力バジェットを満たす複数の低電力チップを使用することです。実際、シングルチップパッケージに配置できるピンの数は限られているため、シングルチップソリューションを拡張してメモリ帯域幅を増やすことはできません。エスペラントのアプローチでは、処理とI / Oを複数のチップに分散します。チップを追加すると、パフォーマンスが向上し、メモリ容量が増加し、メモリ帯域幅が増加し、低電力で低コストのDRAMが実現します。ソリューション実用的なソリューションになります。」

シングルチップソリューションはまた、高電力と低効率につながる最高の動作周波数を駆動する傾向があります。 エスペラントは、トランジスタ(特に7nm FinFET)は、低電圧で動作するときにエネルギー効率が高く、それによって動作電力が低下すると考えています。 Ditzel氏は、エスペラントのエンジニアは回路を革新し、RISC-Vコアを変更して、6チップ以下で120ワット以下の消費電力の高性能アクセラレータを作成する必要があると述べました。

動作周波数を1GHzに下げるためにオフにしました。また、動作電圧を少なくとも2倍下げることもできますが、低電圧で堅牢に動作させることは困難です。

「回路とアーキテクチャにいくつかの変更を加える必要がある」と彼は語った。 「ギガヘルツおよび低電圧での動作では、パイプラインステージごとにごく少数のゲートを設計する必要があります。…エスペラントはL1キャッシュおよびレジスタファイルに回路およびアーキテクチャの変更を加える必要があります。これらの変更を行っても、50倍以上のギャップがあります。 。この違いを補う唯一の方法は、動的スイッチング容量、動的スイッチング容量、各トランジスタとワイヤの容量、およびこれらのスイッチの周波数を減らすことです。これらを減らすには、非常に単純なアーキテクチャが必要です。 RISC-Vは、商業的に実行可能な命令セットの中で最も少ない論理ゲートで実装できるため、基本的な命令セットの優れたソリューションです。ベクトルテンソルユニットも慎重に設計する必要があります。 「」

Ditzelは、エスペラントチップの電力効率を示すグラフを示し、さまざまな動作電圧で1秒あたりのワットあたりの外挿数を測定しました。

ET-Minion Tensorコアは最低電圧8.5ワットで動作するため、エスペラントは、単一の118ワットチップソリューションの2.5倍のパフォーマンス電力効率である120ワットの制限をはるかに下回る6つのチップをアクセラレータカードにパックできます。 275ワットの20倍です。

Ditzelはパフォーマンスの比較も示しました。ベンチマークテストでは、エスペラントはMLPerfディープラーニング推奨モデルを使用して、チップをIntelの8ウェイXeon Platinum8380HサーバープロセッサおよびNvidiaのA10およびT4GPUと比較しました。彼は、以下に示すように、エスペラントチップのパフォーマンスはIntelプロセッサの59倍、ワットあたりのパフォーマンスの123倍であり、2つのNVIDIAGPUよりも優れていると述べました。 Ditzelによると、ResNet-50推論ベンチマークを使用した場合にも同様の結果が得られます。

物理設計では、エスペラントはネイバーフッドと呼ばれる8つのET-Minionコアをグループ化しました。これにより、8つのコアが各コアを持つ代わりに大きな命令キャッシュを共有するなど、アーキテクチャの改善を通じて電力を節約できました。独自の命令キャッシュ。各オクタコアネイバーフッドは32コアのミニオンシャイアを形成し、各シャイアのグリッド相互接続によって接続されます。

Ditzelは、6,558のRISC-Vコア、最大192 GBのRAM、最大822 GB /を提供するOpenComputing Project(OCP)Glacier PointV2設計をサポートするシステムを含むシステムでET-SoC-1を使用する方法について話しました。 ■DRAM帯域幅。 Ditzelはそれをそりとラックに外挿し、OCPデータセンターは数百万のエスペラントコアを収容できると述べました。

同社は、C ++、PyTorch、Caffe2、MXNetなどの機械学習フレームワークをサポートしています。 ディッツェル氏によると、エスペラントは最近、研究所でシリコンを受け取り、テストの準備をしているという。早期アクセスプログラムは今年後半に予定されています。

Leave a Reply

Your email address will not be published. Required fields are marked *