将来有望なトラックの展望:分散コンピューティングパワー市場(パート1)

上級1/4/2024, 6:39:54 PM
この記事では、分散コンピューティングパワー市場の可能性と課題、それが直面する困難を強調し、GensynとTogether.AIの2つの典型的なプロジェクトを紹介しています。

前書き

GPT-3の誕生以来、生成AIは驚異的な性能と幅広いアプリケーションシナリオにより、人工知能分野において爆発的な転換点を迎えました。これにより、テックジャイアントがAIの分野に群がっています。しかし、この急増には多くの問題が伴います。大規模言語モデル(LLMs)のトレーニングと推論操作には多くの計算パワーが必要です。これらのモデルのイテレーションアップグレードに伴い、計算パワーの需要とコストは指数関数的に増加しています。GPT-2とGPT-3を例に挙げると、GPT-2とGPT-3のパラメータ数の差は1166倍です(GPT-2は1億5000万パラメータ、GPT-3は1750億)。GPT-3の単一のトレーニングセッションのコストは、当時の公共GPUクラウドの価格モデルに基づいて計算され、最大1200万ドルに達します。これはGPT-2の200倍です。実際の使用では、すべてのユーザークエリに推論計算が必要です。今年初めの1300万人の独立ユーザーを基にすると、チップの需要は3万A100 GPU以上になります。初期投資コストは莫大な8億ドルで、推定されるモデル推論コストは1日70万ドルになります。

AI業界全体が直面している深刻な課題となっているのは、計算能力の不足と高コストです。興味深いことに、同様の問題がブロックチェーン業界にも見られるようです。一方で、第4回ビットコインのハーフィングとETFの承認が目前に迫っています。将来の価格が上昇するにつれて、マイナーの計算ハードウェアへの需要は必然的に大幅に増加するでしょう。一方で、ゼロ知識証明(ZKP)技術は急成長しており、Vitalikは何度もZKが次の10年間のブロックチェーン分野への影響がブロックチェーンそのものと同じくらい重要になるだろうと強調しています。この技術はブロックチェーン業界の将来に希望を抱かせますが、ZKはAI同様、複雑な計算プロセスによる証明の生成に多くの計算能力と時間を消費します。

将来、コンピューティングパワーの不足は避けられなくなるでしょう。したがって、分散コンピューティングパワー市場は利益をもたらすビジネスベンチャーとなるでしょうか?

分散コンピューティングパワーマーケットの定義

分散コンピューティングパワー市場は実際には分散クラウドコンピューティングトラックに等しいですが、個人的にはこの用語は後で議論される新しいプロジェクトをより適切に表すと思います。分散コンピューティングパワー市場は、DePIN(分散型物理インフラネットワーク)のサブセットと見なすべきであり、その目標は、誰もがアイドルのコンピューティングパワー資源をトークンによってインセンティブを受け取りながら提供できるオープンなコンピューティングパワー市場を作成することであり、主にB2Bクライアントや開発者コミュニティにサービスを提供しています。より馴染みのあるプロジェクトに関しては、分散GPUレンダリングソリューションに基づくRender Networkや、クラウドコンピューティングのための分散型ピアツーピアマーケットプレイスであるAkash Networkなどがこのトラックに属しています。

以下のテキストは、基本的な概念から始まり、その後、このトラックの下で3つの新興市場について論じます: AGIコンピューティングパワーマーケット、Bitcoinコンピューティングパワーマーケット、およびZKハードウェアアクセラレーションマーケットにおけるAGIコンピューティングパワーマーケット。 後者2つについては、「有望なトラックの展望:分散コンピューティングパワーマーケット(パート2)」で議論されます。

コンピューティングパワーの概要

コンピューティングパワーの概念はコンピュータの発明にさかのぼることができます。元のコンピュータは機械装置を使用して計算タスクを完了し、コンピューティングパワーはその機械装置の計算能力を指しました。コンピュータ技術の発展とともに、コンピューティングパワーの概念も進化してきました。今日のコンピューティングパワーは通常、コンピュータハードウェア(CPU、GPU、FPGAなど)とソフトウェア(オペレーティングシステム、コンパイラ、アプリケーションなど)の協力作業を指します。

定義

コンピューティングパワーとは、コンピュータや他のコンピューティングデバイスが一定期間内に処理できるデータ量、または完了できる計算タスクの数を指します。コンピューティングパワーは通常、コンピュータや他のコンピューティングデバイスの性能を表すために使用されます。これはコンピューティングデバイスの処理能力の重要な指標です。

メトリクス

コンピューティングパワーは、コンピューティング速度、エネルギー消費量、コンピューティング精度、並列性など、さまざまな方法で測定することができます。コンピューティング分野では、よく使用されるコンピューティングパワーの指標には、FLOPS(秒あたりの浮動小数点演算)、IPS(秒あたりの命令)、TPS(秒あたりのトランザクション)などがあります。

FLOPS は、浮動小数点演算 (精度の問題と丸め誤差を考慮する必要がある小数点を含む数学演算) を処理するコンピューターの能力を測定します。これは、コンピューターが 1 秒間に完了できる浮動小数点演算の数を測定します。FLOPSは、コンピューターの高性能コンピューティング能力の尺度であり、スーパーコンピューター、高性能コンピューティングサーバー、グラフィックスプロセッシングユニット(GPU)などのコンピューティング能力を測定するために一般的に使用されます。たとえば、コンピューター システムに 1 TFLOPS (1 秒あたり 1 兆回の浮動小数点演算) がある場合、1 秒あたり 1 兆回の浮動小数点演算を完了できることを意味します。

IPSは、コンピューターが命令を処理する速度を測定します。コンピューターが1秒間に実行できる命令の数を示すものであり、コンピューターの単一命令パフォーマンスの尺度です。通常、中央演算処理装置(CPU)のパフォーマンスを測定するために使用されます。たとえば、IPSが3 GHz(1秒間に30億回の命令を実行)のCPUは、1秒間に30億回の命令を実行できることを意味します。

TPSは、コンピューターが取引を処理する能力を測定するものです。これは、コンピューターが1秒間にどれだけの取引を完了できるかを測定し、通常はデータベースサーバーのパフォーマンスを測定するために使用されます。たとえば、データベースサーバーのTPSは1,000であり、1秒あたり1,000件のデータベース取引を処理できることを意味します。

さらに、推論速度、画像処理速度、音声認識精度など、特定のアプリケーションシナリオ用のコンピューティングパワーメトリクスがあります。

コンピューティングパワーの種類

GPUコンピューティングパワーとは、グラフィックス処理ユニット(GPU)の計算能力を指します。中央処理ユニット(CPU)とは異なり、GPUは画像や動画などのグラフィカルデータを処理するために特別に設計されたハードウェアです。GPUには多数の処理ユニットと効率的な並列計算能力があり、多数の浮動小数点演算を同時に実行できます。GPUは元々ゲームグラフィックス処理用に設計されていたため、複雑なグラフィカル計算をサポートするために、通常、より高いクロック速度と大きなメモリ帯域幅を持っています。

CPUとGPUの違い

アーキテクチャ:CPUとGPUは異なるコンピューティングアーキテクチャを持っています。CPUには通常1つまたは複数のコアがあり、それぞれがさまざまな異なる操作を実行できる汎用プロセッサです。一方、GPUには多数のストリームプロセッサとシェーダーがあり、これらは画像処理に関連する計算を実行するために特別に使用されています。

並列コンピューティング:通常、GPUはより高い並列コンピューティング能力を持っています。 CPUには限られた数のコアがあり、各コアは1つの命令しか実行できませんが、GPUには複数の命令や操作を同時に実行できる数千のストリームプロセッサがある場合があります。そのため、GPUは一般的に、機械学習やディープラーニングなどの広範な並列計算を必要とする並列コンピューティングタスクを実行するために、CPUよりも適しています。

プログラミングデザイン:GPU向けのプログラミングは、CPUよりも複雑です。GPUの並列コンピューティング能力を活用するには、特定のプログラミング言語(CUDAやOpenCLなど)や特定のプログラミング技術が必要です。一方、CPUのプログラミングはより簡単で、汎用のプログラミング言語やツールを使用できます。

コンピューティングパワーの重要性

産業革命の時代には、石油が世界の生命線であり、あらゆる産業に浸透しました。今後のAI時代には、コンピューティングパワーが世界の「デジタルオイル」になります。主要企業がAIチップの熾烈な追求やNvidiaの株価が1兆ドルを超えるなど、中国からのハイエンドチップへの米国の最近の封鎖を含むコンピューティングパワーの重要性は自明です。コンピューティングパワーは次の時代の商品となります。

人工一般知能の概要

人工知能(AI)は、人間の知能をシミュレートし、拡張し、拡大するための理論、方法、技術を研究し、開発し、適用する新しい技術科学です。1950年代から1960年代に発祥し、半世紀以上にわたる進化の過程を経て、象徴主義、接続主義、エージェントベースのアプローチを通じて入り組んだ発展を経験してきました。今日、新興汎用技術として、AIは社会生活やすべての産業において根本的な変化をもたらしています。現在、生成型AIのより具体的な定義は、人工一般知能(AGI)であり、幅広い理解能力を持ち、人間レベル以上の知能でタスクを実行し、様々なドメインで運用できる人工知能システムです。AGIには基本的に、ディープラーニング(DL)、ビッグデータ、そして十分なコンピューティングパワーの3つの要素が必要です。

ディープラーニング

ディープラーニングは機械学習(ML)のサブフィールドであり、ディープラーニングアルゴリズムは人間の脳をモデルにしたニューラルネットワークです。例えば、人間の脳には何百万もの相互接続されたニューロンがあり、情報を学習し処理するために協力しています。同様に、ディープラーニングニューラルネットワーク(または人工ニューラルネットワーク)は、コンピュータ内で協力して動作する複数の層から成る人工ニューロンで構成されています。これらの人工ニューロン、ノードとして知られるものは、データを処理するために数学的計算を使用します。人工ニューラルネットワークは、これらのノードを使用して複雑な問題を解決するディープラーニングアルゴリズムです。

ニューラルネットワークは、入力層、隠れ層、および出力層に分割することができます。これら異なる層間の接続は、パラメータで構成されています。

入力レイヤー:入力レイヤーはニューラルネットワークの最初のレイヤーであり、外部入力データを受け取る責任があります。入力レイヤーの各ニューロンは、入力データの特徴に対応しています。例えば、画像処理では、各ニューロンが画像内のピクセルの値に対応することがあります。

隠れ層:入力層はデータを処理し、ネットワーク内のより深い層にそれを渡します。これらの隠れ層は、異なるレベルで情報を処理し、新しい情報を受け取ったときにその振る舞いを調整します。ディープラーニングネットワークには数百の隠れ層があることがあり、これにより、異なる視点から問題を分析することができます。例えば、未知の動物の画像が与えられ、それを分類する必要がある場合、既知の動物と比較することができます。たとえば、耳の形、脚の数、瞳孔の大きさからどのような動物かを判断することができます。ディープニューラルネットワークの隠れ層は、同様の方法で機能します。ディープラーニングアルゴリズムが動物の画像を分類しようとしている場合、各隠れ層は動物の異なる特徴を処理し、正確に分類しようとします。

出力層: 出力層はニューラルネットワークの最後の層であり、ネットワークの出力を生成する責任があります。出力層の各ニューロンは、可能な出力カテゴリや値を表します。例えば、分類問題では、出力層の各ニューロンがカテゴリに対応するかもしれませんが、回帰問題では、出力層には予測結果を表す値を持つニューロンが1つだけあるかもしれません。

パラメータ:ニューラルネットワークでは、異なる層間の接続は、トレーニングプロセス中に最適化される重みとバイアスによって表され、データ内のパターンを正確に識別し、予測するためのネットワークを可能にします。パラメータの増加は、ニューラルネットワークのモデル容量を向上させることができます。つまり、データ内の複雑なパターンを学習し表現する能力です。ただし、対応して、パラメータの増加は、コンピューティングパワーの需要を増加させます。

ビッグデータ

効果的に訓練されるためには、ニューラルネットワークは通常、複数のソースからの大規模で多様な高品質のデータが必要です。このデータは、機械学習モデルの訓練と検証の基礎となります。ビッグデータを分析することで、機械学習モデルはデータ内のパターンや関係を学習し、それに基づいて予測や分類を行うことができます。

大規模なコンピューティングパワー

ニューラルネットワークの重要な計算能力の需要は、複雑な多層構造、多数のパラメータ、膨大なデータの処理、反復的なトレーニング手法(トレーニングフェーズ中、モデルは各層ごとに前方および後方の伝播計算を繰り返し行い、活性化関数、損失関数、勾配、および重み更新の計算を含む)、高精度計算の必要性、並列計算能力、最適化および正則化技術、モデルの評価および検証プロセスなど、複数の側面から生じています。ディープラーニングが進むにつれ、AGI向けの大量の計算能力が毎年約10倍増加しています。現時点での最新モデルであるGPT-4は、1.8兆のパラメータを含み、単一のトレーニングコストは6000万ドル以上、計算能力要件は2.15e25 FLOPS(21.5クインティリオンの浮動小数点演算)です。将来のモデルトレーニングの計算能力の需要はまだ拡大中であり、新しいモデルが増加するペースも増しています。

AIコンピューティングパワー経済

将来の市場規模

最も権威のある推計によると、国際データコーポレーション(IDC)、浪潮情報、清華大学グローバル産業研究所が共同で編纂した「2022-2023年度グローバルコンピューティングパワー指数評価報告書」によると、2022年の世界のAIコンピューティング市場規模は195億ドルから2026年に346.6億ドルに増加する見通しです。生成的AIコンピューティング市場は、2022年の8.2億ドルから2026年に109.9億ドルに成長すると予測されています。生成的AIコンピューティングの全体のAIコンピューティング市場占有率は4.2%から31.7%に上昇する見込みです。

コンピューティングパワー経済の独占

AI GPUの製造は、NVIDIAによって独占され、非常に高価(最新のH100は1台4万ドルで販売されています)。 GPUがリリースされると、シリコンバレーのテックジャイアンドによってすぐに買い占められます。これらのデバイスの一部は、彼ら自身の新しいモデルのトレーニングに使用されます。残りは、Google、Amazon、Microsoftなどが所有するクラウドプラットフォームを介してAI開発者に貸し出され、サーバ、GPU、TPUなどの多くの計算リソースを制御しています。コンピューティングパワーは、これらの巨大企業によって独占された新しいリソースとなりました。多くのAI開発者は、追加料金なしに専用のGPUを購入できない場合さえあります。最新の機器を使用するためには、開発者はAWSやMicrosoftのクラウドサーバを借りる必要があります。財務報告によると、この事業は非常に高い利益を上げています。AWSのクラウドサービスの総利益率は61%を誇り、Microsoftの総利益率はさらに高い72%です。

ですから、この中央集権的な権威とコントロールを受け入れ、コンピューティングリソースに72%の利益率を支払わなければならないのでしょうか?Web2を独占した巨大企業たちは次の時代も支配するのでしょうか?

分散型AGIコンピューティングパワーの課題

独占禁止法に関しては、分散化が通常最適な解決策と見なされます。既存のプロジェクトを見ると、DePINストレージプロジェクトとRDNRのようなプロトコルを組み合わせることで、AIに必要な大規模なコンピューティングパワーを実現できるでしょうか?答えはノーです。ドラゴンを討伐する道はそんなに単純なものではありません。初期のプロジェクトは特にAGIコンピューティングパワー向けに設計されておらず、実現可能ではありません。ブロックチェーン上でのコンピューティングパワーの導入には少なくとも以下の5つの課題があります。

  1. 作業検証:経済的インセンティブを提供する完全に信頼できるコンピューティングネットワークを構築するためには、ネットワークが深層学習の演算が実際に実行されたかどうかを検証する方法を持っている必要があります。 ここでの中心的な問題は深層学習モデルの状態依存性です。これらのモデルでは、各層の入力は前の層からの出力に依存します。 これはつまり、前の層のすべての層を考慮に入れずにモデル内の単一の層を検証することはできないということです。 各層の計算は、すべての前の層の結果に基づいています。 したがって、特定のポイント(特定の層など)で完了した作業を検証するには、モデルの最初からその特定のポイントまでのすべての作業を実行する必要があります。

  2. 市場: 新興市場として、AIコンピューティングパワー市場は、コールドスタートの問題など供給と需要のジレンマに直面しています。市場が成功裏に成長するためには、供給と需要の流動性を最初から大まかに一致させる必要があります。コンピューティングパワーの潜在的な供給を捉えるためには、参加者にはそのコンピューティングリソースと引き換えに明確なインセンティブが提供されなければなりません。市場は完了した計算を追跡し、適時にプロバイダーに支払うメカニズムが必要です。従来のマーケットプレイスでは、仲介業者が管理やオンボーディングなどのタスクを処理し、最低支払い閾値を設定することで運用コストを削減しています。ただし、市場規模を拡大する際にはこのアプローチは高コストです。経済的に捕捉できる供給のわずかな部分のみがあり、市場がさらに成長できない限界均衡状態に至ります。

  3. 停止問題:停止問題は、計算理論における基本的な問題であり、与えられた計算タスクが有限時間で終了するか無期限に実行されるかを決定することを含みます。この問題は決定不能であり、任意の計算が有限時間で停止するかどうかを予測できる普遍的なアルゴリズムは存在しないことを意味します。例えば、Ethereum上でのスマートコントラクトの実行も同様の停止問題に直面しています。スマートコントラクトの実行にどれだけの計算リソースが必要か、あるいはそれが合理的な時間内に完了するかを事前に決定することは不可能です。

(深層学習の文脈では、モデルとフレームワークが静的グラフ構築から動的な構築と実行に切り替わるため、この問題はより複雑になります。)

  1. プライバシー:プロジェクトチームにとって、プライバシーに配慮した設計と開発は必須です。公開データセットで機械学習の大規模な研究が可能ですが、モデルのパフォーマンスを向上させ、特定のアプリケーションに適応させるためには、通常、独自のユーザーデータでモデルを微調整する必要があります。この微調整プロセスには個人データの処理が関わることがあり、そのためにはプライバシー保護の要件が考慮される必要があります。

  2. 並列化:これは現在のプロジェクトの実現不可能性の主要な要因です。 深層学習モデルは、通常、専用アーキテクチャを備えた大規模なハードウェアクラスター上で並列にトレーニングされ、非常に低遅延でトレーニングされます。分散コンピューティングネットワーク内のGPUは、頻繁なデータ交換による遅延が発生し、最も遅いGPUのパフォーマンスに制限される可能性があります。コンピューティングソースが信頼できず信頼できない場合、異種並列化を実現する方法は解決する必要のある問題です。現在の実現可能な方法は、Switch Transformersなどのトランスフォーマーモデルを介して並列化を実現することであり、これらは高度に並列化された特性を持っています。

ソリューション:分散型AGIコンピューティングパワーマーケットにおける現在の試みはまだ初期段階にありますが、分散型ネットワークのコンセンサス設計と分散型コンピューティングパワーネットワークのモデルトレーニングと推論における実装を初期に解決した2つのプロジェクトがあります。以下では、GensynとTogetherを例にとって、分散型AGIコンピューティングパワーマーケットの設計手法と課題を分析します。

Gensyn

Gensynは、まだ構築段階にあるAGIコンピューティングパワーマーケットであり、分散型の深層学習コンピューティングのさまざまな課題を解決し、現在の深層学習に関連するコストを削減することを目的としています。Gensynは基本的に、Polkadotネットワークに基づいた第一層のステークプルーフプロトコルであり、計算タスクを解決する者(計算タスクを解決する者)に対して、彼らのアイドルGPUデバイスをコンピューティングおよび機械学習タスクを実行するためにスマートコントラクトを介して直接報酬を支払います。

前の質問に戻ると、真に信頼できるコンピューティングネットワークを構築する核心は、完了した機械学習作業の検証にあります。これは、複雑な問題であり、複雑性理論、ゲーム理論、暗号学、最適化の交差点を見つける必要があります。

Gensynは、ソルバーが完了した機械学習タスクの結果を提出するというシンプルなソリューションを提案しています。これらの結果が正確であることを確認するために、別の独立した検証者が同じ作業の再実行を試みます。このアプローチは、1 つの検証者のみがタスクを再実行するため、単一レプリケーションと呼ぶことができます。これは、元の作品の正確性を検証するための追加の作品が1つだけあることを意味します。ただし、作業を検証する人が元の要求者ではない場合、信頼の問題は依然として存在します。検証者自身が正直ではない可能性があり、彼らの仕事は検証される必要があります。これは、作業を検証する人が最初の要求者でない場合、作業を検証するために別の検証者が必要になるという潜在的な問題につながります。しかし、この新しいベリファイアも信頼できない可能性があるため、作業を検証するために別のベリファイアが必要になり、それが永遠に続き、無限のレプリケーションチェーンが作成される可能性があります。ここでは、3つの重要な概念を紹介し、それらを織り交ぜて、無限連鎖問題を解決するための4つの役割を持つ参加者システムを構築する必要があります。

確率的学習証明: 勾配ベースの最適化プロセスからのメタデータを使用して、完了した作業の証明書を構築します。特定の段階を複製することにより、これらの証明書は迅速に検証され、作業が期待通りに完了したことを確認できます。

グラフベースの精確な位置決めプロトコル:マルチグラニュラリティ、グラフベースの精確な位置決めプロトコルと、クロス評価者の一貫した実行を使用することで、検証作業の再実行と比較を可能にし、一貫性を確保します。最終的には、ブロックチェーン自体によって確認されます。

Truebitスタイルのインセンティブゲーム:ステークとスラッシングを利用して、経済的に合理的な参加者が正直に行動し、予想されるタスクを実行することを確実にするインセンティブゲームを構築します。

参加者システムは、提出者、ソルバー、検証者、および告発者から構成されています。

提出者:

サブミッターは、システムの最終ユーザーであり、計算されるタスクを提供し、完了した作業量を支払うユーザーです。

ソルバー:

ソルバーはシステムの主要な作業者であり、モデルのトレーニングを実行し、検証者によってチェックされる証明を生成します。

検証者:

検証者は、非決定論的なトレーニングプロセスと決定論的な線形計算をリンクさせるための鍵であり、ソルバーの証拠の一部を複製し、期待される閾値との距離を比較します。

内部告発者:

告発者は、検証者の作業をチェックし、懸賞金を受け取ることを期待して挑戦を提起する最後の防衛ラインです。

システム運用

プロトコルによって設計されたゲームシステムは、8つのステージを経て、タスクの提出から最終的な検証までの全プロセスを完了するために、4つの主要な参加者役割をカバーしています。

タスク提出:タスクは3つの特定の情報で構成されています:

タスクとハイパーパラメータを記述するメタデータ;

モデルバイナリファイル(または基本アーキテクチャ);

公開可能な、事前に処理されたトレーニングデータ。

タスクを提出するために、提出者はタスクの詳細を機械可読形式で指定し、モデルバイナリファイル(または機械可読アーキテクチャ)と前処理済みトレーニングデータの公開可能な場所と共にチェーンに提出します。公開データはAWSのS3などのシンプルオブジェクトストレージに保存するか、IPFS、Arweave、またはSubspaceなどの分散ストレージに保存することができます。

プロファイリング:プロファイリングプロセスは、学習の検証のための基準距離閾値を確立します。検証者は定期的にプロファイリングタスクを取得し、学習証明の比較のための変異閾値を生成します。閾値を生成するために、検証者は異なるランダムシードを使用してトレーニングの一部を決定論的に実行し、何度も再実行し、自分自身の証明を生成してチェックします。このプロセス中に、検証者は非決定論的なソリューションの全体的な期待距離閾値を確立します。この閾値は、検証に使用できます。

トレーニング:プロファイリング後、タスクは公開タスクプールに入ります(EthereumのMempoolに類似)。ソルバーを選択してタスクを実行し、タスクプールからタスクを削除します。ソルバーは、タスクを実行する際に、提出者と提供されたモデルおよびトレーニングデータに基づいて、定期的にポイントをチェックしてメタデータ(パラメータを含む)を保存し、学習の証明を生成します。トレーニングタスクを実行する際、ソルバーは、最適化ステップを可能な限り正確に複製できるように、検証者が後続の最適化ステップを再現できるように、定期的にポイントをチェックし、メタデータ(パラメータを含む)を保存します。

プルーフ生成:ソルバーは定期的にモデルの重みまたは更新と、重みの更新を生成するために使用されたサンプルを識別するためのトレーニングデータセットの対応するインデックスを保存します。チェックポイントの頻度は、より強力な保証を提供するか、ストレージスペースを節約するために調整できます。プルーフは「スタック可能」であり、重みを初期化するためにランダム分布から開始されるか、または独自のプルーフを使用して生成された事前トレーニング済みの重みから開始されることができます。これにより、プロトコルは証明済みの事前トレーニング済みの基本モデルのセットを構築し、より特定のタスクに適応させることができます。

証明の検証:タスクが完了すると、ソルバーはチェーン上でタスク完了を登録し、検証者がアクセスできる公開可能な場所に学習の証拠を表示します。検証者は公開タスクプールから検証タスクを取得し、一部の証明を再実行し距離計算を実行します。次に、プロファイリングステージ中に計算された閾値とともに、チェーンは結果の距離を使用して、検証が証明と一致するかどうかを判断します。

グラフベースのピンポイントチャレンジ:内部告発者は、学習の証明を検証した後、検証者の作業を複製して、検証作業自体が正しく実行されたかどうかを確認できます。内部告発者は、検証が誤って実行されたと考える場合(悪意があるかどうかにかかわらず)、報酬を求めて仲裁に異議を申し立てることができます。この報酬は、ソルバーとバリデーターの入金(真陽性の場合)、または宝くじプールのボーナス(偽陽性の場合)から得ることができ、チェーン自体を使用して仲裁が行われます。内部告発者(その場合は検証者として行動する)は、適切な報酬を受け取ることを期待している場合にのみ、作業を検証し、その後異議を唱えます。実際には、これは、内部告発者が他のアクティブな内部告発者の数に基づいてネットワークに参加および離脱することが期待されていることを意味します(つまり、ライブデポジットとチャレンジ)。したがって、内部告発者に期待されるデフォルトの戦略は、他の内部告発者が少ないときにネットワークに参加し、デポジットを投稿し、アクティブなタスクをランダムに選択し、検証プロセスを開始することです。1つのタスクの後、彼らは別のランダムなアクティブなタスクを取得し、内部告発者の数が決定された支払いしきい値を超えるまで繰り返し、その時点で状況が再び逆転するまでネットワークを離れます(または、ハードウェアの能力に基づいてネットワーク内の別の役割(検証者またはソルバー)に切り替えます)。

契約仲裁:検証者が告発者から挑戦されると、争われた操作や入力の場所を特定するためにチェーンとプロセスに入り、最終的にチェーンが最終的な基本操作を実行し、挑戦が正当化されているかどうかを決定します。告発者を正直に保ち、検証者のジレンマを克服するために、ここでは定期的な強制エラーとジャックポット支払いが導入されています。

決済:決済プロセス中に、参加者は確率的および決定論的なチェックの結論に基づいて支払われます。前回の検証とチャレンジの結果に応じて、異なる支払シナリオが発生します。作業が正しく実行され、すべてのチェックが合格した場合、ソリューションプロバイダーと検証者の両方が実行された操作に基づいて報酬を受け取ります。

プロジェクトブリーフレビュー

Gensynは、ネットワーク内の乖離を指摘することで、迅速なエラーの特定と修正を可能にする、検証層とインセンティブ層に洗練されたゲーム理論システムを設計しています。しかし、現行システムにはまだ多くの詳細が欠けています。例えば、報酬とペナルティがあまりにも高すぎないようにパラメータを設定する方法はどうですか?ゲーム理論的側面での極端なシナリオやソルバーの異なるコンピューティングパワーを考慮しましたか?現行のホワイトペーパーのバージョンには、異種並列実行の詳細な説明がありません。Gensynにはまだまだ道のりがあります。

Together.ai

Together.aiは、大規模なモデル向けのオープンソースで分散型のAI計算ソリューションに焦点を当てる企業です。その目標は、誰もがどこからでもAIにアクセスできるようにすることです。厳密に言えば、Togetherはブロックチェーンプロジェクトではありませんが、分散型AGI計算ネットワーク内のレイテンシーの問題を予備的に解決しています。したがって、以下の記事ではTogetherのソリューションのみを分析し、プロジェクト自体を評価していません。

分散ネットワークがデータセンターよりも100倍遅い場合、大規模モデルのトレーニングと推論をどのように実現するか?

分散ネットワークに参加するGPUの分配を想像してみましょう。これらのデバイスは、異なる大陸や都市に分散配置され、それぞれが異なる遅延と帯域幅で接続する必要があります。下の図に示すように、シミュレートされた分散シナリオでは、北アメリカ、ヨーロッパ、アジアに位置するデバイスが、それらの間で異なる帯域幅と遅延を持っています。これらを効果的にリンクするためには、何をする必要がありますか?

分散トレーニング計算モデリング:以下の図は、複数のデバイス間でベースモデルをトレーニングする状況を示しており、3種類の通信(フォワードアクティベーション、バックワードグラデーション、横方向通信)が特徴です。

通信帯域幅と待機時間を組み合わせると、並列処理の2つの形態が考慮される必要があります: パイプライン並列処理とデータ並列処理。これは、マルチデバイスシナリオにおける3種類の通信に対応しています。

パイプライン並列処理では、モデルのすべてのレイヤーが複数のステージに分割され、各デバイスが1つのステージを処理し、連続するレイヤー(複数のTransformerブロックなど)のシーケンスとなります。順伝播の間、活性化は次のステージに渡され、逆伝播の間、活性化の勾配は前のステージに戻されます。

データ並列処理では、デバイスは異なるマイクロバッチの勾配を独立して計算しますが、これらの勾配を通信を介して同期する必要があります。

スケジューリング最適化:

分散環境では、トレーニングプロセスは通常、通信によって制約されます。スケジューリングアルゴリズムは、一般的に、高速な接続を持つデバイスに、広範な通信を必要とするタスクを割り当てます。タスク間の依存関係とネットワークの異質性を考慮すると、特定のスケジューリング戦略のコストをモデル化することが最初に必要です。トレーニングベースモデルの複雑な通信コストを捉えるために、Togetherは新しい形式を提案し、グラフ理論を使用してコストモデルを2つのレベルに分解します。

グラフ理論は、グラフ(ネットワーク)の性質と構造を研究する数学の一分野です。グラフは頂点(ノード)と辺(ノードをつなぐ線)から構成されます。グラフ理論の主な目的は、グラフの連結性、彩色、およびグラフ内の経路やサイクルの性質など、さまざまな性質を研究することです。

最初のレベルはバランスの取れたグラフ分割の問題です(グラフの頂点集合をいくつかの等しいまたはほぼ等しい大きさの部分集合に分割するときに、部分集合間のエッジの数を最小限に抑える)。この分割では、各部分集合が分割を表し、データ並列性の通信コストを最小限に抑えるために、分割間のエッジを減らすことで通信コストが低減されます。

第2レベルは、グラフのマッチングと巡回セールスマン問題(グラフのマッチングと巡回セールスマン問題の要素を組み合わせた組合せ最適化問題)を組み合わせた組合せ最適化問題を含む。グラフのマッチング問題は、グラフ内でコストを最小化または最大化するマッチングを見つけることを含む。巡回セールスマン問題は、グラフ内のすべてのノードを訪れる最短経路を求め、それがパイプライン並列処理の通信コストに対応している。

上記の図はプロセスの概略図です。実際の実装には複雑な計算が関わるため、図に記載されているプロセスは理解しやすくするために簡略化されています。詳細な実装については、Togetherの公式ウェブサイトのドキュメントを参照してください。

一連のデバイスDD、通信遅延(行列AA)および帯域幅(行列BB)が不確定な状況を想定します。デバイスセットDDに基づいて、まずバランスの取れたグラフパーティションを生成します。各パーティションまたはデバイスグループには、おおよそ同数のデバイスが含まれ、すべてが同じパイプラインステージを処理します。これにより、データ並列処理中に各デバイスグループが同様の作業量を実行することが保証されます。通信遅延と帯域幅に基づいて、式を使用してデバイスグループ間でデータを転送する「コスト」を計算できます。各バランスの取れたグループを統合して完全に接続された粗いグラフを作成し、各ノードがパイプラインステージを表し、エッジが2つのステージ間の通信コストを表します。通信コストを最小限に抑えるために、マッチングアルゴリズムが使用されて、どのデバイスグループが協力して作業すべきかが決定されます。

さらなる最適化のために、この問題はオープンループ巡回セールスマン問題としてモデル化することもできます(オープンループとは、経路のスタート地点に戻る必要がないことを意味します)。すべてのデバイス間でデータを転送するための最適なパスを見つけるために。最後に、Togetherは革新的なスケジューリングアルゴリズムを使用して、与えられたコストモデルに対する最適な割り当て戦略を見つけ、通信コストを最小化し、訓練スループットを最大化します。テストによると、このスケジューリング最適化の下でネットワークが100倍遅くなっても、エンドツーエンドの訓練スループットは約1.7〜2.3倍遅くなるだけです。

通信圧縮最適化:

通信圧縮の最適化のために、TogetherはAQ-SGDアルゴリズムを導入しました(詳細な計算プロセスについては、論文「Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees」を参照してください)。AQ-SGD アルゴリズムは、低速ネットワーク上でのパイプライン並列学習中の通信効率の問題に対処するために設計された新しい活性化圧縮手法です。AQ-SGDは、活性化値を直接圧縮する従来の方法とは異なり、異なる期間における同じトレーニングサンプルの活性化値の変化を圧縮することに重点を置いています。このユニークな手法は、興味深い「自己実行型」のダイナミクスを導入し、トレーニングが安定するにつれてアルゴリズムのパフォーマンスが徐々に向上することが期待されます。AQ-SGDアルゴリズムは、厳密に理論的に分析され、特定の技術的条件と有界誤差量子化関数の下で良好な収束率を持つことが証明されています。このアルゴリズムは、エンドツーエンドのランタイムオーバーヘッドを追加することなく効果的に実装できますが、アクティベーション値を格納するためにより多くのメモリとSSDを使用する必要があります。AQ-SGDは、配列分類と言語モデリングデータセットの広範な実験を通じて、収束性能を犠牲にすることなく活性化値を2〜4ビットに圧縮することが示されています。さらに、AQ-SGDは、最先端の勾配圧縮アルゴリズムと統合することで、モデル勾配、順活性化値、後方勾配など、すべてのマシン間のデータやり取りを低精度に圧縮する「End-to-End通信圧縮」を実現することで、分散学習の通信効率を大幅に向上させることができます。圧縮なしの集中型コンピューティング ネットワーク (10 Gbps など) でのエンドツーエンドのトレーニング パフォーマンスと比較すると、現在の速度はわずか 31% です。スケジューリング最適化に関するデータと合わせると、中央集権的なコンピューティングネットワーク間にはまだ一定のギャップがありますが、将来的には追いつくための大きな希望があります。

結論

AIの波がもたらした配当期において、汎用人工知能コンピューティングパワー市場は、さまざまなコンピューティングパワー市場の中で最も大きな可能性と需要を持つ市場であることは間違いありません。しかし、開発の難易度、ハードウェア要件、および資本需要が、この業界に課題をもたらしています。上記で紹介した2つのプロジェクトを合わせると、汎用人工知能コンピューティングパワー市場が立ち上がるまでには、まだ時間がかかります。また、実際の分散型ネットワークは、理想的なシナリオよりもはるかに複雑です。現在、クラウドジャイアントと競争するには十分ではありません。

執筆時点では、未だ幼い段階(PPT段階)のいくつかの小規模プロジェクトが、トレーニング段階ではなく、より挑戦的でないAGI推論段階に焦点を当てるなど、いくつかの新しい着眼点を模索し始めていることも観察しました。しかし、長期的には、分散化と許可なしシステムの重要性は深いものです。AGIコンピューティングパワーへのアクセスとトレーニングの権利は、少数の中央集権的巨人の手に集中すべきではありません。人類は新たな「神権政治」や新たな「教皇」を必要とせず、高額な会費を支払うべきではありません。

免責事項:

  1. この記事は[から転載されていますYBB Capital]. すべての著作権は元の著者に帰属します [ジーク].この転載に異議がある場合は、Gate Learnチームが迅速に対応します。
  2. 責任の免責事項:この記事で表現されている意見は、著者個人のものであり、投資アドバイスを構成するものではありません。
  3. 記事の翻訳はGate Learnチームによって行われます。特に記載がない限り、翻訳された記事のコピー、配布、盗用は禁止されています。

将来有望なトラックの展望:分散コンピューティングパワー市場(パート1)

上級1/4/2024, 6:39:54 PM
この記事では、分散コンピューティングパワー市場の可能性と課題、それが直面する困難を強調し、GensynとTogether.AIの2つの典型的なプロジェクトを紹介しています。

前書き

GPT-3の誕生以来、生成AIは驚異的な性能と幅広いアプリケーションシナリオにより、人工知能分野において爆発的な転換点を迎えました。これにより、テックジャイアントがAIの分野に群がっています。しかし、この急増には多くの問題が伴います。大規模言語モデル(LLMs)のトレーニングと推論操作には多くの計算パワーが必要です。これらのモデルのイテレーションアップグレードに伴い、計算パワーの需要とコストは指数関数的に増加しています。GPT-2とGPT-3を例に挙げると、GPT-2とGPT-3のパラメータ数の差は1166倍です(GPT-2は1億5000万パラメータ、GPT-3は1750億)。GPT-3の単一のトレーニングセッションのコストは、当時の公共GPUクラウドの価格モデルに基づいて計算され、最大1200万ドルに達します。これはGPT-2の200倍です。実際の使用では、すべてのユーザークエリに推論計算が必要です。今年初めの1300万人の独立ユーザーを基にすると、チップの需要は3万A100 GPU以上になります。初期投資コストは莫大な8億ドルで、推定されるモデル推論コストは1日70万ドルになります。

AI業界全体が直面している深刻な課題となっているのは、計算能力の不足と高コストです。興味深いことに、同様の問題がブロックチェーン業界にも見られるようです。一方で、第4回ビットコインのハーフィングとETFの承認が目前に迫っています。将来の価格が上昇するにつれて、マイナーの計算ハードウェアへの需要は必然的に大幅に増加するでしょう。一方で、ゼロ知識証明(ZKP)技術は急成長しており、Vitalikは何度もZKが次の10年間のブロックチェーン分野への影響がブロックチェーンそのものと同じくらい重要になるだろうと強調しています。この技術はブロックチェーン業界の将来に希望を抱かせますが、ZKはAI同様、複雑な計算プロセスによる証明の生成に多くの計算能力と時間を消費します。

将来、コンピューティングパワーの不足は避けられなくなるでしょう。したがって、分散コンピューティングパワー市場は利益をもたらすビジネスベンチャーとなるでしょうか?

分散コンピューティングパワーマーケットの定義

分散コンピューティングパワー市場は実際には分散クラウドコンピューティングトラックに等しいですが、個人的にはこの用語は後で議論される新しいプロジェクトをより適切に表すと思います。分散コンピューティングパワー市場は、DePIN(分散型物理インフラネットワーク)のサブセットと見なすべきであり、その目標は、誰もがアイドルのコンピューティングパワー資源をトークンによってインセンティブを受け取りながら提供できるオープンなコンピューティングパワー市場を作成することであり、主にB2Bクライアントや開発者コミュニティにサービスを提供しています。より馴染みのあるプロジェクトに関しては、分散GPUレンダリングソリューションに基づくRender Networkや、クラウドコンピューティングのための分散型ピアツーピアマーケットプレイスであるAkash Networkなどがこのトラックに属しています。

以下のテキストは、基本的な概念から始まり、その後、このトラックの下で3つの新興市場について論じます: AGIコンピューティングパワーマーケット、Bitcoinコンピューティングパワーマーケット、およびZKハードウェアアクセラレーションマーケットにおけるAGIコンピューティングパワーマーケット。 後者2つについては、「有望なトラックの展望:分散コンピューティングパワーマーケット(パート2)」で議論されます。

コンピューティングパワーの概要

コンピューティングパワーの概念はコンピュータの発明にさかのぼることができます。元のコンピュータは機械装置を使用して計算タスクを完了し、コンピューティングパワーはその機械装置の計算能力を指しました。コンピュータ技術の発展とともに、コンピューティングパワーの概念も進化してきました。今日のコンピューティングパワーは通常、コンピュータハードウェア(CPU、GPU、FPGAなど)とソフトウェア(オペレーティングシステム、コンパイラ、アプリケーションなど)の協力作業を指します。

定義

コンピューティングパワーとは、コンピュータや他のコンピューティングデバイスが一定期間内に処理できるデータ量、または完了できる計算タスクの数を指します。コンピューティングパワーは通常、コンピュータや他のコンピューティングデバイスの性能を表すために使用されます。これはコンピューティングデバイスの処理能力の重要な指標です。

メトリクス

コンピューティングパワーは、コンピューティング速度、エネルギー消費量、コンピューティング精度、並列性など、さまざまな方法で測定することができます。コンピューティング分野では、よく使用されるコンピューティングパワーの指標には、FLOPS(秒あたりの浮動小数点演算)、IPS(秒あたりの命令)、TPS(秒あたりのトランザクション)などがあります。

FLOPS は、浮動小数点演算 (精度の問題と丸め誤差を考慮する必要がある小数点を含む数学演算) を処理するコンピューターの能力を測定します。これは、コンピューターが 1 秒間に完了できる浮動小数点演算の数を測定します。FLOPSは、コンピューターの高性能コンピューティング能力の尺度であり、スーパーコンピューター、高性能コンピューティングサーバー、グラフィックスプロセッシングユニット(GPU)などのコンピューティング能力を測定するために一般的に使用されます。たとえば、コンピューター システムに 1 TFLOPS (1 秒あたり 1 兆回の浮動小数点演算) がある場合、1 秒あたり 1 兆回の浮動小数点演算を完了できることを意味します。

IPSは、コンピューターが命令を処理する速度を測定します。コンピューターが1秒間に実行できる命令の数を示すものであり、コンピューターの単一命令パフォーマンスの尺度です。通常、中央演算処理装置(CPU)のパフォーマンスを測定するために使用されます。たとえば、IPSが3 GHz(1秒間に30億回の命令を実行)のCPUは、1秒間に30億回の命令を実行できることを意味します。

TPSは、コンピューターが取引を処理する能力を測定するものです。これは、コンピューターが1秒間にどれだけの取引を完了できるかを測定し、通常はデータベースサーバーのパフォーマンスを測定するために使用されます。たとえば、データベースサーバーのTPSは1,000であり、1秒あたり1,000件のデータベース取引を処理できることを意味します。

さらに、推論速度、画像処理速度、音声認識精度など、特定のアプリケーションシナリオ用のコンピューティングパワーメトリクスがあります。

コンピューティングパワーの種類

GPUコンピューティングパワーとは、グラフィックス処理ユニット(GPU)の計算能力を指します。中央処理ユニット(CPU)とは異なり、GPUは画像や動画などのグラフィカルデータを処理するために特別に設計されたハードウェアです。GPUには多数の処理ユニットと効率的な並列計算能力があり、多数の浮動小数点演算を同時に実行できます。GPUは元々ゲームグラフィックス処理用に設計されていたため、複雑なグラフィカル計算をサポートするために、通常、より高いクロック速度と大きなメモリ帯域幅を持っています。

CPUとGPUの違い

アーキテクチャ:CPUとGPUは異なるコンピューティングアーキテクチャを持っています。CPUには通常1つまたは複数のコアがあり、それぞれがさまざまな異なる操作を実行できる汎用プロセッサです。一方、GPUには多数のストリームプロセッサとシェーダーがあり、これらは画像処理に関連する計算を実行するために特別に使用されています。

並列コンピューティング:通常、GPUはより高い並列コンピューティング能力を持っています。 CPUには限られた数のコアがあり、各コアは1つの命令しか実行できませんが、GPUには複数の命令や操作を同時に実行できる数千のストリームプロセッサがある場合があります。そのため、GPUは一般的に、機械学習やディープラーニングなどの広範な並列計算を必要とする並列コンピューティングタスクを実行するために、CPUよりも適しています。

プログラミングデザイン:GPU向けのプログラミングは、CPUよりも複雑です。GPUの並列コンピューティング能力を活用するには、特定のプログラミング言語(CUDAやOpenCLなど)や特定のプログラミング技術が必要です。一方、CPUのプログラミングはより簡単で、汎用のプログラミング言語やツールを使用できます。

コンピューティングパワーの重要性

産業革命の時代には、石油が世界の生命線であり、あらゆる産業に浸透しました。今後のAI時代には、コンピューティングパワーが世界の「デジタルオイル」になります。主要企業がAIチップの熾烈な追求やNvidiaの株価が1兆ドルを超えるなど、中国からのハイエンドチップへの米国の最近の封鎖を含むコンピューティングパワーの重要性は自明です。コンピューティングパワーは次の時代の商品となります。

人工一般知能の概要

人工知能(AI)は、人間の知能をシミュレートし、拡張し、拡大するための理論、方法、技術を研究し、開発し、適用する新しい技術科学です。1950年代から1960年代に発祥し、半世紀以上にわたる進化の過程を経て、象徴主義、接続主義、エージェントベースのアプローチを通じて入り組んだ発展を経験してきました。今日、新興汎用技術として、AIは社会生活やすべての産業において根本的な変化をもたらしています。現在、生成型AIのより具体的な定義は、人工一般知能(AGI)であり、幅広い理解能力を持ち、人間レベル以上の知能でタスクを実行し、様々なドメインで運用できる人工知能システムです。AGIには基本的に、ディープラーニング(DL)、ビッグデータ、そして十分なコンピューティングパワーの3つの要素が必要です。

ディープラーニング

ディープラーニングは機械学習(ML)のサブフィールドであり、ディープラーニングアルゴリズムは人間の脳をモデルにしたニューラルネットワークです。例えば、人間の脳には何百万もの相互接続されたニューロンがあり、情報を学習し処理するために協力しています。同様に、ディープラーニングニューラルネットワーク(または人工ニューラルネットワーク)は、コンピュータ内で協力して動作する複数の層から成る人工ニューロンで構成されています。これらの人工ニューロン、ノードとして知られるものは、データを処理するために数学的計算を使用します。人工ニューラルネットワークは、これらのノードを使用して複雑な問題を解決するディープラーニングアルゴリズムです。

ニューラルネットワークは、入力層、隠れ層、および出力層に分割することができます。これら異なる層間の接続は、パラメータで構成されています。

入力レイヤー:入力レイヤーはニューラルネットワークの最初のレイヤーであり、外部入力データを受け取る責任があります。入力レイヤーの各ニューロンは、入力データの特徴に対応しています。例えば、画像処理では、各ニューロンが画像内のピクセルの値に対応することがあります。

隠れ層:入力層はデータを処理し、ネットワーク内のより深い層にそれを渡します。これらの隠れ層は、異なるレベルで情報を処理し、新しい情報を受け取ったときにその振る舞いを調整します。ディープラーニングネットワークには数百の隠れ層があることがあり、これにより、異なる視点から問題を分析することができます。例えば、未知の動物の画像が与えられ、それを分類する必要がある場合、既知の動物と比較することができます。たとえば、耳の形、脚の数、瞳孔の大きさからどのような動物かを判断することができます。ディープニューラルネットワークの隠れ層は、同様の方法で機能します。ディープラーニングアルゴリズムが動物の画像を分類しようとしている場合、各隠れ層は動物の異なる特徴を処理し、正確に分類しようとします。

出力層: 出力層はニューラルネットワークの最後の層であり、ネットワークの出力を生成する責任があります。出力層の各ニューロンは、可能な出力カテゴリや値を表します。例えば、分類問題では、出力層の各ニューロンがカテゴリに対応するかもしれませんが、回帰問題では、出力層には予測結果を表す値を持つニューロンが1つだけあるかもしれません。

パラメータ:ニューラルネットワークでは、異なる層間の接続は、トレーニングプロセス中に最適化される重みとバイアスによって表され、データ内のパターンを正確に識別し、予測するためのネットワークを可能にします。パラメータの増加は、ニューラルネットワークのモデル容量を向上させることができます。つまり、データ内の複雑なパターンを学習し表現する能力です。ただし、対応して、パラメータの増加は、コンピューティングパワーの需要を増加させます。

ビッグデータ

効果的に訓練されるためには、ニューラルネットワークは通常、複数のソースからの大規模で多様な高品質のデータが必要です。このデータは、機械学習モデルの訓練と検証の基礎となります。ビッグデータを分析することで、機械学習モデルはデータ内のパターンや関係を学習し、それに基づいて予測や分類を行うことができます。

大規模なコンピューティングパワー

ニューラルネットワークの重要な計算能力の需要は、複雑な多層構造、多数のパラメータ、膨大なデータの処理、反復的なトレーニング手法(トレーニングフェーズ中、モデルは各層ごとに前方および後方の伝播計算を繰り返し行い、活性化関数、損失関数、勾配、および重み更新の計算を含む)、高精度計算の必要性、並列計算能力、最適化および正則化技術、モデルの評価および検証プロセスなど、複数の側面から生じています。ディープラーニングが進むにつれ、AGI向けの大量の計算能力が毎年約10倍増加しています。現時点での最新モデルであるGPT-4は、1.8兆のパラメータを含み、単一のトレーニングコストは6000万ドル以上、計算能力要件は2.15e25 FLOPS(21.5クインティリオンの浮動小数点演算)です。将来のモデルトレーニングの計算能力の需要はまだ拡大中であり、新しいモデルが増加するペースも増しています。

AIコンピューティングパワー経済

将来の市場規模

最も権威のある推計によると、国際データコーポレーション(IDC)、浪潮情報、清華大学グローバル産業研究所が共同で編纂した「2022-2023年度グローバルコンピューティングパワー指数評価報告書」によると、2022年の世界のAIコンピューティング市場規模は195億ドルから2026年に346.6億ドルに増加する見通しです。生成的AIコンピューティング市場は、2022年の8.2億ドルから2026年に109.9億ドルに成長すると予測されています。生成的AIコンピューティングの全体のAIコンピューティング市場占有率は4.2%から31.7%に上昇する見込みです。

コンピューティングパワー経済の独占

AI GPUの製造は、NVIDIAによって独占され、非常に高価(最新のH100は1台4万ドルで販売されています)。 GPUがリリースされると、シリコンバレーのテックジャイアンドによってすぐに買い占められます。これらのデバイスの一部は、彼ら自身の新しいモデルのトレーニングに使用されます。残りは、Google、Amazon、Microsoftなどが所有するクラウドプラットフォームを介してAI開発者に貸し出され、サーバ、GPU、TPUなどの多くの計算リソースを制御しています。コンピューティングパワーは、これらの巨大企業によって独占された新しいリソースとなりました。多くのAI開発者は、追加料金なしに専用のGPUを購入できない場合さえあります。最新の機器を使用するためには、開発者はAWSやMicrosoftのクラウドサーバを借りる必要があります。財務報告によると、この事業は非常に高い利益を上げています。AWSのクラウドサービスの総利益率は61%を誇り、Microsoftの総利益率はさらに高い72%です。

ですから、この中央集権的な権威とコントロールを受け入れ、コンピューティングリソースに72%の利益率を支払わなければならないのでしょうか?Web2を独占した巨大企業たちは次の時代も支配するのでしょうか?

分散型AGIコンピューティングパワーの課題

独占禁止法に関しては、分散化が通常最適な解決策と見なされます。既存のプロジェクトを見ると、DePINストレージプロジェクトとRDNRのようなプロトコルを組み合わせることで、AIに必要な大規模なコンピューティングパワーを実現できるでしょうか?答えはノーです。ドラゴンを討伐する道はそんなに単純なものではありません。初期のプロジェクトは特にAGIコンピューティングパワー向けに設計されておらず、実現可能ではありません。ブロックチェーン上でのコンピューティングパワーの導入には少なくとも以下の5つの課題があります。

  1. 作業検証:経済的インセンティブを提供する完全に信頼できるコンピューティングネットワークを構築するためには、ネットワークが深層学習の演算が実際に実行されたかどうかを検証する方法を持っている必要があります。 ここでの中心的な問題は深層学習モデルの状態依存性です。これらのモデルでは、各層の入力は前の層からの出力に依存します。 これはつまり、前の層のすべての層を考慮に入れずにモデル内の単一の層を検証することはできないということです。 各層の計算は、すべての前の層の結果に基づいています。 したがって、特定のポイント(特定の層など)で完了した作業を検証するには、モデルの最初からその特定のポイントまでのすべての作業を実行する必要があります。

  2. 市場: 新興市場として、AIコンピューティングパワー市場は、コールドスタートの問題など供給と需要のジレンマに直面しています。市場が成功裏に成長するためには、供給と需要の流動性を最初から大まかに一致させる必要があります。コンピューティングパワーの潜在的な供給を捉えるためには、参加者にはそのコンピューティングリソースと引き換えに明確なインセンティブが提供されなければなりません。市場は完了した計算を追跡し、適時にプロバイダーに支払うメカニズムが必要です。従来のマーケットプレイスでは、仲介業者が管理やオンボーディングなどのタスクを処理し、最低支払い閾値を設定することで運用コストを削減しています。ただし、市場規模を拡大する際にはこのアプローチは高コストです。経済的に捕捉できる供給のわずかな部分のみがあり、市場がさらに成長できない限界均衡状態に至ります。

  3. 停止問題:停止問題は、計算理論における基本的な問題であり、与えられた計算タスクが有限時間で終了するか無期限に実行されるかを決定することを含みます。この問題は決定不能であり、任意の計算が有限時間で停止するかどうかを予測できる普遍的なアルゴリズムは存在しないことを意味します。例えば、Ethereum上でのスマートコントラクトの実行も同様の停止問題に直面しています。スマートコントラクトの実行にどれだけの計算リソースが必要か、あるいはそれが合理的な時間内に完了するかを事前に決定することは不可能です。

(深層学習の文脈では、モデルとフレームワークが静的グラフ構築から動的な構築と実行に切り替わるため、この問題はより複雑になります。)

  1. プライバシー:プロジェクトチームにとって、プライバシーに配慮した設計と開発は必須です。公開データセットで機械学習の大規模な研究が可能ですが、モデルのパフォーマンスを向上させ、特定のアプリケーションに適応させるためには、通常、独自のユーザーデータでモデルを微調整する必要があります。この微調整プロセスには個人データの処理が関わることがあり、そのためにはプライバシー保護の要件が考慮される必要があります。

  2. 並列化:これは現在のプロジェクトの実現不可能性の主要な要因です。 深層学習モデルは、通常、専用アーキテクチャを備えた大規模なハードウェアクラスター上で並列にトレーニングされ、非常に低遅延でトレーニングされます。分散コンピューティングネットワーク内のGPUは、頻繁なデータ交換による遅延が発生し、最も遅いGPUのパフォーマンスに制限される可能性があります。コンピューティングソースが信頼できず信頼できない場合、異種並列化を実現する方法は解決する必要のある問題です。現在の実現可能な方法は、Switch Transformersなどのトランスフォーマーモデルを介して並列化を実現することであり、これらは高度に並列化された特性を持っています。

ソリューション:分散型AGIコンピューティングパワーマーケットにおける現在の試みはまだ初期段階にありますが、分散型ネットワークのコンセンサス設計と分散型コンピューティングパワーネットワークのモデルトレーニングと推論における実装を初期に解決した2つのプロジェクトがあります。以下では、GensynとTogetherを例にとって、分散型AGIコンピューティングパワーマーケットの設計手法と課題を分析します。

Gensyn

Gensynは、まだ構築段階にあるAGIコンピューティングパワーマーケットであり、分散型の深層学習コンピューティングのさまざまな課題を解決し、現在の深層学習に関連するコストを削減することを目的としています。Gensynは基本的に、Polkadotネットワークに基づいた第一層のステークプルーフプロトコルであり、計算タスクを解決する者(計算タスクを解決する者)に対して、彼らのアイドルGPUデバイスをコンピューティングおよび機械学習タスクを実行するためにスマートコントラクトを介して直接報酬を支払います。

前の質問に戻ると、真に信頼できるコンピューティングネットワークを構築する核心は、完了した機械学習作業の検証にあります。これは、複雑な問題であり、複雑性理論、ゲーム理論、暗号学、最適化の交差点を見つける必要があります。

Gensynは、ソルバーが完了した機械学習タスクの結果を提出するというシンプルなソリューションを提案しています。これらの結果が正確であることを確認するために、別の独立した検証者が同じ作業の再実行を試みます。このアプローチは、1 つの検証者のみがタスクを再実行するため、単一レプリケーションと呼ぶことができます。これは、元の作品の正確性を検証するための追加の作品が1つだけあることを意味します。ただし、作業を検証する人が元の要求者ではない場合、信頼の問題は依然として存在します。検証者自身が正直ではない可能性があり、彼らの仕事は検証される必要があります。これは、作業を検証する人が最初の要求者でない場合、作業を検証するために別の検証者が必要になるという潜在的な問題につながります。しかし、この新しいベリファイアも信頼できない可能性があるため、作業を検証するために別のベリファイアが必要になり、それが永遠に続き、無限のレプリケーションチェーンが作成される可能性があります。ここでは、3つの重要な概念を紹介し、それらを織り交ぜて、無限連鎖問題を解決するための4つの役割を持つ参加者システムを構築する必要があります。

確率的学習証明: 勾配ベースの最適化プロセスからのメタデータを使用して、完了した作業の証明書を構築します。特定の段階を複製することにより、これらの証明書は迅速に検証され、作業が期待通りに完了したことを確認できます。

グラフベースの精確な位置決めプロトコル:マルチグラニュラリティ、グラフベースの精確な位置決めプロトコルと、クロス評価者の一貫した実行を使用することで、検証作業の再実行と比較を可能にし、一貫性を確保します。最終的には、ブロックチェーン自体によって確認されます。

Truebitスタイルのインセンティブゲーム:ステークとスラッシングを利用して、経済的に合理的な参加者が正直に行動し、予想されるタスクを実行することを確実にするインセンティブゲームを構築します。

参加者システムは、提出者、ソルバー、検証者、および告発者から構成されています。

提出者:

サブミッターは、システムの最終ユーザーであり、計算されるタスクを提供し、完了した作業量を支払うユーザーです。

ソルバー:

ソルバーはシステムの主要な作業者であり、モデルのトレーニングを実行し、検証者によってチェックされる証明を生成します。

検証者:

検証者は、非決定論的なトレーニングプロセスと決定論的な線形計算をリンクさせるための鍵であり、ソルバーの証拠の一部を複製し、期待される閾値との距離を比較します。

内部告発者:

告発者は、検証者の作業をチェックし、懸賞金を受け取ることを期待して挑戦を提起する最後の防衛ラインです。

システム運用

プロトコルによって設計されたゲームシステムは、8つのステージを経て、タスクの提出から最終的な検証までの全プロセスを完了するために、4つの主要な参加者役割をカバーしています。

タスク提出:タスクは3つの特定の情報で構成されています:

タスクとハイパーパラメータを記述するメタデータ;

モデルバイナリファイル(または基本アーキテクチャ);

公開可能な、事前に処理されたトレーニングデータ。

タスクを提出するために、提出者はタスクの詳細を機械可読形式で指定し、モデルバイナリファイル(または機械可読アーキテクチャ)と前処理済みトレーニングデータの公開可能な場所と共にチェーンに提出します。公開データはAWSのS3などのシンプルオブジェクトストレージに保存するか、IPFS、Arweave、またはSubspaceなどの分散ストレージに保存することができます。

プロファイリング:プロファイリングプロセスは、学習の検証のための基準距離閾値を確立します。検証者は定期的にプロファイリングタスクを取得し、学習証明の比較のための変異閾値を生成します。閾値を生成するために、検証者は異なるランダムシードを使用してトレーニングの一部を決定論的に実行し、何度も再実行し、自分自身の証明を生成してチェックします。このプロセス中に、検証者は非決定論的なソリューションの全体的な期待距離閾値を確立します。この閾値は、検証に使用できます。

トレーニング:プロファイリング後、タスクは公開タスクプールに入ります(EthereumのMempoolに類似)。ソルバーを選択してタスクを実行し、タスクプールからタスクを削除します。ソルバーは、タスクを実行する際に、提出者と提供されたモデルおよびトレーニングデータに基づいて、定期的にポイントをチェックしてメタデータ(パラメータを含む)を保存し、学習の証明を生成します。トレーニングタスクを実行する際、ソルバーは、最適化ステップを可能な限り正確に複製できるように、検証者が後続の最適化ステップを再現できるように、定期的にポイントをチェックし、メタデータ(パラメータを含む)を保存します。

プルーフ生成:ソルバーは定期的にモデルの重みまたは更新と、重みの更新を生成するために使用されたサンプルを識別するためのトレーニングデータセットの対応するインデックスを保存します。チェックポイントの頻度は、より強力な保証を提供するか、ストレージスペースを節約するために調整できます。プルーフは「スタック可能」であり、重みを初期化するためにランダム分布から開始されるか、または独自のプルーフを使用して生成された事前トレーニング済みの重みから開始されることができます。これにより、プロトコルは証明済みの事前トレーニング済みの基本モデルのセットを構築し、より特定のタスクに適応させることができます。

証明の検証:タスクが完了すると、ソルバーはチェーン上でタスク完了を登録し、検証者がアクセスできる公開可能な場所に学習の証拠を表示します。検証者は公開タスクプールから検証タスクを取得し、一部の証明を再実行し距離計算を実行します。次に、プロファイリングステージ中に計算された閾値とともに、チェーンは結果の距離を使用して、検証が証明と一致するかどうかを判断します。

グラフベースのピンポイントチャレンジ:内部告発者は、学習の証明を検証した後、検証者の作業を複製して、検証作業自体が正しく実行されたかどうかを確認できます。内部告発者は、検証が誤って実行されたと考える場合(悪意があるかどうかにかかわらず)、報酬を求めて仲裁に異議を申し立てることができます。この報酬は、ソルバーとバリデーターの入金(真陽性の場合)、または宝くじプールのボーナス(偽陽性の場合)から得ることができ、チェーン自体を使用して仲裁が行われます。内部告発者(その場合は検証者として行動する)は、適切な報酬を受け取ることを期待している場合にのみ、作業を検証し、その後異議を唱えます。実際には、これは、内部告発者が他のアクティブな内部告発者の数に基づいてネットワークに参加および離脱することが期待されていることを意味します(つまり、ライブデポジットとチャレンジ)。したがって、内部告発者に期待されるデフォルトの戦略は、他の内部告発者が少ないときにネットワークに参加し、デポジットを投稿し、アクティブなタスクをランダムに選択し、検証プロセスを開始することです。1つのタスクの後、彼らは別のランダムなアクティブなタスクを取得し、内部告発者の数が決定された支払いしきい値を超えるまで繰り返し、その時点で状況が再び逆転するまでネットワークを離れます(または、ハードウェアの能力に基づいてネットワーク内の別の役割(検証者またはソルバー)に切り替えます)。

契約仲裁:検証者が告発者から挑戦されると、争われた操作や入力の場所を特定するためにチェーンとプロセスに入り、最終的にチェーンが最終的な基本操作を実行し、挑戦が正当化されているかどうかを決定します。告発者を正直に保ち、検証者のジレンマを克服するために、ここでは定期的な強制エラーとジャックポット支払いが導入されています。

決済:決済プロセス中に、参加者は確率的および決定論的なチェックの結論に基づいて支払われます。前回の検証とチャレンジの結果に応じて、異なる支払シナリオが発生します。作業が正しく実行され、すべてのチェックが合格した場合、ソリューションプロバイダーと検証者の両方が実行された操作に基づいて報酬を受け取ります。

プロジェクトブリーフレビュー

Gensynは、ネットワーク内の乖離を指摘することで、迅速なエラーの特定と修正を可能にする、検証層とインセンティブ層に洗練されたゲーム理論システムを設計しています。しかし、現行システムにはまだ多くの詳細が欠けています。例えば、報酬とペナルティがあまりにも高すぎないようにパラメータを設定する方法はどうですか?ゲーム理論的側面での極端なシナリオやソルバーの異なるコンピューティングパワーを考慮しましたか?現行のホワイトペーパーのバージョンには、異種並列実行の詳細な説明がありません。Gensynにはまだまだ道のりがあります。

Together.ai

Together.aiは、大規模なモデル向けのオープンソースで分散型のAI計算ソリューションに焦点を当てる企業です。その目標は、誰もがどこからでもAIにアクセスできるようにすることです。厳密に言えば、Togetherはブロックチェーンプロジェクトではありませんが、分散型AGI計算ネットワーク内のレイテンシーの問題を予備的に解決しています。したがって、以下の記事ではTogetherのソリューションのみを分析し、プロジェクト自体を評価していません。

分散ネットワークがデータセンターよりも100倍遅い場合、大規模モデルのトレーニングと推論をどのように実現するか?

分散ネットワークに参加するGPUの分配を想像してみましょう。これらのデバイスは、異なる大陸や都市に分散配置され、それぞれが異なる遅延と帯域幅で接続する必要があります。下の図に示すように、シミュレートされた分散シナリオでは、北アメリカ、ヨーロッパ、アジアに位置するデバイスが、それらの間で異なる帯域幅と遅延を持っています。これらを効果的にリンクするためには、何をする必要がありますか?

分散トレーニング計算モデリング:以下の図は、複数のデバイス間でベースモデルをトレーニングする状況を示しており、3種類の通信(フォワードアクティベーション、バックワードグラデーション、横方向通信)が特徴です。

通信帯域幅と待機時間を組み合わせると、並列処理の2つの形態が考慮される必要があります: パイプライン並列処理とデータ並列処理。これは、マルチデバイスシナリオにおける3種類の通信に対応しています。

パイプライン並列処理では、モデルのすべてのレイヤーが複数のステージに分割され、各デバイスが1つのステージを処理し、連続するレイヤー(複数のTransformerブロックなど)のシーケンスとなります。順伝播の間、活性化は次のステージに渡され、逆伝播の間、活性化の勾配は前のステージに戻されます。

データ並列処理では、デバイスは異なるマイクロバッチの勾配を独立して計算しますが、これらの勾配を通信を介して同期する必要があります。

スケジューリング最適化:

分散環境では、トレーニングプロセスは通常、通信によって制約されます。スケジューリングアルゴリズムは、一般的に、高速な接続を持つデバイスに、広範な通信を必要とするタスクを割り当てます。タスク間の依存関係とネットワークの異質性を考慮すると、特定のスケジューリング戦略のコストをモデル化することが最初に必要です。トレーニングベースモデルの複雑な通信コストを捉えるために、Togetherは新しい形式を提案し、グラフ理論を使用してコストモデルを2つのレベルに分解します。

グラフ理論は、グラフ(ネットワーク)の性質と構造を研究する数学の一分野です。グラフは頂点(ノード)と辺(ノードをつなぐ線)から構成されます。グラフ理論の主な目的は、グラフの連結性、彩色、およびグラフ内の経路やサイクルの性質など、さまざまな性質を研究することです。

最初のレベルはバランスの取れたグラフ分割の問題です(グラフの頂点集合をいくつかの等しいまたはほぼ等しい大きさの部分集合に分割するときに、部分集合間のエッジの数を最小限に抑える)。この分割では、各部分集合が分割を表し、データ並列性の通信コストを最小限に抑えるために、分割間のエッジを減らすことで通信コストが低減されます。

第2レベルは、グラフのマッチングと巡回セールスマン問題(グラフのマッチングと巡回セールスマン問題の要素を組み合わせた組合せ最適化問題)を組み合わせた組合せ最適化問題を含む。グラフのマッチング問題は、グラフ内でコストを最小化または最大化するマッチングを見つけることを含む。巡回セールスマン問題は、グラフ内のすべてのノードを訪れる最短経路を求め、それがパイプライン並列処理の通信コストに対応している。

上記の図はプロセスの概略図です。実際の実装には複雑な計算が関わるため、図に記載されているプロセスは理解しやすくするために簡略化されています。詳細な実装については、Togetherの公式ウェブサイトのドキュメントを参照してください。

一連のデバイスDD、通信遅延(行列AA)および帯域幅(行列BB)が不確定な状況を想定します。デバイスセットDDに基づいて、まずバランスの取れたグラフパーティションを生成します。各パーティションまたはデバイスグループには、おおよそ同数のデバイスが含まれ、すべてが同じパイプラインステージを処理します。これにより、データ並列処理中に各デバイスグループが同様の作業量を実行することが保証されます。通信遅延と帯域幅に基づいて、式を使用してデバイスグループ間でデータを転送する「コスト」を計算できます。各バランスの取れたグループを統合して完全に接続された粗いグラフを作成し、各ノードがパイプラインステージを表し、エッジが2つのステージ間の通信コストを表します。通信コストを最小限に抑えるために、マッチングアルゴリズムが使用されて、どのデバイスグループが協力して作業すべきかが決定されます。

さらなる最適化のために、この問題はオープンループ巡回セールスマン問題としてモデル化することもできます(オープンループとは、経路のスタート地点に戻る必要がないことを意味します)。すべてのデバイス間でデータを転送するための最適なパスを見つけるために。最後に、Togetherは革新的なスケジューリングアルゴリズムを使用して、与えられたコストモデルに対する最適な割り当て戦略を見つけ、通信コストを最小化し、訓練スループットを最大化します。テストによると、このスケジューリング最適化の下でネットワークが100倍遅くなっても、エンドツーエンドの訓練スループットは約1.7〜2.3倍遅くなるだけです。

通信圧縮最適化:

通信圧縮の最適化のために、TogetherはAQ-SGDアルゴリズムを導入しました(詳細な計算プロセスについては、論文「Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees」を参照してください)。AQ-SGD アルゴリズムは、低速ネットワーク上でのパイプライン並列学習中の通信効率の問題に対処するために設計された新しい活性化圧縮手法です。AQ-SGDは、活性化値を直接圧縮する従来の方法とは異なり、異なる期間における同じトレーニングサンプルの活性化値の変化を圧縮することに重点を置いています。このユニークな手法は、興味深い「自己実行型」のダイナミクスを導入し、トレーニングが安定するにつれてアルゴリズムのパフォーマンスが徐々に向上することが期待されます。AQ-SGDアルゴリズムは、厳密に理論的に分析され、特定の技術的条件と有界誤差量子化関数の下で良好な収束率を持つことが証明されています。このアルゴリズムは、エンドツーエンドのランタイムオーバーヘッドを追加することなく効果的に実装できますが、アクティベーション値を格納するためにより多くのメモリとSSDを使用する必要があります。AQ-SGDは、配列分類と言語モデリングデータセットの広範な実験を通じて、収束性能を犠牲にすることなく活性化値を2〜4ビットに圧縮することが示されています。さらに、AQ-SGDは、最先端の勾配圧縮アルゴリズムと統合することで、モデル勾配、順活性化値、後方勾配など、すべてのマシン間のデータやり取りを低精度に圧縮する「End-to-End通信圧縮」を実現することで、分散学習の通信効率を大幅に向上させることができます。圧縮なしの集中型コンピューティング ネットワーク (10 Gbps など) でのエンドツーエンドのトレーニング パフォーマンスと比較すると、現在の速度はわずか 31% です。スケジューリング最適化に関するデータと合わせると、中央集権的なコンピューティングネットワーク間にはまだ一定のギャップがありますが、将来的には追いつくための大きな希望があります。

結論

AIの波がもたらした配当期において、汎用人工知能コンピューティングパワー市場は、さまざまなコンピューティングパワー市場の中で最も大きな可能性と需要を持つ市場であることは間違いありません。しかし、開発の難易度、ハードウェア要件、および資本需要が、この業界に課題をもたらしています。上記で紹介した2つのプロジェクトを合わせると、汎用人工知能コンピューティングパワー市場が立ち上がるまでには、まだ時間がかかります。また、実際の分散型ネットワークは、理想的なシナリオよりもはるかに複雑です。現在、クラウドジャイアントと競争するには十分ではありません。

執筆時点では、未だ幼い段階(PPT段階)のいくつかの小規模プロジェクトが、トレーニング段階ではなく、より挑戦的でないAGI推論段階に焦点を当てるなど、いくつかの新しい着眼点を模索し始めていることも観察しました。しかし、長期的には、分散化と許可なしシステムの重要性は深いものです。AGIコンピューティングパワーへのアクセスとトレーニングの権利は、少数の中央集権的巨人の手に集中すべきではありません。人類は新たな「神権政治」や新たな「教皇」を必要とせず、高額な会費を支払うべきではありません。

免責事項:

  1. この記事は[から転載されていますYBB Capital]. すべての著作権は元の著者に帰属します [ジーク].この転載に異議がある場合は、Gate Learnチームが迅速に対応します。
  2. 責任の免責事項:この記事で表現されている意見は、著者個人のものであり、投資アドバイスを構成するものではありません。
  3. 記事の翻訳はGate Learnチームによって行われます。特に記載がない限り、翻訳された記事のコピー、配布、盗用は禁止されています。
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!
It seems that you are attempting to access our services from a Restricted Location where Gate is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.