|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は ROCm 6.1 を使用する AMD GPU をサポートします。 環境依存性
インストールオプション: Dockerを使用してソースからビルドする ソースコードからビルドする オプション 1: Docker を使用してソースからビルドする (推奨)ソース コードから vLLM をビルドしてインストールできます。 まず、Dockerfile.rocm から Docker イメージをビルドし、そのイメージから Docker コンテナを起動します。 Dockerfile.rocm はデフォルトで ROCm 6.1 を使用しますが、古い vLLM ブランチでは ROCm 5.7 および 6.0 もサポートされています。このアプローチは非常に柔軟で、Docker イメージのビルドは以下のパラメータを使用してカスタマイズできます。
これらの値は、docker build を実行するときに --build-arg オプションを使用して渡すことができます。 ROCm 6.1 で MI200 および MI300 シリーズ用の vllm を構築するには、デフォルト値を使用できます。 ROCm 6.1 で Radeon RX7900 シリーズ (gfx1100) 用の vllm をビルドするには、次のように BUILD_FA を指定する必要があります。 上記の Docker イメージ vllm-rocm を実行するには、次のコマンドを使用します。 ここで、<path/to/model> は、llama2 または llama3 モデルの重みなど、モデルが保存されている場所です。 オプション2: ソースコードからビルドする依存関係をインストールします (環境または Docker に次のものがすでにインストールされている場合は、この手順をスキップできます)。
PyTorch をインストールするには、rocm/pytorch:rocm6.1.2_ubuntu20.04_py3.9_pytorch_staging や rocm/pytorch-nightly などの新しい Docker イメージから開始できます。 あるいは、PyTorch ホイールを使って PyTorch をインストールすることもできます。PyTorch 入門ガイドの PyTorch インストールガイドをご参照ください。
知らせ
1. vLLM をビルドします。 ヒント たとえば、ROCM 6.1 上の vLLM v0.5.3 は、次の手順でビルドできます。 ヒント
ヒント MI300x (GFX942) をお使いの場合、最適なパフォーマンスを得るには、システムレベルおよびワークフローレベルのパフォーマンス最適化とチューニングの推奨事項について、MI300x チューニングガイドをご覧ください。vLLM の場合は、vLLM パフォーマンス最適化をご覧ください。 |
[vLLM Learning] ROCmを使ったインストール
関連するおすすめ記事
-
GPT-4がまだアメーバだとしたら、未来のティラノサウルス・レックスはどんな姿になるのだろうか? | ユヴァル・ノア・ハラリ著『Above Homo』
-
ハイライト満載!2024年OSCARオープンソース業界カンファレンスの全アジェンダを公開
-
WeRideの時価総額は1日で18億ドル急騰!自動運転関連企業が次々とIPOに臨む中、株価は40%も上昇しました。
-
崑崙科技の天宮AIがDeepSeek R1+オンライン検索を正式にリリースしました。
-
Slow Thinking のメタバージョンが登場しました。Tian Yuandong のチームは Fast Thinking と Slow Thinking を統合し、ユーザーが迷路を進んだり、ボックスを押したりできるようにしました。
-
AI が論文が受理されるかどうかを予測、8B モデルが 70B モデルを上回る、HKU がグラフとテキストを融合するマルチエージェント モデル GraphAgent をリリース。