|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、大規模言語モデル (LLM) の推論と展開用に設計された、高速で使いやすいライブラリです。 vLLM のコア機能は次のとおりです。
vLLM の柔軟性と使いやすさは、次の側面に反映されています。
詳細については、以下を参照してください。
書類はじめるインストール ROCmを使用してインストール OpenVINOを使用してインストールする CPUを使用してインストール Neuronを使用してインストール TPUを使用してインストールする XPUを使用してインストールする クイックスタート デバッグのヒント 例 展開するOpenAI互換サーバー Dockerを使用してデプロイする 分散推論とサービス 生産目標 環境変数 統計データ収集の使用 統合 CoreWeaveのTensorizerを使用してモデルをロードする 互換性マトリックス よくある質問 モデルサポートされているモデル 新しいモデルを追加 マルチモーダル入力を有効にする エンジンパラメータ LoRAアダプタの使用 VLMの使用 vLLMでの投機的デコードの使用 パフォーマンスとチューニング 定量化量子化カーネルでサポートされるハードウェア オートAWQ ビットとバイト GGUF INT8 W8A8 FP8 W8A8 FP8 E5M2 KVキャッシュ FP8 E4M3 KVキャッシュ 自動プレフィックスキャッシュ導入 成し遂げる 一般化されたキャッシュ戦略 パフォーマンスベンチマークテストvLLMベンチマークスイート 開発者向けドキュメントサンプリングパラメータ オフライン推論
vLLMエンジン LLMエンジン
vLLMページネーションの注意
入力処理
マルチモーダル
Dockerファイル vLLMパフォーマンス分析
コミュニティvLLMパーティー スポンサー 索引と表
|
[vLLMラーニング] vLLMへようこそ!
関連するおすすめ記事
-
イーロン・マスクの新しい採用戦略:学歴は不要、コードだけ。
-
AIが物理世界をより深く理解できるようにする!中国人民大学、北京郵電大学、上海AIラボなどが提案する新たなマルチモーダルセグメンテーション手法
-
AI時代においては、ユニコーンではなく、1日あたり平均消費量の10億トークンに注目してください。
-
vLLMの中国語版ドキュメントが初めて公開されました!最新バージョンでは、スループットが2.7倍向上し、レイテンシが5分の1に削減され、大規模言語モデルの推論速度が向上します!
-
投資家たちの熱狂は非常に高く、Pony.aiはIPOで追加株を発行し、総額33億元を調達した。
-
前例のない!Intel と AMD が x86 を救うために提携。