Ubuntu25でllm-scalerのvllmもテストする

2026年2月13日 · 約4分

もみじーな

個人開発者

WSLで動かないですしUbuntu 24だとGPU２枚だとエラーが出て使えなかったので公式推奨のサポート期限切れのUbuntu 25.04をインストールしてみました。

とりあえず最初にもう言っておきますがさすが推奨バージョンです。
マニュアル通り基本動きます。
あとWSLと内容が重複してます。

準備

ドライバーインストール

公式を一応みてください
dgpu-docs-intel

sudo apt-get update
sudo apt-get install -y software-properties-common
sudo add-apt-repository -y ppa:kobuk-team/intel-graphics
sudo apt-get install -y libze-intel-gpu1 libze1 intel-metrics-discovery intel-opencl-icd clinfo intel-gsc
sudo apt-get install -y intel-media-va-driver-non-free libmfx-gen1 libvpl2 libvpl-tools libva-glx2 va-driver-all vainfo
sudo apt-get install -y libze-dev intel-ocloc
sudo apt-get install -y libze-intel-gpu-raytracing

base-toolkitをインストール

公式を見てください
base-toolkit

Ubuntu25も更新しないとパッケージは見つかりません。

公開鍵の取得

wget -O- https://apt.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB \
| gpg --dearmor | sudo tee /usr/share/keyrings/oneapi-archive-keyring.gpg > /dev/null

リポジトリの追加

echo "deb [signed-by=/usr/share/keyrings/oneapi-archive-keyring.gpg] https://apt.repos.intel.com/oneapi all main" \
| sudo tee /etc/apt/sources.list.d/oneAPI.list

インストール

終わったらrebootかけてください

sudo apt update
sudo apt install intel-oneapi-base-toolkit

GPUの認識確認

export LD_LIBRARY_PATH=""
source /opt/intel/oneapi/setvars.sh --force
sycl-ls

llm-scalerのvllmをdockerでインストール

現在はlatestも1.3なので確認してください。
一覧

sudo docker run -it --name my-vllm \
    --privileged \
    --net=host \
    --device=/dev/dri \
    --name=lsv-container \
    -v /home/intel/LLM:/llm/models/ \
    -e no_proxy=localhost,127.0.0.1 \
    -e http_proxy=$http_proxy \
    -e https_proxy=$https_proxy \
    --shm-size="16g" \
    --entrypoint /bin/bash \
  intel/llm-scaler-vllm:1.3

モデルのダウンロード

最初にモデルダウンロードしたほうが絶対いいですね・・・

huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local-dir DeepSeek-R1-Distill-Qwen-7B

gpt-oss-20b

huggingface-cli download openai/gpt-oss-20b --local-dir /llm/models/gpt-oss-20b

実行する

gpt-ossはbfloat16で大丈夫みたいですね
float16でやったり前はしてたので今回のバージョンはしっかりエラーでたのでわかりました。

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve \
    --model /llm/models/gpt-oss-20b \
    --served-model-name gpt-oss-20b \
    --quantization mxfp4 \
    --dtype bfloat16 \
    --host 0.0.0.0 \
    --port 8000 \
    --trust-remote-code \
    --gpu-memory-util 0.9 \
    --max-model-len 8192
    -tp 2

速度はどれくらいでるのか

1枚も2枚も速度差はなかったです。
最大70token/sなのでLM Studio以下ですね。
今,LM Studioなら80token/s以上一応でてますので・・・・

途中でモニターを4Kに変えたので見ずらいですけど編集めんどくさいのでズームしてください（必要なら）

一応、以下を実行してます。

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-oss-20b",
    "messages": [
      {"role": "user", "content": "Hello! How are you?"}
    ],
    "max_tokens": 4096
  }'

ArcシリーズはやっぱりWindowsでのほうが速そうですね。
llm-scalerのomniももしかしたらテストするかもしれないです。

Wan2.2をGPU2枚で実行できるらしい？ので

準備​

ドライバーインストール​

base-toolkitをインストール​

公開鍵の取得​

リポジトリの追加​

インストール​

GPUの認識確認​

llm-scalerのvllmをdockerでインストール​

モデルのダウンロード​

実行する​

速度はどれくらいでるのか​

準備