メインコンテンツまでスキップ
もみじーな
個人開発者
すべての著者を見る

WSLでllm-scalerのvllmもテストする

· 約4分
もみじーな
個人開発者

一応,Ubuntu24でテストしてみていける気がしたのでテストしてみましたが
LM Studioより速度が速くなるとかはなかったです。
一人で使うならLM Studioでよさそうです。

一応ですがWSLでの実行はあまりお勧めしないです。
パラメーターを細かく指定しないとすぐエラーです。

WSLにvllmを入れる

今回はUbuntu 24しかなかったので24ですね。

ドライバーインストール

公式を一応みてください
dgpu-docs-intel

sudo apt-get update
sudo apt-get install -y software-properties-common
sudo add-apt-repository -y ppa:kobuk-team/intel-graphics
sudo apt-get install -y libze-intel-gpu1 libze1 intel-metrics-discovery intel-opencl-icd clinfo intel-gsc
sudo apt-get install -y intel-media-va-driver-non-free libmfx-gen1 libvpl2 libvpl-tools libva-glx2 va-driver-all vainfo
sudo apt-get install -y libze-dev intel-ocloc
sudo apt-get install -y libze-intel-gpu-raytracing

base-toolkitをインストール

公式を見てください
base-toolkit

Ubuntu25ではわかりませんが24では少し更新しないとパッケージは見つかりません。

公開鍵の取得

wget -O- https://apt.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB \
| gpg --dearmor | sudo tee /usr/share/keyrings/oneapi-archive-keyring.gpg > /dev/null

リポジトリの追加

echo "deb [signed-by=/usr/share/keyrings/oneapi-archive-keyring.gpg] https://apt.repos.intel.com/oneapi all main" \
| sudo tee /etc/apt/sources.list.d/oneAPI.list

インストール

終わったらrebootかけてください

sudo apt update
sudo apt install intel-oneapi-base-toolkit

vllmをdockerで起動する

使うバージョンは最新ですが必要があれば変更してください。
一覧

sudo docker run -it --name my-vllm \
--shm-size 16g \
--privileged \
--device /dev/dri:/dev/dri \
-v /usr/lib/wsl:/usr/lib/wsl \
-e LD_LIBRARY_PATH=/usr/lib/wsl/lib \
--entrypoint /bin/bash \
intel/vllm:latest

GPUの認識確認

勝手にコンテナに入るはずなので以下を実行する

sycl-ls

モデルダウンロード開始

環境変数を指定
確認はこちら
こちらも

export VLLM_WORKER_MULTIPROC_METHOD=spawn
export VLLM_LOGGING_LEVEL=INFO

Qwen3 30bだとあふれたのでgpt-oss-20bを指定
サポートモデル一覧
20bでもwslだとすこしあふれたのであきらめ

VLLM_WORKER_MULTIPROC_METHOD=spawn vllm serve openai/gpt-oss-20b \
--dtype float16 \
--enforce-eager \
--port 8000 \
--host 0.0.0.0 \
--trust-remote-code \
--gpu-memory-util 0.9 \
# vllmなら下だけどこれもエラーはなかった
#--gpu-memory-utilization 0.9 \
--max-model-len 8192 \
--tensor-parallel-size 1
## どっちでも動く
##-tp 1

速度確認

プロンプトによって早かったり遅かったり
vllmは分散用?かもしれないですね。
WSLのせいなのかなんかちょっと共有にもれてますし・・・

他のとどっちがいいか

私はLM StudioかOllamaを使うことにしました。
速度もむしろLM Studioのほうが早そう。

2枚に分散するとクラッシュしたのでバージョンを下げるかしないのかダメそうだったので誰か検証してください・・・

Windowsのllm-scaler-omniでComfyUIをテストしてみる

· 約3分
もみじーな
個人開発者

WSL 2でllm-scalerが動かなかったのでomniも放置してましたけどWindows用ファイルがあるみたいだったのでテストです。

結果書いときますがWindows版は少し古いのが自動で入るので初期だとZ-imageとかも動かない感じでした(残念)

詳細はhttps://github.com/intel/llm-scaler/tree/main/omni/comfyui_windows_setup

起動方法

コードを取得

git clone https://github.com/intel/llm-scaler.git
cd llm-scaler\omni\

Condaで環境構築

Anacondaのインストールが必要です
Anaconda Promptから私は実行
ダウンロード

.\init_conda_env.bat

起動

cd ComfyUI
conda activate omni_env
python .\main.py --listen 0.0.0.0

一応、起動できました

とりあえず問題はなさそうでした。
2枚認識してくれるとかの特別な機能もなく普通

Ponyで画像生してみた

とりあえず適当に生成してみましたが別に早くなった感じもなしです。

Z-Image-turboで画像生成してみる

エラーがでてできませんでしたね。

アップデート方法が不明(だった)

ComfyUIのアップデート方法が不明でした。
公式は以下でアップデートできるとのこと

cd ComfyUI
git stash
git fetch origin
git pull
git stash pop

ただこれを実行してもgitでエラーでますし無理やりマスターに合わせてアップデートしたらCudaがないと動かないとエラーを吐きました。

batの編集がいりそうなのと速度も速くなったとかもなさそうなのでAI PlaygroundのComfyUIを使うかUbuntuで実行したほうがいいかもですね。

※アップデートのとこだけ見てて忘れてましたがパッチが一応あったみたいです。

速度はあがったか?

AI PlaygroundのComfyと比べても速度があがった感じはないですね。
Ubuntuでちゃんとしたやつ動かせば差がでるのかは検証が必要です。

最後に

LM Studioとかの最適化がいつされるのかわからないのもあるのでUbuntuでArc Pro B60 48GBだと速度に差がでるのか試してみます。

llm-scalerで速度が改善するならWindowsから変更ですね。

vllmが最適かされてるらしいので2倍とかでるかも?(不明)

Intel Arc Pro B60でLora学習をしてみる(テスト)

· 約3分
もみじーな
個人開発者

帰ってきて暇だったので郵便を待つ次いでにLora学習テスト中

RTX5090があるのでIntelでやる必要はないですがゲーム中とかにもLora学習したいのでテストです。

今回の学習に使用するGPUはIntel Arc Pro B60です。
使うツールはai-toolkitです。

ai-toolkitをIntelで使った人を見つけられなかったので自己流です。

今回は寝る前のテストすぎるので後でやり方は多分、まとめます。
IntelでLora学習やる理由も特にないのでたぶん・・・

学習してみる

Ponyをテストで学習してみることにしました。
理由はちょうど学習に使うためのモデルをダウンロード済だったからです。

ai-toolkitのwebuiは起動しましたがNvidiaのGPUが見つからないと表示されたのでコンソールだけで今回は学習してみます。

暇だったら書き換えますがやる必要はないです。
そしてこれが学習中の画面です。

一応、動いたので感動しました。
さすがxpuですが20GBもPonyの学習に使うんですね。
Optimizerの問題かもしれないですが動かせないことはない感じですね。
500ステップでたぶん50分から1時間って所だと思いますがPonyの学習ははじめてなので速いのかわからないです。

っとここらへんで郵便も届いたの今日はおしまいです。
( ˘ω˘)スヤァ

っと寝るとこだったんですが寝る前に終わってたので完了画面はっておきます。
50分はかからないって感じですかね

一応生成したみた画像を2枚
ちゃんと学習できてるかも不明なので今後検証が必要です。
そもそも500stepは少ないですよね。
下の画像の通りされてるようなされていないような
学習データとモデル(prefectIllustriousXL)が多分ですが似ててよくわからないのもあるので・・・

Illustrious(生成テスト)

Loraなし

Loraあり

そもそもIllustriousでやってるけどPonyと互換ありましたよね?

Pony(生成テスト)

不安なのでautismmixSDXL_autismmixPonyでもテスト

Loraなし

Loraあり

ってことで大丈夫そう。
IllustriousにPonyは完全互換ではやっぱなさそうですね。

寝る前に3000stepもテストしてみます。
なんだかんだ時間かかったけど今度こそ( ˘ω˘)スヤァ

Qwen3-Coder-NextをIntel Arc Pro B60でGPUフルロードしてみる

· 約6分
もみじーな
個人開発者

Qwen3-Coder-NextがでましたがVS Codeのエージェント機能でOpenRouterを使ってテストした時に案外よかったのでローカルで使えないかGPUでの速度検証です。

ちなみにQwen3-Coder-Nextでエージェントを動かしたらWindowsのフォルダ上では見えないフォルダを作り始めましたので注意が必要です。
ただガイドを読ませてのコード生成はClaude 3.7か4に近いものを作成してくれたので良かったです。

エージェント性能はそこそこ高そう?

今回もOllamaではなくLM Studioです。
Qwen3-Coder-NextはMXFP版を使いました。
Q4KS版も使ってみましたが速度はあんまりかわらないです。

Intelの最新のドライバーでは速度が低下しますが今回はあえて最新を使います。
一応、ダウングレードでのテスト結果も作成しました・・・

今回の設定

コンテキスト長を2万くらいにしてるはのあまり読み込んでも遅くなるだけなので・・・
あと読み込めても6,7万トークンが48GBじゃ限界

まず短いもの

こんにちはとうってみました35token/sでした。
まぁ、こんなもんかって感じです。
あれ?Ryzen AI Maxのほうが早かった気が?
嘘だといってくれIntel
最適化の問題だよなIntel

500文字指定

累計418トークンを使い 20token/sまで速度が低下します。

長いコード生成と連続生成

長いコード

長いコードを書かせるとこんな感じです。
使ったプロンプトは以下です。

あなたは世界最高峰のフロントエンドエンジニアです。
以下の要件定義に基づいて、レンタルサーバーで動作する「没入感のあるハッカー風Webサイト」のコード(HTML/CSS/JS)を作成してください。

1. サイトのコンセプト
「極秘システムのアクセス端末」
ユーザーがサイトに訪れると、そこは謎の組織のサーバーへの侵入画面であるという設定です。
全体的にダークで、サイバーパンクな雰囲気(黒背景×緑色のネオン)で統一してください。

2. 必須ギミック(要件)
以下の4つの動的なギミックを必ず実装してください。

1. マトリックス・レイン(背景):
HTML Canvasを使用し、緑色の文字(数字・半角カナ・アルファベット)が雨のように降り注ぐエフェクトを背景全体に描画してください。

2. タイプライター・オープニング:
ページ読み込み時、メインのメッセージ(例: "INITIALIZING CONNECTION...", "ACCESS GRANTED.")を、一文字ずつタイピングされているかのように表示してください。

3. CSSグリッチ・エフェクト:
サイトのメインタイトル(例: "SYSTEM 32")に対し、CSSの `@keyframes` と `clip-path`、`text-shadow` を駆使して、時折ノイズが走って文字がズレるような「グリッチアニメーション」を適用してください。

4. フェイク・ターミナル(対話機能):
画面下部にコマンド入力欄(`input type="text"`)を設けてください。
デザインは黒背景に緑文字で、左側に `visitor@root:~$` のようなプロンプトを表示してください。
以下のコマンドに対応するロジックをJavaScriptで書いてください(if文やswitch文を使用)。
`help`: 使用できるコマンド一覧を表示。
`about`: サイトの架空の説明を表示。
`clear`: ターミナルのログを消去。
それ以外: "Command not found" と表示。
重要: 入力された内容は画面内のログエリアに表示するだけに留め、サーバーへの送信は一切行わないでください(XSS対策として、入力値はテキストとして安全に処理すること)。

3. ファイル構成と技術スタック
HTML5: `index.html`。セマンティックなマークアップ。
CSS3: `style.css`。Google Fonts("Share Tech Mono" や "Courier Prime" 等)のCDNを含め、ハッカーらしい等幅フォントを使用してください。
JavaScript: `script.js`。ライブラリ依存なしのVanilla JS。

4. 安全性への配慮
ターミナル機能はすべてクライアントサイド(ブラウザ内)で完結させてください。
外部へのデータ送信機能は実装しないでください。

5. 出力
`index.html`, `style.css`, `script.js` の3つのコードブロックを出力してください。

できたのはこんな感じ

連続生成する

次に会社のホームページを考えてみてと入力して送信してみました。
2/2になってるのはループに入ったから一度キャンセルしてモデルも再ロードしました・・・

連続生成する2

最後に午年にちなんだWebアプリを考えさせてみました。
少しtoken数がずれてますが2万トークンを86%使って12token/sを維持できてるのでまぁ、使えなくはないですね。

できたサイトですが少し名前がおしゃれなのがポイント高いです。

ドライバーをダウングレードしてみる

2025年7月のドライバーでのテストです。
32.0.101.6862というバージョンです。

長いコード

30token/sです。

500文字指定

34token/sです。

最後に(感想とか)

結構いいモデルですよね。
ローカルだけで使うなら十分使えるモデルです。

ただIntel Arc Pro B60のドライバーが不安定すぎてRyzen AIにすら負ける始末。

発売前のバージョンまでダウングレードしたほうが安定するってどういうこと・・・

Ubuntuでも安定しないしB60君は何なら輝くのか

x8/x8までしか対応してないので買わないけど3枚買ってgpt-oss-120b動かすとかは考えない方がいいです。

個人なら買っても1,2枚かな3枚必要なモデルは帯域速度的にあまり期待でないのでどうしてもVramが必要か企業とかで試したいとかになるのかな・・・

たぶん個人購入ならRyzen AI買った方が幸せかなまだ・・・

それともllm-scaler-vllmを使えば早くなるんですかね?

WSL2のUbuntuだとGPUが認識してくれないのであきらめてましたが

Ubuntuもあれから試してないけど最適化されてる可能性はありますのでそのうち

Intel AI PlaygroundのComfyUIを外部からアクセスする為のメモ

· 約1分
もみじーな
個人開発者

Intel AI Playgroundを入れなおした時にどう外部(別PC)からComfyUIに接続できるようにしたか忘れてたのでメモです。

アプリ右クリックでフォルダの場所を開くでエクスプローラーを開く

resources→ComfyUI→comfyのフォルダへ移動

cli_args.pyをメモ帳とかVsCodeとか好きなので開き編集

変更前

parser.add_argument("--listen", type=str, default="127.0.0.1", ...

変更後

0.0.0.0にするだけ

parser.add_argument("--listen", type=str, default="0.0.0.0", ...

ComfyUIを再起動

AI Playgroundを一度完全に終了し、再度起動するだけ
あとはPCのIP+指定ポートに接続するだけ

やる方はポート開放も忘れず

ただのメモです。
多分次も忘れるので
なんならメモしたことも忘れそう

ConoHa VPSのL4 24GBサーバーを少しだけ使ってみる

· 約3分
もみじーな
個人開発者

タイトル通りです。
ConoHa VPSでL4サーバーを使ってみました。

LocalAIの構築方法はNextcloudにLocalAIを導入してみる(GPU)としてメモしてあります。

今回の目的はNextcloudにGPUサーバーを使ったAI導入(LocalAI)のテストの為です。

結論を最初に書いておきますが圧倒的にディスクの容量が足りないです。

ディスク100GBで使うならモデルを厳選する必要がありそうです。

ただかなり安いです。

1時間66円でレンタルできます。

最大39930円と正直な話をするなら24GBのL4 GPUが使いたいだけならかなりお得。

テストで4時間くらい借りましたけど安いですね。

しかも今なら2000円分の駅伝記念クーポンを配布してたので無料でした。
GPUサーバーにも適用されるのかは不明なんですけね・・・
まぁされなくても4時間なので数百円

以下からLocalAIの簡単なテスト結果

ConoHa VPSのL4 24GBによるLocalAIの簡単な速度テスト結果

2モデルだけです。
gpt-oss-20bも計測しましたがスクショ忘れましたね。

GLM-4.7-Flash

token/sが16.7です。

Qwen3-30B-a3b

token/sが38.2です。

ConoHa VPSのL4サーバーを使ってみての感想

容量不足!!!
モデルとかダウンロードしたらすぐ足りなくなりました。

本当はZ-Imageも使えるみたいだったので試したかったんですけどね・・・

容量不足だと警告がでてしまいました。

なぜかGLM-4.7-Flashが消せなくなったのもあり面倒くさいので今日はここであきらめました。

GPUサーバーにもクーポンが適用されるようならLora学習のテストでもしてみようかな・・・


2026年2月1日追記ですがGPUサーバーもクーポンは適用されていたので時間があるときにLora学習は試してみます。

Intel Arc Pro B60でWan2.2を動かしてみてわかったこと

· 約2分
もみじーな
個人開発者

2026年1月18日に一部修正
2026年フォルダを作成したのが原因でimgエラーがでてたのでテスト用画像を貼り付けてましたがで消去しました。


IntelのGPUでの生成は遅いのはわかっていますがテストで動画を作成してみました。

今回はWAN2.2-14B-Rapid-AllInOneを使ってテストしてます。

生成してみてわかったこと

とりあえず生成はできました。
とりあえずサンプルにあるプロンプトをそのままの生成と初期設定で298秒です。

とここまではよかったのですが2回目の生成は必ずブロックノイズ動画しかできないという謎現象がおきました。

VRAMが足りてないのかと思い生成中に確認しましたが以下のように別にVRAMからあふれているとかもなかったんですよね。

そして色々テストしてみてわかったのがGPUを2枚目にしていたことが問題だったみたいです。

1枚目にしてからはgeminiでテストプロンプトを生成しながらテストしましたが以下のように問題なく動画の生成でバグるとかもなかったです。
Intel Arc Pro B60でのWan2.2の生成時間は1280x720のステップ数で350秒くらいだと思ってもらえればと思いますがステップ数などの設定やドライバーのバージョンで変わってくるので現在はこれくらいです。

1280x720の数秒の動画で350秒くらいだとちょっと遅いですよね・・・

LTX-2 Videoっていう少し長めの音声付きの生成がこの前でたので年内もしかしたらWanとかQwenとかの20,30秒出るかもしれないですね。

これで3分とかの生成ができるようになったらRubinを本当に買ってみるかもしれないです。

Intel Arc Pro B60の環境を調整したから70bから20bまでテストするぞ

· 約3分
もみじーな
個人開発者

Intel Arc Pro b60の再計測です。

買う方がいるならまぁ参考に・・・

Intel Arc Pro B60 24GBの在庫はどこにいったんですかねこれ

llama-3.3-70bを計測する

短い質問

まず少し古いですがいいのがなかったのでこの70bモデルです。
まず短い質問で9.79token/sでした。

500文字程度の生成はどうか?

8.47token/sです。
文章をつくるだけなら問題ないくらいの速度ですかね

かなり長いコードを生成させる

6.41token/sと前よりもはね?

HyperNova-60bを計測する

最近でたばっかりのgpt-oss 120b関連のモデルらしい?

短い質問

見てくださいこの速度
62token/sです。

500文字程度の生成はどうか?

かなり長いコードを生成させる

44token/sとかなりいい速度がでてますがこのモデルのコード生成は微妙でしたね・・・

※このモデルはまだ微妙

日本語も微妙です5000文字で物語を指定したら日本語と英語がまざりました。

Qwen3 Coder 30b a3bを計測する

短い質問

30bのa3bなら85token/sもでます。

かなり長いコードを生成させる

コードモデルなので500文字はカットしてます。
36token/sです。

コンテキスト長を20万トークンにしてみる

さすが20万トークンですね
40GB近くロードされます。(分割ロードなので)

1回目の速度は問題ないですが使えて5万トークンくらいかもしれないですね・・・

gpt-oss-20bを計測する

短い質問

73token/sです。

500文字程度の生成はどうか?

70token/sと悪くないですね。

最後に

いかがでしょうか48GBで24万ならわりとありなんじゃないかと思える速度だったのではないかと思いますがRTX5090とどうしても比べてしまって遅く感じてしまいます。
それにまだ最適化がすんでいないのでgpt-oss-20bも最適化によっては90token/sは出る気がするのでIntelさん早くお願いします。

llama.cppなら現状でも+20%くらいでたはずなのとRyzen AI Max+ 395 128gbですらgpt-oss-20bで60くらいでるらしいので1.5倍は帯域的にでるだろうという計算です。

Ryzen AI Max+ 395 128gbもMSIから搭載PCがでるらしいので日本で発売されるようなら比較してみたいです。

Qwen-Image-2512をArc Pro B60で試したら遅かった

· 約2分
もみじーな
個人開発者

※1月12日に生成速度結果について少し追記しました。


HyperNova 60Bというモデルのテストするついでに試してますがタイトル通りです。

遅いです。

生成はできますがさすがに5090をこれは使います・・・

そもそもIntel GPUのComfyUIの入れ方を調べるのめんどくさかったのでAI Playgroundについてるじゃんと思ってそれを使っているのでこれで遅くなっている可能性はありますがね・・・

生成テスト結果

設定は私の好きな20stepの解像度は1920x1088です。
Loraは現在、テストで作成中のものをつかっています。
1生成が445秒はさすがに遅いです。

2枚目の生成なら変わるかと思い連続でやりましたがあんまりかわらず。
確かに427秒と短くなってますが誤差ですよねこれもう

追記してます。
結局、設定見直したりしたら20stepでも360秒程度になりました まぁ、1枚360秒はさすがに遅いのに変わりはないですけども

一応,Lightningを使って4stepと8stepでテストしましたが画質が微妙です。
4stepが205秒、8stepが265秒って感じですね。
やっぱり20stepはほしい。
Lightningも確かに4,8stepである程度きれいになるんですけど画質はかなり落ちてます。
つけたとしても20stepにします・・・

20stepで生成した画像だけ1枚貼っておきます。

1024*1024の生成テストも追加で貼っておきます。
270秒まで縮みます。

Intel Arc Pro B60でもやっぱりQwen-Imageレベルは遅いですね。

ただ動かせるのでfp8版が動かしたいだけの方にはIntel Arc Pro B60は選択肢に入るのかもしれないですね。

一応,最後に生成中のメモリ使用率です。
1枚目のIntel Arc Pro B60で生成してます。

Z-Image-TurboをArc Pro B60で試してみただけ(案外早い?)

· 約2分
もみじーな
個人開発者

去年,Arc Pro B60 24GBを2枚買ってRTX5090とは別で運用してますが案外気に入っています。

Windowsで運用するならとても静かですね。

Ubuntuだとファンコントローラーが死ぬので少し音が気になります。

と話がずれてましたがArc Pro B60 24GBでZ-Image-Turboをテストだけしました。

問題なく動いたので今後のIntel製品には本当に期待してます。

Arc Pro B60でComfyUIのZ-Imageを動かす

ComfyUIですがIntelのGPUでインストールする方法はとても簡単でした。

IntelからでてるAI Playgroundというソフトをインストールするだけで簡単にインストールできました。

ComfyUIの開き方は画像のよう設定からOpen ComfyUI押すだけです。

Pythonすらインストールしてないけど

どうやって動いているのかは不明です。

インストール後にCMDでPython確認しても反応はなかったので仮想的に動いているんですかね?

モデルファイルの配置方法は基本的に他と同じですがAI Playgroundのインストール先をファイルの場所を開くで開いてそこに入れたらいけました。

Z-Image-TurboをArc Pro B60でテストする

今回は2枚目のArc Pro B60を使ってテスト生成してみましたが問題なさそうです。

1920x1088の20Stepで60秒って感じです。
案外早いですよねこれ?

一応、生成した画像を何枚か貼っておきますがLoraが強すぎて手が微妙になってます。
Z-Imageだと私のLoraは強度1だとなぜか不安定なんですよね。(0.8-0.9で安定)

Qwen-Image 2512も暇だったら試します。