メインコンテンツまでスキップ

Qwen3-Coder-NextをIntel Arc Pro B60でGPUフルロードしてみる

· 約6分
もみじーな
個人開発者

Qwen3-Coder-NextがでましたがVS Codeのエージェント機能でOpenRouterを使ってテストした時に案外よかったのでローカルで使えないかGPUでの速度検証です。

ちなみにQwen3-Coder-Nextでエージェントを動かしたらWindowsのフォルダ上では見えないフォルダを作り始めましたので注意が必要です。
ただガイドを読ませてのコード生成はClaude 3.7か4に近いものを作成してくれたので良かったです。

エージェント性能はそこそこ高そう?

今回もOllamaではなくLM Studioです。
Qwen3-Coder-NextはMXFP版を使いました。
Q4KS版も使ってみましたが速度はあんまりかわらないです。

Intelの最新のドライバーでは速度が低下しますが今回はあえて最新を使います。
一応、ダウングレードでのテスト結果も作成しました・・・

今回の設定

コンテキスト長を2万くらいにしてるはのあまり読み込んでも遅くなるだけなので・・・
あと読み込めても6,7万トークンが48GBじゃ限界

まず短いもの

こんにちはとうってみました35token/sでした。
まぁ、こんなもんかって感じです。
あれ?Ryzen AI Maxのほうが早かった気が?
嘘だといってくれIntel
最適化の問題だよなIntel

500文字指定

累計418トークンを使い 20token/sまで速度が低下します。

長いコード生成と連続生成

長いコード

長いコードを書かせるとこんな感じです。
使ったプロンプトは以下です。

あなたは世界最高峰のフロントエンドエンジニアです。
以下の要件定義に基づいて、レンタルサーバーで動作する「没入感のあるハッカー風Webサイト」のコード(HTML/CSS/JS)を作成してください。

1. サイトのコンセプト
「極秘システムのアクセス端末」
ユーザーがサイトに訪れると、そこは謎の組織のサーバーへの侵入画面であるという設定です。
全体的にダークで、サイバーパンクな雰囲気(黒背景×緑色のネオン)で統一してください。

2. 必須ギミック(要件)
以下の4つの動的なギミックを必ず実装してください。

1. マトリックス・レイン(背景):
HTML Canvasを使用し、緑色の文字(数字・半角カナ・アルファベット)が雨のように降り注ぐエフェクトを背景全体に描画してください。

2. タイプライター・オープニング:
ページ読み込み時、メインのメッセージ(例: "INITIALIZING CONNECTION...", "ACCESS GRANTED.")を、一文字ずつタイピングされているかのように表示してください。

3. CSSグリッチ・エフェクト:
サイトのメインタイトル(例: "SYSTEM 32")に対し、CSSの `@keyframes` と `clip-path`、`text-shadow` を駆使して、時折ノイズが走って文字がズレるような「グリッチアニメーション」を適用してください。

4. フェイク・ターミナル(対話機能):
画面下部にコマンド入力欄(`input type="text"`)を設けてください。
デザインは黒背景に緑文字で、左側に `visitor@root:~$` のようなプロンプトを表示してください。
以下のコマンドに対応するロジックをJavaScriptで書いてください(if文やswitch文を使用)。
`help`: 使用できるコマンド一覧を表示。
`about`: サイトの架空の説明を表示。
`clear`: ターミナルのログを消去。
それ以外: "Command not found" と表示。
重要: 入力された内容は画面内のログエリアに表示するだけに留め、サーバーへの送信は一切行わないでください(XSS対策として、入力値はテキストとして安全に処理すること)。

3. ファイル構成と技術スタック
HTML5: `index.html`。セマンティックなマークアップ。
CSS3: `style.css`。Google Fonts("Share Tech Mono" や "Courier Prime" 等)のCDNを含め、ハッカーらしい等幅フォントを使用してください。
JavaScript: `script.js`。ライブラリ依存なしのVanilla JS。

4. 安全性への配慮
ターミナル機能はすべてクライアントサイド(ブラウザ内)で完結させてください。
外部へのデータ送信機能は実装しないでください。

5. 出力
`index.html`, `style.css`, `script.js` の3つのコードブロックを出力してください。

できたのはこんな感じ

連続生成する

次に会社のホームページを考えてみてと入力して送信してみました。
2/2になってるのはループに入ったから一度キャンセルしてモデルも再ロードしました・・・

連続生成する2

最後に午年にちなんだWebアプリを考えさせてみました。
少しtoken数がずれてますが2万トークンを86%使って12token/sを維持できてるのでまぁ、使えなくはないですね。

できたサイトですが少し名前がおしゃれなのがポイント高いです。

ドライバーをダウングレードしてみる

2025年7月のドライバーでのテストです。
32.0.101.6862というバージョンです。

長いコード

30token/sです。

500文字指定

34token/sです。

最後に(感想とか)

結構いいモデルですよね。
ローカルだけで使うなら十分使えるモデルです。

ただIntel Arc Pro B60のドライバーが不安定すぎてRyzen AIにすら負ける始末。

発売前のバージョンまでダウングレードしたほうが安定するってどういうこと・・・

Ubuntuでも安定しないしB60君は何なら輝くのか

x8/x8までしか対応してないので買わないけど3枚買ってgpt-oss-120b動かすとかは考えない方がいいです。

個人なら買っても1,2枚かな3枚必要なモデルは帯域速度的にあまり期待でないのでどうしてもVramが必要か企業とかで試したいとかになるのかな・・・

たぶん個人購入ならRyzen AI買った方が幸せかなまだ・・・

それともllm-scaler-vllmを使えば早くなるんですかね?

WSL2のUbuntuだとGPUが認識してくれないのであきらめてましたが

Ubuntuもあれから試してないけど最適化されてる可能性はありますのでそのうち