OpenAIのgpt-oss-20bをテストする
LMStudioでgpt-oss-20bを試してみました。
20bなのであまり期待はできませんがQwen3 Coderと比較したかったので前と同じプロンプトでテストです。
HTML, CSS, JSを使用して、2025年9月に開催される『Tech Innovation Summit』のウェブサイトを作成してください。イベント概要、スケジュール、講演者紹介、チケット購入ページを含み、モダンで革新的なデザインにし、カウントダウンタイマーも実装してください。
gpt-oss-20bで作成したサイトが以下です。
https://momijiina.com/other/20250811/gpt-oss-20b.html
前回のqwen3-coder-30bでテストしたやつ
https://momijiina.com/other/20250801.html
正直、どっちも悪くはないですがqwen3-coder-30bのほうがきれいです。
gpt-oss-20bはRTX 5090で165.66 tok/secでした。
おそらくこちらもMOEです。
あと試してみてなかったのでqwen3-30b-a3b-2507も試してみました。
https://momijiina.com/other/20250811/qwen3-30b-a3b-2507.html
あれ? qwen3-30b-a3b-2507のほうがいい?
やっぱりテストプロンプトはもっと難しいやつにしたほうがいいかな?
なので次のテスト(プロンプトはAI生成です)
「Googleスプレッドシート風」の軽量ウェブアプリ(静的: HTML/CSS/Vanilla JSのみ)を生成してください。
要件:
index.html / styles.css / script.js の3ファイル構成
機能:
任意サイズ初期グリッド (例: 20列 x 30行) を生成
A1 形式セル参照
数式: 先頭= のセルは式として評価
四則演算 (+ - * /)
括弧 ()
セル参照 (例: =A1+B2*2)
範囲対応関数: SUM(A1:B5), AVG, MIN, MAX
再計算はセル変更時に全体再評価(循環参照はエラーマーク)
行/列の追加ボタン
選択セル強調・行列ヘッダー固定
コピー & ペースト (Ctrl+C / Ctrl+V) : 値ベース
Undo / Redo(直近履歴 50 件)
データの JSON / CSV エクスポート & インポート
ローカルストレージ自動保存(間隔 2 秒 or デバウンス)
ダーク / ライトテーマ切替
UI:
簡易ツールバー: 追加行/列, Undo, Redo, Export JSON, Import JSON, Export CSV, Theme toggle, Clear
ステータスバーに: 選択セルアドレス, 計算結果プレビュー
コード品質:
モジュール的構造 (関数を整理)
コメントで主要ロジック説明
依存なし(CDN含む)
アクセシビリティ配慮 (tabindex, aria-label)
セキュリティ:
eval 不使用。自作の式パーサー/トークナイザで実装
想定外トークンはエラー扱い
パフォーマンス:
1000+ セルでも即時レスポンス
再計算アルゴリズムはシンプルな全再計算で可(要最適化コメント)
出力: ファイルごとにコードブロック (ファイル名付き) で提示。
最後に利用手順 (ブラウザで開くだけ) と拡張アイデア箇条書き。
各モデルで作成したサイトの画像です。
ちょっと今回、JSONのインポートがあるので写真だけです。(危ないので)
ChatGPT5 比較用
gemma3 27b (53.93 tok/sec)
qwen3-coder-30b (128.50 tok/sec)
qwen3-30b-a3b-2507 (138.83 tok/sec)
gpt-oss-20b (164.46 tok/sec)
gemma3は見た目だけで入力が不可能でした。
gpt-oss-20b、qwen3-30b-a3b-2507に関してはセルは表示されず。
今回、1回の生成だけでまともに動いたローカルモデルはqwen3-coder-30bだけですがエラーを追加で貼り付ければ修正はどのモデルでも可能です。
GPT5を10点とするとqwen3-coder-30bは5か6点です。
ですがローカルで動くことに価値がありますのでqwen3-coder-30bは今のところ 5090で動作する最高のモデルですね。