LLM GPUトークン生成速度シミュレーター

LLMモデルの推論速度をさまざまなGPUで比較します

モデル選択

モデル情報

モデル: -

パラメータ: -

KVキャッシュ/トークン: -

GPU選択

シミュレーション設定

シーケンス長

1024

バッチサイズ

1

精度

シミュレーション結果

GPUモデル	メーカー	メモリ帯域幅 (GB/s)	メモリ (GB)	生成速度 (トークン/秒)	最大コンテキスト長	詳細