LLMモデルの推論速度をさまざまなGPUで比較します
このアプリは、さまざまなGPUとLLMモデルの組み合わせにおける推論速度と最大利用可能コンテキスト長をシミュレートするためのツールです。
主に、メモリ帯域幅の制限によるトークン生成速度と、メモリサイズ制限によるコンテキスト長上限を概算します。 これは、実際のベンチマークではなく、理論的な最大値に基づく簡易的なシミュレーションです。
シミュレーションするデータはDeep Researchにより取得されているため正しくない場合がありますがよろしいですか?