Capacity Explorer Capacity Explorer

More Concurrent Users, Same GPU 相同 GPU,更多並行使用者

Drag SLA thresholds to find your workload's operating point. See how aiDAPTIV KV cache reuse doubles capacity from the same GPU.拖曳 SLA 門檻,找到你工作負載的最佳營運點。看 aiDAPTIV KV cache 重用如何從相同 GPU 獲得雙倍容量。

Context length 上下文長度
TTFT SLA TTFT SLA
Upper bound 上限 ≤ 10.0 s
TPS SLA TPS SLA
Lower bound 下限 ≥ 20 tok/s
Concurrent users 並行使用者
TTFT

Lower is better 越低越好

TTFT

Lower is better 越低越好

Concurrent users 並行使用者

Token Per Second

Higher is better 越高越好

TPS

Higher is better 越高越好

Concurrent users 並行使用者

Without aiDAPTIV
With aiDAPTIV
SLA threshold
H200 ×1 32K context TTFT ≤ 10.0s TP ≥ 20 t/s

Want to run these numbers on your specific model and SLA requirements? 想針對你的特定模型與 SLA 需求進行計算?

Contact Sales 聯繫銷售