0 0 % UP % UP More Usable GPU Capacity 更多可用 GPU 算力容量
Reuse previously generated KV cache instead of rebuilding it, freeing GPUs for additional workloads. 重用先前產生的 KV 快取 (KV cache) 而非重新建構、釋放 GPU 資源以處理額外工作負載。
Cache Server 把 GPU 叢集的 KV cache 變成跨節點共享的儲存池 —
VRAM / DRAM / SSD 分層推論,透過 InfiniBand 或 RoCE 高速網路即取即用。
現有GPU叢集即刻上線、GPU推論成本砍半、Concurrent User倍增、TTFT 大幅下降。
Reuse previously generated KV cache instead of rebuilding it, freeing GPUs for additional workloads. 重用先前產生的 KV 快取 (KV cache) 而非重新建構、釋放 GPU 資源以處理額外工作負載。
Serve more concurrent users on the same GPU infrastructure by improving KV cache reuse across sessions and nodes. 藉由改善跨工作階段與節點的 KV 快取重用,在相同的 GPU 基礎設施上服務更多並行使用者。
Retrieve cached context from VRAM, DRAM, or SSD tiers instead of recomputing prefill from scratch. 自 VRAM、DRAM 或 SSD 分層中擷取已快取的上下文,而非從頭重新計算 prefill。
現有 GPU Server 透過 InfiniBand / RoCE 連到 Cache Server。VRAM → DRAM → SSD 三層分層快取,容量隨需擴張,效能與成本同時兼顧。
現有 GPU Server 透過高速網路存取 Cache Server,無需更換 GPU 或重編應用。
VRAM / DRAM / SSD 三層快取,隨需擴充容量、同時壓低 GPU 運算成本。
從單一節點到大規模 GPU 叢集,靈活擴張,Kubernetes 原生支援。
以經濟的 SSD 取代昂貴 DRAM 擴充,低成本實現效能升級。
從 RAG、文件摘要到 Agent 多輪對話 — 一種架構,適合各種推論規模。
Agent 不是「一問一答」,而是「思考 → 動作 → 觀察」反覆循環 —— 每一步都把整段歷史壓進 cache。 Agents aren't one‑shot Q&A — they loop through Think → Act → Observe, packing the full history into cache at every step.
Tool Schema、MCP 定義與角色指令(Role Instructions)—— 初始 Context 即達 5k–20k Tokens。
ReAct 思考迴圈(Thought → Action → Observation)中,每一步驟皆會附加至 Context,必須完整保留以維持推理的連貫性。
長上下文會話中斷後重啟,若無快取保留,GPU 必須重新 Prefill 完整歷史,造成嚴重的延遲與算力浪費。
Web search、檔案讀取、資料庫查詢、API 回應常常一次塞進數千 tokens。
多個子代理(Sub-agents)各自承載完整 Context,並行工具調用(Parallel Tool Calls)導致快取需求呈指數級倍增。
沒有 KV Cache Reuse,每步都得重算全部歷史 token。
GPU 算力被 prefill 重算淹沒。 Without KV Cache reuse,
every step recomputes all historical tokens — GPU compute drowns in prefill recomputation.
KV cache 需求是數百 GB 到 TB 級,VRAM+DRAM 卻只能容納很小部分。新 request 一來就 evict 熱資料,舊 session 回來只能重做 prefill — 惡性循環。 KV cache demand reaches hundreds of GB to TBs, but VRAM + DRAM holds only a small slice. New requests evict hot data on arrival; returning sessions are forced to recompute prefill — a vicious cycle.
惡性循環 Vicious cycle
舊的熱資料被 LRU 踢出。 Old hot data gets kicked out by LRU.
Cache miss,只能重做 prefill。 Cache miss — only option is to recompute prefill.
下一輪重複此循環。 The next round repeats the same loop.
良性循環 Virtuous cycle
高頻訪問仍享有 ns~ms 級延遲。 High‑frequency access still enjoys ns–ms latency.
TB 級空間,evict 不再是常態。 TB‑scale capacity — eviction is no longer the norm.
比重做 prefill 仍快 7×+。 Still 7×+ faster than recomputing prefill.
VRAM is expensive and too small. With tiered caching, hot data stays in VRAM/DRAM while warm and cold data lives on NVMe or the Distributed Cache Server — and any node in the cluster can hit and reuse it.VRAM 昂貴又太少容量。透過分層快取,熱資料留在 VRAM/DRAM,溫冷資料使用 NVMe 或 Distributed Cache Server,叢集任一節點都能命中重用。
Old conversations no longer get squeezed out by VRAM. When users return, the cache is recalled — no recompute, continuous experience. 舊對話不再被 VRAM 容量擠掉,使用者回來時,調用 cache 不須重算,體驗連貫。
Cache on any cluster node can be reused by another prefill node — no session‑aware routing required. Cluster 內任一節點的 cache 可被其他 prefill node 重用,不需 session-aware routing。
Trade cheap NVMe / DRAM for expensive VRAM — per‑token serving cost drops dramatically. 用便宜的 NVMe / DRAM 換取貴的 VRAM,單位 token 服務成本顯著下降。
Agent workflows, multi‑turn dialogue, RAG, and document summarization all gain latency and stability together. Agent Workflow、多輪對話、RAG、文件摘要等場景,延遲與穩定性同步改善。
Once produced, KV cache is shared across the entire cluster. Long prompts, multi-turn dialogue, agent workflows, and RAG prefixes don't have to run from scratch every time - Time-to-First-Token drops immediately.KV cache 一旦產生,就在整個 Cluster 內可共用。長 prompt、多輪對話、Agent workflow、RAG 的 prefix 不必再每次從零跑起,Time-to-First-Token 立刻下降。
Same GPU cluster, more than 2x concurrency. Prefill no longer hogs the GPU. 同樣的 GPU 叢集,翻倍以上的併發。Prefill 不再佔滿 GPU。
With KV cache reuse, GPU compute drops by more than half. 透過 KV-Cache,GPU 節省一半以上的算力。
Hit-and-return replaces recompute. 命中即返,取代重算。
Reserve your GPU's precious compute for response generation — and offload input processing to aiDAPTIV Cache Memory. aiDAPTIV keeps your AI Agents running fuller, steadier, and more cost-efficiently. 將 GPU 的寶貴算力留給「生成回覆」,並把「解析輸入」的計算負擔交給 aiDAPTIV Cache Memory。aiDAPTIV 讓您的 AI Agent 運作得更滿、更穩、更划算。
Explore Inference Capacity 探索推論容量