Cache Server Cache Server

Cache Server 把 GPU 叢集的 KV cache 變成跨節點共享的儲存池 — VRAM / DRAM / SSD 分層推論,透過 InfiniBand 或 RoCE 高速網路即取即用。
現有GPU叢集即刻上線、GPU推論成本砍半、Concurrent User倍增、TTFT 大幅下降。

0 0 % UP % UP More Usable GPU Capacity 更多可用 GPU 算力容量

Reuse previously generated KV cache instead of rebuilding it, freeing GPUs for additional workloads. 重用先前產生的 KV 快取 (KV cache) 而非重新建構、釋放 GPU 資源以處理額外工作負載。

0 0 % UP % UP Concurrent Users 並行使用者

Serve more concurrent users on the same GPU infrastructure by improving KV cache reuse across sessions and nodes. 藉由改善跨工作階段與節點的 KV 快取重用,在相同的 GPU 基礎設施上服務更多並行使用者。

0 0 % UP % UP Faster TTFT vs. Recompute TTFT 較重算更快

Retrieve cached context from VRAM, DRAM, or SSD tiers instead of recomputing prefill from scratch. 自 VRAM、DRAM 或 SSD 分層中擷取已快取的上下文,而非從頭重新計算 prefill。

GPU 叢集 + Cache Server

現有 GPU Server 透過 InfiniBand / RoCE 連到 Cache Server。VRAM → DRAM → SSD 三層分層快取,容量隨需擴張,效能與成本同時兼顧。

KV cache 重用叢集推論
GPU Server 1
Compute Node
VRAM
DRAM
GPU Server 2
Compute Node
VRAM
DRAM
GPU Server 3
Compute Node
VRAM
DRAM
高速互連
Cache Server 1
Shared Cache Node
SSD
SSD
Cache Server 2
Shared Cache Node
SSD
SSD
Shared Cache Pool
▸ Toggle Hyper-Connections to bring up the shared cache pool
現有 GPU 叢集即刻啟用

現有 GPU Server 透過高速網路存取 Cache Server,無需更換 GPU 或重編應用。

分層快取架構

VRAM / DRAM / SSD 三層快取,隨需擴充容量、同時壓低 GPU 運算成本。

彈性部署能力

從單一節點到大規模 GPU 叢集,靈活擴張,Kubernetes 原生支援。

高性價比升級

以經濟的 SSD 取代昂貴 DRAM 擴充,低成本實現效能升級。

為 Long-Context 與 Agentic AI 而生

從 RAG、文件摘要到 Agent 多輪對話 — 一種架構,適合各種推論規模。

RAG 與文件摘要

Agent 多輪對話

GPU 投資報酬優化

Kubernetes 推論平台

為何需要 KV Cache

Agent 每一步都在累加 KV Cache 需求

Agent 不是「一問一答」,而是「思考 → 動作 → 觀察」反覆循環 —— 每一步都把整段歷史壓進 cache。 Agents aren't one‑shot Q&A — they loop through Think → Act → Observe, packing the full history into cache at every step.

超長系統提示 + 工具定義

Tool Schema、MCP 定義與角色指令(Role Instructions)—— 初始 Context 即達 5k–20k Tokens。

ReAct 迴圈不斷累積

ReAct 思考迴圈(Thought → Action → Observation)中,每一步驟皆會附加至 Context,必須完整保留以維持推理的連貫性。

會話暫停後,使用者再度載入時需重算

長上下文會話中斷後重啟,若無快取保留,GPU 必須重新 Prefill 完整歷史,造成嚴重的延遲與算力浪費。

工具回傳結果龐大

Web search、檔案讀取、資料庫查詢、API 回應常常一次塞進數千 tokens。

Sub-agent 與並行分支

多個子代理(Sub-agents)各自承載完整 Context,並行工具調用(Parallel Tool Calls)導致快取需求呈指數級倍增。

沒有 KV Cache Reuse,每步都得重算全部歷史 token。
GPU 算力被 prefill 重算淹沒。
Without KV Cache reuse,
every step recomputes all historical tokens — GPU compute drowns in prefill recomputation.

AI Memory Wall AI Memory Wall

VRAM 限制與 GPU 重複運算瓶頸 VRAM Constraints & Redundant GPU Recomputation

KV cache 需求是數百 GB 到 TB 級,VRAM+DRAM 卻只能容納很小部分。新 request 一來就 evict 熱資料,舊 session 回來只能重做 prefill — 惡性循環。 KV cache demand reaches hundreds of GB to TBs, but VRAM + DRAM holds only a small slice. New requests evict hot data on arrival; returning sessions are forced to recompute prefill — a vicious cycle.

Before Before VRAM / DRAM only VRAM / DRAM only

惡性循環 Vicious cycle

  • 新 request 載入 KV New request loads KV

    舊的熱資料被 LRU 踢出。 Old hot data gets kicked out by LRU.

  • 舊 session 回來 Old session returns

    Cache miss,只能重做 prefill。 Cache miss — only option is to recompute prefill.

  • 再次 evict 他人 Evict someone else again

    下一輪重複此循環。 The next round repeats the same loop.

Hit Rate Hit Rate ≈ 10–30% ≈ 10–30%
TTFT TTFT 極不穩定 Highly jittery
After After VRAM / DRAM + NVMe SSD Tier VRAM / DRAM + NVMe SSD Tier

良性循環 Virtuous cycle

  • Hot 資料留在 VRAM/DRAM Hot data stays in VRAM/DRAM

    高頻訪問仍享有 ns~ms 級延遲。 High‑frequency access still enjoys ns–ms latency.

  • Warm / Cold 移到 SSD Warm / Cold offloaded to SSD

    TB 級空間,evict 不再是常態。 TB‑scale capacity — eviction is no longer the norm.

  • 需要時 prefetch 回來 Prefetch back when needed

    比重做 prefill 仍快 7×+。 Still 7×+ faster than recomputing prefill.

Hit Rate Hit Rate ≈ 60–80%+ ≈ 60–80%+
TTFT TTFT 穩定 Stable
Tiered Cache Architecture Tiered Cache Architecture

Offloading VRAM to Cost-Effective Storage 將 VRAM 負載延伸至高性價比儲存

VRAM is expensive and too small. With tiered caching, hot data stays in VRAM/DRAM while warm and cold data lives on NVMe or the Distributed Cache Server — and any node in the cluster can hit and reuse it.VRAM 昂貴又太少容量。透過分層快取,熱資料留在 VRAM/DRAM,溫冷資料使用 NVMe 或 Distributed Cache Server,叢集任一節點都能命中重用。

GPU VRAM GPU VRAM

  • Fastest 最快
  • Most expensive 最貴
  • Scarcest 最稀缺
  • For the hottest KV currently decoding 給最熱、正在解碼的 KV
~GB · ns ~GB · ns

Host DRAM Host DRAM

  • Second fastest 次快
  • Scales to hundreds of GB 容量擴增至數百 GB
  • Catches recent demand spilling out of VRAM 承接 VRAM 溢出的近期需求
GB-TB · μs GB-TB · μs

Local NVMe Local NVMe

  • TB‑scale capacity TB 級容量
  • Millisecond access 毫秒級存取
  • A low‑cost home for warm data 低成本承接溫資料
~10 TB · ms ~10 TB · ms

Distributed Cache Server Distributed Cache Server

  • TB–PB scale TB–PB 級
  • RDMA‑shared across nodes RDMA 跨節點共享
  • Reusable from any prefill node in the cluster 叢集任一 prefill node 都可重用
PB · ms PB · ms
Longer session retention 更長的 Session 留存

Old conversations no longer get squeezed out by VRAM. When users return, the cache is recalled — no recompute, continuous experience. 舊對話不再被 VRAM 容量擠掉,使用者回來時,調用 cache 不須重算,體驗連貫。

Higher hit rate 更高的命中率

Cache on any cluster node can be reused by another prefill node — no session‑aware routing required. Cluster 內任一節點的 cache 可被其他 prefill node 重用,不需 session-aware routing。

Decoupled cost structure 成本結構解耦

Trade cheap NVMe / DRAM for expensive VRAM — per‑token serving cost drops dramatically. 用便宜的 NVMe / DRAM 換取貴的 VRAM,單位 token 服務成本顯著下降。

Biggest wins for agentic AI Agentic AI 場景獲益最大

Agent workflows, multi‑turn dialogue, RAG, and document summarization all gain latency and stability together. Agent Workflow、多輪對話、RAG、文件摘要等場景,延遲與穩定性同步改善。

Benefits 效益

Storage in Place of Compute, GPU Cycles Saved at Scale. 以存代算,大量節省 GPU 算力。

Once produced, KV cache is shared across the entire cluster. Long prompts, multi-turn dialogue, agent workflows, and RAG prefixes don't have to run from scratch every time - Time-to-First-Token drops immediately.KV cache 一旦產生,就在整個 Cluster 內可共用。長 prompt、多輪對話、Agent workflow、RAG 的 prefix 不必再每次從零跑起,Time-to-First-Token 立刻下降。

0 0 % UP % UP Concurrent Users 並行使用者

Same GPU cluster, more than 2x concurrency. Prefill no longer hogs the GPU. 同樣的 GPU 叢集,翻倍以上的併發。Prefill 不再佔滿 GPU。

0 0 % DOWN % DOWN GPU Compute Required GPU 運算需求

With KV cache reuse, GPU compute drops by more than half. 透過 KV-Cache,GPU 節省一半以上的算力。

0 0 % UP % UP Faster TTFT 首字時間 (TTFT) 加速

Hit-and-return replaces recompute. 命中即返,取代重算。

Stop letting the GPU re-run prefill at scale. 不再讓 GPU 大幅重複算 Prefill。

Reserve your GPU's precious compute for response generation — and offload input processing to aiDAPTIV Cache Memory. aiDAPTIV keeps your AI Agents running fuller, steadier, and more cost-efficiently. 將 GPU 的寶貴算力留給「生成回覆」,並把「解析輸入」的計算負擔交給 aiDAPTIV Cache Memory。aiDAPTIV 讓您的 AI Agent 運作得更滿、更穩、更划算。

Explore Inference Capacity 探索推論容量