GPU Server Phison GPU Server

Pre-integrated GPU Server with aiDAPTIV and aiDAPTIV Cache Memory — extending AI memory, reusing KV cache across inference sessions, and supporting up to 500% more concurrent users on the same infrastructure. 預整合 aiDAPTIV 與 aiDAPTIV Cache Memory 的 GPU 伺服器,擴展 AI 記憶體容量、跨推理工作階段重用 KV cache,在相同硬體規模下支援最高 500% 並行使用者。

0 0 % UP % 提升 Concurrent Users 並行使用者

Up to 500% more concurrent users on the same GPU infrastructure — validated on RTX PRO 6000 and H200 nodes. 在相同 GPU 基礎設施上最高 500% 並行使用者 — RTX PRO 6000 與 H200 節點實測驗證。

0 0 B B Parameter Models 參數量模型

Train and serve LLMs up to 800B parameters with aiDAPTIV memory extension. 搭配 aiDAPTIV 記憶體延伸,支援最高 800B 參數模型訓練與推理。

Architecture 架構

How aiDAPTIV Transforms GPU Servers aiDAPTIV 如何改變 GPU Servers

Traditional GPU servers rely on HBM, DRAM, and SSD tiers alone. Phison aiDAPTIV extends AI memory with aiDAPTIV Middleware and aiDAPTIV Cache Memory.傳統 GPU 伺服器僅依賴 HBM、DRAM 與 SSD 分層。Phison aiDAPTIV 透過 aiDAPTIV Middleware 與 aiDAPTIV Cache Memory 延伸 AI 記憶體。

Traditional Approach 傳統架構做法 AI Training Architecture AI 訓練架構
The aiDAPTIV Approach aiDAPTIV 架構做法 NEW AI Training Architecture 新一代 AI 訓練架構
Performance 效能

GPU Server Performance Results GPU Server 效能成果

Compare concurrent user capacity and inference metrics with and without aiDAPTIV on the same GPU server infrastructure. aiDAPTIV expands effective AI memory in software — no extra GPUs required. Same hardware, up to 500% more concurrent users. 在相同 GPU 伺服器基礎設施上,比較啟用 aiDAPTIV 前後的並行使用者容量與推理指標。aiDAPTIV 透過軟體層擴展有效 AI 記憶體,無需增購 GPU,即可在相同硬體上大幅提升 500% 並行使用者容量

Concurrent Users: w/o vs w/ Pascari aiDAPTIV™ 200 160 120 80 40 0 CCU 20 60 RTX PRO 6000 × 8 RTX PRO 6000 × 8 20 100 H200 × 8 H200 × 8 60 180 B300 × 8 B300 × 8 Without aiDAPTIV 未啟用 aiDAPTIV With aiDAPTIV 啟用 aiDAPTIV

Inference Speed (Multi-GPU DAS Benchmark) 推理速度 (多 GPU DAS 基準測試)

Multi-GPU DAS benchmark — concurrent users, TTFT, and TPS with and without aiDAPTIV. 多 GPU DAS 基準測試 — 比較啟用 aiDAPTIV 前後的並行使用者、TTFT 與 TPS。

RTX 6000 Ada × 8

GPT-OSS-120B AI100 × 2

Without aiDAPTIV 未啟用 aiDAPTIV
Users 使用者
10
TTFT
6.7s
TPS
28.3
With aiDAPTIV 啟用 aiDAPTIV
Users 使用者
40
TTFT
2.3s
TPS
28.0

RTX PRO 6000 × 8

GPT-OSS-120B AI100 × 2

Without aiDAPTIV 未啟用 aiDAPTIV
Users 使用者
20
TTFT
10.1s
TPS
18.8
With aiDAPTIV 啟用 aiDAPTIV
Users 使用者
60
TTFT
2.6s
TPS
21.3

H200 × 8

Llama 3.3 70B AI200 × 4

Without aiDAPTIV 未啟用 aiDAPTIV
Users 使用者
20
TTFT
7.4s
TPS
21.7
With aiDAPTIV 啟用 aiDAPTIV
Users 使用者
100
TTFT
8.3s
TPS
22.2

B300 × 8

Llama 3.3 70B AI200 × 8

Without aiDAPTIV 未啟用 aiDAPTIV
Users 使用者
60
TTFT
9.3s
TPS
16.5
With aiDAPTIV 啟用 aiDAPTIV
Users 使用者
180
TTFT
9.9s
TPS
17.7
Multi-GPU DAS inference speed benchmark comparison 多 GPU DAS 推理速度基準比較
GPU GPU Model 模型 aiDAPTIV Cache Memory aiDAPTIV 快取記憶體 Users 使用者 TTFT TTFT TPS TPS
RTX 6000 Ada × 8 GPT-OSS-120B AI100 × 2
Without aiDAPTIV 未啟用 aiDAPTIV
With aiDAPTIV 啟用 aiDAPTIV
10
40
6.7s
2.3s
28.3
28.0
RTX PRO 6000 × 8 GPT-OSS-120B AI100 × 2
Without aiDAPTIV 未啟用 aiDAPTIV
With aiDAPTIV 啟用 aiDAPTIV
20
60
10.1s
2.6s
18.8
21.3
H200 × 8 Llama 3.3 70B AI200 × 4
Without aiDAPTIV 未啟用 aiDAPTIV
With aiDAPTIV 啟用 aiDAPTIV
20
100
7.4s
8.3s
21.7
22.2
B300 × 8 Llama 3.3 70B AI200 × 8
Without aiDAPTIV 未啟用 aiDAPTIV
With aiDAPTIV 啟用 aiDAPTIV
60
180
9.3s
9.9s
16.5
17.7
Configurations 配置

GPU Server System Configurations GPU Server 系統配置

Pre-integrated DAS architecture options from 4U RTX to 8U HGX — each paired with aiDAPTIV for training and inference at scale.從 4U RTX 到 8U HGX 的預整合 DAS 架構選項,每款皆搭配 aiDAPTIV,支援大規模訓練與推理。

NVIDIA RTX 6000 Ada specifications NVIDIA RTX 6000 Ada 規格
CPU CPU 2 × 12 Cores 2 × 12 核心
Model 模型 GPT-OSS-120B GPT-OSS-120B
aiDAPTIV Cache Memory aiDAPTIV Cache Memory AI100E 2TB × 2 or AI100E 2TB × 4 AI100E 2TB × 2 或 AI100E 2TB × 4
System Memory 系統記憶體 512 / 1024 GB 512 / 1024 GB
LLM Model Size (Training) LLM 模型規模(訓練) < 200B / 400B < 200B / 400B
Concurrent Users (Inference) 並行使用者(推理) 10 40
Power Spec 電源規格 Max. 6 kW (Avg. 2 kW / 3 kW) 最大 6 kW(平均 2 kW / 3 kW)
OS: Ubuntu 作業系統:Ubuntu 1920GB ×2 (RAID1) 1920GB ×2 (RAID1) TTFT < 10s TTFT < 10 秒 TPS > 20 t/s TPS > 20 t/s 16K input 16K 輸入