CLAUDE CODE · CACHING
Prompt Caching
Tại sao Claude Code không cần đọc lại toàn bộ codebase mỗi message — và prompt caching tiết kiệm cho bạn 90% input token, 85% latency như thế nào.
Prompt caching là tính năng tự động trong Claude Code: phần “tĩnh” của context (CLAUDE.md, project structure, source files) được lưu lại như một checkpoint. Từ message thứ 2 trở đi, bạn chỉ trả token cho phần mới.
3 điều cần nhớ
- Write một lần, đọc nhiều lần. Lần đầu tốn thêm 25% để ghi cache — nhưng chỉ 1 lần. Sau đó giảm 90% input token và 85% latency.
- Cache TTL là 5 phút. Idle quá 5 phút → cache expire → write lại từ đầu tự động. Không cần config gì.
- Session dài vẫn tốn token. Static context được cache, nhưng conversation history thì không. Dùng
/compactđể nén khi cần.
Ai cần biết điều này?
- Đang chạy Claude Code trên codebase lớn (>20k tokens context).
- Thấy session dài đột ngột tốn nhiều token hơn — đó là history tích lũy, không phải static context.
- Muốn hiểu tại sao message đầu tiên trong session “chậm” hơn các message sau.