TTFT
TTFT(Time To First Token):从你发出请求开始,到模型返回第一个 token(也就是你看到第一点/第一个字)所花的时间。
为什么重要
- 体感决定一切:TTFT 越小,用户越觉得“快、顺、不卡”,心流不容易断。
- 受上下文强影响:上下文越长(历史对话、检索资料、工具描述越多),TTFT 通常越大。
常见优化方向(工程视角)
- 控制上下文长度(裁剪历史、压缩总结、只注入高相关证据)
- 选择更快的模型/更近的区域部署(如果可选)
- 开启/优化流式输出(见 SSE)
TTFT(Time To First Token):从你发出请求开始,到模型返回第一个 token(也就是你看到第一点/第一个字)所花的时间。