由于大型语言模型(LLMs)参数量巨大,其推理阶段计算资源消耗极高。然而,并非所有输入请求的处理难度都相同。通过分析,我们发现对于某些任务,LLM在中间层就能生成与最终输出相当的结果,也就是说,在推理过程中并不需要经过所有层。如果我们能够预测在哪一层的结果已与最终结果相匹配,就可以显著降低推理成本。为此,我们提出了一种简单而有效的自适应推理终止算法 AdaInfer,能够针对每个输入实例动态决定是否提前结束推理。AdaInfer 依赖易于获取的统计特征和经典分类器(如 SVM)。在 Llama2 系列与 OPT 等主流 LLM 上的实验表明,AdaInfer 平均可实现 17.8% 的剪枝比例,在情感分析任务中可高达 43%,且性能几乎无下降(<1%)。由于 AdaInfer 不改变 LLM 的参数,因而结合 AdaInfer 的 LLM 仍能保持良好的任务泛化能力。