深入理解 BERT 与推理优化 2026-02-20 · AI 1. Transformer 基础 Self-Attention 是核心机制... 2. ONNX 导出 torch.onnx.export(model, ...) 3. TensorRT 加速 通过 FP16 / INT8 量化优化推理速度。