深入理解 BERT 与推理优化

2026-02-20 · AI

1. Transformer 基础

Self-Attention 是核心机制...

2. ONNX 导出

torch.onnx.export(model, ...)

3. TensorRT 加速

通过 FP16 / INT8 量化优化推理速度。