3
0

BENCHMARK_INFER.md 4.3 KB

推理Benchmark

一、环境准备

  • 1、测试环境:
    • CUDA 10.1
    • CUDNN 7.6
    • TensorRT-6.0.1
    • PaddlePaddle v2.0.1
    • GPU分别为: Tesla V100和GTX 1080Ti和Jetson AGX Xavier
  • 2、测试方式:
    • 为了方便比较不同模型的推理速度,输入采用同样大小的图片,为 3x640x640,采用 demo/000000014439_640x640.jpg 图片。
    • Batch Size=1
    • 去掉前100轮warmup时间,测试100轮的平均时间,单位ms/image,包括网络计算时间、数据拷贝至CPU的时间。
    • 采用Fluid C++预测引擎: 包含Fluid C++预测、Fluid-TensorRT预测,下面同时测试了Float32 (FP32) 和Float16 (FP16)的推理速度。

注意: TensorRT中固定尺寸和动态尺寸区别请参考文档TENSOR教程。由于固定尺寸下对两阶段模型支持不完善,所以faster rcnn模型采用动态尺寸测试。固定尺寸和动态尺寸支持融合的OP不完全一样,因此同一个模型在固定尺寸和动态尺寸下测试的性能可能会有一点差异。

二、推理速度

1、Linux系统

(1)Tesla V100

模型 backbone 是否固定尺寸 入网尺寸 paddle_inference trt_fp32 trt_fp16
Faster RCNN FPN ResNet50 640x640 27.99 26.15 21.92
Faster RCNN FPN ResNet50 800x1312 32.49 25.54 21.70
YOLOv3 Mobilenet_v1 608x608 9.74 8.61 6.28
YOLOv3 Darknet53 608x608 17.84 15.43 9.86
PPYOLO ResNet50 608x608 20.77 18.40 13.53
SSD Mobilenet_v1 300x300 5.17 4.43 4.29
TTFNet Darknet53 512x512 10.14 8.71 5.55
FCOS ResNet50 640x640 35.47 35.02 34.24

(2)Jetson AGX Xavier

模型 backbone 是否固定尺寸 入网尺寸 paddle_inference trt_fp32 trt_fp16
Faster RCNN FPN ResNet50 640x640 169.45 158.92 119.25
Faster RCNN FPN ResNet50 800x1312 228.07 156.39 117.03
YOLOv3 Mobilenet_v1 608x608 48.76 43.83 18.41
YOLOv3 Darknet53 608x608 121.61 110.30 42.38
PPYOLO ResNet50 608x608 111.80 99.40 48.05
SSD Mobilenet_v1 300x300 10.52 8.84 8.77
TTFNet Darknet53 512x512 73.77 64.03 31.46
FCOS ResNet50 640x640 217.11 214.38 205.78

2、Windows系统

(1)GTX 1080Ti

模型 backbone 是否固定尺寸 入网尺寸 paddle_inference trt_fp32 trt_fp16
Faster RCNN FPN ResNet50 640x640 50.74 57.17 62.08
Faster RCNN FPN ResNet50 800x1312 50.31 57.61 62.05
YOLOv3 Mobilenet_v1 608x608 14.51 11.23 11.13
YOLOv3 Darknet53 608x608 30.26 23.92 24.02
PPYOLO ResNet50 608x608 38.06 31.40 31.94
SSD Mobilenet_v1 300x300 16.47 13.87 13.76
TTFNet Darknet53 512x512 21.83 17.14 17.09
FCOS ResNet50 640x640 71.88 69.93 69.52