Jetson_build.md 7.4 KB

Jetson平台编译指南

说明

NVIDIA Jetson设备是具有NVIDIA GPU的嵌入式设备,可以将目标检测算法部署到该设备上。本文档是在Jetson硬件上部署PaddleDetection模型的教程。

本文档以Jetson TX2硬件、JetPack 4.3版本为例进行说明。

Jetson平台的开发指南请参考NVIDIA Jetson Linux Developer Guide.

Jetson环境搭建

Jetson系统软件安装,请参考NVIDIA Jetson Linux Developer Guide.

  • (1) 查看硬件系统的l4t的版本号

    cat /etc/nv_tegra_release
    
  • (2) 根据硬件,选择硬件可安装的JetPack版本,硬件和JetPack版本对应关系请参考jetpack-archive.

  • (3) 下载JetPack,请参考NVIDIA Jetson Linux Developer Guide 中的Preparing a Jetson Developer Kit for Use章节内容进行刷写系统镜像。

下载或编译Paddle预测库

本文档使用PaddleJetPack4.3上预先编译好的预测库,请根据硬件在安装与编译 Linux 预测库 中选择对应版本的Paddle预测库。

这里选择nv_jetson_cuda10_cudnn7.6_trt6(jetpack4.3), Paddle版本2.0.0-rc0,CUDA版本10.0,CUDNN版本7.6TensorRT版本6

若需要自己在Jetson平台上自定义编译Paddle库,请参考文档安装与编译 Linux 预测库NVIDIA Jetson嵌入式硬件预测库源码编译部分内容。

Step1: 下载代码

git clone https://github.com/PaddlePaddle/PaddleDetection.git

说明:其中C++预测代码在/root/projects/PaddleDetection/deploy/cpp 目录,该目录不依赖任何PaddleDetection下其他目录。

Step2: 下载PaddlePaddle C++ 预测库 fluid_inference

解压下载的nv_jetson_cuda10_cudnn7.6_trt6(jetpack4.3)

下载并解压后/root/projects/fluid_inference目录包含内容为:

fluid_inference
├── paddle # paddle核心库和头文件
|
├── third_party # 第三方依赖库和头文件
|
└── version.txt # 版本和编译信息

注意: 预编译库nv-jetson-cuda10-cudnn7.6-trt6使用的GCC版本是7.5.0,其他都是使用GCC 4.8.5编译的。使用高版本的GCC可能存在ABI兼容性问题,建议降级或自行编译预测库

Step4: 编译

编译cmake的命令在scripts/build.sh中,请根据实际情况修改主要参数,其主要内容说明如下:

注意,TX2平台的CUDACUDNN需要通过JetPack安装。

# 是否使用GPU(即是否使用 CUDA)
WITH_GPU=ON

# 是否使用MKL or openblas,TX2需要设置为OFF
WITH_MKL=OFF

# 是否集成 TensorRT(仅WITH_GPU=ON 有效)
WITH_TENSORRT=ON

# TensorRT 的include路径
TENSORRT_INC_DIR=/usr/include/aarch64-linux-gnu

# TensorRT 的lib路径
TENSORRT_LIB_DIR=/usr/lib/aarch64-linux-gnu

# Paddle 预测库路径
PADDLE_DIR=/path/to/fluid_inference/

# Paddle 预测库名称
PADDLE_LIB_NAME=paddle_inference

# Paddle 的预测库是否使用静态库来编译
# 使用TensorRT时,Paddle的预测库通常为动态库
WITH_STATIC_LIB=OFF

# CUDA 的 lib 路径
CUDA_LIB=/usr/local/cuda-10.0/lib64

# CUDNN 的 lib 路径
CUDNN_LIB=/usr/lib/aarch64-linux-gnu

# OPENCV_DIR 的路径
# linux平台请下载:https://bj.bcebos.com/paddleseg/deploy/opencv3.4.6gcc4.8ffmpeg.tar.gz2,并解压到deps文件夹下
# TX2平台请下载:https://paddlemodels.bj.bcebos.com/TX2_JetPack4.3_opencv_3.4.10_gcc7.5.0.zip,并解压到deps文件夹下
OPENCV_DIR=/path/to/opencv

# 请检查以上各个路径是否正确

# 以下无需改动
cmake .. \
    -DWITH_GPU=${WITH_GPU} \
    -DWITH_MKL=OFF \
    -DWITH_TENSORRT=${WITH_TENSORRT} \
    -DTENSORRT_DIR=${TENSORRT_DIR} \
    -DPADDLE_DIR=${PADDLE_DIR} \
    -DWITH_STATIC_LIB=${WITH_STATIC_LIB} \
    -DCUDA_LIB=${CUDA_LIB} \
    -DCUDNN_LIB=${CUDNN_LIB} \
    -DOPENCV_DIR=${OPENCV_DIR} \
    -DPADDLE_LIB_NAME={PADDLE_LIB_NAME}
make

例如设置如下:

# 是否使用GPU(即是否使用 CUDA)
WITH_GPU=ON

# 是否使用MKL or openblas
WITH_MKL=OFF

# 是否集成 TensorRT(仅WITH_GPU=ON 有效)
WITH_TENSORRT=OFF

# TensorRT 的include路径
TENSORRT_INC_DIR=/usr/include/aarch64-linux-gnu

# TensorRT 的lib路径
TENSORRT_LIB_DIR=/usr/lib/aarch64-linux-gnu

# Paddle 预测库路径
PADDLE_DIR=/home/nvidia/PaddleDetection_infer/fluid_inference/

# Paddle 的预测库是否使用静态库来编译
# 使用TensorRT时,Paddle的预测库通常为动态库
WITH_STATIC_LIB=OFF

# CUDA 的 lib 路径
CUDA_LIB=/usr/local/cuda-10.0/lib64

# CUDNN 的 lib 路径
CUDNN_LIB=/usr/lib/aarch64-linux-gnu/

修改脚本设置好主要参数后,执行build脚本:

 sh ./scripts/build.sh

Step5: 预测及可视化

编译成功后,预测入口程序为build/main其主要命令参数说明如下: | 参数 | 说明 | | ---- | ---- | | --model_dir | 导出的预测模型所在路径 | | --image_file | 要预测的图片文件路径 | | --video_path | 要预测的视频文件路径 | | --camera_id | Option | 用来预测的摄像头ID,默认为-1(表示不使用摄像头预测)| | --device | 运行时的设备,可选择CPU/GPU/XPU,默认为CPU| | --gpu_id | 指定进行推理的GPU device id(默认值为0)| | --run_mode | 使用GPU时,默认为fluid, 可选(fluid/trt_fp32/trt_fp16/trt_int8)| | --run_benchmark | 是否重复预测来进行benchmark测速 | | --output_dir | 输出图片所在的文件夹, 默认为output |

注意: 如果同时设置了video_pathimage_file,程序仅预测video_path

样例一

#不使用`GPU`测试图片 `/root/projects/images/test.jpeg`  
./main --model_dir=/root/projects/models/yolov3_darknet --image_path=/root/projects/images/test.jpeg

图片文件可视化预测结果会保存在当前目录下output.jpg文件中。

样例二:

#使用 `GPU`预测视频`/root/projects/videos/test.mp4`
./main --model_dir=/root/projects/models/yolov3_darknet --video_path=/root/projects/images/test.mp4 --device=GPU

视频文件目前支持.mp4格式的预测,可视化预测结果会保存在当前目录下output.mp4文件中。

性能测试

测试环境为:硬件: TX2,JetPack版本: 4.3, Paddle预测库: 1.8.4,CUDA: 10.0, CUDNN: 7.5, TensorRT: 5.0.

去掉前100轮warmup时间,测试100轮的平均时间,单位ms/image,只计算模型运行时间,不包括数据的处理和拷贝。

模型 输入 AnalysisPredictor(ms)
yolov3_mobilenet_v1 608*608 56.243858
faster_rcnn_r50_1x 1333*1333 73.552460
faster_rcnn_r50_vd_fpn_2x 1344*1344 87.582146
mask_rcnn_r50_fpn_1x 1344*1344 107.317848
mask_rcnn_r50_vd_fpn_2x 1344*1344 87.98.708122
ppyolo_r18vd 320*320 22.876789
ppyolo_2x 608*608 68.562050