Jetson平台编译指南

说明

NVIDIA Jetson设备是具有NVIDIA GPU的嵌入式设备，可以将目标检测算法部署到该设备上。本文档是在Jetson硬件上部署PaddleDetection模型的教程。

本文档以Jetson TX2硬件、JetPack 4.3版本为例进行说明。

Jetson平台的开发指南请参考NVIDIA Jetson Linux Developer Guide.

Jetson环境搭建

Jetson系统软件安装，请参考NVIDIA Jetson Linux Developer Guide.

(1) 查看硬件系统的l4t的版本号
```
cat /etc/nv_tegra_release
```
(2) 根据硬件，选择硬件可安装的JetPack版本，硬件和JetPack版本对应关系请参考jetpack-archive.
(3) 下载JetPack，请参考NVIDIA Jetson Linux Developer Guide 中的Preparing a Jetson Developer Kit for Use章节内容进行刷写系统镜像。

下载或编译`Paddle`预测库

本文档使用Paddle在JetPack4.3上预先编译好的预测库，请根据硬件在安装与编译 Linux 预测库中选择对应版本的Paddle预测库。

这里选择nv_jetson_cuda10_cudnn7.6_trt6(jetpack4.3), Paddle版本2.0.0-rc0,CUDA版本10.0,CUDNN版本7.6，TensorRT版本6。

若需要自己在Jetson平台上自定义编译Paddle库，请参考文档安装与编译 Linux 预测库的NVIDIA Jetson嵌入式硬件预测库源码编译部分内容。

Step1: 下载代码

git clone https://github.com/PaddlePaddle/PaddleDetection.git

说明：其中C++预测代码在/root/projects/PaddleDetection/deploy/cpp 目录，该目录不依赖任何PaddleDetection下其他目录。

Step2: 下载PaddlePaddle C++ 预测库 fluid_inference

解压下载的nv_jetson_cuda10_cudnn7.6_trt6(jetpack4.3) 。

下载并解压后/root/projects/fluid_inference目录包含内容为：

fluid_inference
├── paddle # paddle核心库和头文件
|
├── third_party # 第三方依赖库和头文件
|
└── version.txt # 版本和编译信息

注意: 预编译库nv-jetson-cuda10-cudnn7.6-trt6使用的GCC版本是7.5.0，其他都是使用GCC 4.8.5编译的。使用高版本的GCC可能存在ABI兼容性问题，建议降级或自行编译预测库。

Step4: 编译

编译cmake的命令在scripts/build.sh中，请根据实际情况修改主要参数，其主要内容说明如下：

注意，TX2平台的CUDA、CUDNN需要通过JetPack安装。

# 是否使用GPU(即是否使用 CUDA)
WITH_GPU=ON

# 是否使用MKL or openblas，TX2需要设置为OFF
WITH_MKL=OFF

# 是否集成 TensorRT(仅WITH_GPU=ON 有效)
WITH_TENSORRT=ON

# TensorRT 的include路径
TENSORRT_INC_DIR=/usr/include/aarch64-linux-gnu

# TensorRT 的lib路径
TENSORRT_LIB_DIR=/usr/lib/aarch64-linux-gnu

# Paddle 预测库路径
PADDLE_DIR=/path/to/fluid_inference/

# Paddle 预测库名称
PADDLE_LIB_NAME=paddle_inference

# Paddle 的预测库是否使用静态库来编译
# 使用TensorRT时，Paddle的预测库通常为动态库
WITH_STATIC_LIB=OFF

# CUDA 的 lib 路径
CUDA_LIB=/usr/local/cuda-10.0/lib64

# CUDNN 的 lib 路径
CUDNN_LIB=/usr/lib/aarch64-linux-gnu

# OPENCV_DIR 的路径
# linux平台请下载：https://bj.bcebos.com/paddleseg/deploy/opencv3.4.6gcc4.8ffmpeg.tar.gz2，并解压到deps文件夹下
# TX2平台请下载：https://paddlemodels.bj.bcebos.com/TX2_JetPack4.3_opencv_3.4.10_gcc7.5.0.zip，并解压到deps文件夹下
OPENCV_DIR=/path/to/opencv

# 请检查以上各个路径是否正确

# 以下无需改动
cmake .. \
    -DWITH_GPU=${WITH_GPU} \
    -DWITH_MKL=OFF \
    -DWITH_TENSORRT=${WITH_TENSORRT} \
    -DTENSORRT_DIR=${TENSORRT_DIR} \
    -DPADDLE_DIR=${PADDLE_DIR} \
    -DWITH_STATIC_LIB=${WITH_STATIC_LIB} \
    -DCUDA_LIB=${CUDA_LIB} \
    -DCUDNN_LIB=${CUDNN_LIB} \
    -DOPENCV_DIR=${OPENCV_DIR} \
    -DPADDLE_LIB_NAME={PADDLE_LIB_NAME}
make

例如设置如下：

# 是否使用GPU(即是否使用 CUDA)
WITH_GPU=ON

# 是否使用MKL or openblas
WITH_MKL=OFF

# 是否集成 TensorRT(仅WITH_GPU=ON 有效)
WITH_TENSORRT=OFF

# TensorRT 的include路径
TENSORRT_INC_DIR=/usr/include/aarch64-linux-gnu

# TensorRT 的lib路径
TENSORRT_LIB_DIR=/usr/lib/aarch64-linux-gnu

# Paddle 预测库路径
PADDLE_DIR=/home/nvidia/PaddleDetection_infer/fluid_inference/

# Paddle 的预测库是否使用静态库来编译
# 使用TensorRT时，Paddle的预测库通常为动态库
WITH_STATIC_LIB=OFF

# CUDA 的 lib 路径
CUDA_LIB=/usr/local/cuda-10.0/lib64

# CUDNN 的 lib 路径
CUDNN_LIB=/usr/lib/aarch64-linux-gnu/

修改脚本设置好主要参数后，执行build脚本：

 sh ./scripts/build.sh

Step5: 预测及可视化

编译成功后，预测入口程序为build/main其主要命令参数说明如下： | 参数 | 说明 | | ---- | ---- | | --model_dir | 导出的预测模型所在路径 | | --image_file | 要预测的图片文件路径 | | --video_path | 要预测的视频文件路径 | | --camera_id | Option | 用来预测的摄像头ID，默认为-1（表示不使用摄像头预测）| | --device | 运行时的设备，可选择CPU/GPU/XPU，默认为CPU| | --gpu_id | 指定进行推理的GPU device id(默认值为0)| | --run_mode | 使用GPU时，默认为fluid, 可选（fluid/trt_fp32/trt_fp16/trt_int8）| | --run_benchmark | 是否重复预测来进行benchmark测速｜ | --output_dir | 输出图片所在的文件夹, 默认为output ｜

注意: 如果同时设置了video_path和image_file，程序仅预测video_path。

样例一：

#不使用`GPU`测试图片 `/root/projects/images/test.jpeg`  
./main --model_dir=/root/projects/models/yolov3_darknet --image_path=/root/projects/images/test.jpeg

图片文件可视化预测结果会保存在当前目录下output.jpg文件中。

样例二:

#使用 `GPU`预测视频`/root/projects/videos/test.mp4`
./main --model_dir=/root/projects/models/yolov3_darknet --video_path=/root/projects/images/test.mp4 --device=GPU

视频文件目前支持.mp4格式的预测，可视化预测结果会保存在当前目录下output.mp4文件中。

性能测试

测试环境为：硬件: TX2，JetPack版本: 4.3, Paddle预测库: 1.8.4，CUDA: 10.0, CUDNN: 7.5, TensorRT: 5.0.

去掉前100轮warmup时间，测试100轮的平均时间，单位ms/image，只计算模型运行时间，不包括数据的处理和拷贝。

模型	输入	AnalysisPredictor(ms)
yolov3_mobilenet_v1	608*608	56.243858
faster_rcnn_r50_1x	1333*1333	73.552460
faster_rcnn_r50_vd_fpn_2x	1344*1344	87.582146
mask_rcnn_r50_fpn_1x	1344*1344	107.317848
mask_rcnn_r50_vd_fpn_2x	1344*1344	87.98.708122
ppyolo_r18vd	320*320	22.876789
ppyolo_2x	608*608	68.562050

Jetson_build.md 7.4 KB History Raw