ubuntu 18.04 从零开始复现 OpenPCDet 训练kitti数据集并评估 可视化 损失函数

ubuntu 18.04 复现OpenPCDet

前言:

我已经装好了nvidia460.91.03版本驱动,并且也装了10.1版本的cuda。
但由于OpenPCDet中要装spconv(巨坑的库),10.2以上版本的cuda才能pip安装2.0版本的spconv,不然老版本的spconv太难装了(踩坑无数)。所以为了避开spconv太难安装,我选择用高版本的cuda,后续配环境的话直接pip岂不香

所以第一步就是 多版本cuda安装/切换 (非多版本cuda的谨慎借鉴哈!)

  1. 下载11.1版本的cuda run文件(官方下载网址 有其他很多版本)
wget https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda_11.1.0_455.23.05_linux.run
sudo sh cuda_11.1.0_455.23.05_linux.run

(再多一句,wget不想用的话,可以直接把wget后面(即https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda_11.1.0_455.23.05_linux.run)的网址复制到浏览器,就可以下载了。该方法适合任何wget带网址的下载)

然后就是安装11.1版本的cuda。首先在sudo sh cuda_11.1.0_455.23.05_linux.run后选择continue,然后输入accept,进入安装选项cuda installer
这里面的X代表选择,按enter键取消X消失(即不选择)。
我因为装过驱动了,所以驱动那个选项不选,其他全选了,然后就是选install,进行安装,一会就安装好了。

此时cuda11.1安装完毕,然后就是在~/.bashrc里面添加路径

原本只装一个版本的话,路径添加如下:

export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda-10.1/bin:$PATH
export CUDA_HOME=/usr/local/cuda-10.1

多版本的话需要换种写法,如下:

export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin 
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

nvcc -V后还是10.1,这是因为软连接还没有变,所以接下来就是换软连接。

sudo rm -rf /usr/local/cuda                                      #删除之前创建的软链接
sudo ln -s /usr/local/cuda-11.1  /usr/local/cuda      #创建新 cuda 的软链接

此时再换个终端nvcc -V,就会变为cuda11.1。

然后就是安装cudnn (cudnn官方下载地址)
然后选择和cuda版本相匹配的版本,这里因为我要为cuda11.1装cudnn,所以我选的是cudnn-11.1-linux-x64-v8.0.5.39.tgz
下载之后解压:

tar zxvf cudnn-11.1-linux-x64-v8.0.5.39.tgz

然后就是:

sudo cp include/cudnn*.h /usr/local/cuda/include/  #没*的话后面会报错
sudo cp lib64/lib* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

然后建立cudnn的软连接

cd /usr/local/cuda/lib64/
sudo chmod +r libcudnn.so.8.0.5
sudo ln -sf libcudnn.so.8.0.5 libcudnn.so.8
sudo ln -sf libcudnn.so.8 libcudnn.so
sudo ldconfig  

若是有下面的错误:
借用下别人的图哈,我自己的忘记截图了!
解决办法:
对于不是符号链接的文件,执行以下操作:

sudo mv /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_adv_train.so.8 /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_adv_train.so.8.org

sudo mv /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_adv_infer.so.8 /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_adv_infer.so.8.org

sudo mv /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_cnn_infer.so.8 /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_cnn_infer.so.8.org

sudo mv /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_ops_infer.so.8 /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_ops_infer.so.8.org

sudo mv /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_ops_train.so.8 /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_ops_train.so.8.org

sudo mv /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_cnn_train.so.8 /usr/local/cuda-11.1/targets/x86_64-linux/lib/libcudnn_cnn_train.so.8.org

然后再sudo ldconfig 就没问题了。

然后查看cudnn版本:

cat /usr/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

但又来问题了:

解决办法是用下面的命令即可正确查看cudnn版本:

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2


至此,多版本cuda并存/切换完成。
后面开始配OpenPCDet环境

1. 创建虚拟环境

conda create -n pcdet python=3.7

安装pytorch、torchvision和torchaudio
(注意版本匹配问题,不然容易出各种问题,尽量使用我这套版本,很多人用都没问题的,我用的版本:torch1.8.1+cu111 torchvision0.9.1+cu111 torchaudio==0.8.1):

whl轮子下载地址 推荐用
官网下载地址(但这种方法下载很慢,巨慢的,建议第一种)

我就用的是whl安装的,在whl轮子下载地址里面找到匹配版本的torch和torchvision,然后cd到下载目录pip安装他们

再安装torchaudio==0.8.1(因为我没看到它,笑死,可能眼小把!)

然后验证下成功与否和能用否:

python
import torch    # 如正常则静默
torch.__version__ #查看torch版本
import torchvision
 torchvision.__version__ #查看torchvision版本
 torch.cuda.is_available() #正常的话返回“True”
a = torch.Tensor([1.])    # 如正常则静默
a.cuda()    # 如正常则返回"tensor([ 1.], device='cuda:0')"
from torch.backends import cudnn # 如正常则静默
cudnn.is_acceptable(a.cuda())    # 如正常则返回 "True"


然后就是重头戏了!!!!安装spconv!!!

前面我们说过,10.2以上的cuda可以直接pip安装spconv如下:

pip install spconv-cu111   #我的cuda是11.1,自己根据cuda版本来选择spconv版本


安装完成(是不是很简单啊?哈哈哈!)

然后验证安装的spconv能用不:

import spconv.pytorch as spconv


哈哈,无误!!!

至此,OpenPCDet还差一小部分就OK了。

克隆OpenPCDet

git clone https://github.com/open-mmlab/OpenPCDet.git

然后安装pcdet库和一些依赖。

python setup.py develop

接下来就等把,会需要一段时间,其中scikit-image llvmlite等库 比较难下载(应该是外网的原因,科学上网应该可以轻松解决),容易超时报错(本人试了两次都超时),解决方法(拿scikit-image举个例子,其他的类同):

打开上面圈起来的网址,然后本地下载(确实好慢,下了十来分钟),下载完毕后在离线安装

再接着来

python setup.py develop

成功后如下图;

再贴一张conda list 图:

接下来就是准备训练拉!

首先就是准备数据(数据格式如下图)和生成数据的一些信息:

python -m pcdet.datasets.kitti.kitti_dataset create_kitti_infos tools/cfgs/dataset_configs/kitti_dataset.yaml



接下来就可以训练模型了,cd到tools下面:

python train.py --cfg_file ./cfgs/kitti_models/pointpillar_pyramid_aug.yaml  --batch_size 4 --epochs 50

训练中的亚子


训练结束后会自动评估最后一个模型,然后是下面的亚子:


训练结束后,我们来demo一下看看效果:

首先安装可视化工具mayavi(这次方法不太对,总有错误,正确方法看文章最后,有正确安装方法

pip3 install mayavi 

(可以尝试下pip install mayavi 后续的错或许就没了呢?后续发现貌似先安装VTK,在安装mayavi就好了,具体可以看我下面最后有详细介绍

静等安装完成,然后测试下能用不:

python
import mayavi


发现一切正常,心中窃喜,赶紧输入可视化命令:

python demo.py --cfg_file ./cfgs/kitti_models/pointpillar_pyramid_aug.yaml --ckpt /home/juzhen/OpenPCDet/output/cfgs/kitti_models/pointpillar_pyramid_aug/default/ckpt/checkpoint_epoch_50.pth --data_path /home/juzhen/OpenPCDet/data/kitti/testing/velodyne/000517.bin(其中的ckpt和点云数据路径根据自己的情况改下)

然后报错ModuleNotFoundError: No module named ‘importlib_resources’:
那就安装呗:pip install importlib_resources

成功后继续可视化,傻眼了,又错ModuleNotFoundError: No module named 'vtkCommonCorePython'


这次pip安装不了了,尝试解决,未果!不明白为啥,那就放弃用mayavi。 改用open3d

pip install open3d 

太慢,取消掉重新来
在后面添加镜像源

pip install open3d -i https://pypi.tuna.tsinghua.edu.cn/simple

芜湖,速度起飞!

然后安装完成测试;

没问题,继续可视化(心想总可以了把?),然而…报错ImportError: numpy.core.multiarray failed to import

那就继续克服困难把,找了半天,可算有个方法可行了(大致就是有多个numpy把)。。。。

pip show numpy
pip uninstall numpy


卸载numpy1.20.0,然后再pip show numpy


果然还有一个版本的numpy1.19.2(这个貌似是创建虚拟环境的时候安装的),后面安装pcdet0.5.2的时候,貌似又装了(依稀记得的哈!)
卸载它!远离它!!!!
这时候pip show numpy 彻底没了,那我就再装回numpy1.20.0

然后就是见证奇迹的时刻,继续可视化!!

python demo.py --cfg_file ./cfgs/kitti_models/pointpillar_pyramid_aug.yaml --ckpt /home/juzhen/OpenPCDet/output/cfgs/kitti_models/pointpillar_pyramid_aug/default/ckpt/checkpoint_epoch_50.pth --data_path /home/juzhen/OpenPCDet/data/kitti/testing/velodyne/000517.bin(再说一次,注意路径哈)

OK,可视化木得问题啦,稍微开心下!

后面我又去看了下损失函数的图像:

pip install tensorboardX
pip install tensorflow

然后在/home/juzhen/OpenPCDet/output/cfgs/kitti_models/pointpillar_pyramid_aug/default/tensorboard(也就是events.out.tfevents.文件夹下)打开终端激活pcdet的虚拟环境,输入:

tensorboard --logdir=/home/juzhen/OpenPCDet/output/cfgs/kitti_models/pointpillar_pyramid_aug/default/tensorboard


右键打开红色框网址,查看训练过程中的损失函数可视化:

从图上可以看出损失函数并没有平滑的收敛,这是因为图片上显示的是每个batch的loss,不是epoch的loss,想看epoch的loss需要自己加点代码(我还没弄),加完后如下如所示(图片是别人的借用下。上面是每个epoch的loss图,很平滑。下面是openpcdet原始loss):

至此,完结。撒花!!

注:
后续我又重装了一遍,可视化使用的是mayavi工具包。下面我记录下mayavi的使用记录!**使用了不同的安装命令**
在你的虚拟环境下

pip install vtk==8.1.2
pip install mayavi
python
import mayavi


看起来和我前面一样,估计还会有错,果然,我用的时候提示:

ImportError: Could not import backend for traitsui.  Make sure you
        have a suitable UI toolkit like PyQt/PySide or wxPython
        installed.

解决方法:

pip install pyside2


然后就再试一下:
O了,木的问题!!!

以上内容仅为自己学习记录,原创不易。转载请标明出处,拜谢!!!

来源:想Rui的猪

物联沃分享整理
物联沃-IOTWORD物联网 » ubuntu 18.04 从零开始复现 OpenPCDet 训练kitti数据集并评估 可视化 损失函数

发表评论