Python中解决Tensorflow无法调用GPU问题的实用指南

当用以下代码查看GPU数量时，gpus返回的是一个空列表，说明tensorflow没有找到GPU。

import tensorflow as tf
# 查看gpu和cpu的数量
gpus = tf.config.experimental.list_physical_devices(device_type='GPU')
cpus = tf.config.experimental.list_physical_devices(device_type='CPU')

是由于tensorflow版本从2.x开始不再区分CPU版和GPU版，

官网中说明Tensorflow 2.10是最后一个在本地windows上支持GPU的版本。

所以要在native-windows上使用GPU，就只能安装2.10.0版本及以下的版本，或者安装老版的tensorflow-gpu。

解决步骤：

所有现在我们要做的就是：要使用python2.10版本的Tensorflow去调用GPU

但是你如果想使用2.10版本的Tensorflow，你必须下载相应适配的CUDA

WIN+r 输入cmd 用Python -V查看你的python版本

Python -V
或
python --version

查出来：

接下来就是要把TensorFlow的版本降下来，在PyCharm里面的终端运行下面代码

pip install tensorflow==2.10.0

WIN+R并输入CMD打开命令提示符，输入nvidia-smi查看驱动支持的最高CUDA版本，以本人驱动为例，适用的最高CUDA版本为12.1

nvidia-smi

下一步是彻底删除旧的CUDA和cuDNN

先删除含CUDA的程序

在搜索栏输入控制面板—->打开控制面板

点击程序和功能

卸载所有与CUDA有关的程序

检查删除环境变量

打开此电脑—->系统属性—->高级系统设置—->环境变量

找到环境变量和系统变量的path，点击编辑，若发现path中没有含CUDA的环境变量，证明刚刚第一步卸载CUDA的时候系统已经自动删除，若系统没有自动删除（path中仍然含有C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0这样含有CUDA的路径），则需要手动删除。

检查删除文件夹

找到NVIDIA GPU Computing Toolkit文件夹，删除该文件夹即可，因为安装CUDA时默认的安装路径就是这个文件，又因为cuDNN是专门为深度学习设计的GPU加速库，通常是安装在CUDA的目录下的，所以把这个文件删了，也就把CUDA和cuDNN删除干净了！

完成以上三大步骤，CUDA和cuDNN就卸载完成啦！

接下来就是要重新安装合适版本的CUDA（CUDA11.2）下载地址

验证CUDA是否安装完成

在新打开的cmd窗口中输入：

nvcc -V

同样下载匹配的cuDNN，这里选择8.9.7适用于CUDA 11.X的版本:链接地址

解压出cuDNN文件后

复制以下三个文件夹

将文件夹粘贴至如下路径:

path to your cudaFolder/Files/NVIDIA GPU Computing Toolkit/CUDA/v11.6

验证cuDNN是否安装成功

①在下述文件夹右键，打开终端

path to your cudaFolder/Files/NVIDIA GPU Computing Toolkit/CUDA/v11.6/extras/demo_suite

②输入：

.\deviceQuery.exe

得到PASS即代表安装成功

输入：

.\bandwidthTest.exe

得到PASS即代表安装成功

然后就是给CUDA配置环境变量

此电脑——属性——高级系统设置——环境变量——系统变量 ,在系统变量中找到path，去里面加另外两条，前两条应该本来就有，把后两条加上，最终有四条路径见截图

在python中pip安装tensorflow-cpu

pip install tensorflow-cpu==2.10

pip install tensorflow-cpu==2.10

如果曾经安装过，其他两种，可以先执行卸载。

    pip uninstall tensorflow
    pip uninstall tensorflow-gpu

安装plugin

pip install tensorflow-directml-plugin

如果此时出现

ERROR: Could not find a version that satisfies the requirement tensorflow-directml-plugin (from versions: none)
ERROR: No matching distribution found for tensorflow-directml-plugin

那一定是前面的环境没有配置好，重新弄吧。

弄好后重启电脑

安装下面的俩个

conda install cudatoolkit=11.1
conda install "tensorflow<2.11"

然后在python运行以下代码：

import tensorflow as tf

# 检查 TensorFlow 是否看到 GPU
print("TensorFlow version:", tf.__version__)
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))

# 打印出可用 GPU 的详细信息
if tf.config.list_physical_devices('GPU'):
    for gpu in tf.config.list_physical_devices('GPU'):
        print("Name:", gpu.name, "  Type:", gpu.device_type)

得到