代码收藏家技术教程 2022-12-12

torch.utils.data.DataLoader

 #设置数据增强方法
 transform = transforms.Compose(
        [transforms.ToTensor(),
         transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
 
 #加载数据集的数据，返回所有样本的img和label
 trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                               download=True, transform=transform)
 #对数据进行batch采样
 trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
  shuffle=True, num_workers=2)

1.加载数据集的是数据，返回所有样本的img和label

通过数据加载类完成这一操作

数据加载类包括三个函数：__init__()、__getitem__()、__len()__()

（1）__init__()

__init__(
        self,
        root: str,
        train: bool = True,
        transform: Optional[Callable] = None,
        target_transform: Optional[Callable] = None,
        download: bool = False,
)

返回所有样本的img和label

(2)__getitem__()

这个函数在进行epoch训练时才会运行，根据给出的index确定样本，并进行数据增强操作。

返回数据增强后的样本。

    def __getitem__(self, index: int) -> Tuple[Any, Any]:
        
        img, target = self.data[index], self.targets[index]

        img = Image.fromarray(img)

        if self.transform is not None:
            img = self.transform(img)

        if self.target_transform is not None:
            target = self.target_transform(target)

        return img, target

(3)__len()__()

返回数据的数量

def __len__(self) -> int:
      return len(self.data)

2.确定训练时的数据加载方式

torch.utils.data.DataLoader，结合了数据集和取样器，并且可以提供多个线程处理数据集。用来把训练数据分成多个小组，此函数每次抛出一组数据。直至把所有的数据都抛出。就是做一个数据的初始化。

参数：

dataset：包含所有数据的数据集

batch_size :每一小组所包含数据的数量

Shuffle : 是否打乱数据位置，当为Ture时打乱数据，全部抛出数据后再次dataloader时重新打乱。

sampler : 自定义从数据集中采样的策略，如果制定了采样策略，shuffle则必须为False.

Batch_sampler:和sampler一样，但是每次返回一组的索引，和batch_size, shuffle, sampler, drop_last 互斥。

num_workers : 使用线程的数量，当为0时数据直接加载到主程序，默认为0。

collate_fn:不太了解

pin_memory:s 是一个布尔类型，为T时将会把数据在返回前先复制到CUDA的固定内存中

drop_last:布尔类型，为T时将会把最后不足batch_size的数据丢掉，为F将会把剩余的数据作为最后一小组。

timeout：默认为0。当为正数的时候，这个数值为时间上限，每次取一个batch超过这个值的时候会报错。此参数必须为正数。

worker_init_fn:和进程有关系，暂时用不到