Pytorch Dataloader如何处理可变大小的数据？

作者: 哎？小查查
发布时间: 2025-01-01 11:27:55 (1月前)
转自：

3 条回复

0#
回复此人
哈哈哈哈 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 正如@Jatentaki建议的那样，我编写了自定义整理功能，并且工作正常。 </p> <pre class="lang-py prettyprint-override"> <code> def get_max_length(x): return len(max(x, key=len)) def pad_sequence(seq): def _pad(_it, _max_len): return [0] * (_max_len - len(_it)) + _it return [_pad(it, get_max_length(seq)) for it in seq] def custom_collate(batch): transposed = zip(*batch) lst = [] for samples in transposed: if isinstance(samples[0], int): lst.append(torch.LongTensor(samples)) elif isinstance(samples[0], float): lst.append(torch.DoubleTensor(samples)) elif isinstance(samples[0], collections.Sequence): lst.append(torch.LongTensor(pad_sequence(samples))) return lst stream_dataset = StreamDataset(data_path) stream_data_loader = torch.utils.data.dataloader.DataLoader(dataset=stream_dataset, batch_size=batch_size, collate_fn=custom_collate, shuffle=False) </code> </pre> </DIV>

编辑
1#
回复此人
Moso31 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 那么你如何处理样品长度不同的事实呢？ <a href="https://pytorch.org/docs/master/data.html#torch.utils.data.DataLoader" rel="nofollow noreferrer"> <code> torch.utils.data.DataLoader </code> </A> 有个 <code> collate_fn </code> 用于将样本列表转换为批处理的参数。通过 <a href="https://github.com/pytorch/pytorch/blob/master/torch/utils/data/_utils/collate.py#L31" rel="nofollow noreferrer"> 默认 </A> 它确实 <a href="https://github.com/pytorch/pytorch/blob/master/torch/utils/data/_utils/collate.py#L66" rel="nofollow noreferrer"> 这个 </A> 到列表。你可以自己写 <code> collate_fn </code> ，例如 <code> 0 </code> -pads输入，将其截断为某个预定义的长度或应用您选择的任何其他操作。 </p> </DIV>

编辑

登录后才能参与评论