从HDFS，TFRecordDataset + num_parallel_read等远程主机读取哪个更好？或者parallel_interleave

作者: 布偶的表弟派大星丶
发布时间: 2024-12-23 05:13:48 (26天前)
转自：

2 条回复

0#
回复此人
老夫的少女心 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 我刚刚浏览了两者的源代码 <a href="https://github.com/tensorflow/tensorflow/blob/r1.12/tensorflow/python/data/ops/readers.py#L215" rel="nofollow noreferrer"> TFRecordDataset </A> 和 <a href="https://github.com/tensorflow/tensorflow/blob/r1.12/tensorflow/python/data/experimental/ops/interleave_ops.py#L84" rel="nofollow noreferrer"> parallel_interleave </A> 。请注意，我正在查看tf.data.experimental，因为不推荐使用tf.contrib.data。有趣的是，他们都打电话给同一个班级， <a href="https://github.com/tensorflow/tensorflow/blob/r1.12/tensorflow/python/data/ops/readers.py#L127" rel="nofollow noreferrer"> ParallelInterleaveDataset </A> 利用并行阅读。我想它可以选择优化你的管道，因为你可以使用block_length，sloppy，buffer_output_elements和prefetch_input_elements这些参数，当使用parallel_interleave来加速你的管道时，同时也会在排序中赋予一些随机性。 </p> </DIV>

编辑

登录后才能参与评论