我目前正在编写一个处理非常大(> 10GB)文件的python脚本。由于将整个文件加载到内存中不是一种选择,我现在正在逐行阅读和处理它:
对于线…
出于性能原因,您的操作系统和Python都使用缓冲区来读取更大块的数据。通过Python逐行读取文件,您的磁盘不会受到重大影响。
具体来说,Python无法在没有向前扫描的情况下为您提供单独的行来查找行分隔符,因此它将读取块,解析出各行,并且每次迭代将从缓冲区中获取行,直到必须读取另一个块以查找下一组线。操作系统使用了 缓冲区缓存 一般来说,有助于加速I / O.