用python如何读取10G的超大文件
学习或者工作当中经常会碰到处理大文件的时候, 如果你只有一台普通电脑该如何处理呢? 今天跟大家分享一个处理技巧, 就算现在没有碰到, 点右上角先收藏说不定以后会用到呢!
思路
硬件条件有限, 我们可以试试用pandas分块读取, 读取文件后一般有3种处理办法:
- 读取后拆分为多个小文件存放
- 读取后筛选部分信息合并为一个文件
- 对数据进行汇总(数据透视)后存储
(解释: 比如原始数据是一个按时间的明细, 可以读取后按年或者按月保存问题; 这种大文件有时候列比较多, 但不一定都是我们需要的, 我们可以只筛选部分有用的列; 明细数据我们只使用一次, 需要的是汇总数据, 我们就可以透视后保存结果, 以后只读取结果数据即可)
代码
1 | # 读取后保存为多个文件 |
1 | # 读取后合并为一个文件 |