目前有一个大文本文件(12.5G),里面存放了大量抓取得到的未经处理的html源码。现在需要对这个大文本文件做解析处理,请问怎么将大文本文件中的html拆分出来依次处理?通过I/O的方式逐行读取判断<html>标签来拆分不够高效,请问是否有简洁高效的方式对大文本文件进行拆分?对拆分后的单个html准备用jsoup处理,是否有类似的解析器可以直接识别多个html?
调试欢乐多
楼主可以试试vim,vim可以读取超大文本文件而且还不会卡。
vim的正则表达式也非常丰富。。把你要的正则和操作都放到寄存器里,然后重复执行千亿次。
编辑大文件和重构代码我都这么弄的