目前有一个大文本文件(12.5G),里面存放了大量抓取得到的未经处理的html源码。现在需要对这个大文本文件做解析处理,请问怎么将大文本文件中的html拆分出来依次处理?通过I/O的方式逐行读取判断<html>标签来拆分不够高效,请问是否有简洁高效的方式对大文本文件进行拆分?对拆分后的单个html准备用jsoup处理,是否有类似的解析器可以直接识别多个html?