请问如何拆分多个html合成的文本并解析？

目前有一个大文本文件（12.5G），里面存放了大量抓取得到的未经处理的html源码。现在需要对这个大文本文件做解析处理，请问怎么将大文本文件中的html拆分出来依次处理？通过I/O的方式逐行读取判断<html>标签来拆分不够高效，请问是否有简洁高效的方式对大文本文件进行拆分?对拆分后的单个html准备用jsoup处理，是否有类似的解析器可以直接识别多个html？