项目描述:从一个图书馆网站采集特定内容,比如书名、出版社等信息,一本书是一个页面,包含出版等信息
先不说采集问题,假设我已经把这些网站都采集到了本地,存储为html文件如何从html中,提取我想要的信息有几种思路?每种都说说吧比如:
①利用html解析,我都没用过,以前没接触过html开发相关,是否麻烦?
②利用工具,将全部html转换为txt后,有什么好的具体提取方案?多谢了