陌生项目请教：如何提取网页的内容

项目描述：从一个图书馆网站采集特定内容，比如书名、出版社等信息，一本书是一个页面，包含出版等信息
先不说采集问题，假设我已经把这些网站都采集到了本地，存储为html文件如何从html中，提取我想要的信息有几种思路？每种都说说吧比如：
①利用html解析，我都没用过，以前没接触过html开发相关，是否麻烦？
②利用工具，将全部html转换为txt后，有什么好的具体提取方案？多谢了