最近项目中有个要求,使用node.io来抓去页面数据。要求是大概是这样的:
对于任何网页,我只要获取到这个页面上的title 就可以只取该title下的内容。如http://www.tuniu.com/ 首页中的"周边旅游目的地",则可把“周边旅游目的地"作为二次搜索的条件。
我的想法是这样的:建立一个动态规则,用于 把页面拆分成最小,然后取得相应title值,css,和javascript。
现在,问题是:如何分拆呢?这个动态规则怎样定义 比较合理呢?谢谢各位!

解决方案 »

  1.   

    正则
    这个是个好东西
    这样可以只取<title></title>
      

  2.   


    话虽这样说,但node.io是依赖于jsdom的,解析出来的是key:value格式,
    另外,这个title不单单是指<title></title>,还应该包括,如 本页中的相关问题这个框框内容,

    相关问题
        一个爬虫的问题- Java / Java SE
        初学xml,请教一个非常急得问题,大虾帮忙啊! - Web 开发/ XML/SOAP
        ******网络爬虫,Java********* - Web 开发/ XML/SOAP
        hbase配置问题- 高性能开发/ 分布式计算/Hadoop
        请各路高手帮忙啊小弟感激不敬关于网页的提取问题- Java / Web 开发
        今天面试题目:百度,GOOGLE,搜狐,网易,新浪使用什么数据库?

    所以,从严格意义上来说,,这个title已经不是title标签对了。