关于node.io爬虫的问题

最近项目中有个要求，使用node.io来抓去页面数据。要求是大概是这样的：
对于任何网页，我只要获取到这个页面上的title 就可以只取该title下的内容。如http://www.tuniu.com/ 首页中的"周边旅游目的地",则可把“周边旅游目的地"作为二次搜索的条件。
我的想法是这样的：建立一个动态规则，用于把页面拆分成最小，然后取得相应title值，css,和javascript。
现在，问题是：如何分拆呢？这个动态规则怎样定义比较合理呢？谢谢各位!

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

正则
这个是个好东西
这样可以只取<title></title>
话虽这样说，但node.io是依赖于jsdom的，解析出来的是key:value格式，
另外，这个title不单单是指<title></title>,还应该包括，如本页中的相关问题这个框框内容，
“
相关问题
    一个爬虫的问题- Java / Java SE
    初学xml,请教一个非常急得问题，大虾帮忙啊！ - Web 开发/ XML/SOAP
    ******网络爬虫,Java********* - Web 开发/ XML/SOAP
    hbase配置问题- 高性能开发/ 分布式计算/Hadoop
    请各路高手帮忙啊小弟感激不敬关于网页的提取问题- Java / Web 开发
    今天面试题目：百度，GOOGLE，搜狐，网易，新浪使用什么数据库？
”
所以，从严格意义上来说，，这个title已经不是title标签对了。