请教大家一个问题: 我想提取连续编号的网页中的信息,比如http://www.abc.com/XXXXXXX 但是其中有部分网页我是不想下载的,我想通过判断特定的信息,比如 <title> </title>中的信息,来决定是否抓取该页面。如何实现。 再通俗点讲,我要进行判断的信息处在网页代码的前200个字节中,我如何让程序只读取这200个字节,然后转向下一个页面。 因为我要抓取的页面数很多,是千万级的,所以如果每个页面都读取完毕再判断,实在太废时间,而且我要的页面占所有需要检索页面的比重很可能只有2%不到。 大家有什么实现的办法吗,非常感谢!!