关于java提取网页的一些疑问

请教大家一个问题：我想提取连续编号的网页中的信息，比如http://www.abc.com/XXXXXXX 但是其中有部分网页我是不想下载的，我想通过判断特定的信息，比如 <title> </title>中的信息，来决定是否抓取该页面。如何实现。再通俗点讲，我要进行判断的信息处在网页代码的前200个字节中，我如何让程序只读取这200个字节，然后转向下一个页面。因为我要抓取的页面数很多，是千万级的，所以如果每个页面都读取完毕再判断，实在太废时间，而且我要的页面占所有需要检索页面的比重很可能只有2%不到。大家有什么实现的办法吗，非常感谢！！