现在需要采集http://auto.sina.com.cn/news/e/index.shtml这个页面上的新闻内容,
这个页面是个列表页面,不知道怎么获取所有的url 地址,通过获得url地址后进入采集新闻内容。希望有详细实例代码。

解决方案 »

  1.   

    考虑一下用正则表达式进行抓取,这里有一篇文章可以参考一下(附代码)
    http://www.cnblogs.com/drummery/archive/2008/03/31/1131367.html
    顺便借宝地发招聘信息两则:

    http://topic.csdn.net/u/20081112/10/35dbb020-3653-42d0-bdde-80772654ef26.html

    谢谢哈
      

  2.   

    你是想获取这个页面内的所有新闻地址吗?
    1,请求url “http://auto.sina.com.cn/news/e/index.shtml”
    请求后获得页面的html代码 这个你有线程函数不?光这个就够复杂的
    2,写正则匹配你想要的地址然后匹配到的地址列表你直接使用就可以啦
    还有什么不明白的尽管问,我可以给你提供相关代码的
      

  3.   

    [email protected]
    这是邮箱,
    谢谢了
      

  4.   

    麻烦也发我份,谢谢
    [email protected]