要求:对新浪微博内容的抓取(目前它没有对外开放API), 这个是要进行通行证验证的,  给你一个用户名和一个密码, 对登录后的内容进行抓取,再解析成XML格式的数据.  请教各位大虾多给点意见,也可以放上你写的代码.  谢谢大家!

解决方案 »

  1.   

    我也知道用httpclient 或者 urlconnection  这个行.希望大家给点想法
      

  2.   

    搜索一下 java网络爬虫  HTML解析器 等关键字
      

  3.   

    简单一点的
    1. http compoment 或者 urlconnection 获取内容;
    2. 根据返回数据特点用HTML Parser解析;
      

  4.   

    这里没有答案的问题
       csdn 会不会 给个答案啊?
      

  5.   

    httpclient + htmlparser   ,前提是你得用httpClient先登陆上^_^ ! 最好再配合一个网页数据包抓取软件(提交的什么内容),但是有些网站的安全限制,比如说5秒钟让提交的表单信息失效!这个就不好搞了 !
      

  6.   

    简单一点的 
    1. http compoment 或者 urlconnection 获取内容; 
    2. 根据返回数据特点用HTML Parser解析;