求java小说采集系统原理,以及该如何实现.我一直想研究下这个,想写个简单点的,可以一直没有头绪.哪位大侠帮帮我.100分送上.

解决方案 »

  1.   

    小说站点有2中 
    采集内容  和  采集链接
    1、采集的话其实就是解析html 
       一般用 URL去请求,拿到内容后用HTMLParse去解析
    2、配置定时器 定时去采集最新更新...
      

  2.   

    这个就是针对某个站点的网络爬虫简单版,
    只处理小说章节内容的链接
    比如说某小说网站有几个导航页面,
    上面全是小说的入口链接
    那么根据这几个导航页面里面的链接依次爬完
    把内容保存就是了
    主要是分页和确认是否是小说的链接不好处理
    其他都好办
    httpclient or urlconnection
    都可以解决
    不过有些小说需要登录后才能看
    这个就不好整了