求java小说采集系统原理,以及该如何实现.我一直想研究下这个,想写个简单点的,可以一直没有头绪.哪位大侠帮帮我.100分送上.
解决方案 »
- struts2数据验证问题
- Httpclient&Jsoup获取google页面源码
- 为什么mysql字段设置为varchar时,不能输入中文?
- 极度郁闷的一个读取文本的问题?求高手!
- servlet中怎么获取webroot下的一个文件夹的路径
- struts2+hibernate+spring部署不上
- JXL操作大容量的excel的时候,不能取得sheet
- tomcat5.5.20下运行struts1.1出现问题
- 关于JBOSS下使用filter的问题,问如何解决
- 请教:setRollbackOnly() 与 throw EJBException 的区别
- 时间段校验算法
- 还是hibernate的问题··上个没了解清楚·
采集内容 和 采集链接
1、采集的话其实就是解析html
一般用 URL去请求,拿到内容后用HTMLParse去解析
2、配置定时器 定时去采集最新更新...
只处理小说章节内容的链接
比如说某小说网站有几个导航页面,
上面全是小说的入口链接
那么根据这几个导航页面里面的链接依次爬完
把内容保存就是了
主要是分页和确认是否是小说的链接不好处理
其他都好办
httpclient or urlconnection
都可以解决
不过有些小说需要登录后才能看
这个就不好整了