求java小说采集系统原理,以及该如何实现.我一直想研究下这个,想写个简单点的,可以一直没有头绪.哪位大侠帮帮我.100分送上.
解决方案 »
- mybatis进行多表查询时,建视图?关系映射?还是直接返回Map?困扰了我N久,诚心求教
- Struts的DynaActionForm问题
- 一个简单的问题,怎么删除一个weblogic的服务器配置?
- <html-el:form> 如何调用原来的onload事件!
- 使用wsdl2java.bat生成java代码报错
- 把所有的分都獻出,望有高人幫忙解決一下這個問題--->>>mail程序發送問題
- struts,不太明白的地方!!!
- 求JDBC连接各种数据库的代码
- java 怎么样读取一个字符的Unicode 值?
- 谁配置过apache2.0.44+tomcat4.1,传授以下经验
- 时间段校验算法
- 还是hibernate的问题··上个没了解清楚·
采集内容 和 采集链接
1、采集的话其实就是解析html
一般用 URL去请求,拿到内容后用HTMLParse去解析
2、配置定时器 定时去采集最新更新...
只处理小说章节内容的链接
比如说某小说网站有几个导航页面,
上面全是小说的入口链接
那么根据这几个导航页面里面的链接依次爬完
把内容保存就是了
主要是分页和确认是否是小说的链接不好处理
其他都好办
httpclient or urlconnection
都可以解决
不过有些小说需要登录后才能看
这个就不好整了