求抓取网络数据的思路,方案!!! 比如: 我的关键字为"刘德华", 我就需要去指定的某些网站,,抓取刘德华的一些信息. 用什么框架,方法比较好使,谢谢! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 框架?Spider?Google,Baidu,SoGou... 写个Httpclient直接用Google,Baidu之去搜索然后这里一下返回的结果 我是打算用去Google搜索,根据Google返回的结果集,再去访问结果集对应的链接.最将访问链接得到的页面返回. 得到页面的HTML代码后,我有几个头痛的问题. 1. 返回的页面格式的不确定. 2. 返回的页面的内容,也不确定. 3. 如何得到该关键字的 比较完整的,详细,而且比较相关的信息. 4. 这些操作,不需要人工干预,一切都需自动处理. 1. 返回的页面格式的不确定.(内容有可能在div中,也有可能在td中,等..) 2. 返回的页面的内容,也不确定.(页面中,既有可用的信息,也有没有的(广告等)信息..) blog 更新: think in java 各章后练习答案..... http://blog.csdn.net/heimaoxiaozi/ 求精简 正则表达式 rmi是如何生成请求的? java连接数据库 java运行异常!急! 小妹请问thinking in java 和Core Java 2这两本名书对有一点java基础的初学者来书哪本先看为好?? java新手有问题请教 师兄师姐们指教一下! 哪有java的电子书下载? 【新手程序员学生,求教】java关于单链表的问题 ImageIO.read(),Invalid ICC Profile Data的问题,jdk的bug??? 求救,如何在java下现锁屏功能?
Spider?
Google,Baidu,SoGou...
我是打算用去Google搜索,根据Google返回的结果集,再去访问结果集对应的链接.最将访问链接得到的页面返回.
得到页面的HTML代码后,我有几个头痛的问题.
1. 返回的页面格式的不确定.
2. 返回的页面的内容,也不确定.
3. 如何得到该关键字的 比较完整的,详细,而且比较相关的信息.
4. 这些操作,不需要人工干预,一切都需自动处理.
1. 返回的页面格式的不确定.(内容有可能在div中,也有可能在td中,等..)
2. 返回的页面的内容,也不确定.(页面中,既有可用的信息,也有没有的(广告等)信息..)
think in java 各章后练习答案.....
http://blog.csdn.net/heimaoxiaozi/