如题。
下面是个简单的例子,但也不完全局限于此
www.touja.org/bbs/viewtopic.php?p=104184
touja.org/bbs/viewtopic.php?p=104184
下面是个简单的例子,但也不完全局限于此
www.touja.org/bbs/viewtopic.php?p=104184
touja.org/bbs/viewtopic.php?p=104184
解决方案 »
- 项目启动时报错:java.lang.ClassNotFoundException: org.apache.log4j.LogManager
- 读取properites文件我的相对路径怎么错了
- 一道小小的题
- java server socket multicast 问题
- JAVA菜鸟求助,2个小问题!
- 一个修改数据库一个属性内容的问题
- 收集数据结构网站,进来就给分....哈哈
- 重新回到java阵营,大散分(500)(请斑竹留情)元旦后就揭帖,祝各位新年快乐!大家的努力会让冬天赶快过去,呵呵!
- Applet应用扩展--数字签名(一) 使用签名的jar包,即可实现访问沙箱之外!
- 哪儿有JdbcOdbcDriver
- 新手求救:用jsp+servlet完成一个用户管理及登陆功能
- JAVA中怎么调用BIEE ???
抓取url 然后ping www.touja.org ,ping touja.org
然后替换域名成ip数据库中记录ip不记录域名
个人做法仅限参考
假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。