前言:
首先,目前大多企业级的应用系统都是采用struts。。net、php等技术实现,有些更基于web 2.0的标准,采用ext,jquery等前端技术,更有甚者采用富客户端的flash,silverlight等技术实现。问题关键:
这些系统往往都有用户登录验证的机制,并且采用隐式的请求连接地址。不像互联网上的那些网站上都有明确的URL。
例如:
我公司一个.net系统地址如下:http://192.168.0.10/gzfx
我公司一个java系统地址如下:http://192.168.0.173:7001/RTHI_GUI3
这两个系统在使用的任何阶段或调用任何功能界面时地址栏上的地址都不会改变。
再有就是以弹出窗口形式的系统根本没有地址栏。问题背景:
公司要求可以做个通用的功能,就是可以对随便一个上述的系统进行页面功能的抓取,也就是当使用者觉得任何一个功能模块常用时,都可以对该页面的功能进行收藏,然后以后直接到我这个功能汇集系统,打开各个连接即可使用(类似于百度的快照吧),开始给我的思路是基于网络爬虫技术的收索引擎,然后又研究页面解析技术,先后了解了htmlparser、lucene、nutch。这几个开源的框架,后来发现类似于百度快照,搜索引擎这种东西,都是有实际的链接地址可爬的,我们一般企业内部的系统都没有实际的地址呀。再加上用户验证、div,iframe实现等等。越来越觉得根本实现不了不可行啊,这样的话,连个文本都难以得到,更别说是applet、电子地图,图片等等动态的内容了啊。问题需求:
请哪位大侠帮我分析一下,我现在就认为这个需求简直是天方夜谭,哪位同仁能给个解决方案,至少是告诉我有什么东西能实现我的这些需求呢???不胜感激啊!!!!!
首先,目前大多企业级的应用系统都是采用struts。。net、php等技术实现,有些更基于web 2.0的标准,采用ext,jquery等前端技术,更有甚者采用富客户端的flash,silverlight等技术实现。问题关键:
这些系统往往都有用户登录验证的机制,并且采用隐式的请求连接地址。不像互联网上的那些网站上都有明确的URL。
例如:
我公司一个.net系统地址如下:http://192.168.0.10/gzfx
我公司一个java系统地址如下:http://192.168.0.173:7001/RTHI_GUI3
这两个系统在使用的任何阶段或调用任何功能界面时地址栏上的地址都不会改变。
再有就是以弹出窗口形式的系统根本没有地址栏。问题背景:
公司要求可以做个通用的功能,就是可以对随便一个上述的系统进行页面功能的抓取,也就是当使用者觉得任何一个功能模块常用时,都可以对该页面的功能进行收藏,然后以后直接到我这个功能汇集系统,打开各个连接即可使用(类似于百度的快照吧),开始给我的思路是基于网络爬虫技术的收索引擎,然后又研究页面解析技术,先后了解了htmlparser、lucene、nutch。这几个开源的框架,后来发现类似于百度快照,搜索引擎这种东西,都是有实际的链接地址可爬的,我们一般企业内部的系统都没有实际的地址呀。再加上用户验证、div,iframe实现等等。越来越觉得根本实现不了不可行啊,这样的话,连个文本都难以得到,更别说是applet、电子地图,图片等等动态的内容了啊。问题需求:
请哪位大侠帮我分析一下,我现在就认为这个需求简直是天方夜谭,哪位同仁能给个解决方案,至少是告诉我有什么东西能实现我的这些需求呢???不胜感激啊!!!!!
解决方案 »
- 菜鸟求教一个getParameter()的问题....求各路高手指点...
- 在jsp中用request.getParameter();传值的时候,如果有中文是不是就会出现乱码啊?
- 有谁在VISTA系统下开发的
- conn关闭出错问题!在线等!!!(就这100分了!)
- 初学者提问,为什么我的TOMCAT运行时间长了以后,调试JSP程序时网页就打开很慢慢,重启TOMCAT后问题也没有改变,只有重启电脑才行
- servlet问题,急!!!!
- 为什么我的程序在本机运行没有问题,但在租用的空间下就出错?
- true 是什么意思????
- 我要用jsp和javabean做一个网页管理的程序.需要安装什么软件?
- jsp中为什么要用监听器呢,在线等
- 请问 在js中 === 代表什么
- 商品无限分类显示问题,如卓越首页左边的商品分类
我自认还不敢下定论,去年年初的时候
我曾做过一个163邮箱页面的一个抓取,
获取通讯录里的联系人进行发送邮件当时使用的技术是Httpclient,楼主可以找找