面试题 java程序统计得到 购物网站各类别网店数量 没有网站接口信息 只有网站地址 没思路 大家帮帮忙 http://list.taobao.com/browse/shop-14.htm 淘宝网 淘宝首页店铺街 女装/流行女装(371937)就是得到这个数字 大家给点思路 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 //这个是我通过抓包解析后得到的其中有你想要的数据的部分,然后用正则提取即可<div id="LinkPath"> <ul class="PathLinksLevel1"> <li><a href="http://www.taobao.com">淘宝首页</a></li> <li><a href="http://www.taobao.com/go/chn/store/index.php?ad_id=&am_id=&cm_id=14001173043320569696&pm_id=">店铺街</a></li> <li>女装/流行女装<span>(371937)</span></li> </ul> <div class="HackBox"></div></div>//说一下思路把:首先要想分析数据必须要抓包(用wireshark,ethereal,sinffer均可),然后分析抓到的网页的源码,然后写URL请求(你总不能为了统计每次都手动打开该网页吧!),根据返回跟你的信息提取数据。 小弟水平有限,可否再详细些,具体那个url请求该怎么写? 去看一下API java.net.URLConnection 呵呵 还得麻烦问问您 我整理了一下思路,你看看对不对:就是先根据一个url用抓包获得一个网页的内容,然后用正则表达式分析数据,获得所有的url,然后用URLConnection获得所有的网页内容,再根据正则表达式一一解析获得想要的数据。 是这样吗? url说白了在你这里就是http://...这个。也就是你说的网站地址,这个你事先知道,你抓包的目的,是分析一下他的有用的数据在哪里,方便得到数据后提取想要的数据。然后用URLConnection让服务器传回给你数据(主要是解码),解析这些数据提取你要的东西。 异常的传递,异常的转换。不懂。帮忙看一下啊! 正则有啥好的? sql语句执行的时候,我的Table中第一个字段是自动累加的,该怎么处理? web service如何取消服务 怎样合并动的GIF? Subversion Http Proxy的问题 try 就是什么用的啊. 如何实现 XP 中目录窗口左边那种菜单 一个关于Timer类的程序的问题! 新手自学关于java集合的疑问 求一个string关键字及出现次数的问题,请大家帮忙,谢谢 Map接口问题---Map m=new HashMap()这句话怎么理解啊???
<div id="LinkPath">
<ul class="PathLinksLevel1">
<li><a href="http://www.taobao.com">淘宝首页</a></li>
<li><a href="http://www.taobao.com/go/chn/store/index.php?ad_id=&am_id=&cm_id=14001173043320569696&pm_id=">店铺街</a></li>
<li>女装/流行女装<span>(371937)</span></li>
</ul>
<div class="HackBox"></div>
</div>
//说一下思路把:首先要想分析数据必须要抓包(用wireshark,ethereal,sinffer均可),然后分析抓到的网页的源码,然后写URL请求(你总不能为了统计每次都手动打开该网页吧!),根据返回跟你的信息提取数据。
小弟水平有限,可否再详细些,具体那个url请求该怎么写?
呵呵 还得麻烦问问您 我整理了一下思路,你看看对不对:就是先根据一个url用抓包获得一个网页的内容,然后用正则表达式分析数据,获得所有的url,然后用URLConnection获得所有的网页内容,再根据正则表达式一一解析获得想要的数据。 是这样吗?