面试题 java程序统计得到购物网站各类别网店数量没有网站接口信息只有网站地址没思路大家帮帮忙

http://list.taobao.com/browse/shop-14.htm
淘宝网
淘宝首页店铺街女装/流行女装(371937）就是得到这个数字大家给点思路

//这个是我通过抓包解析后得到的其中有你想要的数据的部分，然后用正则提取即可
<div id="LinkPath">
<ul class="PathLinksLevel1">
<li><a  href="http://www.taobao.com">淘宝首页</a></li>
<li><a href="http://www.taobao.com/go/chn/store/index.php?ad_id=&am_id=&cm_id=14001173043320569696&pm_id=">店铺街</a></li>
<li>女装/流行女装<span>(371937)</span></li>
</ul>
<div class="HackBox"></div>
</div>
//说一下思路把：首先要想分析数据必须要抓包（用wireshark，ethereal，sinffer均可），然后分析抓到的网页的源码，然后写URL请求（你总不能为了统计每次都手动打开该网页吧！），根据返回跟你的信息提取数据。
小弟水平有限，可否再详细些，具体那个url请求该怎么写？
去看一下API java.net.URLConnection
呵呵还得麻烦问问您我整理了一下思路，你看看对不对：就是先根据一个url用抓包获得一个网页的内容，然后用正则表达式分析数据，获得所有的url，然后用URLConnection获得所有的网页内容，再根据正则表达式一一解析获得想要的数据。是这样吗？
url说白了在你这里就是http://...这个。也就是你说的网站地址，这个你事先知道，你抓包的目的，是分析一下他的有用的数据在哪里，方便得到数据后提取想要的数据。然后用URLConnection让服务器传回给你数据（主要是解码），解析这些数据提取你要的东西。

面试题 java程序统计得到 购物网站各类别网店数量 没有网站接口信息 只有网站地址 没思路 大家帮帮忙