这是淘宝指数的一个网页,需要用淘宝账号登陆才能查看:
http://shu.taobao.com/top/50002766/search
我想用C#写个简单的采集程序,可是无法获取到数据。我用WebBrowser实例化一个wb加载网址,然后在DocumentCompleted事件中获取wb.Document.Body.InnerHtml。可是获取过来的内容只包含页眉和页脚,关键数据没有获取到。获取到的数据如下:
<div id="nav">
</div>
<script>
(function(){
var reloadNewPage = function () {
ALIYUNSM.reloadUA();
if ($.cookie('sc5')) {
$.cookie('sc7', '1', {path: '/'});
location.reload();
} else {
setTimeout(reloadNewPage, 25);
}
}
setTimeout(reloadNewPage, 25);
})();
</script>
<footer class="footer">可通过浏览器查看源码应该是这样的:<div id="nav">
</div>
<div class="page-main clearfix">
//省略……
</div><footer class="footer">这个好像是动态加载的,就在那个<script>脚本的位置加载的数据,不知道这是通过哪种方式加载,需要通过何种方式才能正确采集,请高手指点一下。
http://shu.taobao.com/top/50002766/search
我想用C#写个简单的采集程序,可是无法获取到数据。我用WebBrowser实例化一个wb加载网址,然后在DocumentCompleted事件中获取wb.Document.Body.InnerHtml。可是获取过来的内容只包含页眉和页脚,关键数据没有获取到。获取到的数据如下:
<div id="nav">
</div>
<script>
(function(){
var reloadNewPage = function () {
ALIYUNSM.reloadUA();
if ($.cookie('sc5')) {
$.cookie('sc7', '1', {path: '/'});
location.reload();
} else {
setTimeout(reloadNewPage, 25);
}
}
setTimeout(reloadNewPage, 25);
})();
</script>
<footer class="footer">可通过浏览器查看源码应该是这样的:<div id="nav">
</div>
<div class="page-main clearfix">
//省略……
</div><footer class="footer">这个好像是动态加载的,就在那个<script>脚本的位置加载的数据,不知道这是通过哪种方式加载,需要通过何种方式才能正确采集,请高手指点一下。
解决方案 »
- winform打印问题?如何去掉"正在打印"提示窗口,直接打印
- 怎么解决?未能找到类型或命名空间名称“Steema”(是否缺少 using 指令或程序集引用?)
- 正则表达式判断字符串是否回文数
- C#中统计数据库中的条数
- .net2005 中如何将注释生成html文件?
- 我想写一个串口的程序,但是不知道用什么语言写比较好,请大家帮忙!
- 关于非模式对话框的问题showModelessDialog,哪位高手帮我解决,100分全给你!!!!
- pictureBox里手动画的图怎么保存的能像画图程序保画出来的图一样的效果?
- 在windows服务里面,获取当前程序的路径是,获取的为什么是:winnt\system32
- 添加服务引用的应用程序不能运行
- GDI+ C#实现图片放大缩小和漫游
- 反序列化,为什么没反应?
最简单的方式就是fiddle,wireshark抓包,然后playback获取数据,嘿嘿
有时间切磋下 哈哈