使用SgmlReader清洗后,</body>的位置变了,本来在正文的下面,现在跑到正文的上面去了。也就是说,现在<body></body>里面不包括正文内容了。
但是有的网页是清洗正确的
清洗不正确的网页是 :http://ent.sina.com.cn/v/m/2010-12-21/10023183392.shtml烦请高手指教!
但是有的网页是清洗正确的
清洗不正确的网页是 :http://ent.sina.com.cn/v/m/2010-12-21/10023183392.shtml烦请高手指教!
解决方案 »
- SQLCE在pc上使用的问题
- 我用c#程序创建数据库,然后连接数据库。在创建数据后如果立刻连接数据库的话就会出现错误。
- 问一下,各位大侠,现在开发网站需要那些技术啊?
- 有没有方法能将字符串转换成"类型"?
- 关于状态栏的问题。。。。。。。。。。。。。。
- 求一编码算法
- Dictionary(TKey, TValue)能通过value找到key的值么?
- 我公司現想請.net高手來講課,請有意的朋友留下msn號,我們會和您聯繫.
- 如何实现类似winrar中的拖放操作?
- 在c#的winform中如何进行photo存取
- 本人第一次进驻这里 希望各位多多指教 我是大一的学生
- 这行 VB.net代码怎么用C#表达
<body>
<div style="position:absolute;top:0;left:0;width:0;height:0;z-index:1">
<div style="position:absolute;top:0;left:0;width:1;height:1;">
<iframe src="" width="1" height="1" SCROLLING="NO" FRAMEBORDER="0">
</iframe>
</div>
<div style="position:absolute;top:0;left:0;width:0;height:0;visibility:hidden">
</div>
</div>
<noScript>
<div style="position:absolute;top:0;left:0;width:0;height:0;visibility:hidden">
<img width="0" height="0" src="http://beacon.sina.com.cn/a.gif?noScript" border="0" alt="" />
</div>
</noScript>
<div>
</div>
</body>
<link href="http://i.sso.sina.com.cn/css/cardtips.css" rel="stylesheet" type="text/css" media="all" />
<div>
<a href="#blkBreadcrumb">
<img src="http://i2.sinaimg.cn/c.gif" width="1" height="1" alt="跳转到路径导航栏" />
</a>
<div>
<div>
<ul>
<li>
<a href="http://www.sina.com.cn/">首页</a>
</li>
<li>
<a href="http://news.sina.com.cn/">新闻</a>
你要知道异步是怎么做的第一步下载到一个HTML,实际只包含JS
然后执行JS,JS再从服务端获取数据,动态构建HTML如果是这样的,你很难搞数据的
我是菜鸟一枚,毕设题目跟这个有关,可是实在搞不懂这个,还望指教!谢谢!