过年了散点分。同时有个比较奇怪的想法,就是如何判断某个网页的HTML中的正文部分即主内容部分?(假设每张页面都是文章页,包含标题和主内容)
什么逻辑可以判断,具体实现可以另议,每个网站的主内容页HTML标签是不同的,判断好像比较难比如
<html><body><h1>this is title</h1><div>this is content.</div></body><html>如何判断出来this is content是网页主信息,这里的this is content一般是一篇含有基本HTML标签的文章。我的想法是判断网页HTML中连续的、非HTML标签的字符最多的位置就是内容所在位置。
大家有什么想法说说看,不说具体实现只说想法也可以。觉得百度应该有这样的技术,智能抽取网页的主内容。
什么逻辑可以判断,具体实现可以另议,每个网站的主内容页HTML标签是不同的,判断好像比较难比如
<html><body><h1>this is title</h1><div>this is content.</div></body><html>如何判断出来this is content是网页主信息,这里的this is content一般是一篇含有基本HTML标签的文章。我的想法是判断网页HTML中连续的、非HTML标签的字符最多的位置就是内容所在位置。
大家有什么想法说说看,不说具体实现只说想法也可以。觉得百度应该有这样的技术,智能抽取网页的主内容。
解决方案 »
- (新人在线等) 一个关于GridView与模板列的简单问题~~~ :)
- .net如何实现通过首页之外的aspx页面实现首页的静态化?
- javascript的问题,大家帮忙看看???
- Request.UserHostName 怎么取到是客户端IP,不是计算机名?
- 做个通用的MIS系统应该如何做。请大家给点意见
- WINDOWS XP 文件夹的权限如何设置? (很简单的应该)
- 谁知道在ASP.NET中调用COM+组件,在初始化组件的时候如何能快一些?
- 如何为datagrid里的td加onclick
- 各位高手救命啊!!vs.net出问题了
- .net npoi 可以导出gridview内的数据到excel吗?
- CSS与控件的 runat=server问题如何解决???
- aspx变html
下源码 送U盘 http://vip.hur.cn
之前我用Python做了一个去拿baidu的列表的
asp.net : this.Page.Form.InnerHtml;
js: 文档boyd. InnerHtml;
一般只对html标签做匹配分析如果真需要这么做的话,只能定义一些粗略的规则来匹配标签。
比如,在同一个div内的如果含有h1,h2,区别接下来的div。
这种考虑就要多了,基本上不能找到一个适合所有网站设计的规范。
这个会引发异常.
取内容的话用WebResponse.GetResponseStream()
你那种感觉实在很难实现,要考虑的情况太多,当然最重要的是无法去判断哪个才是标题,哪个才是CONTENT。
RSS的话也不是每个网站都有的。顺便接点分