正文抽取中网页内容类型判断 最近在写一个正文抽取的程序,是基于统计和一些规则来处理的,效果还凑和,但还是有一些杂数据会出现我现在想将网页类型分类,提高准确度,比如 : 1 新闻类型 2 论坛类型 3 博客类型 4 其他我现在想问的是 网页类型 如何判断 , 或者这种方法不好给点新思路。谢谢 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 Powered by PHPWind v5.3 Code © 2003-07 Powered by Discuz! 6.0.0 © 2001-2007比如上面一般是论坛 可以通过 IndexOf()来判断,但是不是每个论坛都用以上的一些关键字的新闻类网页一般 uri.Host 有 news 之类的关键字 还有新闻类网页正文开头都用新闻发布时间 比如下面的格式2009年08月10日 12:30博客类型 一般 uri.Host 有blog关键字 ------------------------------但是以上判断还是不太好 同求最后做的效果 及源码分享 谢谢 [email protected] [求助]如何抓取自动跳转的代码?[急] 使用File.copy()后用File.Delete()删除源文件失败 C# 如何向指定的客户端发送消息 大家帮我看一下这个是什么错误 如何定义一个大数组 窗体应用程序中,写了两个类,类1中调用类2的方法,form1中调用类1的方法 关于文件下载的问题 看了Object类Equals函数源代码,我有些疑问? SOCKET问题,帮忙解决,在线等。。。 在.net中怎么实现程序方法(算法)的移动? vs2008点击窗体右上角的红叉退出的问题 Replace 怎么把逗号替换成 两个空格 Replace(",", " ");
Powered by Discuz! 6.0.0 © 2001-2007
比如上面一般是论坛 可以通过 IndexOf()来判断,但是不是每个论坛都用以上的一些关键字的新闻类网页一般 uri.Host 有 news 之类的关键字 还有新闻类网页正文开头都用新闻发布时间 比如下面的格式
2009年08月10日 12:30博客类型 一般 uri.Host 有blog关键字
------------------------------但是以上判断还是不太好