如何从一个新闻网页中把文章标题、时间、内容、出处等提取出来？算高难吗？

如：
http://news.china.com/zh_cn/domestic/945/20060406/13223564.html
http://news.tom.com/2006-04-06/000N/65351490.html
等等
处理方法要有通用性，就是说我可以处理大部分网站上的文章！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

通用的？
不太清楚
如果每个网站的格式不一样怎么解决？
光靠分析href也会有问题
WEB服务器是你管吗? 分析里边的数据库表结构. 就能取出来了.
如果只是分析一个网站的
那是很容易的你可以用webclient或者webrequest,webresponse
得到网页源文件
然后解析字符串就是了
想一下，除了内容里面会有超文本外，其它的应该都只是一行文本吧？比如说有这样的（不考虑ＢＯＤＹ外的内容）,比如说下面就是一个模板
<Table>
<Tr>
<td>title</td>
</tr>
<Tr>
<td>Author</td>
</tr>
<Tr>
<td>Content</td></tr>
</Table>
那可以先找第一个要的内容：title，获得前面的ＨＴＭＬ的信息，然后到网页中去匹配，从而得到相应的内容，接着再找下一个．．．．
不是楼上说的那么简单，关键是判断文章的标准，网上有很多乱七八糟的网页，什么内容都有？你如何判断这是一篇文章？
即使你判断出来了，你又怎么判断那是标题，那是内容？他们基本上都是放在<P></P>之中！形式相仿，如何区分？
chinahuman(铁匠)同学！1W块钱是小意思，只要你能实现了！我给得更多！哈哈
这种东西做的都是针对性的用.NET做这个其实很简单HttpWebRequest HttpWebResponse用这些类来获取源文件然后就靠正则来提取了需要登陆的都可以采集过来当然需要把COOKIE一起发送过去HTML也是标记语言处理好了完全可以当作XML来处理不过用正则来提取相对简单些
你要分析那么多网站的新闻文章干什么。
你说的这个有点像Spider一类的东西。。我有个朋友写过一个，我帮你看看他是怎么写的。
不过我估计是先争对一个网站写比较容易。因为这个东西很被动啊。
不过很有意思。
他是写来搜索有.rm ,.rmvb ,...的连接的。
我做过类似的项目我的解决方法是：
    用一个 axWebBrowser 打开要分析的网页，然后获得 axWebBrowser 的 HTMLDocument 接口(叫它doc吧），要用户输入正文的td是第几个td，然后遍历 doc.getElementByTagName("td") ，获得 td元素的 IHTMLElement 接口，找到用户需要的td（叫它elem吧），然后把 elem.innerHTML 显示在一个多行文本框，给用户看看是不是正文。如果用户看到不是正文，用户可以修改td的序号，然后重新显示，直到文本框中显示的是正文为止
不算难，做一个为目标网站建立采集定义的程序，一个采集引擎，一个管理程序就可以用了我做过一个，你看看是不是你想要的http://www.fenixsoft.net/download_show.asp?downID=4
呵呵,那就加我的MSN,我们细聊:[email protected]
IcyFenix(http://www.fenixsoft.net/) 的东西还可以！不过我只关心网页分析部分！
网页分析其实不用自己做，通过IHTMLDocument2接口就可以分析HTML文档了
这个需要用户定义的。提供一个用户定义的工具。让用户定义一个网站哪里是文章列表，程序根据这个列表采集这个网站的每一篇文章，然后每篇文章哪里是标题，哪里是正文也需要用户来定义。用户指定这3个地方就足够采集一个网站的了，但是最好其他细节的东西，例如某类型标签是否要过滤之类的也提供给用户设置。至于这个“哪里是”如何指定，就是需要考虑的事情了。我的程序是参考PowerEasy CMS里面采集定义的方法，既按唯一边界标志定义的。所以说还要做一个工具，让能让用户尽量简单的的定义好一个网站的信息从哪里拉回来