如:
http://news.china.com/zh_cn/domestic/945/20060406/13223564.html
http://news.tom.com/2006-04-06/000N/65351490.html
等等
处理方法要有通用性,就是说我可以处理大部分网站上的文章!

解决方案 »

  1.   

    通用的?
    不太清楚
    如果每个网站的格式不一样怎么解决?
    光靠分析href也会有问题
      

  2.   

    WEB服务器是你管吗? 分析里边的数据库表结构. 就能取出来了.
      

  3.   

    如果只是分析一个网站的
    那是很容易的你可以用webclient或者webrequest,webresponse
    得到网页源文件
    然后解析字符串就是了
      

  4.   

    想一下,除了内容里面会有超文本外,其它的应该都只是一行文本吧?比如说有这样的(不考虑BODY外的内容),比如说下面就是一个模板
    <Table>
    <Tr>
    <td>title</td>
    </tr>
    <Tr>
    <td>Author</td>
    </tr>
    <Tr>
    <td>Content</td></tr>
    </Table>
    那可以先找第一个要的内容:title,获得前面的HTML的信息,然后到网页中去匹配,从而得到相应的内容,接着再找下一个....
      

  5.   

    不是楼上说的那么简单,关键是判断文章的标准,网上有很多乱七八糟的网页,什么内容都有?你如何判断这是一篇文章?
    即使你判断出来了,你又怎么判断那是标题,那是内容?他们基本上都是放在<P></P>之中!形式相仿,如何区分?
      

  6.   

    chinahuman(铁匠)同学!1W块钱是小意思,只要你能实现了!我给得更多!哈哈
      

  7.   

    这种东西做的都是针对性的用.NET做这个其实很简单HttpWebRequest HttpWebResponse用这些类来获取源文件 然后就靠正则来提取了 需要登陆的都可以采集过来 当然需要把COOKIE一起发送过去HTML也是标记语言 处理好了 完全可以当作XML来处理不过用正则来提取 相对简单些
      

  8.   

    你要分析那么多网站的新闻文章干什么。
    你说的这个有点像Spider一类的东西。。我有个朋友写过一个,我帮你看看他是怎么写的。
    不过我估计是先争对一个网站写比较容易。因为这个东西很被动啊。
    不过很有意思。
    他是写来搜索 有.rm ,.rmvb ,...的连接的。
      

  9.   

    我做过类似的项目我的解决方法是:
        用一个 axWebBrowser 打开要分析的网页,然后获得 axWebBrowser 的 HTMLDocument 接口(叫它doc吧),要用户输入正文的td是第几个td,然后遍历 doc.getElementByTagName("td") ,获得 td元素 的 IHTMLElement 接口,找到用户需要的td(叫它elem吧),然后把 elem.innerHTML 显示在一个多行文本框,给用户看看是不是正文。如果用户看到不是正文,用户可以修改td的序号,然后重新显示,直到文本框中显示的是正文为止
      

  10.   

    不算难,做一个为目标网站建立采集定义的程序,一个采集引擎,一个管理程序就可以用了我做过一个,你看看是不是你想要的http://www.fenixsoft.net/download_show.asp?downID=4
      

  11.   

    呵呵,那就加我的MSN,我们细聊:[email protected]
      

  12.   

    IcyFenix(http://www.fenixsoft.net/) 的东西还可以!不过我只关心网页分析部分!
      

  13.   

    网页分析其实不用自己做,通过IHTMLDocument2接口就可以分析HTML文档了
      

  14.   

    这个需要用户定义的。提供一个用户定义的工具。让用户定义一个网站哪里是文章列表,程序根据这个列表采集这个网站的每一篇文章,然后每篇文章哪里是标题,哪里是正文也需要用户来定义。用户指定这3个地方就足够采集一个网站的了,但是最好其他细节的东西,例如某类型标签是否要过滤之类的也提供给用户设置。至于这个“哪里是”如何指定,就是需要考虑的事情了。我的程序是参考PowerEasy CMS里面采集定义的方法,既按唯一边界标志定义的。所以说还要做一个工具,让能让用户尽量简单的的定义好一个网站的信息从哪里拉回来