系统采用C#编写,需要.NET Framework 2.0环境,可以按照你设定的规则采集不同网站的新闻,不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷,一是对分页的新闻网页无法提取;二是对一些需要用户登录的网页不能采集。需望高手指点。

解决方案 »

  1.   

    vengair(韦恩):
    用遍历的方法感觉不是很好,比较麻烦。
      

  2.   

    分页根据页面的规则很多分页网页地址都是?page=1?page=2的
      

  3.   

    TO:一是对分页的新闻网页无法提取那也只能分析一下链接了,根据分页的网页URL的特点,来判断是否是同一则新闻...TO:对一些需要用户登录的网页不能采集这个没办法,你得知道登录的用户名和密码,才能进行采集...
    另外恭喜一下,接分...
      

  4.   

    我做了一个采集阿里巴巴企业信息的东东。具体思路如下:
    首先搜索一个你想要的关键字获得列表,获取这个列表的HTML,然后用正则得到每个企业的公司主页链接,关于分页可以分析一下他的URL,其实只有一个变量,用一个循环就可以搞定。得到的链接放到一个TXT中,然后一行一行的读取,再次获得HTML,正则得到你需要的信息。后面的...
      

  5.   

    TO:对一些需要用户登录的网页不能采集自己先注册一个,登陆名和密码,写入数据库.
    在需要去下载网页的时候,运用登陆名和密码 POST过去得到COOKIE
      

  6.   

    twinkly(我本逍遥) :我的思路和你差不多。
    但现在感觉有点问题,在提取网页内容的时候,我用正则表达式不能完全达到功效,并且对一般的用户使用很难操作。这方面可能还需要进一步的改进。
      

  7.   

    smbeng(MW):你指的不同,是什么不同?
    只要不要登录的内容什么都可以采集
      

  8.   

    大家要的话可以到C# Study群里面下载,
    QQ群号:25920992
      

  9.   

    smbeng(MW):这没有不什么不同,因为系统是根据你设定的正则表达式去提取内容,不需要的内容过滤掉。
      

  10.   

    用一个笨方法:
    搜索源码中包含<a href=#>下一页</a>或>>或2等带链接的文字,其实分页也就那么几种格式写发,你可以写个正则判断是否符合。一般不是下一页就是2或则>>也许还有几种其他写发,我感觉这里用这个笨法应该还是比较有效和省事的
    关于需要登陆的我就没办法了,总之不可能开发一个自动注册并登陆的程序,因为现在多数都有验证码,表单内容也不一样
      

  11.   

    自动登录的我在考虑是不是伪造一个cookie能否实现?如果是这样的话,那事情要简单些。
      

  12.   

    ssdx(未来啊未来):原来一直在武汉南湖花园,故纪念之。