新闻自动采集系统做完了，散分

系统采用C#编写，需要.NET Framework 2.0环境，可以按照你设定的规则采集不同网站的新闻，不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷，一是对分页的新闻网页无法提取；二是对一些需要用户登录的网页不能采集。需望高手指点。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

vengair(韦恩)：
用遍历的方法感觉不是很好，比较麻烦。
分页根据页面的规则很多分页网页地址都是?page=1?page=2的
TO:一是对分页的新闻网页无法提取那也只能分析一下链接了,根据分页的网页URL的特点,来判断是否是同一则新闻...TO:对一些需要用户登录的网页不能采集这个没办法,你得知道登录的用户名和密码,才能进行采集...
另外恭喜一下,接分...
我做了一个采集阿里巴巴企业信息的东东。具体思路如下：
首先搜索一个你想要的关键字获得列表，获取这个列表的HTML，然后用正则得到每个企业的公司主页链接，关于分页可以分析一下他的URL，其实只有一个变量，用一个循环就可以搞定。得到的链接放到一个TXT中，然后一行一行的读取，再次获得HTML，正则得到你需要的信息。后面的...
TO:对一些需要用户登录的网页不能采集自己先注册一个,登陆名和密码,写入数据库.
在需要去下载网页的时候,运用登陆名和密码 POST过去得到COOKIE
twinkly(我本逍遥) :我的思路和你差不多。
但现在感觉有点问题，在提取网页内容的时候，我用正则表达式不能完全达到功效，并且对一般的用户使用很难操作。这方面可能还需要进一步的改进。
smbeng(MW)：你指的不同，是什么不同？
只要不要登录的内容什么都可以采集
大家要的话可以到C# Study群里面下载，
QQ群号：25920992
smbeng(MW):这没有不什么不同，因为系统是根据你设定的正则表达式去提取内容，不需要的内容过滤掉。
用一个笨方法：
搜索源码中包含<a href=#>下一页</a>或>>或2等带链接的文字，其实分页也就那么几种格式写发，你可以写个正则判断是否符合。一般不是下一页就是2或则>>也许还有几种其他写发，我感觉这里用这个笨法应该还是比较有效和省事的
关于需要登陆的我就没办法了，总之不可能开发一个自动注册并登陆的程序，因为现在多数都有验证码，表单内容也不一样
自动登录的我在考虑是不是伪造一个cookie能否实现？如果是这样的话，那事情要简单些。
ssdx(未来啊未来)：原来一直在武汉南湖花园，故纪念之。