以下几点说明一下:
1)系统定位于大型网站的文章管理栏目,因此功能比较单纯
2)文章可以手工批量采集,可以一次性采集某一分类的所有网页
3)手工任务可转化为定时采集任务,可设置分类的定时采集间隔,比如1、2、5、10小时等
4)采集的文章不存储在数据库中,数据库仅保存关键数据,文章采集后可自动或手工生成shtml页面(模板定义的)
5)自动生成首页及频道首页(如果有的话)
6)自动生成 RSS,并支持RSS的远程及本地javascript输出调用
7)支持业务编辑功能,可注册并发布和管理自己的内容
8)支持危险代码过滤、关键词替换等功能;
9)首页、频道首页等位置高度的自定义
......示例网站:
http://www.talki.cn/
今天早上来了之后做的,不要批评美工哦 ;)
1)系统定位于大型网站的文章管理栏目,因此功能比较单纯
2)文章可以手工批量采集,可以一次性采集某一分类的所有网页
3)手工任务可转化为定时采集任务,可设置分类的定时采集间隔,比如1、2、5、10小时等
4)采集的文章不存储在数据库中,数据库仅保存关键数据,文章采集后可自动或手工生成shtml页面(模板定义的)
5)自动生成首页及频道首页(如果有的话)
6)自动生成 RSS,并支持RSS的远程及本地javascript输出调用
7)支持业务编辑功能,可注册并发布和管理自己的内容
8)支持危险代码过滤、关键词替换等功能;
9)首页、频道首页等位置高度的自定义
......示例网站:
http://www.talki.cn/
今天早上来了之后做的,不要批评美工哦 ;)
就是版块小了那一点
***********************
啥板块?网站只是使用首页默认频道,没有新开频道,新开频道和首页一样
首页可以支持的分类是没有限制的
能提供源码就好了
[email protected]
[email protected]
从功能上来讲,你的不单纯是一个采集系统了,应当包括了一部分的内容管理的功能,属于cms的范畴了
[email protected]
采集主要应用的还是正则表达式这块,不知道楼主是不是这样的;
从功能上来讲,你的不单纯是一个采集系统了,应当包括了一部分的内容管理的功能,属于cms的范畴了
*********************
采集当然要使用正则表达式提取
是需要内容管理的功能的,不然文章如何布置啊 :-)
另:也有单独的采集系统做成的产品,如极速通用信息采集系统,只提供采集功能,不提供内容管理,这个产品在功能上还有一些不足的地方,需要改进;不知道你的采集功能比这个如何?
另:也有单独的采集系统做成的产品,如极速通用信息采集系统,只提供采集功能,不提供内容管理,这个产品在功能上还有一些不足的地方,需要改进;不知道你的采集功能比这个如何?
*********************************
意见不错,不过要做成大家都能用的产品,个性化上就有局限
我打算把这个产品做定制服务,针对专业一些的用户,而不是个人类的用户,可以为他们提供门户内容一块的管理
http://www.edzh.com
http://wap.edzh.com刚刚内置采集功能,后台windows服务自动采集
http://edzh.com/products/cms/
//独立采集工具
http://edzh.com/Help/YesunNetDataSpider.shtml全面支持IE/Firefox,客户端支持Web/Wap ,部分模块尚未完成/测试中。。
[email protected]
[email protected]
想问一下楼主抓取网页的算法的基本原理是怎么样的?
******************
抓取网页只要webrequest就可以了
[email protected]
[email protected]
===================================
//定义请求对象
HttpWebRequest myReq =
(HttpWebRequest)WebRequest.Create( PageAddress );
HttpWebResponse myResponse = null;
try
{
//读取响应数据
myResponse=(HttpWebResponse)myReq.GetResponse();
}
catch(Exception e)
{
throw e;
}
finally
{
if(myResponse!=null)
{
myResponse.Close() ;
}
}
======================
Stream ReceiveStream = myResponse.GetResponseStream();
Encoding encode = System.Text.Encoding.Default ;
StreamReader sr = new StreamReader(ReceiveStream, encode);
Char[] read = new Char[256];
int count = sr.Read(read, 0, 256);
while (count > 0)
{
String str = new String(read, 0, count);
strResult += str;
count = sr.Read(read, 0, 256);
}
strResult=strResult.Replace("\n","").Replace("\r","").Replace("\t","") ;