谁写过类似爬虫,抓取网页的程序! http://www.cnblogs.com/birdshover/archive/2008/11/03/1321481.htmlhttp://www.cnblogs.com/torome/articles/364774.html 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 可以用webRequest类,或是用WebBrouse控件都可以原理就是只要你拿到对应网站的源文件就行而在获取网页原文件的时候得区分是post方法还是get方法具体可以通过工具获得,如sniffer 楼主:用了一下你的程序在vs2008下运行提示:说明: 在编译向该请求提供服务所需资源的过程中出现错误。请检查下列特定错误详细信息并适当地修改源代码。 编译器错误消息: CS0246: 找不到类型或命名空间名称“Form”(是否缺少 using 指令或程序集引用?)源错误: 行 16: namespace TaoKeDateRequest行 17: {行 18: public partial class Form1 : Form行 19: {行 20: public String TitleReg = "(?<=<title>)(.*?)(?=</title>)"; - -~你要看代码的 OK~~不要就这样拿来用这个是 WINFORM程序不是 控制台程序...你如果了解C#的话看看代码就会知道该怎么做了... 我有可自定义规则的采集程序~~需要不??RMB~~ 我要截取title Description body插入数据库,及其当前的URLhttp://www.beijing-hyundai.com.cn/eting/eting.shtml<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>北京现代汽车有限公司-市场活动</title><meta name="Keywords" content="市场活动,最新活动,精彩活动,活动回顾,免费检测活动,促销活动" /><meta name="Description" content="公司最新及以往活动信息,包括促销活动,免费检测活动,形象代言选拔等信息。" /><link rel="stylesheet" href="/css/header.css" type="text/css" media="all" /><link rel="stylesheet" href="/css/eting_content.css" type="text/css" media="all" /><script type="text/javascript" src="/js/nav.js"></script></head><body id="eting"> <div class="eting_item_right"> <h5 class="blue_a02"><a href="./hd/080714/index.html" target="_blank">回娘家—为中国加油!</a></h5> <p>鼎沸中国,悦动八月</p><p>北京现代诚邀2008位客户回娘家!您将可参观北京现代先进的生产线,可切身感受首都八月浓郁的奥运氛围,游览大气磅礴的体育场馆,观摩激动人心的体育赛事……</p><p>让我们一起来,悦动八月!</p></p> <p class="date">2008.08.06-2008.08.24</p> </div> Text = Text.Replace("<script src='/plus/js/1.js' language='javascript'></script></div>", ""); Text = Text.Replace("<script src='/plus/js/7.js' language='javascript'></script></div>", "");这两个内容是干什么的,能不能发给我啊? 这两者description有什么不一样,为啥新浪的能抓到,chinabyte的抓不到??<code=c#><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><!--[30,59,1] published at 2009-03-27 16:27:16 from #194 by 2418--><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>新浪首页</title><meta name="description" content="新浪网为全球用户24小时提供全面及时的中文资讯,内容覆盖国内外突发新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等,设有新闻、体育、娱乐、财经、科技、房产、汽车等30多个内容频道,同时开设博客、视频、论坛等自由互动交流空间。"><meta name="stencil" content="PGLS000022"><meta name="publishid" content="30,59,1"><meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7" /><meta name="verify-v1" content="6HtwmypggdgP1NLw7NOuQBI2TW8+CfkYCoyeB8IDbn8=" /> </head><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化</title><meta http-equiv="Content-Language" content="zh-CN" /><meta name="generator" content="MSHTML 6.00.2900.2604" /><meta name="author" content="ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化" /><meta name="Copyright" content="比特网 | 互联网 | 互联网的资讯平台、新闻窗口,为你展现互联网企业多姿多彩的载体" /><meta name="description" content="ChinaByte比特网,作为中国IT产业的舆论高地和风向标,其原创新闻和评论每天被上百家门户、地方网站、行业网站及报刊争相转载、改编。全面的信息化和企业级IT内容为行业信息化、企业信息化工作者提供实用的资讯服务,拥有大批CIO、CTO等信息化决策读者人群。" /><meta name="keywords" content="IT新闻,IT评论,IT财报,IT技术,IT博客,IT论坛,IT社区,信息化博客,信息化报道,IT产业,家电,通信,3g,TD,互联网新闻,互联网评论,cio,cto,ceo,应用案例,解决方案,服务器,刀片服务器,虚拟化,存储,网络,信息安全,路由器,交换机,台式机,笔记本,打印机,投影机,一体机,行业信息化,企业信息化,云计算,saas,固态存储,开源,ERP,CRM,IT服务管理,ITIL,企业数据中心,机房,UPS,布线,供电,绿色信息化,虚拟化" /><link href="http://image.yesky.com/TLimages/chinabyte/css/cb_index_090220.css" type="text/css" rel="stylesheet" media="all" /><link href="http://image.yesky.com/TLimages/chinabyte/css/headfloor_950_index_090220.css" type="text/css" rel="stylesheet" media="all" /><base target="_blank" /></head></code> Access数据库导入到SQL2008问题求解 image,varbinary,文件路径,linq,存图片你们用哪种和如何转换 C# 如何在编译的时候将需求的DLL编译进来 生成一个绿色软件 数据库、遇到点问题 字符与整型转换 datagridview中事务的问题,“事务不是与当前连接无关联,就是已完成” 用c#做directx开发是不是一定要安装dx产生dll? 郁闷!!散分!! xp sp2 为什么装 vs2003 装不进去?有谁碰到过? c#写的dll powerbuilder 8.0无法调用的问题 如何给TabPage赋值工具栏图标 关于邮件发送的问题
原理就是只要你拿到对应网站的源文件就行而在获取网页原文件的时候得区分是post方法还是get方法
具体可以通过工具获得,如sniffer
说明: 在编译向该请求提供服务所需资源的过程中出现错误。请检查下列特定错误详细信息并适当地修改源代码。 编译器错误消息: CS0246: 找不到类型或命名空间名称“Form”(是否缺少 using 指令或程序集引用?)源错误: 行 16: namespace TaoKeDateRequest
行 17: {
行 18: public partial class Form1 : Form
行 19: {
行 20: public String TitleReg = "(?<=<title>)(.*?)(?=</title>)";
不要就这样拿来用这个是 WINFORM程序
不是 控制台程序...你如果了解C#的话
看看代码就会知道该怎么做了...
http://www.beijing-hyundai.com.cn/eting/eting.shtml
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>北京现代汽车有限公司-市场活动</title>
<meta name="Keywords" content="市场活动,最新活动,精彩活动,活动回顾,免费检测活动,促销活动" />
<meta name="Description" content="公司最新及以往活动信息,包括促销活动,免费检测活动,形象代言选拔等信息。" />
<link rel="stylesheet" href="/css/header.css" type="text/css" media="all" />
<link rel="stylesheet" href="/css/eting_content.css" type="text/css" media="all" />
<script type="text/javascript" src="/js/nav.js"></script>
</head>
<body id="eting"> <div class="eting_item_right">
<h5 class="blue_a02"><a href="./hd/080714/index.html" target="_blank">回娘家—为中国加油!</a></h5>
<p>鼎沸中国,悦动八月</p>
<p>北京现代诚邀2008位客户回娘家!您将可参观北京现代先进的生产线,可切身感受首都八月浓郁的奥运氛围,游览大气磅礴的体育场馆,观摩激动人心的体育赛事……</p>
<p>让我们一起来,悦动八月!</p>
</p>
<p class="date">2008.08.06-2008.08.24</p>
</div>
Text = Text.Replace("<script src='/plus/js/7.js' language='javascript'></script></div>", "");
这两个内容是干什么的,能不能发给我啊?
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!--[30,59,1] published at 2009-03-27 16:27:16 from #194 by 2418-->
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>新浪首页</title>
<meta name="description" content="新浪网为全球用户24小时提供全面及时的中文资讯,内容覆盖国内外突发新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等,设有新闻、体育、娱乐、财经、科技、房产、汽车等30多个内容频道,同时开设博客、视频、论坛等自由互动交流空间。">
<meta name="stencil" content="PGLS000022">
<meta name="publishid" content="30,59,1">
<meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7" />
<meta name="verify-v1" content="6HtwmypggdgP1NLw7NOuQBI2TW8+CfkYCoyeB8IDbn8=" />
</head><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化</title>
<meta http-equiv="Content-Language" content="zh-CN" />
<meta name="generator" content="MSHTML 6.00.2900.2604" />
<meta name="author" content="ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化" />
<meta name="Copyright" content="比特网 | 互联网 | 互联网的资讯平台、新闻窗口,为你展现互联网企业多姿多彩的载体" />
<meta name="description" content="ChinaByte比特网,作为中国IT产业的舆论高地和风向标,其原创新闻和评论每天被上百家门户、地方网站、行业网站及报刊争相转载、改编。全面的信息化和企业级IT内容为行业信息化、企业信息化工作者提供实用的资讯服务,拥有大批CIO、CTO等信息化决策读者人群。" />
<meta name="keywords" content="IT新闻,IT评论,IT财报,IT技术,IT博客,IT论坛,IT社区,信息化博客,信息化报道,IT产业,家电,通信,3g,TD,互联网新闻,互联网评论,cio,cto,ceo,应用案例,解决方案,服务器,刀片服务器,虚拟化,存储,网络,信息安全,路由器,交换机,台式机,笔记本,打印机,投影机,一体机,行业信息化,企业信息化,云计算,saas,固态存储,开源,ERP,CRM,IT服务管理,ITIL,企业数据中心,机房,UPS,布线,供电,绿色信息化,虚拟化" />
<link href="http://image.yesky.com/TLimages/chinabyte/css/cb_index_090220.css" type="text/css" rel="stylesheet" media="all" />
<link href="http://image.yesky.com/TLimages/chinabyte/css/headfloor_950_index_090220.css" type="text/css" rel="stylesheet" media="all" />
<base target="_blank" />
</head></code>