如何在一定的时间间隔内,从新浪网上抓取5条热点新闻到我自己的网站上? 用webclientSystem.Net.WebClient obj = new System.Net.WebClient();byte[] bs obj.DownloadData(url);将bs转成string然后分析 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 我也想问一下这个url如何获取,全部手工设置吗?不太可能吧? url就是包含热点新闻的哪个网页,分析获得的内容,然后取得所要的数据 使用RSS就可以获取到新闻了,需要新浪的rss地址 比如新浪的http://news.sina.com.cn/页面的重点新闻,先得到http://news.sina.com.cn/页的源码,然后分析源代码,重点新闻的链接在<!--重点新闻1号位 开始-->之后,可以用正则取出相应的url,然后用这个url得到相应页的具体新闻内容 先得到http://news.sina.com.cn/页的源码,然后分析源代码----如何得到源码,如果得到了源码,那还要做个一个源码分析器,来解析这个页面吗? 得到网页源码,参考下这个帖子http://community.csdn.net/Expert/topic/5411/5411610.xml?temp=.3444483像新浪这种网站,源码的格式是固定的,变的只是链接图片等内容,只要根据一定的标志性字符串,比如“<!--重点新闻1号位 开始-->”,就可以用正则提取出你想要的url,然后根据这个url再用去得到具体的新闻页面的内容 用过webclient的兄弟,说说体会 用webclientSystem.Net.WebClient obj = new System.Net.WebClient();byte[] bs obj.DownloadData(url);----------------我使用webclient,downloadData(我指定的一个网页)down下来的是一堆数字,不知道是什么意思? 现在可以获取我指定的一个url的页面了,但是得到的页面全是“?”乱码。这个可能是因为原页面是繁体的原因。当我想指定到www.sina.com.cn,我的电脑设置了代理。每次获得的都是权限管制那个页面。如何绕开代理,或者出现提示输入帐号和密码的界面?对于这个“代理”,不知道大家有没有明白我的意思,因为是企业内部的电脑,不是人人都可以上网,它只允许拥有上网帐号和密码的人,和设置了代理的电脑才可以链接Interner。如果没有这些条件就出现一个默认的页面(提示你无法上网),呵呵,我好像越说越糊涂了!大概就是这个意思了。现在页面已经得到了,怎么来分析呀? <%@ Import NameSpace="System.Net" %><script language="VB" runat="server">Sub Page_Load(Sender As Object, E As EventArgs) '下面首先将新浪网站首页数据下载到字符串strTemp中 Dim wc As New WebClient() Dim strTemp As String strTemp = Encoding.Default.GetString(wc.DownloadData("http://www.sina.com.cn")) '下面在该字符串中查找重要新闻 Dim intStart,intEnd As Integer '两个变量分别表示开始和结束位置 intStart = strTemp.IndexOf("<!---此部分为新浪首页要闻区内容---->",0) + 24 intEnd = strTemp.IndexOf("<!---此部分为新浪首页要闻区内容 end---->",intStart) - 1 strTemp = strTemp.Substring(intStart, intEnd - intStart + 1) '从中提取重要新闻 Message.Text = strTemp '显示重要新闻End Sub</script><html><head><meta http-equiv="refresh" content="3"></head><body> <h3 align="center">从新浪首页获取重要新闻</h3> <asp:Label id="message" runat="server" /></body></html>请参考一下。不过时间要修改,抓取的内容也修改一下。建议你先看看sina首页的原代码。计算一下吧 不错,不过我看到有人使用RSS,感觉RSS可能会更开放些。 【求助】客户的内网哪里出了问题?! 数据库有30条记录,动态划一个表格,每行显示6条记录 最近开发被这东东打扰,百度无果,大家看一下 新手求助:GridView 如何删除一行数据 [求助]使用cookieless的session时,用户登录的认证问题 用mail类发送邮件成功了,可是有一句语句不是很明白? 各位大哥,能不能帮帮小弟? 求助 ajax 无限级树形菜单 (asp.net) W3C的那个所见即所得是怎么做呢? 急死了,这是回事!!! 框架,怎样刷新页面 急救!!!!想问个关于将文本文档保存的数据转换到SQL数据库中
<!--重点新闻1号位 开始-->
之后,可以用正则取出相应的url,然后用这个url得到相应页的具体新闻内容
----
如何得到源码,如果得到了源码,那还要做个一个源码分析器,来解析这个页面吗?
System.Net.WebClient obj = new System.Net.WebClient();
byte[] bs obj.DownloadData(url);----------------我使用webclient,downloadData(我指定的一个网页)
down下来的是一堆数字,不知道是什么意思?
但是得到的页面全是“?”乱码。这个可能是因为原页面是繁体的原因。
当我想指定到www.sina.com.cn,我的电脑设置了代理。每次获得的都是权限管制那个页面。
如何绕开代理,或者出现提示输入帐号和密码的界面?对于这个“代理”,不知道大家有没有明白我的意思,因为是企业内部的电脑,不是人人都可以上网,它只允许拥有上网帐号和密码的人,和设置了代理的电脑才可以链接Interner。如果没有这些条件就出现一个默认的页面(提示你无法上网),呵呵,我好像越说越糊涂了!大概就是这个意思了。
现在页面已经得到了,怎么来分析呀?
<script language="VB" runat="server">
Sub Page_Load(Sender As Object, E As EventArgs)
'下面首先将新浪网站首页数据下载到字符串strTemp中
Dim wc As New WebClient()
Dim strTemp As String
strTemp = Encoding.Default.GetString(wc.DownloadData("http://www.sina.com.cn"))
'下面在该字符串中查找重要新闻
Dim intStart,intEnd As Integer '两个变量分别表示开始和结束位置
intStart = strTemp.IndexOf("<!---此部分为新浪首页要闻区内容---->",0) + 24
intEnd = strTemp.IndexOf("<!---此部分为新浪首页要闻区内容 end---->",intStart) - 1
strTemp = strTemp.Substring(intStart, intEnd - intStart + 1) '从中提取重要新闻
Message.Text = strTemp '显示重要新闻
End Sub
</script>
<html>
<head><meta http-equiv="refresh" content="3"></head>
<body>
<h3 align="center">从新浪首页获取重要新闻</h3>
<asp:Label id="message" runat="server" />
</body>
</html>请参考一下。不过时间要修改,抓取的内容也修改一下。
建议你先看看sina首页的原代码。计算一下吧