http://info.laser.hc360.com//2008/10/28093134774.shtml
我获取到了当前页面的html代码?
LPC 2009 第四届国际应用激光技术中国研讨会
2008/10/28/09:31 来源:中国激光网
展会简介 本届“国际应用激光技术中国研讨会”将与慕尼黑上海激光、光电展(LASER World of PHOTONICS China 2009)同期于2009年3月17-19日在上海新国际博览中心隆重召开。作为世界激光、光电行业的顶级专业展会,慕尼黑上海激光、光电展将集中展示光电子学的整个领域。 本届展会为您公司提供良好的机会展示你们公司的产品,开发并拓展中国巨大的潜在市场。
慕尼黑上海激光、光电展是德国慕尼黑国际博览集团全球激光、光电网络的一部分,该网络涵盖了如LASER World of PHOTONICS,光子学代表大会World of PHOTONICS Congress等。 第四届国际应用激光技术中国研讨会
"第四届国际应用激光技术中国研讨会"将于2009年3月17到18日在上海新国际博览中心举行,由慕尼黑国际博览集团、美国激光学会、汉诺威激光中心和中国光学学会激光加工专业委员会共同举办。会议为期两天,将集中讨论激光加工技术、光学元件以及激光技术目前的发展与未来的趋势。本届研讨会的宗旨是促进光电技术在科学研究和工业领域应用的合作及信息交流。
研讨会的会议议题
★激光微细加工
★激光宏观加工
★光学元件
★激光系统和激光安全 所有报告都将同声翻译成英文和中文。每报告的演讲时间为20分钟(包含问题提问) 注册
★通过传真: +49 (0)511–2772699 ★电子邮件: [email protected] 注册费 演讲人:
★中国演讲人: 免费 ★其它国家演讲人: 100欧元 听众: ★中国听众: 免费 如何获取这一段内容和翻页后的内容?
我获取到了当前页面的html代码?
LPC 2009 第四届国际应用激光技术中国研讨会
2008/10/28/09:31 来源:中国激光网
展会简介 本届“国际应用激光技术中国研讨会”将与慕尼黑上海激光、光电展(LASER World of PHOTONICS China 2009)同期于2009年3月17-19日在上海新国际博览中心隆重召开。作为世界激光、光电行业的顶级专业展会,慕尼黑上海激光、光电展将集中展示光电子学的整个领域。 本届展会为您公司提供良好的机会展示你们公司的产品,开发并拓展中国巨大的潜在市场。
慕尼黑上海激光、光电展是德国慕尼黑国际博览集团全球激光、光电网络的一部分,该网络涵盖了如LASER World of PHOTONICS,光子学代表大会World of PHOTONICS Congress等。 第四届国际应用激光技术中国研讨会
"第四届国际应用激光技术中国研讨会"将于2009年3月17到18日在上海新国际博览中心举行,由慕尼黑国际博览集团、美国激光学会、汉诺威激光中心和中国光学学会激光加工专业委员会共同举办。会议为期两天,将集中讨论激光加工技术、光学元件以及激光技术目前的发展与未来的趋势。本届研讨会的宗旨是促进光电技术在科学研究和工业领域应用的合作及信息交流。
研讨会的会议议题
★激光微细加工
★激光宏观加工
★光学元件
★激光系统和激光安全 所有报告都将同声翻译成英文和中文。每报告的演讲时间为20分钟(包含问题提问) 注册
★通过传真: +49 (0)511–2772699 ★电子邮件: [email protected] 注册费 演讲人:
★中国演讲人: 免费 ★其它国家演讲人: 100欧元 听众: ★中国听众: 免费 如何获取这一段内容和翻页后的内容?
正则还有可优化的地方,懒得做了
异常处理楼主自己做下吧以下页面测试通过
共1页:http://info.laser.hc360.com/2009/02/28143636889.shtml
共2页:http://info.laser.hc360.com//2008/10/28093134774.shtml
共3页:http://info.laser.hc360.com/2009/02/28143236888.shtml private void button1_Click(object sender, EventArgs e)
{
string pageUrl = richTextBox1.Text;
string html = "";
string content = "";
string nextPageUrl = "init";
Regex reg = new Regex(@"<div\s+id=""title"">(?<title>[\s\S]*?)</div>\s*<div\s+id=""artical"">(?<content>[\s\S]*?)((<div\s+style=""text-align:center;"">[\s\S]*?)(<a\s+href='(?<nextPage>[^']*)'>下一页</a>)?( ))?\s*</div>", RegexOptions.IgnoreCase | RegexOptions.Compiled);
while (nextPageUrl != "")
{
html = GetHtmlCode(pageUrl, Encoding.GetEncoding("gb2312"));
content += getDivContent(html, reg, out nextPageUrl);
pageUrl = pageUrl.Remove(pageUrl.LastIndexOf('/')) + "/" + nextPageUrl;
}
richTextBox2.Text = Regex.Replace(content.Replace("<BR>", "\r\n").Replace(" ", " "), @"<[^>]*>", "");
} private string getDivContent(string html, Regex pattern, out string nextPage)
{
Match m = pattern.Match(html);
if (m.Success)
{
nextPage = m.Groups["nextPage"].Value;
return m.Groups["content"].Value;
}
nextPage = "";
return "";
} private string GetHtmlCode(string url, Encoding encoding)
{
System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url);
request.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.1) Web-Sniffer/1.0.24";
System.Net.WebResponse response = request.GetResponse();
System.IO.Stream resStream = response.GetResponseStream();
System.IO.StreamReader sr = new System.IO.StreamReader(resStream, encoding);
string html = (sr.ReadToEnd());
resStream.Close();
sr.Close();
return html;
}