小弟最近在研究搜索引擎,打算利用C#简单实现个搜索引擎。现在有这样的问题:我对网页的内容进行解析,然后将页面中的主要内容保存到数据库中,<A>可以获取接下来要解析的html。<TITLE>可以获得网页的主要标题。但是网页中的主要内容如何获取呢?每个网页在什么html标签中是主要内容不是确定的啊!可能在<p>,也可能直接就在个<div>中,像这样的情况如何解决呢?如何将主要内容抓取保存下来呢?如何html中有:
<meta name="keywords" content="体育,体育新闻,NIKE新浪竞技风暴,奥运,2008,北京奥运,奥运会" />
<meta name="description" content="新浪体育提供最快速最全面最专业的体育新闻和赛事报道,主要有以下栏目:国内足球、国际足球、篮球、NBA、综合体育、奥运、F1、网球、高尔夫、棋牌、彩票、视频、图片、博客、社区论坛" />
这样是比较标准的,题目和主题就都能抓取出来了,但是并不是所有的网页都是这样....那么description应该如何获取呢?期待高手的指教!谢谢!
<meta name="keywords" content="体育,体育新闻,NIKE新浪竞技风暴,奥运,2008,北京奥运,奥运会" />
<meta name="description" content="新浪体育提供最快速最全面最专业的体育新闻和赛事报道,主要有以下栏目:国内足球、国际足球、篮球、NBA、综合体育、奥运、F1、网球、高尔夫、棋牌、彩票、视频、图片、博客、社区论坛" />
这样是比较标准的,题目和主题就都能抓取出来了,但是并不是所有的网页都是这样....那么description应该如何获取呢?期待高手的指教!谢谢!
Regex re = new Regex("(?i)(?<=<meta\\s+name=\"description\"\\s+content=\")[^\"]+");
foreach (Match m in re.Matches(“”))
{
Console.WriteLine(m.Value);
}
谢谢.如何没有<meta name="description" content=""/>怎么办??