如题:正则表达式提取网页title,keywords和description
高人指点一下网页代码如下:
<meta name="keywords" content="海词,在线词典,在线查词,在线翻译,每日课堂,英语知识,生词本,背单词,快乐英语,英语学习" />
<meta name="description" content="海词网免费提供超过500万词条的海量专业英语在线词库、智能在线查词、在线短文翻译、背单词、生词本、英语知识、海词课堂、每日快乐英语学习等服务,创造全新英语在线学习平台,打造中国人的精品词典。" />
<meta name="author" content="海词网" />要分别提取里边的 content值 ,请教相关的正则表达式,万分感谢

解决方案 »

  1.   

    如果源码这么有规则,也不必用正则表达式了,直接instr去找content=",得到结果后记下位置,再从那里开始找下一个",截取中间的数据就是了...
    按我的经验,如果网页源码比较规则,用vb字符串操作的办法跟用正则表达式的效率是差不多的..但最少不必引用它的库..
      

  2.   


    按你所说,最好也应该要有个正则 来表示<meta .... />这样标记的表达式吧?这个正则表达式又应该是什么?
      

  3.   

    汗....用vb字符串操作的方法才不理你什么<meta .... />这样标记的...它只管一直往下找content=",然后接着找对应的下一个",确定了两个位置后就把中间的内容截了出来....
    不过如果你一定要执迷于正则的话,试试这个吧,在你上面的文本里提取到三个目标:1.海词,在线词典,在线查词,在线翻译,每日课堂,英语知识,生词本,背单词,快乐英语,英语学习
    2.海词网免费提供超过500万词条的海量专业英语在线词库、智能在线查词、在线短文翻译、背单词、生词本、英语知识、海词课堂、每日快乐英语学习等服务,创造全新英语在线学习平台,打造中国人的精品词典。
    3.海词网Dim myRegExp
    Set myRegExp = New RegExp
    myRegExp.Pattern = "content=""(.+?)"""