高分求网络爬虫(spider)如果定位URL和解析网页元数据问题! 谢谢

曾老师,你好,在网上看你几年前也研究过垂直搜索引擎和lucene,应该你比较精通!
现在我想把期刊网上的每个学科分类下的文章通过spider抓取回来,分析html结构,按照指定的域(Field) 建立lucene索引.
现在我面临的问题如下,请教于你:一:我如何能找出每篇文章的URL组成规律?然后通过该URL来抓取该片文章二:比如对于抓取的这篇文章 http://www.cqvip.com/QK/92605Z/198702/15118985.html,如何提取它的标题,作者,摘要,关键词等,从而在lucene中建立对应的域(Field)谢谢能提供详细的思路或者资料,如果其他朋友能帮忙回答,更好!

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

http://www.svnhost.cn/Article/Detail-116.shtml
http://www.svnhost.cn/Download/Detail-216.shtml
http://www.svnhost.cn/Download/Detail-19.shtml
http://www.svnhost.cn/Download/Detail-16.shtml
spider一般按照索引来抓取，你指定索引就可以，URL规律其实不是不一定能猜出来。如果你只是抓取很少的几个网站的文章，提取它的标题,作者,摘要,关键词等非常容易，每类页面定义一组正则表达式即可。通用的文本萃取基本上都比较复杂。

高分求 网络爬虫(spider)如果定位URL和解析网页元数据问题! 谢谢

解决方案 »

高分求网络爬虫(spider)如果定位URL和解析网页元数据问题! 谢谢