曾老师,你好,在网上看你几年前也研究过垂直搜索引擎和lucene,应该你比较精通!
现在我想把期刊网上的每个学科分类下的文章通过spider抓取回来,分析html结构,按照指定的域(Field) 建立lucene索引.
现在我面临的问题如下,请教于你:一:我如何能找出每篇文章的URL组成规律?然后通过该URL来抓取该片文章二:比如对于抓取的这篇文章 http://www.cqvip.com/QK/92605Z/198702/15118985.html,如何提取它的标题,作者,摘要,关键词等,从而在lucene中建立对应的域(Field)谢谢能提供详细的思路或者资料,如果其他朋友能帮忙回答,更好!