比如说我需要针对几个不同的购物网站抓取产品进行比较搜索。
网站一产品名称:olay洗面奶
产品价格:120元网站二名称:玉兰油洗面奶
优惠价:125.00元/个网站数量不定,后期可能会追加,现在比较疑惑的是,比如说这个价格,一来中文叫法可能不同,导致我无法前期判断出网页中应该分析什么文字,二来网页中可能会出现类似相关产品这样的板块,如果里面也有价格怎么办?三来价格的格式,写法可能都不太一样,也会导致信息抽取的失败。不知道做过搜索引擎的大哥门,这样得问题一般都是从什么方向上考虑,希望能给个思路。
网站一产品名称:olay洗面奶
产品价格:120元网站二名称:玉兰油洗面奶
优惠价:125.00元/个网站数量不定,后期可能会追加,现在比较疑惑的是,比如说这个价格,一来中文叫法可能不同,导致我无法前期判断出网页中应该分析什么文字,二来网页中可能会出现类似相关产品这样的板块,如果里面也有价格怎么办?三来价格的格式,写法可能都不太一样,也会导致信息抽取的失败。不知道做过搜索引擎的大哥门,这样得问题一般都是从什么方向上考虑,希望能给个思路。
例如 html head 好的 你懂的!
2.看网站有没有提供api.比如淘宝就有.阿里妈妈也有.
3.后期做大了可以联系网站负责人要求提供api.
4.代码结构是否有变.可以根据几点来自动判断.代码特征和得到的结果等等.
比如价格不是数字之类的.就会提示技术员更新采集规则.
5.很多商城网站的结构都是相似的.你整页采下来.去掉非本站的.去掉重复的即可.
6.价格
优惠价 会员价 特价 清仓价 {特征:包含"价"字.后面跟数字}
123元 ¥123 {特征:数字+单位,如元,美元,人民币,¥}
7.网址特征:
如包含product.item.之类的表示这个网址下的是产品.