网页中采集某些信息 这个可以做到
感觉无处下手的是采集多级分类 分类与分类直接的关系
刚开始是先把所有分类都采集完 手动完成分类之间的关系
感觉这样不是解决办法唉
怎么采集某个站的分类信息 分类 子分类关系对应好 这样可能有三级分类
比如这个网站:http://www.abercrombiemagasin.co/
如果拿到这个网站 怎么把分类采集出来
感觉无处下手的是采集多级分类 分类与分类直接的关系
刚开始是先把所有分类都采集完 手动完成分类之间的关系
感觉这样不是解决办法唉
怎么采集某个站的分类信息 分类 子分类关系对应好 这样可能有三级分类
比如这个网站:http://www.abercrombiemagasin.co/
如果拿到这个网站 怎么把分类采集出来
<meta name="keywords" content="Soldes Abercrombie et Fitch Pas Cher en France,70% OFF--Sweat Abercrombie,Hoody Abercrombie and Fitch,Polo Abercrombie,Veste Abercrombie,Doudoune abercrombie fitch,T shirt Abercrombie,Gilet abercrombie" />
这是供搜索引擎判别是否有感兴趣的内容是用的
php 提供了 get_meta_tags 函数用于提取此类信息你可以通过这些关键词来进行分类
采集是产品分类的url和title 这个简单
就是谁是谁的子分类 这个比较难搞~~
你这个思路不太好。
采集的其实就是两个元素
(1)被采集的网址
(2)被采集的内容——网页内容。你的程序的判断不应该是像搜索引擎蜘蛛那样爬,你应该是指定采集某一块。因为他的网站不可能分类数万种吧。最多十来种的。你先得到要采集的网址,然后每个采集,匹配内容。对方网站也是存储的到表,必定有一个规律。你模仿他的建表,然后足一写入。然后再采集分类表 ,比如生成cat表,可以手动创建。
分类可以根据当前网址来自动分析。
Accueil /
Hollister /
T shirts /
Homme /
T Shirt Hollister Homme Marine Bleue TSHH282这个就是分类。一级二级。HTML源码:<div class="breadcrumbs">
<ul>
<li class="home">
<a title="Aller à la page d'accueil" href="http://www.abercrombiemagasin.co/">Accueil</a>
<span>/ </span>
</li>
<li class="category53">
<a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher.html">Hollister</a>
<span>/ </span>
</li>
<li class="category54">
<a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher/t-shirts.html">T shirts</a>
<span>/ </span>
</li>
<li class="category57">
<a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher/t-shirts/t-shirt-homme-hollister-pas-cher.html">Homme</a>
<span>/ </span>
</li>
<li class="product">
<strong>T Shirt Hollister Homme Marine Bleue TSHH282</strong>
</li>
</ul>
</div>使用PHP正则提取就可以
//......
</div>
1.分类采集的时候 分类直接的关系没有采集好
2.写很多正则 这次重构想用phpquery 正则太多
3.采集需要的时间很长 7000多个产品 花了8个小时(含图片) 这次能不能考虑到用到并发(在找资料目前)
4.网站不同 代码要修改的地方很多 不够全面
5.目前采集的网站是网店.以后拓展到其他站是否一样方便 例如采集文章 (这个现在只是想想而已)
get_meta_tags -- 从一个文件中提取所有的 meta 标签 content 属性,返回一个数组 记下了