php 采集多级分类的思路

网页中采集某些信息这个可以做到
感觉无处下手的是采集多级分类分类与分类直接的关系
刚开始是先把所有分类都采集完手动完成分类之间的关系
感觉这样不是解决办法唉
怎么采集某个站的分类信息分类子分类关系对应好这样可能有三级分类
比如这个网站：http://www.abercrombiemagasin.co/
如果拿到这个网站怎么把分类采集出来

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

SEO友好网页一般都有类似这样的标签
<meta name="keywords" content="Soldes Abercrombie et Fitch Pas Cher en France,70% OFF--Sweat Abercrombie,Hoody Abercrombie and Fitch,Polo Abercrombie,Veste Abercrombie,Doudoune abercrombie fitch,T shirt Abercrombie,Gilet abercrombie" />
这是供搜索引擎判别是否有感兴趣的内容是用的
php 提供了 get_meta_tags 函数用于提取此类信息你可以通过这些关键词来进行分类
采集是产品分类的url和title  这个简单
就是谁是谁的子分类这个比较难搞~~
你这个思路不太好。
采集的其实就是两个元素
（1）被采集的网址
（2）被采集的内容——网页内容。你的程序的判断不应该是像搜索引擎蜘蛛那样爬，你应该是指定采集某一块。因为他的网站不可能分类数万种吧。最多十来种的。你先得到要采集的网址，然后每个采集，匹配内容。对方网站也是存储的到表，必定有一个规律。你模仿他的建表，然后足一写入。然后再采集分类表，比如生成cat表，可以手动创建。
分类可以根据当前网址来自动分析。
其实他这个分类很明显：详细页面的那里有一条导航。
    Accueil /
    Hollister /
    T shirts /
    Homme /
    T Shirt Hollister Homme Marine Bleue TSHH282这个就是分类。一级二级。HTML源码：<div class="breadcrumbs">
    <ul>
                    <li class="home">
                            <a title="Aller à la page d'accueil" href="http://www.abercrombiemagasin.co/">Accueil</a>
                                        <span>/ </span>
                        </li>
                    <li class="category53">
                            <a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher.html">Hollister</a>
                                        <span>/ </span>
                        </li>
                    <li class="category54">
                            <a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher/t-shirts.html">T shirts</a>
                                        <span>/ </span>
                        </li>
                    <li class="category57">
                            <a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher/t-shirts/t-shirt-homme-hollister-pas-cher.html">Homme</a>
                                        <span>/ </span>
                        </li>
                    <li class="product">
                            <strong>T Shirt Hollister Homme Marine Bleue TSHH282</strong>
                                    </li>
            </ul>
</div>使用PHP正则提取就可以
看了一下他的网页，分类不需要手动采集。他每个详细页左侧都有一段html，直接php匹配就可以！<div class="col-left sidebar">
//......
</div>
我采集的时候也是这样采集的  整个流程也已经跑成功了但是问题很多
1.分类采集的时候分类直接的关系没有采集好
2.写很多正则  这次重构想用phpquery 正则太多
3.采集需要的时间很长 7000多个产品  花了8个小时（含图片）这次能不能考虑到用到并发（在找资料目前）
4.网站不同代码要修改的地方很多  不够全面
5.目前采集的网站是网店.以后拓展到其他站是否一样方便例如采集文章（这个现在只是想想而已）
谢谢版主的回答每次看到版主的回答都能学到新东西
get_meta_tags -- 从一个文件中提取所有的 meta 标签 content 属性，返回一个数组记下了