网页中采集某些信息 这个可以做到 
感觉无处下手的是采集多级分类 分类与分类直接的关系 
刚开始是先把所有分类都采集完 手动完成分类之间的关系
感觉这样不是解决办法唉
怎么采集某个站的分类信息 分类 子分类关系对应好  这样可能有三级分类
比如这个网站:http://www.abercrombiemagasin.co/   
如果拿到这个网站 怎么把分类采集出来

解决方案 »

  1.   

    SEO友好网页一般都有类似这样的标签
    <meta name="keywords" content="Soldes Abercrombie et Fitch Pas Cher en France,70% OFF--Sweat Abercrombie,Hoody Abercrombie and Fitch,Polo Abercrombie,Veste Abercrombie,Doudoune abercrombie fitch,T shirt Abercrombie,Gilet abercrombie" />
    这是供搜索引擎判别是否有感兴趣的内容是用的
    php 提供了 get_meta_tags 函数用于提取此类信息你可以通过这些关键词来进行分类
      

  2.   


    采集是产品分类的url和title  这个简单
    就是谁是谁的子分类 这个比较难搞~~
      

  3.   


    你这个思路不太好。
    采集的其实就是两个元素
    (1)被采集的网址
    (2)被采集的内容——网页内容。你的程序的判断不应该是像搜索引擎蜘蛛那样爬,你应该是指定采集某一块。因为他的网站不可能分类数万种吧。最多十来种的。你先得到要采集的网址,然后每个采集,匹配内容。对方网站也是存储的到表,必定有一个规律。你模仿他的建表,然后足一写入。然后再采集分类表 ,比如生成cat表,可以手动创建。
    分类可以根据当前网址来自动分析。
      

  4.   

    其实他这个分类很明显:详细页面的那里有一条导航。
        Accueil /
        Hollister /
        T shirts /
        Homme /
        T Shirt Hollister Homme Marine Bleue TSHH282这个就是分类。一级二级。HTML源码:<div class="breadcrumbs">
        <ul>
                        <li class="home">
                                <a title="Aller à la page d'accueil" href="http://www.abercrombiemagasin.co/">Accueil</a>
                                            <span>/ </span>
                            </li>
                        <li class="category53">
                                <a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher.html">Hollister</a>
                                            <span>/ </span>
                            </li>
                        <li class="category54">
                                <a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher/t-shirts.html">T shirts</a>
                                            <span>/ </span>
                            </li>
                        <li class="category57">
                                <a title="" href="http://www.abercrombiemagasin.co/hollister-pas-cher/t-shirts/t-shirt-homme-hollister-pas-cher.html">Homme</a>
                                            <span>/ </span>
                            </li>
                        <li class="product">
                                <strong>T Shirt Hollister Homme Marine Bleue TSHH282</strong>
                                        </li>
                </ul>
    </div>使用PHP正则提取就可以
      

  5.   

    看了一下他的网页,分类不需要手动采集。他每个详细页左侧都有一段html,直接php匹配就可以!<div class="col-left sidebar">
    //......
    </div>
      

  6.   

    我采集的时候也是这样采集的  整个流程也已经跑成功了 但是问题很多
    1.分类采集的时候 分类直接的关系没有采集好 
    2.写很多正则  这次重构想用phpquery 正则太多
    3.采集需要的时间很长 7000多个产品  花了8个小时(含图片) 这次能不能考虑到用到并发(在找资料目前)
    4.网站不同 代码要修改的地方很多  不够全面
    5.目前采集的网站是网店.以后拓展到其他站是否一样方便 例如采集文章 (这个现在只是想想而已)
      

  7.   

    谢谢版主的回答每次看到版主的回答都能学到新东西 
    get_meta_tags -- 从一个文件中提取所有的 meta 标签 content 属性,返回一个数组 记下了