很久没发帖我想和大家讨论一个问题,就是分类问题,商品/图片/文章都在范围内比如我们有一张无限级分类的表,例如我这里把商品分为日常用品,特殊用品,日常用品下面又有家电,浴具.....
这样的一张表然后我们要对录入数据库的商品进行分类,商品假定有名称,厂商和标签(记录一些描述商品特征的关键字,如对于
二手车来说可能是里程50000公里, 皮套全新, 有划痕之类的描述)有经验的大家到底是怎么处理这个问题的呢,希望能够交流一下,假定数据量在数十万级既然是交流的话我先说下我的解决办法,使用正则表达式的匹配加上sql来做分类的,比较好控制但是速度跟蜗牛一样

解决方案 »

  1.   

    没太看明白楼主的意思。嫌LIKE慢的话,建Lucene索引。
      

  2.   


    你说的是聚类算法还是分类算法??cluster 还是 classification?
      

  3.   


    如果分类的特征和数量是确定的,
    并有大量的训练数据,那用Naive Bayes classifier
    甚至简单的Decision tree就可以有很好的效果了。
    复杂点的话,可以训练个人工神经网络。不过,我觉得对于杂乱的商品数据的分拣工作,
    通常应该是Cluster 而不是 classification,
    因为往往无法事先知道该分成哪些类,
    也没有人力对如此多而杂的数据做supervised training。或者先用一批数据聚类,生成类,然后抽象出类特征,
    然后以这些类,再拿一批数据来训练classifier。
    这也是个办法。但是如果商品数据经常性的变化,如何增加新类,解散旧类,
    以及何时何种情况以及如何将商品从一个类移到另一个类,
    都是要权衡考虑的问题。
      

  4.   


    大学图书馆,关于人工智能,机器学习的教材一般都有详细介绍,
    这些都是十年前就有的理论,不是什么新鲜事物。
    推荐还是看原版教材
    artificial intelligence: a modern approach
    Machine Learning(Tom M. Mitchell)