商品分类问题的探讨

很久没发帖我想和大家讨论一个问题，就是分类问题，商品/图片/文章都在范围内比如我们有一张无限级分类的表，例如我这里把商品分为日常用品，特殊用品，日常用品下面又有家电，浴具.....
这样的一张表然后我们要对录入数据库的商品进行分类，商品假定有名称，厂商和标签（记录一些描述商品特征的关键字，如对于
二手车来说可能是里程50000公里，皮套全新，有划痕之类的描述）有经验的大家到底是怎么处理这个问题的呢，希望能够交流一下，假定数据量在数十万级既然是交流的话我先说下我的解决办法，使用正则表达式的匹配加上sql来做分类的，比较好控制但是速度跟蜗牛一样

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

没太看明白楼主的意思。嫌LIKE慢的话，建Lucene索引。
你说的是聚类算法还是分类算法？？cluster 还是 classification？
如果分类的特征和数量是确定的，
并有大量的训练数据，那用Naive Bayes classifier
甚至简单的Decision tree就可以有很好的效果了。
复杂点的话，可以训练个人工神经网络。不过，我觉得对于杂乱的商品数据的分拣工作，
通常应该是Cluster 而不是 classification，
因为往往无法事先知道该分成哪些类，
也没有人力对如此多而杂的数据做supervised training。或者先用一批数据聚类，生成类，然后抽象出类特征，
然后以这些类，再拿一批数据来训练classifier。
这也是个办法。但是如果商品数据经常性的变化，如何增加新类，解散旧类，
以及何时何种情况以及如何将商品从一个类移到另一个类，
都是要权衡考虑的问题。
大学图书馆，关于人工智能，机器学习的教材一般都有详细介绍，
这些都是十年前就有的理论，不是什么新鲜事物。
推荐还是看原版教材
artificial intelligence： a modern approach
Machine Learning(Tom M. Mitchell)