很久没发帖我想和大家讨论一个问题,就是分类问题,商品/图片/文章都在范围内比如我们有一张无限级分类的表,例如我这里把商品分为日常用品,特殊用品,日常用品下面又有家电,浴具.....
这样的一张表然后我们要对录入数据库的商品进行分类,商品假定有名称,厂商和标签(记录一些描述商品特征的关键字,如对于
二手车来说可能是里程50000公里, 皮套全新, 有划痕之类的描述)有经验的大家到底是怎么处理这个问题的呢,希望能够交流一下,假定数据量在数十万级既然是交流的话我先说下我的解决办法,使用正则表达式的匹配加上sql来做分类的,比较好控制但是速度跟蜗牛一样
这样的一张表然后我们要对录入数据库的商品进行分类,商品假定有名称,厂商和标签(记录一些描述商品特征的关键字,如对于
二手车来说可能是里程50000公里, 皮套全新, 有划痕之类的描述)有经验的大家到底是怎么处理这个问题的呢,希望能够交流一下,假定数据量在数十万级既然是交流的话我先说下我的解决办法,使用正则表达式的匹配加上sql来做分类的,比较好控制但是速度跟蜗牛一样
你说的是聚类算法还是分类算法??cluster 还是 classification?
如果分类的特征和数量是确定的,
并有大量的训练数据,那用Naive Bayes classifier
甚至简单的Decision tree就可以有很好的效果了。
复杂点的话,可以训练个人工神经网络。不过,我觉得对于杂乱的商品数据的分拣工作,
通常应该是Cluster 而不是 classification,
因为往往无法事先知道该分成哪些类,
也没有人力对如此多而杂的数据做supervised training。或者先用一批数据聚类,生成类,然后抽象出类特征,
然后以这些类,再拿一批数据来训练classifier。
这也是个办法。但是如果商品数据经常性的变化,如何增加新类,解散旧类,
以及何时何种情况以及如何将商品从一个类移到另一个类,
都是要权衡考虑的问题。
大学图书馆,关于人工智能,机器学习的教材一般都有详细介绍,
这些都是十年前就有的理论,不是什么新鲜事物。
推荐还是看原版教材
artificial intelligence: a modern approach
Machine Learning(Tom M. Mitchell)