请教一下各位,如何用最高效的方法进行如下词频统计:
在数据库中有300万条记录,每行记录类似如下计算机;显示器;鼠标 | G100
计算机;总线;硬盘 | G200
计算机;显示器 | G200第一列为分号(;)间隔的词语,第二列为一个符号,可以重复我想统计词频,得到的结果第一列为词名,第二列为出现的次数,第三列为去重后词语所属的符号计算机 | 3 | G100,G200
显示器 | 2 | G100,G200
鼠标 | 1 | G100
总线 | 1 | G200
硬盘 | 1 | G200
谢谢大家!!!
在数据库中有300万条记录,每行记录类似如下计算机;显示器;鼠标 | G100
计算机;总线;硬盘 | G200
计算机;显示器 | G200第一列为分号(;)间隔的词语,第二列为一个符号,可以重复我想统计词频,得到的结果第一列为词名,第二列为出现的次数,第三列为去重后词语所属的符号计算机 | 3 | G100,G200
显示器 | 2 | G100,G200
鼠标 | 1 | G100
总线 | 1 | G200
硬盘 | 1 | G200
谢谢大家!!!
ps:我对数据库了解不多,另外的方法我也不知道了