请教一下各位,如何用最高效的方法进行如下词频统计:
在数据库中有300万条记录,每行记录类似如下计算机;显示器;鼠标     |     G100
计算机;总线;硬盘       |     G200
计算机;显示器           |     G200第一列为分号(;)间隔的词语,第二列为一个符号,可以重复我想统计词频,得到的结果第一列为词名,第二列为出现的次数,第三列为去重后词语所属的符号计算机   |   3    |     G100,G200  
显示器   |   2    |     G100,G200 
鼠标     |   1    |     G100
总线     |   1    |     G200 
硬盘     |   1    |     G200 
谢谢大家!!!