我有一批数据,大概300篇abstract。
然后我想给每个word一个编号,按照字母或者其他顺序构成。
编号的构成是这样的:一个词在训练集中本身的编号,一个是词性。
这样编号空间大小就是训练集大小乘以总的词性数在以后遍历句子时,我都希望能够得到这个编号不知道说清楚没,请提供实现的思路就行了呢。谢谢

解决方案 »

  1.   

    额。ft。。原来没表达清楚
    是这样的
    我有300篇abstract作为训练集,然后想给这批训练集中的每一个word给定一个唯一的id。。
    这个id应该是(词的本身_词性),比如一个对于the这个单词,id就是the_det(这个词性)
    统计的考虑来说,如果有1000个单词,英语中理论上每个单词有10种词性,那么整个空间就是1000X10
    但是事实上了,这里面有很多冗余,因为一个单词通常只有1到2种词性,
    现在我就想遍历一遍这个训练集,给每个单词分配一个这样唯一的id。。
    不知道这次说清楚没。。