我有一批数据,大概300篇abstract。
然后我想给每个word一个编号,按照字母或者其他顺序构成。
编号的构成是这样的:一个词在训练集中本身的编号,一个是词性。
这样编号空间大小就是训练集大小乘以总的词性数在以后遍历句子时,我都希望能够得到这个编号不知道说清楚没,请提供实现的思路就行了呢。谢谢
然后我想给每个word一个编号,按照字母或者其他顺序构成。
编号的构成是这样的:一个词在训练集中本身的编号,一个是词性。
这样编号空间大小就是训练集大小乘以总的词性数在以后遍历句子时,我都希望能够得到这个编号不知道说清楚没,请提供实现的思路就行了呢。谢谢
解决方案 »
- 页面显示问题 哪位大哥可以帮我看看
- 我要实践了
- 和大家讨论一下Spring中间依赖注入的好处
- 载入MSSQL驱动错误问题
- 我以前学C#的,现在想稍微了解一下JAVA,不知道如何开始,过来人帮忙指导一下
- 有人玩过 IL2 遗忘的战争 吗?它没有给系统装jvm,但是在自己的游戏目录里面有jvm.dll,java.exe等等,怎么做到这样的打包呢??随便问一
- 关于类设计方面的问题,希望能够讨论讨论
- 我的javac helloworld.java 成功了!但java helloworld 不成功!以前帖子结分了,还请大吓们帮助!
- 急问关于applet中汉字显示的问题!
- 请问FRONTPAGE里的表单和数据库怎么相连
- [百度分享]javascript 函数使用分析
- [百度分享]javascript Object分析
是这样的
我有300篇abstract作为训练集,然后想给这批训练集中的每一个word给定一个唯一的id。。
这个id应该是(词的本身_词性),比如一个对于the这个单词,id就是the_det(这个词性)
统计的考虑来说,如果有1000个单词,英语中理论上每个单词有10种词性,那么整个空间就是1000X10
但是事实上了,这里面有很多冗余,因为一个单词通常只有1到2种词性,
现在我就想遍历一遍这个训练集,给每个单词分配一个这样唯一的id。。
不知道这次说清楚没。。