如"中华人民共和国"可以切分开"中华""人民""共和国",在网上也搜索了好长时间,没找到有价值的相关资料,有哪位大侠了解这方面的技术的,进来聊聊,或者知道有相关的词库或引擎什么的,都行!
解决方案 »
- mediaplayer文件长度问题
- richedit问题 delphi
- 我一点都不会,都不知道看什么书?
- 第一次写数据时老是出现EOleexception,实际上数据提交成功,以后都正常。
- 请问如何简便判断IP书写是否正确?
- 求助,请教各位大哥 怎么动态的创建 ODBC 数据源?
- &&&&&&&&&高手帮忙改进一下这个控件&&&&&&&&&&&&&&
- 我编了一个多层数据库的软件,在没有Delphi的机器上无法运行,为什么?
- 怎样安装embedwb?
- 偶是牛虻,偶把偶的两个源代码(机房管理系统,仪器管理系统)公布在了偶得主页上,大家快去下载吧//牛虻
- 请问如何在程序中实现SQL数据库与WORD或EXCEL的转换?
- 关于在DELPHI中字节对齐的问题,和关于 packed 这个参数的使用方法?
to outer2000(天外流星):我这个也不是做语音朗读,只是在用户录入资料时可以起一个智能点的提示,是否数据库中已经有相近的记录.(别叫我让用户自己匹配查询,因为这个是用户特别要求的)
海量:http://www.hylanda.com/segmentdemo.asp
中科院:http://mtgroup.ict.ac.cn/wordcut/
basictech(google用的就是这家的):http://www.basistech.com/products/language-analysis/cma.html
还有两个论坛可以去看看:
人工智能俱乐部:http://www.souwu.com/bitfarmer/default.asp
海量论坛:http://www.hylanda.com/cgi-bin/bbs/main.htm
http://www.nlp.org.cn/project/project.php?proj_id=6
msn:[email protected]
或者网上有相关资料的,给个连接也行.谢谢了!
我在Oracle中主要是为了完成全文检索的功能,用到了Oracle的分词技术,但是最后效果却不是很理想,我是通过Oraclepi内带的lexer来做的,介绍三种:1.Baisc_lexer针对英语,它能根据空格和标点来将英语单词从句子中分离,还能自动将一些出现频率过高已经失去检索意义的单词作为‘垃圾’处理,如if , is 等,具有较高的处理效率,但无法分析中文词语,比如“中华人民共和国”basic_lexer 分析的结果只有一个term ,还是“中华人民共和国”。2.Chinese_vgram_lexer: 专门的汉语分析器,支持所有汉字字符集(ZHS16CGB231280 ZHS16GBK ZHT32EUC ZHT16BIG5 ZHT32TRIS ZHT16MSWIN950 ZHT16HKSCS UTF8 )。该分析器按字为单元来分析汉语句子。‘中华人民共和国’这句话,会被它分析成如下几个term: ‘中’,‘中华’,‘华人’,‘人民’,‘民共’,‘共和’,‘和国’,‘国’。这种分析方法能实现‘一网打尽’,但效率太不行了。 (没法啊,我就是采用的这种分词)。3.Chinese_lexer: 这是一个新的汉语分析器,但只支持utf8字符集。上面的chinese vgram lexer这个分析器由于不认识常用的汉语词汇,因此分析的单元非常机械,像上面的‘民共’,‘和国’在汉语中根本不会单独出现,因此这种term是没有意义的,反而影响效率。chinese_lexer的最大改进就是该分析器能认识大部分常用汉语词汇,因此能更有效率地分析句子,像以上两个愚蠢的单元将不会再出现,极大提高了效率。但是它只支持utf8, 如果你的数据库是zhs16gbk字符集,则只能使用笨笨的那个Chinese vgram lexer。(很遗憾,我用的Oracle9i中文版,zhs16gbk的字符集,没敢轻易的去改数据库的字符集,改这个有些风险)Email:[email protected]
效果要比单项好的多!