我的语言处理路是否走下去？

   2005年，我想到了一个字符串匹配的方法，比一般字符串匹配快50倍，我就申请了专利，并想利用这个方法来处理汉语。
   目前汉语处理使用分词算法和N元文法统计模型进行音字转换，准确率不能满足需要，我希望“基于参考句型”的进行语言处理方法”，
   如果建立起汉语的基本句型数据库，设拼音输入、语音输入中有拼音串“zheren de yingyu shuo de bu liuli”，在数据库中找出“zheren*shuo*yingyu/这人说英语”，“yingyu*liuli/英语流利”、“bu*liuli /不流利”等作为参考句型。从多个参考句型中，首先选用最长的“这人说英语”，第2步以其中的“英语”去联想“英语流利”，第3步用“流利”去联想“不流利”，则可以处理为“这人de英语说得不流利”，最后用语法、词频等方法作补充，应能大幅度提高准确率。
    我一度多方寻求资金，但没有得到任何支持，自2008年以来，我自己动手写软件，没有帮手，进展慢，到2009年，统计得到一个汉语的频率数据，利用3000万个句型进行音字转换，速度非常快，0.1秒可以找到所要的句型，并生成语句，准确率已近比较高，但还不很理想。比如“mao ze dong shi guo jia zhu xi”，用3000万个句型，可以得到“毛泽东是国家主席”“毛泽董事国家主席”,需要进行语法分析把后一个句子排除掉，到目前为止，我大体写好了一个语法分析软件，但最终能否把汉语的语法分析好，也不能肯定。3000万个句型需要1G内存，作为拼音输入肯定是不可取的，我主要是希望作为语音输入软件来开发。
    我独立开发软件，我已经感到很疲惫，国家专利局又否定我的专利申请，按法律，我必须向法院起诉，费时费力，问题是，我不起诉，3个月就失效了，起诉的话，也很难。
    我把这些写出来，听听朋友们的意见。也看看是否有朋友愿意和我一起来开发这个软件，同时把这个专利申请坚持下去。    我几年前，发的技术设想的帖子。
    http://www.pkucn.com/viewthread.php?tid=176820

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

我也用五笔，感觉拼音好麻烦的，不知道什么优势。
整句匹配是需要大型数据库和算法来维护的，不能使用内存滴的，如果使用大文件，基本最快的只有hash算法，然后就是B+一类的算法了，还有软件开发是要靠团队的，个人力量太渺小，在精神上支持楼主
我走的与微软拼音的整句输入不同的技术路线，就我目前的产品效果来说，已经超过了微软微软拼音的整句输入，由于我使用3000万句型，我说了，不适合作为一般输入法推广，我主要是希望解决语音输入问题。微软、IBM使用的是N元文法模型，而我使用的是参考句型。不能一一回复。
这有一个输入习惯的问题. 日文输入就通常是整句一起输入完然后再匹配, 微软拼音也是这样,但是中国人能接受微软拼音的不多,相反从智能ABC开始大家就习惯了一个字一个字输入,一个词一个词输入的模式. 其实整句输入肯定会节省不少时间,但要花时间让大家来习惯也是需要很长的过程的.而且现在流行的输入法已经有很多了,其背后也是有商业利益在推动的,LZ如果没有资金的话很难有机会.
也许因为本来中文的特点就是信息高度集中的特点吧,也有人认为中文的语音输入是最容易实现的. 偶感觉LZ的东东很好,很有技术含量,但是现在市场很乱,不是好东西就一定能发光的.
LZ你的想法和算法都很好，但是05~到现在都没有敲出产品来就不是很好了。就算是敲出产品如果没有好使或者接近搜狗也是失败的。
这是个“快”的年代，有想法不一定能实现，能实现不一定有人用，有人用不一定有利润。
按照LZ的例子：
“毛泽东是国家主席”现在使用搜狗的最少按键打法是：MZD S GJZXI。在你打过一次以后，这个打法缩短为：MZD S GJZX。而如果使用LZ的方法，在理想的状态下，这句话的打法为：mao ze dong shi guo jia zhu xi。
lz你感觉你的产品有优势吗？
如果有优势就做吧，如果没有优势就省的时间搞好生活吧。