2005年,我想到了一个字符串匹配的方法,比一般字符串匹配快50倍,我就申请了专利,并想利用这个方法来处理汉语。
   目前汉语处理使用分词算法和N元文法统计模型进行音字转换,准确率不能满足需要,我希望“基于参考句型”的进行语言处理方法”,
   如果建立起汉语的基本句型数据库,设拼音输入、语音输入中有拼音串“zheren de yingyu shuo de bu liuli”,在数据库中找出“zheren*shuo*yingyu/这人说英语”,“yingyu*liuli/英语流利”、“bu*liuli /不流利”等作为参考句型。从多个参考句型中,首先选用最长的“这人说英语”,第2步以其中的“英语”去联想“英语流利”,第3步用“流利”去联想“不流利”,则可以处理为“这人de英语说得不流利”,最后用语法、词频等方法作补充,应能大幅度提高准确率。
    我一度多方寻求资金,但没有得到任何支持,自2008年以来,我自己动手写软件,没有帮手,进展慢,到2009年,统计得到一个汉语的频率数据,利用3000万个句型进行音字转换,速度非常快,0.1秒可以找到所要的句型,并生成语句,准确率已近比较高,但还不很理想。比如“mao ze dong shi guo jia zhu xi”,用3000万个句型,可以得到“毛泽东是国家主席”“毛泽董事国家主席”,需要进行语法分析把后一个句子排除掉,到目前为止,我大体写好了一个语法分析软件,但最终能否把汉语的语法分析好,也不能肯定。3000万个句型需要1G内存,作为拼音输入肯定是不可取的,我主要是希望作为语音输入软件来开发。
    我独立开发软件,我已经感到很疲惫,国家专利局又否定我的专利申请,按法律,我必须向法院起诉,费时费力,问题是,我不起诉,3个月就失效了,起诉的话,也很难。
    我把这些写出来,听听朋友们的意见。也看看是否有朋友愿意和我一起来开发这个软件,同时把这个专利申请坚持下去。    我几年前,发的技术设想的帖子。
    http://www.pkucn.com/viewthread.php?tid=176820

解决方案 »

  1.   

    我也用五笔,感觉拼音好麻烦的,不知道什么优势。
    整句匹配是需要大型数据库和算法来维护的,不能使用内存滴的,如果使用大文件,基本最快的只有hash算法,然后就是B+一类的算法了,还有软件开发是要靠团队的,个人力量太渺小,在精神上支持楼主
      

  2.   


    我走的与微软拼音的整句输入不同的技术路线,就我目前的产品效果来说,已经超过了微软微软拼音的整句输入,由于我使用3000万句型,我说了,不适合作为一般输入法推广,我主要是希望解决语音输入问题。微软、IBM使用的是N元文法模型,而我使用的是参考句型。不能一一回复。
      

  3.   

    这有一个输入习惯的问题. 日文输入就通常是整句一起输入完然后再匹配, 微软拼音也是这样,但是中国人能接受微软拼音的不多,相反从智能ABC开始大家就习惯了一个字一个字输入,一个词一个词输入的模式. 其实整句输入肯定会节省不少时间,但要花时间让大家来习惯也是需要很长的过程的.而且现在流行的输入法已经有很多了,其背后也是有商业利益在推动的,LZ如果没有资金的话很难有机会. 
    也许因为本来中文的特点就是信息高度集中的特点吧,也有人认为中文的语音输入是最容易实现的. 偶感觉LZ的东东很好,很有技术含量,但是现在市场很乱,不是好东西就一定能发光的.
      

  4.   

    LZ你的想法和算法都很好,但是05~到现在都没有敲出产品来就不是很好了。就算是敲出产品如果没有好使或者接近搜狗也是失败的。
    这是个“快”的年代,有想法不一定能实现,能实现不一定有人用,有人用不一定有利润。
    按照LZ的例子:
    “毛泽东是国家主席”现在使用搜狗的最少按键打法是:MZD S GJZXI。在你打过一次以后,这个打法缩短为:MZD S GJZX。而如果使用LZ的方法,在理想的状态下,这句话的打法为:mao ze dong shi guo jia zhu xi。
    lz你感觉你的产品有优势吗?
    如果有优势就做吧,如果没有优势就省的时间搞好生活吧。