涉及好多领域
一个关键问题是词的切分问题,由于多字合成的词各个分词的位置不同而决定的全重不同的规律并不一样,因此找出一个有效的分词方法是一个难点
另外就是同义词和一词多意的问题,对同义词来说
如何动态的自动的修改同义词库是难点之一,用信息挖掘+智能推测?但是对于诸如:INTERNET与 互连网之类的呢?
对一词多意来说
如何正确识别要检索的词的意思以及文章中词的意思呢?根据上下文?但是目前一些所谓智能话的根据上下文检索的方法实质上还是基于关键词的