解决方案 »

  1.   

    这里有一个正文提取提取算法可供参考,正确提取率还可以:http://www.qwolf.com/?p=791
      

  2.   

    "范围太小了,怎么是实现随便给个网址,用一个通用的算法,提取出网页内的有用信息。"这句话是一句无法实现的需求,首先何为"有用信息"? 就如一个用户跟你谈需求的时候只说了一句话:"我要一个ERP系统,是一个对于我工厂很有帮助的ERP系统"然后你就去实做了?对于这种根本不是需求的需求描述是需要继续拆分的.======软件界没有银弹.就像物理世界没有永动机一样.一切看需求而去,看实际实现而定.楼主可以考虑去看看<<人月神话>>