现有一批网站,该如何用JAVA判断网站中含有不良信息呢?现在的想法是读取网站的首页内容,然后选择不良关键字匹配,
不知道这个方法效果、效率会怎样?
可有有这方面经验的?

解决方案 »

  1.   

    这种网站越来越难判断了,以前我们教授做了一个专门过滤黄色图片的工具,以前还能正常运行,现在我用了一下,MOP都会被屏蔽........
      

  2.   

    我的觉得可以从以下几个方向入手:
    1:关键字过滤。页面一般都会在head中加入关键字和关键内容。取得页面头部信息,进行过滤。(不能说全部有效,至少可以过滤一些黄色网站)
    2:与网络监督机构取得联系。他们回有黄色网站的相关地址和信息。(也可以屏蔽一些黄色网站)
       黄色网站 单从技术上根本不能彻底判断。如果可以的话 把你写的这套东西可以卖给国家,挣些钱了。
    所以,能避免的尽量避免,做不到的也是无奈。