最近在用java设计搜索引擎。在设计蜘蛛程序的时候,遇到一个痛苦的问题,字符编码的问题。
因为抓取到的如果是gb2312的就没事。如果是utf-8的就会成为乱码。
所以我希望要在抓取的时候提前知道这个url指向的网页的编码格式。所以,问题就是,java如何知道(或者得到)一个指定url所指向的页面的字符编码格式?
因为抓取到的如果是gb2312的就没事。如果是utf-8的就会成为乱码。
所以我希望要在抓取的时候提前知道这个url指向的网页的编码格式。所以,问题就是,java如何知道(或者得到)一个指定url所指向的页面的字符编码格式?
String s=url.openConnection().getContentEncoding();
yunxiang(无名) ( ) 信誉:98 Blog 加为好友 2007-5-30 15:57:36 得分: 0
URL url=new URL("");
String s=url.openConnection().getContentEncoding();
关给一个函数 怎么用呢
所以要在存储到数据库之前,在分析的过程当中区分他们的字符编码格式。
所以大家提供的一些方法并不适用。还有没有其他的方法?URL url=new URL("");
String s=url.openConnection().getContentEncoding();这个方法,基本上都不能获取到charset的内容,都是空。