oracle sql如何把us7ascii的字符串编码转换为utf8或者gb2312编码

如题。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

参考
http://bbs.chinaunix.net/archiver/tid-1167574.html
用CONVERT(char, dest_char_set [,source_char_set] )函数
问题：
        在imp一个dmp文件的时候，提示不支持要求的字符集转换（从类型850到852）.
原理：
        ORACLE多国语言设置是为了支持世界范围的语言与字符集，一般对语言提示，货币形式，排序方式和CHAR,VARCHAR2,CLOB,LONG字段的数据的显示等有效。ORACLE的多国语言设置最主要的两个特性就是国家语言设置与字符集设置，国家语言设置决定了界面或提示使用的语言种类，字符集决定了数据库保存与字符集有关数据（如文本）时候的编码规则。
        ORACLE字符集设定，分为数据库字符集和客户端字符集环境设置。在数据库端，字符集在创建数据库的时候设定，并保存在数据库props$表中，对于8i以上产品，已经可以采用'Alter database character set 字符集'来修改数据库的字符集，但也仅仅是从子集到超集，不要通过update props$来修改字符集，如果是不支持的转换，可能会失去所有与字符集有关的数据，就是支持的转换，也可能导致数据库的不正常工作。字符集分为单字节字符集与多字节字符集，US7ASCII就是典型的单字节字符集，在这种字符集中length=lengthb，而ZHS16GBK就是常用的双字节字符集，在这里lengthb=2*length。
        在客户端的字符集环境比较简单，主要就是环境变量或注册表项NLS_LANG，注意NLS_LANG的优先级别为：参数文件à注册表à环境变量àalter session。NLS_LANG的组成为“国家语言设置.字符集”，如nls_lang=simplified chinese_china.zhs16gbk。客户端的字符集最好与数据库端一样（国家语言设置可以不一样，如zhs16gbk的字符集，客户端可以是nls_lang =simplified chinese_china.zhs16gbk或Ameircan_America.zhs16gbk，都不影响数据库字符的正常显示），如果字符集不一样，而且字符集的转换也不兼容，那么客户端的数据显示与导出/导入的与字符集有关的数据将都是乱码。

方案：
        使用2进制文件编辑工具，如uedit32。打开导出的dmp文件，获取2、3字节的内容，如00 01，先把它转换为10进制数，为1，使用函数NLS_CHARSET_NAME即可获得该字符集：
SQL> select nls_charset_name(1) from dual;
NLS_CHARSET_NAME(1)
-------------------
US7ASCII
可以知道该dmp文件的字符集为US7ASCII，如果需要把该dmp文件的字符集换成ZHS16GBK，则需要用NLS_CHARSET_ID获取该字符集的编号：
SQL> select nls_charset_id('zhs16gbk') from dual;
NLS_CHARSET_ID('ZHS16GBK')
--------------------------
852
把852换成16进制数，为354，把2、3字节的00 01换成03 54，即完成了把该dmp文件字符集从us7ascii到zhs16gbk的转化，这样，再把该dmp文件导入到zhs16gbk字符集的数据库就可以了。
windows 可以直接修改 HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\KEY_OraDb10g_home1 nls_lang值为
SIMPLIFIED CHINESE_CHINA.ZHS16GBK
或使用convert 函数
SQL> select CONVERT(datatype, 'US7ASCII' ) from BSTH_SYS_FIELD_ALIAS;

CONVERT(DATATYPE,'US7ASCII')
--------------------------------------------------------------------------------
gfdfghdf
??
SQL> select CONVERT(datatype, 'ZHS16GBK' ) from BSTH_SYS_FIELD_ALIAS;

CONVERT(DATATYPE,'ZHS16GBK')
--------------------------------------------------------------------------------
gfdfghdf
中文
参考:Oracle字符集修改问题
    经常有同事咨询oracle数据库字符集相关的问题，如在不同数据库做数据迁移、同其它系统交换数据等，常常因为字符集不同而导致迁移失败或数据库内数据变成乱码。现在我将oracle字符集相关的一些知识做个简单总结，希望对大家今后的工作有所帮助。　　一、什么是oracle字符集　　Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货币，数字，和日历自动适应本地化语言和平台。　　影响oracle数据库字符集最重要的参数是NLS_LANG参数。它的格式如下:　　NLS_LANG = language_territory.charset　　它有三个组成部分(语言、地域和字符集)，每个成分控制了NLS子集的特性。其中:　　Language 指定服务器消息的语言，territory 指定服务器的日期和数字格式，charset 指定字符集。如:AMERICAN _ AMERICA. ZHS16GBK　　从NLS_LANG的组成我们可以看出，真正影响数据库字符集的其实是第三部分。所以两个数据库之间的字符集只要第三部分一样就可以相互导入导出数据，前面影响的只是提示信息是中文还是英文。　　二、如何查询Oracle的字符集　　很多人都碰到过因为字符集不同而使数据导入失败的情况。这涉及三方面的字符集，一是oracel server端的字符集，二是oracle client端的字符集;三是dmp文件的字符集。在做数据导入的时候，需要这三个字符集都一致才能正确导入。　　1、查询oracle server端的字符集　　有很多种方法可以查出oracle server端的字符集，比较直观的查询方法是以下这种:SQL>select userenv(‘language’) from dual;　　结果类似如下:AMERICAN _ AMERICA. ZHS16GBK　　2、如何查询dmp文件的字符集　　用oracle的exp工具导出的dmp文件也包含了字符集信息，dmp文件的第2和第3个字节记录了dmp文件的字符集。如果dmp文件不大，比如只有几M或几十M，可以用UltraEdit打开(16进制方式)，看第2第3个字节的内容，如0354，然后用以下SQL查出它对应的字符集:　　SQL> select nls_charset_name(to_number('0354','xxxx')) from dual;　　ZHS16GBK　　如果dmp文件很大，比如有2G以上(这也是最常见的情况)，用文本编辑器打开很慢或者完全打不开，可以用以下命令(在unix主机上):　　cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6　　然后用上述SQL也可以得到它对应的字符集。　　3、查询oracle client端的字符集　　这个比较简单。在windows平台下，就是注册表里面相应OracleHome的NLS_LANG。还可以在dos窗口里面自己设置，比如:　　set nls_lang=AMERICAN_AMERICA.ZHS16GBK　　这样就只影响这个窗口里面的环境变量。　　在unix平台下，就是环境变量NLS_LANG。　　$echo $NLS_LANG　　AMERICAN_AMERICA.ZHS16GBK　　如果检查的结果发现server端与client端字符集不一致，请统一修改为同server端相同的字符集。　　三、修改oracle的字符集　　上文说过，oracle的字符集有互相的包容关系。如us7ascii就是zhs16gbk的子集,从us7ascii到zhs16gbk不会有数据解释上的问题,不会有数据丢失。在所有的字符集中utf8应该是最大,因为它基于unicode,双字节保存字符(也因此在存储空间上占用更多)。　　一旦数据库创建后，数据库的字符集理论上讲是不能改变的。因此，在设计和安装之初考虑使用哪一种字符集十分重要。根据Oracle的官方说明，字符集的转换是从子集到超集受支持,反之不行。如果两种字符集之间根本没有子集和超集的关系，那么字符集的转换是不受oracle支持的。对数据库server而言，错误的修改字符集将会导致很多不可测的后果，可能会严重影响数据库的正常运行，所以在修改之前一定要确认两种字符集是否存在子集和超集的关系。一般来说，除非万不得已，我们不建议修改oracle数据库server端的字符集。特别说明，我们最常用的两种字符集ZHS16GBK和ZHS16CGB231280之间不存在子集和超集关系，因此理论上讲这两种字符集之间的相互转换不受支持。　　1、修改server端字符集(不建议使用)　　在oracle 8之前，可以用直接修改数据字典表props$来改变数据库的字符集。但oracle8之后，至少有三张系统表记录了数据库字符集的信息，只改props$表并不完全，可能引起严重的后果。正确的修改方法如下:　　$sqlplus /nolog　　SQL>conn / as sysdba;　　若此时数据库服务器已启动，则先执行SHUTDOWN IMMEDIATE命令关闭数据库服务器，然后执行以下命令:　　SQL>STARTUP MOUNT;　　SQL>ALTER SYSTEM ENABLE RESTRICTED SESSION;　　SQL>ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0;　　SQL>ALTER SYSTEM SET AQ_TM_PROCESSES=0;　　SQL>ALTER DATABASE OPEN;　　SQL>ALTER DATABASE CHARACTER SET ZHS16GBK;　　SQL>ALTER DATABASE national CHARACTER SET ZHS16GBK;　　SQL>SHUTDOWN IMMEDIATE;　　SQL>STARTUP　　2、修改dmp文件字符集　　上文说过，dmp文件的第2第3字节记录了字符集信息，因此直接修改dmp文件的第2第3字节的内容就可以‘骗’过oracle的检查。这样做理论上也仅是从子集到超集可以修改，但很多情况下在没有子集和超集关系的情况下也可以修改，我们常用的一些字符集，如US7ASCII，WE8ISO8859P1，ZHS16CGB231280，ZHS16GBK基本都可以改。因为改的只是dmp文件，所以影响不大。　　具体的修改方法比较多，最简单的就是直接用UltraEdit修改dmp文件的第2和第3个字节。比如想将dmp文件的字符集改为ZHS16GBK，可以用以下SQL查出该种字符集对应的16进制代码:　　SQL> select to_char(nls_charset_id('ZHS16GBK'), 'xxxx') from dual;　　0354　　然后将dmp文件的2、3字节修改为0354即可。　　如果dmp文件很大，用ue无法打开，就需要用程序的方法了。网上有人用java存储过程写了转换的程序(用java存储过程的好处是通用性教好，缺点是比较麻烦)。我在windows下测试通过。但要求oracle数据库一定要安装JVM选项。有兴趣的朋友可以研究一下程序代码