wj中日韩统一表意文字
中日韩越统一表意文字
维基百科,自由的百科全书
(重定向自中日韓統一表意文字) 跳转到: 导航, 搜索
“Unihan”重定向至此。关于与其同名的其他主题,详见“Unihan (消歧义)”。 中日韩统一表意文字(英语:CJK Unified Ideographs),也称中日韩越统一表意文字(英语:CJKV Unified Ideographs)、统汉字(英语:Unihan),目的是要把分别来自中文、日文、韩文、越文、壮文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。
越南文后来加入此计划,所以亦有 CJKV(中日韩越统一表意文字)的称呼。Unicode亦开始收录越汉字——喃字。
目录
[隐藏]
o 3.1 最初期统一汉字 o 3.2 扩展A区 o
o 3.4 Unicode 4.1汉字 o o 3.6 扩展C区 o 3.7 扩展D区 o
[编辑] 版本
ISO
Unicode 10646
版本
新增 置放平面 字数
累计字数
版本
1993 1.0
2000 3.0 2001 3.1
2003第一
修订4.1 版 2003第四
修订5.1 版 2003第五修订版 20035.2
第六修订版
基本多文种平中日韩统一表意文字
面(BMP,Basic
Multilingual 20,902
Plane)
位于“相容表意文字区”中但实则独一的汉字(U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(塚)、
20,914
U+FA13(﨑)、U+FA14(晴)、基本多文种平U+FA1F(﨟)、U+FA21(﨡)、面 12
U+FA23(﨣)、U+FA24(﨤)、U+FA27(逸)、U+FA28(都)、U+FA29(﨧)[1]
中日韩统一表意文字扩展A区
基本多文种平面
6,582 27,496
第二辅助平面(SIP,
中日韩统一表意文字扩展B区 Supplementary 42,711 70,207
Ideographic Plane) HKSCS-2004中未加入ISO 10646的汉字(U+9FA6-U+9FB3龦龦龦龦龦龦龦龦龦龦龦龦龦龦)和GB
18030-2000中未加入ISO 10646
基本多文种平
22 70,229
的印刷业常用的偏旁和字形部件面
(U+9FB4-
U+9FBB龴龵龶龷龸龹龦龻)
7个日语汉字(U+9FBC-U+9FC2龦龦龦龦龦龦龦),U+4039基本多文种平 拆分为 U+4039䀹 和 面 8 70,237
U+9FC3龦
中日韩统一表意文字扩展C区 第二辅助平面 4,149 2个日语用汉字(ARIB #47, #95,74,394
U+9FC4龦-U+9FC5龦)、1个新
增汉字(ARIB #93,U+9FC6龦)、
基本多文种平
面
8
在 HKSCS-2004 推出后新增的 5个香港汉字(U+9FC7-
U+9FCB龦龦龦龦龦)
2010 6.0 2012 6.1
中日韩统一表意文字扩展D区(2B740-2B81F) 1个汉字(U+9FCC龦)
第二辅助平面 222 基本多文种平面
1
74,616 74,617
[编辑] 历史
于1990年代初ISO 10646制订时,来自台湾的代表提出相同形式的中日韩汉字给以统一编码(Unify,ISO术语称为“认同”),可以大量节省编码空间,获其他代表接纳。
[编辑] 字源
[编辑] 最初期统一汉字
unicode范围是:0x4E00--0x9FCF。最初期的统一汉字(20,902字)字源来自以下字集:
中国大陆的G源
o G0:GB 2312-80:6,763字
o G1::2,352字(含58个和92个字,不
包括和GB 2312重复的字)
o G3::7,237字 o G5:GB 7590-87 繁体版本:7,039字
o G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字) o G8::290字(G0, 1, 3, 5未包括的字)
台湾的T源
o T1: 第一字面:5,401+9个 o T2:CNS 11643-1986 第二字面:7,650字
o TE:CNS 11643-1986 第十四字面:6,319+239个CCCII特字+10
个 Xerox Character Code Standard (XCCS) 特字
日本的J源
[2]
o J0::6,335+非汉字1字(仝) o J1:JIS X 0212-90:5,801字
韩国的K源
o K0::4,888字(含268个重见字) o K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则(下详)。
另外还有:美国国会图书馆之东亚字符编码(East Asia Character Code,简称 EACC;标准号 ANSI Z39.64-1989)[2]、Big5、CCCII第一面、GB 12052-89、JEF、中国电报码、台湾电报码、Xerox Chinese 等字集来源。
从Unihan数据库中的数据来看,G3中收入CJK的汉字有4835个,G5中收入CJK的汉字有2841个。G3、G5中除去收入CJK的汉字,余下的有一部分收入CJK-EXTA。
[编辑] 扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中取得:
中国大陆地区(中华人民共和国)
o 《康熙字典》5357字(独有1892字) o 《汉语大字典》5888字(独有339字) o G3:GB 7589-87 繁体版本:2391字 o G5:GB 7590-87 繁体版本:1226字 o G7:120字
o GS:新加坡汉字226字 台湾地区(中华民国)
o T3: 第三字面(原本为CNS 11643-1986第十四字
面)新加入字符
o T4:CNS 11643-1992 第四字面 o T5:CNS 11643-1992 第五字面 o T6:CNS 11643-1992 第六字面 o T7:CNS 11643-1992 第七字面 o TF:CNS 11643-1992 第十五字面 日本
o JA: Unified Japanese IT Vendors Contemporary Ideographs,
1993
韩国
o K2:PKS C 5700-1:1994 o K3:PKS C 5700-2:1994 越南
o V0:TCVN 5773:1993 o V1:TCVN 6056:1995
[编辑] 扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据 IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:
《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现的汉字);
《》中出现的28,914个未收录汉字; 《》中出现的66个未收录汉字; 《》中出现的247个未收录汉字;
《汉语大词典》中出现的553个未收录汉字; 《》中出现的86个未收录汉字; 中出现的65个未收录汉字; 《》中出现的522个未收录汉字;
中出现的1,081个未收录汉字;
日本工业标准的JIS X 0213第3水平及第4水平的302个未收录汉字; 韩国 中出现的166个未收录汉字;
北朝鲜 和 国家标准所收录的5,642个汉字;
台湾 的第4至7和15平面所收录的30,177个汉字; 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个字喃;
这些汉字中重复的汉字有不少,所以经过整理之后,实际总数只有42,711个汉字。
另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。
[编辑] Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个中国香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。 另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。
[编辑] Unicode 5.1汉字
在2008年4月推出的 Unicode 5.1 版本,收录7个由日本 Adobe 公司递交的日语汉字(U+9FBC-U+9FC2)[3],和目字旁加㚒(大字加两个入字,就如陕西省的陝字换上目字旁)的字 U+9FC3。本来 Unicode 3.0 收录了目字旁加夾(大字加两个人字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论在意义和发音均不相同,故魏安(Andrew West)和井作恒(John H. Jenkins)申请追加此字[4]。
[编辑] 扩展C区
于2009年10月发布的Unicode 5.2涵盖了扩展C区,共收录4,149个汉字,包括来自中国大陆、中国澳门、台湾、日本、越南等尚未被编码的汉字。位置在 U+2A700—U+2B734。这四千多个汉字分别从以下字典或字集中取得:
中国大陆 共1119字
o G_BK:《》74字 o G_FZ:北大方正排版系统1字 o G_HZ:《汉语大字典》1字 o G_HC:《》14字 o G_GH:《古代汉语词典》50字 o G_GJZ:用字61字 o G_XC:《现代汉语词典》25字 o G_CH:《辞海》264字
o G_KX:《》及补遗6字
o G_CYY:中国测绘科学研究院用字55字 o G_ZFY:《》202字 o G_ZJW:《殷周金文集成引得》366字 台湾 共1751字
o TC: 第12字面634字 o TD:CNS 11643-1992 第13字面767字 o TE:CNS 11643-1992 第14字面350字 澳门
o MAC:澳门资讯系统字集16字 日本
o JK:日本国字集(Japanese KOKUJI Collection)367字 韩国
o K5H:韩国 IRG 汉字集第5版(Korean IRG Hanja Character Set
5th Edition: 2001)404字
朝鲜
o KP1:KPS 10721:2003 8字 越南 共784字 V4:
o 喃字词典(Từ điển chữ Nôm), 阮光红(Nguyễn Quang Hồng), 2006 o Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003 o Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994 UTC来源 共75字 UTC:
o ABC Chinese-English Dictionary, John DeFrancis(), et
al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
o 耶稣基督后期圣徒教会香港分会用字
o Mathews' Chinese-English Dictionary, Robert H. Mathews
(1975) Cambridge; Harvard University Press o 宋本《广韵》
o 《中国鸟类系统检索》,郑作新等(2000),北京,科学出版社 o 段玉裁《说文解字注》
[编辑] 扩展D区
扩充区D包含的都是所谓的“急用汉字”,合共222个新汉字,于2010年下旬发布的Unicode 6.0中,编码范围为 U+2B740-U+2B81F。
扩展D区原本计划放置扩展C区未收录的16,000多个汉字,但在2007年5月,台湾撤消了6,545个第二部份字集内私用汉字,不再使用字,原因是那些人名用
[5]
字的拥有人或已去世或已移居外地,此后扩展D区缩减到大约10,000字左右。[6],由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是“急用汉字”,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但中国大陆撤回其中一字)。现在文字小组把第二部份字集延后到扩充E区。 扩展D区汉字主要来自:
中国大陆:身份证系统人名和地名用字。
o G_CH:《辞海》1字
o G_IDC:公安部身份证用字3字 o G_IDCX:公安部身份证用字29字 o G_XC:《现代汉语词典》4字 o G_ZH:《》39字
台湾:用字
o TB:CNS 11643-2007 第11平面24字(闽客方言用字)
日本:
o JH:Hanyo-Denshi Program (汎用電子情報交換環境整備プログ
ラム)108字(日本经济产业省提出的人名和地名用字)
UTC:Unicode technical report #45
o UTC:19字
[编辑] 扩展E区
扩展E区现正处于研究阶段,计划放置于编码范围 U+2B820-U+2F7FF 中。 扩展E区将包含1,277个新越南汉字[7]、被台湾的闽南语和客家话所使用的24个台湾汉字[8] 以及2个中华人民共和国地名用字。[9][10]
[编辑] 字源分离原则
字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。 由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇“戶”、中国香港及中国作点“户”、日本作横“戸”,这种程度的差异,理想上是整并为
一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。 例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。而且,如果将多个不同地区字形合并会影响阅读者,令使用者不习惯并非以往所见字形;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)、学习错误的字形。于是,字源分离原则因而诞生。
而在不同地区而有不同写法的部首,如“龦(中)、龦(港台旧字体)、辶(港台)”、“龦(新字体)、卝䒑(旧字体)”、“龦(中)、爫(港台)”等就会交由字体处理,例如使用依中国汉字标准《印刷通用汉字字形表》的字体下(如中易宋体、微软雅黑体)便会出现“龦、龦”;使用港台字体标准字体下(如微软正黑体,但非旧版细明体[11])就会出现“辶、爫”等字形。大大解决了因地区而异之部首写法。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
[编辑] 批评
合并同义字,虽有助减少收录字数,但在研究学术时,如古籍、历史及文字研究等,部份文献确要将字形不同之字同时并列,已合拼各字,变得各有各意思。学者若用Unicode,遇此情况,就要用同码不同电脑字形,甚至要自行造字,或舍Unicode而用其他编码。一来寻转电脑字形不便,二来有损Unicode记录只只字之用意,三来不能以纯文本交换。另外亦不能以Unicode准确记录文献,原本不同字形之字合拼,原有有别义,转Unicode而讹误,不利于文本存于电脑。 另外,同一部件,有分有合,原则不一致。如真真分而直直合,令人混淆。 不同字形之字合拼后,若检索方法以字形为本,会混乱而难以检索。例如笔划检字,艸部之草花头,日本大陆计三划,而传统中文四划,留有艸形则六划。Unicode同一字码,源于字形不同,就有几种笔划,检索混乱。即使检出字,笔划与显示之字亦不符。
文化上,东亚各国用字形有别,用电脑字形亦有别,在日本难以用传统字之电脑字体,在港台难以用日本电脑字体,故合拼后,文本要显示文化差异之字形,则大有困难。
[编辑] 已统一汉字
原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是读者电脑提供的字型,未必代表该地区的标准写法)。 例子:
Unicode 日文 韩文
中国大陆 台湾 中国香港 U+6E2F U+6F22 U+76F4 U+7A97 U+89D2 U+8D77 U+9AA8
港 漢 直 窗 角 起 骨
港 漢 直 窗 角 起 骨
港 漢 直 窗 角 起 骨
港 港 漢 漢 直 直 窗 窗 角 角 起 起 骨 骨
中文
注:不是所有网页浏览器均可分辨全部 HTML 的语言代码(Language Code)并
使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设定两者以同一种字形显示。具体情况请参考 Test results: Automatic font assignment for CJK text。
[编辑] 未统一汉字
主条目:未统一汉字列表
有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“Unicode联盟决定把不正统的编入位于基本多文种平面的‘相容表意文字区’(Compatibility Ideographs)”时起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些
字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“相容表意文字补充区”(Compatibility Ideographs Supplement)中。 例子:
Unicode 字 Unicode 字 Unicode 字 U+4E1F 丟 U+4E22 丢 U+514C 兌 U+5151 兑 U+518A 冊 U+518C 册 U+5433 吳 U+5434 吴 U+5449 呉 U+543F 吿 U+544A 告 U+5965 奥 U+5967 奧 U+5968 奨 U+596C 奬 U+734E 獎 U+5986 妆 U+599D 妝 U+59CD 姍 U+59D7 姗 U+5C13 尓 U+5C14 尔 U+5F54 彔 U+5F55 录 U+6236 戶 U+6237 户 U+6238 戸 U+63FA 揺 U+6416 搖 U+6447 摇 U+66A8 暨 U+66C1 曁 U+69D8 様 U+6A23 樣 U+6A2A 横 U+6A6B 橫 U+6B65 步 U+6B69 歩 U+7155 煕 U+7199 熙 U+7D55 絕 U+7D76 絶 U+7DA0 綠 U+7DD1 緑 U+9AEA 髪 U+9AEE 髮 U+9EAA 麪 U+9EAB 麫 U+9EBC 麼 U+9EBD 麽 U+9EC3 黃 U+9EC4 黄 U+9ED1 黑 U+9ED2 黒
自上表发表后,WG2 亦调查过其他汉字[12],认为以下属于基本多文种平面的汉字,亦可考虑收编到 ISO 10646 Annex S3: Unicode 字 Unicode 显示▼字
[编辑] 扩展B区的问题
扩展B区使用了辅助平面来摆放汉字,以致不少文书处理软件都不能支援。例如,Microsoft Office 2000 或之前的版本,即使电脑拥有扩展B区汉字字体,也只会显示两个方格。
另外,因扩展B区在整理上有缺陷,收录了以下5个本来应该与其他汉字统一的
[13]字:
U+20457 = U+34A8 U+2420E = U+3DB7 U+27144 = U+8641 U+23515 = U+204F2 U+249E9 = U+249BC
而在 WG2 N1155[12] 文件中,亦列出了152对可考虑统一的汉字。
[编辑] 注释
1. ^ 这个十二个字放到兼容区不是因为和其他字同形或为异体,而是因为它们只收录在厂商用字中,但未有收录在官方标准(C-、T-、J-、K-Source)中。他们有独立的形、音、义,即“独一”(Unique),Unicode 5.0, 第 412 页 [1]
2. ^ http://fonts.jp/hanazono/
3. ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
4. ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
5. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate
6. ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf
7. ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1279_CJK_DVietNam.pdf
8. ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1305_CJKD_24Char_TCA.pdf
9. ^ IRGN1324 Submitted To D_China (PDF)
10.^ CJK Unified Ideographs: To Infinity and Beyond
11.^ 旧版细明体指 Windows XP 或以前版本之新细明体及细明体。
12.^ 12.0 12.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
13.^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf
[编辑] 参看
辅助平面 - - (IICore) Wikipedia:Unicode扩展汉字
[编辑] 外部链接
Unicode o Han Unification History o o Unicode Roadmap to the SIP o 中日韩统一表意文字(PDF,5.11MB) o 中日韩兼容汉字(PDF,650kB) o 扩展A区汉字(PDF,1.68MB) o (PDF,12.3MB) o 扩展B区兼容汉字(PDF,608kB) o 扩展C区汉字(PDF,2.47MB) ISO表意文字工作组 o ISO表意文字工作组网站 o o 扩展C区编码网站 o (ZIP,6.32MB) o 急用汉字(UNC)多栏列表
Unicode字符列表 | Unicode联盟 | Unicode技术委员会 | ISO 10646(通用字符集) | UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4 Unicode字符平面映射 | 中日韩统一表意文字 | CJKV | 表意文字小组(IRG) | IICore
| 完整Unicode编码表
“http://zh.wikipedia.org/w/index.php?title=%E4%B8%AD%E6%97%A5%E9%9F%93%E8%B6%8A%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97&old3个隐藏分类:
个人工具
名字空间
大陆简体
变换
大陆简体
查看
操作
搜索
导航
帮助
工具 维基社群
链入页面 永久链接
其他语言
本页面最后修订于2012年3月15日 (星期四) 12:20。
本站的全部文字在知识共享 署名-相同方式共享 3.0协议之条款下提
供,附加条款亦可能应用。(请参阅使用条款)
Wikipedia和维基百科标志是维基媒体基金会的注册商标;维基是维基媒体基金会的商标。
维基媒体基金会是在美国佛罗里达州登记的501(c)(3)免税、非营利、慈善机构。