Chapter4-汉字编码和输入输出
汉字编码和输入输出
刘秉权
哈工大智能技术与自然语言处理研究室 2006年11月
汉字编码
现状 主要编码标准和规范 国标码 Unicode Windows对Unicode的支持 GB18030
汉字编码和输入输出
2
汉字编码现状及其根源
多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字 简繁体汉字并存 地区、国家间的文化、政治差异增加了汉字统 一编码的难度
汉字编码和输入输出 3
主要汉字(文字)编码标准与规范
ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode
汉字编码和输入输出 4
汉字的几种通行名称
Hanzi, Hantsu, 汉字 Ideographic character,表意字符,中文 字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan
汉字编码和输入输出 5
ASCII码
美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规 范编码 包括33个控制码,一个空格码,和94个 形象码 形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等 国际上大部分电脑的通用编码
汉字编码和输入输出 6
文本文件与二进制文件
字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致 文本文件(ASCII Text Files) :美标形象码或空 格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换
汉字编码和输入输出 7
国标、区位、“准国标” 、机内码
国标:中华人民共和国国家标准信息交换用汉 字编码 国标(GB2312-80)表(基本表)把七千余汉 字、以及标点符号、外文字母等,排成一个94 行、94列的方阵 每一横行叫一个“区”,每个区有九十四个“位” 一个汉字在方阵中的坐标,称为该字的“区位 码” 例如“中”字在方阵中处于第54区第48位, 它的区位码就是5448
汉字编码和输入输出 8
区位码表
区位码来源于信息交换用汉字编码字符集(基本集)国家标准 (GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55 区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横 (一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔 相同按第二笔,依次类推。 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首 基本相同,略有改并。部首次序及同部首字按笔划数排列,同笔 划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点 (丶)、折(
乙)为序。起笔相同按第二笔,依次类推。 查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是 1610。
9
汉字编码和输入输出
例
01 区 1 2 3 4 5 6 7 8 9 0 、 。 · ˉ ˇ ¨ 〃 々 1 — ~ ‖ … ‘ ’ “ ” 〔 〕 2 〈 〉 《 》 「 」 『 』 〖 〗 3 【 】 ± × ÷ ∶ ∧ ∨ ∑ ∏ 4 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙ 5 ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ 6 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″ 7 ℃ $ ¤ ¢ £ ‰ § № ☆ ★ 8 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ 9 → ← ↑ ↓ 〓 02 区 1 2 3 4 5 6 7 8 9 0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ 1 ⅹ ⒈ ⒉ ⒊ 2 ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ 3 ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ 4 ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀ 5 ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ 6 ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ㈠ 7 ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ 8 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ 9 Ⅹ Ⅺ Ⅻ
10
汉字编码和输入输出
例
09 区 1 2 3 4 5 6 7 8 9 0 ─ ━ │ ┃ ┄ ┅ 1 ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏ 2 ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ 3 ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ 4 ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭ 5 ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ 6 ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁ 7 ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋ 8 9
汉字编码和输入输出 11
例
16 区 1 2 3 4 5 6 7 8 9 0 啊 阿 埃 挨哎 唉 哀 皑 癌 1 蔼 矮 艾 碍 爱 隘 鞍 氨安 俺 2 按 暗 岸 胺 案 肮 昂 盎凹 敖 3 熬 翱 袄 傲 奥 懊 澳 芭捌 扒 4 叭 吧 笆 八 疤 巴 拔 跋靶 把 5 耙 坝 霸 罢 爸 白 柏 百摆 佰 6 败 拜 稗 斑 班 搬 扳 般颁 板 7 版 扮 拌 伴 瓣 半 办 绊邦 帮 8 梆 榜 膀 绑 棒 磅 蚌 镑傍 谤 9 苞 胞 包 褒 剥
汉字编码和输入输出
17 区 1 2 3 4 5 6 7 8 9 0 薄 雹保 堡 饱 宝 抱 报 暴 1 豹 鲍 爆 杯 碑 悲 卑 北 辈背 2 贝 钡 倍 狈 备 惫 焙 被 奔苯 3 本 笨 崩 绷 甭 泵 蹦 迸 逼鼻 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙毖 5 币 庇 痹 闭 敝 弊 必 辟 壁臂 6 避 陛 鞭 边 编 贬 扁 便 变卞 7 辨 辩 辫 遍 标 彪 膘 表 鳖憋 8 别 瘪 彬 斌 濒 滨 宾 摈 兵冰 9 柄 丙 秉 饼 炳
12
例
54 区 1 2 3 4 5 6 7 8 9 0 帧 症 郑 证 芝 枝 支 吱 蜘 1 知 肢 脂 汁 之 织 职 直 植 殖 2 执 值 侄 址 指 止 趾 只 旨 纸 3 志 挚 掷 至 致 置 帜 峙 制 智 4 秩 稚 质 炙 痔 滞 治 窒 中 盅 5 忠 钟 衷 终 种 肿 重 仲 众 舟 6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 9 助 蛀 贮 铸 筑
汉字编码和输入输出
55 区 1 2 3 4 5 6 7 8 9 0 住 注 祝 驻 抓 爪 拽 专 砖 1 转 撰 赚 篆 桩 庄 装 妆 撞 壮 2 状 椎 锥 追 赘 坠 缀 谆 准 捉 3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊 4 兹 咨
资 姿 滋 淄 孜 紫 仔 籽 5 滓 子 自 渍 字 鬃 棕 踪 宗 综 6 总 纵 邹 走 奏 揍 租 足 卒 族 7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪 8 尊 遵 昨 左 佐 柞 做 作 坐 座 9
13
例
56 区 1 2 3 4 5 6 7 8 9 0 亍 丌 兀 丐 廿 卅 丕 亘 丞 1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻 2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟 3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍 4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮 5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿 6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐 7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫 8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫 9 佞 佧 攸 佚 佝 57 区 1 2 3 4 5 6 7 8 9 0 佟 佗 伲 伽 佶 佴 侑 侉 侃 1 侏 佾 佻 侪 佼 侬 侔 俦 俨 俪 2 俅 俚 俣 俜 俑 俟 俸 倩 偌 俳 3 倬 倏 倮 倭 俾 倜 倌 倥 倨 偾 4 偃 偕 偈 偎 偬 偻 傥 傧 傩 傺 5 僖 儆 僭 僬 僦 僮 儇 儋 仝 氽 6 佘 佥 俎 龠 汆 籴 兮 巽 黉 馘 7 冁 夔 勹 匍 訇 匐 凫 夙 兕 亠 8 兖 亳 衮 袤 亵 脔 裒 禀 嬴 蠃 9 羸 冫 冱 冽 冼
14
汉字编码和输入输出
例
86 区 1 2 3 4 5 6 7 8 9 0 觥 觫 觯 訾 謦 靓 雩 雳 雯 1 霆 霁 霈 霏 霎 霪 霭 霰 霾 龀 2 龃 龅 龆 龇 龈 龉 龊 龌 黾 鼋 3 鼍 隹 隼 隽 雎 雒 瞿 雠 銎 銮 4 鋈 錾 鍪 鏊 鎏 鐾 鑫 鱿 鲂 鲅 5 鲆 鲇 鲈 稣 鲋 鲎 鲐 鲑 鲒 鲔 6 鲕 鲚 鲛 鲞 鲟 鲠 鲡 鲢 鲣 鲥 7 鲦 鲧 鲨 鲩 鲫 鲭 鲮 鲰 鲱 鲲 8 鲳 鲴 鲵 鲶 鲷 鲺 鲻 鲼 鲽 鳄 9 鳅 鳆 鳇 鳊 鳋
汉字编码和输入输出
87 区 1 2 3 4 5 6 7 8 9 0 鳌 鳍 鳎 鳏 鳐 鳓 鳔 鳕 鳗 1 鳘 鳙 鳜 鳝 鳟 鳢 靼 鞅 鞑 鞒 2 鞔 鞯 鞫 鞣 鞲 鞴 骱 骰 骷 鹘 3 骶 骺 骼 髁 髀 髅 髂 髋 髌 髑 4 魅 魃 魇 魉 魈 魍 魑 飨 餍 餮 5 饕 饔 髟 髡 髦 髯 髫 髻 髭 髹 6 鬈 鬏 鬓 鬟 鬣 麽 麾 縻 麂 麇 7 麈 麋 麒 鏖 麝 麟 黛 黜 黝 黠 8 黟 黢 黩 黧 黥 黪 黯 鼢 鼬 鼯 9 鼹 鼷 鼽 鼾 齄
15
国标、区位、“准国标”、机内码
94:美标中形象码的总数,33--126 汉字区、位码各加上32,就会与美标形象码的 范围重合,称为该字的“国标码”,与其相对应的 两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H
汉字编码和输入输出
16
BIG5码
针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用
第一字节 A 1~A 2 非汉字 A3 C6 C 7~C 8 一级汉字 二级汉字 A 4~C 5 C6 C 9~F8 81~A 0 第二字节 40~7E /A 1~FE 40~7E/A 1~E0 A 1~FE 40~7E /A 1~FE 40~7E /A 1~FE 40~7E 40~7E /A 1~FE 40~7E/A 1~D 5
汉字编码和输入输出
17
ISO/IEC 10646
一个国际标准编号,国际标准化组织 (ISO)1993年正式颁布 英文全称:Information technology Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术--通用多八位编码 字符集,亦称
大字符集 宗旨:全球所有文种统一编码
汉字编码和输入输出 18
Unicode
英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓 是一个企业联盟集团的名称,由美国的HP、 Microsoft、IBM、Apple等几家知名的大型计 算机企业所组成,成立该集团的宗旨就是要推 进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致 的,并行的
汉字编码和输入输出 19
CJK-中日韩统一汉字
把中国、日本与韩国的英文称谓的首字 母用于ISO/IEC 10646中的中、日、韩统 一编码汉字的简称 Unihan CJKV或许更准确,V代表越南
汉字编码和输入输出
20
ISO/IEC 10646 的体系结构
四维的编码空间 总体上分为128个三维组(group), group的值范围是 从00到7F 每一组包含256个平面(plane),每一个平面包含256行 (row),每一行包含256个字位(cell),又称为 “列”,plane、row、cell的值范围都是从00到FF全编码 整个编码字符集的每个字符都是由4个八位序列表 示,(按照组八位、面八位、行八位、列八位的顺序) 可编码空间为:128*256*256*256=32K*64K
汉字编码和输入输出
21
ISO/IEC 10646体系结构图
G ro u p 7 F
P la n e 0 0 o f 7 F
G ro u p 0 1
G ro u p 0 0
P la n e F F o f G r o u p 0 0
BM P
汉字编码和输入输出
P la n e 0 2 o f G r o u p 0 0 P la n e 0 1 o f G r o u p 0 0 P la n e 0 0 o f G r o u p 0 0
22
基本多文种平面
第一个平面(00组中的00平面)称作 Basic Multilingual Plane(基本多文种 平面),简称BMP,并在其上规定了双八 位形式,它可以作为双八位编码字符集 使用,即在此平面上仅用行、列两个八位 就可以表示一个编码字符
汉字编码和输入输出
23
BMP的最新概貌
A-Zone(00至4D行) :拼音文字编码区,拉丁文、阿拉伯 文、日文的平假名及片假名、数学符号等都在此区域 编码 CJK Unified Ideographs,Extension A(3400-4DB5)(6000 多码位 ) CJK Unified Ideographs(4E00-9FA5)(20902个编码汉字 ) 韩文 (AC至D7这44行(44*256=11264)) S-ZONE (D8至DF行)for UTF-16 R-Zone(E0至FF行):限制使用区,一些兼容字符、字符 的变形显现形式、特殊字符等均放在此区
汉字编码和输入输出
24
ISO/IEC 10646空间分配现状
00平面:BMP,被用于全球现已规范语种 的基本文字编码,编码空间已基本饱和 01平面:作为拼音文字辅助平面 02平面:作为汉字辅助平面,CJK Extension B即将放入该平面 E0至FF平面:作为该标准的专用平面来使 用 其它空间尚未分配
汉字编码和输入输出 25
ISO/IEC 10646中CJK汉字组成
CJK统一编码汉字(20902) CJK扩充集A(6585) CJK扩充集B(4万--)
汉字编码和输入输出
26
Unicode编码点的变形
编码点(code point)(或编码单元,code element):(1)表示待处理或交换的已编码 文本单元的最小位组合(2)代码
页或 Unicode标准的索引 多种不同技术可以二进制格式表示每个 Unicode编码点,以此区分三种不同 Unicode编码:UTF-8、UTF-16、UTF-32
汉字编码和输入输出 27
什么是UTF?
Unicode transformation format UCS transformation format 从Unicode码点到唯一字节序列的映射算 法,一一映射,保证无损转换
汉字编码和输入输出
28
UTF-16
Unicode标准的16位编码形式 为每个字符指定一个16位的值 编码形式与ISO/IEC 10646中的定义形式 相同 以一个16位的值来编码映射到不大于 65535数值的字符,映射到大于65535的 数值的字符则被编码成一组16位的值 (代用对)
汉字编码和输入输出 29
UTF-8
为满足面向字节、基于ASCII码系统的需要而 制定(主要用于数据传输、互联网) 用最多达4个字节的序列来表示每个字符,为 有效分析字符串,用第一个字节指明某个多字 节序列中的字节数 通常用于数据交换
Unicode 编码点和 UTF-8 编码字符之间的关系 Unicode 范围 0x00000000-0x0000007F 0x00000080-0x000007FF 0x00000800-0x0000FFFF 0x00010000-0x001FFFFF
汉字编码和输入输出
UTF-8 编码的字节 0xxxxxxx 110xxxxx 10xxxxxx 1110xxxx 10xxxxxx 10xxxxxx 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
30
UTF-32
每个字符都表示成一个32位的整数 码长相等,便于某些特殊情况的处理 Unix系统使用
汉字编码和输入输出
31
字节顺序标记(BOM)
指示处理器怎样把连续的文本放到一个字节序 列中 权值最低的字节位于开头叫做“little-endian”, 权值最高的字节位于开头叫做“big-endian” 可用作识别文本文件编码形式的依据
特定编码的字节顺序标记的十六进制表示 编码 UTF-16 big-endian UTF-16 little-endian UTF-8
汉字编码和输入输出
编码后的 BOM FE FF FF FE EF BB BF
32
代理对(Surrogate pair)
ISO/IEC 10646 在BMP定义了一个代理区(Surrogate Zone)(D800至DFFF) 将这个区域平分为前后两个各容纳1024(1K)个编码的 区域(D800-DBFF及DC00-DFFF),分别称作高半代理 (high surrogate)及低半代理(low surrogate)区域 从这两个区域分别各取一个编码,分别称为高半代理键 (high surrogate key)及低半代理键(low surrogate key),组合成一个4 bytes代理对(surrogate pair) 来表示一个编码字符 由surrogate机制可对应到一百万个字符 (1024x1024),这一百万个字符分别对应到ISO 10646 中00组的00至0F这16个字面(plane) (其他平面如何处 理?)
汉字编码和输入输出 33
Windows对Unicode的支持
Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在这些操作系统 上运行非Unicode编码程序,在处理之前,操 作系统在其内部将应用程序的文本转化为 Unicode编码的文本,在把信息传回应用程序 之前,操作系统把Unicode编码的文本转化回 所希望的代码页编码形式
。 Windows 95, Windows 98, Windows Me不是 基于Unicode的,它们只提供了基于Windows NT的Windows版本所提供的Unicode支持的一 个子集
汉字编码和输入输出 34
创建Win32 Unicode应用程序
WCHAR,一种16位的数据类型 用于8位(ANSI)和双字节字符: typedef char CHAR; typedef CHAR TCHAR; 用于Unicode(宽)字符: typedef unsigned short WCHAR; typedef WCHAR TCHAR;
汉字编码和输入输出 35
创建Win32 Unicode应用程序
Win32 API的W函数原型 //windows.h #ifdef UNICODE #define SetWindowText SetWindowTextW #else #define SetWindowText SetWindowTextA #endif //UNICODE
汉字编码和输入输出
36
创建Win32 Unicode应用程序
Unicode文本宏
LPWSTR str = L”This is a Unicode string”; …… #ifdef UNICODE #define TEXT(string) L#string #else #define TEXT(string) string #endif //UNICODE …… LPWSTR str = TEXT(”This is a Unicode string”);
汉字编码和输入输出 37
创建Win32 Unicode应用程序
C运行库扩展 处理字符串的C运行库函数举例 通用CRT 8位字符集 Unicode _tcscpy strcpy wcscpy _tcscmp strcmp wcscmp 等价的Win32 API函数 通用Win32 8位字符集 Unicode lstrcpy lstrcpyA lstrcpyB lstrcmp lstrcmpA lstrcmpB
汉字编码和输入输出 38
GBK
汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms 为了推进Unicode的实施,同时也是为了向下 兼容,由电子部与国家技术监督局联合颁布 在保持GB2312原貌的基础上,将其字汇扩充与 ISO 10646中的CJK等量,同时也包容了台湾的 工业标准Big5码汉字,此外还为用户留了1894 个码位的自定义区
汉字编码和输入输出 39
GB18030-2000
信息技术-信息交换用汉字编码字符集-基 本集的扩充,Information technologyChinese ideograms coded character set for information interchange-Extension for the basic set GBK的替代、超集
汉字编码和输入输出
40
GB18030-2000
完全包含CJK(Unihan) Extension A 与GBK完全兼容(code- and charactercompatible)的同时,为所有其它Unicode 码点提供了空间 定义了4字节编码机制
汉字编码和输入输出
41
GB18030-2000码位范围分配表
字节数 双字节 四字节 第一字节 0x81—0xFE 第一字节 0x81—0xFE 第二字节 0x30—0x39
码位空间
第二字节 0x40—0x7E, 0x80—0xFE 第三字节 0x81—0xFE 第四字节 0x30—0x39
2字节编码共23940个码位 4字节编码共超过150万个码位
汉字编码和输入输出 42
ISO 10646/Unicode的实现及其重要意义
在全球范围内建立起实时、无障碍的信息交换 模式 推动了汉字典籍的数字化 为数字化图书馆的建立铺平了道路 为弘扬汉字文化提供了舞台 Single Binary技术的诞生:同一套基本程序 用于多个语言环境的技术 使汉字关联活起来:正-异关联、中-日关联、 繁-简关联,正-讹关联以及古今、新旧字形关 联
汉字编码和输入
输出 43
汉字输入输出
汉字输入 汉字输出 中文字处理和精密汉字编辑排版系统 操作系统的汉化
汉字编码和输入输出
44
计算机汉字系统的构成
┎────┒ ┎────┒ ┎────┒ ┃键盘输入┠┒ ┃汉 字 库┃┎→┃语音输出┃ ┖────┚┃ ┎─────┒ ┖─┰──┚┃ ┖────┚ ┎────┒┃机内码┃系统软件和┃ 机内码 ┎─┸──┒┃ ┎────┒ ┃语音输入┠╂──→┃应用软件进┠───→┃输出控制┃╂→┃汉字显示┃ ┖────┚┃ ┃行信息处理┃ ┖─┰──┚┃ ┖────┚ ┎────┒┃ ┖─────┚ ┎─┸──┒┃ ┎────┒ ┃文字识别┠┚ ┃磁盘存储┃┖→┃汉字打印┃ ┖────┚ ┖────┚ ┖────┚
汉字编码和输入输出
45
汉字输入方式的分类
汉字编码和输入输出
46
现状与趋势
目前中文输入以键盘输入为主,最快可 达275字/分 未来的一段时间,改进后的智能化键盘 输入方式仍将占据主导地位 识别输入方式在不断完善自身技术的前 提下,也将获得稳步的增长 多元化的格局正在形成之中
汉字编码和输入输出 47
键盘输入方案
整字键盘—大键盘:主辅式、感应式 通用组合键盘—小键盘
字: 记忆代码:电报、区位、军码等 拼音:全拼、双拼、简拼、智能ABC、新拼、自然 拼形:五笔形、郑码、表形码 音形结合:李码、全息码 笔划或部件:魏码 词:联想,高频先见(上),用过提前,词、短语和熟句均可 句:微软拼音、智能狂拼
数字键盘:手机、智能家电 趋势:朝着易学习、易记忆、编码长度要短、重码要少、智能化 的方向发展
汉字编码和输入输出 48
字形识别系统
印刷体
单字型 字型混排,北信 中英混排,清华紫光
手写体
脱机 联机:汉王笔、蒙恬第一笔、中华第一笔、神调笔 和杨友博士笔
汉字编码和输入输出
49
性能与难点
性能:北京捷通软件技术有限公司的录易全能版的扫 描识别速度60-100字/秒,OCR(汉字印刷体识别)识 别率高,对印刷文稿的识别率在99%以上。它的手写 系统可识别简、繁、英文、数字等,可保留亲笔签字 的原迹,笔迹符号代文。全屏书写,一次可连续书写 20多个字不停笔。自学习功能强,电脑能记住笔迹。 提高识别性能的难点
汉字类别多 汉字字形结构复杂 汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔 画
汉字编码和输入输出
50
语音输入分类
特定人孤立语音 非特定人孤立语音 特定人连续语音 非特定人连续语音
汉字编码和输入输出
51
语音输入现状
中文语音输入技术已经基本成熟 语音输入市场
的主角依旧是以IBM为首的国外厂商 IBM Via Voice占据了国内语音输入法大半壁江山 不久前成立了中国语音创业联盟,以期联合国内众多 从事语音输入产品研发的企业共同推动国内语音输入 技术的进步 中文之星公司在语音识别方面的研究也进入到了产品 化的阶段 中文的地方语音体系主要有:广东话,闽南话,吴语 等 苹果电脑的中文语音输入系统是全球第一套广东话语 音输入系统,能够将广东语转换成繁体或简体中文
汉字编码和输入输出 52
中文混合输入系统
比利时L&H语音产品有限公司的汉语知音(SPK):针对中文输入 的完全一体化的解决方案,可以采用听写、手写或键盘输入方 式,并可以在这些输入方法之间随意切换; 用户无需改变自己的 语音或书写习惯;可以实现语音导航,用语音控制应用程序;可 以实现整句智能输入 北京捷通软件技术有限公司的录易全能版:集识(汉字印刷体识 别)、写(联机手写识别)、说(语音输入)、听(语音输出校 稿)、校(语义、语法校对)为一体 北京汉王科技公司的汉王听写输入系统是口说手写输入中文,汉 王笔与IBM ViaVoice98语音识别核心的完美集成。语音输入与手 写输入无缝链接,方便了编辑修改,每分钟可输入150字以上
汉字编码和输入输出
53
汉字的输出
磁盘存储 屏幕显示 纸上印字 语音输出-语音合成技术
汉字编码和输入输出
54
汉字库
汉字的点阵式存储
0 1 2 3 4 5 6 7 8 9 10 1112131 415 0 □ □ □ □ □ ■ ■ ■ ■ ■ ■ ■ □ □ □ □ 1 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 2 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 3 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 4 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 5 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 6 □ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ □ 7 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 8 □ □ □ □ □ □ □ ■ □ ■ □ □ □ □ □ □ 9 □ □ □ □ □ □ □ ■ □ ■ □ □ □ □ □ □ 10 □ □ □ □ □ □ ■ □ □ □ ■ □ □ □ □ □ 11 □ □ □ □ □ ■ □ □ □ □ □ ■ □ □ □ □ 12 □ □ □ □ ■ □ □ □ □ □ □ □ ■ □ □ □ 13 □ □ □ ■ □ □ □ □ □ □ □ □ □ ■ □ □ 14 □ □ ■ □ □ □ □ □ □ □ □ □ □ □ ■ □ 15 □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ 英 文 字 母 “ G” 和 汉 字 “ 天 ” 的 点 阵 表 示
0 1 2
3 4 5
6 7
0 □ □ □ ■ ■ ■ □ □ 1 □ □ ■ □ □ □ ■ □ 2 □ ■ □ □ □ □ □ □ 3 ■ □ □ □ □ □ □ □ 4 ■ □ □ □ □ □ □ □ 5 □ ■ □ □ ■
■ ■ ■ 6 □ □ ■ □ □ □ ■ □ 7 □ □ □ ■ ■ ■ □ □
汉字编码和输入输出
55
点阵数和存储量
───────┰──────┰────┰───────── ┃ 点阵 ┃ 字数 ┃ 存储量(字节) ───────╂──────╂────╂───────── 简易型汉字 ┃ ┃ 87*94 ┃ 16*16 261, 696 ───────╂──────╂────╂───────── 普通型字库 ┃ 24*24 ┃ 87*94 ┃ 588, 816 ┃ 32*32 ┃ 87*94 ┃ 1, 046, 784 ───────╂──────╂────╂───────── ┃ ┃ 87*94 ┃ 64*64 4, 187, 136 精密型字库 ┃ ┃ 87*94 ┃ 96*96 9M ┃ 128*128 ┃ 87*94 ┃ 16M ┃ 256*256 ┃ 87*94 ┃ 64M ───────┸──────┸────┸─────────
汉字编码和输入输出
56
汉字库的压缩
字根式压缩法 矢量字库 哈夫曼压缩法
汉字编码和输入输出
57
哈夫曼压缩法
将汉字的点阵图形看作由多个子点阵构 成 统计组成所有汉字的子点阵的概率 根据子点阵的概率进行哈夫曼编码,从 而得出所有汉字的哈夫曼编码 用这些子点阵的编码作为汉字库
汉字编码和输入输出
58
2*2点阵的16种状态
┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒ ┃ 。 。┃┃ 。 。┃┃ 。 。┃┃ 。 。┃┃ 。 .┃┃ 。 .┃┃ 。 .┃┃ 。 .┃ ┃ 。 。┃┃ 。 .┃┃ . 。┃┃ . .┃┃ 。 。┃┃ 。 .┃┃ . 。┃┃ . .┃ ┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚ P0 P1 P2 P3 P4 P5 P6 P7 ┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒ ┃ . 。┃┃ . 。┃┃ . 。┃┃ . 。┃┃ . .┃┃ . .┃┃ . .┃┃ . .┃ .┃┃ 。 。┃┃ 。 .┃┃ . 。┃┃ . .┃ ┃ 。 。┃┃ 。 .┃┃ . 。┃┃ . ┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚ P8 P9 P10 P11 P12 P13 P14 P15
汉字编码和输入输出
59
16种状态的统计概率和相应编码
┎──┰────┰───────┰──┰────┰───────┒ ┃状态┃ 概 率 ┃ 编 码 ┃状态┃ 概 率 ┃ 编 码 ┃ ┠──╂────╂───────╂──╂────╂───────┨ 1 011101 ┃ P0 ┃ 0.438 ┃ ┃ P8 ┃ 0.011 ┃ ┃ ┃ P1 ┃ 0.050 ┃ 00000 ┃ P9 ┃ 0.024 ┃ 000010 ┃ ┃ P2 ┃ 0.011 ┃ 0111000 ┃ P10┃ 0.148 ┃ 001 ┃ ┃ P3 ┃ 0.041 ┃ 00010 ┃ P11┃ 0.023 ┃ 000011 ┃ ┃ P4 ┃ 0.032 ┃ 01100 ┃ P12┃ 0.025 ┃ 01111 ┃ ┃ P5 ┃ 0.132 ┃ 010 ┃ P13┃ 0.002 ┃ 01110010 ┃ ┃ P6 ┃ 0.032 ┃ 00011 ┃ P14┃ 0.015 ┃
011010 ┃ ┃ P7 ┃ 0.014 ┃ 011011 ┃ P15┃ 0.001 ┃ 01110011 ┃ ┖──┸────┸───────┸──┸────┸───────┚
汉字编码和输入输出
60
压缩结果
平均码长 =0.438*1+0.050*5+0.011*7+...+0.001 *8=2.8 压缩前子点阵码长为4 压缩率为30%
汉字编码和输入输出
61
字形的变换(放大、缩小、旋转、平滑)
□□□□■■ □□□□■■ => □□■■□□ □□■■□□ ■■□□□□ ■■□□□□ (b) 字形放大的失真与平滑 => □□□□■■ □□□□■■ □□□■■□ □□■■□□ □■■□□□ ■■□□□□ (c)
□□■ □■□ ■□□
(a)
汉字编码和输入输出
62
汉字屏幕显示
┎───────┒ ┃ 汉 字 库 ┃ ┖───────┚ ↓ ┎────┒ ┎───────┒ ┎────┒ ─→ ┃ 接 口 ┃ ─→ ┃CRT 控制(CRTC)┃ ─→ ┃ C R T ┃ ┖────┚ ┖───────┚ ┖────┚ ↓ ┎───────┒ ┃ 显示缓冲区 ┃ ┖───────┚
汉字编码和输入输出
63
汉字印字
绝大多数是点阵式印字方式 点阵式印字机主要有针式打印机、喷墨 式印字机、激光印字机等
汉字编码和输入输出
64
中文字处理和精密汉字编辑排版系统
中文编排要比西文编排复杂:横排、竖 排、分栏、插图、表格等 字模分辨率:国产(方正)系统30线/毫 米,国外高级出版系统40-80线/毫米 字模数目:中文6763以上,英文大小写 字母加上符号总共不超出100个 字体数目:中文--宋、仿、黑、楷,美 术字体、变形字体、古籍书中多种字体
汉字编码和输入输出 65
主要系统
北大方正 四通4S高级中文编排系统 WPS—桌面排版系统
汉字编码和输入输出
66
方正排版系统
国际上,最早使用书版和报版的整版编 排系统,尤其是报纸的整版编排 缺点在于它的开放性较差和与其它系统 的兼容性不太好(人为原因)--它的照排控 制器、照排机,必须配备由它自己生 产,或委托其它协作单位生产的产品
汉字编码和输入输出
67
操作系统的汉化
外挂式中文操作系统(中文外挂平台): CCDOS、UCDOS、天汇、中文之星、RichWin 内核汉化的中文操作系统:微软中文DOS、 Windows 3.2及其后续版本 自有知识产权的操作系统:COSIX 基于Linux的自主操作系统:Turbo Linux简体 中文版 6.0、蓝点 Linux 2.0 、Tom Linux 1.0 、红旗 Linux 桌面版 2.0
汉字编码和输入输出 68
谢谢!