Chapter4-汉字编码和输入输出

07-20

汉字编码和输入输出

刘秉权

哈工大智能技术与自然语言处理研究室 2006年11月

汉字编码

现状主要编码标准和规范国标码 Unicode Windows对Unicode的支持 GB18030

汉字编码和输入输出

汉字编码现状及其根源

多种编码方案共存，不利于交流和共享新旧标准同台使用，需相互转换统一标准正在形成中、日、韩、新等多国同时使用汉字简繁体汉字并存地区、国家间的文化、政治差异增加了汉字统一编码的难度

汉字编码和输入输出 3

主要汉字(文字)编码标准与规范

ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode

汉字编码和输入输出 4

汉字的几种通行名称

Hanzi, Hantsu, 汉字 Ideographic character,表意字符，中文字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan

汉字编码和输入输出 5

ASCII码

美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码包括33个控制码，一个空格码，和94个形象码形象码中包括了英文大小写字母，阿拉伯数字，标点符号等国际上大部分电脑的通用编码

汉字编码和输入输出 6

文本文件与二进制文件

字符大都是用一个八位二进制数字表示，美标只规定了128个编码，剩下的另外128个数码没有规范，美标中的33个控制码，各厂家用法也不尽一致文本文件(ASCII Text Files) ：美标形象码或空格码组成，通常可在不同电脑系统间直接交换二进制文件(Binary Files) ：含有控制码或非美标码的文件，通常不能在不同电脑系统间直接交换

汉字编码和输入输出 7

国标、区位、“准国标” 、机内码

国标：中华人民共和国国家标准信息交换用汉字编码国标(GB2312-80)表（基本表）把七千余汉字、以及标点符号、外文字母等，排成一个94 行、94列的方阵每一横行叫一个“区”，每个区有九十四个“位” 一个汉字在方阵中的坐标，称为该字的“区位码” 例如“中”字在方阵中处于第５４区第４８位，它的区位码就是5448

汉字编码和输入输出 8

区位码表

区位码来源于信息交换用汉字编码字符集（基本集）国家标准 (GB2312-80)，该标准收汉字6763个，第一级3755个，位于16至55 区，55区的最后5个字符没有定义；第二级3008个，位于56至87区第一级汉字按照汉语拼音字母顺序排列，同音字以笔形顺序横（一）、直（丨）、撇（丿）、点（丶）、折（乙）为序。起笔相同按第二笔，依次类推。第二级汉字按部首排序，本标准采用的部首与一般字典用的部首基本相同，略有改并。部首次序及同部首字按笔划数排列，同笔划数的字以笔形顺序横（一）、直（丨）、撇（丿）、点（丶）、折（

乙）为序。起笔相同按第二笔，依次类推。查表时先查区号，再查行、列，例如：“、”是0102，“蔼”是 1610。

汉字编码和输入输出

例

01 区 1 2 3 4 5 6 7 8 9 0 、。 · ˉ ˇ ¨ 〃々 1 — ～ ‖ … ‘ ’ “ ” 〔〕 2 〈〉《》「」『』〖〗 3 【】 ± × ÷ ∶ ∧ ∨ ∑ ∏ 4 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙ 5 ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ 6 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″ 7 ℃ ＄ ¤ ￠￡ ‰ § № ☆ ★ 8 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ 9 → ← ↑ ↓ 〓 02 区 1 2 3 4 5 6 7 8 9 0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ 1 ⅹ 　　　　　　 ⒈ ⒉ ⒊ 2 ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ 3 ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ 4 ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀ 5 ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ 6 ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ 　　㈠ 7 ㈡㈢㈣㈤㈥㈦㈧㈨㈩　 8 　 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ 9 Ⅹ Ⅺ Ⅻ 　　

汉字编码和输入输出

例

09 区 1 2 3 4 5 6 7 8 9 0 　　　 ─ ━ │ ┃ ┄ ┅ 1 ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏ 2 ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ 3 ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ 4 ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭ 5 ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ 6 ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁ 7 ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋ 8 　　　　　　　　　　 9

汉字编码和输入输出 11

例

16 区 1 2 3 4 5 6 7 8 9 0 啊阿埃挨哎唉哀皑癌 1 蔼矮艾碍爱隘鞍氨安俺 2 按暗岸胺案肮昂盎凹敖 3 熬翱袄傲奥懊澳芭捌扒 4 叭吧笆八疤巴拔跋靶把 5 耙坝霸罢爸白柏百摆佰 6 败拜稗斑班搬扳般颁板 7 版扮拌伴瓣半办绊邦帮 8 梆榜膀绑棒磅蚌镑傍谤 9 苞胞包褒剥

汉字编码和输入输出

17 区 1 2 3 4 5 6 7 8 9 0 薄雹保堡饱宝抱报暴 1 豹鲍爆杯碑悲卑北辈背 2 贝钡倍狈备惫焙被奔苯 3 本笨崩绷甭泵蹦迸逼鼻 4 比鄙笔彼碧蓖蔽毕毙毖 5 币庇痹闭敝弊必辟壁臂 6 避陛鞭边编贬扁便变卞 7 辨辩辫遍标彪膘表鳖憋 8 别瘪彬斌濒滨宾摈兵冰 9 柄丙秉饼炳

例

54 区 1 2 3 4 5 6 7 8 9 0 帧症郑证芝枝支吱蜘 1 知肢脂汁之织职直植殖 2 执值侄址指止趾只旨纸 3 志挚掷至致置帜峙制智 4 秩稚质炙痔滞治窒中盅 5 忠钟衷终种肿重仲众舟 6 周州洲诌粥轴肘帚咒皱 7 宙昼骤珠株蛛朱猪诸诛 8 逐竹烛煮拄瞩嘱主著柱 9 助蛀贮铸筑

汉字编码和输入输出

55 区 1 2 3 4 5 6 7 8 9 0 住注祝驻抓爪拽专砖 1 转撰赚篆桩庄装妆撞壮 2 状椎锥追赘坠缀谆准捉 3 拙卓桌琢茁酌啄着灼浊 4 兹咨

资姿滋淄孜紫仔籽 5 滓子自渍字鬃棕踪宗综 6 总纵邹走奏揍租足卒族 7 祖诅阻组钻纂嘴醉最罪 8 尊遵昨左佐柞做作坐座 9

例

56 区 1 2 3 4 5 6 7 8 9 0 亍丌兀丐廿卅丕亘丞 1 鬲孬噩丨禺丿匕乇夭爻 2 卮氐囟胤馗毓睾鼗丶亟 3 鼐乜乩亓芈孛啬嘏仄厍 4 厝厣厥厮靥赝匚叵匦匮 5 匾赜卦卣刂刈刎刭刳刿 6 剀剌剞剡剜蒯剽劂劁劐 7 劓冂罔亻仃仉仂仨仡仫 8 仞伛仳伢佤仵伥伧伉伫 9 佞佧攸佚佝 57 区 1 2 3 4 5 6 7 8 9 0 佟佗伲伽佶佴侑侉侃 1 侏佾佻侪佼侬侔俦俨俪 2 俅俚俣俜俑俟俸倩偌俳 3 倬倏倮倭俾倜倌倥倨偾 4 偃偕偈偎偬偻傥傧傩傺 5 僖儆僭僬僦僮儇儋仝氽 6 佘佥俎龠汆籴兮巽黉馘 7 冁夔勹匍訇匐凫夙兕亠 8 兖亳衮袤亵脔裒禀嬴蠃 9 羸冫冱冽冼

汉字编码和输入输出

例

86 区 1 2 3 4 5 6 7 8 9 0 觥觫觯訾謦靓雩雳雯 1 霆霁霈霏霎霪霭霰霾龀 2 龃龅龆龇龈龉龊龌黾鼋 3 鼍隹隼隽雎雒瞿雠銎銮 4 鋈錾鍪鏊鎏鐾鑫鱿鲂鲅 5 鲆鲇鲈稣鲋鲎鲐鲑鲒鲔 6 鲕鲚鲛鲞鲟鲠鲡鲢鲣鲥 7 鲦鲧鲨鲩鲫鲭鲮鲰鲱鲲 8 鲳鲴鲵鲶鲷鲺鲻鲼鲽鳄 9 鳅鳆鳇鳊鳋

汉字编码和输入输出

87 区 1 2 3 4 5 6 7 8 9 0 鳌鳍鳎鳏鳐鳓鳔鳕鳗 1 鳘鳙鳜鳝鳟鳢靼鞅鞑鞒 2 鞔鞯鞫鞣鞲鞴骱骰骷鹘 3 骶骺骼髁髀髅髂髋髌髑 4 魅魃魇魉魈魍魑飨餍餮 5 饕饔髟髡髦髯髫髻髭髹 6 鬈鬏鬓鬟鬣麽麾縻麂麇 7 麈麋麒鏖麝麟黛黜黝黠 8 黟黢黩黧黥黪黯鼢鼬鼯 9 鼹鼷鼽鼾齄

国标、区位、“准国标”、机内码

94:美标中形象码的总数,33--126 汉字区、位码各加上32，就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号，为该字的“国标符” 如何区分国标符与美标符：国标码的两个数字各加上128，称“准国标”或“机内码” 机内码=（区位码）H + 8080H +2020H

汉字编码和输入输出

BIG5码

针对繁体汉字的编码，在台湾、香港的电脑系统中得到普遍应用

第一字节 A 1~A 2 非汉字 A3 C6 C 7~C 8 一级汉字二级汉字 A 4~C 5 C6 C 9~F8 81~A 0 第二字节 40~7E /A 1~FE 40~7E/A 1~E0 A 1~FE 40~7E /A 1~FE 40~7E /A 1~FE 40~7E 40~7E /A 1~FE 40~7E/A 1~D 5

汉字编码和输入输出

ISO/IEC 10646

一个国际标准编号,国际标准化组织（ISO）1993年正式颁布英文全称：Information technology Universal Multiple - Octet Coded Character Set,简称UCS 中文全称：信息技术--通用多八位编码字符集，亦称

大字符集宗旨:全球所有文种统一编码

汉字编码和输入输出 18

Unicode

英文Universal Code的缩略语统一编码是对国际标准ISO/IEC 10646编码的一种称谓是一个企业联盟集团的名称,由美国的HP、 Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码就内容而言，Unicode和ISO/IEC 10646是一致的，并行的

汉字编码和输入输出 19

CJK-中日韩统一汉字

把中国、日本与韩国的英文称谓的首字母用于ISO/IEC 10646中的中、日、韩统一编码汉字的简称 Unihan CJKV或许更准确，V代表越南

汉字编码和输入输出

ISO/IEC 10646 的体系结构

四维的编码空间总体上分为128个三维组（group）, group的值范围是从00到7F 每一组包含256个平面(plane)，每一个平面包含256行 (row)，每一行包含256个字位(cell)，又称为 “列”,plane、row、cell的值范围都是从00到FF全编码整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序) 可编码空间为：128*256*256*256=32K*64K

汉字编码和输入输出

ISO/IEC 10646体系结构图

G ro u p 7 F

P la n e 0 0 o f 7 F

G ro u p 0 1

G ro u p 0 0

P la n e F F o f G r o u p 0 0

BM P

汉字编码和输入输出

P la n e 0 2 o f G r o u p 0 0 P la n e 0 1 o f G r o u p 0 0 P la n e 0 0 o f G r o u p 0 0

基本多文种平面

第一个平面（00组中的00平面）称作 Basic Multilingual Plane(基本多文种平面)，简称BMP，并在其上规定了双八位形式，它可以作为双八位编码字符集使用,即在此平面上仅用行、列两个八位就可以表示一个编码字符

汉字编码和输入输出

BMP的最新概貌

A-Zone(00至4D行) ：拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名、数学符号等都在此区域编码 CJK Unified Ideographs，Extension A(3400-4DB5)(6000 多码位 ) CJK Unified Ideographs(4E00-9FA5)(20902个编码汉字 ) 韩文 (AC至D7这44行（44*256=11264）) S-ZONE (D8至DF行)for UTF-16 R-Zone(E0至FF行):限制使用区，一些兼容字符、字符的变形显现形式、特殊字符等均放在此区

汉字编码和输入输出

ISO/IEC 10646空间分配现状

00平面:BMP，被用于全球现已规范语种的基本文字编码，编码空间已基本饱和 01平面:作为拼音文字辅助平面 02平面:作为汉字辅助平面，CJK Extension B即将放入该平面 E0至FF平面:作为该标准的专用平面来使用其它空间尚未分配

汉字编码和输入输出 25

ISO/IEC 10646中CJK汉字组成

CJK统一编码汉字（20902） CJK扩充集A(6585) CJK扩充集B(4万--)

汉字编码和输入输出

Unicode编码点的变形

编码点(code point)(或编码单元，code element):(1)表示待处理或交换的已编码文本单元的最小位组合(2)代码

页或 Unicode标准的索引多种不同技术可以二进制格式表示每个 Unicode编码点，以此区分三种不同 Unicode编码:UTF-8、UTF-16、UTF-32

汉字编码和输入输出 27

什么是UTF?

Unicode transformation format UCS transformation format 从Unicode码点到唯一字节序列的映射算法，一一映射，保证无损转换

汉字编码和输入输出

UTF-16

Unicode标准的16位编码形式为每个字符指定一个16位的值编码形式与ISO/IEC 10646中的定义形式相同以一个16位的值来编码映射到不大于 65535数值的字符，映射到大于65535的数值的字符则被编码成一组16位的值（代用对）

汉字编码和输入输出 29

UTF-8

为满足面向字节、基于ASCII码系统的需要而制定(主要用于数据传输、互联网) 用最多达4个字节的序列来表示每个字符，为有效分析字符串，用第一个字节指明某个多字节序列中的字节数通常用于数据交换

Unicode 编码点和 UTF-8 编码字符之间的关系 Unicode 范围 0x00000000-0x0000007F 0x00000080-0x000007FF 0x00000800-0x0000FFFF 0x00010000-0x001FFFFF

汉字编码和输入输出

UTF-8 编码的字节 0xxxxxxx 110xxxxx 10xxxxxx 1110xxxx 10xxxxxx 10xxxxxx 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-32

每个字符都表示成一个32位的整数码长相等，便于某些特殊情况的处理 Unix系统使用

汉字编码和输入输出

字节顺序标记(BOM)

指示处理器怎样把连续的文本放到一个字节序列中权值最低的字节位于开头叫做“little-endian”, 权值最高的字节位于开头叫做“big-endian” 可用作识别文本文件编码形式的依据

特定编码的字节顺序标记的十六进制表示编码 UTF-16 big-endian UTF-16 little-endian UTF-8

汉字编码和输入输出

编码后的 BOM FE FF FF FE EF BB BF

代理对(Surrogate pair)

ISO/IEC 10646 在BMP定义了一个代理区（Surrogate Zone）(D800至DFFF) 将这个区域平分为前后两个各容纳1024（1K）个编码的区域（D800-DBFF及DC00-DFFF），分别称作高半代理（high surrogate）及低半代理（low surrogate）区域从这两个区域分别各取一个编码，分别称为高半代理键（high surrogate key）及低半代理键（low surrogate key），组合成一个4 bytes代理对（surrogate pair）来表示一个编码字符由surrogate机制可对应到一百万个字符（1024x1024），这一百万个字符分别对应到ISO 10646 中00组的00至0F这16个字面(plane) (其他平面如何处理？)

汉字编码和输入输出 33

Windows对Unicode的支持

Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在这些操作系统上运行非Unicode编码程序，在处理之前，操作系统在其内部将应用程序的文本转化为 Unicode编码的文本，在把信息传回应用程序之前，操作系统把Unicode编码的文本转化回所希望的代码页编码形式

。 Windows 95, Windows 98, Windows Me不是基于Unicode的，它们只提供了基于Windows NT的Windows版本所提供的Unicode支持的一个子集

汉字编码和输入输出 34

创建Win32 Unicode应用程序

WCHAR，一种16位的数据类型用于8位(ANSI)和双字节字符： typedef char CHAR; typedef CHAR TCHAR; 用于Unicode(宽)字符： typedef unsigned short WCHAR; typedef WCHAR TCHAR;

汉字编码和输入输出 35

创建Win32 Unicode应用程序

Win32 API的W函数原型 //windows.h #ifdef UNICODE #define SetWindowText SetWindowTextW #else #define SetWindowText SetWindowTextA #endif //UNICODE

汉字编码和输入输出

创建Win32 Unicode应用程序

Unicode文本宏

LPWSTR str = L”This is a Unicode string”; …… #ifdef UNICODE #define TEXT(string) L#string #else #define TEXT(string) string #endif //UNICODE …… LPWSTR str = TEXT(”This is a Unicode string”);

汉字编码和输入输出 37

创建Win32 Unicode应用程序

C运行库扩展处理字符串的C运行库函数举例通用CRT 8位字符集 Unicode _tcscpy strcpy wcscpy _tcscmp strcmp wcscmp 等价的Win32 API函数通用Win32 8位字符集 Unicode lstrcpy lstrcpyA lstrcpyB lstrcmp lstrcmpA lstrcmpB

汉字编码和输入输出 38

GBK

汉字内码扩展规范，Rules/Specifications defining the extensions of internal codes for Chinese ideograms 为了推进Unicode的实施，同时也是为了向下兼容,由电子部与国家技术监督局联合颁布在保持GB2312原貌的基础上，将其字汇扩充与 ISO 10646中的CJK等量，同时也包容了台湾的工业标准Big5码汉字，此外还为用户留了1894 个码位的自定义区

汉字编码和输入输出 39

GB18030-2000

信息技术-信息交换用汉字编码字符集-基本集的扩充，Information technologyChinese ideograms coded character set for information interchange-Extension for the basic set GBK的替代、超集

汉字编码和输入输出

GB18030-2000

完全包含CJK(Unihan) Extension A 与GBK完全兼容(code- and charactercompatible)的同时，为所有其它Unicode 码点提供了空间定义了4字节编码机制

汉字编码和输入输出

GB18030-2000码位范围分配表

字节数双字节四字节第一字节 0x81—0xFE 第一字节 0x81—0xFE 第二字节 0x30—0x39

码位空间

第二字节 0x40—0x7E, 0x80—0xFE 第三字节 0x81—0xFE 第四字节 0x30—0x39

2字节编码共23940个码位 4字节编码共超过150万个码位

汉字编码和输入输出 42

ISO 10646/Unicode的实现及其重要意义

在全球范围内建立起实时、无障碍的信息交换模式推动了汉字典籍的数字化为数字化图书馆的建立铺平了道路为弘扬汉字文化提供了舞台 Single Binary技术的诞生：同一套基本程序用于多个语言环境的技术使汉字关联活起来：正-异关联、中-日关联、繁-简关联，正-讹关联以及古今、新旧字形关联

汉字编码和输入

输出 43

汉字输入输出

汉字输入汉字输出中文字处理和精密汉字编辑排版系统操作系统的汉化

汉字编码和输入输出

计算机汉字系统的构成

┎────┒ ┎────┒ ┎────┒ ┃键盘输入┠┒ ┃汉字库┃┎→┃语音输出┃ ┖────┚┃ ┎─────┒ ┖─┰──┚┃ ┖────┚ ┎────┒┃机内码┃系统软件和┃ 机内码 ┎─┸──┒┃ ┎────┒ ┃语音输入┠╂──→┃应用软件进┠───→┃输出控制┃╂→┃汉字显示┃ ┖────┚┃ ┃行信息处理┃ ┖─┰──┚┃ ┖────┚ ┎────┒┃ ┖─────┚ ┎─┸──┒┃ ┎────┒ ┃文字识别┠┚ ┃磁盘存储┃┖→┃汉字打印┃ ┖────┚ ┖────┚ ┖────┚

汉字编码和输入输出

汉字输入方式的分类

汉字编码和输入输出

现状与趋势

目前中文输入以键盘输入为主，最快可达275字/分未来的一段时间，改进后的智能化键盘输入方式仍将占据主导地位识别输入方式在不断完善自身技术的前提下，也将获得稳步的增长多元化的格局正在形成之中

汉字编码和输入输出 47

键盘输入方案

整字键盘—大键盘：主辅式、感应式通用组合键盘—小键盘

字：记忆代码：电报、区位、军码等拼音：全拼、双拼、简拼、智能ABC、新拼、自然拼形：五笔形、郑码、表形码音形结合：李码、全息码笔划或部件：魏码词：联想，高频先见（上），用过提前，词、短语和熟句均可句：微软拼音、智能狂拼

数字键盘：手机、智能家电趋势：朝着易学习、易记忆、编码长度要短、重码要少、智能化的方向发展

汉字编码和输入输出 48

字形识别系统

印刷体

单字型字型混排，北信中英混排，清华紫光

手写体

脱机联机：汉王笔、蒙恬第一笔、中华第一笔、神调笔和杨友博士笔

汉字编码和输入输出

性能与难点

性能：北京捷通软件技术有限公司的录易全能版的扫描识别速度60-100字/秒，OCR（汉字印刷体识别）识别率高，对印刷文稿的识别率在99%以上。它的手写系统可识别简、繁、英文、数字等，可保留亲笔签字的原迹，笔迹符号代文。全屏书写，一次可连续书写 20多个字不停笔。自学习功能强，电脑能记住笔迹。提高识别性能的难点

汉字类别多汉字字形结构复杂汉字集合中相似字较多，有些汉字的差别仅为一点或一个笔画

汉字编码和输入输出

语音输入分类

特定人孤立语音非特定人孤立语音特定人连续语音非特定人连续语音

汉字编码和输入输出

语音输入现状

中文语音输入技术已经基本成熟语音输入市场

的主角依旧是以IBM为首的国外厂商 IBM Via Voice占据了国内语音输入法大半壁江山不久前成立了中国语音创业联盟，以期联合国内众多从事语音输入产品研发的企业共同推动国内语音输入技术的进步中文之星公司在语音识别方面的研究也进入到了产品化的阶段中文的地方语音体系主要有：广东话，闽南话，吴语等苹果电脑的中文语音输入系统是全球第一套广东话语音输入系统,能够将广东语转换成繁体或简体中文

汉字编码和输入输出 52

中文混合输入系统

比利时L&H语音产品有限公司的汉语知音（SPK）:针对中文输入的完全一体化的解决方案，可以采用听写、手写或键盘输入方式，并可以在这些输入方法之间随意切换; 用户无需改变自己的语音或书写习惯；可以实现语音导航，用语音控制应用程序；可以实现整句智能输入北京捷通软件技术有限公司的录易全能版：集识（汉字印刷体识别）、写（联机手写识别）、说（语音输入）、听（语音输出校稿）、校（语义、语法校对）为一体北京汉王科技公司的汉王听写输入系统是口说手写输入中文，汉王笔与IBM ViaVoice98语音识别核心的完美集成。语音输入与手写输入无缝链接，方便了编辑修改，每分钟可输入150字以上

汉字编码和输入输出

汉字的输出

磁盘存储屏幕显示纸上印字语音输出-语音合成技术

汉字编码和输入输出

汉字库

汉字的点阵式存储

0 1 2 3 4 5 6 7 8 9 10 1112131 415 0 □ □ □ □ □ ■ ■ ■ ■ ■ ■ ■ □ □ □ □ 1 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 2 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 3 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 4 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 5 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 6 □ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ □ 7 □ □ □ □ □ □ □ □ ■ □ □ □ □ □ □ □ 8 □ □ □ □ □ □ □ ■ □ ■ □ □ □ □ □ □ 9 □ □ □ □ □ □ □ ■ □ ■ □ □ □ □ □ □ 10 □ □ □ □ □ □ ■ □ □ □ ■ □ □ □ □ □ 11 □ □ □ □ □ ■ □ □ □ □ □ ■ □ □ □ □ 12 □ □ □ □ ■ □ □ □ □ □ □ □ ■ □ □ □ 13 □ □ □ ■ □ □ □ □ □ □ □ □ □ ■ □ □ 14 □ □ ■ □ □ □ □ □ □ □ □ □ □ □ ■ □ 15 □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ □ 英文字母 “ G” 和汉字 “ 天 ” 的点阵表示

0 1 2

3 4 5

6 7

0 □ □ □ ■ ■ ■ □ □ 1 □ □ ■ □ □ □ ■ □ 2 □ ■ □ □ □ □ □ □ 3 ■ □ □ □ □ □ □ □ 4 ■ □ □ □ □ □ □ □ 5 □ ■ □ □ ■

■ ■ ■ 6 □ □ ■ □ □ □ ■ □ 7 □ □ □ ■ ■ ■ □ □

汉字编码和输入输出

点阵数和存储量

───────┰──────┰────┰───────── ┃ 点阵 ┃ 字数 ┃ 存储量（字节） ───────╂──────╂────╂───────── 简易型汉字 ┃ ┃ 87*94 ┃ 16*16 261， 696 ───────╂──────╂────╂───────── 普通型字库 ┃ 24*24 ┃ 87*94 ┃ 588， 816 ┃ 32*32 ┃ 87*94 ┃ 1， 046， 784 ───────╂──────╂────╂───────── ┃ ┃ 87*94 ┃ 64*64 4， 187， 136 精密型字库 ┃ ┃ 87*94 ┃ 96*96 9M ┃ 128*128 ┃ 87*94 ┃ 16M ┃ 256*256 ┃ 87*94 ┃ 64M ───────┸──────┸────┸─────────

汉字编码和输入输出

汉字库的压缩

字根式压缩法矢量字库哈夫曼压缩法

汉字编码和输入输出

哈夫曼压缩法

将汉字的点阵图形看作由多个子点阵构成统计组成所有汉字的子点阵的概率根据子点阵的概率进行哈夫曼编码，从而得出所有汉字的哈夫曼编码用这些子点阵的编码作为汉字库

汉字编码和输入输出

2*2点阵的16种状态

┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒ ┃ 。。┃┃ 。。┃┃ 。。┃┃ 。。┃┃ 。．┃┃ 。．┃┃ 。．┃┃ 。．┃ ┃ 。。┃┃ 。．┃┃ ．。┃┃ ．．┃┃ 。。┃┃ 。．┃┃ ．。┃┃ ．．┃ ┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚ P0 P1 P2 P3 P4 P5 P6 P7 ┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒┎──┒ ┃ ．。┃┃ ．。┃┃ ．。┃┃ ．。┃┃ ．．┃┃ ．．┃┃ ．．┃┃ ．．┃ ．┃┃ 。。┃┃ 。．┃┃ ．。┃┃ ．．┃ ┃ 。。┃┃ 。．┃┃ ．。┃┃ ． ┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚┖──┚ P8 P9 P10 P11 P12 P13 P14 P15

汉字编码和输入输出

16种状态的统计概率和相应编码

┎──┰────┰───────┰──┰────┰───────┒ ┃状态┃ 概率 ┃ 编码 ┃状态┃ 概率 ┃ 编码 ┃ ┠──╂────╂───────╂──╂────╂───────┨ 1 011101 ┃ P0 ┃ 0.438 ┃ ┃ P8 ┃ 0.011 ┃ ┃ ┃ P1 ┃ 0.050 ┃ 00000 ┃ P9 ┃ 0.024 ┃ 000010 ┃ ┃ P2 ┃ 0.011 ┃ 0111000 ┃ P10┃ 0.148 ┃ 001 ┃ ┃ P3 ┃ 0.041 ┃ 00010 ┃ P11┃ 0.023 ┃ 000011 ┃ ┃ P4 ┃ 0.032 ┃ 01100 ┃ P12┃ 0.025 ┃ 01111 ┃ ┃ P5 ┃ 0.132 ┃ 010 ┃ P13┃ 0.002 ┃ 01110010 ┃ ┃ P6 ┃ 0.032 ┃ 00011 ┃ P14┃ 0.015 ┃

011010 ┃ ┃ P7 ┃ 0.014 ┃ 011011 ┃ P15┃ 0.001 ┃ 01110011 ┃ ┖──┸────┸───────┸──┸────┸───────┚

汉字编码和输入输出

压缩结果

平均码长 =0.438*1+0.050*5+0.011*7+...+0.001 *8=2.8 压缩前子点阵码长为4 压缩率为30%

汉字编码和输入输出

字形的变换(放大、缩小、旋转、平滑)

□□□□■■ □□□□■■ => □□■■□□ □□■■□□ ■■□□□□ ■■□□□□ (b) 字形放大的失真与平滑 => □□□□■■ □□□□■■ □□□■■□ □□■■□□ □■■□□□ ■■□□□□ (c)

□□■ □■□ ■□□

(a)

汉字编码和输入输出

汉字屏幕显示

┎───────┒ ┃ 汉字库 ┃ ┖───────┚ ↓ ┎────┒ ┎───────┒ ┎────┒ ─→ ┃ 接口 ┃ ─→ ┃CRT 控制(CRTC)┃ ─→ ┃ C R T ┃ ┖────┚ ┖───────┚ ┖────┚ ↓ ┎───────┒ ┃ 显示缓冲区 ┃ ┖───────┚

汉字编码和输入输出

汉字印字

绝大多数是点阵式印字方式点阵式印字机主要有针式打印机、喷墨式印字机、激光印字机等

汉字编码和输入输出

中文字处理和精密汉字编辑排版系统

中文编排要比西文编排复杂：横排、竖排、分栏、插图、表格等字模分辨率：国产（方正）系统30线/毫米，国外高级出版系统40-80线/毫米字模数目：中文6763以上，英文大小写字母加上符号总共不超出100个字体数目：中文--宋、仿、黑、楷，美术字体、变形字体、古籍书中多种字体

汉字编码和输入输出 65

主要系统

北大方正四通4S高级中文编排系统 WPS—桌面排版系统

汉字编码和输入输出

方正排版系统

国际上，最早使用书版和报版的整版编排系统，尤其是报纸的整版编排缺点在于它的开放性较差和与其它系统的兼容性不太好(人为原因)--它的照排控制器、照排机，必须配备由它自己生产，或委托其它协作单位生产的产品

汉字编码和输入输出

操作系统的汉化

外挂式中文操作系统(中文外挂平台)： CCDOS、UCDOS、天汇、中文之星、RichWin 内核汉化的中文操作系统：微软中文DOS、 Windows 3.2及其后续版本自有知识产权的操作系统:COSIX 基于Linux的自主操作系统：Turbo Linux简体中文版 6.0、蓝点 Linux 2.0 、Tom Linux 1.0 、红旗 Linux 桌面版 2.0

汉字编码和输入输出 68

谢谢！

与《Chapter4-汉字编码和输入输出》相关的范文

09-20 高级秘书速记辅导:速记的概念

速记是运用符号、编码及其缩略形式快速手写记录或用电脑速录语言信息的实用技术。它既能速记或速录有声语言信息，又能速记或速录思维、文字等无声语言信息。在当今社会信息化的环境下，中文速记已成为人们高效、快速地处理中文信息的一种技能。　　速记和语言、文字一样，是人类通过长期劳动创造出来的。随着社会生产的发展和语言的日益丰富，在某些场合下，文字不能适应记录语言的要求。为了解决这个矛盾，人们在不断应用文字的 ...

04-25 语文之友二课外阅读(二篇)

语文之友二课外阅读(二篇) 一、　说明文：（l6分）阅读下面文字，回答其后的问题。汉字的优势有着几千年历史的古老汉字，在它成为现今世上仅存的象形表意文字系统后，“汉字是中国落后的根源”这一结论，就被[名正言顺]地载入[典籍]，并广为流传。 1977年，钱伟长教授去参加一个国际会议。“汉字影响你们现代化。”外国教授对中国教授说，“____拼音文字____能救你们，____你们的文字是无法进入计算 ...

02-19 汽车工程实习报告

汽车工程实习报告报告题目：电控汽车故障诊断技术所属系部：汽车工程系指导老师：姚鑫职称：助教学生姓名：王建军班级/学号：汽检0828/11 专业：汽车检测与维修电控系统由电控单元（电脑）、各类传感器和执行器等组成。各类传感器将空气进气流量或压力、进气温度、冷却水温度、节气门位置、发动机转速、排气中氧的含量等的状况转换成相应的电信号输给电脑；电脑经过处理和计算后，向有关执 ...

05-28 科学家新中国2014年优秀征文

一条大河,历经几千年,流淌的尽是汉字. 甲骨文的波纹.金文的涟漪.篆书的漩涡.隶书的浪花--沿路讲述着仓颉造字的传说,传颂着中华民族博大精深.源远流长的文明. 汉字起源于中原,但汉字没有国界边陲.在历史上,越南.朝鲜和日本都曾经用汉字记录他们的语言.越南的本国文字--字喃,是以汉字为基础创制出来的:韩国至今使用的还是汉字和韩字(即谚文)的混合体文字:已在世界占据重要地位的日本文字目前仍保留有194

08-16 英语学习心得体会

英语学习心得体会从初一开始学习英语到今天，十年有余，但扪心自问，自己英语水平如何？实在令人汗颜。不用说自如表达，自由交流，就连外国原版的动画片都不一定能够完全理解。更别提看外国电视剧和英文电影大片了。我的反思学英语的目的是什么？上大学以前，我们被灌输，学英语是为了考试。上大学以后，我们又被灌输，是为了日常交流，自由表达。到了今天，我却发现，我彻底的错了。原因有三：第一：关于考试制度，仅仅 ...

09-11 会计电算化实训心得报告

一.实习内容: 1．设定日期,录入账套信息,设置分类编码,建立账套,按实习要求增加三名操作员并设置权限,账套数据的引入和输出.设置基础档案,设置结算方式,并在老师的教导下学习了增加修改会计科目,设置项目大类,并录入期初余额进行试算平衡.设置凭证类别,进行数据备份. 2.总账系统的主要业务操作和流程:首先设置常用摘要,以便填写凭证.其次掌握了凭证的填制.出纳签字.审核,修改.作废.红字冲销.删除.记

01-21 系统管理作业流程及岗位责任管理制度

系统管理作业流程及岗位责任管理制度　　第一章总则　　第一条为规范公司企业资源规划（以下简称k/3ERP）系统的管理，特制定本制度。　　第二条k/3ERP系统各岗位人员的职责管理除有公司有特殊规定外，皆按本制度执行。　　第三条k/3ERP系统各岗位的考核将以本制度为依据，纳入公司kPI目标考核体系。　　我司ERP系统分为系统设置管理、销售管理、采购管理、仓存管理、车间生产管理、计划管理、财 ...

05-27 辅助设备应用实训报告

辅助设备应用实训报告一、实训目的 1.了解打印机、扫描仪、刻录机等各种设备与计算机正确连接和驱动的正确安装。 2.熟练掌握打印机、扫描仪、刻录机、塑封机、数字设备等各种设备的正确配置，及正确使用这些设备和对一般故障的处理能力。 3.辅助设备的综合性应用的知识与技巧。 4.促使学生学习和获取新知识，掌握自我学习的能力。二、实训准备 1.从思想和心理准备做好实训准备。 2.认真阅读实训指导书。 3 ...

10-16 电子工作室2014年上学期辅导计划

电子工作室20XX年上学期辅导计划一、指导思想结合高职教育的特点，以培养学生学习兴趣和锻炼学生动手操作能力与创新能力为目的，开展20XX年上学期电子工作室的辅导工作。二、辅导目标： 1、充分调动学生对电子专业的热爱和学习兴趣 2、让学生熟练掌握电子元件的认识、检测与使用 3、让学生熟练掌握电子仪表的使用与操作 4、使学生具有电子电路组装、制作、调试与检修能力 5、使部分学生具有简单电子产品的 ...

09-12 大学生暑期社会实践报告

大学生暑期社会实践报告年级：20xx级信息工程系实践内容：暑假里，在xx镇农业综合服务中心开始工作，在那里我度过了忙碌又充实、辛苦而愉快的暑假。之所以辛苦是因为我不断地从内心去学习、理解、完善工作中的新事物；之所以幸福是因为战胜困难是我不变的目标，成功的喜悦是我永恒的追求。通过总结，我将自己从暑期实践活动中的工作分为以下四项：一．编码xx镇移民土地承包合同移民土地承包合同有编码，该编码 ...

随机推荐

猜你喜欢

Chapter4-汉字编码和输入输出

·五年级小学生国旗下讲话稿:文明礼仪伴我行

·世界上最大的鸟,跟战斗机一样大

·民国四大公子张伯驹出身豪门,半生家住天津道,最爱吃天津的煎饼果子

·省林黛玉进贾府说课稿专家版

·吉林中考作文

·教学评价是教学活动的一个重要环节

·新华乡中小学食品安全.饮水卫生管理制度

·那一次,我尝到了阳光的味道

·南行摘记--参观杭州湾跨海大桥"海天一洲".秦山核电站等纪实姚国祥

·政府主导投资的经济性质

·2010年初三化学备课组教学工作计划

·人才交流中心工会女工工作总结

·竞争上岗干部集体组织谈话提纲

·土耳其古代和近代史简介

·品格的试金石

·旅游地理学论文

·我还是那个孩子

·医院依法执业承诺书

·连铸连轧车间员工需遵守的规章制度

·生物入侵的进化生物学

Chapter4-汉字编码和输入输出

与《Chapter4-汉字编码和输入输出》相关的范文

·五年级小学生国旗下讲话稿:文明礼仪伴我行

·世界上最大的鸟,跟战斗机一样大

·民国四大公子张伯驹出身豪门,半生家住天津道,最爱吃天津的煎饼果子

·省林黛玉进贾府说课稿专家版

·吉林中考作文

·教学评价是教学活动的一个重要环节

·新华乡中小学食品安全.饮水卫生管理制度

·那一次,我尝到了阳光的味道

·南行摘记--参观杭州湾跨海大桥"海天一洲".秦山核电站等纪实 姚国祥

·政府主导投资的经济性质

·2010年初三化学备课组教学工作计划

·人才交流中心工会女工工作总结

·竞争上岗干部集体组织谈话提纲

·土耳其古代和近代史简介

·品格的试金石

·旅游地理学论文

·我还是那个孩子

·医院依法执业承诺书

·连铸连轧车间员工需遵守的规章制度

·生物入侵的进化生物学

·南行摘记--参观杭州湾跨海大桥"海天一洲".秦山核电站等纪实姚国祥