苏州大学中文信息处理模拟卷
模拟卷
一、填空题。(20%,每空1分)
1. 中文信息处理是以 为主要工具,以 为处理对象的高新技术。 2. 请列举出两个与计算机汉字信息处理有关的国家标准: 3. 汉字输入的关键在输入系统,输入系统的本质是一个翻译程序,负责把翻
译成 ,并提供用户一个交互的界面,提供应用程序一个输入接口。 4. 不同的字形描述技术描述的字形具有不同的特征,请列举出三种常用的字形描述技
术:__________________、_______________、______________。
5. 汉字输入码有很多种类,根据其编码规则的不同,一般可以分
成 、 、 、 四类。
6. 现在使用的显示适配器一般都可以支持两大类工作模式。它们分别是:以______为
基本处理单元的 模式和以________为基本处理单元的 模式。 7. 汉字横向点阵的数字代码是按、序扫描点阵各点状态而形成
的,该点阵一般适用于 。
二、选择题。(20%,每题2分)
1. 由1000个32×32点阵构成的汉字要占用存储空间。
(a)100K字节
(b)4000K字节 (c)128字节 (b)动态链接库
(d)125K字节
(d)中断向量
2. Windows环境下,IME本质上是一个____________
(a)中断处理程序 中。
(a)软盘
(b)硬盘
(c)ROM
(d)RAM
4. 区位码是1701的汉字,它在GB2312-80中的机内码应该是
(a)B0A1H
(b)A1B0H
(c)A1B1H
(d)B1A1H (c)DOS
(d)Windows 98
5. 以下哪个操作系统属于嵌入式操作系统:_________。
(a)Window XP
(b) Symbian 操作系统
6. 对于含有空区的16×16点阵字库文件而言,区位码是1601的汉字其字形码的第一
个字节的偏移是:
(a)1598
(b)45120
(c)48128
(d)1504
(d)INT 7H
7. DOS环境下,中文信息处理系统的显示输出模块,必须要修改系统的哪个中断?
(a)INT 16H
(b)INT 9H
(c) INT 10H
8. 如果我们在接收到的电子邮件的正文中看到以下引号内的文字内容,
(c)输入法服务器
3. 中文信息处理系统的视频BIOS是以10H号中断处理程序的形式给出的,它驻留在
“=AC=F2=B0=A1”
(b)UUEncode
(c)QP
(d)HZ
这封邮件的正文最有可能使用了下面的哪种编码方式: (a)BASE64 (a)点阵 (a) 区位
9. TrueType字库属于下列哪种类型的字库:(b)轮廓矢量字 (c)曲线轮廓字 (d)以上都不对
(b)五笔字形
(c) 纵横
(d) 拼音
10. 下列哪种输入法不需要输入码对照表:
三、计算题。(20%)
1. 现有一个文件采用Unicode编码(UCS-2序),内容如下:
FE FF 8B A1 7B 97 67 3A 00 30 00 30 7E A7
请将其内容用UTF-8编码,编码结果用16进制表示,并填入下表。(每格填一个字节)(10分)
2. 请使用BASE64编码法,为字符串“01234啊”编码,并写出编码后的字符串。(字符串中的字母使用ASCII编码,汉字使用GB2312内码)(5分)
3. 请使用QP编码法,为字符串“01234啊”编码。(字符串中的字母使用ASCII编
码,汉字使用GB2312内码)(5分)
四、实验题。(15%)
1. 请看下面一段程序:(Turbo C 2.0环境)
long offset; int x; x = 1800;
程序员的本意是想使offset的值是1800000,但是实际运行时达不到这样的效果。请问如果想使offset的值是1800000,带下划线的语句应该如何改?并说明原因。(5分)
2. 请为拼音输入法设计三种输入码对照表:定长结构、变长结构和索引结构。拼音由
21个声母和35个韵母组成,不考虑声调。码本是字码本,包括6763个GB2312汉
字,不考虑多音字。并从文件大小和平均检索时间方面比较各自的优缺点。(10分)
五、简答题。(25%)
1. 什么是中文信息处理技术?它的主要研究领域有哪些?请列举出三个以上。(6分)
2. 在某个应用程序中,打开拼音输入法之后,通过键盘输入字符串“liang”,这时,在候选条上会列出多个候选字。试用图表或者文字阐述:在上述过程中,分别在哪些环节中采用了汉字代码体系中的什么代码?(8分)
3. 简述汉字显示输出的过程。(6分)
4. 简述汉字字库设计应追求的目标,及它们之间的关系。(5分)
字符/汉字
A 0 ! ~ { } 啊
附录二:
BASE64编码表
0 1 2 3 4 5 6 7
A B C D E F G H
8 9 10 11 12 13 14 15
I J K L
16 17 18 19
Q R S T U V
24 25 26 27 28 29
Y Z a b c d e f
32 33 34 35 36 37 38 39
g h i j k l m n
40 41 42 43 44 45 46 47
o p q r s t u v
48 49 50 51 52 53 54 55
w x y z 0 1 2 3
56 57 58 59 60 61 62 63
4 5 6 7 8 9 + /
ASCII/GB2312内码
61H 30H 21H 7EH 7BH 7DH B0A1H
M 20 N O P
21
22 W 30 23
X
31
附录三:
UTF-8编码表
编码区间
0000H-007FH 0080H-07FFH 0800H-FFFFH
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
编码结果
一、填空题。(20%)
1. 汉字的输入技术从总体上可以分为两大类:_____________和___________。 2. 在IBM-PC系列微机中, BIOS显示输出管理模块是以_______号中断服务程序的
形式存在的。
3. 汉字纵向点阵的数字代码是按、顺序扫描点阵各点状态而
形成的,该点阵一般适用于 。
4. 请列举出两个与计算机汉字信息处理有关的国家标准: 和 。 5. 汉字输入码有很多种类,根据其编码规则的不同,一般可以分
成 、 、 、 四类。
6. 汉字信息处理系统主要模块包括模块和模
块。
7. 请列举出三种常用的汉字输入码对照表结构:______________、
_________________、_____________。
8. 当用户在键盘上按下一个键后,该按键的__________和____________被保存到计算
机内存中的键盘缓冲区,供系统使用。
二、选择题。(20%)
1. 如果我们在接收到的电子邮件的正文中看到这种形式的内容,
“y661vqGjDQo=”
这封邮件的正文最有可能使用了下面的哪种编码方式: (a)BASE64 (b)UUEncode (c)QP (d)HZ
(d)双拼
2. 下列哪种输入法采用形码编码方案:_______。 (a)智能abc (b)五笔字形 (c)区位
3. 中文信息处理系统的键盘输入管理模块是以16H号中断处理程序的形式给出的,它
驻留在 中。 (a)软盘 (b)硬盘
(c)ROM
(d)RAM
4. 区位码是1802的汉字,它在GB2312-80中的机内码应该是 (a)B2A2H (b)A1B0H (c)A2B2H (d)B0A1H 5. 由1024个24×24点阵构成的汉字要占用。 (a)100K字节 (b)576K字节 (c)72字节 (d)72K字节
6. 对于含有空区的16×16点阵字库文件而言,区位码是1601的汉字其字形码的第一
个字节的偏移是: (a)1598 (b)45120
(c)48128
(d)1504
7. PostScript字库属于下列哪种类型的字库: (a)点阵 (b)轮廓矢量字 (c)曲线轮廓字 (d)以上都不对 8. Windows环境下,IME本质上是一个_______
(a)中断处理程序 (b)动态链接库 (c)输入法服务器
(d)中断向量
9. 如一个显示器采用1024×768×256色的分辨率,则需要的显存是:。 (a)5M字节 (b)6144K字节 (c)38400字节 (d)768K字节 10. 纵横码属于以下哪种键盘方案:_______。 (a)大大键盘 (b)大键盘 (c) 小小键盘
(d)小键盘
三、计算题。(20%)(转换编码见附表)
1. 现有一段信息采用Unicode编码(UCS-2序),内容如下:
5E 94 75 28 7A 0B 5E 8F 5F 00 53 D1
请将其内容用UTF-8编码,编码结果用16进制表示,并填入下表。(每格填一个字节)(10分)
2. 请使用QP编码法,为字符串“01234啊”编码,并写出编码后的字符串。(字符
串中的字母使用ASCII编码,汉字使用GB2312内码)(5分)
3. 请使用HZ编码法,为字符串“abcde啊”编码,并写出编码后的字符串。(字符串中的字母使用ASCII编码,汉字使用GB2312内码)(5分)
四、实验题。(15%)
1. 为拼音输入法设计三种输入码对照表。拼音由21个声母和35个韵母组成,不考虑
声调。码本是字码本,包括6763个GB2312汉字,不考虑多音字。请描述等长结构、变长结构和索引结构的输入码对照表结构。(9分)
2. 请比较上述三种输入码对照表的大小和平均检索次数(6分)
五、论述题。(25%)
1. 请简述实现汉字键盘输入的总体流程。(7分)
2. 请简述什么是汉字字形描述技术?它的种类有哪些?(5分)
3. 简述中文信息处理技术的概念和它的主要研究领域。(5分)
4. 根据图中所示汉字的字形码(显示用),写出该汉字的点阵。(8分) 08H 20H 20H 40H 14H 44H 2FH
FEH
FFH FEH 08H 50H 47H 27H FCH 84H 44H 4FH 27H FCH E4H 44H 20H 22H
10H
21H
50H
20H
FCH FCH 10H 30H
附录一:
字符/汉字
a 0 ! ~ { } 啊
附录二:
BASE64编码表
0 1 2 3 4 5 6 7
A B C D E F G H
8 9 10 11 12 13 14 15
I J K L
16 17 18 19
Q R S T U V
24 25 26 27 28 29
Y Z a b c d e f
32 33 34 35 36 37 38 39
g h i j k l m n
40 41 42 43 44 45 46 47
o p q r s t u v
48 49 50 51 52 53 54 55
w x y z 0 1 2 3
56 57 58 59 60 61 62 63
4 5 6 7 8 9 + /
ASCII/GB2312内码
41H 30H 21H 7EH 7BH 7DH B0A1H
M 20 N O P
21
22 W 30 23
X
31
附录三:
UTF-8编码表
编码区间
0000H-007FH 0080H-07FFH 0800H-FFFFH
编码结果
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx