朗读语料与自然口语的差异分析
朗读语料与自然口语的差异分析①
刘亚斌 李爱军
中国社会科学院语言研究所
摘要
本文通过对朗读语音语料库ASCCD 、自然口语独白语音语料库CASS 和自然口语对话语音语料库CADCC 的统计分析,试图说明朗读语料与自然口语的主要差异。文章主要对二者在音节、声韵、副语言学和非语言学现象、语篇话题、话轮转换、基频变化以及音段音变现象等几个方面作了一些统计分析,并由此归纳出朗读语料与自然口语的几点不同。
1. 引言
近几年来,随着语料库语言学的兴起,各种各样的语料库也分别建立起来,其中主要是朗读语料库。随着研究的深入和语音处理技术的发展,朗读语料库已经不能满足需要,人们希望对真正的自然口语进行研究和处理,自然语料库的建立也就逐渐的开展起来,自然口语的研究日益成为语言学家和言语工程人员面对的一个重要课题。
为此,我们做了大量的工作,先后建立了朗读语篇语音语料库ASCCD[1]、自然口语独白语音语料库CASS[2]、和自然口语对话语音语料库CADCC (包括SET-1和SET-2)[3],并且花费了大量的时间和人力进行了切分和音段、韵律标注,在此基础上开展了一系列的研究工作。本文的目的是通过对这三个语音语料库的主要数据的统计分析,来说明朗读语料和自然口语的主要差别。
2. 语料库简介
2.1. 语料库设计
朗读语篇语音语料库ASCCD 共有18篇,文本语料是经过语言学家挑选的具有丰富语篇信息的议论体和叙事体语篇,由10个发音人(5男5女)在录音室里朗读,每篇约有300-500字不等。
自然口语独白语音语料库CASS 的原始语音是由清华大学广播站提供的录音磁带,内容主要是学校的讲座、学生自由讨论和一些公共会议,其中有对话,但大部分是独白。讲话人没有讲稿,所以是随意口语,因此含有大量口语现象和丰富的音变现象。录音环境是普通的教室、会议室和礼堂,录音设备也不是专业录音设备,所以背景噪音较大。该库共有6个小时的语音,我们选择了三个多小时的语音进行标注。
自然口语对话语料库CADCC 包括两个子库,其中SET 1是电话对话库,SET 2是正常通道对话库。表1给出了CADCC 的详细信息。SET 2中共有13对发音人,对话双方是同事或同学,有共同的爱好或话题,谈话内容不限,
①本课题得到国家社科基金、国家973基金和中国社会科学院语言所重点课题基金支持
也就是语篇话题可以自由转换。其中有8位发音人曾参加过朗读语篇ASCCD 的录音,这样以便详细对比朗读和自
然口语的各种差异。录音在普通办公室或宿舍进行,对话者身带无线话筒,无线录音设备放置在另外的房间,这就保证了对话双方完全进入自然谈话状态。每一对发音人的谈话时间在1个小时左右。
2.2. 语料库转写和标注
我们对ASCCD 和CADCC 的SET 1都进行了音段和韵律标注,对CASS 进行了音段标注,标注工具是Praat 和XWAVES +,音段标注采用SAMPA-C 音段标注系统,韵律标注采用C-ToBI 韵律标注系统,详见[4]。
ASCCD 和CADCC 的标注有7层:正则的音节和声调标注、声韵母标注、韵律结构标注、重音结构标注、语句功能类型标注、杂类标注和话轮标注。CASS 标注信息有3层:音节层、声母/韵母层和杂类层。
在声韵母标注层,用SAMPA-C 音段标注系统来标注实际发音,包括标注超音段特征(声调的变化、上上相连的变调和轻声变化)和音段特征(增音、减音、浊化、清化、喉化、送气化、成音节化、音素音变等等);杂类层主要标注背景噪音、口语现象等非语言学和副语言学现象(见表2),由于口语语气词和叹词在口语功能研究中的重要性,我们也在这层中标出。另外,我们还对CADCC 的所有语音都进行了汉字转写,并将口语的非语言学和副语言学现象也按照表2的符号进行了转写,在文字转写中还标记了语篇话题(非句子话题)转换的位置。
3. 统计数据和分析
3.1. 音节统计
本文对ASCCD 和CADCC 两个库中音节的出现次数进行了统计,包括带声调和不带声调音节的统计。表3给出了出现次数最高的前15位音节(计声调和不计声调),其中C-SET2代表CADCC 的SET 2子库(下同)。从表中可以看出,在口语中,“你、我、他、这、那”这几个代词的使用频率是相当高的,而朗读语料由于是人为设计的,就不存在这种现象。而“de0(的),le0(了),shi4(是),you3(有),bu4(不)”在朗读语料和自然语料中都出现较多,这点也符合人们平时说话的习惯。另外,表中所列两库中的高频音节所对应的汉字与《现代汉语频率词典》[5]中的高频字表也极为吻合,几乎全在其前35个高频字之内。
3.2. 声韵母出现率统计
陈肖霞曾经对863朗读语料库的部分语料(1560句)做过声韵母出现率统计[6],本文对自然语料库C-SET2也做了声韵出现率统计,并与之作了对比(见表4)。
表1: CADCC的详细信息
Set1 (电话库) Set2 (对话库)
内容 旅馆服务 不限 总时长 2 小时 16.2小时 发音人 〉200人 16男 & 10女
口音 √ ╳ 汉字转写 √ √ 语音学标注 韵律和音段 韵律和音段 采样率 8 KHz 16 KHz 存储形式
.wav
.wav
率最高的前15位音节 (计调和不计调)
计声调 不计声调 ASCCD C-SET2 ASCCD C-SET2 de0 shi4 de shi shi4 de0 shi de le0 na4 yi na ren2 jiu4 you yi shi2 bu4 qi ge yi4 yi1 zhi jiu you3 wo3 le zhe zai4 zhe4 ren bu sheng1 ta1 bu wo bu4 ni3 ji ta da4 ge4 jiu ni yi2 le0 zai le he2 shuo1 guo you yi1 me0 zhe er wo3
you3
sheng
shuo
表4: 出现率最高的前10位声母和韵母 声母 韵母
朗读语料 C-SET2 朗读语料 C-SET2 j s e e sh sh i a zh d u i d y i2 uo l z ong en x n ian ai g j ai an h b a ou b g uo ao z
zh
ing
ui
表2: 非语言学和副语言学现象转写符号
NO. 现象 符号 开始 结束 1 拉长 LE 2 喘气 BR
3 笑声 LA 4 哭声 CR 表3: 5 咳嗽 CO 出现6 犹豫 DS 7 口误 ER 8 静音 SI 9 副语含混音 UC 10 言学语气词 MO 11 现象 咂嘴 SM 12
非汉语词汇 NC 13 吸气 SN 15 叠接 OV 16 插话 IN 17 吞咽声 DE 18 清嗓 HA 19 打喷嚏 SE 20 填充停顿 FP 21 颤音 TR