建立小型语料库之我见
第25卷第3期湘潭师范学院学报(社会科学版) Vol. 25No. 3
2003年5月Journal of X iangtan Normal University (Social Science Edition ) May. 2003
建立小型语料库之我见
王 陆
(北京化工大学文法学院, 北京100029)
Ξ
摘 要:语料库语言学作为语言学的一个分支, 40多年的发展历史, 、的。, 、建设和使用, , 。
关键词:; :H0 文献标识码:A 文章编号:1009-4482(2003) 03-0111-03
一 引言
在20世纪60年代, 乔姆斯基所倡导的理论语言学成为了语言研究的主流, 但他对语言进行的实证研究并没有被广泛关注。直到近年来, 随着实证性研究在语言学领域的深入开展, 人们才开始研究自然语言的实际运用和某种特定语言结构在不同语境中的用法差异。语言使用的分析不仅包括传统的语法描述, 而且还包括对某一文本语言或某一作家语言的研究。例如, 我们可以分析某一作家所用语言与其他作家语言的区别, 或男女之间语言的差异。通过分析, 我们可以发现某些语言的典型用法。建立语料库语言学, 可帮助我们进一步做好这方面的研究工作。
用自己的感觉来分析这些人为想象出来的句子。他们声称, 这种结构句法上合理, 可“不自然”。但是, 萨姆森在通过真实语料库的数据分析时发现, 这种“嵌顿”的句子数量不少, 而且用起来十分自然。因此, 在进行语言研究时, 如果能够使用语料库中的句子, 而避免自己创造不适当的例子, 那么我们的研究将更有说服力。
此外, 语料库可以应用在翻译中。例如, 在建立了双语平行语料库之后, 研究者可以利用该语料库进行翻译方面的研究。
在词典编撰方面, 语料库也具有实际意义。目前, 国内的许多词典编撰仍在使用自己编造的句子, 若是利用语料库则可以节省大量时间。其例句的详实可使词典的使用者从中受益。
在外语教学过程中, 教师可以通过语料库寻找一些单词用法、例句说明和语境介绍, 并可通过语料库来分析单词搭配、词组使用等。
2. 语料库研究的特点
二 语料库研究的必要性
1. 语料库的用途
语料库能够为语法学家、辞典编撰家以及应用语言学家等提供其个人无法掌握的第一手材料。萨姆森(Sam ps on ,1996) 曾经解释过为什么他能成(cen 2为一名语料库语言学家。他说在解释“嵌顿”tral embedding ) 问题时, 例如“, the m ouse the cat the dog chased caught squeaked ”, 多数语言学家都是利
语料库研究具有以下特点:
(1) 语料库研究是实证性的, 能够用来分析自
然环境下的实际模式。
(2) 能以大量收集起来的自然文本作为语料库
Ξ收稿日期:2002-11-11
基金项目:北京化工大学青年教师科研基金资助项目。
作者简介:王陆(1973-) , 男, 辽宁辽阳市人, 北京化工大学文法学院讲师, 硕士, 主要从事应用语言学研究。
111
研究的基础。
(3) 能大量使用计算机作为分析工具。(4) 能同时使用定性和定量分析手段。
(2) 语料库的规模及容量
如果该语料库是用作个人使用的, 那么, 该语料库的规模及容量相对来说就比较小, 但是对于研究者本人来说可以起到一定的作用。当然, 语料库中词语的多少对分析结果是有重要影响的。另外, 文本的数量也值得注意, 因为一个文本在内部结构中可能存在着很大差异, 所以, 我们不仅要重视语料库的整个容量, 还要注意每个文本乃至样本的容量如(British , 英国国家语料库。
((corpus ) 的设计
三 语料库的建立
研究语料库的条件是首先要建立所需的语料库, 其建立过程包括以下几个方面:
1. 语料库建立原理
在建立语料库之前, 首先必须要弄清楚建立该语料库的目的和组建原理。
(alect () , 除了会遇到上述问题外, 还会有时间的问题。而且, 越是早期的文本, 数量就越少, 因此很难知道代表性样本在何时能获得。在建立历史语料库的过程中, 研究者可以每50年选出至少10个文本来, 代表不同的语域, 而选择方法应是随机的。
(4) 多用途语料库(multifunctional corpus ) 的设
、(spoken English corpora ) 、书面语及口语语料库(mixed corpo 2ra ) 、历史语料库(historical corpora ) 、儿童语言语料
库(children and language learner corpora ) 以及多语言语料库(multilingual corpora ) 。在建立语料库之前, 研究者应该明确自己使用语料库的目的, 是用来分析句子结构还是编撰词典等等。如果研究者的研究重点放在文学上, 那么应建立文学语料库, 即应尽量将英美和中国的作家作品收集到语料库中, 以便作进一步的分析和研究。
2. 语料库设计
计问题
设计多用途语料库要考虑的问题是选择什么样的语域。
首先应该选择能够代表某一特定历史时期作品的语域, 包括以“言语”为基础的语域(如戏剧或法庭证词) 来代表某一特定历史时期的口语特点(因为当时没有录音材料) ; 其次是选择在不同历史
在决定建立何种语料库之后, 最重要的是语料库的设计, 因为它是人们从事研究的基石。如果设计的语料库不具适用性, 那么我们的研究结果就要受到质疑。在设计语料库的过程中, 除了要考虑版权许可、人力及资金方面的问题外, 还要重视以下几个方面。
(1) 多样化
时期能持续发展的语域, 在不同历史时期发展完全相同的语域很难找出, 因此, 我们可以把这些类似的语域看成是相同的; 再是研究者必须掌握好一个尺度来决定在某个时期中的书面或口语材料的数量同某个时期所需文本的数量之间的平衡。确定了目标语域之后, 就进行对文本的随机选择。
3. 语料库赋码
语料库不仅要具有代表性, 而且必须具有多样性。
在建立语料库的过程中要注意语料所收集的范围。例如, 其文本的来源是使用书面语体还是使用口语体。语料库中所包含的文本的来源是否涵盖了所要收集的范围。另外, 要考虑口语语料库中说话者的性别、年龄、社会地位、所从事的职业等因素。还要有语域变化(register variation ) , 一个好的语料库必须包括语言中的不同语域(Biber ,C onrad &Reppen , 1998) [1]。112
只有建立了语料库之后, 才能对其进行赋码(tagging ) 。未经赋码的语料库可以用来搜寻某个
词或字符串, 但在作其它研究时, 未经赋码的语料库就不能满足我们的需要。因此, 语料库中每一个单词都应标注语法信息, 这就是“赋码语料库”。赋码语料库不仅包括语法赋码, 还包括句法赋码和语义赋码等。
赋码过程中的多数赋码器(用来给语料库编码
的程序) 使用方式如下:
(1) 语法标注(W ord -class tagging )
研究确实非常重要的赋码。
(4) 标准化标注语(SG M L -ST ANDARD GE N 2ERA LIZE D MARK-UP LANG UAGE )
SG M L 是近年来常用的大型语料库标注语言, BNC 主要是用SG M L 标注的。我们应对其加以重
语法标准也可称其为initial POS tagging 。它利用词典来标注某个单词所属的词类(w ord class ) 范畴, 及该单词的词性, 一般称为POS 赋码(即part -of -speech ) 。这是目前比较通用的赋码方式, 大型
视和利用。
作为一种大量运用计算机进行研究的新兴分支, 。无论对语, 。总, 语言。参考文献:
[1]Biber , D. , C onrad , S. , &Reppen , R. C orpus Linguistics
[M].Cambridge :Cambridge University Press , 1998. [2]Church , K. W. and Hanks , P. ‘W ord collocation norms ,
mutual in formation , and lexicography ’[A ].C om putational Linguistics [C].1990. 22-29.
[3]张佐成. 英语中礼貌请求的语言表达[J].湘潭师范学
语料库BNC 就是采用这种方法。
(2) 消歧标注(Disambiguity tagging )
对于有歧义的词汇, 许多赋码器使用概率信息, 即利用已赋码的语料库为基础来辨别词性, 或直接给出两个词性以消除歧义。
(3) (() , 有时还进行语义赋码。
另外, 许多赋码器还包括规则成分和词形分析器两个特点。规则成分可以用来辨别符合特定顺序的句法结构。而词形分析器则是利用某些词形特征来分析词典中没有包括的词汇(Church &Han 2ks ,1990) [2]。
在赋码过程中不可能做到完全正确, 在模糊的结构中可能会出现错误, 因此, 我们要注意检查对
院学报(社会科学版) ,2002, (1) .
The Establishment of Small Corpora
W ANGLu
(School of Humanities and Law , Beijing University of Chem ical T echnology , Beijing 100029, China )
Abstract :As a sub -branch of linguistics , corpus linguistics is rather new in China , but it has a long history of about 40years outside China. A number of dictionaries and grammar books are com piled in corpus -based approach 2es. Linguists can als o calculate the frequency of w ords , find the collocations of certain w ords , analyze the context as well as get s ome exam ples for the w ords they want to teach. In this article , the design , establishment and function of individual corpora are introduced , which is of great im portance to researchers of corpus linguistics.
K ey w ords :corpus linguistics ; methodology ; concordance.
113