fbpx
维基百科

语料库语言学

语料库语言学(英語:corpus linguistics)是基于语言运用的实例(即语料库)的语言研究。语料库语言学可以对自然语言进行语法句法分析,还可以研究它与其他语言的关系。语料库最初由手工完成,而现在主要是由电子计算机自动完成。

语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。在语料库语言学中,语料标注的意义众说纷纭,从约翰·辛克莱(John McHardy Sinclair)[1]主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院[2]鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。

历史

现代语料库语言学的一个里程碑是亨利·库切拉英语Henry Kucera和W.纳尔逊弗朗西斯在1967年出版的《当代美语的计算分析》(Computational Analysis of Present-Day American English)一书。该项工作基于对布朗语料库英语Brown Corpus的分析,布朗语料库是一个精心编制的美国英语语料库,规模约有一百万词次。库切拉和弗朗西斯将这些语料用于各种计算分析,获得了丰富​​和多样化的成果,该成果结合了语言学、语言教、心理学统计学、和社会学元素。另一关键出版物是1960年伦道夫·夸克英语Randolph Quirk的《当代英语语法》(Towards a description of English Usage)[3],在这本书中他介绍了“英语用法调查”项目(The Survey of English Usage)。

此后不久,波士顿出版商霍顿·米夫林英语Houghton Mifflin Harcourt邀请库切拉为其新的美国传统英语字典提供百万词次,三线引文的来进行词典编纂。《美国传统英语字典》创新地将规定性元素(应如何使用语言)和描述性元素(语言实际上是如何被使用)结合在了一起。

其他出版社纷纷效仿。英国出版商柯林斯COBUILD单语学习词典,就是为非英语母语者学习英语而出版的,它使用了“英语银行”(Bank of English)语料库。“英语用法调查”语料库被用于由夸克等人编著的《综合英语语法》(A Comprehensive Grammar of the English Language)中。

布朗语料库也催生了类似的语料库:LOB语料库(Lancaster-Oslo-Bergen Corpus,20世纪60年代英国英语),科尔哈帕(Kolhapur,印度英语),惠灵顿(Wellington,新西兰英语),澳大利亚英语语料库(Australian Corpus of English,澳大利亚英语),皱眉语料库(Frown Corpus,20世纪90年代初,美国英语),以及FLOB语料库(FLOB Corpus,20世纪90年代,英国英语)。其他语料库包括国际英语语料库(International Corpus of English),和英国国家语料库(British National Corpus,收集了1亿词次的口头和书面语料,在20世纪90年代时由出版商、牛津大学兰卡斯特大学大英图书馆创建)。至于说到当代的美国英语,现已有了美国国家语料库(英語:American National Corpus),以及可以在线访问的4亿多词次的美国当代英语语料库(英語:Corpus of Contemporary American English,1990年创建)。

第一个电脑转录口语语料库,建于1971年蒙特利尔法语项目(Montreal French Project),[4]有一亿词次,这一项目还启发了夏娜·帕普拉克(Shana Poplack)建立了规模更大的渥太华-赫尔地区法语口语语料库(英語:Corpus of spoken French in the Ottawa-Hull area)。[5]

语料库除了收集现存语言,也收集古代语言。比如20世纪70年代建立的希伯来文圣经的安徒生福布斯数据库(英語:Andersen-Forbes database of the Hebrew Bible,数据库的每个子句的语法分析都使用了多达七级语构的图表,每一部分都标注了七个方面的信息。[6]古兰经阿拉伯语语料库(英語:Quranic Arabic Corpus)是古典的阿拉伯文古兰经》的标注语料库。它包含多层次的标注,包括形态分割,词性标注,以及使用依存语法进行的句法分析。[7]

方法

语料库语言学已经有了一大批研究方法,这些研究方法都试图找到从数据到理论的解决方案。瓦利斯和尼尔森[8]最先介绍了他们的3A观点(英語:3A perspective):注释(英語:Annotation),抽象(英語:Abstraction)和分析(英語:Analysis)。

  • 注释 包括语料的数据库方案。注释可能包括结构标注,词性标注,句法分析和其他形式。
  • 抽象 包括该方案在理论上的启发式模型或数据集中的翻译(映射)。抽象通常包括面向语言学家的定向搜索,但也可能包括句法研究者的句法规则学习。
  • 分析 包括统计学探测,操纵和对数据集的归纳概括。分析可能包括统计学评估,规则库优化和知识探索方法。

如今大多数词汇语料库采用词性标注(英語:part-of-speech-tagged)。然而,即使是采用未标注语料的语料库语言学家也无疑会使用一些方法来从句子中隔离出他们感兴趣的词。在这种情况下,注释和抽象在词汇搜素中结合起来了。

发布标注语料库的优点是其他用户可以在语料库中进行研究与实验。语言学家与其他相关人士就可以利用语料库来工作了。通过数据共享,语料库语言学家能将语料库视为语言探讨的核心,而不是知识的源泉。

註釋

  1. ^ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82) . Berlin: Mouton de Gruyter. 1992.
  2. ^ Meurman-Solin, Anneli; Nurmi, Arja. Annotation, Retrieval and Experimentation. . Helsinki: Research Unit for Variation, Contacts and Change in English (VARIENG), University of Helsinki. 2007 [2021-10-16]. OCLC 780136367. (原始内容存档于2021-10-19) (英语).  |author=|last=只需其一 (帮助)
  3. ^ Quirk, R. 'Towards a description of English Usage', Transactions of the Philological Society . 1960. 40–61.
  4. ^ Darnell, Regna. . Carbondale: Linguistic Research. 1979 [2021-10-16]. ISBN 978-0-88783-003-7. OCLC 257958435. (原始内容存档于2021-10-19) (英语).  |author=|last=只需其一 (帮助)
  5. ^ Poplack, S. The care and handling of a mega-corpus. In Fasold, R.& Schiffrin D. (eds.) Language Change and Variation , Amsterdam: Benjamins. 1989. 411–451.
  6. ^ Andersen, Francis I; Conrad, Edgar W. . Winona Lake, Ind.: Eisenbrauns. 1987 [2021-10-16]. ISBN 978-0-931464-26-3. OCLC 14588192. (原始内容存档于2021-10-19) (英语).  已忽略未知参数|lastt3= (帮助); Authors list列表中的|first3=缺少|last3= (帮助)
  7. ^ Dukes, Kais; Atwell, Eric; Habash, Nizar. Supervised collaboration for syntactic annotation of Quranic Arabic. Language Resources and Evaluation. 2013-03, 47 (1): 33–62. ISSN 1574-020X. doi:10.1007/s10579-011-9167-7 (英语). 
  8. ^ Wallis, S. and Nelson G. 'Knowledge discovery in grammatically analysed corpora'. Data Mining and Knowledge Discovery , 5 : 307–340. 2001.

参考文献

期刊

致力于语料库语言学的国际同行评审期刊

书籍

语料库语言学领域丛书
  • Language and Computers
  • English Corpus Linguistics(页面存档备份,存于互联网档案馆
其他书籍
  • Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
  • McCarthy, D., and Sampson G. Corpus Linguistics: Readings in a Widening Discipline , Continuum, 2005. ISBN 0-8264-8803-X
  • Facchinetti, R. Theoretical Description and Practical Applications of Linguistic Corpora . Verona: QuiEdit, 2007. ISBN 978-88-89480-37-3
  • Facchinetti, R. (ed.) Corpus Linguistics 25 Years on. New York/Amsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
  • Facchinetti, R. and Rissanen M. (eds.) Corpus-based Studies of Diachronic English . Bern: Peter Lang, 2006. ISBN 3-03910-851-4

参见

外部链接

  • Bookmarks for Corpus-based Linguists – very comprehensive site with categorized and annotated links to language corpora, software, references, etc.(页面存档备份,存于互联网档案馆
  • Freely-available, web-based corpora (100 million – 400 million words each): American (COCA, COHA), British (BNC), TIME, Spanish, Portuguese(页面存档备份,存于互联网档案馆
  • Manuel Barbera's overview site(页面存档备份,存于互联网档案馆
  • AskOxford.com(页面存档备份,存于互联网档案馆the composition and use of the Oxford Corpus
  • DMCBC.com* Datum Multilanguage Corpora Based on chinese free sample downloadArchive.is的存檔,存档日期2012-12-08
  • Corpus4u Community(页面存档备份,存于互联网档案馆) a Chinese online forum for corpus linguistics
  • McEnery and Wilson's Corpus Linguistics Page(页面存档备份,存于互联网档案馆
  • Corpus Linguistics with R mailing list(页面存档备份,存于互联网档案馆
  • Research and Development Unit for English Studies(页面存档备份,存于互联网档案馆
  • Survey of English Usage(页面存档备份,存于互联网档案馆
  • The Centre for Corpus Linguistics at Birmingham University(页面存档备份,存于互联网档案馆
  • Gateway to Corpus Linguistics on the Internet(页面存档备份,存于互联网档案馆): an annotated guide to corpus resources on the web
  • , a major distributor of corpora
  • Penn Parsed Corpora of Historical English(页面存档备份,存于互联网档案馆
  • Corsis(页面存档备份,存于互联网档案馆): (formerly Tenka Text) an open-source (GPLed) corpus analysis tool written in C#
  • ICECUP(页面存档备份,存于互联网档案馆) and Fuzzy Tree Fragments(页面存档备份,存于互联网档案馆
  • Research and Development Unit for English Studies(页面存档备份,存于互联网档案馆
  • Corpus of Political Speeches(页面存档备份,存于互联网档案馆),可搜尋美國、香港、台灣及中國的演講稿,由香港浸會大學圖書館提供(页面存档备份,存于互联网档案馆

语料库语言学, 英語, corpus, linguistics, 是基于语言运用的实例, 即语料库, 的语言研究, 可以对自然语言进行语法与句法分析, 还可以研究它与其他语言的关系, 语料库最初由手工完成, 而现在主要是由电子计算机自动完成, 家相信, 可靠的语言分析需建立在新鲜的语料, 自然的语言环境, 和最小的实验干扰之上, 在中, 语料标注的意义众说纷纭, 从约翰, 辛克莱, john, mchardy, sinclair, 主张最少量的标注, 并允许文本, 为自己说话, 英语用法调查组, 设在伦敦大学学院,. 语料库语言学 英語 corpus linguistics 是基于语言运用的实例 即语料库 的语言研究 语料库语言学可以对自然语言进行语法与句法分析 还可以研究它与其他语言的关系 语料库最初由手工完成 而现在主要是由电子计算机自动完成 语料库语言学家相信 可靠的语言分析需建立在新鲜的语料 自然的语言环境 和最小的实验干扰之上 在语料库语言学中 语料标注的意义众说纷纭 从约翰 辛克莱 John McHardy Sinclair 1 主张最少量的标注 并允许文本 为自己说话 到 英语用法调查组 设在伦敦大学学院 2 鼓励更多的标注 并认为它是通向更完备和严谨的语言理解的道路 目录 1 历史 2 方法 2 1 註釋 3 参考文献 3 1 期刊 3 2 书籍 4 参见 5 外部链接历史 编辑现代语料库语言学的一个里程碑是亨利 库切拉 英语 Henry Kucera 和W 纳尔逊弗朗西斯在1967年出版的 当代美语的计算分析 Computational Analysis of Present Day American English 一书 该项工作基于对布朗语料库 英语 Brown Corpus 的分析 布朗语料库是一个精心编制的美国英语语料库 规模约有一百万词次 库切拉和弗朗西斯将这些语料用于各种计算分析 获得了丰富 和多样化的成果 该成果结合了语言学 语言教 心理学 统计学 和社会学元素 另一关键出版物是1960年伦道夫 夸克 英语 Randolph Quirk 的 当代英语语法 Towards a description of English Usage 3 在这本书中他介绍了 英语用法调查 项目 The Survey of English Usage 此后不久 波士顿出版商霍顿 米夫林 英语 Houghton Mifflin Harcourt 邀请库切拉为其新的美国传统英语字典提供百万词次 三线引文的来进行词典编纂 美国传统英语字典 创新地将规定性元素 应如何使用语言 和描述性元素 语言实际上是如何被使用 结合在了一起 其他出版社纷纷效仿 英国出版商柯林斯COBUILD单语学习词典 就是为非英语母语者学习英语而出版的 它使用了 英语银行 Bank of English 语料库 英语用法调查 语料库被用于由夸克等人编著的 综合英语语法 A Comprehensive Grammar of the English Language 中 布朗语料库也催生了类似的语料库 LOB语料库 Lancaster Oslo Bergen Corpus 20世纪60年代英国英语 科尔哈帕 Kolhapur 印度英语 惠灵顿 Wellington 新西兰英语 澳大利亚英语语料库 Australian Corpus of English 澳大利亚英语 皱眉语料库 Frown Corpus 20世纪90年代初 美国英语 以及FLOB语料库 FLOB Corpus 20世纪90年代 英国英语 其他语料库包括国际英语语料库 International Corpus of English 和英国国家语料库 British National Corpus 收集了1亿词次的口头和书面语料 在20世纪90年代时由出版商 牛津大学 兰卡斯特大学和大英图书馆创建 至于说到当代的美国英语 现已有了美国国家语料库 英語 American National Corpus 以及可以在线访问的4亿多词次的美国当代英语语料库 英語 Corpus of Contemporary American English 1990年创建 第一个电脑转录口语语料库 建于1971年蒙特利尔法语项目 Montreal French Project 4 有一亿词次 这一项目还启发了夏娜 帕普拉克 Shana Poplack 建立了规模更大的渥太华 赫尔地区法语口语语料库 英語 Corpus of spoken French in the Ottawa Hull area 5 语料库除了收集现存语言 也收集古代语言 比如20世纪70年代建立的希伯来文圣经的安徒生福布斯数据库 英語 Andersen Forbes database of the Hebrew Bible 数据库的每个子句的语法分析都使用了多达七级语构的图表 每一部分都标注了七个方面的信息 6 古兰经阿拉伯语语料库 英語 Quranic Arabic Corpus 是古典的阿拉伯文 古兰经 的标注语料库 它包含多层次的标注 包括形态分割 词性标注 以及使用依存语法进行的句法分析 7 方法 编辑语料库语言学已经有了一大批研究方法 这些研究方法都试图找到从数据到理论的解决方案 瓦利斯和尼尔森 8 最先介绍了他们的3A观点 英語 3A perspective 注释 英語 Annotation 抽象 英語 Abstraction 和分析 英語 Analysis 注释 包括语料的数据库方案 注释可能包括结构标注 词性标注 句法分析和其他形式 抽象 包括该方案在理论上的启发式模型或数据集中的翻译 映射 抽象通常包括面向语言学家的定向搜索 但也可能包括句法研究者的句法规则学习 分析 包括统计学探测 操纵和对数据集的归纳概括 分析可能包括统计学评估 规则库优化和知识探索方法 如今大多数词汇语料库采用词性标注 英語 part of speech tagged 然而 即使是采用未标注语料的语料库语言学家也无疑会使用一些方法来从句子中隔离出他们感兴趣的词 在这种情况下 注释和抽象在词汇搜素中结合起来了 发布标注语料库的优点是其他用户可以在语料库中进行研究与实验 语言学家与其他相关人士就可以利用语料库来工作了 通过数据共享 语料库语言学家能将语料库视为语言探讨的核心 而不是知识的源泉 註釋 编辑 Sinclair J The automatic analysis of corpora in Svartvik J ed Directions in Corpus Linguistics Proceedings of Nobel Symposium 82 Berlin Mouton de Gruyter 1992 Meurman Solin Anneli Nurmi Arja Annotation Retrieval and Experimentation Annotating Variation and Change Helsinki Research Unit for Variation Contacts and Change in English VARIENG University of Helsinki 2007 2021 10 16 OCLC 780136367 原始内容存档于2021 10 19 英语 author 和 last 只需其一 帮助 Quirk R Towards a description of English Usage Transactions of the Philological Society 1960 40 61 Darnell Regna Canadian languages in their social context Carbondale Linguistic Research 1979 2021 10 16 ISBN 978 0 88783 003 7 OCLC 257958435 原始内容存档于2021 10 19 英语 author 和 last 只需其一 帮助 Poplack S The care and handling of a mega corpus In Fasold R amp Schiffrin D eds Language Change and Variation Amsterdam Benjamins 1989 411 451 Andersen Francis I Conrad Edgar W Perspectives on language and text essays and poems in honor of Francis I Andersen s sixtieth birthday July 28 1985 Winona Lake Ind Eisenbrauns 1987 2021 10 16 ISBN 978 0 931464 26 3 OCLC 14588192 原始内容存档于2021 10 19 英语 已忽略未知参数 lastt3 帮助 Authors list列表中的 first3 缺少 last3 帮助 Dukes Kais Atwell Eric Habash Nizar Supervised collaboration for syntactic annotation of Quranic Arabic Language Resources and Evaluation 2013 03 47 1 33 62 ISSN 1574 020X doi 10 1007 s10579 011 9167 7 英语 Wallis S and Nelson G Knowledge discovery in grammatically analysed corpora Data Mining and Knowledge Discovery 5 307 340 2001 参考文献 编辑期刊 编辑 致力于语料库语言学的国际同行评审期刊Corpora 页面存档备份 存于互联网档案馆 Corpus Linguistics and Linguistic Theory 页面存档备份 存于互联网档案馆 ICAME Journal 页面存档备份 存于互联网档案馆 International Journal of Corpus Linguistics 页面存档备份 存于互联网档案馆 书籍 编辑 语料库语言学领域丛书Language and Computers Studies in Corpus Linguistics English Corpus Linguistics 页面存档备份 存于互联网档案馆 其他书籍Biber D Conrad S Reppen R Corpus Linguistics Investigating Language Structure and Use Cambridge Cambridge UP 1998 ISBN 0 521 49957 7 McCarthy D and Sampson G Corpus Linguistics Readings in a Widening Discipline Continuum 2005 ISBN 0 8264 8803 X Facchinetti R Theoretical Description and Practical Applications of Linguistic Corpora Verona QuiEdit 2007 ISBN 978 88 89480 37 3 Facchinetti R ed Corpus Linguistics 25 Years on New York Amsterdam Rodopi 2007 ISBN 978 90 420 2195 2 Facchinetti R and Rissanen M eds Corpus based Studies of Diachronic English Bern Peter Lang 2006 ISBN 3 03910 851 4参见 编辑 语言学主题 词语搭配 机器翻译 语料库 翻译记忆外部链接 编辑Bookmarks for Corpus based Linguists very comprehensive site with categorized and annotated links to language corpora software references etc 页面存档备份 存于互联网档案馆 Corpora discussion list Freely available web based corpora 100 million 400 million words each American COCA COHA British BNC TIME Spanish Portuguese 页面存档备份 存于互联网档案馆 Manuel Barbera s overview site 页面存档备份 存于互联网档案馆 Przemek Kaszubski s list of references AskOxford com 页面存档备份 存于互联网档案馆 the composition and use of the Oxford Corpus DMCBC com Datum Multilanguage Corpora Based on chinese free sample downloadArchive is的存檔 存档日期2012 12 08 Corpus4u Community 页面存档备份 存于互联网档案馆 a Chinese online forum for corpus linguistics McEnery and Wilson s Corpus Linguistics Page 页面存档备份 存于互联网档案馆 Corpus Linguistics with R mailing list 页面存档备份 存于互联网档案馆 Research and Development Unit for English Studies 页面存档备份 存于互联网档案馆 Survey of English Usage 页面存档备份 存于互联网档案馆 The Centre for Corpus Linguistics at Birmingham University 页面存档备份 存于互联网档案馆 Gateway to Corpus Linguistics on the Internet 页面存档备份 存于互联网档案馆 an annotated guide to corpus resources on the web Biomedical corpora Linguistic Data Consortium a major distributor of corpora Penn Parsed Corpora of Historical English 页面存档备份 存于互联网档案馆 Corsis 页面存档备份 存于互联网档案馆 formerly Tenka Text an open source GPLed corpus analysis tool written in C ICECUP 页面存档备份 存于互联网档案馆 and Fuzzy Tree Fragments 页面存档备份 存于互联网档案馆 Research and Development Unit for English Studies 页面存档备份 存于互联网档案馆 Discussion group text mining Corpus of Political Speeches 页面存档备份 存于互联网档案馆 可搜尋美國 香港 台灣及中國的演講稿 由香港浸會大學圖書館提供 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 语料库语言学 amp oldid 72846718, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。