fbpx
维基百科

语料库

语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。

根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。[1]

語料庫列表 编辑

多語 编辑

  • 点通多语言语音語料庫
  • 賓州大學語料庫(页面存档备份,存于互联网档案馆
  • 绍兴文理学院--中国汉英平行语料大世界 (页面存档备份,存于互联网档案馆) 中英平行文本双语语料库

英语 编辑

汉语 编辑

繁體中文 编辑

簡體中文 编辑

日语 编辑

研究机构 编辑

外部連結 编辑

  • Free, web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese(页面存档备份,存于互联网档案馆
  • 开放式目录计划中和Computational Linguistics相关的内容
  • The Leipzig Glossing Rules(页面存档备份,存于互联网档案馆): Conventions for interlinear morpheme-by-morpheme glosses
  • Developing Linguistic Corpora: a Guide to Good PracticeArchive.is的存檔,存档日期2012-12-22
  • An interface for querying automatically-constructed virtual corpora[失效連結].
  • .
  • Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
  • TS Corpus - A Turkish Corpus freely available for academic research.(页面存档备份,存于互联网档案馆
  • Turkish National Corpus - A general-purpose corpus for contemporary Turkish(页面存档备份,存于互联网档案馆
  • Free web-based English corpus to download (3 billion words)(页面存档备份,存于互联网档案馆

参考文献 编辑

  1. ^ 狐狸等间隔. 日语语料库超入门. 微信公众平台. [2022-12-20]. (原始内容于2022-12-20). 

语料库, 一詞在語言學上意指大量的文本, 通常經過整理, 具有既定格式與標記, 根据的特征, 可以分为单语, 双语, 平行等, 根据语料的来源, 可以分为书面语, 口语, 作文, 学习者, 古文书等, 目录, 語料庫列表, 多語, 英语, 汉语, 繁體中文, 簡體中文, 日语, 研究机构, 外部連結, 参考文献語料庫列表, 编辑多語, 编辑, 点通多语言语音語料庫, 賓州大學語料庫, 页面存档备份, 存于互联网档案馆, wikipedia, 語料庫, 绍兴文理学院, 中国汉英平行语料大世界, 页面存档备份, 存于互. 语料库一詞在語言學上意指大量的文本 通常經過整理 具有既定格式與標記 根据语料库的特征 可以分为单语语料库 双语语料库 平行语料库等 根据语料的来源 可以分为书面语语料库 口语语料库 作文语料库 学习者语料库 古文书语料库等 1 目录 1 語料庫列表 1 1 多語 1 2 英语 1 3 汉语 1 3 1 繁體中文 1 3 2 簡體中文 1 4 日语 2 研究机构 3 外部連結 4 参考文献語料庫列表 编辑多語 编辑 点通多语言语音語料庫 賓州大學語料庫 页面存档备份 存于互联网档案馆 Wikipedia XML 語料庫 绍兴文理学院 中国汉英平行语料大世界 页面存档备份 存于互联网档案馆 中英平行文本双语语料库 英语 编辑 https www english corpora org 页面存档备份 存于互联网档案馆 The Collins Corpus 页面存档备份 存于互联网档案馆 Collin s Cobuild Project 成果 Collin s當代英語辭典 及當代英語文法 Corpus of Political Speeches 页面存档备份 存于互联网档案馆 香港浸會大學圖書館 页面存档备份 存于互联网档案馆 提供 汉语 编辑 LIVAC漢語共時語料庫 页面存档备份 存于互联网档案馆 兰开斯特大学汉语平衡语料库 页面存档备份 存于互联网档案馆 兰开斯特 洛杉矶汉语口语语料库 页面存档备份 存于互联网档案馆 政治人物演講語料庫 页面存档备份 存于互联网档案馆 香港浸會大學圖書館 页面存档备份 存于互联网档案馆 提供 繁體中文 编辑 臺灣華語文語料庫 页面存档备份 存于互联网档案馆 中央研究院漢語平衡語料庫 页面存档备份 存于互联网档案馆 簡體中文 编辑 國家語委現代漢語語料庫 页面存档备份 存于互联网档案馆 北京大學語料庫 页面存档备份 存于互联网档案馆 語料庫語言學在線 页面存档备份 存于互联网档案馆 日语 编辑 现代日语书面语均衡语料库BCCWJ 页面存档备份 存于互联网档案馆 日语口语词汇语料库CSJ 页面存档备份 存于互联网档案馆 筑波网络语料库TWC 页面存档备份 存于互联网档案馆 研究机构 编辑上海外国语大学语料库研究院 日本国立国语研究所 等外部連結 编辑Free web based corpora 45 425 million words each American COCA COHA TIME British BNC Spanish Portuguese 页面存档备份 存于互联网档案馆 开放式目录计划中和Computational Linguistics相关的内容 ACL SIGLEX Resource Links Text Corpora The Leipzig Glossing Rules 页面存档备份 存于互联网档案馆 Conventions for interlinear morpheme by morpheme glosses Developing Linguistic Corpora a Guide to Good PracticeArchive is的存檔 存档日期2012 12 22 An interface for querying automatically constructed virtual corpora 失效連結 TEP Tehran English Persian Parallel Corpus 1 Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University TS Corpus A Turkish Corpus freely available for academic research 页面存档备份 存于互联网档案馆 Turkish National Corpus A general purpose corpus for contemporary Turkish 页面存档备份 存于互联网档案馆 Free web based English corpus to download 3 billion words 页面存档备份 存于互联网档案馆 参考文献 编辑 狐狸等间隔 日语语料库超入门 微信公众平台 2022 12 20 原始内容存档于2022 12 20 取自 https zh wikipedia org w index php title 语料库 amp oldid 79223786, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。