fbpx
维基百科

BookCorpus

BookCorpus (也称Toronto Book Corpus )是一个数据集,包含互联网上收集的约 11,000 本未出版书籍的文本。它是用于训练OpenAIGPT初始版本的主要语料库[1],并用作包括谷歌的BERT[2]在内的,其他早期大型语言模型的训练数据。 该数据集包含约 9.85 亿单词,涵盖了多种类型的书籍,包括浪漫小说、科幻小说和奇幻小说。

多伦多大学麻省理工学院的研究人员在 2015 年的一篇题为“Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books”的论文中介绍了该语料库。作者将其描述为“由尚未出版的作者撰写的免费书籍”[3][4]。 该数据集起初托管在多伦多大学的网页上。 原始数据集不再公开,但多伦多大学创建了一个镜像版本 BookCorpusOpen。 虽然在 2015 年的原始论文中没有记录这个网站,但现在已知的删除语料库书籍的网站是Smashwords 。

参考 编辑

  1. ^ BookCorpus. Wikipedia. 2023-03-22 [2023-03-25]. (原始内容于2023-03-25) (英语). 
  2. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs]. 2019-05-24 [2023-03-25]. (原始内容于2023-07-09). 
  3. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. 2015 [2023-03-25]. (原始内容于2023-02-05). 
  4. ^ Lea, Richard. Google swallows 11,000 novels to improve AI's conversation. The Guardian. 2016-09-28 [2023-03-25]. ISSN 0261-3077. (原始内容于2023-03-25) (英国英语). 

bookcorpus, 也称toronto, book, corpus, 是一个数据集, 包含互联网上收集的约, 本未出版书籍的文本, 它是用于训练openai的gpt初始版本的主要语料库, 并用作包括谷歌的bert, 在内的, 其他早期大型语言模型的训练数据, 该数据集包含约, 亿单词, 涵盖了多种类型的书籍, 包括浪漫小说, 科幻小说和奇幻小说, 多伦多大学和麻省理工学院的研究人员在, 2015, 年的一篇题为, aligning, books, movies, towards, story, like, vi. BookCorpus 也称Toronto Book Corpus 是一个数据集 包含互联网上收集的约 11 000 本未出版书籍的文本 它是用于训练OpenAI的GPT初始版本的主要语料库 1 并用作包括谷歌的BERT 2 在内的 其他早期大型语言模型的训练数据 该数据集包含约 9 85 亿单词 涵盖了多种类型的书籍 包括浪漫小说 科幻小说和奇幻小说 多伦多大学和麻省理工学院的研究人员在 2015 年的一篇题为 Aligning Books and Movies Towards Story like Visual Explanations by Watching Movies and Reading Books 的论文中介绍了该语料库 作者将其描述为 由尚未出版的作者撰写的免费书籍 3 4 该数据集起初托管在多伦多大学的网页上 原始数据集不再公开 但多伦多大学创建了一个镜像版本 BookCorpusOpen 虽然在 2015 年的原始论文中没有记录这个网站 但现在已知的删除语料库书籍的网站是Smashwords 参考 编辑 BookCorpus Wikipedia 2023 03 22 2023 03 25 原始内容存档于2023 03 25 英语 Devlin Jacob Chang Ming Wei Lee Kenton Toutanova Kristina BERT Pre training of Deep Bidirectional Transformers for Language Understanding arXiv 1810 04805 cs 2019 05 24 2023 03 25 原始内容存档于2023 07 09 Zhu Yukun Kiros Ryan Zemel Rich Salakhutdinov Ruslan Urtasun Raquel Torralba Antonio Fidler Sanja Aligning Books and Movies Towards Story Like Visual Explanations by Watching Movies and Reading Books 2015 2023 03 25 原始内容存档于2023 02 05 Lea Richard Google swallows 11 000 novels to improve AI s conversation The Guardian 2016 09 28 2023 03 25 ISSN 0261 3077 原始内容存档于2023 03 25 英国英语 取自 https zh wikipedia org w index php title BookCorpus amp oldid 78678602, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。