fbpx
维基百科

悟道预训练模型

悟道预训练模型是由北京智源人工智能研究院发起的超大规模预训练模型研究项目,于2020年10月正式启动,旨在以原始创新为基础实现预训练技术的突破,填补以中文为核心预训练大模型的空白,探索通向通用人工智能的实现路径。项目组建来自清华大学北京大学、中国科学院计算技术研究所、中国人民大学等顶尖AI科学家团队超过100人,共同进行“悟道”预训练模型的研发工作。

2021年6月,悟道项目在北京智源大会发布2.0版本科研成果,其中包括1.75万亿参数的全球最大通用预训练模型和其它一系列模型、算法、应用突破,将中国预训练模型推向新高度。

同时,为了促进预训练成果的共享应用,“悟道”项目将包括模型、算法、工具、API和数据的系列科研成果在悟道官方平台[1]进行开源开放。

概况 编辑

“悟道”项目的框架由底层支撑、模型研发和上层应用三部分组成,其中,底层支撑包括智源的“大数据”与“大算力”平台,提供大模型研发所需的基本资源条件;在模型研发层面,研究团队以赋予机器认知能力为核心,打造数据与知识双轮驱动的智能模型,使其能够像人一样“思考”;而在上层建设中,智源研究院以悟道应用平台为依托,借助“悟道”通用大模型赋能多种AI应用场景。由此,“悟道”项目形成了一个完整的框架体系,能够支持科研团队有条不紊地投入到预训练大模型的研发当中。斯坦福大学教授吴恩达这样评价“悟道”:“悟道”彰显出中国在人工智能领域日益增长的信心和研发实力,可能会对人们未来构建的人工智能系统类型和部署系统的方式产生深远影响。

背景 编辑

预训练技术最早被应用于计算机视觉领域,自2015年开始在视觉领域被广泛应用,比如,开发者可以在庞大的ImageNet图像数据上对模型进行预训练,然后针对不同的任务对较小的数据进行进一步的微调。2017年,Google首次提出了Transformer模型,该模型使用编码器(Encoder)和解码器(Decoder)的整体架构,成为自然语言处理领域的基础预训练模型。Transformer模型的出现是自然语言处理领域里程碑式突破,使得自然语言处理领域各项任务性能得到极大提升。 在Transformer模型的基础上,Google人工智能研究院在2018年10月进一步提出一个基于掩码的预训练模型BERT,模型在超过11个自然语言处理任务上获得了效果突破。2020年5月,OpenAI发布了具有1750亿参数的超大规模预训练模型GPT-3,并且在多个类型的下游自然语言任务上无需微调即可表现优异,引发了预训练大模型的研发浪潮。2021年1月,Google Brain构建了1个基于简化稀疏架构的预训练模型Switch Transformer,将语言模型的参数量扩展至 1.6 万亿规模。在智源悟道1.75万亿模型出现之前,Switch Transformer是之前全球规模最大的自然语言处理预训练模型。

Model 编辑

“悟道”项目在多个领域开展研究工作,研发了一系列大规模预训练模型,包括:

通用模型 编辑

悟道万亿模型 编辑

中国首个、全球最大双语跨模态万亿大规模预训练模型,参数规模达到1.75万亿,是GPT-3模型的10倍。万亿通用模型融合自研的GLM语言预训练框架和Cogview图文预训练框架,同时基于自主研发的“万亿AI模型基石”FastMoE2.0高性能系统,在包括WudaoCorpora在内的总量4.9TB清洗过的高质量数据集上进行训练,能够支持图文生成、图文检索、文本生成、文本理解等中英双语多模态任务类型。

多模态 编辑

Brivl 模型[2] 编辑

全球首个基于图文弱相关假设的中英文多模态双塔模型,参数规模达到53亿。BriVL模型的训练数据含6.5亿图文对,远超OpenAI CLIP的近2倍。在公平比较的条件下,BriVL模型在ImageNet和MSCOCO图文检索任务上超过最好的英文双塔模型OpenAI CLIP和Google ALIGN。

多模态多语言预训练模型 编辑

参数规模达到10亿,全球体量最大的多模态多语言预训练模型。模型涵盖中、英、法、德、捷克、日、韩7种语言,在MSCOCO和 Multi30K上的多语言图文检索任务上取得最优效果。

Cogview[3] 编辑

世界上最大的中文多模态生成模型,参数量为40亿。模型支持文生成图为基础的多领域下游任务,在应用维度上具备通用性。经过翻译后,CogView在公认的MS COCO 文生图任务数据集上取得了超过DALL· E的优异效果,获得世界第一。

文本 编辑

CPM[4] 编辑

基于Encoder-Decoder架构的中英双语大规模预训练模型,稠密模型参数达到100亿。通过MoE技术将模型参数规模放大到1000亿,获得进一步的性能提升。模型支持文本生成等一系列自然语言处理任务。

GLM[5] 编辑

大规模英文文本通用(多任务)预训练模型,该通用模型参数量达到100亿,更通用的预训练模型,首次打破BERT和GPT壁垒,开创性地以单一模型兼容所有主流架构,兼顾理解与生成能力。

Transformer XL 编辑

基于Transformer-XL训练的以中文为核心的预训练语言生成模型,参数规模为29亿,可支持包括文章生成、智能作诗、评论/摘要生成等主流NLG任务。

Lawformer 编辑

世界首个法律领域长文本中文预训练模型,参数规模达到1亿。

蛋白质 编辑

Prottrans 编辑

国内最大的蛋白质预训练模型,参数总量达到30亿,远远超过3800万的基线模型。模型支持接触预测、蛋白质折叠、二级结构预测等多个生物分子领域的任务。同时,模型相较于基线模型,在上述任务上都取得了大幅的效果提升。

生态建设 编辑

2021年6月,"悟道"已与包括阿里巴巴小米美团快手360新华社在内的23家产业单位达成战略合作意向,就悟道预训练大模型进行产业应用合作,从底层数据资源、中层模型研发到上层AI应用推进产业应用生态的建设,从单点突破提升至全方位突破。

同时,为了促进大模型最新研发成果的开放共享,“悟道”项目在悟道官方平台 [9] 开放了一系列模型、算法、工具、API以及数据集。具体表单如下:

悟道开源成果列表
类别 名称 描述
模型 CPM 兼顾理解与生成能力的预训练语言模型系列,涵盖中文、中英双语多类模型,模型参数有26亿、110亿和1980亿。
模型 GLM 以英文为核心的预训练语言模型系列,有1.1亿、3.35亿、4.10亿、5.15亿、100亿参数规模的模型。
模型 Transformer-XL 可完成多种中文生成任务的29亿参数中文预训练模型
模型 Lawformer 1亿参数法律预训练模型
模型 CogView 40亿参数多模态生成模型,分为文生图、图生文和超分辨率三个版本
模型 ProtTrans 30亿参数量的蛋白质预训练模型
算法 P-tuning[6] 世界首个基于检索的半监督少样本微调算法
算法 Inverse Prompting[7] 提升文本生成任务的可控性和相关性,让回答和问题关联性更强,即更好地利用 Prompt 的信息来控制所生成的内容。
工具 FastMoE[8] 首个支持国产超算和GPU的高性能MoE系统,支持Switch,Gshard等复杂均衡策略。
工具 预训练知识继承 世界首个大规模预训练融合框架-缩短大模型近50%前期训练时间。
工具 InfMoE 世界首个低资源大模型推理系统,单卡GPU可以进行千亿规模模型的推理。
工具 TDS 用于支持高效训练,可同时支持数据/模型/流水并行、ZeRO和混合加速。
API 图向量 获取图像的特征向量
API 文本向量 获取文本的特征向量
API 快速作诗 根据标题等信息快速生成诗词
API 快速新闻生成 可快速形成新闻草稿,提升效率
API 知识图谱构建 通用知识图谱构建关系抽取
数据集 WuDaoCorpora[9] 开放200G中文文本数据集


评论 编辑

  • 2021年6月,CCTV新闻频道评论悟道大模型发布:“大模型对于人工智能发展具有重要意义,未来将可能基于大模型形成变革性的AI产业基础设施”。
  • 2021年6月,环球时报发表专题评论文章,表示悟道项目的最新成果发布是“成为全球人工智能领导者雄心壮志的最新信号”。
  • 2021年6月,科技资讯网站PingWest在悟道发布后发表文章评论:“BAAI和OpenAI都以基础研究为目标,这些基础研究有可能显著提高深度学习技术的性能,从而增强以前无法想象的新体验。
  • 2021年6月,新闻网站Explica.co评论“悟道”项目:“悟道的重要意义是知道如何扩展模型并有能力这样做”。
  • 对于悟道项目的成果发布,Facebook AI工程师Elvis Saravia表示:“悟道万亿模型是GPT-3的10倍,非常期待模型可以取得超过人类水准的表现”。
  • Nervana联合创始人Naveen Ra在了解悟道成果发布后表示:“悟道团队做出了一些非常有趣的工作”,并且认为悟道是一个法律层面合规的研究项目。
  • 《The Master Algorithm》作者Pedro Domingos对于悟道万亿模型的超大参数规模表示:“也许是时候用度量前缀表示深度学习网络参数规模了”。

应用[10] 编辑

  • 作诗:模型的文字创作能力使其支持对各种给定的题目创作出媲美诗人的精美诗歌,同时有作藏头诗的功能。
  • 人设问答:模型支持模拟和扮演不同人设,从而对问题给出多角度回答。
  • 看图说话:模型描述用户上传图片中的细节与精彩。
  • 图文问答:对给定图片提出问题,模型为你精准解答。
  • 图片生成:模型根据用户文字描述自动生成图片。
  • 图灵测试:包括作诗、对联、标题生成、问答、策论、绘图、识图8项图灵测试

文献 编辑

  1. ^ 存档副本. [2021-07-07]. (原始内容于2021-07-09). 
  2. ^ Y. Huo, M. Zhang, G. Liu, H. Lu, Y. Gao, G. Yang, J. Wen, H. Zhang, B. Xu, W. Zheng, Z. Xi, Y. Yang, A. Hu, J. Zhao, R. Li, Y. Zhao, L. Zhang, Y. Song, X. Hong, W. Cui, D. Hou, Y. Li, J. Li, P. Liu, Z. Gong, C. Jin, Y. Sun, S. Chen, Z. Lu, Z. Dou, Q. Jin, Y. Lan, W. Zhao, R. Song, and J. Wen. Wenlan: Bridging vision and language by largescale multi-modal pre-training. arXiv:2103.06561,2021. https://arxiv.org/abs/2103.06561 (页面存档备份,存于互联网档案馆
  3. ^ M. Ding, Z. Yang, W. Hong, W. Zheng, C. Zhou, D. Yin, J. Lin, X. Zou, Z. Shao, H. Yang, and J. Tang. CogView: Mastering Text-to-Image Generation via Transformers. arXiv:2105.13290, 2021. https://arxiv.org/abs/2105.13290 (页面存档备份,存于互联网档案馆
  4. ^ Z. Zhang, X. Han, H. Zhou, P. Ke, Y. Gu, D. Ye, Y. Qin, Y. Su, H. Ji, J. Guan, F. Qi, X. Wang, Y. Zheng, G. Zeng, H. Cao, S. Chen, D. Li, Z. Sun, Z. Liu, M. Huang, W. Han, J. Tang, J. Li, X. Zhu, and M. Sun. CPM: A Large-scale Generative Chinese Pre-trained Language Model. arXiv:2012.00413,2020. https://arxiv.org/abs/2012.00413 (页面存档备份,存于互联网档案馆
  5. ^ Z. Du, Y. Qian, X. Liu, M. Ding, J. Qiu, Z. Yang, and J. Tang. All nlp tasks are generation tasks: A general pretraining framework. arXiv:abs/2103.10360, 2021. https://arxiv.org/abs/2103.10360 (页面存档备份,存于互联网档案馆
  6. ^ X. Liu, Y. Zheng, Z. Du, M. Ding, Y. Qian, Z. Yang, and J. Tang. Gpt understands, too. arXiv:2103.10385, 2021. https://arxiv.org/abs/2103.10385 (页面存档备份,存于互联网档案馆
  7. ^ X. Zou, D. Yin, Q. Zhong, H. Yang, Z. Yang, and J. Tang. Controllable generation from pre-trained language models via inverse prompting. arXiv:2103.10685, 2021. https://arxiv.org/abs/2103.10685 (页面存档备份,存于互联网档案馆
  8. ^ J. He, J. Qiu, A. Zeng, Z. Yang, J. Zhai, and J. Tang. Fastmoe: A fast mixture-of-expert training system. CoRR:abs/2103.13262, 2021. https://arxiv.org/abs/2103.13262 (页面存档备份,存于互联网档案馆
  9. ^ S. Yuan, H. Zhao, Z. Du, M. Ding, X. Liu, Y. Cen, X. Zou, Z. Yang, and J. Tang. Wudaocorpora: A super large-scale chinese corpora for pre-training language models. AI Open, 2021, 2:65-68 https://www.sciencedirect.com/science/article/pii/S2666651021000152 (页面存档备份,存于互联网档案馆
  10. ^ 悟道应用平台 https://pretrain.aminer.cn/ (页面存档备份,存于互联网档案馆

悟道预训练模型, 本條目存在以下問題, 請協助改善本條目或在討論頁針對議題發表看法, 此條目閱讀起來类似新聞稿, 或包含過度的宣傳性語調, 2021年7月18日, 請協助以中立的觀點來撰寫本條目, 非常明显的广告内容请加入, href, template, delete, html, title, template, delete, delete, 來提请删除, 此條目或其章節极大或完全地依赖于某个单一的来源, 2021年7月18日, 请协助補充多方面可靠来源以改善这篇条目, 致使用者, 请搜索一下条目的标题, 来. 本條目存在以下問題 請協助改善本條目或在討論頁針對議題發表看法 此條目閱讀起來类似新聞稿 或包含過度的宣傳性語調 2021年7月18日 請協助以中立的觀點來撰寫本條目 非常明显的广告内容请加入 a href Template Delete html title Template Delete Delete a G11 來提请删除 此條目或其章節极大或完全地依赖于某个单一的来源 2021年7月18日 请协助補充多方面可靠来源以改善这篇条目 致使用者 请搜索一下条目的标题 来源搜索 悟道预训练模型 网页 新闻 书籍 学术 图像 以检查网络上是否存在该主题的更多可靠来源 判定指引 此條目可能包含原创研究 2021年7月18日 请协助補充参考资料 添加相关内联标签和删除原创研究内容以改善这篇条目 详细情况请参见讨论页 此條目的引用需要进行清理 使其符合格式 2021年7月18日 参考文献应符合正确的引用 脚注及外部链接格式 悟道预训练模型是由北京智源人工智能研究院发起的超大规模预训练模型研究项目 于2020年10月正式启动 旨在以原始创新为基础实现预训练技术的突破 填补以中文为核心预训练大模型的空白 探索通向通用人工智能的实现路径 项目组建来自清华大学 北京大学 中国科学院计算技术研究所 中国人民大学等顶尖AI科学家团队超过100人 共同进行 悟道 预训练模型的研发工作 2021年6月 悟道项目在北京智源大会发布2 0版本科研成果 其中包括1 75万亿参数的全球最大通用预训练模型和其它一系列模型 算法 应用突破 将中国预训练模型推向新高度 同时 为了促进预训练成果的共享应用 悟道 项目将包括模型 算法 工具 API和数据的系列科研成果在悟道官方平台 1 进行开源开放 目录 1 概况 2 背景 3 Model 3 1 通用模型 3 1 1 悟道万亿模型 3 2 多模态 3 2 1 Brivl 模型 2 3 2 2 多模态多语言预训练模型 3 2 3 Cogview 3 3 3 文本 3 3 1 CPM 4 3 3 2 GLM 5 3 3 3 Transformer XL 3 3 4 Lawformer 3 4 蛋白质 3 4 1 Prottrans 4 生态建设 5 评论 6 应用 10 7 文献概况 编辑 悟道 项目的框架由底层支撑 模型研发和上层应用三部分组成 其中 底层支撑包括智源的 大数据 与 大算力 平台 提供大模型研发所需的基本资源条件 在模型研发层面 研究团队以赋予机器认知能力为核心 打造数据与知识双轮驱动的智能模型 使其能够像人一样 思考 而在上层建设中 智源研究院以悟道应用平台为依托 借助 悟道 通用大模型赋能多种AI应用场景 由此 悟道 项目形成了一个完整的框架体系 能够支持科研团队有条不紊地投入到预训练大模型的研发当中 斯坦福大学教授吴恩达这样评价 悟道 悟道 彰显出中国在人工智能领域日益增长的信心和研发实力 可能会对人们未来构建的人工智能系统类型和部署系统的方式产生深远影响 背景 编辑预训练技术最早被应用于计算机视觉领域 自2015年开始在视觉领域被广泛应用 比如 开发者可以在庞大的ImageNet图像数据上对模型进行预训练 然后针对不同的任务对较小的数据进行进一步的微调 2017年 Google首次提出了Transformer模型 该模型使用编码器 Encoder 和解码器 Decoder 的整体架构 成为自然语言处理领域的基础预训练模型 Transformer模型的出现是自然语言处理领域里程碑式突破 使得自然语言处理领域各项任务性能得到极大提升 在Transformer模型的基础上 Google人工智能研究院在2018年10月进一步提出一个基于掩码的预训练模型BERT 模型在超过11个自然语言处理任务上获得了效果突破 2020年5月 OpenAI发布了具有1750亿参数的超大规模预训练模型GPT 3 并且在多个类型的下游自然语言任务上无需微调即可表现优异 引发了预训练大模型的研发浪潮 2021年1月 Google Brain构建了1个基于简化稀疏架构的预训练模型Switch Transformer 将语言模型的参数量扩展至 1 6 万亿规模 在智源悟道1 75万亿模型出现之前 Switch Transformer是之前全球规模最大的自然语言处理预训练模型 Model 编辑 悟道 项目在多个领域开展研究工作 研发了一系列大规模预训练模型 包括 通用模型 编辑 悟道万亿模型 编辑 中国首个 全球最大双语跨模态万亿大规模预训练模型 参数规模达到1 75万亿 是GPT 3模型的10倍 万亿通用模型融合自研的GLM语言预训练框架和Cogview图文预训练框架 同时基于自主研发的 万亿AI模型基石 FastMoE2 0高性能系统 在包括WudaoCorpora在内的总量4 9TB清洗过的高质量数据集上进行训练 能够支持图文生成 图文检索 文本生成 文本理解等中英双语多模态任务类型 多模态 编辑 Brivl 模型 2 编辑 全球首个基于图文弱相关假设的中英文多模态双塔模型 参数规模达到53亿 BriVL模型的训练数据含6 5亿图文对 远超OpenAI CLIP的近2倍 在公平比较的条件下 BriVL模型在ImageNet和MSCOCO图文检索任务上超过最好的英文双塔模型OpenAI CLIP和Google ALIGN 多模态多语言预训练模型 编辑 参数规模达到10亿 全球体量最大的多模态多语言预训练模型 模型涵盖中 英 法 德 捷克 日 韩7种语言 在MSCOCO和 Multi30K上的多语言图文检索任务上取得最优效果 Cogview 3 编辑 世界上最大的中文多模态生成模型 参数量为40亿 模型支持文生成图为基础的多领域下游任务 在应用维度上具备通用性 经过翻译后 CogView在公认的MS COCO 文生图任务数据集上取得了超过DALL E的优异效果 获得世界第一 文本 编辑 CPM 4 编辑 基于Encoder Decoder架构的中英双语大规模预训练模型 稠密模型参数达到100亿 通过MoE技术将模型参数规模放大到1000亿 获得进一步的性能提升 模型支持文本生成等一系列自然语言处理任务 GLM 5 编辑 大规模英文文本通用 多任务 预训练模型 该通用模型参数量达到100亿 更通用的预训练模型 首次打破BERT和GPT壁垒 开创性地以单一模型兼容所有主流架构 兼顾理解与生成能力 Transformer XL 编辑 基于Transformer XL训练的以中文为核心的预训练语言生成模型 参数规模为29亿 可支持包括文章生成 智能作诗 评论 摘要生成等主流NLG任务 Lawformer 编辑 世界首个法律领域长文本中文预训练模型 参数规模达到1亿 蛋白质 编辑 Prottrans 编辑 国内最大的蛋白质预训练模型 参数总量达到30亿 远远超过3800万的基线模型 模型支持接触预测 蛋白质折叠 二级结构预测等多个生物分子领域的任务 同时 模型相较于基线模型 在上述任务上都取得了大幅的效果提升 生态建设 编辑2021年6月 悟道 已与包括阿里巴巴 小米 美团 快手 360 新华社在内的23家产业单位达成战略合作意向 就悟道预训练大模型进行产业应用合作 从底层数据资源 中层模型研发到上层AI应用推进产业应用生态的建设 从单点突破提升至全方位突破 同时 为了促进大模型最新研发成果的开放共享 悟道 项目在悟道官方平台 9 开放了一系列模型 算法 工具 API以及数据集 具体表单如下 悟道开源成果列表 类别 名称 描述模型 CPM 兼顾理解与生成能力的预训练语言模型系列 涵盖中文 中英双语多类模型 模型参数有26亿 110亿和1980亿 模型 GLM 以英文为核心的预训练语言模型系列 有1 1亿 3 35亿 4 10亿 5 15亿 100亿参数规模的模型 模型 Transformer XL 可完成多种中文生成任务的29亿参数中文预训练模型模型 Lawformer 1亿参数法律预训练模型模型 CogView 40亿参数多模态生成模型 分为文生图 图生文和超分辨率三个版本模型 ProtTrans 30亿参数量的蛋白质预训练模型算法 P tuning 6 世界首个基于检索的半监督少样本微调算法算法 Inverse Prompting 7 提升文本生成任务的可控性和相关性 让回答和问题关联性更强 即更好地利用 Prompt 的信息来控制所生成的内容 工具 FastMoE 8 首个支持国产超算和GPU的高性能MoE系统 支持Switch Gshard等复杂均衡策略 工具 预训练知识继承 世界首个大规模预训练融合框架 缩短大模型近50 前期训练时间 工具 InfMoE 世界首个低资源大模型推理系统 单卡GPU可以进行千亿规模模型的推理 工具 TDS 用于支持高效训练 可同时支持数据 模型 流水并行 ZeRO和混合加速 API 图向量 获取图像的特征向量API 文本向量 获取文本的特征向量API 快速作诗 根据标题等信息快速生成诗词API 快速新闻生成 可快速形成新闻草稿 提升效率API 知识图谱构建 通用知识图谱构建关系抽取数据集 WuDaoCorpora 9 开放200G中文文本数据集评论 编辑2021年6月 CCTV新闻频道评论悟道大模型发布 大模型对于人工智能发展具有重要意义 未来将可能基于大模型形成变革性的AI产业基础设施 2021年6月 环球时报发表专题评论文章 表示悟道项目的最新成果发布是 成为全球人工智能领导者雄心壮志的最新信号 2021年6月 科技资讯网站PingWest在悟道发布后发表文章评论 BAAI和OpenAI都以基础研究为目标 这些基础研究有可能显著提高深度学习技术的性能 从而增强以前无法想象的新体验 2021年6月 新闻网站Explica co评论 悟道 项目 悟道的重要意义是知道如何扩展模型并有能力这样做 对于悟道项目的成果发布 Facebook AI工程师Elvis Saravia表示 悟道万亿模型是GPT 3的10倍 非常期待模型可以取得超过人类水准的表现 Nervana联合创始人Naveen Ra在了解悟道成果发布后表示 悟道团队做出了一些非常有趣的工作 并且认为悟道是一个法律层面合规的研究项目 The Master Algorithm 作者Pedro Domingos对于悟道万亿模型的超大参数规模表示 也许是时候用度量前缀表示深度学习网络参数规模了 应用 10 编辑作诗 模型的文字创作能力使其支持对各种给定的题目创作出媲美诗人的精美诗歌 同时有作藏头诗的功能 人设问答 模型支持模拟和扮演不同人设 从而对问题给出多角度回答 看图说话 模型描述用户上传图片中的细节与精彩 图文问答 对给定图片提出问题 模型为你精准解答 图片生成 模型根据用户文字描述自动生成图片 图灵测试 包括作诗 对联 标题生成 问答 策论 绘图 识图8项图灵测试 文献 编辑 存档副本 2021 07 07 原始内容存档于2021 07 09 Y Huo M Zhang G Liu H Lu Y Gao G Yang J Wen H Zhang B Xu W Zheng Z Xi Y Yang A Hu J Zhao R Li Y Zhao L Zhang Y Song X Hong W Cui D Hou Y Li J Li P Liu Z Gong C Jin Y Sun S Chen Z Lu Z Dou Q Jin Y Lan W Zhao R Song and J Wen Wenlan Bridging vision and language by largescale multi modal pre training arXiv 2103 06561 2021 https arxiv org abs 2103 06561 页面存档备份 存于互联网档案馆 M Ding Z Yang W Hong W Zheng C Zhou D Yin J Lin X Zou Z Shao H Yang and J Tang CogView Mastering Text to Image Generation via Transformers arXiv 2105 13290 2021 https arxiv org abs 2105 13290 页面存档备份 存于互联网档案馆 Z Zhang X Han H Zhou P Ke Y Gu D Ye Y Qin Y Su H Ji J Guan F Qi X Wang Y Zheng G Zeng H Cao S Chen D Li Z Sun Z Liu M Huang W Han J Tang J Li X Zhu and M Sun CPM A Large scale Generative Chinese Pre trained Language Model arXiv 2012 00413 2020 https arxiv org abs 2012 00413 页面存档备份 存于互联网档案馆 Z Du Y Qian X Liu M Ding J Qiu Z Yang and J Tang All nlp tasks are generation tasks A general pretraining framework arXiv abs 2103 10360 2021 https arxiv org abs 2103 10360 页面存档备份 存于互联网档案馆 X Liu Y Zheng Z Du M Ding Y Qian Z Yang and J Tang Gpt understands too arXiv 2103 10385 2021 https arxiv org abs 2103 10385 页面存档备份 存于互联网档案馆 X Zou D Yin Q Zhong H Yang Z Yang and J Tang Controllable generation from pre trained language models via inverse prompting arXiv 2103 10685 2021 https arxiv org abs 2103 10685 页面存档备份 存于互联网档案馆 J He J Qiu A Zeng Z Yang J Zhai and J Tang Fastmoe A fast mixture of expert training system CoRR abs 2103 13262 2021 https arxiv org abs 2103 13262 页面存档备份 存于互联网档案馆 S Yuan H Zhao Z Du M Ding X Liu Y Cen X Zou Z Yang and J Tang Wudaocorpora A super large scale chinese corpora for pre training language models AI Open 2021 2 65 68 https www sciencedirect com science article pii S2666651021000152 页面存档备份 存于互联网档案馆 悟道应用平台 https pretrain aminer cn 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title 悟道预训练模型 amp oldid 74045942, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。