fbpx
维基百科

文本分割

文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在计算机中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。

分割问题 编辑

分词 编辑

分词(Word segmentation)是将一串书面语言分成其组成词的问题。中文分词指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文分词被认为是中文自然语言处理中的一个最基本的环节。

Unicode联盟已经发表了一个关于文本分割的标准附件[1]

意图分割 编辑

意图分割(Intent segmentation)是将书面语言分割为关键词(2个或2个以上的词组)的问题。

参考文献 编辑

  1. ^ UAX #29. [2020-10-07]. (原始内容于2020-12-16). 

外部連結 编辑

  • 中央研究院資訊科學所詞庫小組的中文斷詞系統 (页面存档备份,存于互联网档案馆
  • 卓騰語言科技 - 基於句法規則的中文斷詞系統 (同時完成 POS 和 NER 標記) (页面存档备份,存于互联网档案馆
  • 基于机器学习的智慧塔中文分词系统

文本分割, 此條目需要精通或熟悉相关主题的编者参与及协助编辑, 2020年10月7日, 請邀請適合的人士改善本条目, 更多的細節與詳情請參见討論頁, text, segmentation, 将书面成有意义单位的过程, 如单词, 句子或主题, 这个术语既适用于人类阅读文本时的心理过程, 也适用于在计算机中实现的人工过程, 后者属于自然语言处理的领域, 一些书面语言有明确的单词分界标记, 例如英语的词之间有空格标识, 阿拉伯语有独特的首, 末字母形状, 但这种标记不是所有书面语言都有, 目录, 分割问题, 分词, 意图. 此條目需要精通或熟悉相关主题的编者参与及协助编辑 2020年10月7日 請邀請適合的人士改善本条目 更多的細節與詳情請參见討論頁 文本分割 Text segmentation 将书面文本分割成有意义单位的过程 如单词 句子或主题 这个术语既适用于人类阅读文本时的心理过程 也适用于在计算机中实现的人工过程 后者属于自然语言处理的领域 一些书面语言有明确的单词分界标记 例如英语的词之间有空格标识 阿拉伯语有独特的首 中 末字母形状 但这种标记不是所有书面语言都有 目录 1 分割问题 1 1 分词 1 2 意图分割 2 参考文献 3 外部連結分割问题 编辑分词 编辑 分词 Word segmentation 是将一串书面语言分成其组成词的问题 中文分词指的是使用计算机自动对中文文本进行词语的切分 即像英文那样使得中文句子中的词之间有空格以标识 中文分词被认为是中文自然语言处理中的一个最基本的环节 Unicode联盟已经发表了一个关于文本分割的标准附件 1 意图分割 编辑 意图分割 Intent segmentation 是将书面语言分割为关键词 2个或2个以上的词组 的问题 参考文献 编辑 UAX 29 2020 10 07 原始内容存档于2020 12 16 外部連結 编辑中央研究院資訊科學所詞庫小組的中文斷詞系統 页面存档备份 存于互联网档案馆 卓騰語言科技 基於句法規則的中文斷詞系統 同時完成 POS 和 NER 標記 页面存档备份 存于互联网档案馆 基于机器学习的智慧塔中文分词系统 取自 https zh wikipedia org w index php title 文本分割 amp oldid 78986301, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。