fbpx
维基百科

文档分类

文档分类图书馆学信息学计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。

需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。

可以根据主題英语Subject (documents)来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。

“基于内容”与“基于请求”的分类方法 编辑

基于内容的分类方法是通过特殊主题上的不同权重来决定该文档被分到哪个类别中的。一般来说,在图书馆中,当一个文档被划分到某个类别时,这个文档中至少要有20%的内容是关于这个类的。[1]在自动分类的领域,这个标准可能是一些给定单词在文档中出现的频率。

面向请求的分类(或者索引) 是通过向用户获得请求后,根据用户的请求将文档进行分类。一个形象的比喻,好比分类器会问自己:“我应该通过哪种特征找到这些文档呢”,或者“通过哪些本质特征能够让我找出我身边相关的文档呢?”[2]

面向请求的分类主要的适用对象是一个特定的用户或群体。比方说,一个需要一定数据去研究女权主义的信息库与一个研究历史的信息库相比就是一个特定的用户。有一种更好的理解面向请求的分类,就是把它理解成为“基于策略的分类”:基于特殊群体的请求,通过一定的想法和策略进行分类,从而达到目的。在这种方式下,分类方式就不一定是100%基于用户研究的领域了,可以通过一些共性的策略,加以组合或修改,来实现用户的请求。只有从用户和应用中获得的经验使用了,面向请求的分类才可以被认为是一种基于用户的实现方法。

文档自动分类 编辑

文档自动分类的任务可以分为三类:监督式学习的文档分类,这需要人工反馈数据的一些外在机制。非监督式学习的文档分类(也被称作文档聚类),这类任务完全不依靠外在人工机制。和半监督式学习的文档分类,是前两类的结合,[3] 它其中有一部分的文档是由人工标注的,这有一些相关方面的具有许可证的软件。[4][5][6][7][8]

工具 编辑

自动的文档分类工具如下:

应用领域 编辑

分类工具被应用于如下:

  • 邮件过滤英语spam filtering,一种能够从合法邮件中检查出垃圾电子邮件的方法。
  • 电子邮件按路线送达, 根据本话题内容中提到的方法将电子邮件送至一个特殊群体的一般地址。[9]
  • 语言辨识英语language identification, 自动辨识一个文档中的语言。
  • 流派分类, 自动辨识一个纯文本的流派。[10]
  • 可读性评价, 自动评价一个纯文本的可读性程度,或者找到可读性适合于某一特定群体的文本,这属于文本简化英语text simplification的体系。
  • 情感分析英语sentiment analysis,辨析出说话人或者作者在关于某一个主题或者全文的情感或者态度。
  • 健康相关的分析,用社交媒体来监管大众的健康问题。[11]

[12]

参阅 编辑

  • 分类 (認識論)英语Categorization
  • 分类 (消歧義)英语Classification
  • 复合项分析英语Compound term processing
  • 基于概念的图像索引英语Concept-based image indexing
  • 基于内容的图像检索
  • 文档
  • 监督式学习, 非监督式学习
  • 文档检索英语Document retrieval
  • 文档聚类英语Document clustering
  • 信息检索
  • 信息组织英语Knowledge organization
  • 信息组织体系英语Knowledge Organization System
  • 图书分类法
  • 机器学习
  • 自然语言识别英语Native Language Identification
  • 字符串指标英语String metrics
  • 主题 (文档)英语Subject (documents)
  • 主题索引英语Subject indexing
  • 文本挖掘, 网页挖掘英语web mining, 概念挖掘英语concept mining

延伸阅读 编辑

  • Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002.
  • Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack. Information Retrieval: Implementing and Evaluating Search Engines (页面存档备份,存于互联网档案馆). MIT Press, 2010.

参考资料 编辑

  1. ^ 美国国会图书馆 (2008). 主题标题手册. 华盛顿特区: 美国国会图书馆,政策和标准的划分。(Sheet H 180: “被分派的话题至少由20%的与标题有关的信息组成。”
  2. ^ Soergel, Dagobert (1985). Organizing information: Principles of data base and retrieval systems. Orlando, FL: Academic Press.
  3. ^ Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. 信息处理和管理, 52(2):217–257.
  4. ^ (PDF). [2018-03-18]. (原始内容 (PDF)存档于2017-11-15). 
  5. ^ Interactive Automatic Document Classification Prototype 互联网档案馆的,存档日期April 24, 2015,.
  6. ^ Document Classification - Artsyl
  7. ^ ABBYY FineReader Engine 11 for Windows. [2018-03-18]. (原始内容于2015-04-23). 
  8. ^ Classifier - Antidot. [2018-03-18]. (原始内容于2020-11-25). 
  9. ^ Stephan Busemann, Sven Schmeier and Roman G. Arens (2000). Message classification in the call center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna and Robert Dale, eds., Proc. 6th Applied Natural Language Processing Conf. (ANLP'00), pp. 158-165, ACL.
  10. ^ Santini, Marina; Rosso, Mark, (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK: 54–63, 2008 [2018-03-18], (原始内容 (PDF)存档于2019-11-15) 
  11. ^ X. Dai, M. Bikdash and B. Meyer, "通过社交媒体监管大众的健康问题:通过词嵌入的方法分析推特从而分类," SoutheastCon 2017, Charlotte, NC, 2017, pp. 1-7. doi: 10.1109/SECON.2017.7925400, URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7925400&isnumber=7925258
  12. ^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A. Overview of the protein-protein interaction annotation extraction task of Bio Creative II. Genome Biology. 2008,. 9 Suppl 2: S4. PMC 2559988 . PMID 18834495. doi:10.1186/gb-2008-9-s2-s4. 

外部链接 编辑

  • Bibliography on Query Classification (页面存档备份,存于互联网档案馆
  • Text Classification (页面存档备份,存于互联网档案馆) analysis page
  • Learning to Classify Text - Chap. 6 of the book Natural Language Processing with Python (页面存档备份,存于互联网档案馆) (available online)
  • David D. Lewis's Datasets (页面存档备份,存于互联网档案馆

文档分类, 是图书馆学, 信息学和计算机科学中的一个问题, 其任务是将一个文档分配到一个或者多个类别中, 它可以是通过人工分类完成的, 也可以是通过计算机算法实现的, 多数通过人工的问题一直属于图书馆学的领域, 而通过算法实现的问题则多属于信息学和计算机科学的领域, 这些问题之间是有相同的部分的, 所以有一些对的跨学科研究, 需要被分类的文档有可能是纯文本, 图片, 音乐等等, 每一种文档都有其独特分类问题, 根据特殊的文档做研究, 可以细分成文本分类, 图片分类等等, 可以根据主題, 英语, subject, d. 文档分类是图书馆学 信息学和计算机科学中的一个问题 其任务是将一个文档分配到一个或者多个类别中 它可以是通过人工分类完成的 也可以是通过计算机算法实现的 多数通过人工的文档分类问题一直属于图书馆学的领域 而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域 这些问题之间是有相同的部分的 所以有一些对文档分类的跨学科研究 需要被分类的文档有可能是纯文本 图片 音乐等等 每一种文档都有其独特分类问题 根据特殊的文档做研究 文档分类可以细分成文本分类 图片分类等等 可以根据主題 英语 Subject documents 来进行文档分类 也可以根据它的属性 例如文档的类型 作者 出版的时间等 进行分类 下文只包含主题分类的问题 主要由两种方法来做根据主题的文档分类 基于内容的方法以及基于请求的方法 目录 1 基于内容 与 基于请求 的分类方法 2 文档自动分类 2 1 工具 3 应用领域 4 参阅 5 延伸阅读 6 参考资料 7 外部链接 基于内容 与 基于请求 的分类方法 编辑基于内容的分类方法是通过特殊主题上的不同权重来决定该文档被分到哪个类别中的 一般来说 在图书馆中 当一个文档被划分到某个类别时 这个文档中至少要有20 的内容是关于这个类的 1 在自动分类的领域 这个标准可能是一些给定单词在文档中出现的频率 面向请求的分类 或者索引 是通过向用户获得请求后 根据用户的请求将文档进行分类 一个形象的比喻 好比分类器会问自己 我应该通过哪种特征找到这些文档呢 或者 通过哪些本质特征能够让我找出我身边相关的文档呢 2 面向请求的分类主要的适用对象是一个特定的用户或群体 比方说 一个需要一定数据去研究女权主义的信息库与一个研究历史的信息库相比就是一个特定的用户 有一种更好的理解面向请求的分类 就是把它理解成为 基于策略的分类 基于特殊群体的请求 通过一定的想法和策略进行分类 从而达到目的 在这种方式下 分类方式就不一定是100 基于用户研究的领域了 可以通过一些共性的策略 加以组合或修改 来实现用户的请求 只有从用户和应用中获得的经验使用了 面向请求的分类才可以被认为是一种基于用户的实现方法 文档自动分类 编辑文档自动分类的任务可以分为三类 监督式学习的文档分类 这需要人工反馈数据的一些外在机制 非监督式学习的文档分类 也被称作文档聚类 这类任务完全不依靠外在人工机制 和半监督式学习的文档分类 是前两类的结合 3 它其中有一部分的文档是由人工标注的 这有一些相关方面的具有许可证的软件 4 5 6 7 8 工具 编辑 自动的文档分类工具如下 最大期望算法 EM 朴素贝叶斯分类器 tf idf 瞬时训练神经网络 英语 Instantaneously trained neural networks 潜在语义学 支持向量机 SVM 人工神经网络 最近邻居法 决策树比如ID3或C4 5 概念挖掘 英语 Concept Mining 基于粗集合的分类器 基于软集合 英语 Soft set 的分类器 多示例学习 自然语言处理的方法应用领域 编辑分类工具被应用于如下 邮件过滤 英语 spam filtering 一种能够从合法邮件中检查出垃圾电子邮件的方法 电子邮件按路线送达 根据本话题内容中提到的方法将电子邮件送至一个特殊群体的一般地址 9 语言辨识 英语 language identification 自动辨识一个文档中的语言 流派分类 自动辨识一个纯文本的流派 10 可读性评价 自动评价一个纯文本的可读性程度 或者找到可读性适合于某一特定群体的文本 这属于文本简化 英语 text simplification 的体系 情感分析 英语 sentiment analysis 辨析出说话人或者作者在关于某一个主题或者全文的情感或者态度 健康相关的分析 用社交媒体来监管大众的健康问题 11 12 参阅 编辑分类 認識論 英语 Categorization 分类 消歧義 英语 Classification 复合项分析 英语 Compound term processing 基于概念的图像索引 英语 Concept based image indexing 基于内容的图像检索 文档 监督式学习 非监督式学习 文档检索 英语 Document retrieval 文档聚类 英语 Document clustering 信息检索 信息组织 英语 Knowledge organization 信息组织体系 英语 Knowledge Organization System 图书分类法 机器学习 自然语言识别 英语 Native Language Identification 字符串指标 英语 String metrics 主题 文档 英语 Subject documents 主题索引 英语 Subject indexing 文本挖掘 网页挖掘 英语 web mining 概念挖掘 英语 concept mining 延伸阅读 编辑Fabrizio Sebastiani Machine learning in automated text categorization ACM Computing Surveys 34 1 1 47 2002 Stefan Buttcher Charles L A Clarke and Gordon V Cormack Information Retrieval Implementing and Evaluating Search Engines 页面存档备份 存于互联网档案馆 MIT Press 2010 参考资料 编辑 美国国会图书馆 2008 主题标题手册 华盛顿特区 美国国会图书馆 政策和标准的划分 Sheet H 180 被分派的话题至少由20 的与标题有关的信息组成 Soergel Dagobert 1985 Organizing information Principles of data base and retrieval systems Orlando FL Academic Press Rossi R G Lopes A d A and Rezende S O 2016 Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts 信息处理和管理 52 2 217 257 An Interactive Automatic Document Classification Prototype PDF 2018 03 18 原始内容 PDF 存档于2017 11 15 Interactive Automatic Document Classification Prototype 互联网档案馆的存檔 存档日期April 24 2015 Document Classification Artsyl ABBYY FineReader Engine 11 for Windows 2018 03 18 原始内容存档于2015 04 23 Classifier Antidot 2018 03 18 原始内容存档于2020 11 25 Stephan Busemann Sven Schmeier and Roman G Arens 2000 Message classification in the call center In Sergei Nirenburg Douglas Appelt Fabio Ciravegna and Robert Dale eds Proc 6th Applied Natural Language Processing Conf ANLP 00 pp 158 165 ACL Santini Marina Rosso Mark Testing a Genre Enabled Application A Preliminary Assessment PDF BCS IRSG Symposium Future Directions in Information Access London UK 54 63 2008 2018 03 18 原始内容 PDF 存档于2019 11 15 X Dai M Bikdash and B Meyer 通过社交媒体监管大众的健康问题 通过词嵌入的方法分析推特从而分类 SoutheastCon 2017 Charlotte NC 2017 pp 1 7 doi 10 1109 SECON 2017 7925400 URL http ieeexplore ieee org stamp stamp jsp tp amp arnumber 7925400 amp isnumber 7925258 Krallinger M Leitner F Rodriguez Penagos C Valencia A Overview of the protein protein interaction annotation extraction task of Bio Creative II Genome Biology 2008 9 Suppl 2 S4 PMC 2559988 nbsp PMID 18834495 doi 10 1186 gb 2008 9 s2 s4 外部链接 编辑Introduction to document classification Bibliography on Automated Text Categorization Bibliography on Query Classification 页面存档备份 存于互联网档案馆 Text Classification 页面存档备份 存于互联网档案馆 analysis page Learning to Classify Text Chap 6 of the book Natural Language Processing with Python 页面存档备份 存于互联网档案馆 available online TechTC Technion Repository of Text Categorization Datasets David D Lewis s Datasets 页面存档备份 存于互联网档案馆 BioCreative III ACT article classification task dataset 取自 https zh wikipedia org w index php title 文档分类 amp oldid 78984107, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。