fbpx
维基百科

文本挖掘

文本挖掘(Text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索与词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

文本挖掘与文本分析

文本分析这一术语描述了一套语言学统计学机器学习技术,其对文本来源的内容信息进行建模和结构化,用于商业智能探索性数据分析英语Exploratory data analysis研究或调查。[1] 该术语大致与文本挖掘同义;事实上,Ronen Feldman在2004年修改了2000年对 "文本挖掘"[2]的描述,以描述 "文本分析"。[3]后一个术语现在在商业环境中使用得更频繁,而 "文本挖掘 "则用于一些最早可以追溯到1980年代的应用领域,[4]尤其是在生命科学研究和政府情报方面。

文本分析这一术语也描述了文本分析对商业问题的应用,无论是独立的还是与现场数字数据的查询和分析相结合的。不言而喻的,80%的商业相关信息是以非结构化英语Unstructured data的形式出现的,主要是文本。[5]这些技术和过程可以发现并展示知识——事实、商业规则英语Business rule和关系——否则这些知识就会被锁定在文本形式中,无法被自动处理。

历史

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速取得进展。文本挖掘已经是信息检索数据挖掘机器学习统计以及计算语言学学科中的重要领域。由于目前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

应用

现在,文本挖掘技术被广泛地应用于各种政府、研究和商业需求。所有这些群体都可能将文本挖掘用于管理记录和搜索与他们日常活动相关的文件。例如,法律专业人士可将文本挖掘用于电子取证英语Electronic discovery。政府和军事团体将文本挖掘用于国家安全和情报目的。科学研究人员将文本挖掘方法纳入组织大量文本数据(即解决非结构化数据英语Unstructured data的问题)的工作中,以挖掘通过文本交流的想法(例如,社交媒体情感分析[6][7][8]),并支持生命科学生物信息学等领域的科学发现英语Discovery (observation)。在商业领域,其应用有支持竞争情报和自动广告投放英语Ad serving,以及其他许多活动。

安全应用

许多文本挖掘的软件包是为安全应用的。它们多数是出于国家安全的目的,监控和分析类似于互联网新闻英语Digital journalism博客等的在线纯文本。[9] 文本加密和解密的领域也需要研究文本挖掘。

软件应用

包括IBM微软在内的大公司也在研究和开发文本挖掘方法和软件,以进一步实现文本挖掘和分析过程的自动化;而搜索和索引领域的一些公司也在研究和开发文本挖掘方法和软件,以改善其结果。在公共部门内,许多努力集中在开发跟踪和监测恐怖活动的软件上。[10]对于研究而言,Weka软件(见后文“软件和应用”部分)是科学界最受欢迎的选择之一,它对初学者来说是一个很好的入门点。对于Python程序员来说,为更加普遍的目的有一个优秀的工具包,叫做NLTK英语Natural Language Toolkit。对于更高级的程序员,还有Gensim英语Gensim库,它专注于基于词嵌入的文本表示。

在线媒体应用

大型媒体公司,如Tribune Media,正在使用文本挖掘来澄清信息,为读者提供更好的搜索体验,这反过来又增加了网站的 "粘性 "和收入。此外,在后端,编辑们也正在受益,因为他们能够分享、关联和包装新闻,大大增加了内容赚钱的机会。

营销应用

文本分析正在被应用于商业领域,特别是营销领域,如客户关系管理[11]Coussement和Van den Poel(2008)[12][13]将其应用于改善客户流失英语Customer attrition预测分析模型。[12]文本挖掘也被应用于股票收益预测。[14]

情感分析

情感分析可能涉及对电影评论的分析,以估计评论对电影的好感程度。[15]这种分析可能需要一个已标记的数据集或对词的情感性进行标记。WordNet[16]ConceptNet英语Open Mind Common Sense[17]已经有分别词汇和概念的情感性资源。

在情感计算的相关领域,文本已经被用来检测情感。[18]基于文本的情感计算方法已经被用于多个语料库,如学生评价、儿童故事和新闻故事。情感分析也被應用於分析社交媒體內容。例如,之前對碳中和帖子的研究發現,正面情緒微博(83.9%)大約是負面情緒微博(9.9%)的八倍,只有 6.3% 是中性的[19]

软件和应用

用来文本挖掘的计算机程序可从许多商业开放源代码公司和来源获得。

开源软件和应用

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ (页面存档备份,存于互联网档案馆

影响

直到最近,网站最常使用的是基于文本的搜索,它只能找到包含用户给定的特定单词或短语的文件。现在,通过使用语义网,文本挖掘可以根据意义和上下文(而不仅仅是某个特定的词)来寻找内容。此外,文本挖掘软件可以被用来建立有关特定人物和事件的大型信息档案。例如,可以根据从新闻报道中提取的数据建立大型数据集,以促进社会网络分析或反情报工作。实际上,文本挖掘软件的作用类似于情报分析员或研究图书管理员,尽管分析的范围更有限。文本挖掘也被用于一些电子邮件的垃圾邮件过滤器,作为确定可能为广告或其他不需要的材料的信息的一种方式。文本挖掘在确定金融市场情绪英语Market sentiment方面发挥着重要作用。

注释

  • Ronen Feldman and James Sanger, The Text Mining Handbook, Cambridge University Press, ISBN 9780521836579
  • Kao Anne, Poteet, Steve R. (Editors), Natural Language Processing and Text Mining, Springer, ISBN 184628175X
  • Konchady Manu "Text Mining Application Programming (Programming Series)" by Manu Konchady, Charles River Media, ISBN 1584504609
  • M. Ikonomakis, S. Kotsiantis, V. Tampakas, Text Classification Using Machine Learning Techniques, WSEAS Transactions on Computers, Issue 8, Volume 4, August 2005, pp. 966-974 ()

参考资料

  1. ^ Business Technology News and Commentary. InformationWeek. [2022-08-22] (英语). 
  2. ^ KDD-2000 Workshop on Text Mining – Call for Papers. Cs.cmu.edu. [2015-02-23]. (原始内容于2022-07-13). 
  3. ^ [1] 互联网档案馆的,存档日期March 3, 2012,.
  4. ^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics 1. 1982: 127–32. S2CID 6433117. doi:10.3115/991813.991833. 
  5. ^ Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008 [2015-02-23]. (原始内容于2014-09-12). 
  6. ^ Pang, Bo; Lee, Lillian. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval. 2008, 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . ISSN 1554-0669. doi:10.1561/1500000011. 
  7. ^ Paltoglou, Georgios; Thelwall, Mike. Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology. 2012-09-01, 3 (4): 66. ISSN 2157-6904. S2CID 16600444. doi:10.1145/2337542.2337551. 
  8. ^ Sentiment Analysis in Twitter < SemEval-2017 Task 4. alt.qcri.org. [2018-10-02]. (原始内容于2019-03-24). 
  9. ^ Zanasi, Alessandro. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing 53: 53. 2009. ISBN 978-3-540-88180-3. doi:10.1007/978-3-540-88181-0_7. 
  10. ^ [2] 互联网档案馆的,存档日期October 4, 2013,.
  11. ^ Text Analytics. Medallia. [2015-02-23]. (原始内容于2017-11-08). 
  12. ^ 12.0 12.1 Coussement, Kristof; Van Den Poel, Dirk. Integrating the voice of customers through call center emails into a decision support system for churn prediction. Information & Management. 2008, 45 (3): 164–74 [2022-08-22]. CiteSeerX 10.1.1.113.3238 . doi:10.1016/j.im.2008.01.005. (原始内容于2019-12-15). 
  13. ^ Coussement, Kristof; Van Den Poel, Dirk. Improving customer complaint management by automatic email classification using linguistic style features as predictors. Decision Support Systems. 2008, 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010. 
  14. ^ Ramiro H. Gálvez; Agustín Gravano. Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science. 2017, 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001. 
  15. ^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar. Thumbs up?. Proceedings of the ACL-02 conference on Empirical methods in natural language processing 10. 2002: 79–86. S2CID 7105713. doi:10.3115/1118693.1118704. 
  16. ^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock. Developing Affective Lexical Resources (PDF). PsychNology Journal. 2005, 2 (1): 61–83 [2008-09-27]. (原始内容 (PDF)于2018-09-20). 
  17. ^ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain. SenticNet: a Publicly Available Semantic Resource for Opinion Mining (PDF). Proceedings of AAAI CSK: 14–18. 2010 [2022-08-22]. (原始内容 (PDF)于2019-03-29). 
  18. ^ Calvo, Rafael A; d'Mello, Sidney. Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications. IEEE Transactions on Affective Computing. 2010, 1 (1): 18–37. S2CID 753606. doi:10.1109/T-AFFC.2010.1. 
  19. ^ (2023) A Study on Public Perceptions of Carbon Neutrality in China: has the Idea of ESG Been Encompassed? Front. Environ. Sci. 10:949959. doi: 10.3389/fenvs.2022.949959

更多链接

文本挖掘, 此條目可参照英語維基百科相應條目来扩充, 2019年5月9日, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签, text, mining, 有时也被称为文字探勘, 文本数据挖掘等,. 此條目可参照英語維基百科相應條目来扩充 2019年5月9日 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 文本挖掘 Text mining 有时也被称为文字探勘 文本数据挖掘等 大致相当于文字分析 一般指文本处理过程中产生高质量的信息 高质量的信息通常通过分类和预测来产生 如模式识别 文本挖掘通常涉及输入文本的处理过程 通常进行分析 同时加上一些衍生语言特征以及消除杂音 随后插入到数据库中 产生结构化数据 并最终评价和解释输出 高品质 的文本挖掘通常是指某种组合的相关性 新颖性和趣味性 典型的文本挖掘方法包括文本分类 文本聚类 概念 实体挖掘 生产精确分类 观点分析 文档摘要和实体关系模型 即 学习已命名实体之间的关系 文本分析包括了信息检索与词典分析来研究词语的频数分布 模式识别 标签 注释 信息抽取 数据挖掘技术包括链接和关联分析 可视化和预测分析 本质上 首要的任务是 通过自然语言处理 NLP 和分析方法 将文本转化为数据进行分析 目录 1 文本挖掘与文本分析 2 历史 3 应用 3 1 安全应用 3 2 软件应用 3 3 在线媒体应用 3 4 营销应用 3 5 情感分析 4 软件和应用 4 1 开源软件和应用 5 影响 6 注释 7 参考资料 8 更多链接文本挖掘与文本分析 编辑文本分析这一术语描述了一套语言学 统计学和机器学习技术 其对文本来源的内容信息进行建模和结构化 用于商业智能 探索性数据分析 英语 Exploratory data analysis 研究或调查 1 该术语大致与文本挖掘同义 事实上 Ronen Feldman在2004年修改了2000年对 文本挖掘 2 的描述 以描述 文本分析 3 后一个术语现在在商业环境中使用得更频繁 而 文本挖掘 则用于一些最早可以追溯到1980年代的应用领域 4 尤其是在生命科学研究和政府情报方面 文本分析这一术语也描述了文本分析对商业问题的应用 无论是独立的还是与现场数字数据的查询和分析相结合的 不言而喻的 80 的商业相关信息是以非结构化 英语 Unstructured data 的形式出现的 主要是文本 5 这些技术和过程可以发现并展示知识 事实 商业规则 英语 Business rule 和关系 否则这些知识就会被锁定在文本形式中 无法被自动处理 历史 编辑劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期 但在过去的十年中 技术的进步已经使这一领域迅速取得进展 文本挖掘已经是信息检索 数据挖掘 机器学习 统计以及计算语言学等学科中的重要领域 由于目前的大多数信息 80 是以文本的形式来保存 文本挖掘被认为具有较高的商业潜在价值 多语种数据挖掘已经越来越多的引起人们的兴趣 能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息 应用 编辑现在 文本挖掘技术被广泛地应用于各种政府 研究和商业需求 所有这些群体都可能将文本挖掘用于管理记录和搜索与他们日常活动相关的文件 例如 法律专业人士可将文本挖掘用于电子取证 英语 Electronic discovery 政府和军事团体将文本挖掘用于国家安全和情报目的 科学研究人员将文本挖掘方法纳入组织大量文本数据 即解决非结构化数据 英语 Unstructured data 的问题 的工作中 以挖掘通过文本交流的想法 例如 社交媒体的情感分析 6 7 8 并支持生命科学和生物信息学等领域的科学发现 英语 Discovery observation 在商业领域 其应用有支持竞争情报和自动广告投放 英语 Ad serving 以及其他许多活动 安全应用 编辑 许多文本挖掘的软件包是为安全应用的 它们多数是出于国家安全的目的 监控和分析类似于互联网新闻 英语 Digital journalism 博客等的在线纯文本 9 文本加密和解密的领域也需要研究文本挖掘 软件应用 编辑 包括IBM和微软在内的大公司也在研究和开发文本挖掘方法和软件 以进一步实现文本挖掘和分析过程的自动化 而搜索和索引领域的一些公司也在研究和开发文本挖掘方法和软件 以改善其结果 在公共部门内 许多努力集中在开发跟踪和监测恐怖活动的软件上 10 对于研究而言 Weka软件 见后文 软件和应用 部分 是科学界最受欢迎的选择之一 它对初学者来说是一个很好的入门点 对于Python程序员来说 为更加普遍的目的有一个优秀的工具包 叫做NLTK 英语 Natural Language Toolkit 对于更高级的程序员 还有Gensim 英语 Gensim 库 它专注于基于词嵌入的文本表示 在线媒体应用 编辑 大型媒体公司 如Tribune Media 正在使用文本挖掘来澄清信息 为读者提供更好的搜索体验 这反过来又增加了网站的 粘性 和收入 此外 在后端 编辑们也正在受益 因为他们能够分享 关联和包装新闻 大大增加了内容赚钱的机会 营销应用 编辑 文本分析正在被应用于商业领域 特别是营销领域 如客户关系管理 11 Coussement和Van den Poel 2008 12 13 将其应用于改善客户流失 英语 Customer attrition 的预测分析模型 12 文本挖掘也被应用于股票收益预测 14 情感分析 编辑 情感分析可能涉及对电影评论的分析 以估计评论对电影的好感程度 15 这种分析可能需要一个已标记的数据集或对词的情感性进行标记 WordNet 16 和ConceptNet 英语 Open Mind Common Sense 17 已经有分别词汇和概念的情感性资源 在情感计算的相关领域 文本已经被用来检测情感 18 基于文本的情感计算方法已经被用于多个语料库 如学生评价 儿童故事和新闻故事 情感分析也被應用於分析社交媒體內容 例如 之前對碳中和帖子的研究發現 正面情緒微博 83 9 大約是負面情緒微博 9 9 的八倍 只有 6 3 是中性的 19 软件和应用 编辑用来文本挖掘的计算机程序可从许多商业和开放源代码公司和来源获得 开源软件和应用 编辑 Weka工具 http www cs waikato ac nz ml weka 页面存档备份 存于互联网档案馆 影响 编辑直到最近 网站最常使用的是基于文本的搜索 它只能找到包含用户给定的特定单词或短语的文件 现在 通过使用语义网 文本挖掘可以根据意义和上下文 而不仅仅是某个特定的词 来寻找内容 此外 文本挖掘软件可以被用来建立有关特定人物和事件的大型信息档案 例如 可以根据从新闻报道中提取的数据建立大型数据集 以促进社会网络分析或反情报工作 实际上 文本挖掘软件的作用类似于情报分析员或研究图书管理员 尽管分析的范围更有限 文本挖掘也被用于一些电子邮件的垃圾邮件过滤器 作为确定可能为广告或其他不需要的材料的信息的一种方式 文本挖掘在确定金融市场情绪 英语 Market sentiment 方面发挥着重要作用 注释 编辑Ronen Feldman and James Sanger The Text Mining Handbook Cambridge University Press ISBN 9780521836579 Kao Anne Poteet Steve R Editors Natural Language Processing and Text Mining Springer ISBN 184628175X Konchady Manu Text Mining Application Programming Programming Series by Manu Konchady Charles River Media ISBN 1584504609 M Ikonomakis S Kotsiantis V Tampakas Text Classification Using Machine Learning Techniques WSEAS Transactions on Computers Issue 8 Volume 4 August 2005 pp 966 974 https web archive org web 20081203004649 http www math upatras gr esdlab en members kotsiantis Text 20Classification 20final 20journal pdf 参考资料 编辑 Business Technology News and Commentary InformationWeek 2022 08 22 英语 KDD 2000 Workshop on Text Mining Call for Papers Cs cmu edu 2015 02 23 原始内容存档于2022 07 13 1 互联网档案馆的存檔 存档日期March 3 2012 Hobbs Jerry R Walker Donald E Amsler Robert A Natural language access to structured text Proceedings of the 9th conference on Computational linguistics 1 1982 127 32 S2CID 6433117 doi 10 3115 991813 991833 Unstructured Data and the 80 Percent Rule Breakthrough Analysis August 2008 2015 02 23 原始内容存档于2014 09 12 Pang Bo Lee Lillian Opinion Mining and Sentiment Analysis Foundations and Trends in Information Retrieval 2008 2 1 2 1 135 CiteSeerX 10 1 1 147 2755 ISSN 1554 0669 doi 10 1561 1500000011 Paltoglou Georgios Thelwall Mike Twitter MySpace Digg Unsupervised Sentiment Analysis in Social Media ACM Transactions on Intelligent Systems and Technology 2012 09 01 3 4 66 ISSN 2157 6904 S2CID 16600444 doi 10 1145 2337542 2337551 Sentiment Analysis in Twitter lt SemEval 2017 Task 4 alt qcri org 2018 10 02 原始内容存档于2019 03 24 Zanasi Alessandro Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS 08 Advances in Soft Computing 53 53 2009 ISBN 978 3 540 88180 3 doi 10 1007 978 3 540 88181 0 7 2 互联网档案馆的存檔 存档日期October 4 2013 Text Analytics Medallia 2015 02 23 原始内容存档于2017 11 08 12 0 12 1 Coussement Kristof Van Den Poel Dirk Integrating the voice of customers through call center emails into a decision support system for churn prediction Information amp Management 2008 45 3 164 74 2022 08 22 CiteSeerX 10 1 1 113 3238 doi 10 1016 j im 2008 01 005 原始内容存档于2019 12 15 Coussement Kristof Van Den Poel Dirk Improving customer complaint management by automatic email classification using linguistic style features as predictors Decision Support Systems 2008 44 4 870 82 doi 10 1016 j dss 2007 10 010 Ramiro H Galvez Agustin Gravano Assessing the usefulness of online message board mining in automatic stock prediction systems Journal of Computational Science 2017 19 1877 7503 doi 10 1016 j jocs 2017 01 001 Pang Bo Lee Lillian Vaithyanathan Shivakumar Thumbs up Proceedings of the ACL 02 conference on Empirical methods in natural language processing 10 2002 79 86 S2CID 7105713 doi 10 3115 1118693 1118704 Alessandro Valitutti Carlo Strapparava Oliviero Stock Developing Affective Lexical Resources PDF PsychNology Journal 2005 2 1 61 83 2008 09 27 原始内容存档 PDF 于2018 09 20 Erik Cambria Robert Speer Catherine Havasi Amir Hussain SenticNet a Publicly Available Semantic Resource for Opinion Mining PDF Proceedings of AAAI CSK 14 18 2010 2022 08 22 原始内容存档 PDF 于2019 03 29 Calvo Rafael A d Mello Sidney Affect Detection An Interdisciplinary Review of Models Methods and Their Applications IEEE Transactions on Affective Computing 2010 1 1 18 37 S2CID 753606 doi 10 1109 T AFFC 2010 1 2023 A Study on Public Perceptions of Carbon Neutrality in China has the Idea of ESG Been Encompassed Front Environ Sci 10 949959 doi 10 3389 fenvs 2022 949959更多链接 编辑http www itl nist gov iaui 894 02 related projects muc 页面存档备份 存于互联网档案馆 MUC http projects ldc upenn edu ace 页面存档备份 存于互联网档案馆 ACE LDC https web archive org web 20060308054306 http www itl nist gov iad 894 01 tests ace ACE NIST https web archive org web 20070928002315 http www arts humanities net text mining Discussion group text mining Text Analysis Portal for Research TAPoR http textanalytics wikidot com 页面存档备份 存于互联网档案馆 Text Analytics Wiki Getting started in text mining 页面存档备份 存于互联网档案馆 Pimiento A Text Mining Application Framework written in Java 取自 https zh wikipedia org w index php title 文本挖掘 amp oldid 76983532, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。