fbpx
维基百科

信息抽取

信息抽取Information Extraction,簡稱IE,又譯資訊擷取技術)主要是從大量文字資料中自動抽取特定訊息(Particular Information),以作為資料庫存取(Database Access)之用的技術

信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算,具體來說就是要允許邏輯推理能對輸入資料邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化(例:不包含元數據)形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序,監督一新聞資料饋流,需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。

起源 编辑

資訊檢索技術又稱為「訊息理解」(Message Understanding英语Message Understanding),其主流研究起源於1987年訊息理解會議英语Message Understanding ConferenceMessage Understanding Conference英语Message Understanding Conference, MUC英语MUC),這個會議主要提倡利用自然語言處理技術,對文字資訊作更深度的剖析,以提高資訊檢索認知程度。從1987年第一屆會議迄今,MUC英语Message Understanding Conference已經舉辦過六次會議,每年會中皆會提供文字資料以及標準問題,供與會者以所發展的系統自動抽取訊息,這種競賽方式對於整個領域的技術提昇有很大的助益。

目的 编辑

信息抽取的基本任務包含了:

自然語言處理範疇,資訊擷取技術是雷同於資訊檢索領域的一種類型,它的目的是要以自動化的方式來擷取結構化資訊,例如:在某一個特定領域或是從非結構化機器可讀的文件中,對明確的資料進行分類、判斷上下文以及語義化的分析

模板分類 编辑

資訊擷取技術一般借助事先準備的模板(Template)以擷取特定新聞事件包括人(Who)、事(What)、地(where)與時間(When)等事實(Fact)。因為擷取事實必須對所分析文件有某種程度的剖析理解能力,在各種資訊檢索研究課題中,資訊擷取技術一直相當仰賴自然語言處理技術,因此是傳統上最典型的智慧型檢索技術之ㄧ。

判斷文句 编辑

一般資訊擷取技術的做法包括具備文件過濾程式(Text Filter),藉此從大量文件過濾出較相關的文字片段,其作法與資訊過濾技術(Information Filtering)較為類似。接著利用剖析程式(Parser),將文件片段轉化成剖析樹(Parsing Tree)。剖析樹類似我們閱讀英文時的文法結構,是對文句做語法分析(例如找出動詞主詞受詞),之後再將這些剖析樹與原先欲抽取的模板比對,擷取出有關人事地物的事實出來。

語義化分析 编辑

資訊擷取研究,主要還是針對特定領域的文件進行深度分析,因此過程中還包括詞彙語意標定(Semantic Tagging)、重要名詞片語抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、產生語意格框(Semantic Frame)等相關技術,因此開發一個資訊擷取系統必須事先建立很完整的領域知識,包括相關詞彙片語、文法規則、語意規則等。

參考資料 编辑

《圖書資訊檢索技術》卜小蝶著:文華,台北市,民85

信息抽取, 此條目含有過多, 重複或不必要的内部链接, 2021年12月18日, 請根据格式指引, 移除重复, 標題链接以及任何与内容无关的链接, information, extraction, 簡稱ie, 又譯資訊擷取技術, 主要是從大量文字資料中自動抽取特定訊息, particular, information, 以作為資料庫存取, database, access, 之用的技術, 的一個廣泛目標是允許對以往非結構化的資料去做計算, 具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三, 其意義在於決. 此條目含有過多 重複或不必要的内部链接 2021年12月18日 請根据格式指引 移除重复 標題链接以及任何与内容无关的链接 信息抽取 Information Extraction 簡稱IE 又譯資訊擷取技術 主要是從大量文字資料中自動抽取特定訊息 Particular Information 以作為資料庫存取 Database Access 之用的技術 信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算 具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三 其意義在於決定了例如在網際網路上其非結構化 例 不包含元數據 形式中有用資訊數量的成長 在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性 一個智慧型代理程序 監督一新聞資料饋流 需要資訊擷取技術來轉換非結構化資料到某種可推論的方式 目录 1 起源 2 目的 2 1 模板分類 2 2 判斷文句 2 3 語義化分析 3 參考資料起源 编辑資訊檢索技術又稱為 訊息理解 Message Understanding 英语 Message Understanding 其主流研究起源於1987年訊息理解會議 英语 Message Understanding Conference Message Understanding Conference 英语 Message Understanding Conference MUC 英语 MUC 這個會議主要提倡利用自然語言處理技術 對文字資訊作更深度的剖析 以提高資訊檢索的認知程度 從1987年第一屆會議迄今 MUC 英语 Message Understanding Conference 已經舉辦過六次會議 每年會中皆會提供文字資料以及標準問題 供與會者以所發展的系統自動抽取訊息 這種競賽方式對於整個領域的技術提昇有很大的助益 目的 编辑信息抽取的基本任務包含了 命名实体识别 Named entity recognition 又譯 專名辨識 共指消解 Coreference 术语抽取 Terminology extraction 英语 Terminology extraction 在自然語言處理範疇 資訊擷取技術是雷同於資訊檢索領域的一種類型 它的目的是要以自動化的方式來擷取結構化資訊 例如 在某一個特定領域或是從非結構化機器可讀的文件中 對明確的資料進行分類 判斷上下文以及語義化的分析 模板分類 编辑 資訊擷取技術一般借助事先準備的模板 Template 以擷取特定新聞事件包括人 Who 事 What 地 where 與時間 When 等事實 Fact 因為擷取事實必須對所分析的文件有某種程度的剖析理解能力 在各種資訊檢索研究課題中 資訊擷取技術一直相當仰賴自然語言處理技術 因此是傳統上最典型的智慧型檢索技術之ㄧ 判斷文句 编辑 一般資訊擷取技術的做法包括具備文件過濾程式 Text Filter 藉此從大量文件中過濾出較相關的文字片段 其作法與資訊過濾技術 Information Filtering 較為類似 接著利用剖析程式 Parser 將文件片段轉化成剖析樹 Parsing Tree 剖析樹類似我們閱讀英文時的文法結構 是對文句做語法的分析 例如找出動詞 主詞 受詞 之後再將這些剖析樹與原先欲抽取的模板比對 擷取出有關人事地物的事實出來 語義化分析 编辑 資訊擷取的研究 主要還是針對特定領域的文件進行深度分析 因此過程中還包括詞彙語意標定 Semantic Tagging 重要名詞片語抽取 Noun Phrase Extraction 文句部分剖析 Partial Parsing 產生語意格框 Semantic Frame 等相關技術 因此開發一個資訊擷取系統必須事先建立很完整的領域知識 包括相關詞彙 片語 文法規則 語意規則等 參考資料 编辑 圖書資訊檢索技術 卜小蝶著 文華 台北市 民85 取自 https zh wikipedia org w index php title 信息抽取 amp oldid 69157929, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。