fbpx
维基百科

機讀數據

機讀數據是指合符可由電腦處理格式的數據。機讀數據必須是結構化數據[1]

在美國,2019年1月14日的OPEN政府數據法案英语Foundations_for_Evidence-Based_Policymaking_Act將機讀數據定義為「一種格式,該格式可以由計算機輕鬆處理而無需人工干預,同時確保不丟失語義。」法律指示美國聯邦機構以這種方式發佈公共數據,[2]確保「該機構的任何公共數據資產都是機讀的」。[3]

機讀數據可分為兩類:標記為人類可讀的數據,以便機器也可以讀取(例如,微格式RDFaHTML),以及主要用於機器處理的數據文件格式(CSVRDFXMLJSON)。需注意的是,僅當這些格式其中包含的數據經過正式結構化時,才是機讀數據,而從結構不良的電子表格中導出CSV文件則不符合定義。

機讀不是可數字訪問(英文:digitally accessible)的同義詞。可數字訪問的文檔可能在線上,使人類更易於透過電腦存取,但是如果內容不是機讀的,則很難通過電腦編程邏輯來提取,轉換和處理其內容。[4]

可擴展標記語言(XML)被設計為可人類和機讀的,可擴展樣式表語言轉換(XSLT)用於改善數據的呈現方式以提高人類可讀性。例如,XSLT可用於自動呈現可移植文檔格式(PDF)的XML。機讀數據可以自動轉換以提高可讀性,但是通常來說,事實並非如此。

為了實施《政府績效和結果法案英语Government Performance and Results Act》(GPRA)現代化法案,美國行政管理和預算局(OMB)定義了「機讀格式」,如下所示:「格式可以是標準計算機語言(非英語)。由網絡瀏覽器或計算機系統自動讀取(例如xml)。傳統的文字處理文檔和便攜式文檔格式(PDF)文件很容易被人類讀取,但通常機器難以解釋。其他格式,例如可擴展標記語言(XML),(JSON)或帶有標題欄且可以導出為逗號分隔值(CSV)的電子表格是機讀的格式。由於HTML是一種結構化標記語言,可以謹慎地標記文檔的某些部分,因此計算機可以收集文檔組件來組裝目錄 (書籍),大綱,文獻檢索書目等。可以使傳統的文字處理文檔和其他格式可以機讀,但該文檔必須包括增強的結構元素。」 [5]

參見 编辑

參考資料 编辑

  1. ^ Machine readable. opendatahandbook.org. [2019-07-22]. (原始内容于2021-02-05). 
  2. ^ HR4174. stratml.us. [2020-08-05]. (原始内容于2019-01-19). 
  3. ^ HR4174. stratml.us. [2020-08-05]. (原始内容于2019-01-19). 
  4. ^ A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. (原始内容于2021-03-20). 
  5. ^ OMB Circular A-11, Part 6 互联网档案馆的,存档日期2020-04-22., Preparation, Submission, and Execution of the Budget

機讀數據, 是指合符可由電腦處理格式的數據, 必須是結構化數據, 在美國, 2019年1月14日的open政府數據法案, 英语, foundations, evidence, based, policymaking, 將定義為, 一種格式, 該格式可以由計算機輕鬆處理而無需人工干預, 同時確保不丟失語義, 法律指示美國聯邦機構以這種方式發佈公共數據, 確保, 該機構的任何公共數據資產都是機讀的, 可分為兩類, 標記為人類可讀的數據, 以便機器也可以讀取, 例如, 微格式, rdfa, html, 以及主要用於機器處. 機讀數據是指合符可由電腦處理格式的數據 機讀數據必須是結構化數據 1 在美國 2019年1月14日的OPEN政府數據法案 英语 Foundations for Evidence Based Policymaking Act 將機讀數據定義為 一種格式 該格式可以由計算機輕鬆處理而無需人工干預 同時確保不丟失語義 法律指示美國聯邦機構以這種方式發佈公共數據 2 確保 該機構的任何公共數據資產都是機讀的 3 機讀數據可分為兩類 標記為人類可讀的數據 以便機器也可以讀取 例如 微格式 RDFa HTML 以及主要用於機器處理的數據文件格式 CSV RDF XML JSON 需注意的是 僅當這些格式其中包含的數據經過正式結構化時 才是機讀數據 而從結構不良的電子表格中導出CSV文件則不符合定義 機讀不是可數字訪問 英文 digitally accessible 的同義詞 可數字訪問的文檔可能在線上 使人類更易於透過電腦存取 但是如果內容不是機讀的 則很難通過電腦編程邏輯來提取 轉換和處理其內容 4 可擴展標記語言 XML 被設計為可人類和機讀的 可擴展樣式表語言轉換 XSLT 用於改善數據的呈現方式以提高人類可讀性 例如 XSLT可用於自動呈現可移植文檔格式 PDF 的XML 機讀數據可以自動轉換以提高可讀性 但是通常來說 事實並非如此 為了實施 政府績效和結果法案 英语 Government Performance and Results Act GPRA 現代化法案 美國行政管理和預算局 OMB 定義了 機讀格式 如下所示 格式可以是標準計算機語言 非英語 由網絡瀏覽器或計算機系統自動讀取 例如xml 傳統的文字處理文檔和便攜式文檔格式 PDF 文件很容易被人類讀取 但通常機器難以解釋 其他格式 例如可擴展標記語言 XML JSON 或帶有標題欄且可以導出為逗號分隔值 CSV 的電子表格是機讀的格式 由於HTML是一種結構化標記語言 可以謹慎地標記文檔的某些部分 因此計算機可以收集文檔組件來組裝目錄 書籍 大綱 文獻檢索書目等 可以使傳統的文字處理文檔和其他格式可以機讀 但該文檔必須包括增強的結構元素 5 參見 编辑開放數據 鍵連資料 機讀文件 英语 Machine Readable Documents 人類可讀介質參考資料 编辑 Machine readable opendatahandbook org 2019 07 22 原始内容存档于2021 02 05 HR4174 stratml us 2020 08 05 原始内容存档于2019 01 19 HR4174 stratml us 2020 08 05 原始内容存档于2019 01 19 A Primer on Machine Readability for Online Documents and Data Data gov 2012 09 24 2015 02 27 原始内容存档于2021 03 20 OMB Circular A 11 Part 6 互联网档案馆的存檔 存档日期2020 04 22 Preparation Submission and Execution of the Budget 取自 https zh wikipedia org w index php title 機讀數據 amp oldid 73712533, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。