天天看點

metadata

<dl></dl>

<dt>中文名稱:</dt>

<dd>中繼資料</dd>

<dt>英文名稱:</dt>

<dd>metadata</dd>

<dt>定義:</dt>

<dd>用于描述要素、資料集或資料集系列的内容、覆寫範圍、品質、管理方式、資料的所有者、資料的提供方式等有關的資訊。</dd>

<dt>應用學科:</dt>

<dd></dd>

metadata

中繼資料

中繼資料最本質、最抽象的定義為:data about data (關于資料的資料)。它是一種廣泛存在的現象,在許多領域有其具體的定義和應用。

目錄

展開

  中繼資料被定義為:描述資料及其環境的資料

  中繼資料按用途分成技術中繼資料和業務中繼資料。首先,中繼資料

metadata

中繼資料與圖書館書籍

  在圖書館與資訊界,中繼資料被定義為:提供關于資訊資源或資料的一種結構化的資料,是對資訊資源的結構化的描述。其作用為:描述資訊資源或資料本身的特征和屬性,規定數字化資訊的組織,具有定位、發現、證明、評估、選擇等功能。

  一般認為,所謂中繼資料是關于資料的資料,或關于資料的結構化的資料。從已有的結論看,中繼資料的含義是逐漸發展的。中繼資料一詞,早期主要指網絡資源的描述資料,用于網絡資訊資源的組織;其後,逐漸擴大到各種以電子形式存在的資訊資源的描述資料。目前,中繼資料這一術語實際用于各種類型資訊資源的描述記錄。

  此外,中繼資料在地理界,生命科學界等頂域也有其相應的定義和應用。

  中繼資料(Meta Data)是關于資料倉庫的資料,指在資料倉庫建設過程中所産生的有關資料源定義,目标定義,轉換規則等相關的關鍵資料。同時中繼資料還包含關于資料含義的商業資訊,所有這些資訊都應當妥善儲存,并很好地管理。為資料倉庫的發展和使用提供友善。

  程式集的說明。

  辨別(名稱、版本、區域性、公鑰)。

  導出的類型。

  該程式集所依賴的其他程式集。

  運作所需的安全權限。

  類型的說明。

  名稱、可見性、基類和實作的接口。

  成員(方法、字段、屬性、事件、嵌套的類型)。

  屬性。

  修飾類型和成員的其他說明性元素。

  對于一種更簡單的程式設計模型來說,中繼資料是關鍵,該模型不再需要接口定義語言 (IDL) 檔案、頭檔案或任何外部元件引用方法。中繼資料允許 .NET 語言自動以非特定語言的方式對其自身進行描述,而這是開發人員和使用者都無法看見的。另外,通過使用屬性,可以對中繼資料進行擴充。中繼資料具有以下主要優點:

  中繼資料提供所有必需的有關已編譯代碼的資訊,以供您從用不同語言編寫的 PE 檔案中繼承類。您可以建立用任何托管語言(任何面向公共語言運作庫的語言)編寫的任何類的執行個體,而不用擔心顯式封送處理或使用自定義的互用代碼。

  .NET Framework 允許您在編譯檔案中聲明特定種類的中繼資料(稱為屬性)。在整個 .NET Framework 中到處都可以發現屬性的存在,屬性用于更精确地控制運作時您的程式如何工作。另外,您可以通過使用者定義的自定義屬性向 .NET Framework 檔案發出您自己的自定義中繼資料。有關更多資訊,請參見利用屬性擴充中繼資料。

  說到中繼資料的意義,可以從其應用目的來談的。雖然做資料倉庫言必稱中繼資料,必稱技術、業務中繼資料,但其到底用于何處?離開了目标去談中繼資料,就發現中繼資料包含太多的東西,因為他是描述資料的資料嘛。

  基于應用,可以将中繼資料分成以下的若幹種。

  資料部署:資料集的實體位置;

  品質度量:資料集上可以計算的度量;

  度量邏輯關系:資料集度量之間的邏輯運算關系;

  ETL過程:過程運作的順序,并行、串行;

  星型模式中繼資料:事實表、次元、屬性、層次等;

  資料通路日志:哪些資料何時被何人通路;

  品質稽核日志:何時、何度量被稽核,其結果;

  資料裝載日志:哪些資料何時被何人裝載;

  1、數字圖書館資源組織架構

  2. 中繼資料開發應用架構

  2.1 中繼資料的基本意義 Metadata(中繼資料)是“關于資料的資料”;

  中繼資料為各種形态的數字化資訊單元和資源集合提供規範、普遍的描述方法和檢索工具;

  中繼資料為分布的、由多種數字化資源有機構成的資訊體系(如數字圖書館)提供整合的工具與紐帶。

  離開中繼資料的數字圖書館将是一盤散沙,将無法提供有效的檢索和處理。

  3. 中繼資料應用環境

  3.1 Metadata的應用目的

  (3)資源管理(Resource Administration),支援資源的存儲和使用管理,資料元素除比較全面的著錄描述資訊外,還往往包括權利管理(Rights/Privacy Management)、電子簽名(Digital Signature)、資源評鑒(Seal of Approval/Rating)、使用管理(Access Management)、支付審計(Payment and Accounting)等方面的資訊。

  (4)資源保護與長期儲存(Preservation and Archiving),支援對資源進行長期儲存,資料元素除對資源進行描述和确認外,往往包括詳細的格式資訊、制作資訊、保護條件、轉換方式(Migration Methods)、儲存責任等内容。

  3.2 Metadata在不同領域的應用 根據不同領域的資料特點和應用需要,90年代以來,許多Metadata格式在各個不同領域出現

  例如:

  文獻資料:MARC(with 856 Field),Dublic Core

  人文科學:TEI Header

  社會科學資料集:ICPSR SGML Codebook

  博物館與藝術作品:CIMI、CDWA、RLG REACH Element Set、VRA Core

  政府資訊:GILS

  地理空間資訊:FGDC/CSDGM

  數字圖像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images

  檔案庫與資源集合:EAD

  技術報告:RFC 1807

  連續圖像:MPEG-7

  3.3 Metadata格式的應用程度

  不同領域的Metadata處于不同的标準化階段:

  在網絡資源描述方面,Dublin Core經過多年國際性努力,已經成為一個廣為接受和應用的事實标準;

  在政府資訊方面,由于美國政府大力推動和有關法律、标準的實行,GILS已經成為政府資訊描述标準,并在世界若幹國家得到相當程度的應用,與此類似的還有地理空間資訊處理的FGDC/CSDGM;

  但在某些領域,由于技術的迅速發展變化,仍然存在多個方案競争,典型的是數字圖像的Metadata,現在提出的許多标準都處于實驗和完善的階段。

  3.4 Metadata格式“标準化”程度問題

  Metadata開發應用經驗表明,很難有一個統一的Metadata格式來滿足所有領域的資料描述需要;即使在同一個領域,也可能為了不同目的而需要不同的但可互相轉換的Metadata格式。

  同時,統一的集中計劃式的Metadata格式标準也不适合Internet環境,不利于充分利用市場機制和各方面力量。

  但在同一領域,應争取“标準化”,在不同領域,應妥善解決不同格式的互操作問題。

  4. 中繼資料結構

  4.1 總體結構定義方式 一個Metadata格式由多層次的結構予以定義:

  (1)内容結構(Content Structure),對該Metadata的構成元素及其定義标準進行描述。

  (2)句法結構(Syntax Structure),定義Metadata結構以及如何描述這種結構。

  (3)語義結構(Semantic Structure),定義Metadata元素的具體描述方法。

  4.2 内容結構

  内容結構定義Metadata的構成元素,可包括: 描述性元素、技術性元素、管理性元素、結構性元素(例如與編碼語言、Namespace、資料單元等的連結)。

  這些資料元素很可能依據一定标準來選取,是以中繼資料内容結構中需要對此進行說明,例如MARC記錄所依據的ISBD,EAD所參照的ISAD(G),ICPSR所依據的ICPSR Data Preparation Manual。

  4.3 句法結構

  句法結構定義格式結構及其描述方式,例如元素的分區分段組織、元素選取使用規則、元素描述方法(例如Dublin Core采用ISO/IEC 11179标準)、元素結構描述方法(例如MARC記錄結構、SGML結構、XML結構)、結構語句描述語言(例如EBNF Notation)等。

  有時,句法結構需要指出中繼資料是否與所描述的資料對象捆綁在一起、或作為單獨資料存在但以一定形式與資料對象連結,還可能描述與定義标準、DTD結構和Namespace等的連結方式。

  4.4 語義結構 語義結構定義元素的具體描述方法,例如 描述元素時所采用的标準、最佳實踐(Best Practices)或自定義的描述要求(Instructions)。

  又如OhioLink在使用VRA Core時要求主題元素使用A&amp;AT、TGM和TGN,人名元素用ULAN。

  5. 中繼資料編碼語言與制作方式

  5.1 中繼資料編碼語言

  中繼資料編碼語言(Metadata Encoding Languages)指對中繼資料元素和結構進行定義和描述的具體文法和語義規則,常稱為定義描述語言(DDL)。

  5.2 中繼資料制作方式

  (1)專門編制子產品(例如對MARC、GILS、FGDC等)

  (3)資料實體處理時自動編制(例如數字圖像掃描時的某些中繼資料參數)

  (4)共享中繼資料(例如OCLC/CORC、IMESH

  6. 中繼資料互操作性

  6.1 中繼資料互操作性問題

  由于不同的領域(甚至同一領域)往往存在多個中繼資料格式,當在用不同中繼資料格式描述的資源體系之間進行檢索、資源描述和資源利用時,就存在中繼資料的互操作性問題(Interoperability):

  多個不同中繼資料格式的釋讀、轉換和由多個中繼資料格式描述的數字化資訊資源體系之間的透明檢索。

  6.2 中繼資料格式映射

  目前已有大量的轉換程式存在,供若幹流行中繼資料格式之間的轉化,例如

  Dublin Core與USMARC; Dublin Core與EAD

  Dublin Core與GILS; GILS與MARC TEI

  Header與MARC FGDC與MARC

  也可利用一種中介格式對同一格式架構下的多種中繼資料格式進行轉換,例如UNIverse項目利用GRS格式進行各種MARC格式和其它記錄格式的轉換。格式映射轉換準确、轉換效率較高。不過,這種方法在面對多種中繼資料格式并存的開放式環境中的應用效率明顯受到限制。

  6.3 标準描述架構

  RDF定義了由Resources、Properties和Statements等三種對象組成的基本模型,其中Resources和Properties關系類似于E-R模型,而Statements則對該關系進行具體描述。

  進一步地,RDF定義了标準Schema,規定了聲明資源類型、聲明相關屬性及其語義的機制,以及定義屬性與其它資源間關系的方法。另外,RDF還規定了利用XML Namespace方法調用已有定義規範的機制,

  建立包含中繼資料及其轉換機制的數字對象可能從另一個角度解決中繼資料互操作性問題。

  Cornell/FEDORA項目提出由核心(Structural Kernel)和功能傳播層(Disseminator Layer)組成的複合數字對象。

  核心裡,可以容納以比特流形式存在的文獻内容、描述該文獻的中繼資料、以及對這個文獻及中繼資料進行存取控制的有關資料。

  功能傳播層,主功能傳播器(PrimitiveDisseminator)支援有關解構核心資料類型和對核心資料讀取的服務功能,還可有内容類型傳播器(Content-Type Disseminators),它們可内嵌中繼資料格式轉換機制。

  例如,在一個數字對象的核心中存有MARC格式的中繼資料,在功能傳播層裝載有請求Dublin Core格式及其轉換服務的内容類型傳播器。當數字對象使用者要求讀取以Dublin Core表示的中繼資料時,相應的内容類型傳播器将通過網絡請求存儲有Dublin Core及其轉換服務程式的數字對象,然後将被請求數字對象中的MARC形式中繼資料轉換為Dublin Core形式,在輸出給使用者。

  7. 幾點建議

  加快研究有效利用中繼資料進行檢索(包括異構系統透明檢索)、相關性學習、個性化處理等的機制。

  加快研究中繼資料與數字對象和數字化資源體系有機整合的途徑與方法。

  中繼資料(Metadata)是描述其它資料的資料(data about other data),或者說是用于提供某種資源的有關資訊的結構資料(structured data)。中繼資料是描述資訊資源或資料等對象的資料,其使用目的在于:識别資源;評價資源;追蹤資源在使用過程中的變化;實作簡單高效地管理大量網絡化資料;實作資訊資源的有效發現、查找、一體化組織和對使用資源的有效管理。 中繼資料的基本特點主要有:

  a)中繼資料一經建立,便可共享。中繼資料的結構和完整性依賴于資訊資源的價值和使用環境;中繼資料的開發與利用環境往往是一個變化的分布式環境;任何一種格式都不可能完全滿足不同團體的不同需要;

  b)中繼資料首先是一種編碼體系。中繼資料是用來描述數字化資訊資源,特别是網絡資訊資源的編碼體系,這導緻了中繼資料和傳統資料編碼體系的根本差別;中繼資料的最為重要的特征和功能是為數字化資訊資源建立一種機器可了解架構。

  中繼資料體系建構了電子政務的邏輯架構和基本模型,進而決定了電子政務的功能特征、運作模式和系統運作的總體性能。電子政務的運作都基于中繼資料來實作。其主要作用有:描述功能、整合功能、控制功能和代理功能。

  由于中繼資料也是資料,是以可以用類似資料的方法在資料庫中進行存儲和擷取。如果提供資料元的組織同時提供描述資料元的中繼資料,将會使資料元的使用變得準确而高效。使用者在使用資料時可以首先檢視其中繼資料以便能夠擷取自己所需的資訊。

<dt>擴充閱讀:</dt>

1

<a href="http://www.lib.sjtu.edu.cn/chinese/teaching&amp;research/404-1.htm" target="_blank">http://www.lib.sjtu.edu.cn/chinese/teaching&amp;research/404-1.htm</a>

<dt>開放分類:</dt>