메타데이터 요소

초기의 DCMES(더블린 코어 메타데이터 요소 집합)는 자원의 발견을 위한 기본 요소 15개로 구성되었다. 15개 요소들은 평면적인 구조로 설계되어 계층성이 없고, 재량적(optional)이며 반복 가능하고 어떤 순서로든 사용할 수 있다.
요소들은 세 가지 범주로 구분할 수 있다.
첫째, 자원의 내용에 관한 범주로, 표제(title), 주제(subject), 유형(type), 설명(description), 그리고 출처(source) 요소가 해당된다.
둘째, 자원의 지적 재산권과 관련된 범주로, 창작자(creator)와 기여자(contributor), 발행자(publisher) 등의 요소가 있다. 마지막으로 자원의 구현형(manifestation) 속성을 기술하는 인스턴스화 범주로, 날짜(date), 형식(format), 언어(language), 그리고 식별자(identifier) 요소가 해당된다. 이러한 요소들은 내용은 동일하지만 물리적․언어적 특성이 다양한 전자자원의 특성을 기술하기 위해 만들어졌다. 예를 들어, 내용이 동일한 보고서라도 HTML PDF, 워드 파일과 같이 다양한 형식으로 생성될 수 있고, 각기 다른 날짜에 다른 URI를 가지게 된다. 또한 국제기관의 웹사이트는 여러 언어로 구축되는 경우가 많은데 내용이 동일하지만 언어별로 다른 인스턴스(자원)이 된다.

Dublin Core
  • Content(내용)
    • title (표제)
    • description (설명)
    • type (유형)
    • subject (주제)
    • source (출처)
    • relation (관련자원)
    • coverage (수록범위)
  • Intellectual Property(지적재산권)
    • creator (창작자)
    • publisher (발행자)
    • rights (저작권)
    • contributor (기여자)
  • Instantiation(인스턴스화)
    • date (날짜)
    • format (형식)
    • identifier (식별자)
    • language (언어)

더블린 코어 메타데이터의 15개 요소에 대한 설명은 다음과 같다.

  • Title(표제)
    자원에 부여된 제목
  • Creator(창작자)
    자원의 내용에 주된 책임을 가진 개체
  • Subject(주제)
    자원의 내용적 주제(topic)
  • Description(설명)
    자원의 내용에 대한 설명
  • Publisher(발행자)
    자원을 현재의 형태로 이용가능하게 만든 실체
  • Contributor(기여자)
    제작자 요소에 명시된 개체 이외에 자원의 내용에 기여한 책임이 있는 기타 개체
  • Data(날짜)
    자원의 존재 기간 동안 어떠한 사건이 발생한 날짜, 자원의 제작일 또는 자원이 현재의 형태로 이용가능하게 된 시점과 관련됨
  • Type(유형)
    자원의 내용이 가지는 성격 또는 장르로, 내용의 일반적인 범주, 기능, 장르 등을 표현함
  • Format(형식)
    자원의 물리적 표현형식 및 디지털 표현 형식
  • Identifier(식별자)
    자원을 식별하기 위한 식별기호로 공인된 식별체계(URI, URL, DOIS, ISBN 등)를 따르는 문자/숫자열을 사용할 것을 권장함
  • Source(출처)
    현재 자원의 출처가 되는 원 정보 자원으로의 참조
  • Language(언어)
    자원의 지적인 내용을 기술하고 있는 언어
  • Relation(관련자원)
    관련 자원에 대한 참조
  • Coverage(수록범위)
    자원의 내용이 다루는 범위로 공간적 위치나 시간적 범위(시대)가 해당됨
  • Rights(이용조건)
    자원이 가지고 있는 권리나 자원에 대한 권리에 관한 정보

DCMI(1999)의 ‘Dublin Core Metadata Element Set, Version 1.1’ 중 일부 내용을 발췌․번역함

DCMES는 구조가 단순하고 요소가 간단해서 목록 비전문가도 메타데이터를 쉽게 작성할 수 있다는 장점이 있다. 이와 같은 이유로 DCMES는 웹 자원을 기술하는데 이용될 뿐 아니라 Dspace, Eprints, PEN-DOR, dCollection, Ohio University의 Knowledge Bank 등과 같이 국내외 기관 리포지터리의 메타데이터로 활발히 활용되고 있다. 국립중앙도서관에서는 국가 리포지터리 OAK(Open Access Korea)에 DC를 확장 적용하고 있다.

확장(extensions)과 상세구분(refinements)

2000년 더블린 코어 이용 위원회(Dublin Core Usage Committee)는 요소의 의미적 정확성을 높이기 위해 한정어(qualifiers)를 도입하였다. 예를 들어, "tableOfContent"는 "description" 요소, "issued"는 "date" 요소의 의미를 제한함으로써 요소를 사용하거나 해석하는데 정확성을 높일 수 있다. 한정어는 15개 핵심 요소와 함께 "Qualified Dublin Core"로, 기존 15개 요소는 "Simple Dublin Core"로 부른다. 현재는 ‘한정어’ 대신 ‘상세구분(refinement)’이란 용어를 사용한다.
과거에 한정어는 ‘ABC’과 같은 구문으로 상세구분의 대상이 되는 요소와 함께 사용되었다. 그러나 2003년 이후로 모든 상세구분은 ‘DCMI Metadata Terms’ 문서에서 정의되는 용어로 선언되었고, 상세구분 요소들이 일종의 속성(properties)으로 간주되었다. 이를 통해 상세구분은 ‘ABC’와 같이 독립된 메타데이터 요소로써 기술한다.
DCMI의 모든 메타데이터 용어는 아래의 DCMI 네임스페이스(namespace)에서 고유한 식별성을 갖는다.

예를 들면, ‘title’ 요소는 dc:에서 "http://purl.org/dc/elements/1.1/title" 또는 dcterms:의 "http://purl.org/dc/terms/"에서 Uniform Resource Identifier(URI) 형태로 정의된다. 이외에도 다양한 주제 분야의 커뮤니티들의 요구를 반영해서 ’Audience’와 같은 상세구분 속성들이 도출되었다. 그러나 이러한 요소들은 반드시 DC Usage Board의 승인이 필요하다.

통제 어휘(Controlled Vocabulary)

통제 어휘는 더블린 코어 메타데이터 요소의 의미 구조를 정의하는데 매우 중요한 역할을 한다. DCMI 커뮤니티는 메타데이터 구문에 들어가야 하는 값(value)을 관리하기 위해 ‘인코딩 스킴(encoding schemes)’을 정의하였다. 예를 들어, ‘언어(Language)’에 대한 메타데이터 값을 입력하는 방법에는 자연어도 있지만, “English” “en” “eng” 나 “en-US”와 같은 통제어를 사용할 수도 있다. 만약 ‘언어’에 대한 통제어를 국제표준 ISO639-2, Codes for the Representation of Names of Languages에 준하여 기술하면 영어(English)는 코드 “eng”로 기술한다.

인코딩 스킴은 어휘 인코딩 스킴과 구문 인코딩 스킴으로 구분할 수 있다. 먼저, 어휘 인코딩 스킴은 특정 요소에 대한 전거형 어휘(통제어)들을 제공한다. 미의회도서관주제명표목(LCSH)와 의학주제명표목(MeSH), 국립중앙도서관 주제명표목(NLSH)과 같이 일반적으로 사용되는 주제명표목과 듀이십진분류법(Dewey Decimal Classification, DDC), 국제십진분류법(Universal Decimal Classification, UDC), 미의회도서관분류법(Library of Congress Classification, LCC)와 같은 분류체계, DCMI Type Vocabulary와 같은 DCMI(Dublin Core Metadata Initiative)가 만든 용어, 기타 특수 스킴들이 해당된다. 다음으로, 구문 인코딩 스킴은 요소의 값을 일정한 규칙에 따라 기술하기 위한 표준화된 방법을 제공한다. 예를 들어, “2007-11-08”은 ISO 8601의 W3CDTF(W3C Encoding Rules for Dates and Times) 방식을 따르는 것이다. 이러한 인코딩 스팀은 해당 값의 의미를 2007년 11월 8일로 해석할 수 있는 일종의 근거를 제공한다.

다음은 더블린 코어 메타데이터 요소별 상세구분과 인코딩 스킴에 대해 정리한 표이다.
요소 상세구문 인코딩 스킴
Title(주제) alternative  
creator(제작자)    
subject(주제)   DDC, LCC, LCSH, NLM, UDC, MESH
description(설명) tableOfContents, abstract  
publisher(출판사)    
contributor(기여자)    
date(날짜) created, valid, issued, modified, dataCopyrighted, dataSubmitted, available, dataAccepted W3CDTF
type(유형)   DCMIType
format(형식) extent, medium IMT
identifier(식별자) bibliographicCitation URI
source(출처)   URI
language(언어)   RFC4646, ISO639-2, ISO639-3, RFC1766, RFC3066
relation(관계) isVersionOf, isReplacedBy, isRequireBy, isPartOf, inReferencedBy, isFormatOf, conformsTo, hasVersion, replaces, requires, hasPart, references, hasFormat  
coverage(범위) spatial, temporal Box, Point, Period, ISO3166, TGN, W3DCTF
rights(저작권) accessRights, license