OASIS - 온라인 디지털지적문화유산의 아카이빙

웹 아카이브(WARC) 파일 포맷으로 저장된 웹 페이지들을 보기 위해 인터넷 아카이브사가 개발한 도구입니다.

WARC는 웹사이트 수집 시 저장되는 보존용 파일 포맷으로 기존의 인터넷 아카이브의 ARC 파일포맷(ARC_IA)의 개정판입니다. 아카이빙 기관의 수집과, 접근, 교환 요구를 지원하기 위해 예전 형식을 일반화하였고, 수집일자, 수집방법 등의 기본적인 정보와 MIME 타입, 자원의 크기 등과 같은 수집한 자원에 관한 메타데이터도 축적하여 아카이빙 된 컬렉션의 신뢰성과 동일성을 확보하고, 일차콘텐츠(primary content)와 관련된 이차콘텐츠(secondary content)에 대한 메타데이터 할당을 기록하고 약어와 같은 중복 이벤트와 최종 변경 일자 등을 감지하는 등 웹 아카이브의 장기이용을 위한 정보를 수록합니다.

헤리트릭스는 2003년 인터넷 아카이브사와 노르웨이 국립도서관이 함께 개발한 웹사이트 수집을 위한 오픈 소스 웹 크롤러입니다. 초기에는 대표적인 아카이브 크롤러로 사용되지 않았으나 알렉사 인터넷사 및 인터넷 아카이브사를 통해 확장되어 최근에는 대부분의 콘텐츠를 수집하는 도구가 되었습니다.

현재 국립중앙도서관 OASIS 시스템에서는 웹사이트 아카이빙을 위해 Heritrix 3.4 버전을 사용하고 있습니다.

국제인터넷정보자원보존기구는 "2003년 6월 전 세계에서 생산되는 인터넷 정보자원을 수집·보존하고, 급변하는 정보환경에 대처방안을 마련하여 장기적으로 접근을 가능하게 하며, 국제적인 아카이브 생성을 위한 공통의 도구(tool), 기술 및 표준을 개발하고 이용을 촉진하기 위해 설립된 기구로 2022년 6월 기준 35개국 52개 기관이 회원으로 참여하고 있습니다.

주요 업무는 웹 크롤러(Heritrix) 개발과 데이터 저장 형식(WARC) 등 규격의 표준화 주도, 검색 및 자료 뷰잉시스템 개발 등 웹아카이브의 다양한 과제 연구, 웹아카이브의 사례와 개발 성과 공유, 수집, 검색, 보존, 컬렉션개발 분야의 워킹그룹 운영 및 공동 연구 개발 등입니다.

국립중앙도서관은 2008년 10월 정회원으로 가입하여 활동하고 있으며, 코로나19 등 국제협력형 컬렉션 구축에 참여하고 있습니다.

홈페이지: http://netpreserve.org

국립중앙도서관은 도서관법 제22조(온라인 자료의 수집)에 의거하여 웹사이트와 웹자료를 수집하며, 수집된 웹사이트와 웹자료는 저작권법의 보호를 받습니다.

“관외이용”

수집된 웹사이트 소유자(저작권자)가 ‘이용 동의’를 한 것으로 국립중앙도서관과 그 밖에 장소에서도 해당 웹사이트의 콘텐츠를 이용할 수 있습니다.
오아시스에서는 이러한 범주의 웹사이트와 웹자료를 “관외이용”으로 표시합니다.

“국립중앙도서관”

웹사이트나 웹자료 소유자(저작권자)의 비공개요청이나 별도의 ‘이용 동의’가 없을 경우 국립중앙도서관 내에서만 수집된 웹사이트를 이용할 수 있습니다.
오아시스에서는 이 범주의 웹자원을 “국립중앙도서관”으로 표시합니다.

“비공개”

OASIS의 웹수집 로봇은 웹자원 수집을 위해서는 기본적으로 자원들간 연결된 HTML Link에 의해 수집대상 자원에 접근합니다. DB로 제작된 웹사이트, 플래쉬 및 자바로 작성된 동적인 사이트는 웹로봇이 수집대상 자원의 LINK 정보를 추출할 수 없으므로 수집할 수 없습니다.
수집된 일부 웹자원이 깨져 보이거나 페이지가 보이지 않는 경우는 이러한 이유 때문이며, 동적인 자원의 수집기술에 대한 다양한 연구가 진행되고 있습니다.

국립중앙도서관에서는 수집 로봇이 각 웹사이트를 안전하고 정확하게 수집·보존할 수 있도록 개발자들에게 웹사이트와 웹페이지 구축 방법을 안내하기 위한 가이드를 마련하였습니다. 자세한 내용은 <오아시스 소개>자료실>웹사이트 구축 가이드> 페이지에서 확인할 수 있습니다.

OASIS는 온라인 디지털자원 수집지침에 의해 웹자원을 수집하고 있습니다. 기본적으로 장기적 보존 가치 있는 웹사이트, 웹문서, 이미지, 동영상 등의 온라인 디지털자원을 선택적 수집방법으로 수집하고 있습니다. 또한 대한민국 전체 도메인을 대상으로 포괄적 수집방법을 병행하고 있습니다. 아울러 국립중앙도서관은 당대의 지식문화유산인 웹자원의 손실을 막기 위해 웹 환경 변화에 따라 등장하는 다양한 소셜 플랫폼, 미디어 등 점차 수집 범위를 확대해나가고 있습니다.

국립중앙도서관은 웹사이트 소유자(저작권자)의 이해와 협력을 통해 동 사업을 효율적으로 추진하고 수집한 웹사이트를 외부 서비스하기 위해, 웹사이트 소유자(자작권자)에게 수집한 사이트에 대한 이용 동의 요청을 하고 있습니다. 웹사이트 관리부서 및 관리자에게 이메일 또는 우편, 팩스로 이용 동의 협조 문서를 보내드리며 해당 기관은 서비스 범위를 표시하여 회신하게 됩니다. 동의서상에 표시할 수 없는 사항이면 별도 의견을 보내주셔도 되며, 동의 내용에 대한 변경요청도 언제든지 가능합니다.

▶ 이용 동의서 등록 바로가기 → https://nl.go.kr/oasis/contents/O6050300.do

OASIS에서는 수집된 자원의 메타데이터을 기술하기 위하여, MODS(Metadata Object Description Schema: 미국의회도서관(LC)의 네트워크 개발 표준 부서에서 개발한 서지 기술 스키마를 기반으로 하는 XML로 구성된 디지털자원을 기술하기 위한 표준 메타데이터 스키마)를 사용하고 있습니다.

MODS는 다양한 형태의 자원에 대한 서지레코드를 생성할 수 있도록 하였을 뿐만 아니라, 도서관에서 주로 사용하는 MARC(machine readable catalog)와 비교적 단순한 DC(Doublin Core)를 절충하여 기존의 MARC 레코드를 변환할 수 있도록 고안된 것입니다.

수집 대상 웹사이트는 기본적으로 일 년을 주기로 재수집을 하게 되며, 주요 사이트나 이슈와 관련된 사이트는 1일, 일주일, 1개월, 3개월, 6개월 단위로 재수집하게 됩니다. 또한 특별한 사회적 이슈가 되는 사이트일 경우 매일 수집할 경우도 있습니다.

OASIS에서는 수집대상 웹사이트 내의 페이지들만 수집하고 있습니다.

수집 대상 사이트의 성격, 사이트에 담고 있는 내용에 따라 다를 수 있습니다. OASIS 는 기본적으로 3깊이(Depth)로 웹사이트를 수집하고 있으나, 이슈와 직접 관련 있는 페이지만 1깊이(Depth)로 수집할 수도 있고, 중요 사이트는 5깊이(Depth)까지 수집하기도 합니다. 웹사이트는 계층 구조로 되어 있어 수집할 때 크롤링 깊이를 지정합니다. 홈페이지에 직접 연결된 링크는 1깊이 이며, 하위 링크에 들어갈수록 깊이가 늘어납니다. 웹사이트 마다 최대 깊이기 다르지만 무제한 용량을 보존하기 어려우므로 1~5깊이 까지 설정하여 수집합니다.

국립중앙도서관

오아시스

국립중앙도서관

오아시스

[웹사이트 재생] 웨이백 머신(Wayback Machine) 이란?

[웹사이트 보존] WARC (Web ARChive) 파일이란?

[웹사이트 수집] 헤리트릭스 (Heritrix)란?

[국제 활동] 국제인터넷보존컨소시엄(IIPC: International Internet Preservation Consortium)이란?

[이용 범위] 국립중앙도서관 외부에서도 열람할 수 있는지?

[웹사이트 수집] 자바, 플래쉬 등 동적인사이트, DB로 제작된 Deep 웹사이트를 수집할 수 있는지 ?

[수집 대상] OASIS에서 수집/보존하는 온라인 디지털자원의 영역은 ?

[이용 동의] 이용 동의서 등록은?

[메타데이터] OASIS 온라인 디지털자원의 메터데이터 기술은 ?

[웹사이트 수집] 웹사이트의 수집빈도는 ?

[웹사이트 수집] 수집대상 웹사이트의 외부와 연결된 내용들도 수집되는지?

[웹사이트 수집] 웹사이트의 모든 깊이(depth)에 대해서 수집하는지 ?