본문으로 이동

모바일 전용 메뉴 호출

R&D연구보고서

웹기록물 아카이빙 기반기술 연구 및 적용 시험
연구책임자 정준선 연구참여자 2명
연구기간 2008- 05- 19 ~ 2008- 11- 30 분야 전자기록
발간등록번호 11-1311153-000085-01
첨부파일
국문요약 공공기관에서 서비스되고 있는 전자 행정 자료, 국정 홍보물등의 웹기록물들 역시 후대에 전승되어야 할 중요한 사료임에도 수집, 보존, 활용 방안이 없이 소멸되고 있는 실정이다. 본 연구에서는 국가의 각 주요기관에서 생산하고 있는 웹기록물들에 대해 체계적 으로 저장, 관리, 보존, 전승하기 위하여 웹기록물 보존 연구를 진행하였다. 현재 국내의 기록물 보존 방법은 특정한 규약 없이 각 수집 기관의 보존 정책에 의해 관리되고 있으며 수집된 기록물의 상호 교환시 필요한 데이터의 포맷 및 메 타데이터에 대한 정의등이 부재한 상황이다. 이를 해결하기 위하여 저장 표준으로 IIPC(international internet preservation consortium)의 WARC(Web ARC) 포맷을 기반으로 전자기록물 준현용/비현용 기록 메타와 호환성을 유지할 수 있는 메타데 이터를 추가함으로써 한국형 기록물 보존 방법을 제시하였다. WARC로 구성된 웹기록물은 단순히 저장되는 것뿐만이 아니라 저장된 기록물의 내용 및 연결 정보등을 확인하고 운영자(operator)가 메타데이터를 추가할 수 있는 기능을 함께 구현하였다. 또한 웹기록물을 구성하는 내용을 직접 전할 경우 일반적 으로 웹 응용 프로그램의 소스등을 포함하게 되는데 이 경우 또한 보존을 위한 특 정 포맷이 존재하지 않고 있어 이를 WARC 포맷으로 저장하여 이후 이 기록을 이 용하여 사이트를 복원할 수 있는 기초자료로 활용할 수 있도록 구성하였다. 본 연구는 현재 웹기록물을 수집하기 위한 시스템 환경과 원격 수집(Remote Harv esting)을 수행할 수 있는 기술들에 대한 개발을 진행하고 테스트베드를 구축하여 몇몇 웹 사이트를 대상으로 한 수집 및 평가를 진행하였으며 웹기록물의 구성 비 율의 통계 기능을 통해 사이트의 구성 특성들을 확인할 수 있었다. 하지만 심층 웹 (deep web)과 다양한 구현 환경을 모두 수용하기 위해서는 끊임없는 연구와 조사 가 수반되어야 하며 효과적이고 가치 있는 웹 자원을 수집하기 위해서는 대상 기 관과의 유기적인 협력 관계를 통해 웹기록물의 수집을 진행하여야 한다.
영문요약 The web documents, such as electrical administrative documents provided by p ublic institutes, the materials for publicity campaign by government, etc., are di sappearing in the absence of the methods for collection, preservation (archivin g) and utilization although they are significant historical records that should be transmitted from generation to generation. We were working on the research on web archiving method in order to syste matically save, manage, preserve and transmit web records, produced by the g overnment agencies. In the current domestic method of preserving the web records, there are no st andard regulations such as the definitions of data format and metadata, etc. ne cessary for the exchange of the records collected. So each institute collects an d manages the web records in its own reservation policy. In order to solve this, we are proposing a web archiving method for the relate d environment in Korea. This method includes metadata, based on WARC(web ARC) format of IIPC(International Internet Preservation Consortium), in the pre servation standard. Also this metadata can be compatible with electrical record semi-current/ non-current metatdata. Web records based on WARC are not only being saved but also provided with functions that allow the operator to verify the content and the link information of the preserved records and add metadata. Also if the content for web record s is directly delivered, it generally includes the source of web application, etc. Because no specific standard format for archiving exists for this case also, we made the records be saved as WARC format and be used as basic information for web site restoration. In this research, we have developed the system environment for web archiving and the technologies for remote harvesting and built a testbed. With this testb ed, we have preceeded the collection and evaluation on some web sites and we re able to verify their features through the statistics function about the ration of each web records component. However, in order to include all of deep web and various web environment, further research and investigation are required. Also to collect valuable web records effectively, it is necessary a continuous c ollection for web records through the cooperative relationship
이전글 서고 무인 대량 소독 자동화 기술 개발
다음글 전자기록관리 재난복구체계 표준모델 연구