웹기록물 아카이빙 기반기술 연구 및 적용 시험
연구책임자 정준선 연구참여자 12명
연구기간 2010- 04- 01 ~ 2010- 11- 30 분야 전자기록
발간등록번호 11-1311153-000096-01
국문요약 정보생산 및 정보제공의 중심으로서 웹사이트가 핵심적 역할을 하고 있으며,특히 공공기관의 웹 사이트는 정부와 시민들 간에 주요 의사소통 및 정보 제공의 채널이 되고 있다.이로 인해 국민들 은 시공간의 제약에서 벗어나 자유롭게 대정부 민원을 처리할 수 있게 되었을 뿐만 아니라 웹사이 트에서 운영하는 동호회,포럼,게시판 등에 자유롭게 참여하여 의사소통을 함으로써 시공간의 제 약에서 벗어나 사회적 연대감을 누릴 수 있게 되었다.2008년 7월 28일자 IDG(InternationalData Group)의 보고서 내용을 보면 구글의 인덱스 페이지가 1조건을 돌파하였다고 이야기 하고 있듯이 정보 공유 수단으로서 데이터양의 급속도의 성장과 참여 및 의사소통 기록으로서 한 시대를 나타 내는 중요한 기록 유산인 웹기록물은 반드시 기록 보존되어야 한다. 본 연구는 지난해 연구에 이어 3개년 연구의 마지막 단계로서 지능형 웹크롤러의 초고속 수집 기능 및 데이터 정합성 기술 연구 개발,WACE 통합관리프로그램의 기능 확장 및 서비스 기술 연 구 개발,선행 연구된 웹기록물 보존포맷,메타데이터 등의 기반기술 고도화,데이터베이스 수집관 리 도구 연구 개발을 진행하였다. 지능형 웹크롤러의 초고속 수집 기능 및 데이터 정합성 기술 연구 개발에서는 잘못된 MIME 타 입 응답에 대한 해결 방법을 진행하였으며,WACE 통합관리프로그램의 기능 확장 및 서비스 기술 연구 개발에서는 NutchWax를 통한 검색형 서비스 기능과 통계 기능을 연구 개발하였으며,선행 연구된 웹기록물 보존포맷 메타데이터 등의 기반기술 고도화 연구에서는 웹기록물에 대한 수집 포 맷/장기보존 포맷/서비스 포맷에 대한 연구를 진행하였고 마지막으로 데이터베이스 수집관리 도구 연구 개발에서는 현재 국내 공공기관에서 가장 많이 사용하고 있는 몇 가지 데이터베이스로부터 보존용 데이터로 아카이빙 할 수 있는 데이터베이스 수집관리 도구에 대한 실제 구현을 진행하였 다. 본 연구에서 개발된 내용을 국가기록원내에 설치된 테스트베드에 추가로 설치하여 폐지 기관 또 는 현재 운영중인 기관들을 대상으로 수집 테스트 및 분석을 진행하였다.
영문요약 Today,web isplaying a centralrole in creating and providing information.Especially public organizationareusingwebasamainchanneltoprovideinformationtoandcommunicatewith people.Asaresult,peoplearenow abletonotonly processcivilserviceofthegovernment through the web without the limitation of time and space,but also socialize more by participating freely in web society,forum,and bulletin board,etc.In addition,asreported by IDG (InternationalDataGroup)onJuly28th,2008thatGooglehadindexedmorethan1trillion pages,data amountfor information sharing are also increasing very fast.So web records shouldbepreservedasaheritagetoreflectthetimes. Inthisresearch,asthefinalstageofresearchworkscontinuedduring last3years,includes R&D forhigh speed data collection and data consistency technology forsmartweb crawler, R&D foradditionalfunctions and service technology forWACE comprehensive management program,R&D forimprovementofcoretechnologyrelatedtowebrecordarchiving formatand metadata,etc.ofthepreviousresearch,andR&D fortooltocollectandmanagedatafrom DB. In R&D for high speed data collection and data consistency technology for smart web crawler,westudiedthesolutionaboutincorrectresponsetoMIME type.InR&D foradditional functions and service technology for WACE comprehensive management program,search servicefunction using NutchWax and statisticfunction arestudied.In R&D forimprovement ofcoretechnology related toweb record archiving formatand metadata,etc.oftheprevious research,research worksaboutthecollection format,archiving format,and serviceformatfor webrecordsareconducted.In R&D foratooltocollectandmanagedatafrom DB,wehave actuallydevelopedatoolthatcancollectdatafrom DBsusedwidelyinpublicorganizationsof Koreaandarchivethedata. The outputs of this research are tested and analyzed in collecting data of the abolished organization orcurrently active organization by installing them into the testbed ofNational ArchiveofKore
