본문으로 이동

모바일 전용 메뉴 호출

R&D연구보고서

소장기록물 특성을 고려한 OCR 인식 성능 개선방안 연구
연구책임자 강지홍 연구참여자
연구기간 2020- 04- 01 ~ 2020- 11- 30 분야 전자
발간등록번호
첨부파일
국문요약 본 과제는 비전자기록물 중 타자기록물에 대하여 OCR 성능을 평가하고, OCR 성능을 개선하는 방안을 연구한다. 이를 위해서, 테스트베드에 3가지 OCR 모델(Lomin OCR, Tesseract, ABBYY)을 개발 및 구축하였다. 그리고, 타자기록물 1970장에 대한 이미지 파일과 Ground Truth 데이터를 가공하여 데이터셋화하였다. 이 중 394장을 임의 추출하여 평가데이터셋으로 지정하였다. 테스트베드에서는 GUI 툴을 활용해 본 데이터셋을 열람/수정/가감을 할 수 있다. 최근 OCR 모델을 딥러닝 기반으로 만드는 것이 인식 정확도 측면에서 유리하므로, Lomin OCR 모델은 딥러닝 모델 기반으로 타자기록물 학습데이터셋 1576장을 학습시켜 개발되었다. 결과적인 모델 성능은 Lomin OCR 이 E2E F1 score 기준으로 98.3%로 높은 정확도를 나타냈다. 타자기록물과 같이 일반적이지 않은 글자 형태에 대해서, 딥러닝 기반으로 특정 데이터셋에 대해 학습된 모델이 상용 솔루션 대비 더 우수한 성능을 보이는 것을 확인하였다. 위 성능은 공인시험 기관을 통해 확인되었다. 디지털화 프로세스 연구로, CAMS 내 비전자기록물 등록 시 OCR 적용 방안을 제시하였고, OCR 결과를 XML, PDF 파일 형태로 저장하고 수정할 수 있는 시스템을 제안하였다. OCR 결과로 생성된 PDF 파일을 검색 엔진에 제공하여 전문 검색, 키워드 추출, 색인 등록에 활용이 가능함을 확인하였다. 이를 위한 CAMS 내 시스템 기능 명세를 정의하여 시스템 개발에 필요한 구체적인 요건을 도출하였다. OCR 데이터셋 구축 효율화를 위한 특허를 출원하여 대규모 전사(Transcription) 작업 효율을 향상시킬 수 있는 방안을 제시하였다. OCR 결과를 활용한 딥러닝 기반의 문서 분류기와 단어간 관계 추출 방법을 제시하여, 소장기록물에 적용 시 기록물에 대한 정보 접근성을 제고할 수 있음을 확인하였다.
영문요약 This study focuses on evaluating accuracy of OCR models on typed archival documents and improving this accuracy by developing a deep-learning-based OCR model. On a testbed, three OCR models are installed; Lomin OCR, Tesseract, and ABBYY. The test set for evaluation is 394 images, which are randomly picked out of 1,970 typed archival documents. Ground truth word boxes are annotated on these images for training and evaluation. Testbed also supports adding/removing images and revising word boxes on the datasets through GUI. We applied deep learning techniques into Lomin OCR, which is trained against 1,576 images, and some other OCR datasets. Lomin OCR demonstrated high accuracy of F1 score 98.3%. We conclude that, for characters of atypical shape as in typed archival documents, target-trained model shows higher performance than general models. The official benchmark test was executed by a certified test agency. This study suggests how to integrate OCR engines into CAMS, and the desirable formats for archiving the OCR results. The PDF files produced by the OCR process can be input to the search engine, in order for full text search, keyword extraction, and indexing. We developed System Functional Requirement for suggested OCR capabilities. Regarding academic achievements, we published a patent application for boosting OCR dataset building processes. In addition, we suggested few-shot-based document classifier and word relation extraction based on OCR results, which can be applied to archival documents
이전글 전자기록물 공개재분류를 위한 비공개정보 필터링 및 마스킹 기술 적용방안 연구
다음글 블록체인 트랜잭션과 스마트 컨트랙트 활용 기록관리 적용방안 연구