본문으로 이동

모바일 전용 메뉴 호출

R&D연구보고서

기록물 OCR 데이터셋 구축 및 한글 필기체 인식 성능 개선 연구
연구책임자 강지홍 연구참여자
연구기간 2021- 04- 22 ~ 2021- 11- 30 분야 전자
발간등록번호 11-1741050-000078-01
첨부파일
국문요약 1. 연구개발과제의 최종 연구 개발 목표 - 기록물 OCR 데이터셋(5,000면 규모/75만 단어) 구축 - AI OCR 기반 한글 필기체 기록물 문자탐지 88.76%, 문자탐지 및 인식성능 86.73% 달성 - 소장기록물 유형별 OCR 인식 성능 검증 - 한자 OCR 기술 동향 조사 및 한자기록물 OCR 적용 가능성 검토 - 2020년 구축 OCR 테스트베드와 연구결과물 연동 - 학술지 논문 1편 투고 및 국내외 학술발표 1편 2. 연구개발 과제 목표 달성도 - 필기체 중심의 기록물 OCR 데이터셋(8,416면/635,799단어) 구축 완료: 초기 목표 대비 면수 기준 68% 초과, 단어수 기준 14% 미달 (선별된 실데이터의 면당 평균 단어수(68.8)가 예상치(150)보다 적어, 구축 데이터 수량을 조정함, 약 500만 건 이상의 타 OCR 데이터셋을 함께 활용하여 보완) - 딥러닝 기반의 문자 탐지 모델 및 문자 인식 모델 학습 결과, 문자탐지성능 98.38%, 문자 탐지 및 인식성능 89.92% 달성 → 초기 목표치 대비 탐지성능 9.62%, 문자 탐지 및 인식성능 3.09% 초과 달성 - 2020년 OCR 테스트베드와 신규 데이터셋 및 OCR 모델 연동 완료 - 국내 학술발표 1편 완료, 해외 학술지 논문 1편 투고 예정 3. 연구 개발 내용 및 결과 - 데이터셋 구축 과정에 오토라벨링 적용하여, 단위 시간당 작업량 75% 향상 - 국내외 문자인식기술 동향 조사 - 딥러닝 기반 문자탐지모델 구현: EfficentDet 기반의 필기 영역 탐지 뉴럴넷 구현 - 딥러닝 기반 문자인식모델 구현: CNN + Transformer기반의 필기 문자 인식 뉴럴넷 구현 - 한자 OCR 기술 동향 조사 및 한자기록물 OCR 적용 가능성 검토 - 소장 기록물 유형별(한글 인쇄체/타자체/필기체) OCR 인식 성능 검증 진행 4. 기대 효과 - 한글 수기 기록물에 대한 OCR 적용을 통해 이미지 형태로 저장된 기록물의 텍스트 검색 가능 및 전문 활용도 향상, 기록관리 업무 효율성 증대 기대
영문요약 1. The final goal of the project - Construction of records OCR dataset (5,000 pages / 750,000 words) - Achieve 88.76% of character detection performance and 86.73% of character detection and recognition performance in Korean handwritten records based on AI OCR - Verification of OCR recognition of performance by type of records - Study on Chinese character OCR technology trends and review the applicability of OCR for Chinese character records - Integrating new dataset and OCR models with the testbed built in 2020 - Submission of 1 paper to a journal and 1 academic presentation 2. R&D task goal achievement - Construction of handwritten document OCR dataset (8,416 pages/635,799 words) completed: Exceeding the initial target by 68% based on the number of pages and below the 14% based on the number of words (The average number of words per page of the selected real data, 68.8, was lower than expected (150), so the amount of so construction data was adjusted) - Deep learning-based character detection model and character recognition model training results: achieved 98.38% of character detection performance, 89.82% of character detection and recognition(end-to-end) performance → Compared to the initial target, detection performance exce3eded 8.21% and character detection and recognition performance by 2.31% - Completed the integration of OCR testbed with new dataset and OCR model - Completed one domestic academic presentation, and one thesis to be submitted to and international academic journal 3. Research and development contents and results - By applying auto-labeling to the data set construction process, the amount of work per unit time is increased by 75% - Research on the recent trends in character recognition technology - Implementation of EfficientDet-based handwritten character detection neural net - Implementation of handwritten character recognition neural net based on (CNN + Transformer) architecture - Study on Chinese character OCR technology trends and review the applicability of OCR on Chinese character records - Verification of OCR recognition performance by type of Korean records(printed/typed/handwritten) 4. Expected effect - Through the application of OCR to the handwritten records in Korean, it is expected that text search of records stored in the form of images will be possible, improve the professional use, and increase the efficiency of records management
이전글 보존 종이 기록물 부착미생물의 유해성 분석 및 소독 관리 고도화
다음글 빅데이터 분석기술을 활용한 자치단체 기록관리기준표 현황분석 및 개선방안 연구