스캔된 문서나 사진을 PDF로 만들면 텍스트 검색이나 복사가 불가능합니다. 이를 해결해주는 구세주가 바로 OCR(Optical Character Recognition)입니다.
OCR의 작동 원리
OCR 엔진은 이미지 속의 픽셀 패턴을 분석하여 우리가 읽을 수 있는 문자로 변환합니다. 최근에는 딥러닝 기술이 적용되어 손글씨나 복잡한 표 내부의 글자도 높은 정확도로 인식합니다.
인식률을 높이는 방법
가장 중요한 것은 원본 이미지의 선명도입니다. 스캔 시 300 DPI 이상의 설정을 권장하며, 종이가 기울어지지 않게 스캔하는 것이 중요합니다.
OCR 이후의 검수 단계
아무리 뛰어난 OCR이라도 오타가 발생할 수 있습니다. 특히 숫자나 인명, 지명 등은 변환 후에 반드시 원본과 대조하여 검수하는 과정이 필수적입니다.