목록OCR (2)
운동하는 공대생

1 Intro 이미지 분석, 텍스트 분석 등 다양하게 딥러닝 모델과 프로세스들이 각광받고 있는 요즘 Text Extraction 즉 이미지에서 텍스트 정보를 인식하고 데이터화하는 방식에 대한 연구를 진행하였고 내가 사용하였던 layoutlmv2 모델의 이론과 그리고 코드를 리뷰해보려고 한다. 2 Process 이미지에서 텍스트를 추출하는 방식을 간단하게 도식화 하자면 아래의 그림과 같다. 먼저 아래의 그림처럼 이미지에서 text 즉 글씨의 정보를 OCR 기법을 이용하여 단어의 위치와 범위를 bounding box 형식으로 구분하여 지정을 한다. 그 이후에 위치정보와 텍스트 정보를 이요하여서 Layoutlmv2 모델에 적용하고 모델을 학습시킨 후 그 단어가 어떤 layout 에 지정이 되는지를 예측하는 방..

Intro 프로젝트를 진행하면서 AWS에서 지원하지 않는 서비를 이용하기 위해서 다른 외부의 API를 호출해야 하는 일이 있었다. 이는 영수증 정보(이미지) 파일을 입력하면 파일에 있는 텍스트 정보를 추출하여 저장해주는 서비스이다. 이는 OCR이라는 기법이다. What is OCR Optical Character Recognition(OCR)[1] 보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어 들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다. 출처:https://namu.wiki/w/OCR Naver CLOVA OCR ..