본문 바로가기
  • 머니100스토리
재테크 및 부업/데이터라벨링

책표지 OCR 한글 및 숫자 바운딩

by 머니100스토리 2023. 4. 4.
728x90
반응형

책표지 OCR 한글 및 숫자 바운딩
책표지 OCR 한글 및 숫자 바운딩

오늘은 데이터 라벨링 중 하나의 기법인 OCR에서 책표지 한글 및 숫자 바운딩하는 방법에 대하여 알아보겠습니다.


바운딩 "AI로 피자 만들기"

바운딩 AI로 피자 만들기
바운딩 AI로 피자 만들기


데이터 라벨링 OCR 개념

OCR(광학문자인식)이란?

영상이나 이미지상의 텍스트를 기계가 읽을 수 있는 문자로 변화하는 라벨링 기법입니다.

OCR 영상데이터 라벨링 방법

영상 데이터는 이상행동 탐지나 동작분석, 감정 인식 등에 활용되는 것으로 보통 수집의 경우에는 이미지 수집과 마찬가지로 작업대상과 기준에 맞추어 영상을 찍어서 업로드하는 방식으로 진행합니다. 영상 데이터의 라벨링 방법에는 영상 속에서 작업대상을 박스에 넣어주고 기계가 읽을 수 있게 텍스트로 작성해 주는 라벨링 기법이 있습니다.

OCR 텍스트 데이터 라벨링 방법

텍스트 데이터는 텍스트, 즉 문자로 구성되어 있는 데이터로 OCR에서는 책이나 이미지에 있는 문자를 기계가 읽을 수 있는 텍스트로 작성해 주는 라벨링 방법입니다.

OCR의 활용

이러한 작업 결과물은 번역 서비스나 고서 데이터베이스화, 비대면 인증서비스, 등 문자 인식이 필요한 다양한 기술 개발에 활용되고 있습니다.


ISPD에서 개발한 AI 비대면 학습지 플랫폼

아이에스피디 정한별 대표님은 공부하기 싫어하는 아이들이 공부를 쉽고 재미있게 할 수 있도록 도와주는 AI 비대면 학습지 플랫폼을 개발하였습니다. 스마트 패드에서 터치하는 방식이 아닌 학습지 위에서 실제로 가위바위보와 같은 다양한 게임과 학습 활동을 할 수 있으며 손글씨나 필기도 인식하고 교사와 양방향 수업을 진행할 수 있는 비대면 플랫폼입니다.

학습지위에 학생이 쓴 글을 보고 실시간으로 교사와 소통이 가능하며 교사의 자유로운 컨트롤을 통해 진정한 비대면 학습이 가능한 훌륭한 플랫폼입니다. AI를 통해 온라인 교육의 문제점을 보완하고 새로운 형태의 비대면 교육 studynet를 적용하였습니다. 그리하여 아이들은 새로운 형태의 학습을 경험하게 되고 교사는 온라인에서도 한층 가깝게 학생과 소통할 수 있습니다.


책표지 OCR 데이터 라벨링 방법

OCR은 데이터 라벨링 중 한 가지 기법으로 책 표지의 제목을 작업 기준에 맞게 태깅을 한 다음 해당 내용을 기계가 읽을 수 있도록 전사하는 작업입니다. OCR은 텍스트를 기준에 맞게 바운딩하는 작업과 바운딩 대상에 맞는 항목을 선택하는 태깅, 바운딩 대상을 텍스트로 입력해 주는 전사, 등 3가지를 같이 진행합니다.

오늘 작업할 내용은 책 표지 이미지에서 한글과 숫자를 바운딩하는 작업입니다.

먼저 책 표지 이미지에서 책 제목을 확인합니다.

바운딩 : 한글과 숫자를 바운딩합니다. 한글과 숫자가 바운딩 대상에 속한다 할지라도 전체를 한 박스에 담아서는 안됩니다.

한글과 숫자는 각각 따로 바운딩을 해야 합니다.

색상이 다른 글자는 따로 바운딩을 해줍니다.

띄어쓰기가 되어있는 글자는 따로 바운딩해 줍니다.

줄 바꿈이 있는 글자는 따로 바운딩을 해야 합니다. 

문자 사이에 특수 기호가 있는 경우 특수기호 앞, 뒤로 나누어 따로 바운딩을 해야 합니다.

작업 제외대상 : 한글과 숫자 이외의 모든 문자, 즉 외국어나 느낌표, 물결표, 가운뎃점, 등 문장부호는 작업대상이 아닙니다. 바운딩을 할 때는 최대한 여백이 없도록 조절해 줍니다.

태깅 : 해당 글자가 한글과 숫자 중 어느 것에 해당되는지 우측 작업창에서 선택해 줍니다.

전사 : 바운딩 한 한글과 숫자를 우측이 대상내용 입력란에 이미지에서 보이는 대로 입력해 주고 저장한 다음 제출합니다.

Select 선택버튼을 클릭한 후 바운딩 박스를 선택하면 우측에서 해당 박스의 작업 내역을 확인할 수 있고 수정도 가능합니다. 만약 수정할 사항이 없더라도 <저장> 버튼을 눌러주어야 다음 작업으로 넘어갈 수 있습니다.

작업불가 : 한글과 숫자가 아닌 영문이나 다른 문자만 있는 경우 작업대상이 아니므로 작업을 진행해서는 안됩니다. 

이때는 작업대상이 없기 때문에 바운딩은 물론, 태깅, 전사 또한 진행하지 않고 작업제출 옆 <작업불가> 버튼을 클릭한 다음 사유를 입력하고 제출해야 합니다.

작업불가
작업불가


오늘은 이렇게 데이터 라벨링 기법 중 OCR에 대하여 알려드렸습니다.

728x90
반응형

댓글