Sign In
📄

Document OCR

🌐
혹시 사진이나 파일로만 있어서 텍스트로 재활용하기에 어려운 자료가 있으신가요?
Document OCR 툴을 이용해서 사용할 수 있는 텍스트로 추출하세yo

1. Document OCR이란?

AI 문서 추출 기능은 이미지나 PDF 등 다양한 문서 파일에 포함된 제목, 본문, 표, 칼럼 등의 정보를 자동으로 인식하고 추출하는 AI 도구입니다.
이 기능은 롯데이노베이트가 자체 개발한 IDP(Intelligent Document Processing, 지능형 문서 처리) 기술을 기반으로 작동하며, 사람이 직접 입력하거나 복사하기 어려웠던 문서 내 지식을 AI가 자동으로 분석·변환하여 재활용 가능한 데이터로 전환합니다.
이를 통해 기존에 활용이 어려웠던 문서 자료들까지 손쉽게 검색, 재사용, 분석할 수 있어 지식 자산의 활용성을 극대화할 수 있습니다.

이럴 때 활용하면 좋아요

(1) 텍스트를 인식할 수 없는 PDF 파일이 있을 때

겉보기에는 텍스트가 포함된 것처럼 보이지만, 실제로는 검색(Ctrl + F)이나 복사가 되지 않는 PDF가 있습니다.
이런 경우 AI 문서 추출 기능을 사용하면 문서 내 텍스트를 자동으로 인식(OCR)하고 추출할 수 있습니다.

(2) 문서 원본 파일은 없고 촬영 또는 스캔본만 있을 때

외부 기관이나 현장에서 받은 문서가 스캔 이미지 형태로만 존재하는 경우,
AI가 이미지 내 텍스트와 표를 자동으로 식별·변환하여 디지털 문서 형태로 재구성할 수 있습니다.

(3) 문서 내 표나 칼럼을 다른 문서에 재활용하고 싶을 때

기존 문서에서 발견한 표나 데이터 일부를 내 문서에 그대로 활용하고 싶은 경우,
표 단위로 추출하여 복사하거나 표 단위로 추출하여 복사하거나 JSON, Markdown, TXT, HTML 형태로 내보내기할 수 있습니다.

(4) 영수증, 계약서 등 문서 내에서 원하는 정보만을 추출하고 싶을 때

영수증, 견적서, 계약서 등 일정한 형식을 가진 문서의 주요 필드(금액, 날짜, 항목 등)를 자동으로 추출하여 JSON 또는 Excel(.xlsx)로 다운받을 수 있습니다.
💡 Document-OCR 기능을 활용하면, 사람이 수작업으로 입력하던 반복 업무를 자동화하고
데이터를 체계적으로 수집·분석할 수 있습니다.

2. Document-OCR 사용법

AI 문서 추출은 2가지 기능을 제공합니다

(1) 문서 추출

보고서, 제안서, 논문 등 텍스트 중심의 문서에서 텍스트와 문서정보를 추출할 때 사용합니다.
문서의 구조를 자동으로 인식하여 제목, 본문, 표, 인용구 등 주요 텍스트 요소를 식별하고 다양한 형식으로 변환합니다.
지원 포맷: Plain Text, Markdown (md), JSON, HTML
주요 기능:
문서 구조(제목, 본문, 표 등) 자동 인식
인식된 내용을 텍스트 기반 포맷으로 변환
문서 요약, 편집, 검색, 지식화에 활용 가능
예시: PDF 보고서에서 본문 텍스트와 표를 추출하여 Markdown 문서로 변환

(2) 정보 추출

영수증, 등록증, 계약서 등 정형 데이터 기반 문서를 처리할 때 사용합니다.
문서에서 행·열 (Table) 형의 추출하고 싶은 정보를 정의하면 원하는 정보를 추출할 수 있습니다.
지원 포맷: JSON, Excel(.xlsx)
추가 기능:
데이터 스키마 정보(text, number 등 타입) 자동 추출
표나 필드 단위의 정형 데이터 인식
ERP, 내부 DB, 또는 외부 시스템 연동에 용이
예시: 영수증에서 '거래일자, 품목, 금액'을 인식해 Excel 데이터로 추출

(3) UI 설명

2-1. 문서 추출 기능 사용법

(1) 파일 업로드

추출하고자 하는 파일을 업로드 합니다.
❗
파일 업로드 관련 유의사항
PDF:
PDF는 1건만 업로드 가능합니다.
문서의 분량이 10 페이지 이상이어도 첫 10페이지만 파싱 됩니다.
10 페이지 이상일 경우, 여러 번 나누어 실행해야 함.
텍스트가 검색되지 않은 PDF도 업로드 가능합니다
[텍스트가 검색되지 않은 경우]
비검색형 PDF (Non-searchable PDF): 텍스트는 파일 내에서 보이나 찾기 (Ctrl + F) 또는 드래그 해서 텍스트가 선택되지 않는 경우
스캔된 문서: 종이 문서를 스캔하여 텍스트가 보이지 않는 경우
이미지:
최대 10장까지 업로드할 수 있습니다
jpg, jpeg, png 파일 형식을 지원합니다.

(2) 추출 결과 확인하기

파일 업로드 후, 우측 하단 '1건(n-page) 추출하기'를 클릭하면 문서 내에 텍스트 추출이 가능합니다.
① 페이지 확인: 추출된 문서의 원본을 확인합니다. 확대, 축소, 이미지 삭제 등을 수 있습니다
② 페이지 선택: 결과를 확인하고자 하는 페이지를 선택합니다.
③ 추출 결과 확인: 인식 및 추출된 결과를 확인합니다.
제목 (Heading) , 표(Table), 불렛포인트(Bullet) 등 포맷화된 텍스트(Formatted Text)를 확인할 수 있습니다.
Plain Text, JSON, Markdown, HTML 등 4가지 형태로 추출된 텍스트를 확인할 수 있습니다.
④ 추출 결과 확인 및 다운로드
다운로드: plain text, markdown (md), json, html 등 파일의 형태로 다운 받습니다.
해당 추출 결과 다운로드: 해당 슬라이드의 결과를 다운로드 합니다.
추출 결과 전체 다운로드: 전체 (최대 10건)에 대해서 결과를 다운로드 합니다.
복사: 선택된 추출 결과 및 형식에 대해서 클립보드로 결과물을 복사합니다.

주의사항

문서 안의 제목 및 소제목, 표, 본문(글머리 및 숫자기호) 위주로 추출됩니다.
텍스트가 정확히 추출이 안 되었을 수도 있으니, 추출 결과를 꼭 확인해주시길 바랍니다.

2-2. 정보 추출 기능 사용법

(1) 파일 올리기

추출하고자 하는 파일을 업로드 합니다.
다양한 파일이 있을 경우, 최대한 비슷한 속성의 파일들을 함께 더 좋은 결과를 경험하실 수 있습니다.
예를 들어 영수증은 영수증 끼리, 제품 영양 정보들은 영양 정보들끼리 파일을 업로드 하세요.
❗
파일 업로드 관련 유의사항
PDF:
PDF는 1건만 업로드 가능합니다.
문서의 분량이 10 페이지 이상이어도 첫 10페이지만 파싱 됩니다.
10 페이지 이상일 경우, 여러 번 나누어 실행해야 함.
텍스트가 검색되지 않은 PDF도 업로드 가능합니다
[텍스트가 검색되지 않은 경우]
비검색형 PDF (Non-searchable PDF): 텍스트는 파일 내에서 보이나 찾기 (Ctrl + F) 또는 드래그 해서 텍스트가 선택되지 않는 경우
스캔된 문서: 종이 문서를 스캔하여 텍스트가 보이지 않는 경우
이미지:
최대 10장까지 업로드할 수 있습니다
jpg, jpeg, png 파일 형식을 지원합니다.

(2) 추출 결과 확인하기

① 문서 뷰어: 추출하고자 하는 원본 데이터를 확인합니다.
② 데이터 추출 설정: 추출하고자 하는 테이블(Table)의 칼럼(열) 값, 설명 및 데이터 타입을 설정합니다.
❗
데이터 추출 설정 관련 유의사항
데이터의 항목(칼럼 column)명, 설명, 타입(텍스트, 숫자, 참/거짓 등)을 올바르게 입력해야 더 나은 Document OCR이 맥락을 더 잘 이해해서 올바른 목적과 형태의 데이터를 추출합니다.

3. 질의 응답

Q. 몇 장 까지 추출이 되나요?
이미지 (jpg, png 등)과 PDF파일 상관 없이 한 번에 10장까지 가능합니다.
10장이 넘어가는 PDF 파일의 경우 첫 10장까지만 추출 됩니다.
Copyright (C) 2025 LOTTE INNOVATE. All Rights Reserved.
updated: 2025-10-29