Sign In

챗봇 업로드 문서 가이드

챗봇에 잘 작동하는 문서 올리기

챗봇을 잘 활용하기 위해서는 문서를 어떻게 잘 구성하느냐가 매우 중요합니다. 문서를 어떻게 작성하고 구성하느냐에 따라 챗봇의 답변 품질이 크게 달라질 수 있기 때문이죠 마치 도서관에서 책을 찾을 때처럼, 챗봇도 잘 정리된 자료가 있어야 우리의 질문에 더 정확하게 답변할 수 있거든요!

1. 왜 문서 작성법이 중요할까요?

여러분은 혹시 ChatGPT 같은 AI 챗봇에게 문서를 주고 답변을 주고 정말로 문서를 '이해'한다고 생각하시나요? 사실 그렇지 않답니다.
챗봇은 우리처럼 문서를 읽고 이해하는 게 아니라, 우리의 질문과 가장 관련 있는 문서 조각을 찾아서 답변을 만들어내는 거예요.

1-1. 챗봇은 문서를 어떻게 읽을까?

RAG 기술이 작동하는지 어떻게 쉽게 설명해드릴게요!
1.
(검색) 사용자의 질의를 기반으로 우선 검색엔진처럼 작동해요
챗봇은 마치 도서관 사서처럼 우리의 질문과 관련된 문서를 찾아요
질문과 가장 관련 있는 문서 조각들을 골라내죠.
2.
(생성) 찾아낸 문서의 조각들을 참고자료로 활용해요
찾아낸 문서들을 참고해서 답변을 만들어내요
마치 학생이 시험 볼 때 교과서를 보면서 답을 쓰는 것처럼요!

1-2. 문서가 '잘' 정리되어 있을 때 vs 잘 정리 안 되어 있을 때

그래서 문서가 잘 정리되어 있지 않으면 어떻게 될까요?
잘못된 문서의 경우:
제품소개:최신기술적용,고성능,다양한기능지원 AS방법:고장시센터방문해주세요
이런 문서를 주면 챗봇은:
관련 정보를 정확히 찾기 어려워요
질문과 관련된 내용을 놓칠 수 있어요
잘못된 정보를 연결할 수도 있죠
잘 정리된 문서의 경우:
제품 소개 - 최신 AI 기술 적용 * 음성 인식 기능 * 실시간 번역 지원 - 고성능 프로세서 탑재 * 8코어 CPU * GPU 가속 지원 AS 안내 - 고장 시 조치방법 * 증상 진단 가이드 * 긴급 조치 방법 - AS 센터 방문 안내 * 예약 방법 * 필요 서류 안내
이렇게 정리된 문서는:
챗봇이 필요한 정보를 정확히 찾을 수 있어요
질문과 관련된 내용을 빠르게 매칭할 수 있죠
더 정확한 답변을 만들어낼 수 있답니다
즉, 챗봇의 답변 품질은 우리가 제공하는 문서의 품질에 크게 좌우돼요. 마치 요리사에게 좋은 재료를 주면 맛있는 요리가 나오는 것처럼, 챗봇에게 잘 정리된 문서를 주면 더 좋은 답변을 받을 수 있답니다!
문서 말고도 질문의 방향 또한 대형 언어모델(LLM) 기반 챗봇의 답변에 큰 영향을 줄 수 있습니다. 시간이 지남에 따라 인공지능 언어모델의 자체 지능도 개선되고 문서의 검색 (RAG) 모듈 또한 지속 업데이트 되겠지만, 그 전에 사용자가 AI를 직접건드릴 수 있는 부분은 챗봇에게 제공하고자 하는 문서 (또는 데이터)의 내용 및 구성과

2. 챗봇은 어떻게 문서를 읽을까요?

챗봇에게 더 좋은 문서를 제공해주면 더 좋은 성능을 낼 수 있다는 것을 알아봤습니다.
그럼 과연, 챗봇은 어떻게 문서를 읽을까요? 챗봇이 어떻게 문서를 인지하는지 알고 있어야 챗봇에게 제일 최적화된 문서를 제공할 수 있고, 우리가 기대하는 LLM의 힘을 경험할 수 있을테니까요.
챗봇이 문서를 읽고 질문에 정확한 답변을 하는 기술을 MRC (Machine Reading Comprehension) 기계독해라고 불립니다. 기

2-1. MRC의 기본 작동 원리
기본적인 읽기 방식 - 파싱 (Parsing) 과 청킹 (Chunking)

챗봇이 문서를 읽는 방식은 마치 우리가 책을 챕터별로 나누고, 문단별로 읽는 것과 비슷합니다. 이것을 청킹(Chunking)으로 부르는데요. 말 그대로 'Chunk', 덩어리를 나누는 작업을 의미합니다.
그 과정을 자세히 살펴볼까요?
A. 문서 읽기 프로세스 (파싱 프로세스)
문서 구조 분석: 챗봇은 문서를 읽기 전에 문서의 구조를 파악합니다. 예를 들어, 제목, 소제목, 목록, 표, 그리고 본문 텍스트 등 문서의 구성 요소를 분석해요.
형식 및 메타데이터 추출: 파일 형식(예: PDF, Word, HTML 등)에 따라 문서를 처리할 방식을 결정하고, 문서에 포함된 메타데이터(작성자, 날짜, 키워드 등)를 추출합니다.
텍스트 정리 및 표준화: 불필요한 공백, 특수 문자 등을 제거하고, 텍스트 데이터를 표준 형식으로 변환합니다.
문서 토큰화: 문서를 단어, 문장, 또는 의미 있는 단위로 분해하는 작업을 수행합니다. 이 과정에서 자연어 처리 기술이 활용됩니다.
B. 문서 나누기 저장하기 (청킹 프로세스)
(1) 1차 분할: 큰 단위로 나누기
문서의 주요 섹션 구분: 예를 들어, PDF나 워드 파일은 섹션, 챕터, 또는 주요 헤딩 단위로 나누어 저장합니다.
구조화된 문서의 경우: 엑셀은 시트별로 나누고, JSON/XML 파일은 키별로 분할합니다.
(2) 2차 분할: 작은 단위로 쪼개기
내용 기반 청킹: 큰 단위로 나눈 섹션을 더욱 세분화하여 단락이나 주제별로 나눕니다.
최적화된 크기 조정: 챗봇이 처리할 수 있는 적당한 크기로 조각내되, 문맥을 유지할 수 있도록 주제를 기준으로 분리합니다.

2-2. 파일 형식별 특징과 최적화 방법

(1) PDF/워드 문서

1.
텍스트 중심으로 작성
불필요한 이미지는 최소화해주세요
꼭 필요한 이미지는 텍스트로 설명을 추가해주세요
2.
구조화된 형식 사용 (하향식, 트리형식의 구조)
제목 → 소제목 → 내용의 계층구조를 만들어주세요
표에는 반드시 제목을 붙여주세요
긴 문단은 작은 단위로 나눠주세요
예시:
잘못된 예시: 우리 회사의 신제품은 최고의 성능을 자랑합니다. 빠른 속도, 뛰어난 내구성, 합리적인 가격으로 고객만족을 추구합니다. 좋은 예시: 신제품 특징 1. 성능 - 처리 속도: 초당 1000건 - 정확도: 99.9% 2. 내구성 - 평균 수명: 5년 - 품질 보증: 2년 3. 가격 경쟁력 - 시장 평균 대비 20% 저렴 - 유지보수 비용 최소화

(2) 엑셀 파일

엑셀 파일은 조금 특별한 방식으로 읽힌답니다:
기본 읽기 방식
모든 시트를 순서대로 읽어요 (시트1 → 시트2 → ...)
각 시트는 행을 기준으로 읽어요 (A1, B1, C1... 순서로)
병합된 셀은 자동으로 풀어서 같은 내용을 복사해요
최적화 팁
1.
시트 구성
관련 내용끼리 같은 시트에 모아주세요
각 시트에 명확한 주제를 부여해주세요
2.
셀 작성
한 셀에는 하나의 정보만 담아주세요
병합은 최대한 피해주세요
복잡한 서식 대신 단순하고 명확한 구조를 사용해주세요
예시:
잘못된 예시: 제품정보 | A제품(가격:100만원,크기:대형,색상:검정) 좋은 예시: 제품명 | 가격 | 크기 | 색상 A제품 | 100만원 | 대형 | 검정

효과적인 문서 작성 가이드

챗봇이 문서를 효과적으로 이해하고 높은 품질의 답변을 생성하려면, 우리가 제공하는 문서가 체계적이고 명확하게 작성되어야 합니다. 문서 작성은 단순히 정보를 나열하는 것이 아니라, 챗봇이 질문에 대한 답을 빠르고 정확히 찾아낼 수 있도록 구조화하고 최적화하는 과정입니다. 이를 위해 문서 구성과 형식 작성의 원칙을 명확히 이해하고, 챗봇의 작동 방식에 맞춘 작성법을 적용해야 합니다.

1. 문서 내용의 구성

1-1. 하나의 파일/단락에 많은 내용을 담지 않기

MRC 기술은 입력 텍스트 길이와 탐색 범위에 제한이 있습니다. 따라서:
관련된 내용끼리 카테고리화하여 여러 개의 파일로 구성합니다.
한 단락에 지나치게 많은 내용을 담지 않고, 짧고 명확하게 나눕니다.
예시:
잘못된 경우: "이 제품은 사용법, 기능, 역사, 장단점을 모두 한 문단에 나열."
올바른 경우: "각 주제를 별도 단락 또는 파일로 분리."

1-2. 유사한 내용을 반복하지 않기

동일한 정보가 문서 내에 반복되면 검색 효율이 떨어지고 혼란을 초래합니다. 하나의 정보는 단 한 번만 명확히 기재하세요.

1-3. 예상 질문을 기반으로 문서를 작성하기

매뉴얼 작성 전에 예상 질문을 도출하고, 이를 기준으로 카테고리화합니다.
각 카테고리는 서로 다른 질문들을 담고 있어야 하며, 동질적인 질문들은 동일한 파일에 포함되어야 합니다.

1-4. 동의어나 여러 명칭이 있는 경우 병기

하나의 단어에 다양한 표현이 있을 경우, 괄호로 병기합니다.
예시: "컴퓨터(PC, 데스크톱)"

2. 형식 가이드

2-1. HTML 변환 가능한 문서를 활용 (문서 공통)

Word 문서 작성 규칙:
문서 내에서 글머리 기호, 번호, 목록 등 콘텐츠 레벨을 일관되게 사용합니다.
표에는 반드시 캡션(제목)을 추가하고, 표 상단에 위치시킵니다.
표 안에 표를 중첩하지 않습니다.

2-2. 도식과 그림은 텍스트로 대체

도식과 그림은 전처리가 불가능하므로, 중요한 내용은 텍스트로 설명합니다.

2-3. 단락 기능 사용 제한

자동 번호 매기기, 글머리 기호 등의 단락 기능 대신 직접 타이핑하여 문서를 작성합니다.

2-4. 탭 사용 자제

파일 변환 시 탭이 사라질 수 있으므로 탭으로 내용을 구분하지 않습니다.

2-5. 글꼴 기능 최소화

글자 색, 굵기, 기울임 등은 변환 시 적용되지 않을 수 있으므로, 강조할 내용은 서술형으로 작성합니다.
잘못된 예: "강조된 내용은 굵게 표시."
올바른 예: "강조된 내용은 '중요'라는 단어로 서술."

3. 문서 작성 팁 (문서 형식별)

3-1. 워드/PDF 문서 작성법

제목은 명확하고 구체적으로!
단락은 논리적으로 구성하기 (하향식, 트리 형식)
표에는 반드시 제목을 붙여주세요
이미지는 텍스트로 된 설명 추가하기

3-2. 엑셀 파일 최적화

1.
시트 구성
관련 내용끼리 같은 시트에 모아두기
각 시트에 명확한 주제 부여하기
2.
데이터 구조화
행과 열을 논리적으로 구성하기
헤더행으로 각 열의 의미 명확히 하기
3.
셀 작성 요령
병합은 꼭 필요할 때만 사용하기
각 셀에는 간단명료한 내용만 작성하기
중요 정보는 개별 셀에 분리해서 작성하기#

실전 예시로 배우는 문서 최적화

개선 전 매뉴얼:
1.제품소개 본제품은 최신 기술이 적용되었습니다 2.사용방법 전원을 켜고 와이파이 연결후 사용하세요
개선 후 매뉴얼:
1. 제품 소개 - 최신 AI 기술 적용 - 스마트폰 연동 지원 - 음성 인식 기능 탑재 2. 사용 방법 2.1 전원 켜기 - 전원 버튼을 2초간 누르세요 - 화면에 로고가 표시됩니다 2.2 와이파이 연결 - 설정 메뉴에서 와이파이 선택 - 네트워크 목록에서 연결할 와이파이 선택

※ 체크리스트로 확인하는 문서 품질

✅ 콘텐츠 구성 체크리스트
하나의 문서에 하나의 주제만 있나요?
내용이 논리적 순서로 구성되어 있나요?
중복되는 내용은 없나요?
✅ 형식별 체크리스트
워드/PDF:
제목과 소제목이 명확한가요?
표와 이미지에 설명이 있나요?
단락 구분이 명확한가요?
엑셀:
시트별로 주제가 구분되어 있나요?
헤더행이 명확한가요?
병합된 셀을 최소화했나요?
이렇게 체크리스트를 활용하면 챗봇이 더 잘 이해할 수 있는 문서를 만들 수 있답니다. 문서 작성이 처음에는 조금 번거로워 보일 수 있지만, 이런 노력 덕분에 챗봇이 더 정확하고 유용한 답변을 제공할 수 있다는 걸 기억해주세요!