단비 인사이트/단비의 노하우

[단비 AI 만들기] Overture

like timely rain 2026. 4. 18. 23:05

평상시 AI를 활용하는 일이 많은 편이다.

AI를 활용하다 보면 나에게 맞춤형 AI가 있었으면 하는 생각이 많이 든다.

 

AI를 내가 원하는 방향으로 학습을 시키고 싶은데 현재의 생성형 AI로는 한계가 있는 것을 많이 느낀다.

 

그래서 나에게 최적화된 AI를 만들고 싶었다.

 

투자와 정부지원사업에 특화 되어 있는 AI를 만들고 싶었고 그 방법을 최근 가장 잘 사용하는 클로드와 챗지피티에 그 내용을 물었더니 동일한 답변이 나왔다.

 

몇가지 제안이 나왔지만 가장 강력하게 추천하는 방식은 RAG라는 방식이다.

 


 

[CHAT GPT 답변]

RAG (Retrieval-Augmented Generation) ← 현실적으로 가장 많이 씀

이게 핵심입니다.

구조:

  1. 데이터 저장 (논문, 문서 등)
  2. 질문 들어오면 관련 자료 검색
  3. 그 자료 기반으로 답변 생성

👉 즉
“AI가 기억하는 게 아니라, 필요할 때 찾아서 답함”

 

난이도: ★★☆☆☆

구성:

  • 문서 (PDF, 노션, 구글드라이브 등)
  • 벡터 DB (검색용)
  • LLM 연결

툴:

  • LangChain
  • LlamaIndex

👉 효과:

  • 특정 분야 “전문가처럼 답변”
  • 데이터 계속 추가 가능

지금 상황에서는 LlamaIndex 중심 + 필요 시 LangChain 보조가 맞습니다.

단순 취향 문제가 아니라 “하려는 일의 구조” 기준으로 보면 그렇습니다.


1) 두 도구의 본질 차이

LlamaIndex

  • 역할: 데이터를 AI에 먹이는 데 특화
  • 강점:
    • 문서 → 벡터화 → 검색 → 답변
    • RAG 구축이 매우 빠름
  • 한마디:
    👉 “지식 기반 AI 만드는 도구”

LangChain

  • 역할: AI를 활용한 서비스/시스템 구성
  • 강점:
    • 여러 기능 연결 (검색, API, 툴 실행 등)
    • 에이전트 구조
  • 한마디:
    👉 “AI 서비스 로직 만드는 도구”

2) 사용자 상황 기준 판단

현재 목표:

  • 특정 분야 전문가 AI
  • 컨설팅 지식 축적
  • 반복 활용 / 확장

👉 이건 100%
“데이터 기반 RAG” 문제

즉,

  • 핵심은 “추론 능력”이 아니라
  • “자료를 얼마나 잘 찾아서 쓰느냐”

3) 그래서 왜 LlamaIndex가 맞냐

이유 3개만 정확히 짚겠습니다.

① 바로 가치가 나옴

  • PDF, 문서 넣으면 바로 작동
  • MVP 만들기 매우 빠름

👉 초기 사업 단계에 중요


② 컨설팅 데이터 구조에 최적

당신 데이터는:

  • 케이스 (사례)
  • 정책 자료
  • 전략 문서

👉 전부 “문서 기반”

→ LlamaIndex가 이걸 가장 잘 다룸


③ 유지/확장 쉬움

  • 데이터만 추가하면 성능 개선
  • 모델 다시 학습 필요 없음

👉 “지속 성장 구조”에 맞음


4) LangChain은 언제 쓰냐

LangChain은 버리는 게 아니라
**“2단계에서 붙이는 도구”**입니다.

예를 들면:

  • 자동 보고서 생성
  • 정부지원사업 추천 자동화
  • CRM 연동
  • 상담 자동화

👉 즉
“AI를 서비스로 만들 때” 필요


5) 추천 아키텍처 (실전용)

초기 (지금)

LlamaIndex + OpenAI API
→ 문서 기반 전문가 AI
 

중기

LlamaIndex (지식)
+ LangChain (로직)
→ 자동화된 컨설팅 시스템
 

후기

+ 자체 데이터 축적
+ 일부 파인튜닝
→ 독자 AI 자산화
 

6) 한 줄 결론

👉 지금은 고민할 단계가 아니라
LlamaIndex로 바로 만들고, LangChain은 나중에 얹는 구조가 정답입니다.

 

 

 

[Claud 답변]

RAG (Retrieval-Augmented Generation)

  • 내 문서/데이터베이스를 벡터DB에 저장해두고, 질문할 때마다 관련 내용을 검색해서 AI에 주입
  • 세션 용량 제한을 우회하는 가장 현실적인 방법
  • LangChain, LlamaIndex 등 프레임워크 활용
  • 비용: 벡터DB 호스팅 + API 비용

전체 아키텍처 구성

 
 
내 문서/데이터
    ↓
벡터DB (장기 기억)
    ↓
RAG 엔진 (검색 + 주입)
    ↓
LLM API (Claude / GPT)
    ↓
챗봇 UI (웹/앱)

도메인별 데이터 설계

투자 전문 AI

  • 지도사님이 정리한 종목 분석 메모, 섹터 리포트
  • 직접 작성한 SCM 레이어 분석 문서
  • 공시 데이터, 뉴스 요약본 (주기적 업데이트 필요)

정부지원사업 전문 AI

  • 기작성 블로그 포스팅 전부
  • 기업부설연구소·벤처확인 등 제도 정리 문서
  • K-Startup, 중기부 공고문 (크롤링 자동화 가능)

추천 기술 스택

구성요소추천 도구이유
벡터DB Supabase (pgvector) 무료 시작, SQL 친숙, 관리 쉬움
RAG 프레임워크 LlamaIndex 문서 로딩·청킹 자동화, 한국어 양호
LLM Claude API (Sonnet) 한국어 최상, 긴 컨텍스트
UI Streamlit 파이썬만으로 웹앱 빠르게 구축
호스팅 Railway or Render 무료티어 존재, 배포 간단

구축 단계

1단계 — 데이터 준비 (1~2주)

  • 기존 블로그 글, 분석 문서 수집
  • PDF·Word·노션 등 통일된 포맷으로 정리

2단계 — 로컬 프로토타입 (1~2주)

 
 
python
# 핵심 흐름 (의사코드)
문서 로드 → 청킹(500~1000자) → 임베딩 → 벡터DB 저장
질문 → 유사 청크 검색 → Claude API에 주입 → 답변 반환
  • Python 환경 세팅
  • LlamaIndex로 문서 파이프라인 구축
  • Supabase 벡터DB 연결

3단계 — UI + 배포 (1주)

  • Streamlit으로 챗봇 화면 구성
  • Railway에 배포 → URL 생성

4단계 — 고도화

  • 투자/정부사업 도메인 분리 (탭 or 선택)
  • 공고문 자동 크롤링·업데이트 파이프라인 추가
  • 단비 홈페이지 iframe 삽입

비용 추정 (월 기준)

항목무료 시작 시본격 운영 시
Supabase 무료 (500MB) $25/월
Claude API 사용량 과금 경량 사용 시 $5~15/월
Railway 호스팅 무료티어 $5~10/월
임베딩 (OpenAI) 거의 무 $1~3/월
합계 거의 0 $30~50/월

초기 3개월은 무료티어로 충분히 프로토타입 검증 가능해요.


사전 필요 역량 체크

  • Python 기초 ✅ (있으면 충분, 없어도 Claude로 코드 생성 가능)
  • API 키 발급·환경변수 관리 — 간단한 학습 필요
  • 문서 정리 능력 ✅ (이미 충분)

시작 순서 추천

  1. Python + VSCode 환경 세팅
  2. Supabase 계정 생성 + pgvector 활성화
  3. Claude API 키 발급
  4. LlamaIndex 공식 튜토리얼 1개 완주
  5. 블로그 글 5개로 미니 프로토타입 제작

 

 

직접 AI를 만들어본 경험이 없다. 이번 기회에 차근차근 직접 AI를 만들어 보고자 한다. 이를 통해 나만의 AI를 만들어도 보고 이 노하우를 기록에 남겨보면 다른 사람들에게도 도움이 될 것이다.