로컬 PC에서 LLM을 돌리면 인터넷 연결 없이도 문서 요약, 코드 보조, 개인 노트 분석 같은 작업을 처리할 수 있습니다. 이 글에서는 Ollama로 모델을 실행하고, Qwen3 모델을 내려받아 테스트한 뒤, Open WebUI로 ChatGPT처럼 웹 화면에서 사용하는 방법까지 한 번에 정리합니다.

핵심 구조는 간단합니다. Ollama = 로컬 모델 서버, Qwen3 = 실행할 LLM 모델, Open WebUI = 브라우저에서 쓰는 채팅 인터페이스입니다.

1. 전체 구성 한눈에 보기

이번 구성은 로컬 PC 한 대 안에서 돌아갑니다. Ollama가 백그라운드에서 모델 API를 열고, Open WebUI가 그 API에 붙어서 대화 UI를 제공합니다.

구성 요소 역할 기본 주소
Ollama 로컬 LLM 실행 및 모델 관리 http://localhost:11434
Qwen3 실제로 대답을 생성하는 모델 qwen3:8b 예시 사용
Open WebUI 웹 기반 채팅 UI, 대화 저장, 모델 선택 http://localhost:3000

2. 권장 사양

로컬 LLM은 모델 크기와 메모리의 싸움입니다. 처음에는 너무 큰 모델보다 4B 또는 8B급 모델로 성공 경험을 만드는 것이 좋습니다.

  • 가볍게 테스트: RAM 8GB 이상, qwen3:1.7b 또는 qwen3:4b
  • 일상 사용 추천: RAM 16GB 이상, qwen3:8b
  • 성능 욕심: RAM 32GB 이상 또는 GPU VRAM 여유, qwen3:14b 이상
  • 저장 공간: 모델 파일 때문에 최소 10GB 이상 여유 권장

3. Ollama 설치

macOS와 Windows는 Ollama 공식 다운로드 페이지에서 설치 파일을 받아 실행하면 됩니다.

https://ollama.com/download

 

Download Ollama on macOS

Download Ollama for macOS

ollama.com

 

* 윈도우에서 스마트 앱 컨트롤 차단 문제가 발생하는 경우

설정 - 개인 정보 및 보안 - Windows 보안 - 앱 및 브라우저 컨트롤 - 스마트 앱 컨트롤 설정 - 끄기

 

Linux는 아래 명령이 가장 빠릅니다.

curl -fsSL https://ollama.com/install.sh | sh

설치 후 터미널에서 버전을 확인합니다.

ollama -v

Ollama 서버가 정상인지 확인하려면 브라우저나 터미널에서 아래 주소를 확인합니다.

curl http://localhost:11434/api/tags

4. Qwen3 모델 내려받기

Qwen3는 한국어, 영어, 코딩, 추론 작업을 고르게 처리하기 좋은 오픈 모델 계열입니다. 시작은 qwen3:8b를 추천하고, PC가 버거우면 qwen3:4b로 낮추면 됩니다.

ollama pull qwen3:8b
ollama run qwen3:8b

다운로드된 모델 목록은 아래 명령으로 확인합니다.

ollama list

모델 선택 기준

모델 추천 상황 특징
qwen3:1.7b 저사양 PC, 빠른 응답 가볍지만 답변 품질은 제한적
qwen3:4b 노트북, 간단한 글쓰기 속도와 품질의 입문 균형
qwen3:8b 일반 데스크톱, 개발 보조 가장 무난한 기본 선택
qwen3:14b 이상 고사양 PC, 긴 문서 분석 품질은 좋지만 메모리 부담 증가

5. Open WebUI 설치

Ollama만으로도 터미널 채팅은 가능하지만, 매일 쓰기에는 Open WebUI가 훨씬 편합니다. 대화 저장, 모델 선택, 지식 파일 업로드, 여러 사용자 관리까지 브라우저에서 처리할 수 있습니다.

Docker로 실행

Docker가 설치되어 있다면 아래 명령으로 Open WebUI를 실행합니다. Ollama가 호스트 PC에서 돌고 있을 때 컨테이너가 접근할 수 있도록 host.docker.internal 경로를 열어둡니다.

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

실행 후 브라우저에서 아래 주소로 접속합니다.

http://localhost:3000

첫 설정

  1. 처음 접속하면 관리자 계정을 생성합니다.
  2. 모델 선택 메뉴에서 qwen3:8b가 보이는지 확인합니다.
  3. 보이지 않으면 Ollama가 실행 중인지, ollama list에 모델이 있는지 확인합니다.
  4. Open WebUI 설정에서 Ollama URL을 http://host.docker.internal:11434 또는 http://localhost:11434로 맞춥니다.

6. 실제 사용 예시

설치가 끝나면 아래처럼 활용할 수 있습니다.

  • 사내 문서 검색과 요약: 매뉴얼, 정책 문서, 기술 문서처럼 외부로 보내기 어려운 자료를 로컬 환경에서 검색하고 요약할 수 있습니다.
  • 보안이 필요한 데이터 분석: 고객 정보, 로그, 내부 리포트처럼 민감한 데이터를 외부 API로 전송하지 않고 분석 보조 용도로 사용할 수 있습니다.
  • 오프라인 환경의 AI 도구: 인터넷 연결이 제한된 현장, 폐쇄망, 연구실 환경에서도 질문 응답이나 문서 정리를 수행할 수 있습니다.
  • 개발 및 운영 보조: 에러 로그 해석, 설정 파일 검토, 스크립트 초안 작성, 장애 원인 정리 같은 반복적인 작업을 빠르게 처리할 수 있습니다.
  • 업무 자동화: 정해진 양식의 보고서 초안 작성, 데이터 분류, 체크리스트 생성처럼 규칙은 있지만 시간이 오래 걸리는 작업을 보조할 수 있습니다.
  • 서비스 내 AI 기능 탑재: 챗봇, 문서 Q&A, 코드 설명 기능처럼 제품이나 내부 도구에 AI 기능을 붙일 때 로컬 모델을 활용할 수 있습니다.
개인 문서나 회사 내부 자료를 다룰 때는 클라우드 AI보다 로컬 LLM이 마음 편합니다. 다만 로컬에서 실행하더라도 Open WebUI 계정, 포트 공개, Docker 볼륨 권한은 꼭 확인해야 합니다.

7. 자주 막히는 부분과 해결법

문제 확인할 것 해결 방법
Open WebUI에 모델이 안 보임 Ollama 실행 여부 ollama list, curl http://localhost:11434/api/tags 확인
Docker 컨테이너가 Ollama에 연결 못 함 호스트 주소 http://host.docker.internal:11434 사용
응답이 너무 느림 모델 크기 qwen3:8b에서 qwen3:4b로 변경
메모리 부족 RAM, VRAM 작은 모델 사용, 다른 앱 종료, 컨테이너 재시작
저장 공간 부족 모델 파일 안 쓰는 모델을 ollama rm 모델명으로 삭제

8. 팁

  • 작게 시작: 처음부터 큰 모델을 받지 말고 4B 또는 8B부터 테스트합니다.
  • 용도별 모델 분리: 글쓰기는 Qwen3, 코딩은 코드 특화 모델처럼 나눠 써도 좋습니다.
  • 포트 공개 주의: 집 밖에서 접속하려고 공유기 포트를 열면 보안 설정이 필요합니다.
  • 업데이트 전 백업: Open WebUI 데이터는 Docker 볼륨 open-webui에 저장됩니다.
  • 성능 확인: 답변 속도가 느리면 작업 관리자나 Activity Monitor에서 CPU, GPU, 메모리를 확인합니다.

9. 정리

로컬 LLM 환경은 처음에는 복잡해 보이지만, 실제로는 Ollama 설치 → Qwen3 다운로드 → Open WebUI 실행 세 단계로 정리됩니다. 터미널만으로 모델을 실행할 수도 있고, Open WebUI를 붙이면 브라우저에서 훨씬 익숙한 방식으로 사용할 수 있습니다.

개인적으로는 qwen3:8b를 기본 모델로 시작한 뒤, 속도가 느리면 qwen3:4b, 품질이 아쉬우면 qwen3:14b 이상으로 올려보는 흐름을 추천합니다. 로컬 AI는 한 번 세팅해두면 블로그 글쓰기, 코딩, 문서 정리에 계속 써먹을 수 있는 꽤 든든한 작업 도구가 됩니다.


참고 링크