로컬 PC에서 LLM을 돌리면 인터넷 연결 없이도 문서 요약, 코드 보조, 개인 노트 분석 같은 작업을 처리할 수 있습니다. 이 글에서는 Ollama로 모델을 실행하고, Qwen3 모델을 내려받아 테스트한 뒤, Open WebUI로 ChatGPT처럼 웹 화면에서 사용하는 방법까지 한 번에 정리합니다.
핵심 구조는 간단합니다. Ollama = 로컬 모델 서버, Qwen3 = 실행할 LLM 모델, Open WebUI = 브라우저에서 쓰는 채팅 인터페이스입니다.
1. 전체 구성 한눈에 보기
이번 구성은 로컬 PC 한 대 안에서 돌아갑니다. Ollama가 백그라운드에서 모델 API를 열고, Open WebUI가 그 API에 붙어서 대화 UI를 제공합니다.
| 구성 요소 | 역할 | 기본 주소 |
|---|---|---|
| Ollama | 로컬 LLM 실행 및 모델 관리 | http://localhost:11434 |
| Qwen3 | 실제로 대답을 생성하는 모델 | qwen3:8b 예시 사용 |
| Open WebUI | 웹 기반 채팅 UI, 대화 저장, 모델 선택 | http://localhost:3000 |
2. 권장 사양
로컬 LLM은 모델 크기와 메모리의 싸움입니다. 처음에는 너무 큰 모델보다 4B 또는 8B급 모델로 성공 경험을 만드는 것이 좋습니다.
- 가볍게 테스트: RAM 8GB 이상,
qwen3:1.7b또는qwen3:4b - 일상 사용 추천: RAM 16GB 이상,
qwen3:8b - 성능 욕심: RAM 32GB 이상 또는 GPU VRAM 여유,
qwen3:14b이상 - 저장 공간: 모델 파일 때문에 최소 10GB 이상 여유 권장
3. Ollama 설치
macOS와 Windows는 Ollama 공식 다운로드 페이지에서 설치 파일을 받아 실행하면 됩니다.
Download Ollama on macOS
Download Ollama for macOS
ollama.com
* 윈도우에서 스마트 앱 컨트롤 차단 문제가 발생하는 경우
설정 - 개인 정보 및 보안 - Windows 보안 - 앱 및 브라우저 컨트롤 - 스마트 앱 컨트롤 설정 - 끄기
Linux는 아래 명령이 가장 빠릅니다.
curl -fsSL https://ollama.com/install.sh | sh
설치 후 터미널에서 버전을 확인합니다.
ollama -v
Ollama 서버가 정상인지 확인하려면 브라우저나 터미널에서 아래 주소를 확인합니다.
curl http://localhost:11434/api/tags
4. Qwen3 모델 내려받기
Qwen3는 한국어, 영어, 코딩, 추론 작업을 고르게 처리하기 좋은 오픈 모델 계열입니다. 시작은 qwen3:8b를 추천하고, PC가 버거우면 qwen3:4b로 낮추면 됩니다.
ollama pull qwen3:8b
ollama run qwen3:8b
다운로드된 모델 목록은 아래 명령으로 확인합니다.
ollama list
모델 선택 기준
| 모델 | 추천 상황 | 특징 |
|---|---|---|
qwen3:1.7b |
저사양 PC, 빠른 응답 | 가볍지만 답변 품질은 제한적 |
qwen3:4b |
노트북, 간단한 글쓰기 | 속도와 품질의 입문 균형 |
qwen3:8b |
일반 데스크톱, 개발 보조 | 가장 무난한 기본 선택 |
qwen3:14b 이상 |
고사양 PC, 긴 문서 분석 | 품질은 좋지만 메모리 부담 증가 |
5. Open WebUI 설치
Ollama만으로도 터미널 채팅은 가능하지만, 매일 쓰기에는 Open WebUI가 훨씬 편합니다. 대화 저장, 모델 선택, 지식 파일 업로드, 여러 사용자 관리까지 브라우저에서 처리할 수 있습니다.
Docker로 실행
Docker가 설치되어 있다면 아래 명령으로 Open WebUI를 실행합니다. Ollama가 호스트 PC에서 돌고 있을 때 컨테이너가 접근할 수 있도록 host.docker.internal 경로를 열어둡니다.
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
실행 후 브라우저에서 아래 주소로 접속합니다.
http://localhost:3000
첫 설정
- 처음 접속하면 관리자 계정을 생성합니다.
- 모델 선택 메뉴에서
qwen3:8b가 보이는지 확인합니다. - 보이지 않으면 Ollama가 실행 중인지,
ollama list에 모델이 있는지 확인합니다. - Open WebUI 설정에서 Ollama URL을
http://host.docker.internal:11434또는http://localhost:11434로 맞춥니다.
6. 실제 사용 예시
설치가 끝나면 아래처럼 활용할 수 있습니다.
- 사내 문서 검색과 요약: 매뉴얼, 정책 문서, 기술 문서처럼 외부로 보내기 어려운 자료를 로컬 환경에서 검색하고 요약할 수 있습니다.
- 보안이 필요한 데이터 분석: 고객 정보, 로그, 내부 리포트처럼 민감한 데이터를 외부 API로 전송하지 않고 분석 보조 용도로 사용할 수 있습니다.
- 오프라인 환경의 AI 도구: 인터넷 연결이 제한된 현장, 폐쇄망, 연구실 환경에서도 질문 응답이나 문서 정리를 수행할 수 있습니다.
- 개발 및 운영 보조: 에러 로그 해석, 설정 파일 검토, 스크립트 초안 작성, 장애 원인 정리 같은 반복적인 작업을 빠르게 처리할 수 있습니다.
- 업무 자동화: 정해진 양식의 보고서 초안 작성, 데이터 분류, 체크리스트 생성처럼 규칙은 있지만 시간이 오래 걸리는 작업을 보조할 수 있습니다.
- 서비스 내 AI 기능 탑재: 챗봇, 문서 Q&A, 코드 설명 기능처럼 제품이나 내부 도구에 AI 기능을 붙일 때 로컬 모델을 활용할 수 있습니다.
개인 문서나 회사 내부 자료를 다룰 때는 클라우드 AI보다 로컬 LLM이 마음 편합니다. 다만 로컬에서 실행하더라도 Open WebUI 계정, 포트 공개, Docker 볼륨 권한은 꼭 확인해야 합니다.
7. 자주 막히는 부분과 해결법
| 문제 | 확인할 것 | 해결 방법 |
|---|---|---|
| Open WebUI에 모델이 안 보임 | Ollama 실행 여부 | ollama list, curl http://localhost:11434/api/tags 확인 |
| Docker 컨테이너가 Ollama에 연결 못 함 | 호스트 주소 | http://host.docker.internal:11434 사용 |
| 응답이 너무 느림 | 모델 크기 | qwen3:8b에서 qwen3:4b로 변경 |
| 메모리 부족 | RAM, VRAM | 작은 모델 사용, 다른 앱 종료, 컨테이너 재시작 |
| 저장 공간 부족 | 모델 파일 | 안 쓰는 모델을 ollama rm 모델명으로 삭제 |
8. 팁
- 작게 시작: 처음부터 큰 모델을 받지 말고 4B 또는 8B부터 테스트합니다.
- 용도별 모델 분리: 글쓰기는 Qwen3, 코딩은 코드 특화 모델처럼 나눠 써도 좋습니다.
- 포트 공개 주의: 집 밖에서 접속하려고 공유기 포트를 열면 보안 설정이 필요합니다.
- 업데이트 전 백업: Open WebUI 데이터는 Docker 볼륨
open-webui에 저장됩니다. - 성능 확인: 답변 속도가 느리면 작업 관리자나 Activity Monitor에서 CPU, GPU, 메모리를 확인합니다.
9. 정리
로컬 LLM 환경은 처음에는 복잡해 보이지만, 실제로는 Ollama 설치 → Qwen3 다운로드 → Open WebUI 실행 세 단계로 정리됩니다. 터미널만으로 모델을 실행할 수도 있고, Open WebUI를 붙이면 브라우저에서 훨씬 익숙한 방식으로 사용할 수 있습니다.
개인적으로는 qwen3:8b를 기본 모델로 시작한 뒤, 속도가 느리면 qwen3:4b, 품질이 아쉬우면 qwen3:14b 이상으로 올려보는 흐름을 추천합니다. 로컬 AI는 한 번 세팅해두면 블로그 글쓰기, 코딩, 문서 정리에 계속 써먹을 수 있는 꽤 든든한 작업 도구가 됩니다.