Yazılım Geliştirici

Ollama Yerel LLM Rehberi

Ollama ile Llama, Qwen, DeepSeek, Mistral, Gemma modellerini kendi bilgisayarınızda çalıştırın. KVKK uyumlu yerel AI kurulumu, OpenAI uyumlu API.

Ollama, açık ağırlıklı büyük dil modellerini (Llama, Qwen, DeepSeek, Mistral, Gemma vs.) kendi bilgisayarınızda çalıştırmanın en kolay yoludur. Tek komutla model indirir, OpenAI uyumlu API sunar, terminalden veya başka uygulamalarla birlikte çalışır. Bu rehber Ollama’yı kurmayı, model seçmeyi, performans optimizasyonu yapmayı ve uygulamanıza entegre etmeyi adım adım anlatır. KVKK uyumlu yerel AI iş akışı kurmak isteyen Türk ekipler için temel bir araçtır.

Niye Yerel LLM?

Yerel LLM’in üç ana avantajı:

Veri egemenliği: Veri makinenizden çıkmaz. KVKK için kişisel veri içeren prompt’larda kanunî risk sıfıra iner.
Maliyet: Donanım yatırımı bir defa. Ardından sınırsız token kullanımı.
Kontrol: Modeli istediğiniz şekilde fine-tune edersiniz, isterseniz hiç internet olmadan çalıştırırsınız.

Dezavantaj: kalite tepe noktası kapalı premium modellerin (Claude Opus, GPT-5, Gemini Pro) bir-iki adım gerisinde olabilir; çok büyük modeller (70B+) güçlü donanım ister.

Kurulum

Mac/Linux:

curl -fsSL https://ollama.com/install.sh | sh
ollama --version

Windows: ollama.com adresinden installer indirin (yaklaşık 200 MB). Çift-tıkla kur. PowerShell’deollama --version ile kontrol edin. Service olarak arka planda çalışır; menü çubuğu/sistem tepsisinde simgesi olur.

Kurulum sonrası 11434 portu üzerinden HTTP API açılır (http://localhost:11434). Bu OpenAI uyumlu bir endpoint sunar — mevcut OpenAI SDK’ları doğrudan çalışır.

Model İndirme ve Çalıştırma

# Popüler modeller
ollama pull llama3.3:8b         # Meta Llama 3.3, 8B parametre
ollama pull qwen3:32b           # Alibaba Qwen3, 32B
ollama pull deepseek-r1:32b     # DeepSeek R1, 32B
ollama pull gemma3:27b          # Google Gemma 3
ollama pull mistral:7b          # Mistral 7B

# Hızlı sohbet
ollama run llama3.3:8b
> Türkçe selam

# Tek komut prompt
ollama run llama3.3:8b "TR'deki KDV oranlarını listele"

# Yüklü modelleri listele / sil
ollama list
ollama rm gemma3:27b

:tag kısmı boyut belirtir. Tag yoksa varsayılan (genelde 7B-13B) gelir. Kuantizasyon seviyesi de tag’te gösterilebilir:llama3.3:8b-q4_K_M gibi.

Donanım Gereksinimleri

Genel kural: model boyutu kadar VRAM/RAM. Kuantizasyon ile bu 4-8 kat azalır.

7B-8B: 8 GB RAM yeter (CPU-only OK), 6 GB+ VRAM ile hızlı.
13B-14B: 16 GB RAM, 10 GB+ VRAM ideal.
32B: 32 GB RAM, 24 GB VRAM (RTX 4090, A6000) — modern güçlü dizüstü/iş istasyonu.
70B: 64 GB RAM, 48 GB+ VRAM (iki GPU veya workstation), Mac Studio M2/M3 Ultra.

Apple Silicon (M-serisi) Mac’ler unified memory sayesinde büyük model çalıştırmada çok güçlüdür. M2/M3 Pro 32 GB ile 32B modeller, M2/M3 Ultra 192 GB ile 70B-120B modeller rahat çalışır.

API Kullanımı (OpenAI Uyumlu)

from openai import OpenAI
client = OpenAI(
  base_url="http://localhost:11434/v1",
  api_key="ollama"  # değer önemli değil, herhangi bir string
)
resp = client.chat.completions.create(
  model="llama3.3:8b",
  messages=[{"role": "user", "content": "Türkçe selam"}]
)
print(resp.choices[0].message.content)

Tool calling (function calling), JSON mode, çok-tur sohbet destekleri var. Continue.dev, Cline, Aider gibi geliştirici araçları doğrudan Ollama’ya bağlanabilir.

Modelfile ile Özelleştirme

Kendi sistem prompt’u, parametreleri, hatta LoRA adapter ile özel model yaratmak için Modelfile kullanılır:

# Modelfile.tr
FROM llama3.3:8b

SYSTEM """Sen Türkçe konuşan, kibar, doğru ve kısa cevap veren
bir asistansın. Kullanıcıya 'siz' diye hitap et."""

PARAMETER temperature 0.4
PARAMETER top_p 0.9

ollama create llama3.3-tr -f Modelfile.tr
ollama run llama3.3-tr "Selam"

Bu Türkçe asistan profili tüm seansta sabit kalır. Aynı şekilde KVKK rehberi, vergi danışmanı, kod yardımcısı gibi özelleşmiş modeller yaratabilirsiniz.

Hız Optimizasyonu

GPU katmanları: OLLAMA_NUM_GPU=999 env var ile tüm katmanları VRAM’e atar (yeterli VRAM varsa). Yoksa otomatik split.
Bağlam boyutu: Modelfile’de num_ctx ile bağlam penceresini ihtiyaca göre ayarlayın. Daha küçük = daha hızlı, daha az bellek.
Kuantizasyon: Q4_K_M çoğu durumda en iyi kalite/hız dengesi. Q5_K_M biraz daha kaliteli ama yavaş; Q3_K_M daha hızlı ama kalite düşüşü belirgin.
Batch isteği: Toplu işlemde OLLAMA_NUM_PARALLEL ile paralel slot sayısı.

Sık Sorulan Sorular

Ollama ücretsiz mi?

Tamamen ücretsiz, açık kaynak (MIT). Sadece donanım masrafı sizin tarafınızda.

Hangi model Türkçe için en iyi?

Boyutuna göre değişir. Küçük donanımda Qwen3 8B, orta donanımda Qwen3 32B veya DeepSeek-R1 32B distilled. Büyük makinede Llama 3.3 70B veya Qwen3 72B. Test edip seçin.

İnternet olmadan çalışır mı?

Evet, modeli bir kere indirdikten sonra hiç internet gerekmez. Bu KVKK ve hava-boşluklu (air-gapped) ortamlar için ideal.

Ollama mı yoksa LM Studio mu?

Ollama CLI ve API odaklı, geliştiriciler için. LM Studio GUI sunar, son kullanıcılar için kolay. Ardındaki teknoloji aynı (llama.cpp). API entegrasyonu gerekiyorsa Ollama, sadece sohbet etmek için LM Studio.

OpenAI SDK gerçekten birebir uyumlu mu?

Çoğunluk evet. Chat completions, streaming, function calling çalışır. Bazı uç özellikler (assistants API, fine-tuning API) Ollama'da yoktur. Pratik geliştirme için %95 uyumlu.

Sunucumda Ollama çalıştırıp ekibimle paylaşabilir miyim?

Evet. OLLAMA_HOST=0.0.0.0 ile dış bağlantı kabul eder. Production için reverse proxy (nginx/caddy), TLS, rate limit, auth eklemeniz gerekir. Kurumsal: vLLM veya OpenLLM daha uygun olabilir.

Model güncelleme nasıl?

ollama pull <model> komutu yeni sürüm varsa indirir. Eski sürüm de saklanabilir; tag ile ayrılır.

İlgili rehberler

Meta Llama Rehberi — Llama 4 sürümleri, donanım gereksinimleri, Ollama ile yerel kurulum, Türkçe perf…
Alibaba Qwen3 Rehberi — Alibaba Qwen3 model ailesi, Coder/Math/VL/Audio özelleşmiş sürümleri, Türkçe per…
DeepSeek Rehberi — DeepSeek-V3, R1 akıl yürütme modeli, Coder V2 ve Türkiye'de yerel kurulum, API k…