Yazılım Geliştirici
Ollama Yerel LLM Rehberi
Ollama ile Llama, Qwen, DeepSeek, Mistral, Gemma modellerini kendi bilgisayarınızda çalıştırın. KVKK uyumlu yerel AI kurulumu, OpenAI uyumlu API.
Ollama, açık ağırlıklı büyük dil modellerini (Llama, Qwen, DeepSeek, Mistral, Gemma vs.) kendi bilgisayarınızda çalıştırmanın en kolay yoludur. Tek komutla model indirir, OpenAI uyumlu API sunar, terminalden veya başka uygulamalarla birlikte çalışır. Bu rehber Ollama’yı kurmayı, model seçmeyi, performans optimizasyonu yapmayı ve uygulamanıza entegre etmeyi adım adım anlatır. KVKK uyumlu yerel AI iş akışı kurmak isteyen Türk ekipler için temel bir araçtır.
Niye Yerel LLM?
Yerel LLM’in üç ana avantajı:
- Veri egemenliği: Veri makinenizden çıkmaz. KVKK için kişisel veri içeren prompt’larda kanunî risk sıfıra iner.
- Maliyet: Donanım yatırımı bir defa. Ardından sınırsız token kullanımı.
- Kontrol: Modeli istediğiniz şekilde fine-tune edersiniz, isterseniz hiç internet olmadan çalıştırırsınız.
Dezavantaj: kalite tepe noktası kapalı premium modellerin (Claude Opus, GPT-5, Gemini Pro) bir-iki adım gerisinde olabilir; çok büyük modeller (70B+) güçlü donanım ister.
Kurulum
Mac/Linux:
curl -fsSL https://ollama.com/install.sh | sh
ollama --versionWindows: ollama.com adresinden installer indirin (yaklaşık 200 MB). Çift-tıkla kur. PowerShell’deollama --version ile kontrol edin. Service olarak arka planda çalışır; menü çubuğu/sistem tepsisinde simgesi olur.
Kurulum sonrası 11434 portu üzerinden HTTP API açılır (http://localhost:11434). Bu OpenAI uyumlu bir endpoint sunar — mevcut OpenAI SDK’ları doğrudan çalışır.
Model İndirme ve Çalıştırma
# Popüler modeller
ollama pull llama3.3:8b # Meta Llama 3.3, 8B parametre
ollama pull qwen3:32b # Alibaba Qwen3, 32B
ollama pull deepseek-r1:32b # DeepSeek R1, 32B
ollama pull gemma3:27b # Google Gemma 3
ollama pull mistral:7b # Mistral 7B
# Hızlı sohbet
ollama run llama3.3:8b
> Türkçe selam
# Tek komut prompt
ollama run llama3.3:8b "TR'deki KDV oranlarını listele"
# Yüklü modelleri listele / sil
ollama list
ollama rm gemma3:27b:tag kısmı boyut belirtir. Tag yoksa varsayılan (genelde 7B-13B) gelir. Kuantizasyon seviyesi de tag’te gösterilebilir:llama3.3:8b-q4_K_M gibi.
Donanım Gereksinimleri
Genel kural: model boyutu kadar VRAM/RAM. Kuantizasyon ile bu 4-8 kat azalır.
- 7B-8B: 8 GB RAM yeter (CPU-only OK), 6 GB+ VRAM ile hızlı.
- 13B-14B: 16 GB RAM, 10 GB+ VRAM ideal.
- 32B: 32 GB RAM, 24 GB VRAM (RTX 4090, A6000) — modern güçlü dizüstü/iş istasyonu.
- 70B: 64 GB RAM, 48 GB+ VRAM (iki GPU veya workstation), Mac Studio M2/M3 Ultra.
Apple Silicon (M-serisi) Mac’ler unified memory sayesinde büyük model çalıştırmada çok güçlüdür. M2/M3 Pro 32 GB ile 32B modeller, M2/M3 Ultra 192 GB ile 70B-120B modeller rahat çalışır.
API Kullanımı (OpenAI Uyumlu)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # değer önemli değil, herhangi bir string
)
resp = client.chat.completions.create(
model="llama3.3:8b",
messages=[{"role": "user", "content": "Türkçe selam"}]
)
print(resp.choices[0].message.content)Tool calling (function calling), JSON mode, çok-tur sohbet destekleri var. Continue.dev, Cline, Aider gibi geliştirici araçları doğrudan Ollama’ya bağlanabilir.
Modelfile ile Özelleştirme
Kendi sistem prompt’u, parametreleri, hatta LoRA adapter ile özel model yaratmak için Modelfile kullanılır:
# Modelfile.tr
FROM llama3.3:8b
SYSTEM """Sen Türkçe konuşan, kibar, doğru ve kısa cevap veren
bir asistansın. Kullanıcıya 'siz' diye hitap et."""
PARAMETER temperature 0.4
PARAMETER top_p 0.9ollama create llama3.3-tr -f Modelfile.tr
ollama run llama3.3-tr "Selam"Bu Türkçe asistan profili tüm seansta sabit kalır. Aynı şekilde KVKK rehberi, vergi danışmanı, kod yardımcısı gibi özelleşmiş modeller yaratabilirsiniz.
Hız Optimizasyonu
- GPU katmanları:
OLLAMA_NUM_GPU=999env var ile tüm katmanları VRAM’e atar (yeterli VRAM varsa). Yoksa otomatik split. - Bağlam boyutu: Modelfile’de
num_ctxile bağlam penceresini ihtiyaca göre ayarlayın. Daha küçük = daha hızlı, daha az bellek. - Kuantizasyon: Q4_K_M çoğu durumda en iyi kalite/hız dengesi. Q5_K_M biraz daha kaliteli ama yavaş; Q3_K_M daha hızlı ama kalite düşüşü belirgin.
- Batch isteği: Toplu işlemde
OLLAMA_NUM_PARALLELile paralel slot sayısı.
Sık Sorulan Sorular
Ollama ücretsiz mi?
Hangi model Türkçe için en iyi?
İnternet olmadan çalışır mı?
Ollama mı yoksa LM Studio mu?
OpenAI SDK gerçekten birebir uyumlu mu?
Sunucumda Ollama çalıştırıp ekibimle paylaşabilir miyim?
Model güncelleme nasıl?
İlgili rehberler
- Meta Llama Rehberi — Llama 4 sürümleri, donanım gereksinimleri, Ollama ile yerel kurulum, Türkçe perf…
- Alibaba Qwen3 Rehberi — Alibaba Qwen3 model ailesi, Coder/Math/VL/Audio özelleşmiş sürümleri, Türkçe per…
- DeepSeek Rehberi — DeepSeek-V3, R1 akıl yürütme modeli, Coder V2 ve Türkiye'de yerel kurulum, API k…