TPToolpazar

Yazılım Geliştirici

Meta Llama Rehberi

Llama 4 sürümleri, donanım gereksinimleri, Ollama ile yerel kurulum, Türkçe performans ve KVKK uyumu için kapsamlı Türkçe rehber.

Llama, Meta’nın açık ağırlıklı (open-weight) büyük dil modeli ailesidir. 2026’da en güncel sürüm Llama 4’tür ve performans olarak GPT-4 sınıfına yetişen ilk açık modeldir. Bu rehber Llama’nın türleri, indirme + çalıştırma yöntemleri, Türkçe performansı, fiyat-performans analizi ve kurumsal kullanım senaryolarını anlatır. Yerel çalışma (on-prem) ve KVKK uyumu açısından Türk şirketleri için kritik bir seçenektir.

Llama Nedir, Niye Açık Ağırlık?

Açık ağırlık modeli, model parametrelerini (ağırlıklarını) kamuya açan modeldir; eğitim verisi açık olmasa da, model dosyasını indirip kendi sunucunuzda çalıştırabilirsiniz. Meta, Llama 1’den itibaren bu yaklaşımı izledi. Ana avantajlar: veri egemenliği (veri makinenizi terk etmez), maliyet kontrolü (token başına ödeme yok, sadece donanım), özelleştirme (ince ayar / fine-tune özgürce yapılabilir).

Karşılığında dezavantaj: donanım maliyeti, devam eden bakım, modelin kendisi en ucu kovalayan kapalı modellerin (Claude, GPT-5, Gemini Pro) bir veya iki sürüm gerisinde olabilir. Bu fark her ay kapanır.

Llama 4 Sürümleri

Llama 4 dört boyutta sunuldu (yaklaşık parametreler):

  • Llama 4 Scout ~17B aktif (109B toplam, MoE) — Mid-tier hız, geniş bağlam
  • Llama 4 Maverick ~17B aktif (400B toplam, MoE) — Çok güçlü, GPT-4o sınıfı
  • Llama 4 Behemoth ~288B aktif (2T toplam) — Henüz sınırlı erişim, Claude Opus rakibi
  • Llama 3.3 70B hâlâ yaygın kullanılıyor — daha küçük donanımda çalışıyor

Mixture-of-Experts (MoE) mimarisi, bellek kullanımını kontrol ederken aktif parametre sayısının düşük olmasını sağlar. Pratikte: aynı GPU’da daha yetenekli model çalıştırırsınız.

Donanım Gereksinimi

Llama’nın yerel çalışması için:

  • 8B parametre (Llama 3 8B): 16 GB RAM yeterli; CPU üzerinde de çalışır, RTX 3060 (12 GB VRAM) hızlandırır.
  • 70B parametre: 4-bit kuantizasyon ile 48 GB VRAM yeter (RTX A6000 veya iki RTX 4090). Apple Silicon Mac (M2/M3 Ultra, 64-128 GB unified memory) iyi bir seçenek.
  • 400B Maverick: Bulut gerekiyor — 8x H100 veya bir DGX makinesi.

Kuantizasyon (Q4, Q5, Q8) modelleri 4-8 kat küçültür; kalite kaybı %1-3 seviyesinde, hız kazancı 3-5 kat. Llama.cpp, Ollama ve LM Studio kuantize sürümleri otomatik indirir.

Yerel Kurulum: Ollama

Ollama, Llama’yı tek komutla çalıştıran en kolay araç:

# Mac/Linux: kurulum
curl -fsSL https://ollama.com/install.sh | sh
# Windows: ollama.com adresinden installer indirin

# Model indir + çalıştır
ollama run llama3.3:70b

# API olarak kullan (port 11434)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3:70b",
  "prompt": "Türkçe selam"
}'

Ollama kütüphanesinde 100+ açık model hazır: Llama 3/4, Qwen 3, DeepSeek, Mistral, Gemma, Phi vb. Modelin İngilizce ad şemasıaile:boyut şeklinde — örn. qwen3:32b.

Türkçe Performansı

Llama 3, Türkçe konuşma için iyi düzeydeydi ama eğitim verisindeki İngilizce ağırlığı belli oluyordu. Llama 4 ile durum gözle görülür iyileşti — günlük yazışma, özet, kısa kod açıklaması Türkçe’de akıcı çıkıyor. Hâlâ premium modellerin (Claude, GPT-5) altındadır, özellikle uzun yazımda stil tutarlılığı zaman zaman kayar.

Türkçe-özel performans için fine-tuning tek etkili yöntem. Hugging Face üzerinde Türkçe eğitimli Llama türevleri (Trendyol-LLM, KuzeyTR, Türkçe-Llama) ücretsiz indirilir. Sıfırdan eğitmek pahalıdır; bir Türkçe veri seti hazırlayıp LoRA ile ince ayar yapmak en pratik yoldur.

Lisans ve Ticari Kullanım

Llama lisansı “açık” olsa da bazı kısıtlamalar var: 700 milyon aylık aktif kullanıcıyı aşan ürünler ayrı izin gerektirir (Türkiye’deki şirketlerin %99’u için sorun değil). Lisans metnini indirme sırasında kabul etmeniz istenir; kurum genelinde kullanım için hukuk ekibinizle gözden geçirin.

Üretilen çıktının ticari kullanımı serbest. Modeli yeniden eğitip dağıtmak istiyorsanız “Llama 4” ismini koruma ve Meta attribusyon koyma şartları var. Tam ücretsiz alternatif arıyorsanız Mistral (Apache 2.0) veya Qwen3 (Apache 2.0) tercih edin.

Sık Sorulan Sorular

Llama'yı çalıştırmak için ne kadar donanım gerek?
8B sürümü için 16 GB RAM yeterli, modern bir dizüstü çalıştırır. 70B için 64 GB RAM + RTX 4090 veya M-series Mac. 400B sürüm bulut gerektirir.
Türkiye'de Llama'yı barındırmak yasal mı?
Evet. Llama açık ağırlıklı, indirme ve kendi sunucunuzda çalıştırma serbest. Hatta KVKK açısından avantaj — veri yurt dışına çıkmaz. Sadece Meta’nın lisans şartlarına (700M kullanıcı eşiği vs.) dikkat edin.
Llama yoksa Qwen mı?
Eşit boyutta Qwen3 Türkçe’de çoğu zaman biraz daha iyi (Çinli laboratuvar Türkçe gibi orta büyük dilleri yakaladı). Llama’nın ekosistemi (araç desteği, fine-tuning rehberleri) daha geniş. Önce ikisini de denemenizi öneririz.
Llama API gibi de kullanılabilir mi?
Evet. Together AI, Groq, Replicate, Fireworks gibi sağlayıcılar Llama API’si sunar; pay-per-token. Groq özellikle ucuz ve hızlı (saniyede 500+ token). Yerel çalıştırmak istemiyorsanız bu rotadır.
Fine-tuning ne kadar maliyetli?
70B Llama’yı LoRA ile özel veri üzerinde ince ayar Cloud GPU’da $50-$200 arası bir gecede biter. Tam fine-tune (full weights) çok daha pahalı, $5.000+. Çoğu Türkçe görev için LoRA yeterli.
Llama Code adlı özel sürüm var mı?
Llama 3 döneminde ‘Code Llama’ ayrı yayınlandı. Llama 4 ile birleşik model yaklaşımı kullanılıyor — ana model zaten kodu iyi yapar. Codestral (Mistral) veya DeepSeek-Coder gibi özel kod modelleri ek seçenek.

İlgili rehberler

  • DeepSeek Rehberi DeepSeek-V3, R1 akıl yürütme modeli, Coder V2 ve Türkiye'de yerel kurulum, API k
  • Alibaba Qwen3 Rehberi Alibaba Qwen3 model ailesi, Coder/Math/VL/Audio özelleşmiş sürümleri, Türkçe per
  • Mistral AI Rehberi Mistral Large 2, Codestral kod modeli, Mixtral MoE, La Plateforme API ve Avrupa