Yazılım Geliştirici

LLM Fine-Tuning Rehberi

LoRA, QLoRA, full fine-tuning farkları, Türkçe veri hazırlama, Llama/Qwen/Mistral ile pratik adımlar, bulut sağlayıcı seçimi ve 2026 maliyet analizi.

Fine-tuning (ince ayar), önceden eğitilmiş bir büyük dil modelini kendi verinizle eğitip özel görev veya alana uyarlamaktır. 2026’da fine-tuning, RAG ve prompt mühendisliği üçlüsünün tamamlayıcı parçası: prompt yetmediğinde ve RAG da ekstra bilgi kazandırmadığında devreye girer. Bu rehber LoRA, QLoRA, full fine-tuning farklarını, hangi durumda yapılması gerektiğini, Türkçe veriyle pratik adımları ve maliyetleri anlatır.

Fine-tuning Ne Zaman Gerekli?

Fine-tuning’e başvurmadan önce sıralı düşünün:

Daha iyi prompt yazsam çözer mi?
RAG ile bağlam eklesem yetersiz mi?
Daha güçlü bir model (Opus, GPT-5) kullansam?

Fine-tuning gereken iki tipik durum:

Stil/format/tonluk: Çıktının çok özel bir stilde olmasını istiyorsanız (örn. kurum-içi rapor formatı, özel ses tonu). Few-shot prompt yetmezse.
Niş alan vokabüleri: Çok özel terminoloji (tıp alt dalı, hukuki ihtisas alanı). Modelin temel eğitim verisinde az.

Bilgi güncellemek için fine-tuning yanlış tercihtir — bilgi RAG ile eklenmeli. Fine-tunedavranış için.

LoRA, QLoRA, Full Fine-tuning

Üç ana yöntem:

Full fine-tuning: Modelin tüm parametrelerini güncelle. Maksimum esneklik; muazzam donanım/zaman; orijinal kalitede gerileme riski.
LoRA (Low-Rank Adaptation): Modelin yanına küçük adapter matrisleri ekle, sadece onları eğit. Donanım ihtiyacı 100x azalır, kalite çoğunlukla full ile başa baş. 2026 standart yöntemi.
QLoRA: LoRA + 4-bit kuantize taban model. Tek RTX 3090/4090 ile 70B modelleri ince ayarlamayı sağlar. Maliyet/performans aslan payı.

Veri Hazırlama (Türkçe için)

Fine-tuning, “veri = ürün” aşamasıdır. Öneriler:

Boyut: 100-1.000 yüksek kaliteli örnek tipik başlangıç. 10.000+ örnek karmaşık görev için.
Kalite > nicelik: 50 mükemmel örnek 500 orta örnekten iyi sonuç verir. Gözden geçirin, temizleyin.
Format: ChatML / OpenAI conversation formatı.
Türkçe imlâ: Veriniz net Türkçe olsun (özel karakterler ı/ğ/ş/ç/ü/ö doğru). Karışık dil davranışını “öğretir”.
Test seti ayır: %10-20 örneği eğitime sokmayın; sonradan kalite ölçümü için kullanın.

Pratik Eğitim — Llama 3 + LoRA Örneği

Yaygın yığın: Hugging Face transformers + peft + trl. Ya da daha kolay araçlar: Axolotl, Unsloth, Together AI fine-tuning, Ollama yerel fine-tune.

RTX 4090 ile 1.000 örnek üzerinde Llama 3 8B’yi yaklaşık 30-60 dakikada ayarlarsınız. 70B için 8 saat civarı (1x A100 veya 2x A6000).

Bulut Fine-tuning Hizmetleri

OpenAI fine-tuning: GPT-4o-mini ve gpt-3.5 için. JSONL yükle, web/CLI ile başlat. Sonuç model OpenAI hesabınızda kullanılır.
Together AI: Llama, Mistral, Qwen için. Saatlik ücret veya pay-per-token. İndirilebilir model çıktısı.
Replicate, Modal, RunPod: GPU saati başı ücret; kendi yazdığınız scripti çalıştırırsınız.
Vertex AI / Azure ML: Kurumsal, KVKK uyumlu AB veri merkezleri ile.

Tipik Maliyetler (2026)

Llama 3 8B + LoRA, 1.000 örnek: ~$2 (RunPod)
Llama 3 70B + LoRA, 5.000 örnek: ~$50-100 (kiralık 8xA100, ~2 saat)
OpenAI GPT-4o-mini, 1.000 örnek: ~$3
Tam custom model (sıfırdan eğitim): $10K-1M+ — değme firmaya değil

Sık Sorulan Sorular

Fine-tune edilmiş model 'unutkanlık' yaşar mı?

Evet — ‘catastrophic forgetting’ adıyla bilinir. LoRA bunu büyük ölçüde önler (taban model değişmez). Full fine-tune'da risk yüksek; veri çeşitliliği ve düşük learning rate ile azaltılır.

RAG mı fine-tune mı?

Yeni bilgi eklemek istiyorsan: RAG. Stil/format/davranış değiştirmek istiyorsan: fine-tune. İkisini birlikte kullanmak yaygın — fine-tune model RAG bağlamını daha tutarlı kullanır.

Türkçe için Llama mı, Qwen mi, Mistral mı fine-tune edeyim?

Eşit boyutta: Qwen3 Türkçe başlangıç noktası en iyi (sürpriz iyi taban performans). Mistral Apache 2.0 lisansla en serbest. Llama eğitim ekosistemi en olgun (öğretici, hazır script). Pratik: Qwen3 ile başla.

Eğitim verim 100 örnek, yetiyor mu?

Çok dar görev için (örn. kurum-içi e-posta cevap stili) yeterli olabilir. Genel görev için 1.000+ önerilir. Her zaman test seti ile doğrulayın.

Fine-tune model dağıtımı nasıl?

LoRA adapter küçüktür (10-100 MB), taban model + adapter ayrı yüklenir. Ollama Modelfile, vLLM, TGI gibi sunucularda taban model + adapter ile çalıştırırsınız.

OpenAI fine-tune sonucu indirebilir miyim?

Hayır — kapalı modellerde fine-tune sonucu sadece o sağlayıcının API'siyle erişilir. Açık modellerde (Llama, Mistral, Qwen) tam ağırlıklar sizindir.

Fine-tune güvenlik testleri nasıl yapılır?

Eğitim sonrası model (1) eğitim verisinde olmayan benzer girdilere doğru cevap mı veriyor? (genellesin), (2) zararlı sorulara karşı taban model davranışını koruyor mu? (red-teaming), (3) eğitim verisini ezberlemiyor mu? (memorization probe). Üçü test edilir.

İlgili rehberler

RAG Rehberi — RAG mimarisi, embedding, vector DB seçenekleri (pgvector, Qdrant, Pinecone), Tür…
Meta Llama Rehberi — Llama 4 sürümleri, donanım gereksinimleri, Ollama ile yerel kurulum, Türkçe perf…
Alibaba Qwen3 Rehberi — Alibaba Qwen3 model ailesi, Coder/Math/VL/Audio özelleşmiş sürümleri, Türkçe per…