TPToolpazar

Yazılım Geliştirici

LLM Fine-Tuning Rehberi

LoRA, QLoRA, full fine-tuning farkları, Türkçe veri hazırlama, Llama/Qwen/Mistral ile pratik adımlar, bulut sağlayıcı seçimi ve 2026 maliyet analizi.

Fine-tuning (ince ayar), önceden eğitilmiş bir büyük dil modelini kendi verinizle eğitip özel görev veya alana uyarlamaktır. 2026’da fine-tuning, RAG ve prompt mühendisliği üçlüsünün tamamlayıcı parçası: prompt yetmediğinde ve RAG da ekstra bilgi kazandırmadığında devreye girer. Bu rehber LoRA, QLoRA, full fine-tuning farklarını, hangi durumda yapılması gerektiğini, Türkçe veriyle pratik adımları ve maliyetleri anlatır.

Fine-tuning Ne Zaman Gerekli?

Fine-tuning’e başvurmadan önce sıralı düşünün:

  1. Daha iyi prompt yazsam çözer mi?
  2. RAG ile bağlam eklesem yetersiz mi?
  3. Daha güçlü bir model (Opus, GPT-5) kullansam?

Fine-tuning gereken iki tipik durum:

  • Stil/format/tonluk: Çıktının çok özel bir stilde olmasını istiyorsanız (örn. kurum-içi rapor formatı, özel ses tonu). Few-shot prompt yetmezse.
  • Niş alan vokabüleri: Çok özel terminoloji (tıp alt dalı, hukuki ihtisas alanı). Modelin temel eğitim verisinde az.

Bilgi güncellemek için fine-tuning yanlış tercihtir — bilgi RAG ile eklenmeli. Fine-tunedavranış için.

LoRA, QLoRA, Full Fine-tuning

Üç ana yöntem:

  • Full fine-tuning: Modelin tüm parametrelerini güncelle. Maksimum esneklik; muazzam donanım/zaman; orijinal kalitede gerileme riski.
  • LoRA (Low-Rank Adaptation): Modelin yanına küçük adapter matrisleri ekle, sadece onları eğit. Donanım ihtiyacı 100x azalır, kalite çoğunlukla full ile başa baş. 2026 standart yöntemi.
  • QLoRA: LoRA + 4-bit kuantize taban model. Tek RTX 3090/4090 ile 70B modelleri ince ayarlamayı sağlar. Maliyet/performans aslan payı.

Veri Hazırlama (Türkçe için)

Fine-tuning, “veri = ürün” aşamasıdır. Öneriler:

  • Boyut: 100-1.000 yüksek kaliteli örnek tipik başlangıç. 10.000+ örnek karmaşık görev için.
  • Kalite > nicelik: 50 mükemmel örnek 500 orta örnekten iyi sonuç verir. Gözden geçirin, temizleyin.
  • Format: ChatML / OpenAI conversation formatı.
  • Türkçe imlâ: Veriniz net Türkçe olsun (özel karakterler ı/ğ/ş/ç/ü/ö doğru). Karışık dil davranışını “öğretir”.
  • Test seti ayır: %10-20 örneği eğitime sokmayın; sonradan kalite ölçümü için kullanın.

Pratik Eğitim — Llama 3 + LoRA Örneği

Yaygın yığın: Hugging Face transformers + peft + trl. Ya da daha kolay araçlar: Axolotl, Unsloth, Together AI fine-tuning, Ollama yerel fine-tune.

RTX 4090 ile 1.000 örnek üzerinde Llama 3 8B’yi yaklaşık 30-60 dakikada ayarlarsınız. 70B için 8 saat civarı (1x A100 veya 2x A6000).

Bulut Fine-tuning Hizmetleri

  • OpenAI fine-tuning: GPT-4o-mini ve gpt-3.5 için. JSONL yükle, web/CLI ile başlat. Sonuç model OpenAI hesabınızda kullanılır.
  • Together AI: Llama, Mistral, Qwen için. Saatlik ücret veya pay-per-token. İndirilebilir model çıktısı.
  • Replicate, Modal, RunPod: GPU saati başı ücret; kendi yazdığınız scripti çalıştırırsınız.
  • Vertex AI / Azure ML: Kurumsal, KVKK uyumlu AB veri merkezleri ile.

Tipik Maliyetler (2026)

  • Llama 3 8B + LoRA, 1.000 örnek: ~$2 (RunPod)
  • Llama 3 70B + LoRA, 5.000 örnek: ~$50-100 (kiralık 8xA100, ~2 saat)
  • OpenAI GPT-4o-mini, 1.000 örnek: ~$3
  • Tam custom model (sıfırdan eğitim): $10K-1M+ — değme firmaya değil

Sık Sorulan Sorular

Fine-tune edilmiş model 'unutkanlık' yaşar mı?
Evet — ‘catastrophic forgetting’ adıyla bilinir. LoRA bunu büyük ölçüde önler (taban model değişmez). Full fine-tune'da risk yüksek; veri çeşitliliği ve düşük learning rate ile azaltılır.
RAG mı fine-tune mı?
Yeni bilgi eklemek istiyorsan: RAG. Stil/format/davranış değiştirmek istiyorsan: fine-tune. İkisini birlikte kullanmak yaygın — fine-tune model RAG bağlamını daha tutarlı kullanır.
Türkçe için Llama mı, Qwen mi, Mistral mı fine-tune edeyim?
Eşit boyutta: Qwen3 Türkçe başlangıç noktası en iyi (sürpriz iyi taban performans). Mistral Apache 2.0 lisansla en serbest. Llama eğitim ekosistemi en olgun (öğretici, hazır script). Pratik: Qwen3 ile başla.
Eğitim verim 100 örnek, yetiyor mu?
Çok dar görev için (örn. kurum-içi e-posta cevap stili) yeterli olabilir. Genel görev için 1.000+ önerilir. Her zaman test seti ile doğrulayın.
Fine-tune model dağıtımı nasıl?
LoRA adapter küçüktür (10-100 MB), taban model + adapter ayrı yüklenir. Ollama Modelfile, vLLM, TGI gibi sunucularda taban model + adapter ile çalıştırırsınız.
OpenAI fine-tune sonucu indirebilir miyim?
Hayır — kapalı modellerde fine-tune sonucu sadece o sağlayıcının API'siyle erişilir. Açık modellerde (Llama, Mistral, Qwen) tam ağırlıklar sizindir.
Fine-tune güvenlik testleri nasıl yapılır?
Eğitim sonrası model (1) eğitim verisinde olmayan benzer girdilere doğru cevap mı veriyor? (genellesin), (2) zararlı sorulara karşı taban model davranışını koruyor mu? (red-teaming), (3) eğitim verisini ezberlemiyor mu? (memorization probe). Üçü test edilir.

İlgili rehberler

  • RAG Rehberi RAG mimarisi, embedding, vector DB seçenekleri (pgvector, Qdrant, Pinecone), Tür
  • Meta Llama Rehberi Llama 4 sürümleri, donanım gereksinimleri, Ollama ile yerel kurulum, Türkçe perf
  • Alibaba Qwen3 Rehberi Alibaba Qwen3 model ailesi, Coder/Math/VL/Audio özelleşmiş sürümleri, Türkçe per