Yazılım Geliştirici
AI Sesli, Görsel ve Video Modelleri
Whisper, ElevenLabs, GPT-Image, Stable Diffusion, FLUX, Sora, Veo — ses, görsel ve video AI modellerinin Türkçe kapsamlı rehberi 2026, telif uyarıları.
2026’da yapay zeka sadece metin değil; ses, görüntü, video üretiminde de günlük araç hâline geldi. Whisper, ElevenLabs, GPT-Image, Stable Diffusion, Flux, Sora, Veo — her biri ayrı bir alanda ana akım. Bu rehber ses-yazıya, metin-sese, metin-görüntüye, görüntü- düzenlemeye ve metin-videoya hangi modellerin kullanıldığını, Türkiye’den nasıl erişileceğini ve telif/etik dikkat edilmesi gereken konuları anlatır.
Ses → Yazı (Speech-to-Text, ASR)
- OpenAI Whisper: Açık ağırlıklı, çok-dilli (Türkçe dahil 99+ dil). Yerel çalıştırılabilir; ücretsiz. whisper-large-v3 sürümü Türkçe’de en yüksek kalite.
- OpenAI Whisper API: $0.006/dakika. whisper-large-v3 sunulur.
- Deepgram, AssemblyAI, Speechmatics: Düşük gecikme + diarization (kim konuşuyor) için. Türkçe destekli.
- Whisper.cpp: Cihaz-üstü (telefon, RPi) çalıştırma için optimize edilmiş.
Türkçe transkripsiyon için Whisper-large-v3 doğruluk tepe noktada (WER %5-10 temiz ses, %15-25 telefon kalitesi). Kısaltmalar (KDV, SGK) bağlam ile düzelir.
Yazı → Ses (Text-to-Speech, TTS)
- ElevenLabs: 2026 endüstri standardı, Türkçe destekli, ses klonlama, çoklu-dil tek modelde. Pay-per-character.
- OpenAI TTS: 6 ses, çok-dilli, basit API. Türkçe konuşma akıcı.
- Google Cloud TTS, Azure TTS, AWS Polly: Kurumsal opsiyonlar; Türkçe seslerin çeşitliliği orta.
- Coqui TTS, XTTS-v2, F5-TTS: Açık kaynak. Yerel çalıştırma + ses klonlama. Türkçe için özel ince ayar gerekir (XTTS-v2 zaten desteklemekle birlikte ek tuning iyi eder).
Sesli kitap, podcast, IVR menüsü, eğitim materyali için ElevenLabs en hızlı; gizlilik kritikse açık kaynak XTTS yerel.
Yazı → Görsel (Text-to-Image)
- OpenAI GPT-Image (DALL-E 3 yerine yeni nesil): ChatGPT içinden ücretsiz/Plus, fotogerçekçi.
- Google Imagen 3 / Nano Banana: Gemini ve Vertex AI üzerinden. Türkçe komut destekli.
- Midjourney: Sanatsal üretimde lider; web + Discord. Aylık abonelik ($10-120).
- Stable Diffusion: Açık ağırlıklı (SD 3.5, FLUX.1). Yerel çalıştırılabilir, AUTOMATIC1111 / ComfyUI arayüzleri.
- FLUX.1 (Black Forest Labs): 2024-2026 döneminin en güçlü açık modeli. Pro sürümü tepe kalitede.
- Recraft, Ideogram: Tipografi ve metin-içeren görsellerde önde.
Türkçe komut: GPT-Image, Imagen ve Midjourney akıcı çalışır. Stable Diffusion / Flux daha çok İngilizce komut bekler; Türkçe komutu otomatik çeviren araçlar var.
Görsel Düzenleme
- Inpainting / outpainting: GPT-Image, Imagen, Midjourney, Photoshop Generative Fill — bir bölgeyi yeniden üret.
- ControlNet: Stable Diffusion / Flux için — pozisyon, derinlik, kenar şablonu ile yönlendirilmiş üretim.
- Background remove / upscale: Real-ESRGAN, CodeFormer, RemBG, ClipDrop. Çoğu açık kaynak; ücretsiz.
Yazı → Video
- OpenAI Sora: ChatGPT Pro abonelik kapsamında. Yüksek kalite ama 60 saniye sınırı.
- Google Veo 3: Gemini ve Vertex AI üzerinden. Müzik üretimi de dahil yetenekler.
- Runway Gen-4, Luma Dream Machine, Kling: Bağımsız sağlayıcılar; pay-per-second. Hızlı iterasyon için iyi.
- HunyuanVideo, CogVideoX, Wan 2.1: Açık ağırlıklı sürümler. Yerel çalıştırma için yüksek VRAM (24GB+) gerekir.
Video maliyeti hâlâ yüksek (saniye başına dolar); küçük ekiplerin prodüksiyon iş akışında genelde 5-15 saniyelik klipler için kullanılır.
Telif ve Etik
- Eğitim verisi telifi: Pek çok dava devam ediyor. Üreticisi olarak: tanınmış sanatçı stilini, telifli karakteri isimle isteyemezsiniz (Disney, ünlü ressam vs.).
- Üretimin telifi: ABD’de saf AI üretimi telif konusu değil. Türkiye’de henüz net içtihat yok.
- Deepfake: İnsan yüzü/sesi ile üretim rıza gerektirir. Türkiye’de TCK 134 (özel hayatın gizliliği), 136 (kişisel veri) kapsamında suç olabilir.
- Watermarking: AI üretimi olduğunu kullanıcıya belirtin. Birçok platform (Sora, Imagen) görünmez watermark koyar; siz de yazılı belirtin.
Sık Sorulan Sorular
Türkçe ses tanıma için hangi model en iyi?
ElevenLabs Türkçe sesleri ne kadar doğal?
Stable Diffusion vs Midjourney?
AI üretimini ürünüme koyabilir miyim?
AI ile sahte ses oluşturmak yasal mı?
Sora Türkiye'de kullanılabilir mi?
İlgili rehberler
- Google Gemini Rehberi — Gemini 2.x Pro/Flash, NotebookLM, Code Assist, Vertex AI ve Türkiye'den ücretsiz…
- OpenAI GPT ve Codex Rehberi — GPT-5, o3, o4 akıl yürütme modelleri, Codex CLI ve ChatGPT Plus/Pro/Free aboneli…
- Yapay Zeka Modelleri 2026: Kapsamlı Türkçe Rehber — Claude, GPT, Gemini, Llama, DeepSeek, Mistral, Qwen — 2026'nın tüm büyük dil mod…