TPToolpazar

Yazılım Geliştirici

AI Sesli, Görsel ve Video Modelleri

Whisper, ElevenLabs, GPT-Image, Stable Diffusion, FLUX, Sora, Veo — ses, görsel ve video AI modellerinin Türkçe kapsamlı rehberi 2026, telif uyarıları.

2026’da yapay zeka sadece metin değil; ses, görüntü, video üretiminde de günlük araç hâline geldi. Whisper, ElevenLabs, GPT-Image, Stable Diffusion, Flux, Sora, Veo — her biri ayrı bir alanda ana akım. Bu rehber ses-yazıya, metin-sese, metin-görüntüye, görüntü- düzenlemeye ve metin-videoya hangi modellerin kullanıldığını, Türkiye’den nasıl erişileceğini ve telif/etik dikkat edilmesi gereken konuları anlatır.

Ses → Yazı (Speech-to-Text, ASR)

  • OpenAI Whisper: Açık ağırlıklı, çok-dilli (Türkçe dahil 99+ dil). Yerel çalıştırılabilir; ücretsiz. whisper-large-v3 sürümü Türkçe’de en yüksek kalite.
  • OpenAI Whisper API: $0.006/dakika. whisper-large-v3 sunulur.
  • Deepgram, AssemblyAI, Speechmatics: Düşük gecikme + diarization (kim konuşuyor) için. Türkçe destekli.
  • Whisper.cpp: Cihaz-üstü (telefon, RPi) çalıştırma için optimize edilmiş.

Türkçe transkripsiyon için Whisper-large-v3 doğruluk tepe noktada (WER %5-10 temiz ses, %15-25 telefon kalitesi). Kısaltmalar (KDV, SGK) bağlam ile düzelir.

Yazı → Ses (Text-to-Speech, TTS)

  • ElevenLabs: 2026 endüstri standardı, Türkçe destekli, ses klonlama, çoklu-dil tek modelde. Pay-per-character.
  • OpenAI TTS: 6 ses, çok-dilli, basit API. Türkçe konuşma akıcı.
  • Google Cloud TTS, Azure TTS, AWS Polly: Kurumsal opsiyonlar; Türkçe seslerin çeşitliliği orta.
  • Coqui TTS, XTTS-v2, F5-TTS: Açık kaynak. Yerel çalıştırma + ses klonlama. Türkçe için özel ince ayar gerekir (XTTS-v2 zaten desteklemekle birlikte ek tuning iyi eder).

Sesli kitap, podcast, IVR menüsü, eğitim materyali için ElevenLabs en hızlı; gizlilik kritikse açık kaynak XTTS yerel.

Yazı → Görsel (Text-to-Image)

  • OpenAI GPT-Image (DALL-E 3 yerine yeni nesil): ChatGPT içinden ücretsiz/Plus, fotogerçekçi.
  • Google Imagen 3 / Nano Banana: Gemini ve Vertex AI üzerinden. Türkçe komut destekli.
  • Midjourney: Sanatsal üretimde lider; web + Discord. Aylık abonelik ($10-120).
  • Stable Diffusion: Açık ağırlıklı (SD 3.5, FLUX.1). Yerel çalıştırılabilir, AUTOMATIC1111 / ComfyUI arayüzleri.
  • FLUX.1 (Black Forest Labs): 2024-2026 döneminin en güçlü açık modeli. Pro sürümü tepe kalitede.
  • Recraft, Ideogram: Tipografi ve metin-içeren görsellerde önde.

Türkçe komut: GPT-Image, Imagen ve Midjourney akıcı çalışır. Stable Diffusion / Flux daha çok İngilizce komut bekler; Türkçe komutu otomatik çeviren araçlar var.

Görsel Düzenleme

  • Inpainting / outpainting: GPT-Image, Imagen, Midjourney, Photoshop Generative Fill — bir bölgeyi yeniden üret.
  • ControlNet: Stable Diffusion / Flux için — pozisyon, derinlik, kenar şablonu ile yönlendirilmiş üretim.
  • Background remove / upscale: Real-ESRGAN, CodeFormer, RemBG, ClipDrop. Çoğu açık kaynak; ücretsiz.

Yazı → Video

  • OpenAI Sora: ChatGPT Pro abonelik kapsamında. Yüksek kalite ama 60 saniye sınırı.
  • Google Veo 3: Gemini ve Vertex AI üzerinden. Müzik üretimi de dahil yetenekler.
  • Runway Gen-4, Luma Dream Machine, Kling: Bağımsız sağlayıcılar; pay-per-second. Hızlı iterasyon için iyi.
  • HunyuanVideo, CogVideoX, Wan 2.1: Açık ağırlıklı sürümler. Yerel çalıştırma için yüksek VRAM (24GB+) gerekir.

Video maliyeti hâlâ yüksek (saniye başına dolar); küçük ekiplerin prodüksiyon iş akışında genelde 5-15 saniyelik klipler için kullanılır.

Telif ve Etik

  • Eğitim verisi telifi: Pek çok dava devam ediyor. Üreticisi olarak: tanınmış sanatçı stilini, telifli karakteri isimle isteyemezsiniz (Disney, ünlü ressam vs.).
  • Üretimin telifi: ABD’de saf AI üretimi telif konusu değil. Türkiye’de henüz net içtihat yok.
  • Deepfake: İnsan yüzü/sesi ile üretim rıza gerektirir. Türkiye’de TCK 134 (özel hayatın gizliliği), 136 (kişisel veri) kapsamında suç olabilir.
  • Watermarking: AI üretimi olduğunu kullanıcıya belirtin. Birçok platform (Sora, Imagen) görünmez watermark koyar; siz de yazılı belirtin.

Sık Sorulan Sorular

Türkçe ses tanıma için hangi model en iyi?
Whisper-large-v3 (OpenAI). Yerel çalışabilir veya OpenAI API ile $0.006/dk. Doğruluk Türkçe'de en yüksek seviyeler arasında.
ElevenLabs Türkçe sesleri ne kadar doğal?
Çok doğal — neredeyse profesyonel seslendirmen kalitesinde. Aksanın doğal akışı, vurgulama iyi. Tıkışan kelime/yabancı isim için manuel pronunciation hint gerekebilir.
Stable Diffusion vs Midjourney?
SD/Flux: ücretsiz veya kendi GPU'da, esnek (LoRA, ControlNet). Midjourney: kalite çıtası yüksek, Discord/web arayüzü. Profesyonel görsel üretici çoğu zaman ikisini de kullanır.
AI üretimini ürünüme koyabilir miyim?
Çoğunlukla evet (Stable Diffusion, FLUX schnell, Mistral, Llama). Kontrol edin: model lisansı + sağlayıcı şartları + iş ülkesinin telif yasası. Hassas alanlarda (sağlık, çocuk) ek dikkat.
AI ile sahte ses oluşturmak yasal mı?
Birinin sesini onun rızası olmadan klonlamak Türkiye'de TCK kapsamında suç teşkil edebilir; ayrıca KVKK biometrik veri kuralları kapsamına girer. Sadece kendi sesini klonlamak veya kullanım izni almak gerekli.
Sora Türkiye'de kullanılabilir mi?
Evet, ChatGPT Pro abonelik kapsamında. Web arayüzü Türkiye'den çalışır. Türkçe komut destekli ama sonuçlar zaman zaman İngilizce alt yazı içerir.

İlgili rehberler