Metinden görsel oluşturma modeli - Vikipedi
İçeriğe atla
Ana menü
Gezinti
  • Anasayfa
  • Hakkımızda
  • İçindekiler
  • Rastgele madde
  • Seçkin içerik
  • Yakınımdakiler
Katılım
  • Deneme tahtası
  • Köy çeşmesi
  • Son değişiklikler
  • Dosya yükle
  • Topluluk portalı
  • Wikimedia dükkânı
  • Yardım
  • Özel sayfalar
Vikipedi Özgür Ansiklopedi
Ara
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç

İçindekiler

  • Giriş
  • 1 Tarihi
  • 2 Kaynakça

Metinden görsel oluşturma modeli

  • Aragonés
  • العربية
  • Català
  • Deutsch
  • English
  • فارسی
  • Suomi
  • Français
  • Galego
  • עברית
  • Bahasa Indonesia
  • Ido
  • 日本語
  • 한국어
  • پښتو
  • Português
  • Српски / srpski
  • 中文
  • 粵語
Bağlantıları değiştir
  • Madde
  • Tartışma
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Araçlar
Eylemler
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Genel
  • Sayfaya bağlantılar
  • İlgili değişiklikler
  • Kalıcı bağlantı
  • Sayfa bilgisi
  • Bu sayfayı kaynak göster
  • Kısaltılmış URL'yi al
  • Karekodu indir
Yazdır/dışa aktar
  • Bir kitap oluştur
  • PDF olarak indir
  • Basılmaya uygun görünüm
Diğer projelerde
  • Wikimedia Commons
  • Vikiveri ögesi
Görünüm
Vikipedi, özgür ansiklopedi
(Metinden resme model sayfasından yönlendirildi)
2022'de piyasaya sürülenStable Diffusion tarafından oluşturulan "Ata binen bir astronot, Hiroshige " girdisi ile oluşturulmuş bir görüntü.

Metinden görüntüye model, girdi olarak bir metin açıklamasını alan ve bu tanıma uyan bir görüntü üreten bir makine öğrenim modelidir. Bu tür modeller, derin sinir ağlarındaki geliştirmelerin bir sonucu olarak 2010'ların ortalarında geliştirilmeye başlandı. 2022'de OpenAI'dan DALL-E 2, Google Brain'den Imagen ve StabilityAI'den Stable Diffusion gibi metinden resme modellerin çıktıları, gerçek fotoğrafların ve insan çizimlerinin kalitesine yaklaşmaya başladı. Metinden video oluşturma modeli bunun daha gelişmiş türüdür.

Metinden görüntüye modeller genellikle girdi metnini gizli bir temsile dönüştüren bir dil modeli ile bu temsile bağlı bir görüntü üreten üretken bir görüntü modelini birleştirir. En etkili modeller genellikle web'den alınan büyük miktardaki resim ve metin verileriyle eğitilmiştir.[1]

Tarihi

[değiştir | kaynağı değiştir]

Derin öğrenmenin ortaya çıkmasından önce, metinden görüntüye modeller oluşturma girişimleri, örneğin bir küçük resim veri tabanındaki mevcut bileşen görüntülerinin düzenlenmesiyle yapılan kolajlarla sınırlıydı.[2][3]

Ters görev olan görüntü altyazısı daha kolay takip edilebilirdi ve bir dizi görüntü altyazılı derin öğrenme modeli, ilk metinden görüntüye modellerden önce geldi.[4]

İlk modern metinden resme modeli olan alignDRAW, 2015 yılında Toronto Üniversitesi'nden araştırmacılar tarafından tanıtıldı. alignDRAW, daha önce tanıtılan DRAW mimarisini (bir dikkat mekanizmasına sahip tekrarlayan değişken bir otomatik kodlayıcı kullanan) metin dizilerine göre koşullandıracak şekilde genişletti.[4] alignDRAW tarafından oluşturulan görüntüler bulanıktı ve fotogerçekçi değildi, ancak model, eğitim verilerinde temsil edilmeyen nesnelere (kırmızı bir okul otobüsü gibi) genelleme yapabildi ve "mavi gökyüzünde bir dur işareti uçuyor" gibi yeni istemleri uygun şekilde ele aldı. ", bunun yalnızca eğitim setindeki verileri "ezberlemek" olmadığını gösteriyor.[5]

2016 yılında Reed, Akata, Yan ve ark. metinden resme görevi için üretken rakip ağları kullanan ilk kişi oldu.[5][6] Dar, alana özgü veri kümeleri üzerinde eğitilen modeller sayesinde, "belirgin, kalın, yuvarlak gagalı, tamamen siyah bir kuş" gibi metin başlıklarından kuşların ve çiçeklerin "görsel olarak makul" görüntülerini oluşturmayı başardılar. Daha çeşitli COCO veri seti üzerinde eğitilen bir model, "uzaktan... cesaret verici" görüntüler üretti, ancak ayrıntılarında tutarlılık yoktu.[5] Daha sonraki sistemler arasında VQGAN+CLIP,[7] XMC-GAN ve GauGAN2 bulunur.[8]

Kamuoyunun geniş ilgisini çeken ilk metinden görüntüye modellerden biri, Ocak 2021'de duyurulan bir transformatör sistemi olan OpenAI'nin DALL-E'siydi.[9] Daha karmaşık ve gerçekçi görüntüler oluşturabilen bir halef olan DALL-E 2, Nisan 2022'de tanıtıldı[10] ve ardından Ağustos 2022'de halka açık Stable Diffusion yayınlandı.[11]

Kaynakça

[değiştir | kaynağı değiştir]
  1. ^ Vincent, James (24 Mayıs 2022). "All these images were generated by Google's latest text-to-image AI". The Verge (İngilizce). 15 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  2. ^ Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan (Temmuz 2020). "A survey and taxonomy of adversarial neural networks for text‐to‐image synthesis". WIREs Data Mining and Knowledge Discovery (İngilizce). 10 (4). doi:10.1002/widm.1345. ISSN 1942-4787. 16 Aralık 2023 tarihinde kaynağından arşivlendi16 Aralık 2023. 
  3. ^ Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). "A text-to-picture synthesis system for augmenting communication 7 Eylül 2022 tarihinde Wayback Machine sitesinde arşivlendi." (PDF). AAAI. 7: 1590–1595.
  4. ^ a b Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy; Salakhutdinov, R. (9 Kasım 2015). "Generating Images from Captions with Attention". CoRR. 16 Aralık 2023 tarihinde kaynağından arşivlendi16 Aralık 2023. 
  5. ^ a b c Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (June 2016). "Generative Adversarial Text to Image Synthesis 16 Mart 2023 tarihinde Wayback Machine sitesinde arşivlendi." (PDF). International Conference on Machine Learning.
  6. ^ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (1 Aralık 2021). "Adversarial text-to-image synthesis: A review". Neural Networks. 144: 187-209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080. 5 Kasım 2023 tarihinde kaynağından arşivlendi16 Aralık 2023. 
  7. ^ Rodriguez, Jesus (27 Eylül 2022). "🌅 Edge#229: VQGAN + CLIP". TheSequence. 4 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  8. ^ Rodriguez, Jesus (4 Ekim 2022). "🎆🌆 Edge#231: Text-to-Image Synthesis with GANs". TheSequence. 4 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  9. ^ Coldewey, Devin (5 Ocak 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". TechCrunch (İngilizce). 5 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  10. ^ Coldewey, Devin (6 Nisan 2022). "New OpenAI tool draws anything, bigger and better than ever". TechCrunch (İngilizce). 6 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  11. ^ "Stable Diffusion Public Release". Stability AI (İngilizce). 16 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  • g
  • t
  • d
Yapay zekâ
Üretken yapay zekâ Yapay sinir ağları · Tarih (zaman çizelgesi)
Kavramlar
  • Üretken yapay zekâ
  • Parametre
    • Hiperparametre
  • Kayıp fonksiyonları
  • Regresyon
    • Önyargı-varyans değiş tokuşu
    • Çift iniş
    • Aşırı öğrenme
  • Kümeleme
  • Gradyan iniş
    • SGD
    • Yarı-Newton yöntemi
    • Eşlenik gradyan yöntemi
  • Geri yayılım
  • Dikkat
  • Konvolüsyon
  • Normalizasyon
    • Toplu norm
  • Aktivasyon
    • Softmax
    • Sigmoid
    • Doğrultucu
  • Geçit
  • Ağırlık başlatma
  • Düzenleme
  • Veri kümeleri
    • Arttırma
  • Sufle mühendisliği
  • Pekiştirmeli öğrenme
    • SARSA
    • Taklit
    • Politika gradyanı
  • Yayılma
  • Gizli yayılım model
  • Otoregresyon
  • Rakip
  • RAG
  • Tekinsiz vadi
  • RLHF
  • Kendi kendine denetlenen öğrenme
  • Yinelemeli kendini geliştirme
  • Kelime yerleştirme
  • Halüsinasyon
Uygulamalar
  • Makine öğrenimi
    • Bağlam içi öğrenme
  • Yapay sinir ağı
    • Derin öğrenme
  • Dil modeli
    • Geniş dil modeli
    • NMT
  • Yapay genel zekâ
Uygulamalar
Text
  • Word2vec
  • Seq2seq
  • GloVe
  • BERT
  • T5
  • Llama
  • Chinchilla AI
  • PaLM
  • GPT
    • 1
    • 2
    • 3
    • J
    • ChatGPT
    • 4
    • 4o
    • 4.5
    • o1
    • o3
  • Claude
  • Gemini
    • chatbot
  • Grok
  • LaMDA
  • BLOOM
  • Project Debater
  • IBM Watson
  • IBM Watsonx
  • Granite
  • PanGu-Σ
  • DeepSeek
  • Qwen
Karar verici
  • AlphaGo
  • AlphaZero
  • OpenAI Five
  • Otonom araba
  • MuZero
  • Eylem seçimi
    • AutoGPT
  • Robot kontrolü
İnsanlar
  • Alan Turing
  • Warren Sturgis McCulloch
  • Walter Pitts
  • John von Neumann
  • Claude Shannon
  • Marvin Minsky
  • John McCarthy
  • Nathaniel Rochester
  • Allen Newell
  • Cliff Shaw
  • Herbert A. Simon
  • Oliver Selfridge
  • Frank Rosenblatt
  • Bernard Widrow
  • Joseph Weizenbaum
  • Seymour Makalesi
  • Seppo Linnainmaa
  • Paul Werbos
  • Jürgen Schmidhuber
  • Yann LeCun
  • Geoffrey Hinton
  • John Hopfield
  • Yoshua Bengio
  • Lotfi A. Zadeh
  • Stephen Grossberg
  • Alex Graves
  • Andrew Ng
  • Fei-Fei Li
  • Alex Krizhevsky
  • Ilya Sutskever
  • Demis Hassabis
  • David Silver
  • Ian Goodfellow
  • Andrej Karpathy
Mimarlıklar
  • Nöral Turing makinesi
  • Ayrılabilir sinir bilgisayarı
  • Transformatör
    • Görüntü dönüştürücüsü (ViT)
  • Tekrarlayan sinir ağı (RNN)
  • Uzun kısa süreli bellek (LSTM)
  • Kapılı tekrarlayan birim (GRU)
  • Yankı durumu ağı
  • Çok katmanlı algılayıcı (MLP)
  • Konvolüsyonlu sinir ağı (CNN)
  • Kalıntı sinir ağı (RNN)
  • Otoyol ağı
  • Mamba
  • Oto kodlayıcı
  • Değişken oto kodlayıcı (VAE)
  • Üretici düşmanca ağ (GAN)
  • Grafik sinir ağı (GNN)
  • Şirketler
  • Projeler
  • g
  • t
  • d
Bilgisayar grafikleri
Vektör grafikleri
  • Difüzyon eğrisi
  • Piksel
2D grafikler
  • Alfa kompozisyonu
  • Katmanlar
  • Metinden görüntüye
  • 2,5D
    • İzometrik grafikler
    • Mod 7
    • Paralaks kaydırma
    • Işın dökümü
    • Skybox
3D grafikler
  • Üç boyutlu giydirme
  • 3B projeksiyon
  • 3B rendering
  • (Görüntü tabanlı
  • Spektral
  • Tarafsız)
  • Aliasing
  • Anizotropik filtreleme
  • Cel shading
  • Akışkan animasyon
  • Aydınlatma
    • Küresel ışıklandırma
  • Gizli yüzey belirleme
  • Çokgen ağ
  • (Üçgen ağ)
  • Gölgelendirme
    • Ertelenmiş
  • Yüzey üçgenlemesi
  • Tel çerçeve modeli
Kavramlar
  • Afin dönüşümü
  • Arka yüz ayıklama
  • Kırpma
  • Çarpışma algılama
  • Düzlemsel projeksiyon
  • Yansıma
  • Görüntüleme
    • Işın izleme
    • Koni izleme
    • Dama tahtası görüntüleme
    • Işın izleme
    • Yol izleme
    • Işın dökümü
    • Tarama çizgisi görüntüleme
  • Döndürme
  • Ölçekleme
  • Gölge eşleme
  • Gölge hacmi
  • Kesme matrix
  • Gölgelendirici
  • Texel
  • Öteleme
  • Hacim işleme
  • Voxel
Grafik yazılımı
  • 3B bilgisayar grafik yazılımı
    • animasyon
    • modelleme
    • işleme
  • Raster grafik editörü
  • Vektör grafik düzenleyicileri
  • Vektör grafik editörü
Algoritmalar
  • Bilgisayar grafik algoritmaları listesi
"https://tr.wikipedia.org/w/index.php?title=Metinden_görsel_oluşturma_modeli&oldid=35594310" sayfasından alınmıştır
Kategoriler:
  • Yapay zekâ
  • Metinden resme generasyonu
  • OpenAI
  • Modelleme
Gizli kategori:
  • Webarşiv şablonu wayback bağlantıları
  • Sayfa en son 22.58, 5 Temmuz 2025 tarihinde değiştirildi.
  • Metin Creative Commons Atıf-AynıLisanslaPaylaş Lisansı altındadır ve ek koşullar uygulanabilir. Bu siteyi kullanarak Kullanım Şartlarını ve Gizlilik Politikasını kabul etmiş olursunuz.
    Vikipedi® (ve Wikipedia®) kâr amacı gütmeyen kuruluş olan Wikimedia Foundation, Inc. tescilli markasıdır.
  • Gizlilik politikası
  • Vikipedi hakkında
  • Sorumluluk reddi
  • Davranış Kuralları
  • Geliştiriciler
  • İstatistikler
  • Çerez politikası
  • Mobil görünüm
  • Wikimedia Foundation
  • Powered by MediaWiki
Metinden görsel oluşturma modeli
Konu ekle