Pekiştirmeli öğrenme - Vikipedi
İçeriğe atla
Ana menü
Gezinti
  • Anasayfa
  • Hakkımızda
  • İçindekiler
  • Rastgele madde
  • Seçkin içerik
  • Yakınımdakiler
Katılım
  • Deneme tahtası
  • Köy çeşmesi
  • Son değişiklikler
  • Dosya yükle
  • Topluluk portalı
  • Wikimedia dükkânı
  • Yardım
  • Özel sayfalar
Vikipedi Özgür Ansiklopedi
Ara
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç

İçindekiler

  • Giriş
  • 1 Giriş
  • 2 Keşif
  • 3 Derin pekiştirmeli öğrenme
  • 4 Ters pekiştirmeli öğrenme
  • 5 Kaynakça

Pekiştirmeli öğrenme

  • العربية
  • Български
  • বাংলা
  • Bosanski
  • Català
  • کوردی
  • Čeština
  • Deutsch
  • Ελληνικά
  • English
  • Español
  • Eesti
  • Euskara
  • فارسی
  • Suomi
  • Français
  • עברית
  • Հայերեն
  • Bahasa Indonesia
  • İtaliano
  • 日本語
  • 한국어
  • Монгол
  • Bahasa Melayu
  • Nederlands
  • Norsk bokmål
  • ଓଡ଼ିଆ
  • Polski
  • Português
  • Runa Simi
  • Русский
  • Simple English
  • Slovenščina
  • Српски / srpski
  • Svenska
  • Українська
  • Tiếng Việt
  • 吴语
  • 中文
  • 粵語
Bağlantıları değiştir
  • Madde
  • Tartışma
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Araçlar
Eylemler
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Genel
  • Sayfaya bağlantılar
  • İlgili değişiklikler
  • Kalıcı bağlantı
  • Sayfa bilgisi
  • Bu sayfayı kaynak göster
  • Kısaltılmış URL'yi al
  • Karekodu indir
Yazdır/dışa aktar
  • Bir kitap oluştur
  • PDF olarak indir
  • Basılmaya uygun görünüm
Diğer projelerde
  • Wikimedia Commons
  • Vikiveri ögesi
Görünüm
Vikipedi, özgür ansiklopedi
(Takviyeli öğrenme sayfasından yönlendirildi)
Makine öğrenmesi ve
veri madenciliği
Problemler
  • Sınıflandırma
  • Kümeleme
  • Regresyon
  • Anomali tespiti
  • Association rules
  • Pekiştirmeli öğrenme
  • Yapılandırılmış tahmin
  • Öznitelik mühendisliği
  • Öznitelik öğrenmesi
  • Öznitelik çıkarımı
  • Online öğrenme
  • Yarı-gözetimli öğrenme
  • Gözetimsiz öğrenme
  • Sıralama öğrenme
  • Gramer Tümevarımı
Gözetimli öğrenme
  • Karar ağacı
  • Birlik öğrenmesi
  • k-YK
  • Doğrusal regresyon
  • Naive Bayes
  • Sinir ağları
  • Lojistik regresyon
  • Relevance vector machine (RVM)
  • Support vector machine (SVM)
  • Rastgele orman
Kümeleme
  • BIRCH
  • Hiyerarşik
  • k-means
  • Beklenti maksimizasyon

  • DBSCAN
  • OPTICS
  • Mean-shift
Boyut indirgeme
  • Faktör analizi
  • CCA
  • ICA
  • LDA
  • NMF
  • PCA
  • t-SNE
Yapılandırılmış tahmin
  • Grafiksel modeller (Bayes ağları, CRF, HMM)
Anomali tespiti
  • k-NN
  • Local outlier factor
Sinir ağları
  • Perseptron
  • Otokodlayıcı
  • Derin öğrenme
  • RNN
  • LSTM
  • Kısıtlı Boltzmann makinesi
  • SOM
  • Kıvrımlı sinir ağları
Pekiştirmeli öğrenme
  • Q-Learning
  • SARSA
  • Temporal Difference (TD)
Teori
  • Bias-variance ikilemi
  • Hesaplamalı öğrenme teorisi
  • Empirik risk minimizasyonu
  • Occam learning
  • PAC learning
  • İstatistiki öğrenme teorisi
  • VC theory
Konferanslar ve dergiler
  • NIPS
  • ICML
  • ML
  • JMLR
  • ArXiv:cs.LG
  • g
  • t
  • d

Pekiştirmeli öğrenme, davranışçılıktan esinlenen, öznelerin bir ortamda en yüksek ödül miktarına ulaşabilmesi için hangi eylemleri yapması gerektiğiyle ilgilenen bir makine öğrenmesi yaklaşımıdır. Bu problem, genelliğinden ötürü oyun kuramı, kontrol kuramı, yöneylem araştırması, bilgi kuramı, benzetim tabanlı eniyileme ve istatistik gibi birçok diğer dalda da çalışılmaktadır.

Makine öğrenmesinde, ortam genellikle bir Markov karar süreci (MKS) olarak modellenir, bu bağlamda birçok pekiştirmeli öğrenme algoritması dinamik programlama tekniklerini kullanır.[1] Pekiştirmeli öğrenme algoritmalarının klasik tekniklerden farkı, MKS hakkında ön bilgiye ihtiyaç duymamaları ve kesin yöntemlerin verimsiz kaldığı büyük MKS'ler için kullanılmalarıdır.

Pekiştirmeli öğrenme, doğru girdi/çıktı eşleşmelerinin verilmemesi ve optimal olmayan eylemlerin dışarıdan düzeltilmemesi yönleriyle gözetimli öğrenmeden ayrışır. Dahası, pekiştirmeli öğrenmede bilinmeyen uzayda keşif (İngilizce: exploration) ile mevcut bilgiden istifade (İngilizce: exploitation) arasında bir denge kurma söz konusudur.[2]

Giriş

[değiştir | kaynağı değiştir]
Pekiştirmeli öğrenmenin işleyişi. Özne bir eylemde bulunarak çevre ile etkileşir. Çevreyi gözlemleyerek yeni durumu ve elde ettiği ödülleri değerlendirir. Eylemler ve gözlemler bir döngü içinde birbirini takip eder.

Temel pekiştirmeli öğrenme modeli şunlardan oluşur:

  1. öznenin ve ortamın durumlarını (İngilizce: state) içeren bir S {\displaystyle S} {\displaystyle S} kümesi;
  2. öznenin yapabileceği eylemleri (İngilizce: action) içeren bir A {\displaystyle A} {\displaystyle A} kümesi;
  3. her durumda hangi eyleme geçileceğini belirleyen prensipler (İngilizce: policy);
  4. bir durum geçişinin kazandıracağı skaler anlık ödülü hesaplamak için kurallar;
  5. öznenin gözlemlerini betimlemek için kurallar.

Kurallar sıklıkla stokastiktir. Gözlemler genellikle son yapılan durum geçişinin kazandırdığı ödülü içerir. Birçok çalışmada öznenin mevcut ortam durumunu gözlemleyebildiği kabul edilir, yani tam gözlenebilirlik. Ancak bunun karşıtı durumlar da söz konusudur ve kısmi gözlenebilirlik olarak adlandırılır. Bazı durumlarda öznenin yapabileceği eylemler kısıtlanmıştır (örn. harcanabilecek para miktarı).

Bir pekiştirmeli öğrenme öznesi ortamla ayrık zaman adımlarında etkileşir. Her t {\displaystyle t} {\displaystyle t} zaman adımında, özne r t {\displaystyle r_{t}} {\displaystyle r_{t}} ödülüne sahip bir o t {\displaystyle o_{t}} {\displaystyle o_{t}} gözlemi alır. Bunun üzerine müsait eylemler kümesinden bir a t {\displaystyle a_{t}} {\displaystyle a_{t}} eylemi seçer ve bu yolla ortamla etkileşir. Ortam yeni bir s t + 1 {\displaystyle s_{t+1}} {\displaystyle s_{t+1}} durumuna evrilir. Yeni durumla ilişkili r t + 1 {\displaystyle r_{t+1}} {\displaystyle r_{t+1}} ödülü de belirlenir. Bu ödül ( s t , a t , s t + 1 ) {\displaystyle (s_{t},a_{t},s_{t+1})} {\displaystyle (s_{t},a_{t},s_{t+1})} geçişine aittir. Pekiştirmeli öğrenme öznesinin amacı mümkün olduğunca fazla ödül toplamaktır. Özne eylemlerini geçmiş durumların bir fonksiyonu olarak seçebilir, hatta eylem seçimini rassal olarak yapabilir.

Bir öznenin performansı mükemmel davranışa sahip özneninki ile karşılaştırıldığında, aralarında oluşan performans kaybı pişmanlık terimi ile ifade edilir. Mükemmel davranışa ulaşmak için, bir özne eylemlerinin uzun vadeli sonuçlarını dikkate almalıdır (gelecekteki çıkarlarını yükseltmek amacıyla). Özne bunun için kısa vadeli ödüllerden vazgeçebilmelidir.

Bu yüzden, pekiştirmeli öğrenme uzun ve kısa vadeli ödüller arasında tercih yapmayı gerektiren problemler için iyi bir yaklaşımdır. Robot kontrolü, telekomünikasyon, tavla, dama ve go (AlphaGo) gibi birçok konuda başarıyla uygulanmıştır.

Keşif

[değiştir | kaynağı değiştir]

Pekiştirmeli öğrenme akıllı bir keşif mekanizmasına ihtiyaç duyar. Eylemlerin, herhangi bir olasılıksal dağılımına bağlı kalmadan, rastgele seçilmesi kötü bir performansa neden olabilir. Küçük (sonlu) Markov karar süreçleri (MKS) için keşif problemi iyi anlaşılmıştır. Ancak, büyük uzaylı Markov karar süreçleri için başarısı kanıtlanmış algoritmalar olmadığından ötürü daha basit keşif yöntemleri tercih edilmektedir.

Bu yöntemlerden biri aç gözlü hareket belirlemedir ( ϵ {\displaystyle \epsilon } {\displaystyle \epsilon }-greedy). Bu yönteme göre ϵ {\displaystyle \epsilon } {\displaystyle \epsilon } ihtimalle rastgele bir eylem yapılır, 1 − ϵ {\displaystyle 1-\epsilon } {\displaystyle 1-\epsilon } ihtimalle ise uzun vadede en iyi sonucu getireceği hesaplanan eylem yapılır.[3] Burada, 0 < ϵ < 1 {\displaystyle 0<\epsilon <1} {\displaystyle 0<\epsilon <1} ayar parametresi olarak kullanılır; ϵ {\displaystyle \epsilon } {\displaystyle \epsilon } arttıkça keşif eğilimi artar, ϵ {\displaystyle \epsilon } {\displaystyle \epsilon } azaldıkça sömürü (İngilizce: exploitation) eğilimi artar. Bu ayar parametresi belirli bir zamanlamaya göre değişebileceği gibi (keşfi yavaşça ve sürekli azaltmak), sezgisel bir şekilde de uyarlanabilir.[4]

Derin pekiştirmeli öğrenme

[değiştir | kaynağı değiştir]

Derin öğrenme ile pekiştirmeli öğrenmeyi birleştiren yaklaşımlara denir. Öğrenme sistemi diğer pekiştirmeli öğrenme yöntemleriyle aynıdır (durum, eylem, ödül vb.), ancak sistemin bazı kısımları derin yapay zeka ağları ile modellenir.[5] Örneğin verilen bir durum-eylem ikilisine karşılık gelen ödül miktarını öğrenmek için derin öğrenme kullanılabilir. Google DeepMind tarafından geliştirilen, ATARI oyunlarını oynayan yapay zeka uygulaması[6] derin pekiştirmeli öğrenmeye olan ilgiyi artırmıştır.

Ters pekiştirmeli öğrenme

[değiştir | kaynağı değiştir]

Ters pekiştirmeli öğrenmede öntanımlı bir ödül fonksiyonu yoktur. Onun yerine, bir uzmanın davranışları gözlemlenerek bir ödül fonksiyonu öğrenilir. Ana fikir mükemmel ya da mükemmele yakın olan davranışı gözlemlemek ve taklit etmektir.[7]

Kaynakça

[değiştir | kaynağı değiştir]
  1. ^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement learning and markov decision processes". Reinforcement Learning. Springer Berlin Heidelberg. ss. 3-42. 26 Nisan 2017 tarihinde kaynağından arşivlendi31 Ocak 2017. 
  2. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. Cilt 4. ss. 237-285. 20 Kasım 2001 tarihinde kaynağından arşivlendi. 
  3. ^ Alpaydın, Ethem (2011). Yapay öğrenme (1.basım bas.). İstanbul: Boğaziçi Üniversitesi Yayınevi. ISBN 9786054238491. 
  4. ^ Tokic, Michel; Palm, Günther (2011). Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax"KI 2011: Advances in Artificial Intelligence" (PDF). Lecture Notes in Computer Science. Cilt 7006. Springer. ss. 335-346. ISBN 978-3-642-24455-1. 23 Kasım 2018 tarihinde kaynağından arşivlendi (PDF). 
  5. ^ Francois-Lavet, Vincent (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4). ss. 219-354. doi:10.1561/2200000071. 11 Temmuz 2019 tarihinde kaynağından arşivlendi11 Temmuz 2019. 
  6. ^ Mnih, Volodymyr (2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540). ss. 529-533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. 
  7. ^ Ng, A. Y.; Russell, S. J. (2000). Algorithms for inverse reinforcement learning. Icml. ss. 663-670. 
"https://tr.wikipedia.org/w/index.php?title=Pekiştirmeli_öğrenme&oldid=35259846" sayfasından alınmıştır
Kategoriler:
  • Markov modelleri
  • Pekiştirmeli öğrenme
  • Dinamik programlama
  • İnanç revizyonu
  • Sayfa en son 22.26, 23 Nisan 2025 tarihinde değiştirildi.
  • Metin Creative Commons Atıf-AynıLisanslaPaylaş Lisansı altındadır ve ek koşullar uygulanabilir. Bu siteyi kullanarak Kullanım Şartlarını ve Gizlilik Politikasını kabul etmiş olursunuz.
    Vikipedi® (ve Wikipedia®) kâr amacı gütmeyen kuruluş olan Wikimedia Foundation, Inc. tescilli markasıdır.
  • Gizlilik politikası
  • Vikipedi hakkında
  • Sorumluluk reddi
  • Davranış Kuralları
  • Geliştiriciler
  • İstatistikler
  • Çerez politikası
  • Mobil görünüm
  • Wikimedia Foundation
  • Powered by MediaWiki
Pekiştirmeli öğrenme
Konu ekle