Metin madenciliği - Vikipedi
İçeriğe atla
Ana menü
Gezinti
  • Anasayfa
  • Hakkımızda
  • İçindekiler
  • Rastgele madde
  • Seçkin içerik
  • Yakınımdakiler
Katılım
  • Deneme tahtası
  • Köy çeşmesi
  • Son değişiklikler
  • Dosya yükle
  • Topluluk portalı
  • Wikimedia dükkânı
  • Yardım
  • Özel sayfalar
Vikipedi Özgür Ansiklopedi
Ara
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç

İçindekiler

  • Giriş
  • 1 Tarihçe
  • 2 Uygulama Alanları
  • 3 Kaynakça
  • 4 Dış bağlantılar

Metin madenciliği

  • العربية
  • Български
  • Bosanski
  • Català
  • Čeština
  • Deutsch
  • Ελληνικά
  • English
  • Español
  • Eesti
  • Euskara
  • فارسی
  • Suomi
  • Français
  • עברית
  • Magyar
  • Bahasa Indonesia
  • İtaliano
  • 日本語
  • ಕನ್ನಡ
  • 한국어
  • Nederlands
  • Polski
  • Português
  • Русский
  • Slovenščina
  • Svenska
  • ไทย
  • Українська
  • Oʻzbekcha / ўзбекча
  • Tiếng Việt
  • 中文
  • 粵語
Bağlantıları değiştir
  • Madde
  • Tartışma
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Araçlar
Eylemler
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Genel
  • Sayfaya bağlantılar
  • İlgili değişiklikler
  • Kalıcı bağlantı
  • Sayfa bilgisi
  • Bu sayfayı kaynak göster
  • Kısaltılmış URL'yi al
  • Karekodu indir
Yazdır/dışa aktar
  • Bir kitap oluştur
  • PDF olarak indir
  • Basılmaya uygun görünüm
Diğer projelerde
  • Wikimedia Commons
  • Vikiveri ögesi
Görünüm
Vikipedi, özgür ansiklopedi
Makine öğrenmesi ve
veri madenciliği
Problemler
  • Sınıflandırma
  • Kümeleme
  • Regresyon
  • Anomali tespiti
  • Association rules
  • Pekiştirmeli öğrenme
  • Yapılandırılmış tahmin
  • Öznitelik mühendisliği
  • Öznitelik öğrenmesi
  • Öznitelik çıkarımı
  • Online öğrenme
  • Yarı-gözetimli öğrenme
  • Gözetimsiz öğrenme
  • Sıralama öğrenme
  • Gramer Tümevarımı
Gözetimli öğrenme
  • Karar ağacı
  • Birlik öğrenmesi
  • k-YK
  • Doğrusal regresyon
  • Naive Bayes
  • Sinir ağları
  • Lojistik regresyon
  • Relevance vector machine (RVM)
  • Support vector machine (SVM)
  • Rastgele orman
Kümeleme
  • BIRCH
  • Hiyerarşik
  • k-means
  • Beklenti maksimizasyon

  • DBSCAN
  • OPTICS
  • Mean-shift
Boyut indirgeme
  • Faktör analizi
  • CCA
  • ICA
  • LDA
  • NMF
  • PCA
  • t-SNE
Yapılandırılmış tahmin
  • Grafiksel modeller (Bayes ağları, CRF, HMM)
Anomali tespiti
  • k-NN
  • Local outlier factor
Sinir ağları
  • Perseptron
  • Otokodlayıcı
  • Derin öğrenme
  • RNN
  • LSTM
  • Kısıtlı Boltzmann makinesi
  • SOM
  • Kıvrımlı sinir ağları
Pekiştirmeli öğrenme
  • Q-Learning
  • SARSA
  • Temporal Difference (TD)
Teori
  • Bias-variance ikilemi
  • Hesaplamalı öğrenme teorisi
  • Empirik risk minimizasyonu
  • Occam learning
  • PAC learning
  • İstatistiki öğrenme teorisi
  • VC theory
Konferanslar ve dergiler
  • NIPS
  • ICML
  • ML
  • JMLR
  • ArXiv:cs.LG
  • g
  • t
  • d

Metin madenciliği, çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (İngilizce: data mining) çalışmasıdır. Diğer bir tanımla metin üzerinden yapısallaştırılmış veri elde etmeyi amaçlar. Metin madenciliği, metinlerin sınıflandırılması, bölütlenmesi (İngilizce: clustering), metinlerden konu çıkarılması (İngilizce: concept/entity extraction), metinler için sınıf taneciklerinin üretilmesi (İngilizce: production of granular taxonomy), metinlerde görüş analizi yapılması (İngilizce: sentimental analysis),[1] metin özetlerinin çıkarılması (İngilizce: document summarization) ve metnin özü ile ilgili ilişki modellemesi (İngilizce: entity relationship modelling) gibi çalışmaları hedefler.

Yukarıdaki hedeflere ulaşılması için metin madenciliği çalışmaları kapsamında enformasyon getirimi (İngilizce: information retrieval), hece analizi (İngilizce: lexical analysis), kelime frekans dağılımı (İngilizce: word frequency distribution), örüntü tanıma (İngilizce: pattern recognition), etiketleme (İngilizce: tagging), enformasyon çıkarımı (İngilizce: information extraction), veri madenciliği (İngilizce: data mining) ve hatta görselleştirme (İngilizce: visualization) gibi yöntemleri kullanmaktadır.

Metin madenciliği çalışmaları, metin kaynaklı literatürdeki diğer bir çalışma alanı olan doğal dil işleme (İngilizce: natural language processing, NLP) çalışmaları ile çoğu zaman beraber yürütülmektedir. Doğal dil işleme çalışmaları daha çok yapay zeka altındaki dil bilim bilgisine dayalı çalışmaları kapsamaktadır. Metin madenciliği çalışmaları ise daha çok istatistiksel olarak metin üzerinden sonuçlara ulaşmayı hedefler. Metin madenciliği çalışmaları sırasında çoğu zaman doğal dil işleme kullanılarak özellik çıkarımı da yapılmaktadır.[2]

Tarihçe

[değiştir | kaynağı değiştir]

İnsan-yoğun elle metin madenciliği çalışmalarının 1980'lerin ortalarında başladığı söylenebilir,[3] ancak teknolojik gelişmelerin ışığında konu 2000'lerden sonra parlamıştır. Metin madenciliği disiplinler arası bir çalışma alanı olup enformasyon getirimi, veri madenciliği, makine öğrenmesi, istatistik ve işlemsel dilbilim kavramlarının ortak çalışma alanıdır. Günümüzde enformasyonun büyük kısmı (bilimsel tahminlere göre %80'lik kısmı) metin olarak tutulmaktadır.[4] Bu yüzden metin madenciliği çalışmalarının yüksek ekonomik değeri olduğu ve olacağı söylenebilir. Ayrıca çok dilli veri madenciliği gibi farklı dillerden aynı özellikleri taşıyan değerlerin çıkarılması da güncel konulardandır.

Genelde, metin madenciliği çalışmalarının çözüm aradığı zorluk, yüksek miktardaki yapılandırılmamış verinin, yapısal bir hale dönüştürülmesidir.[5] İş zekası çalışmalarının ilk yayınlarında, aşağıdaki şekilde tanımlandığı görülebilir:

"... makinelerin metinler üzerinde otomatik-özetleme veya otomatik-kodlama gibi işletmelerin ilgilendiği 'eylem noktalarını' ilgi çekici profiller haline getiren veri-işlem'den faydalanmaktır. Hem dışarıdan alınan hem de içeriden üretilen dokümanlar otomatik olarak özetlenebilir, kelime örüntülerine göre yorumlanabilir ve uygun işlere otomatik olarak yönlendirilebilir.

Her ne kadar enformasyon sistemleri 1960'larda başlasa da, iş zekası kavramının yazılım dünyasında kabul gören bir kategori haline dönüşmesi 80'ler ve 90'larda başlamıştır. Ardından metnin 'yapısız' özelliğinden dolayı işlenmesi zor bir hedef olarak seçilmesi ve metin analiz çalışmalarının başarısı için algoritmaların geliştirilmesi 1990'ların sonunu bulmuştur. Prof. Marti A. Hearst, 'Untangling Text Data Mining' başlıklı makalesinde bu konudan detaylıca bahseder.[6]

Neredeyse 10 yıllık bir süreçte, işlenebilir dilbilim camiası, büyük metin kümelerini daha iyi bir metin analiz algoritması bulmak için inceledi. Bu makalede, yeni bir yaklaşım sunmak istiyorum: Büyük çevrimiçi metin birikimlerini dünyanın kendisi ile ilgili gerçekleri keşfetmek için kullanmayı öneriyorum. Bu önerimin arkasında, tamamen yapay zeka ile metin analizi yapan ve hatta işlemsel olarak veya kullanıcılar tarafından yönlendirilen analizlerin ötesinde, heyecan verici yeni bir kapı açmak isteği vardır.

Hearst'ün 1999 yılındaki bu makalesinden 10 yıl kadar sonra, metin madenciliği çalışmaları kabul gören ve çok sayıda uygulama alanı olan bir dünyaya dönüşmüştü.

Uygulama Alanları

[değiştir | kaynağı değiştir]

Metin madenciliği çalışmaları genelde devlet seviyesi, bilimsel araştırma ve iş dünyası ihtiyaçları için çeşitli çözümler sunmaktadır. Bu amaçlardan bazıları aşağıdaki şekilde sıralanabilir:

  • Kurumsal İş Zekası, Veri Madenciliği ve Rekabet Zekası (İngilizce: Competitive Intelligence)
  • E-Keşif, Kayıt Yönetimi
  • Ulusal Güvenlik ve İstihbarat
  • Özellikle beşeri bilimler başta olmak üzere bilimsel metinlerin işlenmesi
  • Duygusal Analiz Araçları
  • Doğal Dil / Anlambilimsel araç veya hizmetler
  • Yayıncılık
  • Otomatik reklam yerleştirme
  • Arama / Bilgi Erişimi
  • Sosyal medya gözetlemesi

Kaynakça

[değiştir | kaynağı değiştir]
  1. ^ Şadi Evren Şeker, Khaled Al-Naami, Sentimental Analysis on Turkish Blogs via Ensemble Classifier, (DMIN'13), Proceedings of the 2013 International Conference on Data Mining, ISBN=1-60132-239-9, pp. 10-16, 2013
  2. ^ Şadi Evren Şeker. "Metin Madenciliği". MISSozluk. 5 Mart 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014. 
  3. ^ "Content Analysis of Verbatim Explanations". 13 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014. 
  4. ^ "Unstructured Data and the 80 Percent Rule". 18 Şubat 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Kasım 2016. 
  5. ^ "Arşivlenmiş kopya". 8 Aralık 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014. 
  6. ^ Hearst, Marti A. (1999). Untangling text data mining"Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics". ss. 3-10. doi:10.3115/1034678.1034679. ISBN 1-55860-609-2. 

Dış bağlantılar

[değiştir | kaynağı değiştir]
  • Text Mining [en]
Otorite kontrolü Bunu Vikiveri'de düzenleyin
  • LNB: 000352119
  • NDL: 01119322
  • NKC: ph1247648
  • NLI: 987008756687405171
"https://tr.wikipedia.org/w/index.php?title=Metin_madenciliği&oldid=36225841" sayfasından alınmıştır
Kategoriler:
  • Yapay zekâ
  • Veri madenciliği
  • Bilişimsel dilbilim
  • Veri analizi
  • Doğal dil işleme
  • İstatistiksel doğal dil işleme
Gizli kategoriler:
  • LNB tanımlayıcısı olan Vikipedi maddeleri
  • NDL tanımlayıcısı olan Vikipedi maddeleri
  • NKC tanımlayıcısı olan Vikipedi maddeleri
  • NLI tanımlayıcısı olan Vikipedi maddeleri
  • Sayfa en son 04.46, 20 Ekim 2025 tarihinde değiştirildi.
  • Metin Creative Commons Atıf-AynıLisanslaPaylaş Lisansı altındadır ve ek koşullar uygulanabilir. Bu siteyi kullanarak Kullanım Şartlarını ve Gizlilik Politikasını kabul etmiş olursunuz.
    Vikipedi® (ve Wikipedia®) kâr amacı gütmeyen kuruluş olan Wikimedia Foundation, Inc. tescilli markasıdır.
  • Gizlilik politikası
  • Vikipedi hakkında
  • Sorumluluk reddi
  • Davranış Kuralları
  • Geliştiriciler
  • İstatistikler
  • Çerez politikası
  • Mobil görünüm
  • Wikimedia Foundation
  • Powered by MediaWiki
Metin madenciliği
Konu ekle