Bulanık bilgi erişimi

Bulanık geri çağırma teknikleri Genişletilmiş Boolean modeli ve Bulanık küme teorisine dayanmaktadır. İki klasik bulanık geri çağırma modeli vardır: Karma Min ve Maks (MMM) ve Paice modeli. Her iki model de sorgu ağırlıklarını değerlendirmenin bir yolunu sağlamaz, ancak bu P-norm algoritması tarafından dikkate alınır.

Karma Min ve Maks modeli (MMM)

Bulanık küme teorisinde, bir eleman, verilen A kümesine, geleneksel üyelik seçimi (elemandır/eleman değildir) yerine, değişen derecelerde üyeliğe (örneğin d _A) sahiptir.

MMM'de ^[1] her endeks teriminin kendisiyle ilişkili bir bulanık kümesi vardır. Bir belgenin A endeks terimine göre ağırlığı, belgenin A ile ilişkili bulanık kümedeki üyelik derecesi olarak kabul edilir. Birleşim ve kesişim için üyelik derecesi, Bulanık küme teorisinde aşağıdaki gibi tanımlanır:

d_{A\cap B}=min(d_{A},d_{B})

d_{A\cup B}=max(d_{A},d_{B})

Buna göre, A veya B biçimindeki bir sorgu için alınması gereken belgeler, A ve B kümelerinin birleşimiyle ilişkili bulanık kümede olmalıdır. Benzer şekilde, A ve B biçimindeki bir sorgu için alınması gereken belgeler, iki kümenin kesişimiyle ilişkili bulanık kümede olmalıdır. Dolayısıyla, bir belgenin veya sorgusuna benzerliğini max(d _A, d _B ) ve belgenin ve sorgusuna benzerliğini min(d _A, d _B ) olarak tanımlamak mümkündür. MMM modeli, sorgu-belge benzerliğini, minimum ve maksimum belge ağırlıklarının doğrusal bir kombinasyonu olarak ele alarak Boole operatörlerini yumuşatmaya çalışır.

d_A1, d_A2, ..., d _An endeks terim ağırlıklarına sahip bir D belgesi verildiğinde A₁, A₂, ..., A_n, ve sorguları:

Q _veya = (A ₁ veya A ₂ ... veya A _n )

S _ve = (A ₁ ve A ₂ ... ve A _n )

MMM modelinde sorgu-belge benzerliği aşağıdaki şekilde hesaplanır:

SlM(Q_or, D) = C_or1 * max(d_A1, d_A2, ..., d_An) + C_or2 * min(d_A1, d_A2, ..., d_An)

SlM(Q_and, D) = C_and1 * min(d_A1, d_A2, ..., d_An) + C_and2 * max(d_A1, d_A2 ..., d_An)

Burada C _or1, C _or2 veya operatörü için "yumuşaklık" katsayılarıdır ve C _and1, C _and2 ve operatörü için yumuşaklık katsayılarıdır. Bir veya sorgusunu ele alırken belge ağırlıklarının maksimum olanına daha fazla önem vermek istediğimizden ve bir ve sorgusunu ele alırken de minimum olanına daha fazla önem vermek istediğimizden, genellikle C _or1 > C _or2 ve C _and1 > C _and2 elde ederiz. Basitleştirmek için genellikle C _or1 = 1 - C _or2 ve C _and1 = 1 - C _and2 olduğu varsayılır.

Lee ve Fox ^[2] deneyleri, en iyi performansın genellikle C _{ve 1'in} [0,5, 0,8] aralığında ve C _veya1 > 0,2 olduğunda ortaya çıktığını göstermektedir. Genel olarak, MMM'nin hesaplama maliyeti düşüktür ve alma etkinliği Standart Boole modeline göre çok daha iyidir.

Paice modeli

Paice modeli ^[3] MMM modelinin genel bir uzantısıdır. Sadece endeks terimleri için minimum ve maksimum ağırlıkları dikkate alan MMM modeliyle karşılaştırıldığında, Paice modeli benzerliği hesaplamak için tüm terim ağırlıklarını dahil eder:

$S(D,Q)=\sum _{i=1}^{n}{\frac {r^{i-1}*w_{di}}{\sum _{j=1}^{n}r^{j-1}}}$

Burada r sabit bir katsayı ve w_di, ve sorguları için artan sırada ve veya sorguları için azalan sırada düzenlenmiştir. n = 2 olduğunda Paice modeli MMM modeliyle aynı davranışı göstermektedir.

Lee ve Fox'un ^[2] deneyleri, r'yi ve sorguları için 1,0'a ve veya sorguları için 0,7'ye ayarlamanın iyi bir geri alma etkinliği sağladığını göstermiştir. Bu modelin hesaplama maliyeti MMM modeline göre daha yüksektir. Bunun nedeni, MMM modelinin her seferinde bir ve veya veya ifadesi dikkate alındığında yalnızca bir dizi terim ağırlığının en düşük veya en yüksek değerinin belirlenmesini gerektirmesidir; bu da O(n) içinde yapılabilir. Paice modeli, bir ve ifadesinin mi yoksa bir veya ifadesinin mi dikkate alındığına bağlı olarak terim ağırlıklarının artan veya azalan düzende sıralanmasını gerektirir. Bu en azından 0(n log n) sıralama algoritması gerektirir. Ayrıca, çok miktarda kayan nokta hesaplamasına da ihtiyaç vardır.

Standart Boole modeline göre iyileştirmeler

Lee ve Fox ^[2] Standart Boole modelini üç test koleksiyonu olan CISI, CACM ve INSPEC ile MMM ve Paice modelleriyle karşılaştırdı. Ortalama hassasiyet iyileştirmesi için bildirilen sonuçlar şunlardır:

	ÇİSİ	CACM	DENETLEME
MMM	%68	%109	%195
Paice	%77	%104	%206

Bunlar Standart modele göre çok iyi iyileştirmeler. MMM, Paice ve P-norm sonuçlarına oldukça yakın olup, bu da onun çok iyi bir teknik olabileceğini ve üçü arasında en verimli olanı olduğunu göstermektedir.

Yakın zamanda yapılan çalışmalar

2005 yılında Kang et al^[4] kavram tanımlamasına göre dizinlenen bulanık bir alma sistemi tasarladılar.

Belgelere saf Tf-idf yaklaşımıyla baktığımızda, durdurma sözcüklerini çıkarsak bile, belgenin konusuyla diğerlerinden daha alakalı sözcükler olacak ve aynı terim sıklığına sahip oldukları için aynı ağırlığa sahip olacaklardır. Bir sorgudaki kullanıcı amacını hesaba katarsak, bir belgenin terimlerini daha iyi değerlendirebiliriz. Her terim, o kavramın o belge için önemini ifade eden belirli bir sözlük zincirindeki bir kavram olarak tanımlanabilir.

En çok alınan 5 belgenin ortalama kesinliği ve geri çağırma değerlerinin Paice ve P-norm'a göre iyileştirildiğini bildiriyorlar.

Zadrozny^[5] bulanık bilgi alma modelini yeniden ele aldı. Ayrıca bulanık genişletilmiş Boole modelini şu şekilde genişletiyor:

dilsel terimlerin anahtar kelimelerin önem ağırlıkları olarak varsayılması da belgelerde
belgelerin ve sorguların temsiline ilişkin belirsizliği dikkate alarak
Belgelerin ve sorguların temsilindeki dilsel terimlerin yorumlanması ve Zadeh'in bulanık mantığı (dilsel ifadelerin hesabı) açısından eşleştirilmesi
Önerilen modelin bazı pragmatik yönlerini, özellikle de belgeleri ve sorguları dizinleme tekniklerini ele alma

Önerilen model, metinsel bilginin gösterimi ve geri çağrılmasıyla ilgili hem belirsizlik hem de belirsizliklerin kavranmasını mümkün kılmaktadır.

Ayrıca bakınız

Bilgi alma

Daha fazla okuma

S. Betrabet; M. Koushik; W. Lee (1992), Information Retrieval: Algorithms and Data structures; Extended Boolean model, Prentice-Hall, Inc., 28 Eylül 2013 tarihinde kaynağından arşivlendi9 Eylül 2017 Birden fazla yazar-name-list parameters kullanıldı (yardım); |ad= ve |soyadı= eksik (yardım)

Referanslar

^ Fox, E. A.; S. Sharat (1986), A Comparison of Two Methods for Soft Boolean Interpretation in Information Retrieval, Technical Report TR-86-1, Virginia Tech, Department of Computer Science
^ ^a ^b ^c Lee, W. C.; E. A. Fox (1988), Experimental Comparison of Schemes for Interpreting Boolean Queries
^ Paice, C. D. (1984), Soft Evaluation of Boolean Search Queries in Information Retrieval Systems, Information Technology, Res. Dev. Applications, 3(1), 33-42
^ Kang, Bo-Yeong; Dae-Won Kim; Hae-Jung Kim (2005), "Fuzzy Information Retrieval Indexed by Concept Identification", Text, Speech and Dialogue, Lecture Notes in Computer Science, 3658, Springer Berlin / Heidelberg, ss. 179-186, doi:10.1007/11551874_23, ISBN 978-3-540-28789-6
^ Zadrozny, Sławomir; Nowacka, Katarzyna (2009), "Fuzzy information retrieval model revisited", Fuzzy Sets and Systems, Elsevier North-Holland, Inc., 160 (15), ss. 2173-2191, doi:10.1016/j.fss.2009.02.012

[1] Fox, E. A.; S. Sharat (1986), A Comparison of Two Methods for Soft Boolean Interpretation in Information Retrieval, Technical Report TR-86-1, Virginia Tech, Department of Computer Science

[leefox3-2] Lee, W. C.; E. A. Fox (1988), Experimental Comparison of Schemes for Interpreting Boolean Queries

[3] Paice, C. D. (1984), Soft Evaluation of Boolean Search Queries in Information Retrieval Systems, Information Technology, Res. Dev. Applications, 3(1), 33-42

[4] Kang, Bo-Yeong; Dae-Won Kim; Hae-Jung Kim (2005), "Fuzzy Information Retrieval Indexed by Concept Identification", Text, Speech and Dialogue, Lecture Notes in Computer Science, 3658, Springer Berlin / Heidelberg, ss. 179-186, doi:10.1007/11551874_23, ISBN 978-3-540-28789-6

[5] Zadrozny, Sławomir; Nowacka, Katarzyna (2009), "Fuzzy information retrieval model revisited", Fuzzy Sets and Systems, Elsevier North-Holland, Inc., 160 (15), ss. 2173-2191, doi:10.1016/j.fss.2009.02.012

[1]

[2]

[3]

[4]

[5]