34.DjaroVinkler JaroO'xshashlik ikkiqatoro'rtasidagio'xshashliko'lchovidir. Jaro masofasining qiymati 0 dan 1 gacha. Bu yerda 1 satrlar tengligini bildiradi va 0 ikki qator oʻrtasida oʻxshashlik yoʻqligini bildiradi.
Jaro o'xshashligi quyidagi formula yordamida hisoblanadi
m - mos keladigan belgilar soni
t - transpozitsiyalar sonining yarmi
qaerda |s1| va |s2| mos ravishda s1 va s2 qatorlarning uzunliklari.
Belgilar bir xil bo'lsa va belgilardan uzoqroq bo'lmasa, ular mos keladi deyiladi Jaro-Winkler o'xshashligi Jaro - Vinkler o'xshashligi ikki satr orasidagi tahrir masofasini o'lchaydigan qator ko'rsatkichidir. Jaro - Winkler o'xshashligi Jaro o'xshashligiga juda o'xshaydi. Ikki qator prefiksi mos kelganda ularning ikkalasi ham farqlanadi. Jaro – Winkler oʻxshashligi “p” prefiksi shkalasidan foydalanadi, bu esa satrlar belgilangan maksimal uzunlik l gacha umumiy prefiksga ega boʻlganda aniqroq javob beradi.
Jaro Winkler o'xshashligi quyidagicha aniqlanadi
Sw = Sj + P * L * (1 – Sj) bu erda,
Sj, jaro o'xshashligi
Sw, jaro-vinkler o'xshashligidir
P - masshtablash omili (sukut bo'yicha 0,1)
L - mos keladigan prefiksning uzunligi maksimal 4 ta belgidan iborat.
s1=”arnab”, s2=”aranb” bo‘lsin. Ikki qatorning Jaro o'xshashligi 0,933333 (Yuqoridagi hisobdan.)
Mos keladigan prefiksning uzunligi 2 ga teng va biz o'lchov koeffitsientini 0,1 deb qabul qilamiz.