среда, 11 июня 2008 г.

Shingles online

Сейчас встретил непонятное слово шингл у Михаила Райцина в посте про размножение статей. Что же такое шингл?

Вообще, у shingle оказалось много разных значений: от короткой женской стрижки до диплома о высшем образовании, помещенного в рамочку. Наверное, в контексте анализа текстов подходит перевод галька, голыш, щебень. Или вывеска?

Из википедии почерпнул следующее. Shingle - некая последовательность элементов (слов) в документе. Например, в "a rose is a rose a rose" выделенное курсивом "is a rose" может считаться шинглом.

Идем дальше. w-shingling - это набор уникальных шинглов длины w.
Например, если мы ищем 4-shingling, то из "a rose is a rose is a rose" всего получится шесть последовательностей из 4 элементов:
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) }.
Убираем дубликаты и получаем искомый 4-shingling:
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }

С помощью шинглов оценивают схожесть двух текстов. Для этого сначала находят shinglings для первого текста S(A) и для второго S(B), а потом делят число элементов в пересечении множеств S(A) и S(B) на число элементов в объединении этих же множеств. В итоге получается величина от 0 до 1, которая и показывает степень схожести документов. Для идентичных документов это число равно единице.



PostScript:
* www.rcso.ru; сайтов красноярск раскрутка

1 комментарий:

Vera комментирует...

Думаю, такие статьи обязательно нужно "переводить" на человеческий язык )