Сейчас встретил непонятное слово шингл у Михаила Райцина в посте про размножение статей. Что же такое шингл?
Вообще, у shingle оказалось много разных значений: от короткой женской стрижки до диплома о высшем образовании, помещенного в рамочку. Наверное, в контексте анализа текстов подходит перевод галька, голыш, щебень. Или вывеска?
Из википедии почерпнул следующее. Shingle - некая последовательность элементов (слов) в документе. Например, в "a rose is a rose a rose" выделенное курсивом "is a rose" может считаться шинглом.
Идем дальше. w-shingling - это набор уникальных шинглов длины w.
Например, если мы ищем 4-shingling, то из "a rose is a rose is a rose" всего получится шесть последовательностей из 4 элементов:
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) }.
Убираем дубликаты и получаем искомый 4-shingling:
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }
С помощью шинглов оценивают схожесть двух текстов. Для этого сначала находят shinglings для первого текста S(A) и для второго S(B), а потом делят число элементов в пересечении множеств S(A) и S(B) на число элементов в объединении этих же множеств. В итоге получается величина от 0 до 1, которая и показывает степень схожести документов. Для идентичных документов это число равно единице.
PostScript:
* www.rcso.ru; сайтов красноярск раскрутка
среда, 11 июня 2008 г.
Shingles online
Автор: bukvoed на 11:48
Ярлыки: новое слово, English
Подписаться на:
Комментарии к сообщению (Atom)
1 комментарий:
Думаю, такие статьи обязательно нужно "переводить" на человеческий язык )
Отправить комментарий