Алгоритм HITS

В основу определения платных ссылок лег модифицированный алгоритм HITS. Многим интересно, как именно Яндекс отличает покупные ссылки.
Попробуем разобраться в данном вопросе.


Алгоритм HITS (Hyperlink Induced Topic Distillation) или Алгоритм Клейнберга используется поисковыми системами уже достаточно давно в разных разрезах. Например, с помощью него можно выявлять спам. 


Для определения покупной ссылки суть алгоритма сводится к следующему: в общем пуле страниц ищутся те, что определенны как первоисточник (authorities) и те, что определенные, как посредник (hubs) текстов, но именно в плане ссылочного. Очевидно, что если страница является первоисточником, то ее часто цитируют посредники. Ну и наоборот, если страница является хорошим посредником, то она содержит линки на первоисточники.

По поводу того, что алгоритм определения продажности ссылки определяется на основе самообучающейся выборки а-ля Матрикснет очень достоверно, т.к. применение модифицированного HITS является лишь частью инструментария. 


В упрощенном варианте, если сам алгоритм HITS подразумевает расчет показателей «первоисточников» и «посредников» на основе матрицы (матрицы инциденций – элемент матрицы =1, если документ содержит ссылку, и =0, если не содержит). То модифицированные алгоритм HITS позволяет получать двухсторонние графы. 
Кстати и сам Яндекс сознается, что использует модифицированный алгоритм HITS для определения платных ссылок (но не ресурсов их продающих, или покупающих). 
В процессе работы используются различные классификаторы (SEO-link, SEO-out, SEO-in), но, надо полагать, что в процессе эволюции самообучающегося алгоритма эти классификаторы видоизменились, поэтому актуальности информации весьма сомнительна.

В результате мы получаем вероятность того, является ли линк продажным, или нет.

Дополнительные идентификаторы продажности ссылки, которые используются в алгоритме:

1. Страница, указывающая на целевые странички сайтов разной тематики.
2. Участие странички в ссылочном взрыве.
3. Ссылки не перемещаются вместе  с контентом.
4. Излишнее количество исходящих ссылок (не обязательно покупных).
5. Мигание ссылок, история ссылок.
6. Посещаемость, как сводный параметр.
7. Плохое местоположение линка.
8. Кучность ссылок.
9. Ссылки появляется в индексе после текста, размещенного на страничке.
10. Переходы по ссылке (как косвенный показатель ее естественности).
11. Срок жизни линка (для покупных возраст ссылки достаточно мал).
12. Не тематичность ссылки текстовому кластеру страницы на который она ссылается.
13. Не тематичность ссылки текстовому кластеру сайта на который она ссылается.
14. И другие сводные параметры.

Обратите внимание

Алгоритм HITS принципиально отличается от классического PageRank, т.к. алгоритм HITS учитывает полезность и популярность документа для конкретной тематики.

Т.е. на выходе мы получаем уже не модифицированный алгоритм HITS, а усложненную структуру принятия решения о продажности ссылки. При этом окончательный вердикт платности ссылки принимается на основе ряда факторов, что снижает вероятность погрешности при определении продажности ссылки.

Комментарии:

Света18.02.15 08:34

Алгоритм ранжирования поисковых систем никому неизвестен, кроме разработчиков.

Это всего лишь догадки, основанные на наблюдениях.

Марина05.02.15 04:09

Спасибо про объяснение алгоритма. Понятно, что этот алгоритм используется в поисковых машинах. Вот только интересно какой вес в формуле ранжирования Яндекса на данный момент несет этот алгоритм.

Оставить комментарий

наверх