Прошло достаточно времени с момента утечки кода Яндекса в публичное пространство и теперь многие спорные моменты уже разъяснились и можно сделать более точные выводы.
По началу среди seo-специалистов шли споры, что чуть ли не формулу ранжирования с коэффициентами нашли — NavFormula.
Которая ещё засветилась в паре скриптов, участок одного из которых можно посмотреть на скрине.
Потом картина немного изменилась,
после заявления бывшего сотрудника Яндекса, Дена Расковалова.
О том что файл nav_linear.h не имеет никакого отношения к ранжированию результатов в поиске Яндекса.
Но можно ли на 100% доверять этому комментарию?
Этот вопрос остаётся открытым.
В любом случае интересно сегментировать факторы этой формулы, чтобы потом сравнить как они распределяются сейчас.
Но куда интереснее анализировать все действующие факторы, которые можно выделить по определённым параметрам.
Какие флаги отсекают устаревшие и отключённые факторы:
- TG_REMOVED
- TG_UNUSED
- TG_DEPRECATED
В итоге у нас остаётся 645 рабочих фактора
Большинство из них ремапится разными функциями, вот например:
FI_TLEN Длина текста страницы в словах TLen = Map(число слов, 1/400), где Map(x, y) = xy / (1 + xy)
На основе этой формулы несложно построить график, который вы можете видеть на скрине.
Это нормирующая гипербола, которая принимает значение 0,5 когда длина страницы равна 400 слов и далее она бесконечно стремится к асимптоте TLen = 1.
Только подумайте сколько выводов можно сделать на основе лишь одного сегмента факторов, например касательно урлов:
- FI_URL_LEN — Длина URL’а, делённая на 5
- FI_NUM_SLASHES — Число слешей в урле
- FI_NEWS — Это новости (определяется по характерным паттернам в urlе)
- FI_CATALOG — Это каталог определяется по характерным паттернам в urlе или по яндекс-каталогу.
- FI_IS_FORUM — URL удовлетворяет регулярке FORUM_DETECTOR
- FI_NUM_NON_LETTERS_IN_URL — Количество ‘небукв’ в урле
- FI_NO_PRODUCTS_PROBABILITY — Dssm предсказание вероятности по url + title, что на странице нет товаров.
- FI_ONE_PRODUCT_PROBABILITY — Dssm предсказание вероятности по url + title, что на странице один товар.
- FI_MANY_PRODUCTS_PROBABILITY — Dssm предсказание вероятности по url + title, что на странице много товаров.
- FI_IS_HTTPS — Документ имеет протокол https
- FI_URL_BM25 — BM25 по URL’у
Полагаю FI_URL_BM25 поставлен взамен устаревшему:
- FI_URL_DOMAIN_FRACTION — Покрытие домена трехбуквиями из запроса. (Челябинская лотерея — chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли).
Я тут делаю следующие заметки:
- Используем ЧПУ (человеко-понятные урлы),
- Добавляем характерные слова по типу страниц, например: catalog, product, news, blog и т.п.,
- Минимизируем длину url и кол-во слешей, это можно сделать например при помощи хэша,
- Стараемся, чтобы TITLE и url были на одной волне,
- Ставим SSL, чтобы у сайта был протокол https.
И это только малая часть факторов, касаемо одного направления в оптимизации сайтов.
Если же подробно проанализировать весь этот файл, то полезной информации хватит на полноценную книгу.
Итак, возвращаясь к текущему распределению факторов.
Процент категорий по актуальным факторам получился следующий:
- 27% Поведенческие
- 23% Текстовые
- 18% Нейронные сети
- 15% Региональные
- 7% Урловые
- 3% Ссылки
- 3% Запросные
- 2% Тег TITLE
- 2% Коммерческие
Что интересно, в формуле Яндекса категория ссылок имеет значительно больший процент.
В связи с этим можно действительно сделать вывод, что роль ссылок в Яндексе после раскатки алгоритма Минусинска была сильно урезана.
При этом несколько действующих факторов направлены чисто на ссылки с Википедии:
- FI_WIKI_LINK_COUNT,
- FI_VISITS_FROM_WIKI Количество переходов на урл с Википедии,
- FI_WIKI_INFOBOX На данный урл есть ссылка из Infobox-ов в Википедии.
Кстати, о том как получить ссылку с Wikipedia за пару сотен рублей я рассказываю на своём курсе «Техническое SEO».
Ссылки на распределения факторов по категориям:
На этом пока всё.