Здесь опубликованы коэффициенты для одного из внутренних ранжировщиков в поиске Яндекса. Это не итоговая формула, которая влияет на результат появления ссылки в серпе, т.к. судя по изученному коду – внутри используется несколько ранжировщиков и поисковых движков, результаты которых мержатся между собой и уже итоговый результат приводит к распределению ссылок по топу выдачи.
Коэффициент | Название Фактора | Описание Фактора |
---|---|---|
0.564095297143887 | FI_URL_DOMAIN_FRACTION | Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли ) |
0.369078039338024 | FI_QUERY_DOWNER_CLICKS_COMBO | фактор, хитрым образом скомбинированный из FRC и псевдо-CTR |
0.345115883490577 | FI_MAX_WORD_HOST_CLICKS | Кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии. |
0.315439457304752 | FI_MAX_WORD_HOST_YABAR | Наиболее характерное слово запроса, соответствующее сайту, по данным бара |
0.276250497243267 | FI_IS_COM | Домен в зоне .com |
0.254915495706702 | FI_OQ_BCLM_PLAIN | BCLM по запросному индексу для владельцев |
0.231000481757815 | FI_OWNER_CLICKS_PCTR | Кликабельность владельца независимо от запроса |
0.230257144838931 | FI_MAX_WORD_HOST_RANK | Хост ранк по максимально выраженному слову запроса (обычно это название сайта) |
0.219595036178226 | FI_QUERY_DOWNER_CLICKS_PCTR | Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент |
0.214713693660762 | FI_QUERY_DOWNER_CLICKS_FRC | отношение числа кликов по данному domainId ко всем кликам по запросу |
0.209866937086235 | FI_DOM_PHRASE_CLICK_RANK_BI | Кликабельность домена по биграммам (без учёта тезаурусных расширений запросов) |
0.209508533629415 | FI_OWNER_REQS_POPULARITY | Популярность owner'а в запросах |
0.205699196177282 | FI_HAS_NO_QUERY_SHOWS | Для данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов. |
0.205184905115480 | FI_DOM_PHRASE_YABAR_BI | Переходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов) |
0.202186193546053 | FI_QUERY_DOWNER_WEIGHT_CLICK | w/k |
0.189743110446303 | FI_OWNER_NAV_QUOTA | Доля кликов по навигационным запросам |
0.185032224423923 | FI_QUERY_DOWNER_ONLY_CLICK_RATE | o/i |
0.182867833093047 | FI_PAGE_RANK | Page rank. Фактор ремапится. |
0.179216994410993 | FI_QUERY_DOWNER_ONLY_CLICK_RATE_REG | o/i |
0.178646516342524 | FI_SUBQUERY_THEME_MATCH_A | Совпадение тематических спектров запроса и документа. Тематика запроса - результат работы ((http://wiki.yandex-team.ru/EvgenijjKroxalev/subquery правила колдунщика SubquerySearch )) Тематика документа определяется автоматическим классификатором |
0.166327421401765 | FI_OWNER_CLICKS_PCTR_REG | Кликабельность владельца независимо от запроса, отдельно по регионам |
0.165031403865939 | FI_HAS_DETERMINED_CITIES | Для сайта определен город |
0.160420713540373 | FI_QUERY_DOWNER_CLICKS_COMBO_REG | Query DOwner Clicks Combo, по мелким регионам из relev_regions.web.txt |
0.160379344658431 | FI_HAS_NO_QUERY_DOWNER_SHOWS | Для данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов |
0.156712439907419 | FI_REG_HOST_RANK | Cчитается так же, как и фактор HostRank, но не на всём owner-графе, а на его подграфе, состоящем из owner'ов данного региона. Принадлежность к региону определяется по TLD, либо по наличию в индексе страниц с данного owner'а, про которые geo или geoa классификатор говорит, что они из этого региона. Маппируется точно так же, как и фактор HostRank, в число от 0 до 1 с 256 градациями |
0.152953808712409 | FI_QUERY_DOWNER_WS_MAX_WHR_AND_ONLY_CLICK_RATE | Сумма факторов 192 и 341 с весами 0.298942 и 0.454625 соответственно. |
0.148292222594522 | FI_QUERY_DOWNER_SATISFIED4_RATE | r_s4b/(r_k + 10) |
0.147136648195774 | FI_QUERY_DOWNER_YABAR_VISITS | |
0.129668929638366 | FI_OQ_BM25_LEM | Bm25 по запросному индексу для domAttr |
0.129641401501547 | FI_FIRST_WORD_HOST_CLICKS | Кликабельность хоста по первому слову запроса. Достаточно часто первое (последнее) слово запроса - явное указание сайта, на котором следует искать информацию. |
0.127979729953137 | FI_YABAR_HOST_AVG_ACTIONS | среднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста. |
0.126700168643196 | FI_OWNER_SESS_NORM_DUR | nd/k нормированное время до клика |
0.125675707803009 | FI_OQ_BM25_STR | Bm25 по запросному индексу для domAttr |
0.122090633457258 | FI_QUERY_DOWNER_YABAR_AVG_TIME | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста после перехода по запросу из поисковой системы (фактор зависит от пары (запрос,domAttr)). |
0.119512833156651 | FI_QUERY_DOWNER_YABAR_VISITORS | |
0.118638180985299 | FI_QUERY_DOWNER_CLICKS_FRC_REG | отношение числа кликов по данному domainId ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt |
0.115262514353577 | FI_QUERY_DOWNER_WEIGHT_CLICK_REG | w/k |
0.114624515228977 | FI_MATRIXNET | Ко всем факторам применяется MatrixNet - формула (TG_UNUSED - чтобы предотвратить вхождние в какие-либо формулы) |
0.113671587879567 | FI_QUERY_MINONE | Возвращает под именем wminone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#minone Подробнее)) |
0.112928770384249 | FI_TITLE_TRIGRAMS_Q | Вычисляет покрытие запроса буквенными триграммами заголовка документа |
0.112334631253023 | FI_OQ_BM25_SYN | Bm25 по запросному индексу для domAttr |
0.105135837056982 | FI_OQ_BCLM_WEIGHTED | BCLM по запросному индексу для domAttr |
0.103903118421863 | FI_QUERY_COMMERCIALITY_MX | Мера 'коммерческости' запроса. Является комплексно рассчитываемым фактором MatrixNet формулой по словарю закупок в директе + по логам пользовательских запросов + доп. интентные словари. Запросы с интентом купить фактор стремится в ->1 товарные запросы ->0.6 с интентом не купить, обзоры и тп -> 0 ((http://wiki.yandex-team.ru/AntonNeljubin/FaktorydljaNovogoKlassifikatorazaprosov факторы классификатора))((http://wiki.yandex-team.ru/JandeksPoisk/Antispam/AntiSEO/KlassifikatorKommercheskixZaprosov еще про него)) |
0.102548297661617 | FI_OWNER_SATISFIED4_RATE | Это SEA фактор = s4_r/ (k_r+10) где s4_r - число кликов > 180 сек, k_r - общее число кликов. Считается с учётом переформулировок. |
0.097713692186877 | FI_SHOP | Это магазин предложение (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-4 паттернам в url`е)) ). Не используется (deprecated) |
0.097073501164592 | FI_IS_HUB | Хабовость страницы |
0.096811143316269 | FI_LINK_WEIGHTED_FORMS | Взвешенная по весам слов сумма числа форм |
0.096447224363928 | FI_DIFFERENT_INTERNAL_LINKS | Количество различных внутренних ссылок на страницу |
0.094045741102708 | FI_NUM_LINKS_FROM_SEGMENT_CONTENT | |
0.093045433292429 | FI_MPSA | Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/MPSA MPSA)) |
0.089404211238337 | FI_URL_LINK_PERCENT | Отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок |
0.087850313290757 | FI_QUERY_DOWNER_WS_FRC_AND_BM25F_DPR_FIXED | Сумма факторов QueryDOwnerClicksFRC и BM25FdPRFixed с весами 0.358449 и 0.184922 соответственно. '565' в названии фактора не надо воспринимать буквально, это легаси либо опечатка. |
0.087122791007993 | FI_PAGE_RANK_UKR | Украинский Page rank |
0.085929172196314 | FI_YABAR_HOST_VISITORS | кол-во уникальных посетителей, ремапится экспоненциально |
0.085276276270387 | FI_DOM_PHRASE_YABAR | Переходы на сайт из поисковиков по отдельным словам, по данным бара |
0.084699401575226 | FI_GEO_RELEV_ALIEN_CITY | Результат имеет геопривязку, не совпадающую с географией пользователя на уровне города ([415]==1 && [215]==0) |
0.084012276385059 | FI_GEO_RELEV_REGION_COUNTRY | Три уровня совпадения географии пользователя и страницы |
0.082967074248567 | FI_GEO_REGION_PROXIM | |
0.081289466115302 | FI_IS_NOT_RU | Домен не в зоне .ru |
0.080331864046170 | FI_SYN_FL_REMAP2 | Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее)) |
0.078872214489662 | FI_LINK_BREAK | Аналоги соответствующих текстовых факторов для линков. BM25 от количества ссылок, в которых произошло совпадение. |
0.077454131996933 | FI_QUERY_DOWNER_CLICK_SUMMARY | подобранная формула |
0.076343383792772 | FI_DOM_PHRASE_CLICK_RANK | Кликабельность домена по словам |
0.075434934641649 | FI_TEXT_BM25_ATTEN_SYN | TR с дисконтом за номер предложения |
0.074172193125966 | FI_YABAR_HOST_AVG_TIME2 | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста. По внутр счетчику Яндекс.Бара/Элементов/Браузера |
0.071481760992750 | FI_QUERY_DOWNER_SATISFIED4_RATE_REG | r_s4b/(r_k + 10) |
0.071417326810502 | FI_YABAR_HOST_INTERNAL_TRAFFIC | доля заходов на сайт не по ссылкам (набор руками или с закладок) |
0.071242787451280 | FI_PAGE_RANK_BONUS | Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум. |
0.070074395872424 | FI_TITLE_IDF_SUM | Idf по различным частям документа, сломаны, не используются |
0.069696682544392 | FI_LONGEST_TEXT | Размер самого большого текстового сегмента страницы (из фактора [18] PureText) |
0.069268621800152 | FI_EXPECTED_FOUND | Ожидаемое количество найденного по запросу |
0.067151098341326 | FI_YABAR_URL_VISITS | Посещаемость урла по данным я-бара |
0.066890922161289 | FI_URL_BM25 | BM25 по URL'у |
0.064310714968383 | FI_URL_TRIGRAMS | Модель с обучением каждой триграммы на '+' и '-' урлах. Не зависит от запроса. |
0.062753581782970 | FI_LAST_WORD_HOST_CLICKS | Кликабельность хоста по последнему слову запроса (без учёта тезаурусных расширений запросов) |
0.062474190501436 | FI_NON_COMM_NORM_LR_LOG_RELEV | XNonCommLRlogRelev (нормированное на сумму NonComm-весов всех ссылок, а не на сумму их исходных весов) |
0.061675217167197 | FI_SOWNER_MAX_SUM_SOURCE_RANK | Сумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца. |
0.061031422056552 | FI_HEADING_IDF_SUM | Idf по различным частям документа, сломаны, не используются |
0.060594485044371 | FI_LERF_LR_LOG_RELEV | Линковая релевантность с учетом качества каждой ссылки |
0.059222635368125 | FI_BF_LEMMA_ALL | Варианты соответствующих факторов с учетом стоп слов |
0.058870258158539 | FI_BM25F_DPR_FIXED | BM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа. ((http://wiki.yandex-team.ru/BM25FRework Результаты тестирования.)) |
0.058415162135787 | FI_LONG_QUERY_SYN | Фактор -- аналог LongQuery (сумма idf слов запроса), но с 'корректным' учетом синонимов. Конкретно -- выбирается минимум по idf (т.е. самое частое) из синонимов и слова. |
0.057053549836014 | FI_PERCENT_WORDS_IN_LINKS | Процент числа слов внутри тега .. от числа всех слов |
0.056552232052119 | FI_PAGE_REGION_SIZE_IN | Размер региона страницы |
0.055767877134775 | FI_TLP1_ALL | Варианты соответствующих факторов с учетом стоп слов |
0.055185094441888 | FI_URL_NGRAMS_MODEL | Фактор ранжирования UrlNGramsModel в erf |
0.054926147793071 | FI_QUERY_REF_TRIGRAM_Q | ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание)) |
0.054680076158058 | FI_QUERY_DOWNER_CLICK_SUMMARY_REG | подобранная формула |
0.054576897612176 | FI_LANGUAGE_COMPLIANCE | Язык документа соответствует языку запроса |
0.054156294329288 | FI_BM25F_DPR_OBSOLETE | BM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки |
0.051465613603836 | FI_GEO_CITY_PROXIM | Означает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет. Основан на ((http://wiki.yandex-team.ru/ЯндексПоиск/КлассификацияСайтовИСтраниц/Географическая/ИспользованиеВПоиске геоклассификации сайтов)) |
0.051057813309267 | FI_YABAR_URL_VISITORS | Количество уникальных посетителей урла |
0.050576094170344 | FI_NUM_SLASHES | Число слешей в урле |
0.049845924868959 | FI_SR | Сложносоставной static rank, собирается из статических компонентов по отдельной формуле((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/#oftnd1 *)). |
0.049061648412321 | FI_LINK_RELEV | Линковая релевантность. Фактор ремапится. |
0.047914113074106 | FI_QUERY_DOWNER_CLICKS_PCTR_REG | Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент, по мелким регионам из relev_regions.web.txt |
0.047164043400143 | FI_TITLE_IDF_SUM_FIXED | Предыдущие факторы - исправленные |
0.046891090311905 | FI_LINK_PAIR_SYN | Наличие в ссылках пар слов c учетом синонимов |
0.046783126435468 | FI_Q_DIVERSITY | Степень централизации точек, из которой задается запрос |
0.046757967567051 | FI_DBM35 | BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним) |
0.044511155721215 | FI_LERF_GEO_LR_LOG_RELEV | log(LerfLR, суженной на страну пользователя) |
0.042452794899003 | FI_LR_GEO_RELEV_REGION_COUNTRY | Три уровня совпадения региона ссылок и запроса |
0.038806477920761 | FI_PASSAGE_LEGACY_TR | TR лучшего пассажа - насколько качественный сниппет может получиться |
0.038372460585705 | FI_LCOR | Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок. |
0.038263040612831 | FI_STATIC_TITLE_LR_BM25 | BM25 заголовка страницы по текстам ссылок на неё |
0.037180373854650 | FI_COUNTRY_Q_DIVERSITY | Степень централизации точек, из которой задается запрос (внутри страны) |
0.035447186193336 | FI_LINK_BREAK_SYN | Количество ссылок, прошедших порог |
0.033485833700259 | FI_HIT_NUM_100 | Преобразованное количество слов запроса во всех линках url`а. |
0.032525279432611 | FI_OWNER_SDIFF_SHOW_ENTROPY | Энтропия - распределение показов |
0.031399776481102 | FI_TLBM25 | Простой BM25 по тексту и линкам одновременно. |
0.031186243849340 | FI_WORDS_IN_TITLE | Число слов русского языка в заголовке |
0.030786458206337 | FI_BCLM | Фактор имени Buettcher, Clarke и Lushman (модифицированный) ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm подробнее)) |
0.030334786608805 | FI_LONG_QUERY | Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'. |
0.027302374355601 | FI_YA_BAR | Посещаемость из Бара - ((http://wiki.yandex-team.ru/AndrejjKostjagin/YaBarLog/HostStat Описание данных)). Фактор ремапится. |
0.026926509552263 | FI_LOG_LR | Логарифм от LR, линейно отображенный в [0,1]. |
0.026650508120317 | FI_TRIGRAMS_COND_PROB | Логарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы - ее вероятность, деленная на вероятность биграммы из первых двух слов |
0.025806639721603 | FI_URL_SESS_NORM_DUR_RATE | nd/i |
0.025691573951246 | FI_IDF_VARIANCE | Дисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор) |
0.025328925792111 | FI_URL_SESS_NORM_DUR_RATE_REG | nd/i |
0.024263431712643 | FI_COUNTERS_SEARCH_TRAFFIC1 | Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула) |
0.024006117828321 | FI_TEXT_BREAK_EX | количество предложений, в которых встречается много слов по точной форме |
0.023610887210981 | FI_QUERY_URL_CLICKS_FRC_REG | отношение числа кликов по данному урлу ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt |
0.022803839020796 | FI_TEXT_WEIGHTED_FORMS | Взвешенная по весам слов сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x). |
0.021178675054476 | FI_NEW_LINK_QUALITY | Классификатор качества входящих ссылок 2 - сломан, см [407] |
0.021178675054476 | FI_NEW_LINK_QUALITY_FIXED | Классификатор качества входящих ссылок 2 исправленный |
0.019988663575500 | FI_CATALOG_RELEV | LR по каталожным описаниям |
0.019740981979634 | FI_SWBM25 | Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа. |
0.019580616053835 | FI_MEAN_WORD_LENGTH | Средняя длина слова |
0.019301158836494 | FI_LINKS_IN_TITLE_TRIGRAMS | Доля уникальных триграмм ссылок в триграммах заголовка |
0.019119257307239 | FI_LINK_RELEV_PHRASE | (phrase) есть все слова запроса подряд в одном линке. |
0.017641843798363 | FI_QSEGMENTS_BREAKS | Сегменты запроса - это части запроса, которые сами по себе являются частотными запросами. Фактор показывает, насколько сегменты бьются в тексте. значение 0 - все слова встречаются только в рамках обозначенных сегментов, 1 -- все вхождения разбивают сегменты |
0.016179974819787 | FI_STATIC_TITLE_BM25_EX | BM25 заголовка страницы по её тексту |
0.013900531929943 | FI_PERIODIC_LINK_DATES_PERCENT | Периодичность ссылок на сайт |
0.013412340418363 | FI_GSK_URL_MODEL | Фактор вычисляется из текста урла с помощью классификатора последовательностей quality/seq/gsk |
0.013370500669584 | FI_LR_GEO_RELEV_REGION_NATDOM | |
0.013171579829370 | FI_GEO_COUNTRY_PROXIM | Географическая близость |
0.013112575551553 | FI_LINK_QUALITY_FIXED | Качество входящих ссылок (классификатор Лещинера) исправленный |
0.012081787040108 | FI_COUNTRY_QUERY_REGIONALITY | Страновый классификатор локализуемости - насколько запрос подразумевает контекст страны |
0.011650367441796 | FI_FEM_MAS_NOUNS_PORTION | доля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: 'колибри' - пример неопределённого рода, который можно определять двумя способами, 'Александра' - омонимия). |
0.010872234578071 | FI_SYNT_QUALITY | Имеет ли запрос полный синтаксический разбор |
0.010581678208134 | FI_SEGMENT_AUX_ALPHAS_IN_TEXT | Количество букв в сегменте Aux |
0.009455905387837 | FI_LINK_SPEED | Число обратное дисперсии временам появления ссылок со словами запроса |
0.009314594460961 | FI_GEO_LR_LOG_RELEV | log(LR, суженной на страну пользователя) |
0.008426829629948 | FI_SPAM_KARMA | Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois |
0.007908808762912 | FI_URL_LENGTH_2 | Длина URL'а с точностью до символа. Отключено в продакшн. |
0.006691168756865 | FI_ADD_TIME | Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1. |
0.006678481233760 | FI_YABAR_HOST_SEARCH_TRAFFIC | Доля трафика с поисковых систем |
0.005160158423400 | FI_PHRASE | Есть ссылка, прошедшая кворум |
0.004768007631846 | FI_OWNER_SDIFF_SHOW_ENTROPY_REG | Энтропия - распределение показов. Регионализованный |
0.003890338237824 | FI_YABAR_URL_AVG_TIME | среднее по пользователям время нахождении пользователя на странице. Cчитается как разница между соседними переходами. |
0.003622338166697 | FI_QUERY_ISHUM | Cпускает на базовые поиски под именем ishum максимальный вес встреченного объекта категории Hum или Hum1 в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#ishum Подробнее)) |
0.003363499486900 | FI_COMM_LINKS_SEO_HOSTS_NON_COMM | Фактор CommLinksSEOHosts умноженный на NonCommercialQuery |
0.003128580544172 | FI_LR_AMORTIZED_BY_AGE | Линковая релевантность с пессимизацией за большой возраст линка |
0.002431406823392 | FI_SYN_FL_REMAP1 | Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее)) |
0.001181036676865 | FI_Q_DIVERSITY2 | Географическая распределенность запроса |
0.000692523218694 | FI_C_IN_DEGREE_2 | Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181rh58953-4#cindegree12 подробнее)) |
0.000426528744914 | FI_LINK_AGE | Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года |
0.000094696411924 | FI_LERF_LANG_LR_LOG_RELEV | LR с учетом совпадения языка ссылки и запроса и накрученности |
0.000000136522746 | FI_FIELD_LM | Униграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text) |
-0.000807198317231 | FI_DMOZ_QUERY_BEST_THEME | Наиболее вероятная тема запроса, определяемая ((http://wiki.yandex-team.ru/JandeksPoisk/ZarubezhnyjjInternet/DMOZqueryClassifier1 правилом колдунщика DMOZTheme)), учитываются только самые популярные темы (но здесь их больше чем в факторе DmozQueryThemes). Фактор содержит вероятность соотвествия запроса тематике, но для каждой темы берётся свой интервал на отрезке [0..1] |
-0.000832706989751 | FI_PAGE_REGION_REL_COVERAGE | |
-0.000833437078930 | FI_GOOD_RATIO | Какая доля ссылок “хорошая” |
-0.000843495929565 | FI_GEO_GEOMETRY_PROXIM | Географическая близость пользователя и сайта |
-0.001158034315755 | FI_URL_LEN | Длина URL'а, делённая на 5 |
-0.001209700633070 | FI_COUNTRY_Q_DIVERSITY2 | Географическая распределенность запроса внутри страны |
-0.001250755074786 | FI_ADV_PRONOUNS_PORTION | доля местоименных существительных |
-0.001564275785704 | FI_LINK_QUALITY | Качество входящих ссылок (классификатор Лещинера) - сломан, см [405] |
-0.002170850269151 | FI_TRIGRAMS_PROB | Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A) |
-0.003021983245146 | FI_TRLR_QUORUM_LEMMA | Вес слов запроса, которые есть в тексте с точностью до леммы |
-0.005028751679547 | FI_TOCM | Фактор оценивает отличия позиций слов в заголовке от позий слов в запросе |
-0.005085205304656 | FI_QCLASS_OAO | организация |
-0.005976754416269 | FI_ADJ_PRONOUNS_PORTION | доля местоименных прилагательных |
-0.006679400217070 | FI_TEXT_PAIR_EX | наличие пар слов по точной форме |
-0.006950709230428 | FI_PAGE_REGION_INV_SIZE_IN | Фактор обратно пропорционален размеру региона страницы |
-0.007634608393132 | FI_YABAR_HOST_AVG_TIME | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста |
-0.008656938143421 | FI_TEXT_FORMS | Невзвешенная сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса |
-0.010850511133080 | FI_SECOND_INDEG_DISTR_XI | Одиннадцать факторов основанных на статистических свойствах распределений входящих степеней вершин, ссылающихся на фиксированную вершину хостграфа.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/hostdegree подробнее)) |
-0.011207582653854 | FI_NUM_NON_LETTERS_IN_URL | Количество 'небукв' в урле |
-0.011221458184058 | FI_LR_WITHOUT_RARE | линковая релевантность без учета редких слов |
-0.011296769865650 | FI_OWNER_SDIFF_CSRATIO_ENTROPY | Энтропия - распределение отношения клики/показы |
-0.011681967583253 | FI_SEGMENT_AUX_SPACES_IN_TEXT | Количество пробелов в сегменте Aux |
-0.012429221647235 | FI_PARTICLES_PORTION | доля частиц |
-0.012919083353605 | FI_TEXT_HEAD_SYN | наличие слов в заголовке c учетом синонимов |
-0.013510450334814 | FI_MORNING_QUERY | Запрос задают преимущественно утром |
-0.015212586791057 | FI_TEXT_MAX_FORMS | Максимальное число форм по всем словам запроса - max по всем словам запроса числа_форм_для_слова/64 |
-0.016033504310566 | FI_TEXT_FEATURES | Качество текста. Считается по довольно сложной формуле |
-0.016932610010322 | FI_TEXT_PAIR_W1 | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово |
-0.017928063556114 | FI_OWNER_SDIFF_CLICK_ENTROPY | Энтропия - распределение кликов |
-0.018278527670779 | FI_QUERY_ISORG | В запросе название организации (пример: Газпром, газпрома) ((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Описание)) |
-0.020210221137273 | FI_PERCENT_FREQ_WORDS | Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста |
-0.020628033510418 | FI_URL_QUERY_VARIETY_REG | Степень разнообразия запросов, по которым кликают данный урла, cчитается по регионам |
-0.020921642736537 | FI_TEXT_PAIR | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово |
-0.022152880819573 | FI_TEXT_PAIR_SYN | наличие пар слов c учетом синонимов (>=TxtPair) |
-0.023916010788926 | FI_OWNER_SDIFF_CSRATIO_ENTROPY_REG | Энтропия - распределение отношения клики/показы. Регионализованный |
-0.025355498987515 | FI_QDOWNER_STAT_POWER | Количество показов owner'а по запросу, нормировка x/(100 + x). |
-0.027287688639737 | FI_QUERY_ISGEO | Cпускает на базовые поиски под именем isgeo максимальный вес встреченного геообъекта в запросе. Под геообъектом понимается объект категории Geo, Geo1, GeoAddr, GeoAddr1, LandMark, LandMark1 (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Подробнее)) |
-0.028595315195293 | FI_SEO_IN_PAY_LINKS | Количество входящих сео-треш ссылок между хостами |
-0.028608739038830 | FI_RINGS_HOST_RANK_BADNESS_3 | Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее)) |
-0.030877746812643 | FI_PAGE_REGION_SIZE | Размер региона страницы |
-0.032004809610482 | FI_HOST_SIZE | Размер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом) |
-0.032269052994315 | FI_PLM | Фактор про то, наскоько хороший сниппет может получиться. |
-0.032828345615772 | FI_PERCENT_VISIBLE_CONTENT | Процент числа слов вне тегов (вне скобок <>) от числа всех слов |
-0.034716206980983 | FI_PAGE_DATE | Дата документа которая прописана на странице, ремапится квадратным корнем |
-0.036381245328354 | FI_RINGS_HOST_RANK_BADNESS_1 | Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее)) |
-0.036532955371613 | FI_RINGS_HOST_RANK_BADNESS_OLD | Характеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники. |
-0.037878046829073 | FI_TEXT_HEAD | BM25 по словам только в заголовке. |
-0.039215257302626 | FI_TEXT_HI_RELEV_SYN | BM25 c учетом синонимов |
-0.039575532416190 | FI_TEXT_HEAD_EX | наличие слов в заголовке по точной форме |
-0.044940112806396 | FI_YMW_FULL | Размер минимального куска текста, включающего все встречающиеся в документе слова запроса. Сейчас не используется. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее)) |
-0.044940112806396 | FI_YMW_FULL2 | Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее)) |
-0.044963560309064 | FI_NEVASCA2 | Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте. |
-0.045942748393758 | FI_HOST_RELIABILITY | доля урлов, которые отвечают без ошибок |
-0.046030869083841 | FI_YABAR_URL_LCAC | Число сессий в которых урл являлся последним, отнесенное к числу сессий в которых урл появлялся |
-0.053739168786067 | FI_QUERY_WORD_COHESION_TR | Фактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка. ((http://wiki.yandex-team.ru/SergejjKrylov/QueryWordCohesionTR описание)) |
-0.057014032623374 | FI_COUNTERS_SEARCH_TRAFFIC2 | Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула) |
-0.057628362537565 | FI_QSEGMENTS_WEIGHT | Вес' сегментов запроса в тексте |
-0.057658302748215 | FI_METRIKA_URL_CORE_AUDIENCE | Ядро аудитории страниц на которых есть счетчик Метрики |
-0.059299975637935 | FI_QSEGMENTS_BM25 | BM25, где в качестве 'слов' выступают выделенные сегменты запроса |
-0.059871381556405 | FI_QUERY_MAXONE | Возвращает под именем wmaxone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#maxone Подробнее)) |
-0.060922780495065 | FI_LINKS_WITH_WORDS_PERCENT | Процент входящих ссылок со словами запроса |
-0.062810308974889 | FI_TRLR_QUORUM_FM | Вес слов запроса, которые есть в тексте в точной форме |
-0.063761467432684 | FI_PAGE_REGION_COVERAGE | |
-0.063976585802142 | FI_PERCENT_USED_FREQ_WORDS | Число использованных в тексте 500 самых популярных слов языка, деленное на 500 |
-0.065082391728977 | FI_LR_MAX_DPR | Максимальный dpr ссылки |
-0.065128132003719 | FI_DOC_LEN | Длина документа в предложениях |
-0.066463228806236 | FI_IS_COMM | документ из коммерческой-кишки. Не используется (deprecated) |
-0.067337343351376 | FI_LARGEST_SY_INEXACT_GROUP | Доля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова |
-0.068235863277027 | FI_HEADING_IDF_SUM_FIXED | Предыдущие факторы - исправленные |
-0.069803680024687 | FI_RELEV_GEO_LINKS_PERCENT | |
-0.070483297609751 | FI_LOCM | Порядок слов в ссылках. |
-0.070483297609751 | FI_SYNSET_LOCM | Копия фактора ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Locm LOCM)) для((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Synset синсетов)). |
-0.076334972364641 | FI_TITLE_IN_LINKS_TRIGRAMS | Доля уникальных триграмм заголовка в триграммах ссылок |
-0.077504878926916 | FI_TEXT_SKIP_PAIR | TR по парам слов запроса через одно слово в текстах |
-0.083831128507580 | FI_LINKS_WITH_ALL_WORDS_PERCENT | Процент входящих ссылок со всеми словами запроса |
-0.084798680877042 | FI_LONG | Длинный документ (чем длиннее документ, тем больше значение фактора). |
-0.086731079136512 | FI_NUM_LATIN_LETTERS | число латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100) |
-0.091993052812036 | FI_QUERY_CITY | При ответе на запрос важны результаты внутри города (основная масса локализуемых запросов) |
-0.094096848692163 | FI_TEXT_LIKE | Качество текста (классификатор Алексеева) |
-0.094261219650513 | FI_YANDEX_ADV | На сайте есть реклама Яндекса. |
-0.096496414873675 | FI_QUERY_REF_TRIGRAM_R | ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание)) |
-0.097277529611975 | FI_AURA_DOC_LOG_AUTHOR | Логарифм числа шинглов, на которых данный владелец документа признан автором |
-0.097686304848915 | FI_AURA_DOC_LOG_SHARED | Логарифм числа шинглов, на которых данный документ не уникален |
-0.109820338929289 | FI_TEXT_RELEV_PHRASE | Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе. |
-0.110593487056685 | FI_AURA_DOC_MEAN_SHARED_WEIGHT | Средний вес не-уникальных шинглов данного документа |
-0.116819481337211 | FI_TEXT_BRAEK_SYN | количество предложений, в которых встречается много слов c учетом синонимов |
-0.118606351159510 | FI_QUERY_WORD_SEQUENCES_TR | Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа. |
-0.118870879105496 | FI_QUERY_DOWNER_ENOUGH_CLICKED | Количество кликов по владельцу и количество кликов по запросу больше 5 |
-0.123814718900663 | FI_ESHOP_VALUE | Магазинность страницы |
-0.133931985443449 | FI_CLASSIF_IS_SHOP | Страница — магазин. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#isshop описание)). Не используется (deprecated) |
-0.141668202468497 | FI_PCT_LINKS | Для документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0 |
-0.160285061981584 | FI_OWNER_SDIFF_CLICK_ENTROPY_REG | Энтропия - распределение кликов. Регионализованный |
-0.162220616846705 | FI_URL_PATH_AND_PARAMS_FRACTION | То же, что и предыдущий фактор, но про весь урл кроме домена |
-0.168645758020604 | FI_GEO_CITY_URL_REGION_COUNTRY | Совпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины. |
-0.180963639077109 | FI_COMM_LINKS_SEO_HOSTS | Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0. ((http://wiki.yandex-team.ru/SvetlanaShorina/topseolinks выборка накрученных сайтов)) |
-0.194376876842978 | FI_QURL_STAT_POWER | Количество показов url'а по запросу, нормировка x/(100 + x). |
-0.207437366708906 | FI_DATER_AGE | Разница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 - DaterAge)*60)^2 = возраст страницы в днях. |
-0.250928463672112 | FI_ADV | На сайте есть реклама. |
search/relevance/nav_linear.h
search/web/rearrange/facts/fact_snippet/factor_info/snippet_factors_info/factors_gen.in
search/web/rearrange/facts/fact_snippet/factor_info/query_factors_info/factors_gen.in
search/web_fresh_detector/factors_gen.in
- https://docs.google.com/document/d/1zr-qMpNggckOpJCqnvteS01dGcpgU7atDaNQgaPdfoo/edit
- https://docs.google.com/spreadsheets/d/17gMlLrYtJlrSUcqSs95bLw76XCrzJJ8YnOdc63JMhFo/edit#gid=671136320
- https://webmarketingschool.com/wp-content/uploads/2023/01/factors_gen.txt
Telegram: https://t.me/Lord_Alfred
Не исключено, что может придти жалоба за публикацию этих данных, поэтому чтобы не потерять их – делайте Fork себе.
IMG_1887.mp4