За заключительный год Яндекс добился значительного прогресса в качестве поиска для запросов, требующих наличия в выдаче актуальных документов. Сейчас популярные документы в большинстве своем попадают в результаты поиска по релевантным запросам практически сразу после публикации. Добиться этого непросто, ведь добавление лишь что созданных документов в поисковые выдачи, как правило, противоречит другим важным пользовательским метрикам: релевантности, авторитетности и т.д. Как Яндекс оценивает надобность пользователей в «свежести» выдачи и о том, какие задачи приходится решать, чтобы отвечать свежими документами на запросы к розыску, читайте в этой статье.

#Когда пользователям нужна «свежесть»?

Не вполне очевидно, почему так, если думать о таких запросах, как [вконтакте] или [одноклассники]. А вот если взять подобный запрос как [евровидение], и посмотреть на его историческое развитие в 2016 году, то можно оценить справедливость приведенного утверждения.

Пользователи начали интересоваться этим проблемой еще до начала конкурса. Их интересовало, кто поедет на Евровидение от России, какую песню там будет исполнять Сергей Лазарев, будет ли онлайн-трансляция, каковы прогнозы букмекеров и проч. Такие требования начали появляться за несколько месяцев до самого события.

Когда Евровидение стартовало, пользователей начало интересовать, кто вышел в финал, песни финалистов и проч.:

Сквозь несколько месяцев после того, как конкурс закончился, запросы снова меняются – людям уже не нужна онлайн-трансляция, не необходимы прогнозы букмекеров, а просто нужно знать результат, посмотреть выступление российского представителя и узнать что-то о дате проведения вытекающего Евровидения:

Популярность этого запроса совершенно очевидно привязана к событию. Мы видим нарастание пользовательского интереса по мере приближения к дате финала, пик популярности запросов со словом «евровидение» прямо в день финала и затем, постепенное угасание частоты запроса.

Примерно так в поиске отражаются все значимые продолжающиеся события, во пора которых наблюдается пиковый пользовательский интерес, который потом постепенно идет на спад. Так, в разные моменты пользователям значительны разные аспекты события. Ожидаемые события интересны еще до их наступления: прогнозы, даты, информация об участниках и проч. Прямо во время события пользователей интересуют прямые трансляции и актуальные новости по теме. После окончания событий – увлекательны результаты и дальнейшее возможное развитие. В общем, в каждый отдельно взятый момент времени пользователям нужна самая живая информация о том, что происходит. Это и есть то, что мы называем «свежесть» в веб-поиске.

#Что такое «свежесть» с точки зрения поиска

По данным Яндекса, 73% пользователей интересуются событием в первые сутки, а 97% в первые трое суток. Собственно на этом зиждется концепция показа свежей информации в течение трех суток, потому что именно в этом отрезке поре и сосредоточен весь пользовательский интерес.

Основные задачи веб-свежести, которые приходится решать поиску Яндекса:

1. Постичь, какие именно свежие документы наилучшим образом отвечают на запрос пользователя («ранжирование свежего»)
2. Определить, на какие позиции в выдаче необходимо устанавливать эти документы

По точному запросу нетрудно понять, что пользователю нужна свежесть, например: [летные испытания мс-21 начнутся сквозь несколько недель]. Но, понятное дело, мало кто задает поиску запросы в подобной форме. Свежесть запроса детектируется, если частота запроса растет, если является много свежих документов, отвечающих на него, если увеличивается количество кликов на свежие документы.

Это график некоего неожиданного резонансного события без привязки к датам и конкретным случаям:

Уже в первые полчаса после произошедшего пользовательский интерес к свежему вырастает почти на порядок. Доля свежих запросов среди всех запросов к розыску в такие моменты может увеличиваться до 25%.

Так как же понять, что свежесть нужна по общим запросам типа: [мс-21] или [самолет]? В таких запросах и контрастности-то никакой нет, особенно если событие не весьма значительное, и свежие документы по таким запросам появляются в общем-то постоянно. Для определения «свежести» общих запросов, Яндекс использует real-time (RT) расширения свежих запросов.

Если запрос легковесно расширить до контрастного, то вероятней всего там свежесть нужна. Например: [мс-21] расширяется до [мс-21 летные испытания]. Поиск запоминает слова, встречающиеся в свежих запросах, и увеличивает вес свежести для запросов, в каких встречаются эти слова.

В подмешивании свежего к результатам поиска ключевой технологией является Real Time MapReduce, позволяющая в нахоженные секунды доносить любой сигнал до поиска. Поиск получает информацию о событиях на выдачах с задержкой всего в несколько секунд и тут же обновляет статистики. Это позволяет отрабатывать «всеобщие» запросы практически сразу после того, как возникли соответствующие «точные запросы». В результате происходит увеличение числа кликов, которые свежие документы добавляют на поисковых выдачах.

Что же касается задачи быстрого добавления свежих документов в выдачу, то тут не стать без специальной контент-системы, такого робота, который поможет быстро эти документы найти и добавить их в выдачу, затем необходимо ранжировать всю эту свежесть таким образом, чтобы самые актуальные и максимально релевантные документы были на высоких позициях, ну и, природно, максимально быстро понимать, что тот или иной запрос требует свежести.

#Как работает «свежий» робот Яндекса

«Свежий» робот Яндекса справляется с этой задачей весьма хорошо. В качестве примера можно привести график общей актуальности результатов поиска, от анализаторов компании «Ашманов и партнеры»:

Тут хорошо виден прогресс Яндекса (красная линия) в скорости индексации документов, который был достигнут в течение заключительного года. «Свежий» робот действительно способен за считанные минуты узнать о появлении нового документа и доставить его до поискового индекса Свежести с тем, чтобы он был показан пользователям по релевантным запросам.

Без «свежего» робота, также как и без RT, никакое свежее ранжирование невозможно. Но свежее ранжирование это не лишь это, это еще и размеченные асессорами пары «запрос-документ» и так называемая «кликовая добавка», предсказывающая клики на документы. Последняя помогает розыску понять, насколько свежесть понравилась пользователю и насколько вообще она была хороша и уместна.

Глобальной проблемой свежего ранжирования является то, что большинство запросов, прикасающихся какого-либо события, задаются через несколько часов после того, как оно произошло. И формулам, обучающимся на такой выборке, весьма трудно понять, что нужны максимально свежие документы, и что документ, возрастом 3 минуты, в данном случае, это хорошо и уместно, потому что таких документов утилитарны нет.

Есть несколько подходов к решению этой задачи.

Некоторая модификация показанного выше метода используется как в асессорской формуле, так и в «кликовой добавке».

#Обучение свежих подмешиваний

Эта район касается того, на какие позиции в выдаче найденный свежий документ нужно поставить. Здесь на помощь розыску приходит асессорская оценка и опять же «кликовая добавка».

Асессор отвечает на вопрос: какова вероятность того, что по этому запросу пользователь хотел увидеть свежие результаты? А «кликовая добавка» вычисляет вероятное количество кликов, какие свежая выдача может получить на той или иной позиции в поиске.

При этом вопрос: «что делать с документом, годом 3 минуты?» по-прежнему остается, по уже приведенным выше причинам. Как же научить формулу срабатывать раньше?

Во-первых, это перебалансировка выборки: использование различных весов на различных стадиях развития события – запросы из начала события получают больший вес. Во-вторых, добавление в выборку фиктивных запросов:

Если взять, так, все достаточно популярные документы за последний год (которые показывались на выдачах хотя бы 1000 раз в день) и посмотреть на медианное пора между их публикацией и первым показом на выдаче, то можно увидеть, что эта величина уменьшилась с четырех минут до примерно двух. Это и означает, что свежие документы сейчас становятся доступными для пользователей утилитарны моментально.

Такой прогресс был достигнут благодаря высокому качеству работы «свежего» робота, а также описанным способам обучения формулы ранжирования.

#Какая еще случается свежесть

Свежесть необходима во всех видах поиска – не только в текстовых документах, но еще и в поиске по видео и по картинкам. Кроме того, свежесть значительна для поисковых подсказок, где также важно предсказывать популярность тех или иных запросов и показывать их достаточно высоко. И в распознавании голоса: когда вышел мультфильм «Зверополис» и люд начали спрашивать про него у поиска голосом, очень важно было сразу же научиться такой запрос детектить, и демонстрировать пользователю релевантную выдачу.

Смысл в том, что какой сервис не возьми, везде важна и нужна свежесть. Но внутри свежести тоже присутствуют свои аспекты:

• Актуальность
• Авторитетность
• Понятие
• Возраст документа

Сходу можно придумать еще с десяток параметров, очень важных для свежести и, как правило, противоречащих товарищ другу. Но именно поэтому работу над Яндекс.Поиском нельзя назвать скучной. Тем боле, что перед инженерами розыска все еще остается очень много открытых проблем, таких как: скорость реакции на событие и форматы донесения свежей информации до пользователя.

Текст подготовлен по материалам мероприятия «Как организован поиск Яндекса»

Источник: searchengines.ru