На Quora есть старый, но все равно интересный тред с вопросом: почему Google активно использует машинное обучение для ранжирования объявлений, но менее активно для ранжирования поисковых результатов?
Отвечает, в частности, Jackie Bavaro (ex Product Manager at Google):
Когда я была в команде поиска в Google (2008-2010), многие группы в поиске уходили от машинного обучения к системам на основе ручных правил. Поиск в прошлом использовал больше машинного обучения и затем пошел в другом направлении, потому что люди поняли, что могут быстрее добиваться улучшения результатов поиска с помощью правил. Это не просто случайность, многие подгруппы в поиске пришли к таким результатам в своей работе.
Получается, что в то время как "Яндекс" активно внедрял Machine Learning в ранжировании, Google его активно вынедрял?
Секрет Полишенеля заключается в том, что, несмотря на весь шума вокруг так называемого машинного обучения, это все еще весьма сырая технология. На текущий момент, машинное обучение вряд ли позволяет создать лучшую формулу ранжирования. Что, кстати, показали в свое время Яху-соревнования по «машинному» ранжированию. Самые лучшие алгоритмы обгоняли простой baseline на какие-то жалкие несколько процентов. Если бы вместо простого бейзлайна сделали бы ручную формулу, могло бы так неожиданно получиться, что формула оказалась бы лучше всех машинных алгоритмов. Ну, совершенно точно не сильно хуже. Ясен перец, что в перспективе, ручные правила использовать это слишком трудоемко. Даже Гугл вряд ли сможет себе это позволить. Сейчас все больше появляется интересных факторов ранжирования, в частности, связанных с «глубокой» обработкой текста. Можно потратить миллиарды лет на вывод ручных формул для их комбинирования.