Google не использует Machine Learning в ранжировании?

На Quora есть старый, но все равно интересный тред с вопросом: почему Google активно использует машинное обучение для ранжирования объявлений, но менее активно для ранжирования поисковых результатов?

Отвечает, в частности, Jackie Bavaro (ex Product Manager at Google):

Когда я была в команде поиска в Google (2008-2010), многие группы в поиске уходили от машинного обучения к системам на основе ручных правил. Поиск в прошлом использовал больше машинного обучения и затем пошел в другом направлении, потому что люди поняли, что могут быстрее добиваться улучшения результатов поиска с помощью правил. Это не просто случайность, многие подгруппы в поиске пришли к таким результатам в своей работе.

Получается, что в то время как "Яндекс" активно внедрял Machine Learning в ранжировании, Google его активно вынедрял?

Лучшие комментарии

  • Контекст комментария

    itman

    Секрет Полишенеля заключается в том, что, несмотря на весь шума вокруг так называемого машинного обучения, это все еще весьма сырая технология. На текущий момент, машинное обучение вряд ли позволяет создать лучшую формулу ранжирования. Что, кстати, показали в свое время Яху-соревнования по «машинному» ранжированию. Самые лучшие алгоритмы обгоняли простой baseline на какие-то жалкие несколько процентов. Если бы вместо простого бейзлайна сделали бы ручную формулу, могло бы так неожиданно получиться, что формула оказалась бы лучше всех машинных алгоритмов. Ну, совершенно точно не сильно хуже. Ясен перец, что в перспективе, ручные правила использовать это слишком трудоемко. Даже Гугл вряд ли сможет себе это позволить. Сейчас все больше появляется интересных факторов ранжирования, в частности, связанных с «глубокой» обработкой текста. Можно потратить миллиарды лет на вывод ручных формул для их комбинирования.

Добавить 11 комментариев

  • Ответить

    Два предыдущих оратора, видимо, не в курсе, что в Яндексе работают тысячи асессоров. И, кстати, ручная правка — это и есть тупиковый путь. Поиск в обоих ПС был хорош, пока он был полностью автоматическим, а не ИМХОм каких-то людей.

  • Ответить

    Если подумать, то наверное Гугл следует исторически сложившемуся порядку передачи знаний. Знания передоются от более образованных и авторитетных. Когда компетентные люди определяют релевантность и регулируют правила ранжирования — это передача знаний от экспертов в массы (оставим пока за скобками качество(а) этих экспертов). И наоборот, машинное обучение — это оптимизация информации без какой-либо человеческой оценки и экспертизы. Если в массиве данных в равной степени будет встречаться что «Панада относится в подвиду енотовых» и «Панда относится к подвиду медведей», то и в выдаче оба факта будут представлены в равной степени. Передачи знаний не произойдет, и даже наоборот, учитывая что одно из определений ошибочно, будет оказана помощь в распространении ложных определений. К счастью в интернете ресурсы создают все еще более образованные люди, нежели средний уровень населения страны. И оба алгоритма выдают более менее правдивые результаты. Но доля UGC растет. В ближайшем будущем возможна ситуация, когда в выдачу формируемую по методу машинного обучения начнут попадать не «банально-правильные» ответы, а «няняшно-симпатишные» (они нравится большей массе людей). И в выдаче останутся только утверждения, что «Панада относится в подвиду енотовых».

  • Ответить

    Google, конечно, использует машинное обучение в ранжировании. А как конкретно, почему именно так, могли бы сказать только сотрудники соответствующей группы, но не скажут.

  • Ответить
    dima5ty гасконец

    Тётка занималась не большим поиском, поэтому нещитово, а малое кол-во факторов проще в экселе посчитать, чем огород городить.

  • Ответить

    Секрет Полишенеля заключается в том, что, несмотря на весь шума вокруг так называемого машинного обучения, это все еще весьма сырая технология. На текущий момент, машинное обучение вряд ли позволяет создать лучшую формулу ранжирования. Что, кстати, показали в свое время Яху-соревнования по «машинному» ранжированию. Самые лучшие алгоритмы обгоняли простой baseline на какие-то жалкие несколько процентов. Если бы вместо простого бейзлайна сделали бы ручную формулу, могло бы так неожиданно получиться, что формула оказалась бы лучше всех машинных алгоритмов. Ну, совершенно точно не сильно хуже. Ясен перец, что в перспективе, ручные правила использовать это слишком трудоемко. Даже Гугл вряд ли сможет себе это позволить. Сейчас все больше появляется интересных факторов ранжирования, в частности, связанных с «глубокой» обработкой текста. Можно потратить миллиарды лет на вывод ручных формул для их комбинирования.

  • Ответить
    Альтер Эго

    > Секрет Полишенеля заключается в том, что, несмотря на весь шума вокруг так называемого машинного обучения, это все еще весьма сырая технология. Нет. Секрет Полишинеля в том, что машинное обучение — это просто самый обычный (из учебника) матстат и теорвер, тот самый, который вы должны были на третьем курсе учить, но так и не осилили. Соответственно, если вы хоть что-то вообще еще помните из своего курса теорвера, то поймете, что никакого волшебного интеллекта в «машинном обучении» нет и не может быть. Там просто статистически значимые факторы высчитываются. (И в этом смысле — да, ручные правила мощнее, потому, что ручными правилами можно влиять на поведение пользователя, тогда как «машинное обучение» просто описывает поведение среднестатистического пользователя и не более того.)

  • Ответить

    Чтож вы дорогой Эго слюной так брызжете, нежто за живое задело? Ручные правила лучше не потому, что ими можно на пользователя влиять, а потому что человек может быть умнее статистических алгоритмов. Но есть некоторая надежда, что баланс сдвигается в сторону статистических алгоритмов.

  • Ответить
    Альтер Эго

    > то поймете, что никакого волшебного интеллекта в «машинном обучении» нет и не может быть. Хотя у меня в универе и было отлично по терверу, но передовое ML даже мне иногда кажется черной магией и колдовством. Программы которые учатся играть в Atari игры (и выигрывают!) только по видео-сигналу — http://arxiv.org/abs/1312.5602. Попробуйте найти там свои статистически значимые факторы и применить советский матстат!