Согласно исследованию Яндекса, женщины почти по всем количественным параметрам поискового поведения отстают от мужчин. У них меньше количество запросов в сутки (6 против 6,1 у мужчин), количество запросов за поисковую сессию (2,2 против 2,3), на 1% выше доля сессий из одного запроса (у обоих полов таковые составляют больше половины), на 3% меньше доля уникальных запросов.
Женщины ленятся адаптировать свои запросы под понимание роботов и чаще разговаривают с машиной на естественном языке, задавая ей вопросы типа "что приготовить на ужин". Они почти в два раза реже, чем мужчины, используют в запросах цифры - а когда используют, это чаще всего возраст детей, даты и номера учреждений.
Есть в исследовании и неожиданные выводы. Например, любимый цвет у женщин вовсе не розовый, а коричневый - именно такой чаще всего попадается в женских запросах. Анализ поисковых запросов с точки зрения цели поиска показал, что мужчины чаще интересуются покупками, а женщины хотят "скачать" или "смотреть онлайн".
Не менее интересной, чем выводы исследования, является методика ее проведения. Яндекс определяет пол пользователя вовсе не по соцдем-данным, оставленным при регистрации в его социальных сервисах, как, например, Mail.ru. У Яндекса пол определяет Матрикснет - алгоритм машинного обучения:
Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом — а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг — в профессиональной жизни люди чаще указывают о себе правильную информацию.
Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках — в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет — и выявил около трёхсот важных закономерностей.
Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя.
Добавить 17 комментариев
Разбросы между женщинами и мужчинами по основным технических параметрам (количество слов в запросе, опечатки..) очень маленькие. Получается что основной вклад в алгоритм вносит сам запрос, его тематика, всякие тонкости, типа указания города. Там разбросы побольше, но не намного. Качественное конечно исследование, но имхо оно показало что отделить мужчину от женщины поисковику очень сложно и будет большая погрешность.
Почему-то мне кажется, что формула для отделения мужчин от женщин также имеется у ВКонтакте и Фейсбука. Вместе с формулами для определения возраста, оконченного университета, школы, домашнего адреса и прочего соцдема.
Таких технологий аж целых две штуки было в Яндексе, у Вконтакта и ФБ просто не может не быть
Это была шутка. ВКонтакту не нужны Высокие Технологии, распознающие пол или возраст. Дело в том, что его пользователи сами сообщают всё, что нужно и всё, что можно. И даже то, что нельзя.
Тоже мне бином ньютона. Яндекс без всякого матрикснета вполне может считать мужчиной того, у кого фамилия заканчивается на «-ов», а женщиной — на «-ова» (+ другие). Исходя из этого делать выводы. Фамилию юзер вводит при регистрации аккаунта на Яндексе (дальше приветственной формы регистрации я смотреть не стал). Выборка из залогиненных пользователей должна получиться достаточно репрезентативной. Или вопрос в том, как по поисковому запросу определить age & sex? С третьим пунктом (location) проблем нет. Если запрос пользователя обрабатывается матрикснетом за 1 мс — значит мужчина. Если за 10 мс — значит женщина. Если запросом является строка «vkontakte.ru» — значит молодая, незамужняя блондинка.
Блин, есть еще фамилии на о! И мужчины с фамилией на а! А также на досуге рекомендую подумать над понятием «статистически значимый». Оно хоть и продажное (какой пол???) дитя империализма, но помогает иногда трезво оценить некоторые «открытия».
>>мужчины чаще интересуются покупками Видимо, женщинам интереснее само хождение по магазинам, как процесс. А мужчинам лениво идти в магазин, легче купить онлайн..
Откуда мужчины и женщины? Согласно одному из предыдущих исследований Яндекса, имеющему такую же ценность как и это исследование средний российской блогер это москвичка 22 лет. Мне как профессиональному статистику смешно смотреть на какие выкрутасы способны не очень умные люди. добравшиеся до огромных массовов данных. Это относится не только к Яндексу, а и к работникам ит отделом банков, супермаркетов. Давайте посчитаем, кто чаще покупает пиво мужчины или женщины? А кто чаще покупает конфеты с шоколадом мужчины 25-30 лет или 40-45? А кто чаще делает покупки в северных отделах супермеркате, те кто за день до этого покупал конфеты или те кто обычно ходит в супермаркет в дождливый день? А какой средний покупатель кроссовок Найк. Оказывается усреднив мы получим, что это москвич 23 лет, живущий в района станции Боровицкая. Было 1000 человек со станции Отрадная и 1000 с Каширки при усреднении получили центр Москвы. А какой средний блогер? Оказывается ему двадцать два года и у него в среднем одна сиська. А какой средний запрос у мужчины и насколько он отличается от среднего запроса у женщины. У женщины он немножко длинее, в то время как у мужчин Он немного длиннее. Бр… дай дураку богу молиться, он и лоб расшибет.
Яндекс без всякого матрикснета вполне может считать мужчиной того, у кого фамилия заканчивается на «-ов», а женщиной — на «-ова» (+ другие). Ой. Сколько усилий было зря потрачено. Вспоминается история про 10 млн, которые были потрачены на изобретение шариковой ручки, которую можно использовать в невесомости. А оказалось, что карандаш вполне пригоден.
«6 против 6,1 у мужчин» А какая погрешность этих исследований? +-1% или 10%? :)
Знатоки говорят, что эти исследования непогрешимы.
А какая точность получилась на тестовом множестве? Учитывая ограниченное число различных моделей поведения, она наверное должна быть сильно больше 90%. Так и вышло? Бр… дай дураку богу молиться, он и лоб расшибет. Вы ошибаетесь, нормальные исследования не делаются подсчетом среднего арифметического числа сисек и средней удаленности жилья от центра. :) Строятся гораздо более интересные модели, которые основываются на том, что различных вариантов поведения человека в заданных условиях — крайне мало, не смотря на то, что все эти человеки такие разные снаружи и внутри. :)
G00DMAN 29.06.2011 14:42:16 Нормальные не делаются. Но тут нам презентовали имено вычисления средних, наибольших и корреляций между длиной и полом.
Гудман — знаменитый ученый. Он знает правду. А такие параметры как средний возраст или любимый цвет важны для рекламодателей, которые будут делать лучший таргетинг своих адвертайзментов чтобы улучшить клик сру рейт.
Что-то мне подсказывает, что погрешность такого демографического таргетинга будет сильно выше погрешности при указании пола пользователями самостоятельно…. хотя и это продать можно.
вообще, как человек проф. занимающийся статистикой, скажу средняя — это вообще «ниачем». Там гораздо интересней распределение. Какие и где есть пики, с чем они связаны. И тд и тп. Я уж молчу, что если распределение не является нормальным, то гораздо яснее не «средняя», а «медиана»!
Прочитал как «Женщины Рунета в поиске ленивых мужчин», поначалу обрадовался…