День «Гугла» (+)

8 февраля 2008 в 08:39

Компания Gemius, чье совместное с "Ромиром" исследование Рунета было опубликовано в понедельник в газете "Коммерсантъ", заявила достаточно смелые цифры о посещаемости отечетственных сайтов.

Новости СМИ2

Так, из таблицы следует, что Microsoft.com россияне просматривают чаще, чем Li.ru, проводя на нем 7 минут в месяц в среднем. А на Li.ru - 72 минуты. Не попали в двадцатку самых популярных сайтов ЖЖ многие СМИ - в двадцатке оказались лишь "Комсомольская правда" и РБК. Хватило странностей в посещаемости порталов - например Google, двумя сайтами в доменах Ru и Com практически догонял по охвату аудитории Mail.ru и "Яндекс".

Как это часто бывает со статистическими исследованиями, его устроители получили традиционные попрек в нерепрезентативности выборки, однако помимо этого обсуждались и сами способы проведения исследования, где данные Gemius попрекали высокой степенью погрешности.

Анна Артамонова, директор по маркетингу и PR Mail.ru (2-е место в рейтинге) назвала данные Gemius сильно заниженными: "Если вкратце, то мы считаем данные, полученные Gemius не совсем адекватными, а именно значительно заниженными. Причем в сравнении со всеми другими источниками.

Что касается позиции Google, то тут тоже есть объяснение - совершенно некорректно рассматривать google.com и google.ru как два отдельных проекта и складывать их аудиторию, т.к. в большом количестве случаев пользователей из России редиректом «пробрасывает» с .com на .ru или они сами переходят с одного домена на другой. Получается, что они засчитываются и на одном и на другом сайте, а складывая данные - мы засчитываем их дважды".

Практически все остальные опрошенные Roem.ru фигуранты Toп-20 считают, что их данные, а может быть и позиции в рейтинге, в будущем улучшатся. Павел Дуров, CEO "В контакте" (7-е место в рейтинге), отмечает, что по ряду параметров его ресурс мог бы быть лучшим в Рунете: "Абсолютные значения точными по результатам опроса и не могут быть, такого рода исследования ценны в основном для сравнения посещаемости разных ресурсов.

Liveinternet выдает нам 15 990 788 суммарных посетителей за январь. Очевидно, он учитывает одних и тех же пользователей несколько раз (разные браузеры = разные пользователи). Цифра в районе 6 миллионов вполне адекватна, так как на "В контакте" зарегистрировано 6,8 миллионов пользователей, и подавляющее большинство пользуется сайтом постоянно. Тех, кто приходит, не регистрируется и уходит, можно вообще не считать. Ежемесячная цифра для "Одноклассников" тоже может быть близка к истине, так как у них зарегистрировано не менее 9 миллионов.

Те, кто зарегистрированы у нас, пользуются сайтом в 2-3 раза активнее, чем пользователи одноклассников, и это тоже отражено в исследовании (время на одного посетителя).

В целом, если время на одного посетителя пропорционально количеству просмотренных страниц, то мы должны быть явным лидером по параметру (Количество аудитории * Время), так как мы лидер по количеству просмотров рунета. Однако по этой таблице нас обходит Mail.ru. Это можно объяснить тем, что берется ежемесячный охват аудитории, а не ежедневный. Соотношение ежедневных аудиторий для нас было бы лучше, чем ежемесячных, так как "В контакте" более активно используется пользователями, чем любой другой ресурс".

Никита Шерман, генеральный директор "Мамбы" (18-е место), прогнозирует подъем "Мамбы" уже в будущем рейтинге, составленном по итогам января: "Мы очень позитивно оцениваем результаты исследования "Ромира". Наше сотрудничество начинает приносить первые плоды, и, надеюсь, будет впредь еще более продуктивным. Скажу больше, как видно из рейтинга "Ромира", сайт Mamba.ru занимает в российском Интернете 18 место по популярности, то есть входит в число самых востребованных аудиторией ресурсов.

Но ведь сайт Mamba.ru это лишь около 7% от всей системы знакомств "Мамба". В настоящее время "Ромир" занимается исследованием всей системы, и эти данные будут включены уже в следующий рейтинг".

Нану Куликову, пресс-атташе "Одноклассники.ру" (4-е место), в целом данные "Ромира"/Gemius устраивают, однако она советует не обращать внимания на абсолютные цифры из-за быстрого роста "Одноклассников": "TNS нас вполне устраивает, но мы всегда с интересом относимся к данным других исследований по подсчету аудиторий. Это позволяет нам наиболее точно составить картину по посещаемости нашего ресурса. Данные исследования Gemius вполне укладываются в наше видение ситуации, но надо не забывать, что проекты, подобные нашему, развиваются очень динамично, и скорее всего мы уже превысили цифру, что указанную в статистике".

Добавить 40 комментариев

8 февраля 2008 в 10:37 Ответить
Альтер Эго
Технология у них довольно сомнительная. Обратите внимание на пункты 16 и 20 — МаркетГид и Новотека. Очевидно, посчитаны не сами сайты, где посещаемость плавает в зависимости от раздачи трафика, а новостные обменные сети. Они действительно большие и трафика в них масса, но тогда права Артамонова, что в случае Гугла считается все не по одному разу.
8 февраля 2008 в 10:40 Ответить
Юрий Синодов Roem.ru
Все-таки на Новотеку и Маркетгид люди заходят по ссылкам, почему их не считать? Или всех тех, кто по ссылке зашел на РБК, например, тоже выгнать с пляжа?
8 февраля 2008 в 10:50 Ответить
soomrack
С сомнениям я отношусь к таким статистическим исследованиям. И в первую очередь потому, что набор посещаемых порталов _очень_ сильно варьируется от региона и от возраста. Выбрать репрезентативную выборку для всей страны (всего из 1200 человек) в такой ситуации очень трудно. ИМХО: было бы интересно увидеть данные для каждого человека, тогда можно было бы и дисперсию прикинуть. А вдруг если посчитать по 800 человекам из этих 1200 данные будут отличаться на 30%?
8 февраля 2008 в 11:14 Ответить
Альтер Эго
Цифры по вКонтакте относительно адекватные, поскольку Ромир считает 18+, и соответственно не учитывает всю школьную часть аудитории Контакта А вот ЛИ.ру явно завышен — это легко прослеживается по сравнению цифр Ромира с цифрами счетчиков. И конечно явный баг с ЖЖ (они не смогли правильно просуммировать все домены ЖЖ?). Еще непонятно, как в топ20 попала мамба.ру — посещаемость самого сайта сильно меньше (в разы), а посещаемость всей сети существенно выше…
8 февраля 2008 в 11:30 Ответить
soomrack
Гм. У нас есть 11 городов миллионников (забъем пока на города с населением более 100.000). Это получается примерно по 100 человек из каждого такого города (с учетом брака и пр.). Получается примерно по 20 на каждую возрастную категорию. А теперь самое интересное: если делить вот так поровну, то как учесть, что в Москве интернет аудитория в 3 раза больше чем в Питере и в 30 раз больше, чем в Уфе? А делить порпорционально не получится — 1200 человек не хватит. Возможный вариант (и скорее всего наиболее вероятный) то, что один московский человек считался за 30 уфинских, питерский — за 10 уфинстких и т.д. Что мы получим при таком подсчете? ЗЫ: а по их словам репрезенты были в городах с населением больше 100.000 человек.
8 февраля 2008 в 12:00 Ответить
Алексей Тутубалин LibRaw LLC
to sinodov: Если Маркетгид пропускает обменную аудиторию через себя (и она действительно большая), то в новотечной сети новостники меняются трафиком напрямую, на сайт новотеки не заходя. От этого, кстати, такие разные «времена на сайте» для этих двух. На маркетгиде — полчаса в месяц, а на новотеке — 5 минут (10 секунд в день, если поровну). Эти 10 секунд — время загрузки яваскрипта, как я понимаю.
8 февраля 2008 в 12:22 Ответить
Борис Овчинников Data Insight
2 soomrack
8 февраля 2008 в 12:27 Ответить
soomrack
Внемлю
8 февраля 2008 в 12:32 Ответить
Борис Овчинников Data Insight
2 soomrack Ромир кажется нигде не говорил, что его выборка репрезентирует население каждого из городов-миллиоников. И выборка естественно строится (по крайней мере, должна строиться) исходя не из распределения по городам и возрасту всего населения страны, а исходя из распределения интернет-аудитории по городам разной людности и возрасту При этом когда выборка репрезентирует страну в целом (население всех городов с населением свыше Х), вовсе не надо охватывать все города и необязательно, чтобы выборка по конкретному городу хоть как-то коррелировала со структурой интернет-аудитории в этом городе. Достаточно, если состав выборки в целом по стране будет соответствовать распределению интернет-аудитории (хотя конечно стоит как минимум добиваться такой же репрезентативности от московской подвыборки и по возможности от петербургской) (сорри за случайную отправку пустого комментария)
8 февраля 2008 в 12:38 Ответить
Nakeeta
суммарная аудитория Гугла и не получается простым сложением чисел гугл.ру и ком. — там пересечения по 50% если смотреть полные таблицы…
8 февраля 2008 в 12:52 Ответить
Юрий Синодов Roem.ru
Тут две смешные вещи. 1) Какова цель измерения аудитории? Дать рекламодателям данные по возможному охвату площадок. Как будет покупать их рекламодатель? Распределит между лидерами. Сколько раз ты в списке — столько тебе раз кусочков от его бюджета и достанется. 2) Вторая хохма смешнее — на Google.com и Google.ru нельзя разместить медийную рекламу, для которой охват и важен.
8 февраля 2008 в 13:06 Ответить
soomrack
2 barouh (ц): «Тестовые данные на основе измерения 1,2 тыс. респондентов старше 18 лет в городах России с населением более 100 тыс. человек. Данные на декабрь 2007 года.» «При этом когда выборка репрезентирует страну в целом…» при этом необходимо, чтобы дисперсия была малой. При таком малом количестве респондентов по отношению к сильной сегментации аудитории она не может быть малой (имхо). Как пример: добавив всего одного неслучайного человека из СПб мы существенно изменим результаты (думаю более чем на 17%). Это плохо.
8 февраля 2008 в 13:14 Ответить
soomrack
2 sinodov 1) Ну разумеется цель — рекламодатели, акционеры и, возможно, материал для поднятия цены при полной или частичной продаже (что наиболее вероятно). 2) !
8 февраля 2008 в 13:25 Ответить
Борис Овчинников Data Insight
2 soomrack Доля Питера в интернет-аудитории — около 10%. 120 человек. Из них допустим на Яндекс ходит 84 человека — 70%. Добавив одного неслучайного человека, мы получим для Яндекса или 84 из 121, или 85 из 121. В процентах это 69,4% или 70,2% — т.е. 1 человек сдвинул результат максимум на 0,6% Хотя на месте Gemuis и РОМИРа я бы все равно не выносил шаткие цифры по Питеру в статью в Коммерсанте
8 февраля 2008 в 14:38 Ответить
Денис Бесков школа системного анализа
Юра, 15,990,788 — это на каком языке?
8 февраля 2008 в 14:42 Ответить
Юрий Синодов Roem.ru
Ну не на языке метрологов — точно.
8 февраля 2008 в 14:56 Ответить
Денис Бесков школа системного анализа
в русском языке для разделения разрядов используются либо пробелы, либо точки
8 февраля 2008 в 15:05 Ответить
Юрий Синодов Roem.ru
У меня почему-то влепился комментарий Дурова as is, а не подшлифованный, с кавычками и разбивками. Спасибо, вставил правильный.
8 февраля 2008 в 15:32 Ответить
soomrack
2 barouh На количестве посетителей один добавочный человек, действительно, скажется мало, это очевидно. Я имел ввиду нечто другое. Но тем не менее добавка одного может сильно повлиять на среднее время, проведенное на портале: Добавим одного пользователя, проводящего 5.5 часов ежедневно на новотеке (20-е место), тогда среднее время по всем пользователям вырастет на 8.4%! 20 novoteka.ru 2,363 10,65% 0:05 Для некоторых остальных такая добавка тоже существенна. Теперь насчет 120. Вероятность, что на СПб придет именно 120 — мала. Вероятны отклонения до 7%. Если СПб будет представлен на 7% хуже, то вконтакте будет представлен на 4-5% хуже именно за счет сильной региональной сегментации (цифры с потолка, но вроде правдоподобны). Забавно, вроде бы по всему рунету выборка случайная и хорошая, но региональная сегментация оказывает сильное влияние на доверительные интервалы и вторые моменты.
8 февраля 2008 в 15:44 Ответить
soomrack
вторые моменты=>отклонения вторых моментов
8 февраля 2008 в 16:33 Ответить
Ferensy Wamfiry Dotmedia
Интересно… почему именно 1200 человек?
8 февраля 2008 в 16:52 Ответить
soomrack
Может быть это в точности размер их штата сотрудников?
11 февраля 2008 в 20:30 Ответить
Альтер Эго
микрософт — лидер, ясен палец он же по дефолту в баузере стартовый а отключить его, наверное, 2/3 пользователей или не могут или не догадываются, или ленятся
12 февраля 2008 в 08:11 Ответить
Юрий Синодов Roem.ru
Ничего подобного. Сейчас практически любая прога, инсталлирующаяся на компьютер, меняет стартовую страницу на что-то еще. Во-вторых, стартовая страница там не Microsoft, а Msn.ru Но в силу первой причины — висит он там только до того времени, пока не сработает фильтр «ты последний».
15 февраля 2008 в 16:56 Ответить
Den
Спорить по поводу этого исследования имело бы смысл, если бы была прописана чёткая методология исследования и даны. 2 barouh. Ты абсолютно прав. Российские компании вообще боятся исследовать интернет, потому что чёткой методологии никто придумать не может. Я, честно говоря, питаю сомнения даже относительно данных TNS Gallup (которые, кстати, «сверяются» со счётчиками LI). Другой методологии никто пока не придумал, но всё же она приятная уму и сердцу. Однако и она имеет огромные минусы. Однако это технологичный вариант исследования. Что же тогда говорить про опрос, в котором «случайные» люди так меняют ситуацию? По-моему, это исследование бесценно ;)
18 февраля 2008 в 12:19 Ответить
Альтер Эго
Раз речь зашла о методике, рассказываем о ней подробнее. Понятно, что статьи в прессе не могут отразить всех ее составляющих, поэтому и возникают вопросы. Технологически методика состоит из 4 компонентов: счетчики + модуль опроса для сбора соц-дема + онлайн-панель пользователей + оффлайн взвешивание. Это объединение site-centric и user-centric, или так наз. fusion панель. Есть ряд сайтов, на которых стоят счетчики Gemius, на них же показываются анкеты исследования с целью сбора соц-дем информации о пользователях интернета в России и приглашение этих пользователей участвовать в постоянной онлайн-панели. Онлайн-панель подразумевает собой то, что пользователи ставят на своих компьютерах (домашних или рабочих, сейчас это соотношение примерно 75-25) специальную программу, которая мониторит всю их интернет-активность (по браузерам IE, FF, мессенджерам и закачкам). От этих людей мы получаем логи, на основании которых определяем посещаемость тех или иных ресурсов. Т.е. данные приходят по факту, плюс cookies в данном случае нам не важны. Пользовательские данные по тем ресурсам, где стоят счетчики, мы еще дополнительно корректируем (поведенческое взвешивание) на реальное число просмотров страниц, сессий и времени на сайте. Чем больше сайтов со счетчиками — тем лучше. Там где счетчиков нет – мы даем только число реальных пользователей и соц-дем. Естественно, что это число не претендует на точность до последней цифры. Тем более, что выборка сейчас еще небольшая, в декабре мы взяли ~1200 человек, которые являются участниками панели уже не один месяц и прошли период верификации. Всего на сегодняшний день таковых панелистов уже 7000+ человек, и мы планируем довести цифру тысяч до 20, так как это реализовано у нас в других странах. Данные по 1200 человек являются действительно тестовыми и могут отражать только общие тенденции (плюс распределение по 2-3 ответам). Понятно, что с ростом выборки они будут все точнее. Тем не менее, в представленном топ-20 сайтов мы взяли только те, которые набрали хотя бы 200 человек по логам из общей массы, т.е. брали только наиболее «показательные» на тот момент сайты. По поводу состава топа. Если люди переходят по ссылкам на агрегаторы – значит эти агрегаторы попадают в результаты. Судить о качестве трафика – не наша задача, мы показываем статистику. А ее пользователи дальше уже могут копать – сколько времени было проведено на ресурсе, кем и т.п. и делать свои выводы. Единственная оговорка здесь – «взрослые» ресурсы мы пока не показываем, хотя они есть. Насколько показательна выборка. Так как пользователи набираются онлайном, то для этого и нужны ежемесячные оффлайновые опросы Ромира, чтобы контролировать параметры выборки. Основными параметрами здесь являются половозрастное распределение и частота пользования интернетом. На этой неделе выйдут январские результаты, на большей выборке и с большим числом включенных сайтов. Можно будет сравнить и оценить перестановки в рейтинге.
18 февраля 2008 в 12:25 Ответить
Юрий Синодов Roem.ru
Я в порядке исключения одобрю этот комментарий как ньюсмейкерский, но вообще хорошо бы подписываться реальным именем — тут уже был инцидент, когда однин эксперт оказался в природе не существующим, а я этого не уловил.
18 февраля 2008 в 12:32 Ответить
Альтер Эго
Сорри, скрываться намерения не было. Марина Соловьева Gemius
18 февраля 2008 в 12:35 Ответить
Юрий Синодов Roem.ru
Да я так и понял, что хотелось просто показать, что комментарий от компании. Спасибо.
18 февраля 2008 в 21:44 Ответить
Т А
Конечно, хорошо, что девушка из РОМИРА объяснила, что они делали и как. Спасибо ей. Однако, вопрос о достоверности данных РОМИРА, их погрешности — так и остался открытым Претензии были как раз по этому пункту. Понятно, что если 1200 респондентов заменить на 7000, то будет точнее, но НА СКОЛЬКО точнее? Может, надо менять сразу не на 7000 респондентов, а на 17 000? или даже на 70000 — чтобы получить что-то значимое и хоть как-то достоверное? Любая статистическая методика должна содержать раздел: ОЦЕНКА ПОГРЕШНОСТИ, и если этого раздела нет — то это не методика, а Пиар. Я вот что еще замечу популярными словами. Некоторые закономерности (назовем их СИЛЬНЫМИ) можно выявить легко. К примеру, если взять 2 любых человека, то можно предположить, что один из них обязательно зайдет на Яндекс, когда выйдет в Интернет. Можно, конечно, при этом на двух испытуемых ошибиться, но при уже при 10 испытуемых можно получить уже почти верную цифру доли Яндекса. Тем более, — при 100 испытуемых. Доля Яндекса — в моей терминологии — СИЛЬНАЯ зависимость, и для ее точного определения даже не нужно 1200 человек — это лишнее. Попадание на Яндекс СИЛЬНО зависит от события — выход пользователя в Интернет. Однако, есть еще СЛАБЫЕ зависимости. К примеру, если человек УЖЕ зашел на сайт mail.ru, определить, сколько он там дальше будет находиться — непросто. Время нахождения на сайте mail.ru СЛАБО зависит от события — заход пользователя на сайт mail.ru. Объяснение простое — время нахождения пользователя зависит от тысячи причин — возраста, профессии, времени суток, пола и т.д. и т.д. Точно оценить время нахождения очевидно, можно тогда, когда число респондентов приближается к числу посетителей, равному всей аудитории сайта. Это тоже понятно. Я к чему клоню? То, что 1200 человек как-то позволяют оценить доли хорошо посещаемых сайтов — это так. Однако, это вовсе не означает, что время нахождения на сайте оценено с той же точностью, что и доля сайта. Если доля первых 4-х сайтов гарантировано определена (как уже мы обсуждали раньше с Овчинниковым, с погрешностью не более 5%), то про ВРЕМЯ сказать НИЧЕГО уже невозможно. Будет ли погрешность 50%, или 150% ? или даже 500%? Ничего не скажешь ИМХО, вместо того, чтобы представителю РОМИР взволнованно рассказывать, как называется ее исследование fusion или не fusion, лучше бы сделала необходимое — дала оценку погрешностей данным и в обоих столбцах рейтинга. Глядишь, и энтузиазм бы поутих. Шутка.
18 февраля 2008 в 23:30 Ответить
soomrack
To Тимур. Золотые слова. Я об этом и пытался сказать в своих постах. Где оценки погрешности? Где дисперсия по этой выборке? Где зависимость показателей от числа респондентов?
18 февраля 2008 в 23:52 Ответить
Борис Овчинников Data Insight
Тимуру: Посчитать погрешность по простой стандартной формуле — нехитрое дело, это могут сделать и исследователи, и читатели исследования. К сожалению, часто таким расчетом просто прикрывают низкое качество исследования. Как правило качество исследования в первую очередь определяется не тем, сколько, а тем, как и кто опрошен/исследован. И пространный рассказ Марины отчасти как раз отвечает на второй, более важный вопрос Погрешность для средней величины какого-либо признака точно также считается по стандартной формуле, как и погрешность для доли определенной категории. Более того, для Mail.ru надежность оценки среднего времени на сайте теоретически ненамного ниже надежности оценки охвата Мэйлом всей интернет-аудитории — просто в силу того, что подвыборка «посетители Mail.ru» ненамного выше генсовокупности. Вот для Новотеки среднее время считаться будет конечно с куда меньшей надежностью Есть правда одно «но» — время на сайте это такая величина, которая распределяется совсем не нормально и не равномерно. Теоретически значения за неделю могут колебаться условно от 1 секунды до 720 часов, притом подавляющее большинство значений лежит ниже середины диапазона (360 часов). Один суперактивный пользователь может сильно исказить картину… Так что действительно было бы интересно узнать подробнее, как Gemius считал среднее время. Как решалась проблема особо активных пользователей? Как вообще фиксировалось время на сайте (интервал между первой и последней загрузкой? интервал от открытия сайта до закрытия окна?)? При каких условиях сессия считалась закрытой?
19 февраля 2008 в 20:54 Ответить
Т А
ОШИБКА девушки из РОМИР в том, что она интуитивно предполагает некий асимптотический характер зависимости выхода на ПРАВИЛЬНОЕ СРЕДНЕЕ ВРЕМЯ как функцию параметра — числа респондентов. Больше респондентов — ближе к цели — больше точность определения. Поэтому 7000 лучше, чем 1200. Такова ее логика. На самом деле эти рассуждения верны в отношении ДОЛЕЙ, ВОЗРАСТА ПОСЕТИТЕЛЕЙ, даже ЗАРПЛАТ. Но не ВРЕМЕНИ. Время пребывания зависит Бог знает от чего. Любой новый посетитель (небольшое расширение выборки) может все перечеркнуть. У этой СЛАБОЙ зависимости нет асимптоты — правильное среднее время можно получить, имея в руках только ВСЮ статистику. СРЕДНЕЕ ВРЕМЯ — оно среднее по определению. И все. СРЕДНЕЕ ВРЕМЯ настолько трудно в определении, настолько и бессмысленно как параметр в изучении аудитории. Напомню известную аналогию про температуру по больнице
19 февраля 2008 в 20:56 Ответить
Альтер Эго
Может правильнее брать медианное?
20 февраля 2008 в 00:42 Ответить
Борис Овчинников Data Insight
Опять Тимуру Я не уверен, что сложность/простота факторов, определяющих тот или иной параметр, влияет существенно на сложность построения выборки. Правильно построенная выборка должна давать репрезентативные данные и по полу-возрасту-росту респондентов, и скажем по их политическим предпочтениям Загвоздка со среднем временем в другом — в характере распределения, когда у нас значения для некоторых особо активных пользователей может быть на порядки выше цифр, характеризующих активность среднестатического пользователя И использовать здесь среднее арифметическое действительно было бы наверное неправильно. Но, как уже отмечено, есть медиана, есть другие варианты аккуратного счета. Правда, нам пока неизвестно, как именно это считалось в конкретном случае Gemius
20 февраля 2008 в 15:41 Ответить
soomrack
Какое усреднение в данном случае выбрать, медианное, арифметическое, интергальное или еще какое-то можно сказать только на основании параметров распределения, а они скрыты от широкой общественности. О чем несколько раз уже было замечено. Поэтому мы можем только предполагать о качестве исследования и о некоторых его сложных моментах. Ну и делать для себя всякие выводы. :)
21 февраля 2008 в 10:55 Ответить
Альтер Эго
По поводу погрешности. Для начала отвлеченный пример из опыта: В Польше (20тыс панель, функционирует в таком формате не один год). Показывает ок. 2000 сайтов с посещаемостью от 40тыс реальных пользователей в месяц. Средняя ошибка оценок всех сайтов (которые представлены только по пользовательской панели) по юзерам и охвату – не более 10%, по просмотрам – не более 10-15%. Всегда в большую сторону, т.е в результатах представлены цифры большие, чем на самом деле. Объем выборки российской панели на сегодняшний день вы уже знаете. Конкретные данные по логам относительно числа юзеров, времени на сайте и т.п. считаются следующим образом. Каждый «панелист» получает определенный вес, согласно 3 группам параметров: своему соц-дем профилю, зарегистрированному поведению на сайтах со счетчиками и показателям активности по логам. Далее для всего дерева сайтов применяются начальные весы и фиксируются ошибки, считая, что макс. ошибка не может превышать 0.00001 на макс. 1000 итераций. Например, наивысшая получилась ошибка такая: Iteration:0, max-error:1.859936 node: novoteka.ru Значит система корректирует все данные далее на новые весы из итерации 0, получает итерацию 1 и т.д., пока ошибка не встанет в заданные рамки. Это все делает специальный алгоритм, естественно. Так определяются финальные значения весов. В случае с декабрьскими данными мы произвели 50 итераций. На больших выборках и с большим числом сайтов со счетчиками мы делаем до 800-900 итераций. Хотя здесь их количество не показатель «хорошего» или «плохого» взвешивания, оно просто зависит от размера дерева сайтов (числа сайтов со счетчиками). То, что действительно важно – это объем выборки и число (и размер) сайтов со счетчиками. Чтобы был понятен порядок цифр, корректировка весов всегда оказывается в пределах единицы. Т.е. например, начальный вес одного панелиста в 120,04567 может превратиться в 120,05123. По нашим оценкам, текущая погрешность в цифрах у сайтов рейтинга может находиться в пределах 5-30%. Например, погрешность в цифрах сайта в панели, имеющего ~ 4 млн пользователей, составила 16%. Время на сайте. Определяется из логов панелистов и их весов. Весы – так же как и в предыдущем случае определяются для каждого панелиста изначально по соц-дем профилю+поведению на сайтах со счетчиками+показаниям логов. Далее расчетная часть. Допустим, юзер1 с весом 120 посетил сайтА(10сек)-сайтВ(20 сек)-сайтА(15сек), а юзер2 с весом 400 посетил сайтА(5сек)-сайтВ(40сек). Значит сайтА имеет (10+15)*120 + 5*400 = 5000сек сайтВ имеет 20*120 + 40*400 = 18400сек Таким образом учитывается тот факт, что разные типы пользователей проводят на сайтах разное время. /Определение сессии: непрерывающаяся серия Просмотров Страниц сайта, совершенная одним Посетителем (cookie), и считающаяся единым целым, временной интервал между двумя Просмотрами в рамках одной Сессии не может составлять более 30 минут. Время – это сумма длительностей просмотров в рамках одной сессии, длительность последнего просмотра всегда=0./ PS – Ромир не имеет никакого отношения к методике исследования или к подсчету данных. Они только поставляют нам (Gemius’у, который я, собственно, представляю) оффлайн данные каждый месяц, как я и писала в предыдущем посте. Мы со своей стороны открыты ко всем вопросам по поводу методики, и готовы объяснять как и что мы считаем для всех желающих.
21 февраля 2008 в 11:05 Ответить
Т А
То что «текущая погрешность в цифрах у сайтов рейтинга может находиться в пределах 5-30%» это правильно, и мы с этим полностью согласны. надо было сначала их дать, эти цифры и половина постов бы пропала (к огорчению главреда Синодова). Но остался незакрытым вопрос по поводу другого столбца — среднего времени нахождения на сайте. Мы, читатели РОЕМ, не смогли даже примерно оценить погрешность -настолько она высока.
21 февраля 2008 в 13:57 Ответить
soomrack
2Марина: Мутно как-то… Как я понял: Есть выборка из 1200 человек. 1 группа параметров: социально-демографическая, их человек определяет сам (интересно, как это конролируется). 2 группа параметров: по поведению на сайте на основе показаний счетчиков. 3 группа параметров: по активности по логам «панели» установленной на компьютере панелиста. На основании этих параметров человеку выдается «вес». Смысл веса — относительный размер аудитории которую этот человек представляет. Но вес в силу ряда обстоятельств может быть неточным. Поэтому он итеративно корректируется. При этом корректировка не превышает 1 пункта (в среднем это 0.83%). Вопросы: почему так мало? и за чем вообще нужна тогда корректировка? на сколько она уточняет (в цифрах)? Цитата: «По нашим оценкам, текущая погрешность в цифрах у сайтов рейтинга может находиться в пределах 5-30%.» Забавно, я вроде как раз про 30% тут уже говорил. ;) Вопрос: А какой должна быть выборка чтобы гарантированная погрешность была не больше 5%? Почему-то не озвучена погрешность про среднее время. ЗЫ: при этом учитывались сайты на которых побывало не менее 20% панелистов, т.е. от 200 человек. ЗЗЫ: цитата: «На этой неделе выйдут январские результаты, на большей выборке и с большим числом включенных сайтов. Можно будет сравнить и оценить перестановки в рейтинге.» где?
14 июня 2008 в 15:20 Ответить
igorboyko
Одноклассники должны стоять выше, как мне кажется.

Важное

Обсуждаемое