Совладелец компании Data Insight Борис Овчинников написал о недостатках выпущенного сегодня исследования «Яндекса». Интернет-компания опубликовала исследование по данным Яндекс.Карт — о российских улицах. Аналитики «Яндекса» изучили более 560 000 улиц в 43 000 населённых пунктов. Суммарная длина этих улиц — более 395 000 километров (чуть больше чем до Луны).
Я всегда с интересом смотрю на те исследования, которые делает и публикует Яндекс. Но увы иногда попадаются примеры из серии "как не надо делать". Например, "как не надо строить выборки и экстраполировать данные"
Например, сегодняшнее исследование про улицы российских городов (ссылку дам в комментарии). В частности, выбрали 1000 самых популярных названий улиц (самые популярные = встречающиеся в наибольшем количестве населенных пунктов), плюс добавили некоторое количество популярных в отдельных регионах - и разобрали эти названия по категориям: в честь людей, в честь городов и т.д. В среднем по России так были разобраны по категориям примерно 60% названий. Но в Москве, где улиц очень много и у большинства уникальные названия (не повторяющиеся больше нигде в России), под такую классификацию попало хорошо если 25% названий
Но авторы исследования на такие мелочи внимание увы не обращают, и однозначно пишут, что чаще всего названия в Москве связаны с городами (3,7%) и с людьми (3,3%). По сути за профиль московских названий выдается статистика по присутствию в Москве типовых общероссийских названий улиц и переулков. Какие типы названий характерны для основной массы московских топонимов (то есть простите годонимов) - уникальных или редко повторяющихся в других городах названий? Насколько топ категорий, посчитанный на небольшой и смещенной выборке, характерен для Москвы в целом?
На эти вопросы в исследовании конечно нет ответа
Я взял случайную выборку из 100 московских названий (без Зеленограда и Новой Москвы и только улицы и переулки, на которых есть жилые дома) - и среди них 18 названий по городам и 26 по людям. А если учесть дореволюционные названия, когда улицы не назывались в честь людей - но их названия естественно вырастали из фамилий местных владельцев, то доля названий "по людям" вырастает до 36%. Есть разница между 3,3% и то ли 26%, то ли 36%? На мой взгляд, есть :)
Каких названий в Москве больше - в честь городов (как говорит Яндекс) или в честь людей (как показывает небольшая случайная выборка)?
А теперь последний вопрос: какая часть читателей исследования Яндекса способна заметить странность в цифрах по Москве, понять причины возникновения этой странности и понять, что приводимые Яндексом цифры имеют очень слабое отношение к реальности?Опубликовано Борисом Овчинниковым 4 октября 2017 г.
Добавить 6 комментариев
Видимо, традиция собирать странные данные. Даже тот же опрос, который им какая-то компания проводит (приглашения в почте), вместо того, чтобы сразу сделать окошко «расскажи», идет листинг с вариантами ответов. Ну три или две страницы я прошла, но дальше этот унылый квест пройти сложно.
> Я взял случайную выборку из 100 московских названий (без Зеленограда и Новой Москвы и только улицы и переулки, на которых есть жилые дома)
> Совладелец чего-то там
Это офигенно же. Профессионалы в треде.
Возьми выгрузку ФИАС (замена КЛАДР) и проанализируй хоть в Экселе.
Взял он 100 случайных, вручную считал что ли?
Одну смещённую выборку заменил другой смещённой и нерепрезентативной. Красавчик.
А как вы предлагаете не в ручную считать количество названий в честь городов и в честь людей? Неужели есть база, где улицы уже размечены по этому признаку? Или может быть есть простые формальные признаки для такой классификации?
Все выборки несовершенны. Это не означает, что они одинаково плохие
Выборка Яндекса — неслучайная. Это по сути даже не выборка, а просто подмножество — «улицы Москвы, носящие характерные для других российских городов названия». Подмножество достаточно специфическое и охватывающее меньше половины улиц Москвы. Статистика по такому «миноритарному» подмножеству может очень сильно отличаться от реальных характеристик всего множества
Моя выборка — реально случайная. Только она репрезентирует не все улицы Москвы как субъекта РФ, а подмножество «улицы с жилыми домами, расположенные в городе Москве» [где город — не административное понятие, а человеческое]. В отличие от яндексовского подмножества, мое (а) охватывает более половины улиц Москвы (т.е. чисто арифметически максимально возможное отклонение результатов от реальных меньше, чем у Яндекса) и (б) выделено по критерию, не связанному напрямую с названиями — так что уместно предположить, что в статистике названий по анализируемой выборке и по улицам, не попавшим в анализ (улицы без жилых домов), существенной разницы не будет
Стартапер штоле?
Яндексовское поделие сообщает бесполезную информацию о доле популярных (в России) названий улиц в крупных городах. Ну да, если растёт число уникальных названий, то уменьшается доля каждого из названий, внезапно.
Вы же прочитали это как процент улиц какого-то класса (фамилия, города, бубубу) в Москве (Whaaa?) и предложили свою методику, которая отвечает на вопрос, который Вы придумали когда смотрели эти непонятные цифры. При этом умудрились сами себе поломать данные вычеркнув промзоны. Неважно насколько сместился результат в данном случае, важно что вы сделаете ту же самую ошибку когда это будет критично.
Попробуйте ещё своё «исследование» сравнить с урожаем баобаба, например, терять уже нечего, но можно ещё поржать.