Зачем нужны независимые операторы больших данных, которые будут хранить цифровую личность человека → Roem.ru

Профессор компьютерных наук и инженерии Вашингтонского университета Педро Домингос написал книгу "Верховный алгоритм. Как машинное обучение изменит наш мир", которая вышла в издательстве «МИФ». Редакция «Роем!» приводит выдержку из 10-ой главы «Мир машинного обучения» с разрешения издательства.

Новости СМИ2

Конечно, полностью самостоятельное познание мира — медленный процесс, даже если ваша цифровая половинка делает это на порядок эффективнее, чем человек из плоти и крови. Если другие узнают вас быстрее, чем вы узнаете их, появятся проблемы. Чтобы этого избежать, надо делиться информацией: миллионы людей, объединив свои знания, узнают компанию или товар гораздо быстрее, чем один человек. Но с кем стоит делиться данными? Это, может быть, самый важный вопрос XXI столетия.

Сегодня данные можно разделить на четыре категории: те, которыми вы делитесь со всеми, те, которыми вы делитесь только с друзьями и коллегами, те, которыми вы делитесь с различными компаниями (сознательно или нет), и те, которые вы вообще не распространяете. К первому типу относятся, например, обзоры на Yelp, Amazon и TripAdvisor, рейтинги на eBay, резюме на LinkedIn, блоги, твиты и так далее. Эти данные очень ценны и порождают меньше всего проблем. Вы делитесь ими с миром, потому что сами того хотите, и это всем идет на пользу. Единственная сложность в том, что компании, которые хранят эти данные, не всегда разрешают массово их скачивать для построения моделей. Им следовало бы изменить свой подход. Сегодня можно зайти на TripAdvisor и увидеть обзоры и рейтинги заинтересовавших вас гостиниц, но как насчет модели факторов, которые делают гостиницу хорошей или плохой в целом? С ее помощью можно было бы оценивать гостиницы, у которых пока мало надежных обзоров или вообще их нет. TripAdvisor мог бы создать что-то подобное. А как насчет моделирования факторов, которые определяют привлекательность гостиницы именно для вас? Для этого требуется информация о вашей личности, и вы, возможно, не захотите делиться ею с TripAdvisor. Лучше, чтобы появилась доверенная третья сторона, которая соединит два типа данных и даст вам результат.

Данные второго рода тоже не должны создавать проблем, но это не так, потому что они соприкасаются с третьим видом данных. Вы делитесь новостями и картинками со своими друзьями на Facebook, а они делятся с вами. При этом каждый из вас делится всей этой информацией с сетью Facebook. Сеть получает преимущество: у нее миллиард друзей. День за днем она узнает о мире гораздо больше, чем смог бы узнать отдельный человек, и узнала бы еще больше, будь алгоритмы качественнее, а они совершенствуются с каждым днем благодаря нам — специалистам по обработке данных. Все эти знания Facebook использует главным образом для адресной рекламы, а взамен создает инфраструктуру для обмена информацией: на эту сделку идет каждый пользователь. Обучающиеся алгоритмы становятся все мощнее и извлекают из данных все больше и больше пользы, которая частично возвращается в форме более уместной рекламы и лучшего обслуживания. Единственная проблема в том, что Facebook вольна делать с данными и моделями то, что противоречит интересам пользователя, и этого избежать не получится.

Такая проблема появляется всюду, где человек делится данными с компаниями, а в наши дни подобные ситуации включают практически все действия в интернете и многие в реальной жизни. Вы еще не заметили, что вокруг идет яростная борьба за информацию о вас? Все хотят заполучить ваши данные, и это неудивительно — ведь таким образом можно найти лазейку в ваш мир, к вашим деньгам, голосу и даже к вашему сердцу. Пока у каждой компании есть лишь частица целого. Google знает, что вы ищете в интернете, Amazon располагает информацией о ваших покупках, AT&T — о телефонных звонках, Apple — о музыке, которую вы скачиваете, Safeway имеет полное представление о том, какие продукты едите, а Capital One — о ваших операциях с кредитными картами. Некоторые компании, например, Acxiom, сопоставляют информацию о вас и продают ее, но на поверку (в случае Acxiom можно посмотреть на aboutthedata.com) ее получается немного, и она отчасти ошибочна. Ни у кого и близко нет полной картины вашей личности. Это и хорошо, и плохо. Хорошо, потому что у того, кому удастся ее заполучить, появится слишком большая власть. Плохо — потому что, пока это так, создание всеобъемлющей модели невозможно. На самом деле вам нужно просто быть единственным владельцем такой модели и предоставлять к ней доступ исключительно на собственных условиях.

Последний тип данных — те, которыми вы не делитесь, — тоже создает проблему, и она заключается в том, что иногда следует предоставлять такую информацию. Может быть, это не приходило вам в голову, может быть, это непросто или у вас нет такого желания. В последнем случае стоит задуматься, есть ли у вас этическая обязанность делиться данными о себе. Один пример мы уже видели: больные раком могут внести вклад в победу над этим заболеванием, если предоставят доступ к геному опухоли и истории лечения. Но этим дело не ограничивается. Данные, которые мы генерируем в нашей повседневной жизни, могут дать ответы на всевозможные вопросы об обществе и политике. Социальные науки вступают в свой золотой век и наконец получат объем данных, сопоставимый со сложностью изучаемых явлений, а польза для всех нас будет огромной — при условии, что эти данные окажутся доступными и ученым, и людям, принимающим решения, и самим гражданам. Это не значит, что надо позволить другим подглядывать за вашей личной жизнью; это значит, что надо дать им возможность ознакомиться с полученными моделями, в которых будет только статистическая информация. Между вами и ними должен стоять честный брокер данных, который гарантирует, что информацией о вас не будут злоупотреблять и при этом не появится «халявщиков», которые стремятся получать преимущества, не делясь собственными данными.

Итого, проблемы есть у всех четырех видов данных. Решение у них общее: нужен новый тип компаний, который для ваших данных станет играть ту же роль, что банк для ваших сбережений. Банки (за редким исключением) не воруют и должны мудро инвестировать вклады. Сегодня многие компании предлагают консолидировать ваши данные где-то в облачном хранилище, но они все еще очень далеки от уровня банков персональных данных. Провайдеры облачных сервисов стремятся привязать вас к себе — а этого категорически нельзя допустить (представьте, что вы открыли счет в Bank of America и не уверены, можно ли будет когда-нибудь в будущем перевести средства в Wells Fargo). Некоторые стартапы предлагают вам хранить данные, а затем передают их рекламщикам, давая вам взамен скидки. На мой взгляд, смысл не в этом. В некоторых случаях вы бы дали такую информацию бесплатно, потому что сами в этом заинтересованы, а в некоторых ни за что не стали бы этого делать.

Компании нового типа, как я себе их представляю, за абонентскую плату будут предоставлять несколько функций. Во-первых, они станут анонимизировать ваши взаимодействия в электронном мире, проводя их через собственные серверы, и накапливать их, как и аналогичные действия других пользователей. Во-вторых, будут хранить в одном месте данные, собранные в течение вашей жизни, вплоть до круглосуточного видеопотока Google Glass, если у вас есть такие очки. В-третьих, они будут формировать полную модель вашей личности и вашего мира и постоянно ее обновлять. В-четвертых — применять эту модель от вашего имени, в рамках ее способностей, всегда делая ровно то, что сделали бы вы сами. Основное обязательство компании перед вами — никогда не использовать ваши данные и вашу модель вопреки вашим интересам. Гарантия не будет стопроцентной — в конце концов, мы и сами не застрахованы от того, чтобы иногда сделать что-нибудь себе во вред. Тем не менее жизнеспособность компании станет зависеть от выполнения договоренности в той же степени, как выживание банка — от сохранности ваших денег, поэтому можно будет доверять им так, как мы сегодня доверяем банкам.

Такие компании могут быстро стать одними из самых дорогих в мире. Как указывает Алексис Мадригал из журнала Atlantic, сегодня ваш профиль можно купить за полцента или даже дешевле, однако для индустрии интернет-рекламы ценность пользователя приближается к 1200 долларам в год. Фрагмент информации о вас, имеющийся в распоряжении Google, стоит около 20 долларов, у Facebook — 5 долларов и так далее. Прибавьте к этому фрагменты, которых пока ни у кого нет, и тот факт, что целое весомее суммы частей — модель личности, основанная на всех ваших данных, намного лучше тысячи моделей, построенных из отдельных кусочков, — и это легко даст более триллиона долларов в год для такой экономики, как США. На этом фундаменте несложно построить компанию из списка Fortune 500. (Если вы решите принять вызов и станете миллиардером, не забудьте, кто вам подбросил идею.)

Конечно, некоторые уже существующие компании с большим удовольствием приютят вашу «цифровую личность». Например, Google. Сергей Брин хочет, чтобы Google стала «третьим полушарием вашего мозга», и некоторые из приобретений компании, вероятно, связаны с тем, как удачно потоки пользовательских данных дополняют поток самой компании. Но, несмотря на исходные преимущества, Google и Facebook, например, не очень подходят на роль вашего цифрового дома, потому что возникает конфликт интересов. Они зарабатывают себе на жизнь таргетированием рекламы, поэтому им придется как-то уравновешивать интересы пользователей и рекламодателей. Вы, наверное, не допустите, чтобы одно из полушарий было не совсем вам лояльно? Тогда зачем позволять это третьему полушарию?

Потенциальная угроза может исходить от государственных органов, если у них будет право истребовать ваши данные или даже профилактически посадить вас за решетку, как в фильме «Особое мнение», если ваша модель напоминает модель преступника. Чтобы это предотвратить, хранящая данные компания должна их шифровать, а ключ должен быть в вашем распоряжении (в наши дни уже можно производить вычисления на зашифрованных данных без их расшифровки). Или можно держать все на жестком диске у себя дома, а компания просто предоставит программное обеспечение в аренду.

Что делать с «маленькими» данными?

До сих пор я не произнес словосочетания «частная жизнь», и это не случайно. Частная жизнь — лишь один аспект более широкой проблемы предоставления доступа к информации, и, если сосредоточиться на нем в ущерб целому, как в сегодняшних дебатах, мы рискуем прийти к неправильным выводам. Например, законы, запрещающие использовать данные в любых целях за исключением исходно предусмотренных, крайне близоруки. Когда люди обменивают защиту частной жизни на другие блага, как при заполнении профиля на сайте, они ценят ее намного меньше, чем когда отвечают на отвлеченные вопросы вроде «Важна ли для вас защита частной жизни?». Тем не менее дебаты о частной жизни чаще загоняют в рамки именно таких вопросов. Европейский суд издал декрет о праве человека на забвение, но ведь у людей есть и право на память — как в собственных нейронах, так и на жестком диске. Такое же право есть у компаний до тех пор, пока интересы пользователей, собирателей данных и рекламщиков совпадают. Отвлекаться не на то, что надо, вредно для всех, и чем лучше данные, тем лучше будет продукция. Частная жизнь — это не игра с нулевой суммой, хотя к ней часто относятся именно так. Компании, которые хранят вашу цифровую личность, и союзы защиты данных, на мой взгляд, определят картину работы с данными в развитом будущем. Наступит ли оно — вопрос открытый. Сегодня большинство людей не осознают, сколько данных они предоставляют и с какими затратами и преимуществами это может быть связано для них. Компании, со своей стороны, с удовольствием сохраняют статус-кво и работают негласно, боясь прокола. Рано или поздно такая система рухнет, и в атмосфере скандала будут приняты драконовские законы, от которых хорошо не будет никому. Лучше воспитывать сознательность сейчас и давать каждому право делать выбор — делиться ли данными, а если да, то как и где.

Добавить 3 комментария

8 августа 2016 в 23:21 Ответить
Cat
Напрашивается идея затолкать хранилище личных данных в структуру подобную блокчэйн из биткоин, а не отдавать хранилище какой то компании за деньги.
9 августа 2016 в 00:11 Ответить
Владимир Мяу и компания
А нам вроде запретили думать про блокчейн и биткойн? Я, как законопослушный гражданин, боюсь, и поэтому не думаю!
9 августа 2016 в 12:24 Ответить
Cat > Владимир Мяу контекст
Вроде как уже swift собираются заменить блокчейном, нас из него не исключили, значит придётся закусив удила внедрять технлогию, иначе оплата за углеводороды приходить перестанет, а это основной источник валютных поступлений в страну. Нельзя физически запретить это двоичное дерево (Merkle tree защищалась патентом от 1979 он уже истёк), теперь это чистая математика, никакими законами не регулируется находиться в public domain, и не является предметом права. Это дерево используется не только в BitCoin, а ещё и в BitTorrent, Git и даже в пренадлежавшей ранее Sun, а ныне Oracle файловой системе ZFS, которая успешно фунционирует во многих государственных предприятиях, кроме того в ZFS хранятся данные c большого андронного колайдера и бывшие сановцы даже хвалились что возможности этого дерева в ZFS позволили обнаружить ошибку в китайских платах RAID.

Что делать с "маленькими" данными? 11