Тест Хуюринга

15 июня 2014 в 00:24

В воскресенье, 8 июня, в сети появилась новость о том, что российская компьютерная программа впервые в истории прошла тест Тьюринга, то есть смогла убедить треть жюри в том, что они общаются с реальным человеком.

Новости СМИ2

Я быстренько пробежался по ссылкам и пошутил в Facebook, что рабочий заголовок к новости будет: «Английские ученые™ отупели настолько, что программа из Сколково развела их в тесте Тьюринга!».

В понедельник, 9 июня, российские СМИ дружно рассказывали о прорыве российских программистов (хотя оказалось, что один из разработчиков — бывший россиянин, работающий теперь в США, а второй — вообще украинец), слаженно писали о научном прорыве и о том, что если программа обманула ученых, то простых граждан в интернете она и подавно сможет обмануть. Что кибер-преступники всего мира возьмут на вооружение искусственный интеллект для атак с использованием социальной инженерии (хотя они давно так делают).

Несколькими днями позже стали появляться первые опровержения, объясняющие, что прорыв — не такой уж прорыв. И, наконец, «Женя Густман» (имя программы) был назван отражением российского информационного пространства в области науки и техники.

На Roem.ru эта новость освещения до сегодняшнего дня не получила. У каждого из редакторов могут быть разные причины, но я хочу пояснить свои:

Пресса и обозреватели уже продолжительное время пугают читателей тем, как корпорации, такие как Google, соберут все наши данные, а интеллектуальные программы смогут из этих данных извлечь такую информацию, о которой мы даже сами не подозреваем. Программы смогут на основании этих данных принимать решения и влиять на повседневную жизнь. Например:

[М]ашины уже сейчас могут анализировать уровень водительского мастерства и особенности вождения владельца. Если человек водит хорошо, он может рассчитывать на бОльшую страховку, чем плохой водитель.

И вот, некая программа прошла «легендарный тест» (iconic test) Тьюринга, который постоянно упоминается во многих страшилках про искусственный интеллект и в около-научной прессе как критерий разумности машин. Казалось бы, эпохальное событие и Терминатор (первый) уже дышит человечеству в затылок.

Но смущало несколько факторов. Во-первых, я помню, как 15-20 лет назад на BBS уже были чатботы (vsysops), которые вполне проходили за человека в течение первых двух-трех фраз. Во-вторых, сама программа «Женя Густман» далеко не новая, про неё уже много раз писали, и я этого чувака со скриншота уже в лицо знаю.

И, в третьих, переключимся на бытовой уровень, оглянемся вокруг и посмотрим, да хоть на Google Android.

В настройках смартфона на Android я честно указал адрес постоянного проживания. Этот адрес используется в «интеллектуальной» системе Google Now для различных подсказок на базе геолокации. Я довольно много времени провожу дома, но внутри монолитной железобетонной коробки GPS не ловит, поэтому телефон определяет свое местоположение по Wi-Fi и сотовой сети, с относительно большой погрешностью. Из-за погрешности и неточности привязки карт к реальной местности, телефон постоянно считает, что я бегаю вокруг дома, а не сижу на попе ровно перед монитором. Даже считает, сколько я пробежал. И никакой «интеллект» Google Now с этим справиться не помогает.

Кроме того, в Android есть голосовое управление. И если я говорю «Окей Гугл, Позвонить Юра», то высокоинтеллектуальный телефон, обнаружив в телефонной книге несколько Юр с несколькими телефонами у каждого, не уточняет человеческим голосом, будем ли звонить Юре Синодову или какому-то другому. А вываливает на экран список контактов и чего-то ждет, немного разрушая миф о виртуальном помощнике.

Да о чем говорить, голосовой ввод Google не умеет, например, работать с двумя языками одновременно, хотя уже неплохо распознает их по-отдельности.

Такое ограниченное поведение смартфона легко объяснимо: компьютерные программы — это, упрощенно, наборы инструкций «если () то:». Чем больше инструкций программисты ручками забили в программу, тем больше она умеет. Никакого искусственного интеллекта, в киношном или философском смысле, не существует.

Бывают, конечно, сложные системы. Я где-то видел забавную инфографику (которую не могу теперь найти высокоинтеллектуальным поиском по вебу), согласно которой программы, управляющие self-driving автомобилями, по количеству условий сравнимы с мозгом крысы. И если это хоть сколько-нибудь правда, пусть и с натяжками, то это само по себе — огромное достижение.

Однако есть большие сомнения, что если поймать крысу и затем катать её на автомобиле, то грызун сможет сделать выводы относительно водительского мастерства шофера (мы же ждем, что программы смогут на базе нескольких сенсоров в автомобиле оценивать мастерство водителя и влиять на цену страховки). Потому что это довольно нетривиальная задача даже для асессора-человека.

Поэтому у новости о «Жене Густмане» было два глобальных сценария развития:

не признавать эксперимент и продолжать ориентироваться на тест Тьюринга в вакууме, как не пройденный;
признать, что сам тест Тьюринга тестирует неизвестно что, его условия расплывчаты, а результаты достаточно бессмысленны.

В любом случае, никаких терминаторов на горизонте не видно и SkyNet не восстал. Вместе с тем, программа «Женя Густман» может быть выдающейся и заслуживающей внимания, но нужна совсем не журналистская компетенция, чтобы её оценить. Да и громкую новость из этого не сделаешь.

(xkcd: Worst-Case Scenario)

Артем Куроптев, редактор Roem.ru.

Добавить 26 комментариев

15 июня 2014 в 10:53 Ответить
sol289
два глобальных сценария ответа на любую новость вида «российское N выполнило M»: а) N было не российское. б) M — такой отстой, что выполнять его западло. «нет здесь ничего интересного, расходитесь.»
15 июня 2014 в 11:19 Ответить
Юрий Синодов Roem.ru
То, что это российское — это случайность, обеспечивающая дополнительный хайп в Рунете и только. Точно так это происходит и на Западе: «Трафик, фейсбук, хвать-хвать». В результате погони за трафиком описывание процессов происходящих в реальности и их влияние на офлайн помирает как жанр. Самое прикольное, с моей точки зрения, когда инфотеймент начинает влиять уже не на хомячков, а на самих создателей этого инфотеймента: что ж дальше-то будет, когда этот уроборос сам себя пожрёт?
15 июня 2014 в 11:29 Ответить
VKuser8409900 Жизнерадостный придурок
«признать, что сам тест Тьюринга тестирует неизвестно что, его условия расплывчаты, а результаты достаточно бессмысленны.» http://ru.wikipedia.org/wiki/Китайская_комната
15 июня 2014 в 12:41 Ответить
Eli
А почему не подписано? Текст хороший, тест Тьюринга отстой, да.
15 июня 2014 в 16:06 Ответить
Юта Соломонович
Программа называется Eugene Goostman, даже с плохим английским не как не жека гузьманъ! Ну да ладно. Каждый коверкает как хочет. Я кое что понял. Понял почему на восклицание «Пора валить!». В спину кричат «Скатертью дорога!». Потом же, всегда, можно сказать а они-то Российские программисты и гордиться ими на расстоянии. А может что то поменять что бы талантливые люди оставались в стране?
15 июня 2014 в 16:27 Ответить
Сашок Рему'
>> А может что то поменять что бы талантливые люди оставались в стране? Можно ли считать, что у вас талантов нет ? Или недостаточно талантов, чтобы свалить? Или вы из «сваливших» ? >> а они-то Российские Да всем наплевать в общем-то какие они. Ключевое , что образование они получили здесь, а не то, где родились.
15 июня 2014 в 18:11 Ответить
BigBrother (Скоро смогу сказать)
> Потому что это довольно нетривиальная задача даже для асессора-человека. Как раз для человека — задача тривиальная. Но требуется подготовка, да.
15 июня 2014 в 18:29 Ответить
Alex Nikulin
Извините, а что мешает при помощи нескольких датчиков более-менее достоверно оценить, ну, скажем, не мастерство, но качество вождения?
15 июня 2014 в 18:42 Ответить
Юта Соломонович
>>>Можно ли считать… Можете считать как вам вздумается, это не как не отразиться на количестве моих талантов. >>> Да всем наплевать Пишите лучше «большинству» вместо «всем», это менее категорично. А то первый же несогласный с вашим утверждением разрушит его. >>> … образование они получили здесь .. Здесь, это где? В России? Тогда точно Российские программист. Или здесь это у вас Украина? Или «совок»? А Фаге, Гавэ, Хартман? Они то же получили образование «здесь» или их просто так пригласили на встречу с Российским Президентом? Может ещё кто то расскажет своё виденье, кого считать «Российским» а кого нет? А то так к «Российским», можно записать и внуков «белых» эмигрантов, которые «по Русски не бе не ме».
15 июня 2014 в 18:43 Ответить
BigBrother (Скоро смогу сказать)
Оооо… Давайте поговорим об этом. Что такое — по вашему мнению — «качество вождения»?
15 июня 2014 в 19:03 Ответить
Сашок Рему'
>> Здесь, это где? В России? Тогда точно Российские программист. Может и советские программисты. Много ли это меняет ? >> А Фаге, Гавэ, Хартман? А эти бизнес в россии вроде делают. >> А может что то поменять что бы талантливые люди оставались в стране? Всегда будет оставаться прослойка людей талантливых или не очень, которые будут стремиться «свалить». Я думаю это можно наблюдать повсеместно. Так что и менять надо не для того чтобы оставались, а для того чтобы приезжали. Те кому суждено свалить — свалят.
15 июня 2014 в 19:09 Ответить
Alex Nikulin
Роман, если мы говорим о качестве с точки зрения страховой — то, вероятно, это будет вероятность попадания в аварию. Собственной экспертизы у меня нет, как и прав, но с позиции разумного смысла можно было бы оценить следующие вещи: изменение скоростного режима (резкое торможение/ускорение, управление скоростью), поведение на маршруте (частое/агрессивное перестроение), при наличии внешних датчиков — соблюдение/нарушение безопасной дистанции. При наличии данных о дорогах — соблюдение правил, превышение скорости, например. Использование ремней безопасности. По-моему, анализ таких данных может показать хотя бы относительное отличие уверенного, опытного вождения от новичка или лихача. Можно, конечно, говорить, что другие участники движения провоцируют оцениваемого водителя на небезопасное вождение, но, скорее всего, это не так.
15 июня 2014 в 22:10 Ответить
Евгений Грейс
Ожидал от статьи большего. Я думаю те, кого обманула эта программа-чат-бот — ужаснулись бы от мощи http://iii.ru/garage ;)
16 июня 2014 в 09:25 Ответить
Юрий Синодов Roem.ru
Роман со своим гоночными навыками, конечно, не очень простой вопрос задал, но да, с точки зрения страховой аккуратный водитель это тот, кто избегает аварий. Скажем, регулярное трогание задом с пробуксовкой — не гуд, мало ли что там сзади подскочит, пока ты озираешься. Ну и простейшие вещи вроде прохождения поворота со сброшенным газом тоже можно отслеживать. Про количество перестроений тоже было сказано, частые торможения «в пол», в условиях города, тоже, наверное, не признак мастерства.
16 июня 2014 в 09:46 Ответить
BigBrother (Скоро смогу сказать)
Юра, просто это тема весьма многогранна. И мне, например, очень любопытно, как гуглькар будет вести себя в Москве. У нас, например, line sharing не запрещен… > относительное отличие уверенного, опытного вождения от новичка или лихача. Нет. Это только покажет, насколько человек знает ПДД и их соблюдает — у вас самый высокий балл будет у людей с небольшим, но не нулевым стажем. Кстати, забыли еще тест на чувство габаритов. Уверенное вождение — это еще и хотя бы относительно правильное поведение в сложных ситуациях — это к вопросу, например, о резких торможениях. Вот как такое проверить датчиками — я не знаю пока. А вообще если чуть в сторону — я пару лет назад занимался алгоритмами CPS (Collision Prevention Systems) — правда, для спорта. Есть и бытовые системы, очень советую.
16 июня 2014 в 13:34 Ответить
diseaz
> Уверенное вождение — это еще и хотя бы относительно правильное поведение в сложных ситуациях — это к вопросу, например, о резких торможениях. При уверенном вождении количество резких торможений ниже среднего в силу развитого навыка слежения за обстановкой и предсказания возможных опасностей.
16 июня 2014 в 14:08 Ответить
K0styan
Вот, кстати, меня всегда в тесте Тьюринга смущала некая недосказанность. На протяжении какого времени и с каким количеством собеседников машина должна уверенно выдавать себя за человека, чтобы его пройти? Потому что общаться с одним человеком в течение получаса — это одно. С несколькими людьми, даже не одновременно — да еще в течение недели-другой, в разных контекстах — это уже совсем другая история. Так что если тест проводить так, как его проводят сейчас — то я за второй сценарий. А если тест Тьюринга сделать достаточно строгим (добавив, например, условия типа «на протяжении произвольного времени и с любым количеством собеседников») то он практически станет нереализуемым. А машины тут вообще не при делах. Оценка качества вождения — задача многогранная, но в общем случае решать ее на уровне отдельной машины — странно. Особенно с точки зрения страховой. Вот уж для нее анализ точно должен быть уже с учетом статистики, сбора данных с массы машин (плюс каких-то событий реального мира, типа перекрытий и ремонтов), выделения паттернов и т.п. Хотя, если страховщик задачу поставит как «найти повод поднять стоимость» можно и вообще без интеллекта обойтись. Больше 10 экстренных торможений в год — вешаем ярлык «неаккуратный водитель» и не колышет.
16 июня 2014 в 15:00 Ответить
dima5ty гасконец
> Бывают, конечно, сложные системы. Я где-то видел забавную инфографику (которую не могу теперь найти > высокоинтеллектуальным поиском по вебу), согласно которой программы, управляющие self-driving автомобилями, > по количеству условий сравнимы с мозгом крысы. И если это хоть сколько-нибудь правда, пусть и с натяжками, > то это само по себе — огромное достижение. Афтар жжёт. Мозг крысы обычно сопоставляют с размером нейронных сетей. И да, в нейросетях нет никаких условий «если». Тупо матрицы гоняют туда-сюда. Надо что-то делать с этим вот аграрным образованием. Про качество водителя прикольно может получится. В айфончиках же полно всяких датчиков, можно все эти данные собирать и с гурами матчить, например :)
16 июня 2014 в 15:04 Ответить
sm-kirpich
Судя по 33% судей, их было трое.
16 июня 2014 в 15:21 Ответить
ak
Афтар жжёт. Мозг крысы обычно сопоставляют с размером нейронных сетей. И да, в нейросетях нет никаких условий «если». Тупо матрицы гоняют туда-сюда. Надо что-то делать с этим вот аграрным образованием. Про мозг крысы особо дискутировать не буду, т.к. оригинал исследования на нашел, и, признаюсь, не помню точно, по какому параметру там было сравнение. Но выглядело, ейбогу, убедительно. А что касается «сетей». А что в них, какое-то волшебство или все-таки каждый «нейрон» — это заданный разработчиком машинный код из достаточно примитивных операций? Кстати, вот в логической операции И или в ИЛИ есть условие? а в побитовой? И, в конце концов, современные нейронные сети, и разное там AI — они на чем работают? На примерно том же типе процессоров и памяти, что у меня в телефоне и компьютере, или на каком-то секретном волшебстве?
16 июня 2014 в 16:48 Ответить
dima5ty гасконец
> А что касается «сетей». А что в них, какое-то волшебство или все-таки каждый «нейрон» — это заданный разработчиком > машинный код из достаточно примитивных операций? Кстати, вот в логической операции И или в ИЛИ есть условие? > а в побитовой? Каждый нейрон — это выбранная передаточная функция. Конфликт (он же батхерт) как бы в пассаже «компьютерные программы — это, упрощенно, наборы инструкций «если () то:». Чем больше инструкций программисты ручками забили в программу, тем больше она умеет» и одновременном опровержении этого в следующих предложениях. А искать место на кремнии, где Вы там хотели что-то обосновать не интересно. Текст прикольный, но безграмотный, к сожалению.
16 июня 2014 в 17:04 Ответить
ak
Если текст безграмотный, то что в нём прикольного? или он прикольный, как котик в смешном костюмчике?
16 июня 2014 в 17:26 Ответить
dima5ty гасконец
> Если текст безграмотный, то что в нём прикольного? Расстояние между смыслом и восприятием :)
16 июня 2014 в 17:57 Ответить
igworx
Прохождение теста Тьюринга — в данном случае, это был отчасти социальный хакинг — судьям было легче списать недостатки английского и несвязность речи на то что он 13-ти летний мальчик с украины («легенда» этого «AI»). По поводу страховки и оценки вождения — не увеличение страховки, а уменьшение премиума (сколько платишь за страховку); и оценивать качество вождения вовсе не надо — задача формулируется по-другому — как, используя данные акселерометра и, возможно, gps приблизительно оценить вероятность попадания в аварию в течение года- причем точное предсказание не нужно, если предсказывать чуть лучше чем рандомный предсказатор, (читай-подбрасывая монетку), можно заработать некоторое количество денег. http://www.boston.com/business/technology/2012/09/15/progressive-other-insurers-offer-slash-rates-you-let-them-monitor-your-driving/C09d0SHbFwUV36StH4YmzL/story.html
17 июня 2014 в 21:57 Ответить
Erjemin Sergei
А между тем без всяких там сложных программ уже сейчас довольно справедливо оценивают стоимость страховок. Таблица Бразиса заменяет сложнейшие алгоритмы, а справочник коэффициентов (всякие там Гразгофы-Прадли и т.п.) с успехом заменяют вычисления которые даже на современных супер-компьютерах требуют дней процессорного времени.
21 июня 2014 в 10:43 Ответить
Альтер Эго
Еще не вечер…Женя это только начало…))) А то что таблицы и логарифмические линейки удобны во многих случаях с этим не поспоришь…

Важное

Обсуждаемое