В поиске images.yandex.ru появилась опция "найти похожие". Около каждой картинки из поисковых результатов можно кликнуть на ссылку "найти похожие" и увидеть картинки, которые, по мнению алгоритма, похожи на заданный образец.
Главным критерием похожести пока являются цвет и форма объекта, альты и названия картинок. Поиск похожих картинок работает в режиме бета-тестирования. Вот результат его работы на примере запроса "апельсин".
Интересно, что ссылка "найти похожие" появляется не у каждой картинки. Так, по версии Яндекса, в Интернете немало людей, похожих на Берию и Путина, но нет никого, похожего на Матвиенко и Синодова.
Добавить 19 комментариев
Поискал себя, натурально. Вот набор "похожих картинок": http://images.yandex.ru/yandsearch?text=&rpt=image&like=httpwww.lipka.rugalleryashmanovimg.jpg Очень похоже, что похожесть пока на уровне УРЛа и подписи. Потому что никакой графической похожести увидеть не удаётся. Ну разве что где-то тоже много белого фона. То есть, если и есть там идея графической похожести, то она очень старая, типа "определим порно по наличию телесного цвета".
А что-то лучше телесного цвета для порно придумали?
Вообще я не вижу в этом смысла. говорят про это давно, но это ненужная вещь. Потому что для целей веб-фильтрации технологии анализа текстов на сайте и ссылок — вполне достаточно. Порнографы же хотят, чтобы их находили поисковики, поэтому текст там всегда есть. И используют они совершенно специфическую лексику. Имеющийся у нас веб-фильтр определяет порностраницы с точностью примерно 100% и полнотой 100%.
спросил дизайнера нужна ли ему такая фишка. он сказал, что давно пользуется http://www.tineye.com/
Итак, ищем этой фишкой изображения, похожие на Игоря Станиславовича (ссылка действует 72ч) http://www.tineye.com/search/33ca8757afba8fb510dfc4fabe25ecea927bb165/
Игорь, поиск (и подавление) похожих нужен пользователю, чтобы при поиске по картинкам серп не был бы забит одной и той же картинкой. Обратная ситуация — есть картинка, найти похожие — нужна, как минимум, правообладателям. Как и цитатный поиск. То бишь я никакого принципиального отличия с текстовым поиском не вижу, потребности те же самые.
>Имеющийся у нас веб-фильтр определяет порностраницы с точностью примерно 100% и полнотой 100%. Смотря что считать порностраницей. Скажем, портал с мультфильмами, напичканный баннерной порнорекламой — порностраница? Там специфической лексики нет. Тоже определяет?
А реально ли в обозримом будущем распознавать, что на картинке, на уровне кошка или человек или дом или дерево, ну чтобы искать без текста и без всяких подписей в альтах, ну не все же выкладывают и ищут только порнографию :) Ну и отдельно, что касается именно человеческих лиц, скажем, ищешь фотки с лицом определенного человека, а, может, не все они с подписью, ну там спецслужбы сфоткают кого-то во время каких-то безобразий, и сразу поиском найдут фото с его паспорта, как-то так — может, уже есть какие-то такие наработки, или это практически нереально?
Кстати, очень интересный факт: тестировать поиск похожих многие начинают с поиска похожих на себя. ;) На деле этот случай не такой уж и частый. Если смотреть на всех пользователей поиска картинок, то чаще ищут похожих кошечек, собачек…, виды природы, товары (последние чаще всего). А поиск похожих людей — это уже следующий шаг.
>Ну и отдельно, что касается именно человеческих лиц… Это как раз и делается, и про это есть сколько-то методов, как оказалось, вполне (и м.б. даже лучше) применимых и не к поиску физиономий. А вот найти похожее лицо в коллекции произвольных картинок, среди «разномасштабных и разночисленных кошек и собак»)), понятно, заметно сложнее
Просто офигенный сервис. Поставил в закладки, буду использовать для поднятия настроения. PS: Я что, действительно так на Гоголя похож? Задумался.
Смотря что считать порностраницей. Скажем, портал с мультфильмами, напичканный баннерной порнорекламой — порностраница? Никто не мешает фильтрующему прокси сходить по ссылке под рекламой. А там текста есть в количестве. Наш фильтр так и делает. поиск (и подавление) похожих нужен пользователю, чтобы при поиске по картинкам серп не был бы забит одной и той же картинкой. Лёха, это подавление дублей. Ты сам решал такую задачу для Спамтеста. Сколько там было разных графических сигнатур для отождествления спамерских картинок — 4? Подавление дублей нужно для сервиса, а не для пользователя. А мы говорим о кнопке «Похожие», которую нажимает пользователь. Под которой как бы ничего похожего. Обратная ситуация — есть картинка, найти похожие — нужна, как минимум, правообладателям. Как и цитатный поиск. Во, это, оказывается, обратная ситуация. А ведь её-то мы и обсуждаем. Потому что как там давятся дубли на этапе ранжирования и показа — это дело поисковика, к кнопке «Похожие» отношения не имеет. Ну хорошо, пускай это для владельцев картинок и правообладателей. Которых среди аудитории хорошо если 1%. Ищем логотип Кока-Колы и похожие на него: http://images.yandex.ru/yandsearch?text=-&rpt=image&like=httpvipoboi.ucoz.ru_ph5599284264.jpg ну… типа… наверно, всё-таки по урлам…и подписям… Особенно доставляет вторая и следующие страницы: http://images.yandex.ru/yandsearch?p=1&text=-&rpt=image&like=httpvipoboi.ucoz.ru_ph5599284264.jpg Вообще поиск логотипов давно в сети есть и работает он вроде лучше. Но в принципе, это идея для очередного анализатора, да.
Ну я собственно о том, что имея работающий поиск дублей (качество конкретной реализации не хочу обсуждать), который работает по сигнатуре — грешно не прикрутить ту самую «обратную ситуацию». Наверное, даже меньше чем 1% нужную, ну так и цитатный поиск тоже мало кому нужен.
Второму альтер эге Да, вполне реально. Более того, такое распознование уже встроено в некоторые программные продукты вроде фотокаталогизаторов (самый известный пример — гугловская Пикаса). Точность пока не очень, но уже и не игрушка, весьма помогает тегизировать снимки.
Подсолнухи и водку ищет отлично :)
renat, спасибо за пояснение
buzik, и Вам спасибо, сорри, не сразу заметил
2Ashmanov: Задачи подавления дубликатов в поиске изображений не стоит. Стоят другие задачи: — группировка дубликатов для а) увеличения разнообразия выдачи, б) улучшения точности поиска; — расклеивание дубликатов, если пользователю надо а) получить найденное изображение другого размера, б) почитать про картинку на разных сайтах; — для еще целой кучи задач поиска (и не только изображений ;) 2lexa: Правообладателям похожие не нужны, а нужны как раз дубликаты в самом широком их понимании: от точных копий, до картинок, полученных кропом, ресайзом, изменением пропорций, коррекцией цвета, добавлением всяких рамок, водяных знаков, фотожаб, коллажей и т.п. — всех тех преобразований, которые творят вебмастера, чтобы втиснуть картинку в свой сайт.
судя по всему поиск идёт по гистограмме