Уважаемый Alter Ego, к сожалению, я работаю в другом отделе и не могу по-существу ответить на ваш вопрос. Однако, если вы не шутите, и вас правда это волнует, запишите подробно, со всеми деталями вашу теорию про евреев и мотоциклистов. После отправьте на адрес support@yandex.ru с обратным адресом, свою национальность указывать не нужно. Там работают серьезные люди, они обязательно направят вам фидбек.
На всякий случай замечу, что история с проектом Wonder никак не связана с поисковыми интеграциями и текущим соглашением. Я сам не имею отношения к разработке Wonder и не могу прокомментировать по существу, но я предполагаю, что пресс-служба вряд ли раскроет подобную информацию по запросу.
Понятие «российский Фейсбук» условно и неоднозначно, но выделение части фида из всех апдейтов должно иметь физическую реализацию. Сейчас правила выделения реализованы Фейсбуком, главным образом, на IP адресах с некоторыми эвристиками для перемещающихся пользователей. Таким образом, русскоязычные пользователи из США, как правило, не будут индексироваться. Кроме того, возможны некоторые ошибки точности и полноты при реализации фильтра. Посты на необычных для наших рынков языках могут встречаться, но ожидать какой-либо полноты, скажем, по армянскому Фейсбуку — не приходится. Кроме того, в различных продуктах Яндекса, которые используют данные Фейсбука, могут быть включены дополнительные языковые фильтры.
На самом деле, все несколько сложнее. Гугл, Яндекс и Бинг давно занимаются свежестью и время от времени пиарятся на эту тему, Гугл в последний раз осенью 2011. Обходить, индексировать и выкладывать на поиск за минуту умеют и Гугл, и Яндекс, но это только небольшая часть дела. Гугл у старых морд подписывает дату обновления. Не совсем понятно, зачем это нужно пользователю, но PR эффект, как мы видим, это имеет ;) Самое сложное — ранжирование, т.е., во-первых, нужно понять, что запрос подразумевает свежие ответы в большей или меньшей степени, также нужно найти самые главные свежие материалы по запросу. Ситуация осложняется тем, что сигнала для ранжирования свежих документов меньше, чем для старых. А текст документа, особенно по широким запросам, не сильно влияет на ранжирование. Т.е. есть некоторый миф про поисковики: достаточно проиндексировать текст документа и выложить его на поиск, и все будет в шоколаде, он начнет находиться. Но на самом деле это верно только для очень-очень длинных (узких) запросов.
@dwertys У меня была более сложная логика: можно руководствоваться прагматическими соображениями (даем порно тем, кто его спросил, не даем тем, кто расстроится, не нарушаем законодательство и пр.), а можно идеалистическими «порно должно быть» или «порно быть не должно», а дальше хоть трава не расти. Оригинальный пост пропитан идеалистическим подходом «порно есть и все», а если детям плохо, то не водите их вконтакт. Существует альтернативная «идеалистическая» позиция — на Youtube.com порно быть не должно совсем. Интересно, а мог бы вконтакт пожертвовать зрителями порно также легко, если бы его идеалистическая позиция была бы другой?
Мне лично кажется, что можно было бы потратить некоторое дополнительное время программистов и модераторов рекламы ВКонтакте на уменьшение вероятности увидеть порно для тех, кому не стоит его показывать. Автоматическая классификация, настройки какие-нибудь, автомат по возрасту. Никто же не просит идеального решения «либо порно нет совсем / либо оно есть везде». И еще интересный вопрос: при 10% процентах роста в 2 месяца от детей отказаться можно себе позволить, а от тех, кто ищет порно ВКонтакте? Тоже можно или уже кусается?
@78ds — насчет того, есть ли номинанты на премию Дарвина? Вот текущие аукционы доменов .ру на WebNames, 301 домен http://www.webnames.ru/auction/closing.pl?searchstr=&order=name&filter= Вот здесь написано, что уже зарегистрировано более 12 тыс. русскоязычных доменов. С другой стороны, они могли иметь в виду .рф. Но RU-CENTER, наверняка, зарегистрировал уже сильно больше 12 тыс., поэтому, видимо, имеются в виду именно фальшивые домены. http://iclient.ru
Alter Ego Я поделился своим пониманием проблемы, постарался проиллюстрировать, но не хочу ничего доказывать. Есть случаи, когда нужна супер-свежая информация, их, скажем, 0.1% от потока, это — очень много, если учесть, что в день к Яндексу 100mln запросов. Однако, нужно не забывать про остальные 1.9% потока, которым нужно свежее, но не нужно супер-свежее. Идея «чем свежее, тем лучше» исходит из предположения, что ситуация все время развивается, постоянно появляется новая информация, более поздние сообщения исходят из более полного кол-ва данных. Но оказывается, что для большинства событий и свежих запросов это не так. Ситуация существенно НЕ развивается. А более свежее — это тормозные перепечатки старой, уже известной информации в блогах или вторичных СМИ.
Alter Ego Ох, ну что же вы заставляете расжевывать, я и так уже слишком много букв написал. У меня основное занятие — работа со свежими запросами, а вы думаете, что я не догалался о факте их существования? В типичный день в потоке есть 1-2% свежих запросов, люди ищут что-то про события, которые произошли в среднем 4-5 часов назад, документ «минутной свежести», как правило, не более релевантен, чем документ 2-х часовой свежести (см. повнимательней выше). Вероятность того, что релевантный событийному запросу документ загружен минуту назад, можно оценить как 1.5%*(1/4.5*60) = 1/18тыс. Это, безусловно, больше, чем 1/2.5млн, но пользователи все равно будут крайне редко сталкиваться с супер свежими результатами, и PR-задача не будет решена.
Alter Ego Ну, во-первых, это режим, который случайно может оказаться кому-то изредка полезен. Запускать нужно еще и потому, что аналогов почти нет. Машина определить не сможет, что именно нужно и по каким запросам, люди будут тыкаться, кто-то случайно что-то ценное прочитает. Во-вторых, это — отличный PR свежести. Т.е. Гугл показывает пользователю, что он умеет быстро доносить документы до поиска. Без специального режима (развития сортировки по дате), пользователь бы этого не увидел. Ибо встретить супер-свежие результаты естественным образом в релевантной выдаче — маловероятно для пользователя. В 5 годах — около 2.5 млн. минут. Представим себе вероятность того, что релевантный документ был загружен в последнюю минуту. Как часто на обычной выдаче мы будем видеть надписи X sec назад?
Царь Я просто показал, что в одну и ту же секунду Гугл может показывать две совершенно разные выдачи по одному запросу (до и после F5). Если бы они осознавали какую-то конкретную потребность пользователя в этом месте, они бы сделали метрику, а потом постарались бы показать оптимальный набор документов, максимизирующий метрику. Альтернативный подход: «если не знаем, что нужно, давайте покажем что-нибудь. Только, чтобы мигало и крутилось». Я тут совершенно не осуждаю авторов, наоборот очень даже понимаю: почему и зачем это было сделано. ;)
Alter Ego, спасибо за ссылки и постановку проблемы. Хочу сказать, что все немного сложнее. Во-первых, по «свежему» запросу про какие-то только что произошедшие события старые документы (т.е. написанные ДО события) — не просто менее важные, они — вообще нерелевантные. Если после события про него написали блоги и СМИ, например, (1) Твиттер, 13:00 — «Кенни умер. Кайл — 3 min ago», (2) Lenta.ru, 15:31: «В американском South Park-е погиб подросток Кенни» с обстоятельствами, комментариями полиции и очевидцев, заявлениями госдепа. (3) Твиттер, 16:40 — «Они убили Кенни, сволочи! Картман — 5 sec ago» (4) pupkin.livejournal.com, 16:50 — «Опять в этом South Park убивают этого Кенни, во всех новостях, надоело про это читать» По запросу «кенни» или «убили кенни» после 13:00 нужно показывать Твиттер (1). Причем, в ближайшие два часа, скорее всего, будет много твитов про Кенни по всему миру, неправда, что они лучше, чем (1). После 15:30 нужно показывать (2) Lenta.Ru В 16:40:01 нужно показывать (2) Lenta.Ru, даже, если твит Картмана супер-свеж (5 секунд назад) В 16:50:01 нужно показывать (2) Lenta.Ru, и немного livejournal.com в рамках предоставления не только официальной информации, но и мнений людей. Это — не полная или точная инструкция, а примеры того, что «более свежее не обязательно означает — лучшее». Real-Time serp — это попытка отранжировать одновременно по свежести/релевантности, он выдает не все, что есть свежего. Выбор приоритета, как правило, почти случаен, именно поэтому по БОЛЬШИНСТВУ запросов, однако, с небольшими ВАЖНЫМИ исключениями, — это игрушка. Например, откройте Real-Time serp Гугла, подождите 2 мин и нажмите F5, список документов и Твитов полностью изменится: какой из двух списков был наилучшим для пользователя в момент перегрузки страницы?. Если посмотреть в код, то видно, что Гугл грузит скриптом по 5 твитов, потом их полминуты дозирует, выдавая по-одному, создавая красивый визуальный эффект. Я предполагаю, что его разработчики не относятся к изделию сверх-серьезно, однако, снаружи это не говорится.
Действительно, поиск по блогам Яндекса научился выкладывать на поиск ЖЖ, Твиттер и другие блоги за минуты-секунды. Большую часть подобной информации он качает через технологии типа Streaming API. Однако, это совершенно не означает, что мы не собираемся сокращать задержку в основном поиске до тех же секунд. В большом поиске очень важной и сложной задачей является правильное ранжирование свежего. В ППБ основная выдача идет с сортировкой по времени, поэтому такой проблемы нет.
Привет, я занимаюсь свежестью в поиске Яндекса, хочу прокомментировать этот удивительный инсайд. Он как бы в тему, но демонстрирует некоторое непонимание фактов таинственными сотрудниками поискового отдела. Тут не просто сформулирован вопрос, а неявно сделано несколько препозиций. 1. В Яндексе сейчас нельзя найти свежие записи из ЖЖ. 2. Real-Time search у Гугла — это такая технология, которая позволяет быстро индексировать сайты. 3. Калифорния полгода назад закончила разработку аналога Real-Time search. 4. Но Яндекс его не внедряет. 5. Потому, что не хочет. 6. Если бы внедрил, ЖЖ сразу попал бы на выдачу. Для тех самых коллег отмечу только, что почти все предположения — неверные. В остальном можно сказать, что мы занимаемся свежестью, у нас была недавно пара запусков, и обязательно скоро будут еще. И всеми доступными нам замечательными технологиями мы распорядимся наилучшим образом! ;)
В Яндексе на позициях без должности работают люди, которые до этого были примерно техническими директорами или руководителями разработки небольших компаний, таких примеров очень много. Они получают вполне устраивающие их зарплаты + неожиданные бонусы. Область ответственности при переходе в Яндекс с одной стороны сужается (человек перестает решать все задачи), но эффект от их деятельности вырастает несоизмеримо. Любой даже небольшой проект Яндекса по трафику и известности сильно больше среднего проекта в рунете. Начальство очень вменяемое и разумное, что не везде бывает, коллеги умнее тебя, что тоже ценно и приятно. Иногда люди уходят по самым разным причинам — либо их увольняют потому, что дела не делаются, либо им нужна сильно большая зарплата в ущерб комфорту, хочется строить свое дело, либо ездить неудобно или еще чего-нибудь личное. «Текучка» в 1% или меньше — это норма. После ухода из Яндекса человек, который поработал в ядре какого-нибудь важного проекта, может быть «золотым» для другой компании, хотя бы как консультант. Естественно, люди остаются в бизнесе, идут в Рамблер или в Мейл. Очень часто можно рассчитывать на рост зарплаты, должность и расширение ответственности. Причина ухода чаще связана не с наличием нового предложения, большинство людей, которые остаются, понимают, что оно всегда есть…
А еще за две недели до этой истории они выложили всезапрещающий robots.txt, который одномоментно срубил почти все урлы из индексов поисковиков. «Выпил яду, надел петлю на шею и пустил себе пулю в лоб…» Чем-то становится похоже на изощренную целенаправленную диверсию.
Дискуссии пользователя
Уважаемый Alter Ego, к сожалению, я работаю в другом отделе и не могу по-существу ответить на ваш вопрос. Однако, если вы не шутите, и вас правда это волнует, запишите подробно, со всеми деталями вашу теорию про евреев и мотоциклистов. После отправьте на адрес support@yandex.ru с обратным адресом, свою национальность указывать не нужно. Там работают серьезные люди, они обязательно направят вам фидбек.
На всякий случай замечу, что история с проектом Wonder никак не связана с поисковыми интеграциями и текущим соглашением. Я сам не имею отношения к разработке Wonder и не могу прокомментировать по существу, но я предполагаю, что пресс-служба вряд ли раскроет подобную информацию по запросу.
Понятие «российский Фейсбук» условно и неоднозначно, но выделение части фида из всех апдейтов должно иметь физическую реализацию. Сейчас правила выделения реализованы Фейсбуком, главным образом, на IP адресах с некоторыми эвристиками для перемещающихся пользователей. Таким образом, русскоязычные пользователи из США, как правило, не будут индексироваться. Кроме того, возможны некоторые ошибки точности и полноты при реализации фильтра. Посты на необычных для наших рынков языках могут встречаться, но ожидать какой-либо полноты, скажем, по армянскому Фейсбуку — не приходится. Кроме того, в различных продуктах Яндекса, которые используют данные Фейсбука, могут быть включены дополнительные языковые фильтры.
На самом деле, все несколько сложнее. Гугл, Яндекс и Бинг давно занимаются свежестью и время от времени пиарятся на эту тему, Гугл в последний раз осенью 2011. Обходить, индексировать и выкладывать на поиск за минуту умеют и Гугл, и Яндекс, но это только небольшая часть дела. Гугл у старых морд подписывает дату обновления. Не совсем понятно, зачем это нужно пользователю, но PR эффект, как мы видим, это имеет ;) Самое сложное — ранжирование, т.е., во-первых, нужно понять, что запрос подразумевает свежие ответы в большей или меньшей степени, также нужно найти самые главные свежие материалы по запросу. Ситуация осложняется тем, что сигнала для ранжирования свежих документов меньше, чем для старых. А текст документа, особенно по широким запросам, не сильно влияет на ранжирование. Т.е. есть некоторый миф про поисковики: достаточно проиндексировать текст документа и выложить его на поиск, и все будет в шоколаде, он начнет находиться. Но на самом деле это верно только для очень-очень длинных (узких) запросов.
Если что, я — Романенко, а не Романенков, второй раз за неделю на роеме :)
@dwertys У меня была более сложная логика: можно руководствоваться прагматическими соображениями (даем порно тем, кто его спросил, не даем тем, кто расстроится, не нарушаем законодательство и пр.), а можно идеалистическими «порно должно быть» или «порно быть не должно», а дальше хоть трава не расти. Оригинальный пост пропитан идеалистическим подходом «порно есть и все», а если детям плохо, то не водите их вконтакт. Существует альтернативная «идеалистическая» позиция — на Youtube.com порно быть не должно совсем. Интересно, а мог бы вконтакт пожертвовать зрителями порно также легко, если бы его идеалистическая позиция была бы другой?
Мне лично кажется, что можно было бы потратить некоторое дополнительное время программистов и модераторов рекламы ВКонтакте на уменьшение вероятности увидеть порно для тех, кому не стоит его показывать. Автоматическая классификация, настройки какие-нибудь, автомат по возрасту. Никто же не просит идеального решения «либо порно нет совсем / либо оно есть везде». И еще интересный вопрос: при 10% процентах роста в 2 месяца от детей отказаться можно себе позволить, а от тех, кто ищет порно ВКонтакте? Тоже можно или уже кусается?
@78ds — насчет того, есть ли номинанты на премию Дарвина? Вот текущие аукционы доменов .ру на WebNames, 301 домен http://www.webnames.ru/auction/closing.pl?searchstr=&order=name&filter= Вот здесь написано, что уже зарегистрировано более 12 тыс. русскоязычных доменов. С другой стороны, они могли иметь в виду .рф. Но RU-CENTER, наверняка, зарегистрировал уже сильно больше 12 тыс., поэтому, видимо, имеются в виду именно фальшивые домены. http://iclient.ru
@trankov, спасибо!
Alter Ego Я поделился своим пониманием проблемы, постарался проиллюстрировать, но не хочу ничего доказывать. Есть случаи, когда нужна супер-свежая информация, их, скажем, 0.1% от потока, это — очень много, если учесть, что в день к Яндексу 100mln запросов. Однако, нужно не забывать про остальные 1.9% потока, которым нужно свежее, но не нужно супер-свежее. Идея «чем свежее, тем лучше» исходит из предположения, что ситуация все время развивается, постоянно появляется новая информация, более поздние сообщения исходят из более полного кол-ва данных. Но оказывается, что для большинства событий и свежих запросов это не так. Ситуация существенно НЕ развивается. А более свежее — это тормозные перепечатки старой, уже известной информации в блогах или вторичных СМИ.
Alter Ego Ох, ну что же вы заставляете расжевывать, я и так уже слишком много букв написал. У меня основное занятие — работа со свежими запросами, а вы думаете, что я не догалался о факте их существования? В типичный день в потоке есть 1-2% свежих запросов, люди ищут что-то про события, которые произошли в среднем 4-5 часов назад, документ «минутной свежести», как правило, не более релевантен, чем документ 2-х часовой свежести (см. повнимательней выше). Вероятность того, что релевантный событийному запросу документ загружен минуту назад, можно оценить как 1.5%*(1/4.5*60) = 1/18тыс. Это, безусловно, больше, чем 1/2.5млн, но пользователи все равно будут крайне редко сталкиваться с супер свежими результатами, и PR-задача не будет решена.
Alter Ego Ну, во-первых, это режим, который случайно может оказаться кому-то изредка полезен. Запускать нужно еще и потому, что аналогов почти нет. Машина определить не сможет, что именно нужно и по каким запросам, люди будут тыкаться, кто-то случайно что-то ценное прочитает. Во-вторых, это — отличный PR свежести. Т.е. Гугл показывает пользователю, что он умеет быстро доносить документы до поиска. Без специального режима (развития сортировки по дате), пользователь бы этого не увидел. Ибо встретить супер-свежие результаты естественным образом в релевантной выдаче — маловероятно для пользователя. В 5 годах — около 2.5 млн. минут. Представим себе вероятность того, что релевантный документ был загружен в последнюю минуту. Как часто на обычной выдаче мы будем видеть надписи X sec назад?
Царь Я просто показал, что в одну и ту же секунду Гугл может показывать две совершенно разные выдачи по одному запросу (до и после F5). Если бы они осознавали какую-то конкретную потребность пользователя в этом месте, они бы сделали метрику, а потом постарались бы показать оптимальный набор документов, максимизирующий метрику. Альтернативный подход: «если не знаем, что нужно, давайте покажем что-нибудь. Только, чтобы мигало и крутилось». Я тут совершенно не осуждаю авторов, наоборот очень даже понимаю: почему и зачем это было сделано. ;)
Alter Ego, спасибо за ссылки и постановку проблемы. Хочу сказать, что все немного сложнее. Во-первых, по «свежему» запросу про какие-то только что произошедшие события старые документы (т.е. написанные ДО события) — не просто менее важные, они — вообще нерелевантные. Если после события про него написали блоги и СМИ, например, (1) Твиттер, 13:00 — «Кенни умер. Кайл — 3 min ago», (2) Lenta.ru, 15:31: «В американском South Park-е погиб подросток Кенни» с обстоятельствами, комментариями полиции и очевидцев, заявлениями госдепа. (3) Твиттер, 16:40 — «Они убили Кенни, сволочи! Картман — 5 sec ago» (4) pupkin.livejournal.com, 16:50 — «Опять в этом South Park убивают этого Кенни, во всех новостях, надоело про это читать» По запросу «кенни» или «убили кенни» после 13:00 нужно показывать Твиттер (1). Причем, в ближайшие два часа, скорее всего, будет много твитов про Кенни по всему миру, неправда, что они лучше, чем (1). После 15:30 нужно показывать (2) Lenta.Ru В 16:40:01 нужно показывать (2) Lenta.Ru, даже, если твит Картмана супер-свеж (5 секунд назад) В 16:50:01 нужно показывать (2) Lenta.Ru, и немного livejournal.com в рамках предоставления не только официальной информации, но и мнений людей. Это — не полная или точная инструкция, а примеры того, что «более свежее не обязательно означает — лучшее». Real-Time serp — это попытка отранжировать одновременно по свежести/релевантности, он выдает не все, что есть свежего. Выбор приоритета, как правило, почти случаен, именно поэтому по БОЛЬШИНСТВУ запросов, однако, с небольшими ВАЖНЫМИ исключениями, — это игрушка. Например, откройте Real-Time serp Гугла, подождите 2 мин и нажмите F5, список документов и Твитов полностью изменится: какой из двух списков был наилучшим для пользователя в момент перегрузки страницы?. Если посмотреть в код, то видно, что Гугл грузит скриптом по 5 твитов, потом их полминуты дозирует, выдавая по-одному, создавая красивый визуальный эффект. Я предполагаю, что его разработчики не относятся к изделию сверх-серьезно, однако, снаружи это не говорится.
Действительно, поиск по блогам Яндекса научился выкладывать на поиск ЖЖ, Твиттер и другие блоги за минуты-секунды. Большую часть подобной информации он качает через технологии типа Streaming API. Однако, это совершенно не означает, что мы не собираемся сокращать задержку в основном поиске до тех же секунд. В большом поиске очень важной и сложной задачей является правильное ранжирование свежего. В ППБ основная выдача идет с сортировкой по времени, поэтому такой проблемы нет.
Привет, я занимаюсь свежестью в поиске Яндекса, хочу прокомментировать этот удивительный инсайд. Он как бы в тему, но демонстрирует некоторое непонимание фактов таинственными сотрудниками поискового отдела. Тут не просто сформулирован вопрос, а неявно сделано несколько препозиций. 1. В Яндексе сейчас нельзя найти свежие записи из ЖЖ. 2. Real-Time search у Гугла — это такая технология, которая позволяет быстро индексировать сайты. 3. Калифорния полгода назад закончила разработку аналога Real-Time search. 4. Но Яндекс его не внедряет. 5. Потому, что не хочет. 6. Если бы внедрил, ЖЖ сразу попал бы на выдачу. Для тех самых коллег отмечу только, что почти все предположения — неверные. В остальном можно сказать, что мы занимаемся свежестью, у нас была недавно пара запусков, и обязательно скоро будут еще. И всеми доступными нам замечательными технологиями мы распорядимся наилучшим образом! ;)
В Яндексе на позициях без должности работают люди, которые до этого были примерно техническими директорами или руководителями разработки небольших компаний, таких примеров очень много. Они получают вполне устраивающие их зарплаты + неожиданные бонусы. Область ответственности при переходе в Яндекс с одной стороны сужается (человек перестает решать все задачи), но эффект от их деятельности вырастает несоизмеримо. Любой даже небольшой проект Яндекса по трафику и известности сильно больше среднего проекта в рунете. Начальство очень вменяемое и разумное, что не везде бывает, коллеги умнее тебя, что тоже ценно и приятно. Иногда люди уходят по самым разным причинам — либо их увольняют потому, что дела не делаются, либо им нужна сильно большая зарплата в ущерб комфорту, хочется строить свое дело, либо ездить неудобно или еще чего-нибудь личное. «Текучка» в 1% или меньше — это норма. После ухода из Яндекса человек, который поработал в ядре какого-нибудь важного проекта, может быть «золотым» для другой компании, хотя бы как консультант. Естественно, люди остаются в бизнесе, идут в Рамблер или в Мейл. Очень часто можно рассчитывать на рост зарплаты, должность и расширение ответственности. Причина ухода чаще связана не с наличием нового предложения, большинство людей, которые остаются, понимают, что оно всегда есть…
А еще за две недели до этой истории они выложили всезапрещающий robots.txt, который одномоментно срубил почти все урлы из индексов поисковиков. «Выпил яду, надел петлю на шею и пустил себе пулю в лоб…» Чем-то становится похоже на изощренную целенаправленную диверсию.