Здесь не одна ситуация, а несколько связанных ситуаций (что, в общем, обычное дело), каждую из которых надо оценивать по разному.
1) Сотрудники Яндекса проявили «нелояльность».
При этом многие на форуме оценивают срач в чатике по человечески как недопустимый. Я также это оцениваю, «по человечески».
Однако, является ли это (юридическим) основанием для увольнения — юридического действия — весьма непонятно.
2) Допустим является, однако работодатель имеет право уволить (например, за однократное грубое нарушение), но увольняемый тоже имеет право оспорить в суде.
Насколько я слышал, в РФ уволить кроме как по «собственному желанию» очень сложно, если увольняемый этого не хочет. В смысле приходится собирать серьезную доказательную базу.
Суды массово восстанавливают на работе, по сути именно из-за отсутствие такой «чистой доказательной базы».
И тут уже много раз обсудили, что «чистота» обвинений Яндексом сотрудников с юридической точки зрения, как минимум, сомнительна, как максимум — незаконна (недавно на Гугл наехали, что он автоматически(!) читал почту, а тут «изучили компьютеры»).
3) Думаю, в Я. все это понимают, поэтому и официальная формулировочка была «по соглашению сторон». Понятно, что среди увольняемых мало профессиональных сутяжников, поэтому им свою карму при устройстве на следующее место работы тоже портить не хотелось.
4) Казалось бы история закрыта.
НО!
Но тут Яндекс начинает орать, что УВОЛИЛ за разглашение КТ.
Смысл в этом — только в попытке придавить недовольство внутри компании.
Это глупость несусветная.
Официально уволили то «по соглашению сторон». Если не смогли уволить по статье, то нечего и поливать грязью в СМИ.
О чем и на форуме говорят, да и увольняемые могут подать в суд на моральный ущерб.
5) Вообще, сигналов все больше, но как-то не принимают люди во внимание, что переход к «западной» «демократической» (от «советской» «феодальной») корпоративной культуры неминуемо должен сопровождаться ростом судебных разбирательств. Хотите работать как в Европе и ли Америке — будьте готовы судиться как в Америке. Тем более, что нормы трудового права серьезно отстают от западных (см. тезисы г-на Прохорова).
6) Что в итоге.
Такое ощущение, что в Я. нет единого органа, который быстро и адекватно может реагировать на ситуацию. От ошибок никто не застрахован. Но можно же быстро признать (покаяться :) ), объяснить и исправить. Некоторая вонь и после этого останется, но непринципиальная (см. случай с Навигатором).
А Я. ступит иной раз в д***мо, а затем еще и подпрыгивает.
Почему комментарий Alexander Rechitskiy не лучший?
Пресловутое яндексовское NDA и близко не стоит с законодательством РФ.
Увольнение по причине нарушения NDA — о чем широко объявлено — может быть оспорено в суде, всех придется восстановить.
Если, конечно, всех не запугали и они написали «по собственному».
«Коммерческая тайна» — любой факт коммерческой тайны («сведений, составляющие коммерческую тайну») должен был быть задокументирован.
Сильно сомневаюсь, что так было сделано.
Про компьютеры сотрудников и их переписку — это вообще уголовная статья — без постановления суда. Как пишут, даже органы сначала, конечно, залезут, но все это неофициально, а затем оформят в суде и найдут «рояль в кустах».
И про бывших — они вроде были «консультантами» проданного ими сервиса, то есть как бы работали в рамках Яндекса. Увольняемые сотрудники «могли и не знать» — их кто-то известил о прекращении отношений Яндекса с бывшими работодателями — да и были ли формально прекращены эти отношения?
RBC от 13.10.15(!) http://rbcdaily.ru/media/562949997644106: «…Формально основателей сервиса оставили в качестве консультантов, говорит Суханов, но в итоге никто с ними не советовался: …»
>> 2. Что делать с мировым рынком?
> Ничего. Нет шансов.
Я не специалист в этом, но IMHO это наоборот разумная стратегия.
Как говорят люди, побывавшие там-сям, поисковые рынки в разных странах существенно разные — Россия, Вьетнам, Турция, Германия, Чехия, Китай, США.
И если высадить стартапы с мощной технологией в большем количестве стран, то из них что-нибудь может и взрасти. Найдутся люди, которые где-нибудь провернут не один, а несколько трюков типа как в Турции с футбольными болельщиками.
Гугл не сразу реагирует, направляя доп.ресурсы на борьбу за рынок далеких стран. Да и выручка в валюте…
Обсуждение в топике лишний раз подтверждает классическую ситуацию проблем компании при бурном росте.
Компания давно уже становилась, становилась и практически стала «корпорацией», что требует классических элементов управления, включая таймшиты для всех, скоринги и прочие радости.
Конечно, для разработческих компаний рекомендуют иметь отдел (несколько выделенных отделов), существующих мимо скоринга, где разрешен дух стартапа. А все остальные — к станку.
Яндекс просто долго сопротивлялся этому, к сожалению, общему для всех пути. И Сегалович как раз в последние годы выглядел лицом стартапа, а за его спиной уже было «лицо» стандартной бюрократии.
>> Яндекс стал специально нанимать значительно больше людей чем было нужно для бизнеса.
> Это вам все лично Сегалович рассказал? Поделитесь источниками этих инсайдов?
Именно Сегалович в 2010 году, в ответ на вопросы про странное дублирование задач в слабых командах в Яндексе. Даже пытались обсуждать что делать с (лишними) кроликами.
Результат тогда был странный (для меня), так как ничего Сегалович не мог сделать — текущие в то время держатели кроликов просто его послали.
Дальше степень странности в Яндексе только нарастала.
Сегалович сам создал корпкультуру, сам же ее и разрушил.
Это когда начался бурный рост, Яндекс стал специально нанимать значительно больше людей чем было нужно для бизнеса.
И делалось это целенаправленно — и для обеспечения устойчивости (длинной скамейки) и для того чтобы «выжечь рынок труда» конкурентам, и для того чтобы создать массу сервисов и для иллюзорной цели создать неизвестный мега продукт.
Все было очень цинично — для кроликов была устроена эволюция по Дарвину.
Но уволили не всех проигравших, а только часть (жгли дальше).
При этом не справились с сопутствующим беспорядком. В Яндексе надолго поселился дикий бардак, мелкотемье, одновременно несколько «глав отделов поиска» (старающихся не замечать и не взаимодействовать друг с другом).
Когда надо было решать какую-нибудь задачу, оказывалось что уже есть пара групп, которые ее уже решают, причем, кажется, даже не стараясь (не в состоянии) ее решить.
В общем классический советский НИИ позднебрежневской эпохи.
От старой культуры при этом оставался внешний личный энтузиазм Сегаловича и энтузиазм зажигаемых новых кроликов.
При этом (что роднит Яндекс с советскими НИИ и вообще с госструктурами), если надо было что-то с Яндексом подписать, то на бумаге было значительно более чем десятка согласующих подписей (в министерствах меньше).
Надо отдать должное, то что было, то заточили, оптимизировали отъем денег.
Однако с новым — из того, что видно — мобилками, Турцией, своей операционкой — либо не сложилось, либо все это является бедным родственником. Нет прежней агрессивности.
И это при огромном количестве кроликов.
У меня рецептов нет — смотрю со стороны, но может быть почистить/расчистить временно (Парахин как Сердюков), не самая плохая идея.
1) спасибо за ссылку, интересно, да и Маннинг, в отличие от многих, старается разобраться в явлении
2) однако, предмет дискуссии от этого не меняется.
Сравнения нового и старого, если я правильно понимаю, приводятся на страницах 72,73,122,130,138,156,175. Это в таблицах, есть еще графики.
Что же мы видим. В достаточно экзотическом комплекте задач в 90 % случаях есть незначительное улучшение. В 10% в приведенных данных есть определенное улучшение.
Хотя часто встречается мнение, что basic line надо бы проверить — не низковат ли?
Никто ведь не спорит, что фича полезная. И вообще возврат из незаслуженного забытья нейронных сетей это неплохо.
Фича полезная, но это ведь только одна из фич, были «революционные» LM, PLSI, LDA, теперь новая реинкарнация NN.
Все нашли свои ниши, но это только ниши.
Прогресс есть, а где искусственный интеллект?
Значимый результат есть в распознавании речи и изображений (обратите внимание — огромное количество примеров). На этом можно строить бизнес, кто же против.
Забавно, когда об искусственном интеллекте рассуждает менеджер.
Машинное обучение — это решение задачи отделимости двух множеств — хорошего и плохого — на основе множества обучающих примеров.
Для задач с большим количеством обучающих примеров и «хорошими» множествами замечательно работал SVM.
Для задач с большим количеством примеров и изрезанной границей лучше работают нейронные сети с deep learning.
Для обработки текстов DL не дает значимого улучшения.
Существует куча задач, где нет большого количества хороших (непротиворечивых) примеров. Там все методы машинного обучения работают плохо.
В большинстве корпоративных задач машинное обучение не применяется — в смысле применяются «инженерные» методы.
Приход искусственного интеллекта вот прямо сейчас — это «приход» — голимая реклама.
Ваш ресурс — это сборище региональных источников.
Возможно, что подключение приличных центральных издательств столкнется с трудностями — вроде несколько лет назад всех монополизировали (Шустерович(?)).
На самом деле у Вас есть некоторая интересная ниша — региональность.
Конечно, математика, физика-химия, компьютерные науки не имеют границ, и здесь у региональных вузов мало шансов.
Однако, география, геология, биология/экология, экономика, социология, политология, даже медицина, вполне региональны.
Насколько я понимаю, федеральные структуры всегда имеют интерес к лучшему понимаю того, что происходит в регионах (понимают они плохо — видят всегда одну сторону, предъявляемую текущей правящей в регионе элитой).
Собственно, это Ваше естественное конкурентное преимущество и можно/нужно проталкивать.
Вам ещё непонятно почему государству НЕОБХОДИМО поддерживать такие проекты как Киберленинка?
Пока не понятно. Если источники сделали свои ресурсы доступными для КиберЛенинки.
Почему бы не сделать их доступными для Яндекса, Гугла и Бинга?
Прежде всего для GoogleScholar?
И получаем сервис ничуть не хуже.
Если Вы так печетесь о государстве — так оно на этом сэкономит.
А то что мы делаем выгодно прежде всего государству ;) а значит в том числе и вам! Хотя бы потому, что сейчас государство платит дважды — один раз за написание научной статьи (в рамках любого проекта под гос. финансированием, вот например вы, за 20 лет наверное ого-го статей написали), а потом еще раз за доступ к этим же статьям.
Если Вы считаете, что это нужно государству — убедите его в этом. Идите в министерства, запускайте тему и т.д.
Беда в том, что у Вас пока только общие аргументы.
С формальной точки зрения — доступ осуществляется не «к тем же статьям», но к избранным, тем самым, если за плату, то эволюционно поддерживаются как-бы только качественные издания.
Интернет многое меняет, и сейчас на Западе идет интересный колебательный процесс выбора модели развития между платными и бесплатными журналами. Но в любом случае государство здесь не при чем.
Хотя, допускаю, наглая ложь — лучший способ развести чиновников. Но самому-то лучше понимать реальную картину
И Вы понимаете — там все приходящие говорят то же самое?
И опять же прозрачность науки, экспертиза ее.
Вы удивитесь, но есть обычные библиотеки, где все есть (ГПНТБ или БЕН).
(Я шучу, полагаю Вы все хорошо знаете).
Если народ туда не ходит, то не настолько уж нужна эта «прозрачность».
В смысле текущий уровень прозрачности всех устраивает.
Ну и про плагиат можно поговорить, представляете, весь объем статей доступен для индексирования любым заинтересованным структурам.
Плагиат в статьях довольно редок. Кроме того это просто поднимет цены на рерайтинг.
Кстати, Вы, надеюсь, знаете, что ВАК не лишает степени уличенных в плагиате без специального заявления. Так что диссернет работает-работает, а ВАКу наплевать.
И это только часть «плюшек» для организации эффективного научного процесса. Есть еще много всего, уже со стороны ученых, коллаборации, междисциплинарных исследований, популяризации русскоязычной науки и проч. и проч.
Вопрос объема. GS полезен, MS Academy уже значительно хуже. КиберЛенинка в этом контексте не может быть воспринята серьезно.
Что убеждать — просто сделайте, если это возможно при вашем охвате то, о чем говорите.
Хотя бы внятно сформулируйте. Хотя бы на языке заявок в фонды — и выбивайте ресурсы у государства.
Про анонимность — чужды мы этой дешевой популярности.
В целом про Ваш сайт. То, что я на нем видел, скажем прямо — в основном барахло. Огромный процент низкокачественных статей из низкокачественных источников. Надо сильно постараться найти что-то приличное. На мой взгляд сейчас годится только для предварительного, вроде студенческого реферата, ознакомления с неизвестными областями.
Типа ознакомился, потом полез на GS читать по английски более стоящее.
Но все-таки какая-то полезность. Возможно, это унавозит почву для региональной науки лет через 10.
Пока же надо получить более качественный контент.
Если здесь есть ограничения, то это потолок, и надо переходить на другие типы данных, развивая технологии.
Как уже писал — естественным для вас является движение в сторону библиотек технической документации.
При этом Вы должны понимать, что уходя с поля некоммерческой деятельности, где Вы молодец потому что решили оргвопросы, Вы вступаете в поле конкурентной борьбы.
Здесь у Вас нет пока особенных преимуществ. Все, что у вас есть можно собрать из свободно доступных компонент.
На конкурентном рынке все выживают за счет отдельных изюминок, отличающих от других.
Условно говоря, не только я, но и все мои конкуренты могут достаточно легко технологически сделать аналог вашего сайта.
Ну что же, Cyber Lenin, в чем-то мы близнецы братья.
Есть лицензии — это правильно.
Кстати мы умеем делать некоммерческие проекты, делали, и тоже лицензии получали — люди под хорошее дело обычно идут навстречу, но уж очень утомительно.
Я конечно тронут Вашей заботой по поводу моих результатов, но они какую-никакую экспертизу проходят — у меня более 100 опубликованных работ.
В GS, даже в e-library большинство доступно.
Это кстати, возвращаясь к теме поста, некоторый сигнал о Вашем собственном восприятии своей собственной значимости.
Я имею в виду то, что Вы не особенно хорошо чувствуете своего пользователя.
Вам нужны какие-то другие аргументы. Я свои рекомендации уже излагал, но, возможно (скорее всего), я не типичный пользователь.
Я мог бы попробовать всерьез покритиковать все Ваши аргументы, к сожалению, они все «битые» — неглубокие. Но пока Вы вещаете лозунгами о своем моральном превосходстве…
Вы наверное не очень поняли, деньги — это не самоцель. Мы умеем зарабатывать деньги, иначе бы у нас бы их просто не было чтобы тратить на КиберЛенинку и еще жить на что-то.
Это классический случай «А поговорить?»? Так-то, чувствую, мы у Вас должны учиться. :)
Нам интересно увидеть как общество и государство откликается на общественно-полезный проект. Ну кроме его потребления. Это, знаете, как маркер нужности и, при его наличии, здоровья этого общества.
Так это философский вопрос о смысле жизни?
На мой взгляд, лучше ограничиться простым и ясным критерием — если проект кому-нибудь нужен, то за него платят деньги.
Иначе, везде можно найти пятна.
Например, в КиберЛенинке есть интересный вопрос с авторскими и имущественными правами. То что вы делаете, кому-то выгодно, а кому-то наоборот.
Так что, если обострить вопрос, то в «здоровом обществ» Вы должны сесть в тюрьму.
Если у Вас, конечно, есть разрешение от правообладателя имущественных прав и авторов, то я не прав. Но что-то говорит мне, что нет у Вас таких бумаг.
Несколько лет назад Компьютерра устраивала опрос, как люди добывают деньги. По результатам было выяснено, что люди легко рассказывают о неудачных проектах и крайне неохотно об удачных.
Лень копаться глубоко, но гранты последнего времени РНФ, были выданы вполне достойным людям — кого я знаю (дикое количество статей в зарубежных журналах, не говоря о ВАКовских).
Я сам видел примеры (и проигрывал неоднократно), когда шел явный (и даже наглый) распил. Но все распилить нельзя.
Процентов 50% они должны выдавать честно.
Более того, мне тут пару лет назад предлагали поучаствовать в распиле (гарантировать победу). Но в любом случае работа стоит своих денег — вы определяете свои расходы, пильщики накручивают свое сверху.
Хочется — можно с этим бороться, обгонять скорость звука. Мы предпочитаем делать свое дело.
To: Cyber Lenin и Глеб Суворов.
Не хотите — не слушайте, страдайте от непонятой любви.
Нашему вполне научному проекту уж больше 20 лет.
Финансирование обеспечивается примерно на год вперед каждый год.
В прошлом году на 10 человек миллион евро (в рублях). В этом году будет уже есть примерно столько же, к сожалению по прежнему в рублях, но евро убежал…
Деньги на 80% государственные.
Так человек, не добившийся успеха со своим стартапом, может сразу написать, что весь бизнес — имитация.
Речь идет о том, что выделяются реальные деньги. И кто-то их получает (не я, но я знаю людей получающих — как минимум 50% достойных — не 100%, конечно).
Кстати, про КиберЛенинку. Я (и, наверное, не только я) могу запустить такого рода проект в полгода (в смысле есть все и даже больше использованных в КиберЛенинке технологий). Но я же не запускаю. Потому как не окупится долго. Или надо искать принципиальных спонсоров. Проще заниматься другим.
«Никогда не забуду как на одном из экспертных заседаний в околонаучном фонде вставали профессора и говорили, что «вот этому проекту надо дать денег, потому что у него папа заслуженный бла-бла-бла … «.»
Такое есть, но не все так просто.
Ясно, что когда ученый выдающийся и заявка написана прекрасно, то легко дать ему денег. Проблема в том, некоторые люди до сих пор не умеют писать правильные заявки, а некоторые умеют писать заявки слишком хорошо.
То есть заявка отличная, но сделано ничего не будет. Либо совсем, либо все уже сделано и идет «вторичная продажа».
Поэтому велика роль экспертных оценок. Ну а эксперты, конечно, особо любят друг друга. Но это опять же бизнес — надо входить в состав экспертов.
Да, на это потребуется время, и надо будет дожить. Так это и есть эволюция по Дарвину — не приспособленные умирают. По Дарвину выживают не самые умные, не самые сильные, но приспособленные.
А в конкретном случае. Если эксперты сравнивают проекты маленькой никому не известной команды, которая неизвестно — будет ли жить через полгода, и «династии», которая может быть будет жить и в следующем поколении, то это вполне значимый фактор оценки.
То есть сама по себе экспертиза проектов устроена вполне разумно. Беда только в том, что экспертов надо постоянно менять, а где их взять-то в нашей маленькой стране, где все сосредоточено в Москве и все друг друга знают?
Кажется, существует огромное количество материалов про стартапы. И во всех написано, что сначала надо подумать о монетизации, а затем уже о разработке.
В любом случае, деятельность НКО это тот же бизнес с определенными особенностями. В смысле без прибыли. Однако большинство обычных коммерческих предприятий также существуют без прибыли.
Из Вашего рассказа следует, что Вы как-то плохо стараетесь «продать» то, что Вы делаете.
Как минимум, Вам следует представить себя на месте тех, у кого Вы просите денег.
Во-первых, в области экспертизы. Спонсоры прежде всего озабочены тем, чтобы их деньги пошли на «хорошее» с их точки зрения дело. (Под это попадает и спонсорство «просто достойных людей» из предыдущего комментария).
Вас должны знать. Должна быть «реклама». Не в медиа, конечно, но выступления на основных конференциях, семинарах. На этих мероприятиях Вы третесь в кулуарах, ищете людей кому это интересно. На самом деле есть довольно много нормальных людей. Общая рекомендация — лучше вести переговоры с людьми как можно более высокого уровня, но это нелегко — для этого нужно особое образование.
Во-вторых, почему Вы зациклены на «фонды»? Насколько я знаю, многие крупные бизнесмены являются меценатами. Тут опять же нужна реклама — за Вас должны просить уважаемые люди.
В-третьих, почему бы не зарабатывать денег с развитыми технологиями на свой же любимый проект. Я пользуюсь Вашим сервисом. Кажется достаточно эффективным для исследования общества, из-за того что подняли из небытия малые журналы и т.п.
С одной стороны, у Вас есть полезные коллекции, например, для социально-экономико-этно-региональных исследований. Этим у нас занимаются в министерствах типа Минрегиона, МЭРТа, Минобраза. Есть постоянный запрос и на политику. Скрепы там всякие.
С другой стороны, у Вас есть интересные технологии, которые многим могут пригодиться, например, для создания библиотек технической документации, особенно в корпорациях. В корпорациях много заморочек, откаты в разных формах и т.п., но Вам на Ваш проект хватит и небольших крох. Вокруг корпораций есть много прилипших к ним фирм-информатизаторов, у которых всегда проблемы с идеями. Идите к ним. Они наварят на Вас по-полной, но получить деньги на свой проект вполне реальные.
Чушь какая-то. Ну нету big data в открытом доступе. А где есть — это очень узкие ниши, уже занятые большими компаниями. Если где и есть big data — это в корпорациях, у которых и так деньги есть, причем тут «инициативы».
> Охохох. Почему же даже тут больше всего о предмете рассуждают люди в нем не понимающие? Ну конечно. Люди немного понимают как делаются новостные порталы. Не понимают только (тупого) упорства отрицания Яндексом ручной настройки, прямой или косвенной на топе, морде и т.п. И не надо про wizard или какую-нибудь персонализацию там. Популярные новости популярны весь день — народец приходит и жмет, жмет, жмет — это один из простых рецептов увеличить клики — скучно, но эффективно. И есть простой критерий проверки — попробуйте добавить желтизны про Волочкову или Баскова, или еще лучше про Волочкову и Баскову вместе. Wizard ваш будет зашкаливать. Причем все сторонники «качественного» новостного ресурса тоже нажмут и прочитают. Так как таких новостей на Яндекс-мордах почти нет — значит идет отбор источников. Вопрос, собственно, в том, где проходят границы отбора. Была бы любопытна статистика, насколько «важные» сюжеты Я.новостей совпадают с одними источниками и не совпадают с другими. В частности, почему согласно соцслужбам население страны любит первый канал зомбоящика, но Яндекс не считает это «важным». Можно попробовать оценить формулу «важности» Я.Новостей, еще интереснее — «неважности». Лень, конечно, но если Яндекс и далее будет упорствовать, оценим.
Яндекс задолбал уже этими «алгоритмами». В смысле, действительно, все автоматически, только есть факторы учета «наиболее качественных ресурсов». И что включено в эти «качественные» ресурсы, то и впереди. Качественные ресурсы стабилизируют выдачу — наверх идет нормальный язык. Но они бывают «левыми» и «правыми», у Яндекса в качественные помещены ресурсы только одной половинки спектра. Последние полгода особенно доставляет сравнение выдач news.yandex.ua и news.yandex.ru. На Украине все горит, в России все «мягко», хотя честная кластеризация должна была давать популярную точку зрения российского населения и большинства российских ресурсов на Украину, но не дает, так как отобранные «качественные» ресурсы перебивают все. От всего этого прет специализированной настройкой/подгонкой параметров под вполне определяемую аудиторию. В принципе, их право, но не надо врать.
Думаю где-то вот в этой схеме Спутнику и найдут бизнес-модель Это самое то — сначала вложиться, потом искать бизнес модель. Открытие выписок хорошее дело. Но принципиального решения (не декларации) об открытых данных нет, да и не будет похоже, скорее все, наоборот, закроют по-новой. Бизнес на 1% открытой информации? Остаются страшилки? Для борьбы с крамолой уже есть, наверное, десятки систем мониторинга СМИ. Да для этого даже не нужен мониторинг — увидели в существующем Яндексе крамолу в одной публикации — делай выводы. А если подключить «пионеров» — есть массы граждан — целые сообщества набегут желающих побороться с крамолой. То есть тут уже скорее все поделено давно.
У Феликса Кривина есть сказка, где говорится, что поубивал Иван Царевич всех врагов, женился на Василисе Прекрасной. И тут началось самое страшное — стали они жить-поживать, да добра наживать. Разработка «Спутника» шла от транша к траншу. Но как они будут жить и развиваться «от транша к траншу» без внятной бизнес-модели? Собственно, поиск, даже если он окажется хорошим и полезным кому-то, это ведь еще не бизнес.
Госпоисковик действительно нужен. Хотя бы для следующих задач (по сути калька с задач внутрикорпоративного поисковика «большой» корпорации): — поиск персоналий-должностей — уточнить, имя-отчество, должность, контакты; — поиск (в смысле ранжирование первыми) документов по госуправлению и т.п.; — прочим видам профессионального поиска. Могли бы эту информацию находить Гугл-Яндекс? Конечно могли бы. Но не делают. Гугл-Яндекс ориентированы (и для них правильно!) на нужды своих рекламодателей и потребителей рекламы. Поэтому, если пытаться искать какого-нибудь замминистра (не говоря уж о заместителе ФГУПа) по фамилии и инициалам, или по фамилии и имени — его, скорее всего, не будет на первых 10 страницах выдачи — а будет куча пользователей вконтакте. Есть еще вопрос безопасности. Анализ самих запросов пользователей и их переходов может позволять неплохо ориентироваться в хотелках госчиновников и специалистов госкомпаний на этапе подготовки документов. Это деньги и очень большие. Другое дело, что когда все это сложат в одно место — оттуда и воровать это будет проще. Но это уже другая история.
[quot] @с точностью 82,2% технология определяет пол 82,9% пользователей@ т.е. вы пол определяете с точностью 68% ну так бы и написали [/quot] Это нормальные средние цифры для такой задачи. Яндексовская крипта заявляет о таком же, как и в научных статьях. Для практики такого достаточно из-за разницы в посещаемости. Полагаю, что для 10% самых активных пользователей точность процентов 95, а для хвоста — уходит в ноль. Другой вопрос, что «пол» — неточная сама по себе характеристика. Женщины покупают мужчинам бритвы, а мужчины, наоборот, духи и цветы.
Последнее — неправда. В начале и середине прошлого года было видно (в том числе и по рамблеровскму топ100), что Рамблер рос медленнее «эха» и «рбк» , как раз во время протестов. Либо эти материалы специально фильтровались, либо слова про профиль пользователя, как бы сказать…
Ну что за детство, Капитан Очевидность? Даже с 30% качеством система может быть полезна, а с 99% недостаточно хороша. Если решение проблемы (не задачи!) важно, то будет искаться другая постановка, будут вложения в новые данные и т.д. Вот Гугл-переводчик — ужасен по качеству, но смысл новостей позволяет понять. У меня есть знакомые, которые переводили с пользой для себя с норвежского и кашмирского(? я такого языка-то даже не знаю). Собственно РОМИПы, TRECи, CLEFы больше всего и заняты поиском ответов на вопросы — «что оценивать?», «как оценивать?» и «как интерпретировать результаты оценки?». В этом, собственно, и вопрос существования какого-то коммьюнити и кого-то вне коммьюнити. Ситуации бывают разные, но чаще все-таки, то, что кажется Вам и Вашим разработчикам откровением, сообществом уже пережевано и выплюнуто. а) какая необходима полнота индексирования? Сколько из 100 000 мнений в блогах , ФБ, ВК и форумах должна реально видеть система? Если реально она видит 30 или 40% (а до остальных не может добраться) — это нормально или плохо? Ответ на этот вопрос легко получить постепенно увеличивая полноту. Будет насыщение — ок, не будет — всем абзац, в том числе и шурум-буруму. В смысле — придется менять задачу. б) Какова должна быть допустимая полнота определения позитива/негатива/нейтрального/смеси? Если из 1000 мнений определяется хоть как-то 100 или 300 — это хорошо или плохо? Смотря для чего. Например, многим интересно — за что ругают, за то хвалят. Тут и один пример может быть ценным. Опять-таки в реале есть еще время. Если показатели выделения стабильны — Вы определяете только стандартную часть выборки — тоже информация. Ну и так далее — все от задачи зависит. А точные цифры оценки позволяют вовремя сменить постановку. И все с этим легко соглашаются…
Нет, Игорь Станиславович, не съезжайте с базара! Вот именно. Про кросс-постную анафору в сарказме — это была шутка. Вот так всегда, как прихватят Ашманова за руку, так он в кусты. (Кросспосты есть, анафора есть, сарказм есть. Даже задачу такую можно представить. Решение по анафоре и сарказму — на 30%) В результате так и не понятно, почему разработчики АиПа послали визионера на х*р. Сказали, наверное, иди, паря, шути дальше с клиентами. … — это была шутка. Как я понимаю и все остальное, что Вы говорите, тоже шутки. Замечательная легкость в мыслях. 30 тысяч одних курьеров….
Не стоит смешивать теплое с мягким. Ну что за песни про «темных» заказчиков («милиционеров или чекистов») и РЫНОК с большой буквы. Ведь и там и там заказчик по определению разбирается в предмете хуже разработчика. Заказчику вообще нужны продажи или если «милиционеры или чекисты» — наверное, ловить кого-то. А и тем и другим льют в уши либо «что у нас лучше Яндекса и Гугла» (обвинение Ашманова против попавшегося ему под руку КМ), либо «семантическое зеркало», «больший хайтек — хардкорная прикладная лингвистика». Ну где логика-то? Заказчику абстрактно хочется одного, но на практике ему достаточно и более простых вещей, но сразу. Эти простые функции, реально нужные заказчику реализует 100 фирм и фирмочек. А дальше чистая «маркетинговая балаболка» — кто во что горазд, чтобы впендюрить именно своего да побольше. А кто более легковерен и темен — госзаказчик или покупающие клики за неясно какие деньги — ну где тут разница? И давайте про сарказм по-подробнее. Про 78%. Я утверждаю, что это наглое вранье. Вы готовы демо-сервис предъявить для проверки? Будете правы, публично извинюсь.
Еще чуток про РОМИП. Надо понимать, что когда дорожка появляется в РОМИП/TREC и т.п., то это признак «прединдустриального» состояния задачи. Идея уже овладевает массами (в дорожке по сентименту будет вроде бы больше 10 участников). Логичными следствиями являются: — массовая проверка всех известных методов, — быстрая фиксация «хорошего» уровня — выбор НЕСКОЛЬКИХ методов, достигающих этот «хороший» уровень Дальше появляется какой-нибудь Яндекс, что запускает бесплатный(!) сервис, выбивающий всех с рынка кроме 1-2 игроков, имеющих какие-то изюминки, которые как-то доказываются. Без доказательств утверждения о чемпионских технологиях после РОМИПа будут вызывать только смех. … кросс-постная анафора в сарказме не восстанавливается … По одной этой фразе можно сказать (так как «кросс-постная анафора в сарказме не восстанавливается» в ближайшие 5-10 лет не будет восстанавливаться с качеством более 30-40%) на выбор: — либо Ашманов брякнул глупость, — либо шурум-бурум безнадежен — люди им занятые тратят свои усилия на ненужное, очевидно, упуская более эффективные методы повышения качества.
Cлушайте, а не движет ли всем поведением г-на Ашманова зависть, или даже ревность? Когда он заходит в Минсоцзравразвитие со своим «ТакЗдорово» — это хорошо. КМ заходит в Минсвязь — это УГ. Когда он занимается экстремизмом (http://www.e-xecutive.ru/knowledge/an.. ./1440933/) — это хорошо. Когда другие (и кто только не занимался, начиная с MUC-6, кажется) — это УГ. Когда Ашманов сотрудничает с МВД (где-то рассказывал, что даже форму одевал) — это хорошо. Когда другие — несомненное УГ. Вообще, когда Ашманов что-то делает в стране — он патриот, ненавистник американского. Когда другие — это УГ, лузеры «по-американски». Просто чудо, интересно аблюдать эту, э-э-э…, раздвоенность сознания. Но насколько же надо делить авторитетность такого мнения? Кажется, со временем, коэффициент только растет. Кстати, сюда же, собственно, предмет — когда Квибрум-Крибурм-Крибрум — это хорошо. Когда «Ingate Development запустил монитор соцмедиа и СМИ» — это УГ.
ну вы там в своем экс-Рамблере разберитесь чьи там подписи где стоят — я-то только читатель в данном случае [url=http://]http://www.forbes.ru/tehno-opinion/internet-i-telekommunikatsii/69024-v-proekte-whoyougleru-ya-realizoval-o-chem-ya-mecht[/url] Я, внимательно читая эту книгу, так и не понял. Куда девались деньги, я так и не понял. Зато вокруг главного героя в белой одежде (исполнительного директора), чья подпись стоит на всех денежных документах, существует огромное количество мерзавцев, придурков, жуликов, которые компанию разваливают. При этом не видно, какое количество миллионов досталось этим мерзавцам, придуркам и жуликам. Самый простой вопрос, который мог бы себе задать думающий человек при чтении «Жизни внутри пузыря», — «Как ты, исполнительный директор, допустил возникновение финансовой дыры?».
О как задело Ашманова! И как человек, поднаторевший в кухонных спорах (даже аргумент типа — «еще шляпу одел»), он сразу стал переводить стрелки. Кажется мы обсуждаем наукоемкий бизнес. В каждой стране он соответствует масштабу страны. В РОМИП участвует мелкий бизнес, исследовательские подразделения корпораций, лаборатории вузов и отдельные исследователи. Если объединить их (без Яндекса-Мейла) проекты, то окажется, что они вполне востребованы руководством страны, большинством министерств, основными корпорациями и банками, ну и, конечно, спецслужбами (куда же без них). Список этот расширяется. Участники «широко известны в узком кругу» названных организаций. Люди учитывают интересы заказчиков и не орут о проектах на каждом углу. (Они вообще тихо работают и не пишут обычно с утра до ночи по форумам). Это достаточно честный бизнес, соответствующий масштабу нашей страны. И они деньги инвесторов не просирают, как некоторые просрали деньги Медиалогии, Рамблера (ведь Ваша подпись стояла на всех финансовых документах — и когда не хватало компьютеров в Рамблере, о чем так трогательно в книжечке написано — это Ваша вина). Сейчас Вами просирается вьетнамский проект. В Вашем случае это будет, конечно, яркий запуск, красивые интерфейсы, шумный пиар и … большие финансовые потери, причем в основном не Ваши. Ну тут дальше главное быстренько еще что-нибудь новое-самое-важное-что-перевернет-мир выкатить. Иду закупаться попкорном, смотреть дальше на это. Кто там у нас загибается? Да ещё через год? Дайте примеров, что ли? У Вас успешны бета-новотека (так сразу бы порнухой торговали), изготовление сайтов и сео. Была коммерчески успешна сомнительная сделка (думаю, современная ЛК просто в восторге…) по продаже Спамтеста. А насколько успешны в финансовом плане проекты аппликата, блондинка, флексум? Что у Вас наукоемкого-то прибыльно? Не громко пропиарено, а прибыльно?
Но вопрос «зачем» всё равно остаётся. Пока, как мне кажется, здесь на него не было дано удовлетворительного ответа. Попробую ответить — «зачем» это для Вас лично. Нет уверенности, что Вы в силу свойств своего характера поймете меня, но Вы спросили — я отвечаю. Возглавляемый Вами куст компаний вызывает симпатию периодически-постоянным выпуском вполне себе инновационных продуктов — сегодня часть из них называлась. Однако абсолютное большинство этих симпатичных проектов быстро умирает, очевидно, принося убытки, или не принося ожидаемой прибыли. Мне кажется, что часто это предопределено еще при запуске. В силу недостаточной информированности, опыта и прочих причин многие Ваши проекты содержат «родовые» ошибки, которые, возможно, могли бы быть исправлены, если бы кто подсказал. Причем не потому, что советчики умнее, но просто больше видели или читали в этой области. Но, действительно — зачем? В текущей ситуации прикольнее смотреть как все загибается через годик. По фирменному «ашмановскому» объяснению — «попался плохой менеджер». Так вот — вынос соответствующей темы на обсуждение в профессиональную тусовку — может быть Вам просто выгоден. Хотя бы для минимизации убытков. При этом конкуренция маловероятна. Во-первых, места пока всем хватает. Во-вторых, у Вас преимущество времени. Например, сейчас, кажется, стагнирует вьетнамский проект. В смысле удастся ли Гугл отжать — не понятно. А лимон-то уже потрачен, а то и больше. При этом и Яндекс ищет по-вьетнамскому интернету и лезет в турецкий. Чуть-чуть и разные российские компании захотят полезть в другие интернеты. И тут можно было бы уменьшить риски, запустив дорожку в РОМИП, или поучаствовать в CLEF или NTCIR — на РОМИПе свет клином не сошелся. Но, конечно, стоя в гамаке — оно интереснее.
ну иногда их бывает и больше http://romip.ru/romip2009/01_organizers.pdf (стр.7) Ну и, как не странно, даже «второе из двух» не так плохо — это второе из двух тех, которые готовы были представить свои алгоритмы на независимую экспертизу. Так как дорожки открыто объявляются — это может восприниматься, что других либо нет, либо они боятся :) Вот, например, сейчас обсуждается сравнение синтаксических парсеров — несколько «основных» участников говорят: «а мы вообще не понимаем зачем сравнивать» — у нас лучше всех! То есть типичная ситуация — у нескольких игроков (вполне успешных в плане реализаций конкретных проектов) — «лучше чем у других». А новые игроки, быть может тот же ашмановский Диктум на самом деле лучше — но как узнать?
за фразу И на Ромипе мы cо своими лингвистическими алгоритмами занимали места ругать не будут Ругают за примерно такое: «наши алгоритмы лучше чем алгоритмы компаний Х,У и Z» — пока угрозы опубликовать контр-объяснение хватало. Можно примерно так «наши алгоритмы в специфических условиях РОМИП показали лучшие результаты чем экспериментальные алгоритмы других участников».
У вас я вижу, по-прежнему очень сильна иллюзия, что тестирование чего-то в РОМИПе или даже просто на данных РОМИПа может как-то помочь в пиаре и маркетинге Формально результаты РОМИП не могут быть использованы в пиаре. РОМИП (да и любая независимая экспертиза) «используется» участниками для нескольких целей: * Самый дешевый способ себя перепроверить (=дубинка для разработчиков, причем самая дешевая). * Уточнение постановки задач — практически все «широко обсуждаемые» задачи IR неправильно поставлены — их решение в стандартной постановке невозможно выше бессмысленного для практики уровня. Причем каждый неофит говорит о 99% качестве, что обычно — наглая ложь. В результате TRECов и РОМИПов находятся реальные пределы и ограничивающие факторы. Далее эти знания используются при проектировании реальных продуктов. То есть достаточно получить приемлемый уровень (см. «морфология»), а дальше можно и не тратить усилия (что полезно для любой фирмы). А недостатки технологии обработки дотягиваются организационными или интерфейсными решениями — по сути, новыми постановками задач. * Косвенно — отсекаются гопники, которые определяются как раз по бравым неадекватным речам. а если типа, всё плохо, упало на дорожке — то сильно повредить. За это не ругают — ошибки бывают у всех. Тут важен процесс. Во всех соревнованиях: TREC, CLEF, РОМИП — результаты участников растут год от года, сходясь к окрестности максимума возможного для решаемых задач. В реальности РОМИП — это такая странная штука для гиков, местечковая и анонимная, до которой никому нет дела и о которой почти никто не знает. Хвалиться ею при продаже — только вредить делу, посмотрят как на идиота и постараются отделаться. Это не так. Конечно, ранее выполненные проекты важнее. Но совсем не вредит, что предлагаемые решения прошли независимую экспертизу.
Брали не под участие, так посмотреть, погонять Флексум, видимо, на тестовых данных. Переведите. Что такое «погонять на тестовых даных»? Я думаю — сравнить результаты Флексума с оценками РОМИПа. Сравнили, наверное, не так уж много текстов. А что-то результаты не показали. Дальше только конспиралогия. Результаты были замечательные, но люди, которые очень любят пиариться, решили тут проявить скромность… Это были люди не из АиП, а из Поисковых технологий, в 2009 году. Надо будет уточнить при случае — а кто подписал бумагу. Могу ошибаться, но мне когда-то говорили, что некий Ашманов И.С. Наверное, Ваш однофамилец из Поисковых технологий.
Ashmanov лает, а РОМИП идет… Ради красного словца, не пожалеет ничего. Следует учитывать, что Ashmanov давно уже сам не лингвист, не прикладной лингвист, а так — бизнесмен (и до самого недавнего времени числился младшим научным сотрудником ВЦ РАН), который сегодня скажет одно, завтра другое. Что-то про лингвистику он еще помнит, но немного. Его бизнесы с лингвистикой — убыточны. Прибыльны бизнесы без лингвистики. Чего его слушать про это? Какие то сказки про «синтаксический разбор предложений»,…, «восстановление анафор и эллипсисов» — неужели сам верит, что его Диктум все это делает хоть сколько-нибудь нормально? Рассуждения по пул — детские — почитайте исследования, наконец. Не позорьтесь — для «знатока» должны бы знать. Задания РОМИП не сложные. Люди Ashmanov’а в прошлом году точно брали данные и вроде собирались участвовать. Но не смогли. Или смогли, но показали результаты хуже и решили не открывать. В любом случае без этого именно «многолетний флекснум» = УГ. У РОМИПа много проблем. И он некоммерческий. Цель — ставить задачи, уточнять постановки, уточнять критерии оценки. «Дорожки», «соревнование» — это инструмент. На практике РОМИП немного оздоровил атмосферу в отрасли по поводу того, кто «лучше ищет», у кого «самая чудодейственная технология». Все стали более аккуратнее в высказываниях — кроме Ashmanov’а, конечно. У которого, каждые полтора-два года новые «открытия», сдувающиеся еще через год . Если начать вспоминать — аппликата, блондинка, новотека (которая новости), инфы — все не упомнить, хотя мозги конопатились, будь здоров. Возвращаясь к начальному посту. Вот сделали люди нечто новое — и как оценить? Причем только запустились, как отличить проблемы роста от проблем технологии? Можно послушать людей с распальцовкой и понтами, да еще уязвленных тем, что их технологии проигрывают новому конкуренту в чем-то. Или обсуждать с более взвешенных позиций, выработка которых и есть, собственно, цель РОМИПа. А пока сам в РОМИП или в чем-то независимом хоть что-то не показал — все это болтовня пустая.
И этот человек (Ашманов) говорил, что персонализация плоха…. Здесь — накопление персональных данных (ну ладно, пусть можно попытаться гарантировать ответственное хранение, грифование и прочее). Но! Сообщение части этих персональных данных третьим лицам — тем кто физически втюхивает рекламу. Это же статья УК готовая.
>> Скажите, а вот зачем это все нужно, когда есть РОМИП ? Нет, серьезно ? > РОМИП про другое. Он фактически про IR, а не про поисковики. > Про как бы науку, > Он недотягивает до настоящей научной конференции, Какая есть наука про IR в России — такая она и на РОМИП, другой нет. Иначе надо на WWW, ECIR, SIGIR, даже на RCDL, к которой РОМИП пристыкован, но не в Яхрому же. Тоже еще «научная» конференция…. > а не про проекты, интерфейсы и будущее рынка. > а отраслевой и вовсе ни разу не является. > А отраслевой не было до сих пор. Кому-то ну очень хочется порулить тем, чем рулить не дают. Если это бизнес-конференция c полноценным участием Яндекса, Гугла и т.п. — нафига в Яхроме? Все невнятно с этой конференцией — и не научная конференция и не бизнес-конференция.
> Поэтому у него и возникло желание собрать отдельно тех, кто имеет отношение к производству поисковиков А кто такой Ашманов с точки зрения разработчиков? Если речь о профессиональной тусовке — так уже есть — РОМИП и др.? И зачем для этого разработчикам деньги платить? Или это «возникло желание» заодно поучить всех уму-разуму, обсуждая как-бы другие стартапы? Ну-ну…
To sadovsky: > Для разогрева: > http://clubs.ya.ru/company/replies.xml?item_no=16790 To iseg: >Статья научного сотрудника Яндекса Дмитрия Павлова (Yandex.Labs) … > Ой что это? http://www.kdd.org/kdd/2009/papers.html Large-Scale Behavioral Targeting Ye Chen* Yahoo! Labs; Dmitry Pavlov Yahoo! Labs; John Canny Computer Science Division University of California Berkeley ———— Yahoo! Labs ———— ^^^^^^^^ По-видимому, теперь можно сказать, что все публикации Yahoo пишутся сотрудниками Yandex. Зря была вся эта дискуссия — сколько публикаций у Яндекса!
> Идите к Путину за баблом! Он даст — зуб даю. :-) давайте зубы! Мин науки сейчас собирается вычеркнуть в целом информационные технологии из перечня критичных технологий, что автоматом сократит в разы финансирование.
> А про элегантное решение в статье 2006 года понравилось, спасибо, расмешили. возможно не все поняли, что речь идет не о статье Яндекса на WWW2006 про определение новостных запросов — достаточно простую а упомянутую Сегаловичем не принятую статью о кластеризации новостей, которая, кажется, так в результате нигде и не опубликована, кроме записей в блогах они кластеризуют новости путем исполнения специального типа запросов — это, с моей точки зрения, не самый идеальный способ с точки зрения полноты, точности и т.п. но технологически этот способ элегантен, так как позволяет им использовать стандартный engine, включая стандартное распараллеливание при выполнении запроса, что весьма и весьма полезно для оперативной кластеризации потока новостей кроме того, сам способ кажется мне новым (по крайней мере на 2006 год)
Дискуссии пользователя
Знатоки больших данных, объясните неучу, зачем там YDF?
Каким набором параметров может играть Билайн? Сколько их?
Сколько параметров может содержать массовый тариф?
Чтобы еще не могли повторить конкуренты с лучшими показателями?
Пять, шесть, или пару?
(Ну еще плюс два — Слепаков и Михеева…)
Можно еще рулить плотностью станций (связать с оттоком), но это тоже достаточно простой расчет.
И это еще при том, что Билайн на хабре похваляется крутизной в подготовке специалистов по маш.обучению.
Чем занимаются все эти люди?
Здесь не одна ситуация, а несколько связанных ситуаций (что, в общем, обычное дело), каждую из которых надо оценивать по разному.
1) Сотрудники Яндекса проявили «нелояльность».
При этом многие на форуме оценивают срач в чатике по человечески как недопустимый. Я также это оцениваю, «по человечески».
Однако, является ли это (юридическим) основанием для увольнения — юридического действия — весьма непонятно.
2) Допустим является, однако работодатель имеет право уволить (например, за однократное грубое нарушение), но увольняемый тоже имеет право оспорить в суде.
Насколько я слышал, в РФ уволить кроме как по «собственному желанию» очень сложно, если увольняемый этого не хочет. В смысле приходится собирать серьезную доказательную базу.
Суды массово восстанавливают на работе, по сути именно из-за отсутствие такой «чистой доказательной базы».
И тут уже много раз обсудили, что «чистота» обвинений Яндексом сотрудников с юридической точки зрения, как минимум, сомнительна, как максимум — незаконна (недавно на Гугл наехали, что он автоматически(!) читал почту, а тут «изучили компьютеры»).
3) Думаю, в Я. все это понимают, поэтому и официальная формулировочка была «по соглашению сторон». Понятно, что среди увольняемых мало профессиональных сутяжников, поэтому им свою карму при устройстве на следующее место работы тоже портить не хотелось.
4) Казалось бы история закрыта.
НО!
Но тут Яндекс начинает орать, что УВОЛИЛ за разглашение КТ.
Смысл в этом — только в попытке придавить недовольство внутри компании.
Это глупость несусветная.
Официально уволили то «по соглашению сторон». Если не смогли уволить по статье, то нечего и поливать грязью в СМИ.
О чем и на форуме говорят, да и увольняемые могут подать в суд на моральный ущерб.
5) Вообще, сигналов все больше, но как-то не принимают люди во внимание, что переход к «западной» «демократической» (от «советской» «феодальной») корпоративной культуры неминуемо должен сопровождаться ростом судебных разбирательств. Хотите работать как в Европе и ли Америке — будьте готовы судиться как в Америке. Тем более, что нормы трудового права серьезно отстают от западных (см. тезисы г-на Прохорова).
6) Что в итоге.
Такое ощущение, что в Я. нет единого органа, который быстро и адекватно может реагировать на ситуацию. От ошибок никто не застрахован. Но можно же быстро признать (покаяться :) ), объяснить и исправить. Некоторая вонь и после этого останется, но непринципиальная (см. случай с Навигатором).
А Я. ступит иной раз в д***мо, а затем еще и подпрыгивает.
Почему комментарий Alexander Rechitskiy не лучший?
Пресловутое яндексовское NDA и близко не стоит с законодательством РФ.
Увольнение по причине нарушения NDA — о чем широко объявлено — может быть оспорено в суде, всех придется восстановить.
Если, конечно, всех не запугали и они написали «по собственному».
«Коммерческая тайна» — любой факт коммерческой тайны («сведений, составляющие коммерческую тайну») должен был быть задокументирован.
Сильно сомневаюсь, что так было сделано.
Про компьютеры сотрудников и их переписку — это вообще уголовная статья — без постановления суда. Как пишут, даже органы сначала, конечно, залезут, но все это неофициально, а затем оформят в суде и найдут «рояль в кустах».
И про бывших — они вроде были «консультантами» проданного ими сервиса, то есть как бы работали в рамках Яндекса. Увольняемые сотрудники «могли и не знать» — их кто-то известил о прекращении отношений Яндекса с бывшими работодателями — да и были ли формально прекращены эти отношения?
RBC от 13.10.15(!) http://rbcdaily.ru/media/562949997644106: «…Формально основателей сервиса оставили в качестве консультантов, говорит Суханов, но в итоге никто с ними не советовался: …»
> При этом Google то ли дышит в спину, то ли уже обгнал.
…
> В Южной Корее Google тоже дышит в спину Naver:
А что Яндекс такой гордый, что будет согласен только на первое место?
Думаю, что и 20% хватит для профита.
>> 2. Что делать с мировым рынком?
> Ничего. Нет шансов.
Я не специалист в этом, но IMHO это наоборот разумная стратегия.
Как говорят люди, побывавшие там-сям, поисковые рынки в разных странах существенно разные — Россия, Вьетнам, Турция, Германия, Чехия, Китай, США.
И если высадить стартапы с мощной технологией в большем количестве стран, то из них что-нибудь может и взрасти. Найдутся люди, которые где-нибудь провернут не один, а несколько трюков типа как в Турции с футбольными болельщиками.
Гугл не сразу реагирует, направляя доп.ресурсы на борьбу за рынок далеких стран. Да и выручка в валюте…
Обсуждение в топике лишний раз подтверждает классическую ситуацию проблем компании при бурном росте.
Компания давно уже становилась, становилась и практически стала «корпорацией», что требует классических элементов управления, включая таймшиты для всех, скоринги и прочие радости.
Конечно, для разработческих компаний рекомендуют иметь отдел (несколько выделенных отделов), существующих мимо скоринга, где разрешен дух стартапа. А все остальные — к станку.
Яндекс просто долго сопротивлялся этому, к сожалению, общему для всех пути. И Сегалович как раз в последние годы выглядел лицом стартапа, а за его спиной уже было «лицо» стандартной бюрократии.
>> Яндекс стал специально нанимать значительно больше людей чем было нужно для бизнеса.
> Это вам все лично Сегалович рассказал? Поделитесь источниками этих инсайдов?
Именно Сегалович в 2010 году, в ответ на вопросы про странное дублирование задач в слабых командах в Яндексе. Даже пытались обсуждать что делать с (лишними) кроликами.
Результат тогда был странный (для меня), так как ничего Сегалович не мог сделать — текущие в то время держатели кроликов просто его послали.
Дальше степень странности в Яндексе только нарастала.
Сегалович сам создал корпкультуру, сам же ее и разрушил.
Это когда начался бурный рост, Яндекс стал специально нанимать значительно больше людей чем было нужно для бизнеса.
И делалось это целенаправленно — и для обеспечения устойчивости (длинной скамейки) и для того чтобы «выжечь рынок труда» конкурентам, и для того чтобы создать массу сервисов и для иллюзорной цели создать неизвестный мега продукт.
Все было очень цинично — для кроликов была устроена эволюция по Дарвину.
Но уволили не всех проигравших, а только часть (жгли дальше).
При этом не справились с сопутствующим беспорядком. В Яндексе надолго поселился дикий бардак, мелкотемье, одновременно несколько «глав отделов поиска» (старающихся не замечать и не взаимодействовать друг с другом).
Когда надо было решать какую-нибудь задачу, оказывалось что уже есть пара групп, которые ее уже решают, причем, кажется, даже не стараясь (не в состоянии) ее решить.
В общем классический советский НИИ позднебрежневской эпохи.
От старой культуры при этом оставался внешний личный энтузиазм Сегаловича и энтузиазм зажигаемых новых кроликов.
При этом (что роднит Яндекс с советскими НИИ и вообще с госструктурами), если надо было что-то с Яндексом подписать, то на бумаге было значительно более чем десятка согласующих подписей (в министерствах меньше).
Надо отдать должное, то что было, то заточили, оптимизировали отъем денег.
Однако с новым — из того, что видно — мобилками, Турцией, своей операционкой — либо не сложилось, либо все это является бедным родственником. Нет прежней агрессивности.
И это при огромном количестве кроликов.
У меня рецептов нет — смотрю со стороны, но может быть почистить/расчистить временно (Парахин как Сердюков), не самая плохая идея.
Славно, удалось протроллить Роем, а то я уж думал, что мертвый.
>> Для обработки текстов DL не дает значимого улучшения.
> Только не рассказывайте про это вот этим ребятам, расстроятся еще:
http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-
DeepLearning.pdf
1) спасибо за ссылку, интересно, да и Маннинг, в отличие от многих, старается разобраться в явлении
2) однако, предмет дискуссии от этого не меняется.
Сравнения нового и старого, если я правильно понимаю, приводятся на страницах 72,73,122,130,138,156,175. Это в таблицах, есть еще графики.
Что же мы видим. В достаточно экзотическом комплекте задач в 90 % случаях есть незначительное улучшение. В 10% в приведенных данных есть определенное улучшение.
Хотя часто встречается мнение, что basic line надо бы проверить — не низковат ли?
Никто ведь не спорит, что фича полезная. И вообще возврат из незаслуженного забытья нейронных сетей это неплохо.
Фича полезная, но это ведь только одна из фич, были «революционные» LM, PLSI, LDA, теперь новая реинкарнация NN.
Все нашли свои ниши, но это только ниши.
Прогресс есть, а где искусственный интеллект?
Значимый результат есть в распознавании речи и изображений (обратите внимание — огромное количество примеров). На этом можно строить бизнес, кто же против.
С текстами пока — фича, не более.
Забавно, когда об искусственном интеллекте рассуждает менеджер.
Машинное обучение — это решение задачи отделимости двух множеств — хорошего и плохого — на основе множества обучающих примеров.
Для задач с большим количеством обучающих примеров и «хорошими» множествами замечательно работал SVM.
Для задач с большим количеством примеров и изрезанной границей лучше работают нейронные сети с deep learning.
Для обработки текстов DL не дает значимого улучшения.
Существует куча задач, где нет большого количества хороших (непротиворечивых) примеров. Там все методы машинного обучения работают плохо.
В большинстве корпоративных задач машинное обучение не применяется — в смысле применяются «инженерные» методы.
Приход искусственного интеллекта вот прямо сейчас — это «приход» — голимая реклама.
To: Cyber Lenin
Ваш ресурс — это сборище региональных источников.
Возможно, что подключение приличных центральных издательств столкнется с трудностями — вроде несколько лет назад всех монополизировали (Шустерович(?)).
На самом деле у Вас есть некоторая интересная ниша — региональность.
Конечно, математика, физика-химия, компьютерные науки не имеют границ, и здесь у региональных вузов мало шансов.
Однако, география, геология, биология/экология, экономика, социология, политология, даже медицина, вполне региональны.
Насколько я понимаю, федеральные структуры всегда имеют интерес к лучшему понимаю того, что происходит в регионах (понимают они плохо — видят всегда одну сторону, предъявляемую текущей правящей в регионе элитой).
Собственно, это Ваше естественное конкурентное преимущество и можно/нужно проталкивать.
Вам ещё непонятно почему государству НЕОБХОДИМО поддерживать такие проекты как Киберленинка?
Пока не понятно. Если источники сделали свои ресурсы доступными для КиберЛенинки.
Почему бы не сделать их доступными для Яндекса, Гугла и Бинга?
Прежде всего для GoogleScholar?
И получаем сервис ничуть не хуже.
Если Вы так печетесь о государстве — так оно на этом сэкономит.
А то что мы делаем выгодно прежде всего государству ;) а значит в том числе и вам! Хотя бы потому, что сейчас государство платит дважды — один раз за написание научной статьи (в рамках любого проекта под гос. финансированием, вот например вы, за 20 лет наверное ого-го статей написали), а потом еще раз за доступ к этим же статьям.
Если Вы считаете, что это нужно государству — убедите его в этом. Идите в министерства, запускайте тему и т.д.
Беда в том, что у Вас пока только общие аргументы.
С формальной точки зрения — доступ осуществляется не «к тем же статьям», но к избранным, тем самым, если за плату, то эволюционно поддерживаются как-бы только качественные издания.
Интернет многое меняет, и сейчас на Западе идет интересный колебательный процесс выбора модели развития между платными и бесплатными журналами. Но в любом случае государство здесь не при чем.
Хотя, допускаю, наглая ложь — лучший способ развести чиновников. Но самому-то лучше понимать реальную картину
И Вы понимаете — там все приходящие говорят то же самое?
И опять же прозрачность науки, экспертиза ее.
Вы удивитесь, но есть обычные библиотеки, где все есть (ГПНТБ или БЕН).
(Я шучу, полагаю Вы все хорошо знаете).
Если народ туда не ходит, то не настолько уж нужна эта «прозрачность».
В смысле текущий уровень прозрачности всех устраивает.
Ну и про плагиат можно поговорить, представляете, весь объем статей доступен для индексирования любым заинтересованным структурам.
Плагиат в статьях довольно редок. Кроме того это просто поднимет цены на рерайтинг.
Кстати, Вы, надеюсь, знаете, что ВАК не лишает степени уличенных в плагиате без специального заявления. Так что диссернет работает-работает, а ВАКу наплевать.
И это только часть «плюшек» для организации эффективного научного процесса. Есть еще много всего, уже со стороны ученых, коллаборации, междисциплинарных исследований, популяризации русскоязычной науки и проч. и проч.
Вопрос объема. GS полезен, MS Academy уже значительно хуже. КиберЛенинка в этом контексте не может быть воспринята серьезно.
Что убеждать — просто сделайте, если это возможно при вашем охвате то, о чем говорите.
Хотя бы внятно сформулируйте. Хотя бы на языке заявок в фонды — и выбивайте ресурсы у государства.
Ок. Поговорим.
Про анонимность — чужды мы этой дешевой популярности.
В целом про Ваш сайт. То, что я на нем видел, скажем прямо — в основном барахло. Огромный процент низкокачественных статей из низкокачественных источников. Надо сильно постараться найти что-то приличное. На мой взгляд сейчас годится только для предварительного, вроде студенческого реферата, ознакомления с неизвестными областями.
Типа ознакомился, потом полез на GS читать по английски более стоящее.
Но все-таки какая-то полезность. Возможно, это унавозит почву для региональной науки лет через 10.
Пока же надо получить более качественный контент.
Если здесь есть ограничения, то это потолок, и надо переходить на другие типы данных, развивая технологии.
Как уже писал — естественным для вас является движение в сторону библиотек технической документации.
При этом Вы должны понимать, что уходя с поля некоммерческой деятельности, где Вы молодец потому что решили оргвопросы, Вы вступаете в поле конкурентной борьбы.
Здесь у Вас нет пока особенных преимуществ. Все, что у вас есть можно собрать из свободно доступных компонент.
На конкурентном рынке все выживают за счет отдельных изюминок, отличающих от других.
Условно говоря, не только я, но и все мои конкуренты могут достаточно легко технологически сделать аналог вашего сайта.
Нужны изюминки, которых пока не особенно видно.
Ну что же, Cyber Lenin, в чем-то мы близнецы братья.
Есть лицензии — это правильно.
Кстати мы умеем делать некоммерческие проекты, делали, и тоже лицензии получали — люди под хорошее дело обычно идут навстречу, но уж очень утомительно.
Я конечно тронут Вашей заботой по поводу моих результатов, но они какую-никакую экспертизу проходят — у меня более 100 опубликованных работ.
В GS, даже в e-library большинство доступно.
Это кстати, возвращаясь к теме поста, некоторый сигнал о Вашем собственном восприятии своей собственной значимости.
Я имею в виду то, что Вы не особенно хорошо чувствуете своего пользователя.
Вам нужны какие-то другие аргументы. Я свои рекомендации уже излагал, но, возможно (скорее всего), я не типичный пользователь.
Я мог бы попробовать всерьез покритиковать все Ваши аргументы, к сожалению, они все «битые» — неглубокие. Но пока Вы вещаете лозунгами о своем моральном превосходстве…
Вы наверное не очень поняли, деньги — это не самоцель. Мы умеем зарабатывать деньги, иначе бы у нас бы их просто не было чтобы тратить на КиберЛенинку и еще жить на что-то.
Это классический случай «А поговорить?»? Так-то, чувствую, мы у Вас должны учиться. :)
Нам интересно увидеть как общество и государство откликается на общественно-полезный проект. Ну кроме его потребления. Это, знаете, как маркер нужности и, при его наличии, здоровья этого общества.
Так это философский вопрос о смысле жизни?
На мой взгляд, лучше ограничиться простым и ясным критерием — если проект кому-нибудь нужен, то за него платят деньги.
Иначе, везде можно найти пятна.
Например, в КиберЛенинке есть интересный вопрос с авторскими и имущественными правами. То что вы делаете, кому-то выгодно, а кому-то наоборот.
Так что, если обострить вопрос, то в «здоровом обществ» Вы должны сесть в тюрьму.
Если у Вас, конечно, есть разрешение от правообладателя имущественных прав и авторов, то я не прав. Но что-то говорит мне, что нет у Вас таких бумаг.
Несколько лет назад Компьютерра устраивала опрос, как люди добывают деньги. По результатам было выяснено, что люди легко рассказывают о неудачных проектах и крайне неохотно об удачных.
Лень копаться глубоко, но гранты последнего времени РНФ, были выданы вполне достойным людям — кого я знаю (дикое количество статей в зарубежных журналах, не говоря о ВАКовских).
Я сам видел примеры (и проигрывал неоднократно), когда шел явный (и даже наглый) распил. Но все распилить нельзя.
Процентов 50% они должны выдавать честно.
Более того, мне тут пару лет назад предлагали поучаствовать в распиле (гарантировать победу). Но в любом случае работа стоит своих денег — вы определяете свои расходы, пильщики накручивают свое сверху.
Хочется — можно с этим бороться, обгонять скорость звука. Мы предпочитаем делать свое дело.
To: Cyber Lenin и Глеб Суворов.
Не хотите — не слушайте, страдайте от непонятой любви.
Нашему вполне научному проекту уж больше 20 лет.
Финансирование обеспечивается примерно на год вперед каждый год.
В прошлом году на 10 человек миллион евро (в рублях). В этом году будет уже есть примерно столько же, к сожалению по прежнему в рублях, но евро убежал…
Деньги на 80% государственные.
Глеб Суворов, ну зачем фигню-то писать.
Так человек, не добившийся успеха со своим стартапом, может сразу написать, что весь бизнес — имитация.
Речь идет о том, что выделяются реальные деньги. И кто-то их получает (не я, но я знаю людей получающих — как минимум 50% достойных — не 100%, конечно).
Кстати, про КиберЛенинку. Я (и, наверное, не только я) могу запустить такого рода проект в полгода (в смысле есть все и даже больше использованных в КиберЛенинке технологий). Но я же не запускаю. Потому как не окупится долго. Или надо искать принципиальных спонсоров. Проще заниматься другим.
Хотел бы еще дать комментарий к этому:
«Никогда не забуду как на одном из экспертных заседаний в околонаучном фонде вставали профессора и говорили, что «вот этому проекту надо дать денег, потому что у него папа заслуженный бла-бла-бла … «.»
Такое есть, но не все так просто.
Ясно, что когда ученый выдающийся и заявка написана прекрасно, то легко дать ему денег. Проблема в том, некоторые люди до сих пор не умеют писать правильные заявки, а некоторые умеют писать заявки слишком хорошо.
То есть заявка отличная, но сделано ничего не будет. Либо совсем, либо все уже сделано и идет «вторичная продажа».
Поэтому велика роль экспертных оценок. Ну а эксперты, конечно, особо любят друг друга. Но это опять же бизнес — надо входить в состав экспертов.
Да, на это потребуется время, и надо будет дожить. Так это и есть эволюция по Дарвину — не приспособленные умирают. По Дарвину выживают не самые умные, не самые сильные, но приспособленные.
А в конкретном случае. Если эксперты сравнивают проекты маленькой никому не известной команды, которая неизвестно — будет ли жить через полгода, и «династии», которая может быть будет жить и в следующем поколении, то это вполне значимый фактор оценки.
То есть сама по себе экспертиза проектов устроена вполне разумно. Беда только в том, что экспертов надо постоянно менять, а где их взять-то в нашей маленькой стране, где все сосредоточено в Москве и все друг друга знают?
Кажется, существует огромное количество материалов про стартапы. И во всех написано, что сначала надо подумать о монетизации, а затем уже о разработке.
В любом случае, деятельность НКО это тот же бизнес с определенными особенностями. В смысле без прибыли. Однако большинство обычных коммерческих предприятий также существуют без прибыли.
Из Вашего рассказа следует, что Вы как-то плохо стараетесь «продать» то, что Вы делаете.
Как минимум, Вам следует представить себя на месте тех, у кого Вы просите денег.
Во-первых, в области экспертизы. Спонсоры прежде всего озабочены тем, чтобы их деньги пошли на «хорошее» с их точки зрения дело. (Под это попадает и спонсорство «просто достойных людей» из предыдущего комментария).
Вас должны знать. Должна быть «реклама». Не в медиа, конечно, но выступления на основных конференциях, семинарах. На этих мероприятиях Вы третесь в кулуарах, ищете людей кому это интересно. На самом деле есть довольно много нормальных людей. Общая рекомендация — лучше вести переговоры с людьми как можно более высокого уровня, но это нелегко — для этого нужно особое образование.
Во-вторых, почему Вы зациклены на «фонды»? Насколько я знаю, многие крупные бизнесмены являются меценатами. Тут опять же нужна реклама — за Вас должны просить уважаемые люди.
В-третьих, почему бы не зарабатывать денег с развитыми технологиями на свой же любимый проект. Я пользуюсь Вашим сервисом. Кажется достаточно эффективным для исследования общества, из-за того что подняли из небытия малые журналы и т.п.
С одной стороны, у Вас есть полезные коллекции, например, для социально-экономико-этно-региональных исследований. Этим у нас занимаются в министерствах типа Минрегиона, МЭРТа, Минобраза. Есть постоянный запрос и на политику. Скрепы там всякие.
С другой стороны, у Вас есть интересные технологии, которые многим могут пригодиться, например, для создания библиотек технической документации, особенно в корпорациях. В корпорациях много заморочек, откаты в разных формах и т.п., но Вам на Ваш проект хватит и небольших крох. Вокруг корпораций есть много прилипших к ним фирм-информатизаторов, у которых всегда проблемы с идеями. Идите к ним. Они наварят на Вас по-полной, но получить деньги на свой проект вполне реальные.
Чушь какая-то. Ну нету big data в открытом доступе. А где есть — это очень узкие ниши, уже занятые большими компаниями. Если где и есть big data — это в корпорациях, у которых и так деньги есть, причем тут «инициативы».
> Охохох. Почему же даже тут больше всего о предмете рассуждают люди в нем не понимающие? Ну конечно. Люди немного понимают как делаются новостные порталы. Не понимают только (тупого) упорства отрицания Яндексом ручной настройки, прямой или косвенной на топе, морде и т.п. И не надо про wizard или какую-нибудь персонализацию там. Популярные новости популярны весь день — народец приходит и жмет, жмет, жмет — это один из простых рецептов увеличить клики — скучно, но эффективно. И есть простой критерий проверки — попробуйте добавить желтизны про Волочкову или Баскова, или еще лучше про Волочкову и Баскову вместе. Wizard ваш будет зашкаливать. Причем все сторонники «качественного» новостного ресурса тоже нажмут и прочитают. Так как таких новостей на Яндекс-мордах почти нет — значит идет отбор источников. Вопрос, собственно, в том, где проходят границы отбора. Была бы любопытна статистика, насколько «важные» сюжеты Я.новостей совпадают с одними источниками и не совпадают с другими. В частности, почему согласно соцслужбам население страны любит первый канал зомбоящика, но Яндекс не считает это «важным». Можно попробовать оценить формулу «важности» Я.Новостей, еще интереснее — «неважности». Лень, конечно, но если Яндекс и далее будет упорствовать, оценим.
Яндекс задолбал уже этими «алгоритмами». В смысле, действительно, все автоматически, только есть факторы учета «наиболее качественных ресурсов». И что включено в эти «качественные» ресурсы, то и впереди. Качественные ресурсы стабилизируют выдачу — наверх идет нормальный язык. Но они бывают «левыми» и «правыми», у Яндекса в качественные помещены ресурсы только одной половинки спектра. Последние полгода особенно доставляет сравнение выдач news.yandex.ua и news.yandex.ru. На Украине все горит, в России все «мягко», хотя честная кластеризация должна была давать популярную точку зрения российского населения и большинства российских ресурсов на Украину, но не дает, так как отобранные «качественные» ресурсы перебивают все. От всего этого прет специализированной настройкой/подгонкой параметров под вполне определяемую аудиторию. В принципе, их право, но не надо врать.
Думаю где-то вот в этой схеме Спутнику и найдут бизнес-модель Это самое то — сначала вложиться, потом искать бизнес модель. Открытие выписок хорошее дело. Но принципиального решения (не декларации) об открытых данных нет, да и не будет похоже, скорее все, наоборот, закроют по-новой. Бизнес на 1% открытой информации? Остаются страшилки? Для борьбы с крамолой уже есть, наверное, десятки систем мониторинга СМИ. Да для этого даже не нужен мониторинг — увидели в существующем Яндексе крамолу в одной публикации — делай выводы. А если подключить «пионеров» — есть массы граждан — целые сообщества набегут желающих побороться с крамолой. То есть тут уже скорее все поделено давно.
У Феликса Кривина есть сказка, где говорится, что поубивал Иван Царевич всех врагов, женился на Василисе Прекрасной. И тут началось самое страшное — стали они жить-поживать, да добра наживать. Разработка «Спутника» шла от транша к траншу. Но как они будут жить и развиваться «от транша к траншу» без внятной бизнес-модели? Собственно, поиск, даже если он окажется хорошим и полезным кому-то, это ведь еще не бизнес.
Госпоисковик действительно нужен. Хотя бы для следующих задач (по сути калька с задач внутрикорпоративного поисковика «большой» корпорации): — поиск персоналий-должностей — уточнить, имя-отчество, должность, контакты; — поиск (в смысле ранжирование первыми) документов по госуправлению и т.п.; — прочим видам профессионального поиска. Могли бы эту информацию находить Гугл-Яндекс? Конечно могли бы. Но не делают. Гугл-Яндекс ориентированы (и для них правильно!) на нужды своих рекламодателей и потребителей рекламы. Поэтому, если пытаться искать какого-нибудь замминистра (не говоря уж о заместителе ФГУПа) по фамилии и инициалам, или по фамилии и имени — его, скорее всего, не будет на первых 10 страницах выдачи — а будет куча пользователей вконтакте. Есть еще вопрос безопасности. Анализ самих запросов пользователей и их переходов может позволять неплохо ориентироваться в хотелках госчиновников и специалистов госкомпаний на этапе подготовки документов. Это деньги и очень большие. Другое дело, что когда все это сложат в одно место — оттуда и воровать это будет проще. Но это уже другая история.
Респект. Делай, что должен, и будь, что будет.
[quot] @с точностью 82,2% технология определяет пол 82,9% пользователей@ т.е. вы пол определяете с точностью 68% ну так бы и написали [/quot] Это нормальные средние цифры для такой задачи. Яндексовская крипта заявляет о таком же, как и в научных статьях. Для практики такого достаточно из-за разницы в посещаемости. Полагаю, что для 10% самых активных пользователей точность процентов 95, а для хвоста — уходит в ноль. Другой вопрос, что «пол» — неточная сама по себе характеристика. Женщины покупают мужчинам бритвы, а мужчины, наоборот, духи и цветы.
Последнее — неправда. В начале и середине прошлого года было видно (в том числе и по рамблеровскму топ100), что Рамблер рос медленнее «эха» и «рбк» , как раз во время протестов. Либо эти материалы специально фильтровались, либо слова про профиль пользователя, как бы сказать…
Ну что за детство, Капитан Очевидность? Даже с 30% качеством система может быть полезна, а с 99% недостаточно хороша. Если решение проблемы (не задачи!) важно, то будет искаться другая постановка, будут вложения в новые данные и т.д. Вот Гугл-переводчик — ужасен по качеству, но смысл новостей позволяет понять. У меня есть знакомые, которые переводили с пользой для себя с норвежского и кашмирского(? я такого языка-то даже не знаю). Собственно РОМИПы, TRECи, CLEFы больше всего и заняты поиском ответов на вопросы — «что оценивать?», «как оценивать?» и «как интерпретировать результаты оценки?». В этом, собственно, и вопрос существования какого-то коммьюнити и кого-то вне коммьюнити. Ситуации бывают разные, но чаще все-таки, то, что кажется Вам и Вашим разработчикам откровением, сообществом уже пережевано и выплюнуто. а) какая необходима полнота индексирования? Сколько из 100 000 мнений в блогах , ФБ, ВК и форумах должна реально видеть система? Если реально она видит 30 или 40% (а до остальных не может добраться) — это нормально или плохо? Ответ на этот вопрос легко получить постепенно увеличивая полноту. Будет насыщение — ок, не будет — всем абзац, в том числе и шурум-буруму. В смысле — придется менять задачу. б) Какова должна быть допустимая полнота определения позитива/негатива/нейтрального/смеси? Если из 1000 мнений определяется хоть как-то 100 или 300 — это хорошо или плохо? Смотря для чего. Например, многим интересно — за что ругают, за то хвалят. Тут и один пример может быть ценным. Опять-таки в реале есть еще время. Если показатели выделения стабильны — Вы определяете только стандартную часть выборки — тоже информация. Ну и так далее — все от задачи зависит. А точные цифры оценки позволяют вовремя сменить постановку. И все с этим легко соглашаются…
Нет, Игорь Станиславович, не съезжайте с базара! Вот именно. Про кросс-постную анафору в сарказме — это была шутка. Вот так всегда, как прихватят Ашманова за руку, так он в кусты. (Кросспосты есть, анафора есть, сарказм есть. Даже задачу такую можно представить. Решение по анафоре и сарказму — на 30%) В результате так и не понятно, почему разработчики АиПа послали визионера на х*р. Сказали, наверное, иди, паря, шути дальше с клиентами. … — это была шутка. Как я понимаю и все остальное, что Вы говорите, тоже шутки. Замечательная легкость в мыслях. 30 тысяч одних курьеров….
Не стоит смешивать теплое с мягким. Ну что за песни про «темных» заказчиков («милиционеров или чекистов») и РЫНОК с большой буквы. Ведь и там и там заказчик по определению разбирается в предмете хуже разработчика. Заказчику вообще нужны продажи или если «милиционеры или чекисты» — наверное, ловить кого-то. А и тем и другим льют в уши либо «что у нас лучше Яндекса и Гугла» (обвинение Ашманова против попавшегося ему под руку КМ), либо «семантическое зеркало», «больший хайтек — хардкорная прикладная лингвистика». Ну где логика-то? Заказчику абстрактно хочется одного, но на практике ему достаточно и более простых вещей, но сразу. Эти простые функции, реально нужные заказчику реализует 100 фирм и фирмочек. А дальше чистая «маркетинговая балаболка» — кто во что горазд, чтобы впендюрить именно своего да побольше. А кто более легковерен и темен — госзаказчик или покупающие клики за неясно какие деньги — ну где тут разница? И давайте про сарказм по-подробнее. Про 78%. Я утверждаю, что это наглое вранье. Вы готовы демо-сервис предъявить для проверки? Будете правы, публично извинюсь.
Еще чуток про РОМИП. Надо понимать, что когда дорожка появляется в РОМИП/TREC и т.п., то это признак «прединдустриального» состояния задачи. Идея уже овладевает массами (в дорожке по сентименту будет вроде бы больше 10 участников). Логичными следствиями являются: — массовая проверка всех известных методов, — быстрая фиксация «хорошего» уровня — выбор НЕСКОЛЬКИХ методов, достигающих этот «хороший» уровень Дальше появляется какой-нибудь Яндекс, что запускает бесплатный(!) сервис, выбивающий всех с рынка кроме 1-2 игроков, имеющих какие-то изюминки, которые как-то доказываются. Без доказательств утверждения о чемпионских технологиях после РОМИПа будут вызывать только смех. … кросс-постная анафора в сарказме не восстанавливается … По одной этой фразе можно сказать (так как «кросс-постная анафора в сарказме не восстанавливается» в ближайшие 5-10 лет не будет восстанавливаться с качеством более 30-40%) на выбор: — либо Ашманов брякнул глупость, — либо шурум-бурум безнадежен — люди им занятые тратят свои усилия на ненужное, очевидно, упуская более эффективные методы повышения качества.
Cлушайте, а не движет ли всем поведением г-на Ашманова зависть, или даже ревность? Когда он заходит в Минсоцзравразвитие со своим «ТакЗдорово» — это хорошо. КМ заходит в Минсвязь — это УГ. Когда он занимается экстремизмом (http://www.e-xecutive.ru/knowledge/an.. ./1440933/) — это хорошо. Когда другие (и кто только не занимался, начиная с MUC-6, кажется) — это УГ. Когда Ашманов сотрудничает с МВД (где-то рассказывал, что даже форму одевал) — это хорошо. Когда другие — несомненное УГ. Вообще, когда Ашманов что-то делает в стране — он патриот, ненавистник американского. Когда другие — это УГ, лузеры «по-американски». Просто чудо, интересно аблюдать эту, э-э-э…, раздвоенность сознания. Но насколько же надо делить авторитетность такого мнения? Кажется, со временем, коэффициент только растет. Кстати, сюда же, собственно, предмет — когда Квибрум-Крибурм-Крибрум — это хорошо. Когда «Ingate Development запустил монитор соцмедиа и СМИ» — это УГ.
ну вы там в своем экс-Рамблере разберитесь чьи там подписи где стоят — я-то только читатель в данном случае [url=http://]http://www.forbes.ru/tehno-opinion/internet-i-telekommunikatsii/69024-v-proekte-whoyougleru-ya-realizoval-o-chem-ya-mecht[/url] Я, внимательно читая эту книгу, так и не понял. Куда девались деньги, я так и не понял. Зато вокруг главного героя в белой одежде (исполнительного директора), чья подпись стоит на всех денежных документах, существует огромное количество мерзавцев, придурков, жуликов, которые компанию разваливают. При этом не видно, какое количество миллионов досталось этим мерзавцам, придуркам и жуликам. Самый простой вопрос, который мог бы себе задать думающий человек при чтении «Жизни внутри пузыря», — «Как ты, исполнительный директор, допустил возникновение финансовой дыры?».
О как задело Ашманова! И как человек, поднаторевший в кухонных спорах (даже аргумент типа — «еще шляпу одел»), он сразу стал переводить стрелки. Кажется мы обсуждаем наукоемкий бизнес. В каждой стране он соответствует масштабу страны. В РОМИП участвует мелкий бизнес, исследовательские подразделения корпораций, лаборатории вузов и отдельные исследователи. Если объединить их (без Яндекса-Мейла) проекты, то окажется, что они вполне востребованы руководством страны, большинством министерств, основными корпорациями и банками, ну и, конечно, спецслужбами (куда же без них). Список этот расширяется. Участники «широко известны в узком кругу» названных организаций. Люди учитывают интересы заказчиков и не орут о проектах на каждом углу. (Они вообще тихо работают и не пишут обычно с утра до ночи по форумам). Это достаточно честный бизнес, соответствующий масштабу нашей страны. И они деньги инвесторов не просирают, как некоторые просрали деньги Медиалогии, Рамблера (ведь Ваша подпись стояла на всех финансовых документах — и когда не хватало компьютеров в Рамблере, о чем так трогательно в книжечке написано — это Ваша вина). Сейчас Вами просирается вьетнамский проект. В Вашем случае это будет, конечно, яркий запуск, красивые интерфейсы, шумный пиар и … большие финансовые потери, причем в основном не Ваши. Ну тут дальше главное быстренько еще что-нибудь новое-самое-важное-что-перевернет-мир выкатить. Иду закупаться попкорном, смотреть дальше на это. Кто там у нас загибается? Да ещё через год? Дайте примеров, что ли? У Вас успешны бета-новотека (так сразу бы порнухой торговали), изготовление сайтов и сео. Была коммерчески успешна сомнительная сделка (думаю, современная ЛК просто в восторге…) по продаже Спамтеста. А насколько успешны в финансовом плане проекты аппликата, блондинка, флексум? Что у Вас наукоемкого-то прибыльно? Не громко пропиарено, а прибыльно?
Но вопрос «зачем» всё равно остаётся. Пока, как мне кажется, здесь на него не было дано удовлетворительного ответа. Попробую ответить — «зачем» это для Вас лично. Нет уверенности, что Вы в силу свойств своего характера поймете меня, но Вы спросили — я отвечаю. Возглавляемый Вами куст компаний вызывает симпатию периодически-постоянным выпуском вполне себе инновационных продуктов — сегодня часть из них называлась. Однако абсолютное большинство этих симпатичных проектов быстро умирает, очевидно, принося убытки, или не принося ожидаемой прибыли. Мне кажется, что часто это предопределено еще при запуске. В силу недостаточной информированности, опыта и прочих причин многие Ваши проекты содержат «родовые» ошибки, которые, возможно, могли бы быть исправлены, если бы кто подсказал. Причем не потому, что советчики умнее, но просто больше видели или читали в этой области. Но, действительно — зачем? В текущей ситуации прикольнее смотреть как все загибается через годик. По фирменному «ашмановскому» объяснению — «попался плохой менеджер». Так вот — вынос соответствующей темы на обсуждение в профессиональную тусовку — может быть Вам просто выгоден. Хотя бы для минимизации убытков. При этом конкуренция маловероятна. Во-первых, места пока всем хватает. Во-вторых, у Вас преимущество времени. Например, сейчас, кажется, стагнирует вьетнамский проект. В смысле удастся ли Гугл отжать — не понятно. А лимон-то уже потрачен, а то и больше. При этом и Яндекс ищет по-вьетнамскому интернету и лезет в турецкий. Чуть-чуть и разные российские компании захотят полезть в другие интернеты. И тут можно было бы уменьшить риски, запустив дорожку в РОМИП, или поучаствовать в CLEF или NTCIR — на РОМИПе свет клином не сошелся. Но, конечно, стоя в гамаке — оно интереснее.
ну иногда их бывает и больше http://romip.ru/romip2009/01_organizers.pdf (стр.7) Ну и, как не странно, даже «второе из двух» не так плохо — это второе из двух тех, которые готовы были представить свои алгоритмы на независимую экспертизу. Так как дорожки открыто объявляются — это может восприниматься, что других либо нет, либо они боятся :) Вот, например, сейчас обсуждается сравнение синтаксических парсеров — несколько «основных» участников говорят: «а мы вообще не понимаем зачем сравнивать» — у нас лучше всех! То есть типичная ситуация — у нескольких игроков (вполне успешных в плане реализаций конкретных проектов) — «лучше чем у других». А новые игроки, быть может тот же ашмановский Диктум на самом деле лучше — но как узнать?
за фразу И на Ромипе мы cо своими лингвистическими алгоритмами занимали места ругать не будут Ругают за примерно такое: «наши алгоритмы лучше чем алгоритмы компаний Х,У и Z» — пока угрозы опубликовать контр-объяснение хватало. Можно примерно так «наши алгоритмы в специфических условиях РОМИП показали лучшие результаты чем экспериментальные алгоритмы других участников».
У вас я вижу, по-прежнему очень сильна иллюзия, что тестирование чего-то в РОМИПе или даже просто на данных РОМИПа может как-то помочь в пиаре и маркетинге Формально результаты РОМИП не могут быть использованы в пиаре. РОМИП (да и любая независимая экспертиза) «используется» участниками для нескольких целей: * Самый дешевый способ себя перепроверить (=дубинка для разработчиков, причем самая дешевая). * Уточнение постановки задач — практически все «широко обсуждаемые» задачи IR неправильно поставлены — их решение в стандартной постановке невозможно выше бессмысленного для практики уровня. Причем каждый неофит говорит о 99% качестве, что обычно — наглая ложь. В результате TRECов и РОМИПов находятся реальные пределы и ограничивающие факторы. Далее эти знания используются при проектировании реальных продуктов. То есть достаточно получить приемлемый уровень (см. «морфология»), а дальше можно и не тратить усилия (что полезно для любой фирмы). А недостатки технологии обработки дотягиваются организационными или интерфейсными решениями — по сути, новыми постановками задач. * Косвенно — отсекаются гопники, которые определяются как раз по бравым неадекватным речам. а если типа, всё плохо, упало на дорожке — то сильно повредить. За это не ругают — ошибки бывают у всех. Тут важен процесс. Во всех соревнованиях: TREC, CLEF, РОМИП — результаты участников растут год от года, сходясь к окрестности максимума возможного для решаемых задач. В реальности РОМИП — это такая странная штука для гиков, местечковая и анонимная, до которой никому нет дела и о которой почти никто не знает. Хвалиться ею при продаже — только вредить делу, посмотрят как на идиота и постараются отделаться. Это не так. Конечно, ранее выполненные проекты важнее. Но совсем не вредит, что предлагаемые решения прошли независимую экспертизу.
Брали не под участие, так посмотреть, погонять Флексум, видимо, на тестовых данных. Переведите. Что такое «погонять на тестовых даных»? Я думаю — сравнить результаты Флексума с оценками РОМИПа. Сравнили, наверное, не так уж много текстов. А что-то результаты не показали. Дальше только конспиралогия. Результаты были замечательные, но люди, которые очень любят пиариться, решили тут проявить скромность… Это были люди не из АиП, а из Поисковых технологий, в 2009 году. Надо будет уточнить при случае — а кто подписал бумагу. Могу ошибаться, но мне когда-то говорили, что некий Ашманов И.С. Наверное, Ваш однофамилец из Поисковых технологий.
Ashmanov лает, а РОМИП идет… Ради красного словца, не пожалеет ничего. Следует учитывать, что Ashmanov давно уже сам не лингвист, не прикладной лингвист, а так — бизнесмен (и до самого недавнего времени числился младшим научным сотрудником ВЦ РАН), который сегодня скажет одно, завтра другое. Что-то про лингвистику он еще помнит, но немного. Его бизнесы с лингвистикой — убыточны. Прибыльны бизнесы без лингвистики. Чего его слушать про это? Какие то сказки про «синтаксический разбор предложений»,…, «восстановление анафор и эллипсисов» — неужели сам верит, что его Диктум все это делает хоть сколько-нибудь нормально? Рассуждения по пул — детские — почитайте исследования, наконец. Не позорьтесь — для «знатока» должны бы знать. Задания РОМИП не сложные. Люди Ashmanov’а в прошлом году точно брали данные и вроде собирались участвовать. Но не смогли. Или смогли, но показали результаты хуже и решили не открывать. В любом случае без этого именно «многолетний флекснум» = УГ. У РОМИПа много проблем. И он некоммерческий. Цель — ставить задачи, уточнять постановки, уточнять критерии оценки. «Дорожки», «соревнование» — это инструмент. На практике РОМИП немного оздоровил атмосферу в отрасли по поводу того, кто «лучше ищет», у кого «самая чудодейственная технология». Все стали более аккуратнее в высказываниях — кроме Ashmanov’а, конечно. У которого, каждые полтора-два года новые «открытия», сдувающиеся еще через год . Если начать вспоминать — аппликата, блондинка, новотека (которая новости), инфы — все не упомнить, хотя мозги конопатились, будь здоров. Возвращаясь к начальному посту. Вот сделали люди нечто новое — и как оценить? Причем только запустились, как отличить проблемы роста от проблем технологии? Можно послушать людей с распальцовкой и понтами, да еще уязвленных тем, что их технологии проигрывают новому конкуренту в чем-то. Или обсуждать с более взвешенных позиций, выработка которых и есть, собственно, цель РОМИПа. А пока сам в РОМИП или в чем-то независимом хоть что-то не показал — все это болтовня пустая.
И этот человек (Ашманов) говорил, что персонализация плоха…. Здесь — накопление персональных данных (ну ладно, пусть можно попытаться гарантировать ответственное хранение, грифование и прочее). Но! Сообщение части этих персональных данных третьим лицам — тем кто физически втюхивает рекламу. Это же статья УК готовая.
>> Скажите, а вот зачем это все нужно, когда есть РОМИП ? Нет, серьезно ? > РОМИП про другое. Он фактически про IR, а не про поисковики. > Про как бы науку, > Он недотягивает до настоящей научной конференции, Какая есть наука про IR в России — такая она и на РОМИП, другой нет. Иначе надо на WWW, ECIR, SIGIR, даже на RCDL, к которой РОМИП пристыкован, но не в Яхрому же. Тоже еще «научная» конференция…. > а не про проекты, интерфейсы и будущее рынка. > а отраслевой и вовсе ни разу не является. > А отраслевой не было до сих пор. Кому-то ну очень хочется порулить тем, чем рулить не дают. Если это бизнес-конференция c полноценным участием Яндекса, Гугла и т.п. — нафига в Яхроме? Все невнятно с этой конференцией — и не научная конференция и не бизнес-конференция.
От джинсы типа «кулуары» и «общение» откровенно тошнит.
> Поэтому у него и возникло желание собрать отдельно тех, кто имеет отношение к производству поисковиков А кто такой Ашманов с точки зрения разработчиков? Если речь о профессиональной тусовке — так уже есть — РОМИП и др.? И зачем для этого разработчикам деньги платить? Или это «возникло желание» заодно поучить всех уму-разуму, обсуждая как-бы другие стартапы? Ну-ну…
To sadovsky: > Для разогрева: > http://clubs.ya.ru/company/replies.xml?item_no=16790 To iseg: >Статья научного сотрудника Яндекса Дмитрия Павлова (Yandex.Labs) … > Ой что это? http://www.kdd.org/kdd/2009/papers.html Large-Scale Behavioral Targeting Ye Chen* Yahoo! Labs; Dmitry Pavlov Yahoo! Labs; John Canny Computer Science Division University of California Berkeley ———— Yahoo! Labs ———— ^^^^^^^^ По-видимому, теперь можно сказать, что все публикации Yahoo пишутся сотрудниками Yandex. Зря была вся эта дискуссия — сколько публикаций у Яндекса!
> Идите к Путину за баблом! Он даст — зуб даю. :-) давайте зубы! Мин науки сейчас собирается вычеркнуть в целом информационные технологии из перечня критичных технологий, что автоматом сократит в разы финансирование.
> А про элегантное решение в статье 2006 года понравилось, спасибо, расмешили. возможно не все поняли, что речь идет не о статье Яндекса на WWW2006 про определение новостных запросов — достаточно простую а упомянутую Сегаловичем не принятую статью о кластеризации новостей, которая, кажется, так в результате нигде и не опубликована, кроме записей в блогах они кластеризуют новости путем исполнения специального типа запросов — это, с моей точки зрения, не самый идеальный способ с точки зрения полноты, точности и т.п. но технологически этот способ элегантен, так как позволяет им использовать стандартный engine, включая стандартное распараллеливание при выполнении запроса, что весьма и весьма полезно для оперативной кластеризации потока новостей кроме того, сам способ кажется мне новым (по крайней мере на 2006 год)