Ashmanov > Да правила РОМИПа можно нарушать и всем рассказывать, что ты чемпион Справедливости ради надо признать, что наивное ингейтовское пиписькомерянье — скорее исключение, чем правило. Большинство участников все же никогда не называет себя чемпионами, насколько мне известно. > Обсуждать здесь серьёзные вопросы возникновения новой отрасли — не с кем особенно-то. Либо унылые айтишники-болтуны не в теме, либо умозрительные эксперты. Эх, Игорь Станиславович, Игорь Станиславович…
Ashmanov > Но согласитесь, что много там у вас и инвалидов. У которых и технология так себе, и продукт унылый, и единственная надежда на убалтывание как-то милиционеров или чекистов, что их анализ оперативных сводок, новостей или экстремизма — самый крутой. Возможно. Таких, конечно, любить не за что. Но вот, допустим, студент-старшекурсник по собственной инициативе что-то там сделал для ромипа, получил какие-то результаты. Понятно, что и законченных технологий у него никаких нету, и система не продакшен качества. Его что — тоже «инвалидом» назвать? Поглумиться над ним? Ну не про это ромип, не про сравнение реальных рыночных систем (например, поисковиков). Он про конкретные алгоритмы, про исследовательскую научную работу. То, что отдельные маркетинговые балаболки (как вот товарищ из ингейта, который даже статьи своих ребят не читал) всерьез меряются пиписьками — это все же не повод смотреть на семинар их глазами. Эх, ладно, Игорь Станиславович, наверное хватит уже про это.
lexa Если честно, я не совсем понимаю, к чему эти вопросы. Вы начали с того, что заявили, что для оценки качества поисковой системы нужно сравненивать с идеальной выдачей. Вам показали, что вовсе не обязательно. Что общепринятый способ (например, метрика DCG или ERR) как раз не предполагает знание идеальной выдачи. Т.е. эта ваша претензия несостоятельна. Затем вы стали утверждать, что если какие-то релевантные документы не попали в топы и остались не оцененными — то это большая беда. Вам указали на то, что в большинстве случаев это не так, что разные прогоны можно корректно сравнить между собою без знания о тех релевантных документах, которые остались за бортом. Получается, и эта ваша претензия не по делу. Затем, не возвращаясь к предыдущим вопросам, вы усомнились, что глубина котла в 20 может быть достаточна для корректной оценки системы. Вам ответили, что в ромипе это предусмотрено, и есть метрики, которые рассчитываются только на глубину котла. Таким образом, и это ваше возражение ошибочно. После всего этого вы стали утверждать что все это называется методикой оценки «не зная базы». Что, видимо, означает, что методика ромипа все же «плохая». Вам ответили, что это лучший из практически осуществимых методов. Сформулировать четкие критерии альтернативной методики, которая была бы экономически целесообразна и давала бы разумные результаты, вы не пожелали. Т.е. выходит, что методика все же «хорошая». Далее, вы выдумали ситуацию, когда оценка будет не корректна при разном подходе у участников к подавлению дублей. Вам пояснили, что эти сомнения не имеют под собой почвы, поскольку методика тестирования оговаривается до начала дорожки, и что участники вольны поступать с дублями как им заблагорассудится, что никак не отражается на потенциальной возможности поставить разумный эксперимент и получить интересные результаты. Не возвращаясь к предыдущим вопросам (как бы «забывая» про них, этот прием в системе женской логики имени Беклемишева называют «отвергание аргумента») вы теперь справшиваете что-то новое про частные особенности дорожки поиска по нормативным документам. Конечно, существует рациональный ответ и на этот вопрос, но экстраполируя предыдущие раунды общения, я предполагаю, что сразу после этого последует какое-то новое сомнение или вопрос. У меня сложилось субъективное ощущение, что вы просто хотите тут любой ценой доказать, что методика ромипа плоха, и хватаетесь за первое, что попадется под руку. Т.е. задача состоит не в том, чтобы выяснить истину, а в том, чтобы любым способом настоять на приятной вам точке зрения (в той же системе женской логики это называется «принцип абсолюта»: Если из высказывания P следует Q, и Q приятно, то P истинно). В таком споре (когда ошибочность предыдущих сомнений как бы замыливается, а новые генерируются произвольным образом в произвольном количестве) последнее слово будет, очевидно, за тем, у кого больше свободного времени — и это буду не я. Чтобы завершить тему про методику ромипа, скажу лишь, что любые осмысленные/научнообоснованные предложения по улучшению методики принимаются там с благодарностью. Если у вас есть что предложить по делу и аргументированно, то вы всегда можете это сделать. Если же ваша цель состоит в том, чтобы во что бы то ни стало доказать, что ромип плохой, то я вас без труда опроверну с помощью вашей же логики: просто сказав, что ромип — хороший.
lexa > В смысле? То, что «метрики по всей коллекции — полезны» — нужно доказывать и за такое доказательство дадут шоколадную медаль? Вы это сгоряча, я надеюсь. Я написал, что шоколадку дадут только тому, кто предложит практически реализуемый метод. Вы же, насколько я понимаю, предлагаете оценить все документы в базе по каждому из запросов. Я прав? Если прав, поинтересуйтесь как нибудь, сколько стоит такое удовольствие для базы хотя бы в десяток миллионов документов и хотя бы для тысячи запросов. Если же я не прав, и вы имели в виду что-то другое, то давайте вы немного более формальным языком сформулируете, что именно. Просто в этой области есть устоявшаяся терминология, и я не совсем уверен, что хорошо понимаю, что подразумевается под словами «метрики по всей коллекции». Какие конкретно метрики, как именно их рассчитывать, какие документы оцениваются и сколько их оценивается. Впрочем, если не уверены, что вам это надо — лучше не продолжать. > Ага, но что будет, если качество подавления дублей (и вообще — само понятие дубля) у испытуемых разное? При наличии дублей (близких документов, длинных цитат) — для получения высокой оценки может оказаться выгодно эти самые дубли не давить (ну то есть можно построить такие коллекции и такие запросы, где это так). Вы вот все пытаетесь воспринять ромип в терминах пузомерки. А он не про это. Вот я пишу: все участники договариваются про дубли до начала дорожки. Допустим, все договорились, что давят дубли, причем разметка что является дублем, а что нет присутствует в самой базе (т.е. однозначна). А вы спрашиваете — а что будет, если я все же не буду давить дубли? Ну, получите вы прогон, не сравнимый с прогонами других участников. Никаких новых знаний вы не обретете. Хотя, конечно, метрики будут показывать более высокое значение качества для вашего алгоритма. Но ведь способов обмануть себя существует бесчисленное количество, и зачем выбирать такой сложный, с помощью ромипа? Вы буквально спрашиваете — а что будет, если на марафонскую дистанцию рядом с прочими бегунами поставить мотоциклиста. Будет то, что он приедет первым. Ничего нового вы не узнаете. Хотя, конечно, если ваша цель была победить в марафоне любой ценой — она будет достигнута, пусть и идиотским способом. Ромип — это исследовательская площадка, лаборатория для проведения экспериментов. Она позволяет сравнить то, что можно сравнить, и таким образом выяснить какие-то новые свойства реальности. Чтобы провести корректный эксперимент, нужно соблюдать некоторые принципы. Об этих принципах договариваются до начала эксперимента. Простите, что пишу такие очевидные вещи, но никак иначе на ваши вопросы ответить нельзя.
lexa > Да у меня возражений особых и нет, ну вот такая методика, сравниваем выдачу «не зная» базы, ну да. Возможно, описанная методика не идеальна, но она является общепринятой. Если у вас есть способ лучше, и при этом вы можете научно обосновать его преимущества и практическую применимость, то best paper award на конференции sigir у вас практически в кармане. > Единственное возражение по сути заключается в том, что поисковики с подавлением дублей (частичных дублей, длинных цитат) и поисковики без оного — сравнивать путем подсчета релевантных документов в выдаче не вполне корректно. Это как раз вообще не проблема. Все вопросы о методике проверки принято решать до проведения самой дорожки. Если все договариваются, что нужно давить дубли, то оценка производится с учетом этого. У меня сложилось впечатление, что суть ромипа не совсем очевидна многим участвующим в разговоре. Кажется, некоторые представляют, что участники поисковых дорожек действительно соревнуются с яндексом. Отсюда и насмешки Игоря Станиславовича над теми, кого он называет «инвалидами». Неуместность этих насмешек объясняется ошибочным восприятием как соревнования тех вещей, которые соревнованием не являются. Это как если бы сказать, что по сравнению с Биллом Гейтсом Игорь Станиславович является нищим голодранцем, суетливо собирающим в дорожной пыли свои копейки. Сравнение верное по сути (т.е. оно в целом неплохо передает соотношение между сравниваемыми объектами), но бессмысленное (поскольку ни Игорь Станиславович с Биллом Гейтсом, ни Билл Гейтс с Игорем Станиславовичем не соревнуются) и при этом некорректное по форме. Ромип не предполагает соревнование участников. Это не забег «Вася Пупкин против яндекса». Это даже не соревнование технологий. Разумеется, вменяемые участники понимают, что помимо способности проиндексировать несколько сотен гигабайт и способности находить что-то в этом индексе от нормальной поисковой системы требуется масса других вещей, не учитываемых в дорожке. Ромип является площадкой для сравнения алгоритмов. Участнику может быть вообще неинтересно сравнение с другими участниками — он может просто сравнивать разные варианты своей собственной ранжирующей формулы. Участники специально поставлены в такие условия, когда все прочие факторы (например, производительность) удалены из сравнения, а оценивается, скажем, лишь способность некого алгоритма находить релевантные документы с помощью текстовых факторов. Зачем это нужно участникам — это уже другой вопрос, который лучше задать им самим. Кстати, задайте, Игорь Станиславович, если действительно интересно. Например, в результате участия в дорожке можно лучше понять, как именно работает тот или иной алгоритм, как его можно улучшить. Можно понять, что алгоритм хорошо выглядит на фоне алгоритмов других участников. И обо всем этом можно рассказать коллегам в виде статьи. В результате общее количество знаний в индустрии возрастает, и никто не уходит обиженным. Но это, вероятно, лишь одна из возможных мотиваций. Бывают, конечно, товарищи, которые начинают что-то там говорить про «подтверждение высокого качества наших технологий» и даже про то, что наша система «немного лучше других» (как вот давеча высказался товарищ из ингейта). Но это — обычные неодушевленные маркетинговые балаболки, чего уж с них взять.
Ashmanov > почему не рассматриваются документы глубже верхних 20 или 50 Большинство метрик малочувствительно к документам, расположенным далеко от начала выдачи. Часто современные метрики пытаются оценить выдачу именно с точки зрения пользователя, который начинает просмотр результатов более-менее с начала. Как для живого пользователя в первую очередь интересно качество документов на самых первых позициях (или хотя бы на первой странице), так и метрики DCG/ERR/Pfound (и даже старенькая average precision) сильно зависят от нескольких первых результатов, и слабо реагируют на изменения за пределами первой двадцатки. Таким образом, если мы доверяем этим метрикам, то оценки топ-30 вполне достаточно в большинстве практических случаев. Вывод о достаточности глубины 20-30 делается исходя из здравого смысла и знания свойств метрик. Насколько можно доверять этим метрикам — другой вопрос. Вроде бы на ведущих IR-конференциях принято считать, что доверять можно. Известны попытки посмотреть, как та или иная метрика коррелирует с «удовлетворенностью» пользователей, но сделать какие либо определенные выводы из подобных экспериментов затруднительно. На ромипе эти метрики используются, поскольку ничего лучше пока никто не придумал. > Это, как мне кажется, указывает на то обстоятельство, что сравнивать на дорожках с общим котлом можно те технологии, которые делают примерно одно и то же. А если кто-то выбивается полностью, на 100%, то будут разные нехорошие эффекты в дорожках. Я не прав? Не совсем. Метод общего котла гарантирует, что первые N документов каждого участника по каждому запросу будут рассмотрены асессорами. Если кто-то сильно выбивается, то его выдача в пределах первых N документов все равно будет полностью оценена. При этом чувствительность основных метрик находится ниже числа оцениваемых документов. В принципе, для особо сомневающихся на ромипе рассчитываются также метрики, ограниченные по глубине тем самым числом N. В таком режиме мы как бы делаем вид, что размер поисковой выдачи ограничен числом оцененных документов (например, 20). Таким образом, расчет метрик производится только по полностью оцененным выдачам, и ни одна из систем гарантированно не получает преференций или штрафов за похожесть/непохожесть на других. P.S. А насчет суетящихся на дорожках инвалидов, вы бы, Игорь Станиславович, лучше бы все же извинились. Перед участниками.
Ashmanov > Вот я читаю, чего выше пишут технические специалисты, участвующие в РОМИПе и вообще туго знающие поиск и прикладную лингвистику Это были сеошники. Не обращайте внимания. На мой взгляд, уровень разговора сильно зависит от уровня его самых авторитетных участников.
2 lexa Давайте я в двух словах объясню. Большинство описанных в литературе и реально используемых в индустрии метрик не предполагает сравнения качества выдачи поисковой системы с идеальной выдачей. Например, при расчете DCG, Expected Reciprocal Rank или Pfound не требуется знать, сколько существует релевантных документов всего в базе. Методика, используемая в ромипе, называется «общим котлом». Сначала собираются ответы всех систем-участников (допустим, 100000 запросов). Случайным образом выбирается подмножество оцениваемых запросов (допустим, 500). Затем для каждого оцениваемого запроса для каждой системы производится оценка топовых ответов (допустим, 20). За счет того, что все системы пытаются предсказать одно и то же, их выдачи сильно пересекаются, и документов нужно оценивать заметно меньше, чем 20 * количество участников. При этом все документы по всем оцениваемым запросам у каждого участника оказываются оценены. Это позволяет корректно сравнить качество всех систем участников между собой.
Ashmanov > Это от кого совет? Это не столько совет, сколько попытка обратить ваше внимание на диссонанс между используемой вами лексикой и тем сдержанным уважительным тоном, который принят в кругу технических специалистов по отношению к коллегам.
lexa > беда методики даже не в «100 запросов из 30к» (хотя и в этом тоже), а в том что из всей коллекции оцениваются только те документы, которые попали в топы. А которые не попали — никак не оцениваются. Чем меньше участников, тем больше таких документов и тем больше беда. Частично эта статья отвечает на ваш вопрос. http://download.yandex.ru/company/grant/2005/04_Nekrestyanova_103126.pdf
Ashmanov > …надо же и остальных инвалидов как-то пустить побегать по дорожке > …суетится на дорожках Игорь Станиславович! При всем к вам уважении — спилите, пожалуйста, мушку.
> Да, над статьями Ингейта можно иронизировать, но не стоит забывать, что это был первое их участие в РОМИПе. Как раз к статье никаких претензий нет. Она, скажем так, не хуже остальных ромиповских статей, если вы понимаете, о чем я. Авторы — молодцы, вне зависимости от полученных результатов. Проблема не в статье, а в маркетинговой лапше, которую пытаются всем навесить товарищи из ингейта. На фоне вроде бы академического семинара вдруг включается маркетинговая говорильная машина и начинает что-то там бубнить про ромип. Ну вот смотрите. 1. Товарищ из ингейта говорит, что у них есть какая-то «лингвистика». Ссылается при этом на ромиповскую статью. Реальность же заключается в том, что никакой «лингвистики» нет, а есть только чужая морфология и алгоритм из учебника «IR для чайников». Ну, я уже об этом писал. 2. Товарищ из ингейта говорит, что они якобы получили результаты немного лучше остальных. Жесткая, неприятная правда состоит в том, что никакого «лучше всех» нет, а товарищ из ингейта статью своих сотрудников даже не читал. Или читал, но не понял, а говорит с чужих слов. В статье черным по белому нарисовано, что по точности, полноте и f1 участники ингейта не лучшие. 3. При первом удобном случае товарищи из ингейта ссылаются на свое участие в научном семинаре, типа мы за науку. Плохая, неудобная реальность заключается в том, что такое маркетинговое балабольство прямо запрещено правилами ромипа. Т.е. когда они утверждают, что были лучшими на семинаре, то они не только сильно преувеличивают, но и еще нарушают один из главных принципов семинара.
> Опыт РОМИПа как раз показывает, что очень часто простые и наивные алгоритмы работают на уровне, а то и лучше каких-то сложных методов, достаточно вспомнить результаты на дорожке поиска 2009 года А что не так с этими результатами? > В дорожке классификации мы использовали вполне простой и очевидный метод, Об этом я и говорю. Никакой «лингвистики» нет. Есть чужой морфологический парсер и студенческий алгоритм классификации. Или именно это вы называете «лингвистикой»? > почему же мы получили результаты несколько лучше остальных? Судя по графикам в вашей же статье, ни по точности, ни по полноте вы не являетесь лучшими. Прочитайте свою статью и убедитесь сами. Никаких результатов «несколько лучше остальных» не видно. Как-то нехорошо получается. Конечно, если тщательно поискать, то среди пары десятков разных метрик может найтись парочка где у вас окажется лучший результат, но это совсем не удивительно при таком маленьком числе участников. Так что ваше утверждение что вы лучшие по классификации — это такое недостойное преувеличение в чисто маркетинговых целях (что вообще-то запрещено правилами ромипа). Про второе место из двух возможных в снипетной дорожке уже говорилось :)
> И на Ромипе мы cо своими лингвистическими алгоритмами занимали места Помотрел ваши статьи с ромипа. Мда… Под крутыми лингвистическими технологиями вы, очевидно, понимаете использование чужого морфологического словаря АОТ и вычисление cosine similarity для двух документов? А под заниманием мест вы подразумеваете второе место из 2х возможных в дорожке по сниппетам? Я понимаю, что в дремучей сеошной тусовке это прокатывает, но все же гордиться тут нечем.
Дискуссии пользователя
Ashmanov > Да правила РОМИПа можно нарушать и всем рассказывать, что ты чемпион Справедливости ради надо признать, что наивное ингейтовское пиписькомерянье — скорее исключение, чем правило. Большинство участников все же никогда не называет себя чемпионами, насколько мне известно. > Обсуждать здесь серьёзные вопросы возникновения новой отрасли — не с кем особенно-то. Либо унылые айтишники-болтуны не в теме, либо умозрительные эксперты. Эх, Игорь Станиславович, Игорь Станиславович…
Ashmanov > Но согласитесь, что много там у вас и инвалидов. У которых и технология так себе, и продукт унылый, и единственная надежда на убалтывание как-то милиционеров или чекистов, что их анализ оперативных сводок, новостей или экстремизма — самый крутой. Возможно. Таких, конечно, любить не за что. Но вот, допустим, студент-старшекурсник по собственной инициативе что-то там сделал для ромипа, получил какие-то результаты. Понятно, что и законченных технологий у него никаких нету, и система не продакшен качества. Его что — тоже «инвалидом» назвать? Поглумиться над ним? Ну не про это ромип, не про сравнение реальных рыночных систем (например, поисковиков). Он про конкретные алгоритмы, про исследовательскую научную работу. То, что отдельные маркетинговые балаболки (как вот товарищ из ингейта, который даже статьи своих ребят не читал) всерьез меряются пиписьками — это все же не повод смотреть на семинар их глазами. Эх, ладно, Игорь Станиславович, наверное хватит уже про это.
Ashmanov Игорь Станиславович, а ваши сотрудники не планируют поучаствовать в дорожке сентимент-анализа на ромипе? Например, с Крибрумом?
lexa Если честно, я не совсем понимаю, к чему эти вопросы. Вы начали с того, что заявили, что для оценки качества поисковой системы нужно сравненивать с идеальной выдачей. Вам показали, что вовсе не обязательно. Что общепринятый способ (например, метрика DCG или ERR) как раз не предполагает знание идеальной выдачи. Т.е. эта ваша претензия несостоятельна. Затем вы стали утверждать, что если какие-то релевантные документы не попали в топы и остались не оцененными — то это большая беда. Вам указали на то, что в большинстве случаев это не так, что разные прогоны можно корректно сравнить между собою без знания о тех релевантных документах, которые остались за бортом. Получается, и эта ваша претензия не по делу. Затем, не возвращаясь к предыдущим вопросам, вы усомнились, что глубина котла в 20 может быть достаточна для корректной оценки системы. Вам ответили, что в ромипе это предусмотрено, и есть метрики, которые рассчитываются только на глубину котла. Таким образом, и это ваше возражение ошибочно. После всего этого вы стали утверждать что все это называется методикой оценки «не зная базы». Что, видимо, означает, что методика ромипа все же «плохая». Вам ответили, что это лучший из практически осуществимых методов. Сформулировать четкие критерии альтернативной методики, которая была бы экономически целесообразна и давала бы разумные результаты, вы не пожелали. Т.е. выходит, что методика все же «хорошая». Далее, вы выдумали ситуацию, когда оценка будет не корректна при разном подходе у участников к подавлению дублей. Вам пояснили, что эти сомнения не имеют под собой почвы, поскольку методика тестирования оговаривается до начала дорожки, и что участники вольны поступать с дублями как им заблагорассудится, что никак не отражается на потенциальной возможности поставить разумный эксперимент и получить интересные результаты. Не возвращаясь к предыдущим вопросам (как бы «забывая» про них, этот прием в системе женской логики имени Беклемишева называют «отвергание аргумента») вы теперь справшиваете что-то новое про частные особенности дорожки поиска по нормативным документам. Конечно, существует рациональный ответ и на этот вопрос, но экстраполируя предыдущие раунды общения, я предполагаю, что сразу после этого последует какое-то новое сомнение или вопрос. У меня сложилось субъективное ощущение, что вы просто хотите тут любой ценой доказать, что методика ромипа плоха, и хватаетесь за первое, что попадется под руку. Т.е. задача состоит не в том, чтобы выяснить истину, а в том, чтобы любым способом настоять на приятной вам точке зрения (в той же системе женской логики это называется «принцип абсолюта»: Если из высказывания P следует Q, и Q приятно, то P истинно). В таком споре (когда ошибочность предыдущих сомнений как бы замыливается, а новые генерируются произвольным образом в произвольном количестве) последнее слово будет, очевидно, за тем, у кого больше свободного времени — и это буду не я. Чтобы завершить тему про методику ромипа, скажу лишь, что любые осмысленные/научнообоснованные предложения по улучшению методики принимаются там с благодарностью. Если у вас есть что предложить по делу и аргументированно, то вы всегда можете это сделать. Если же ваша цель состоит в том, чтобы во что бы то ни стало доказать, что ромип плохой, то я вас без труда опроверну с помощью вашей же логики: просто сказав, что ромип — хороший.
lexa > В смысле? То, что «метрики по всей коллекции — полезны» — нужно доказывать и за такое доказательство дадут шоколадную медаль? Вы это сгоряча, я надеюсь. Я написал, что шоколадку дадут только тому, кто предложит практически реализуемый метод. Вы же, насколько я понимаю, предлагаете оценить все документы в базе по каждому из запросов. Я прав? Если прав, поинтересуйтесь как нибудь, сколько стоит такое удовольствие для базы хотя бы в десяток миллионов документов и хотя бы для тысячи запросов. Если же я не прав, и вы имели в виду что-то другое, то давайте вы немного более формальным языком сформулируете, что именно. Просто в этой области есть устоявшаяся терминология, и я не совсем уверен, что хорошо понимаю, что подразумевается под словами «метрики по всей коллекции». Какие конкретно метрики, как именно их рассчитывать, какие документы оцениваются и сколько их оценивается. Впрочем, если не уверены, что вам это надо — лучше не продолжать. > Ага, но что будет, если качество подавления дублей (и вообще — само понятие дубля) у испытуемых разное? При наличии дублей (близких документов, длинных цитат) — для получения высокой оценки может оказаться выгодно эти самые дубли не давить (ну то есть можно построить такие коллекции и такие запросы, где это так). Вы вот все пытаетесь воспринять ромип в терминах пузомерки. А он не про это. Вот я пишу: все участники договариваются про дубли до начала дорожки. Допустим, все договорились, что давят дубли, причем разметка что является дублем, а что нет присутствует в самой базе (т.е. однозначна). А вы спрашиваете — а что будет, если я все же не буду давить дубли? Ну, получите вы прогон, не сравнимый с прогонами других участников. Никаких новых знаний вы не обретете. Хотя, конечно, метрики будут показывать более высокое значение качества для вашего алгоритма. Но ведь способов обмануть себя существует бесчисленное количество, и зачем выбирать такой сложный, с помощью ромипа? Вы буквально спрашиваете — а что будет, если на марафонскую дистанцию рядом с прочими бегунами поставить мотоциклиста. Будет то, что он приедет первым. Ничего нового вы не узнаете. Хотя, конечно, если ваша цель была победить в марафоне любой ценой — она будет достигнута, пусть и идиотским способом. Ромип — это исследовательская площадка, лаборатория для проведения экспериментов. Она позволяет сравнить то, что можно сравнить, и таким образом выяснить какие-то новые свойства реальности. Чтобы провести корректный эксперимент, нужно соблюдать некоторые принципы. Об этих принципах договариваются до начала эксперимента. Простите, что пишу такие очевидные вещи, но никак иначе на ваши вопросы ответить нельзя.
lexa > Да у меня возражений особых и нет, ну вот такая методика, сравниваем выдачу «не зная» базы, ну да. Возможно, описанная методика не идеальна, но она является общепринятой. Если у вас есть способ лучше, и при этом вы можете научно обосновать его преимущества и практическую применимость, то best paper award на конференции sigir у вас практически в кармане. > Единственное возражение по сути заключается в том, что поисковики с подавлением дублей (частичных дублей, длинных цитат) и поисковики без оного — сравнивать путем подсчета релевантных документов в выдаче не вполне корректно. Это как раз вообще не проблема. Все вопросы о методике проверки принято решать до проведения самой дорожки. Если все договариваются, что нужно давить дубли, то оценка производится с учетом этого. У меня сложилось впечатление, что суть ромипа не совсем очевидна многим участвующим в разговоре. Кажется, некоторые представляют, что участники поисковых дорожек действительно соревнуются с яндексом. Отсюда и насмешки Игоря Станиславовича над теми, кого он называет «инвалидами». Неуместность этих насмешек объясняется ошибочным восприятием как соревнования тех вещей, которые соревнованием не являются. Это как если бы сказать, что по сравнению с Биллом Гейтсом Игорь Станиславович является нищим голодранцем, суетливо собирающим в дорожной пыли свои копейки. Сравнение верное по сути (т.е. оно в целом неплохо передает соотношение между сравниваемыми объектами), но бессмысленное (поскольку ни Игорь Станиславович с Биллом Гейтсом, ни Билл Гейтс с Игорем Станиславовичем не соревнуются) и при этом некорректное по форме. Ромип не предполагает соревнование участников. Это не забег «Вася Пупкин против яндекса». Это даже не соревнование технологий. Разумеется, вменяемые участники понимают, что помимо способности проиндексировать несколько сотен гигабайт и способности находить что-то в этом индексе от нормальной поисковой системы требуется масса других вещей, не учитываемых в дорожке. Ромип является площадкой для сравнения алгоритмов. Участнику может быть вообще неинтересно сравнение с другими участниками — он может просто сравнивать разные варианты своей собственной ранжирующей формулы. Участники специально поставлены в такие условия, когда все прочие факторы (например, производительность) удалены из сравнения, а оценивается, скажем, лишь способность некого алгоритма находить релевантные документы с помощью текстовых факторов. Зачем это нужно участникам — это уже другой вопрос, который лучше задать им самим. Кстати, задайте, Игорь Станиславович, если действительно интересно. Например, в результате участия в дорожке можно лучше понять, как именно работает тот или иной алгоритм, как его можно улучшить. Можно понять, что алгоритм хорошо выглядит на фоне алгоритмов других участников. И обо всем этом можно рассказать коллегам в виде статьи. В результате общее количество знаний в индустрии возрастает, и никто не уходит обиженным. Но это, вероятно, лишь одна из возможных мотиваций. Бывают, конечно, товарищи, которые начинают что-то там говорить про «подтверждение высокого качества наших технологий» и даже про то, что наша система «немного лучше других» (как вот давеча высказался товарищ из ингейта). Но это — обычные неодушевленные маркетинговые балаболки, чего уж с них взять.
Ashmanov > почему не рассматриваются документы глубже верхних 20 или 50 Большинство метрик малочувствительно к документам, расположенным далеко от начала выдачи. Часто современные метрики пытаются оценить выдачу именно с точки зрения пользователя, который начинает просмотр результатов более-менее с начала. Как для живого пользователя в первую очередь интересно качество документов на самых первых позициях (или хотя бы на первой странице), так и метрики DCG/ERR/Pfound (и даже старенькая average precision) сильно зависят от нескольких первых результатов, и слабо реагируют на изменения за пределами первой двадцатки. Таким образом, если мы доверяем этим метрикам, то оценки топ-30 вполне достаточно в большинстве практических случаев. Вывод о достаточности глубины 20-30 делается исходя из здравого смысла и знания свойств метрик. Насколько можно доверять этим метрикам — другой вопрос. Вроде бы на ведущих IR-конференциях принято считать, что доверять можно. Известны попытки посмотреть, как та или иная метрика коррелирует с «удовлетворенностью» пользователей, но сделать какие либо определенные выводы из подобных экспериментов затруднительно. На ромипе эти метрики используются, поскольку ничего лучше пока никто не придумал. > Это, как мне кажется, указывает на то обстоятельство, что сравнивать на дорожках с общим котлом можно те технологии, которые делают примерно одно и то же. А если кто-то выбивается полностью, на 100%, то будут разные нехорошие эффекты в дорожках. Я не прав? Не совсем. Метод общего котла гарантирует, что первые N документов каждого участника по каждому запросу будут рассмотрены асессорами. Если кто-то сильно выбивается, то его выдача в пределах первых N документов все равно будет полностью оценена. При этом чувствительность основных метрик находится ниже числа оцениваемых документов. В принципе, для особо сомневающихся на ромипе рассчитываются также метрики, ограниченные по глубине тем самым числом N. В таком режиме мы как бы делаем вид, что размер поисковой выдачи ограничен числом оцененных документов (например, 20). Таким образом, расчет метрик производится только по полностью оцененным выдачам, и ни одна из систем гарантированно не получает преференций или штрафов за похожесть/непохожесть на других. P.S. А насчет суетящихся на дорожках инвалидов, вы бы, Игорь Станиславович, лучше бы все же извинились. Перед участниками.
Ashmanov > Вот я читаю, чего выше пишут технические специалисты, участвующие в РОМИПе и вообще туго знающие поиск и прикладную лингвистику Это были сеошники. Не обращайте внимания. На мой взгляд, уровень разговора сильно зависит от уровня его самых авторитетных участников.
2 lexa Давайте я в двух словах объясню. Большинство описанных в литературе и реально используемых в индустрии метрик не предполагает сравнения качества выдачи поисковой системы с идеальной выдачей. Например, при расчете DCG, Expected Reciprocal Rank или Pfound не требуется знать, сколько существует релевантных документов всего в базе. Методика, используемая в ромипе, называется «общим котлом». Сначала собираются ответы всех систем-участников (допустим, 100000 запросов). Случайным образом выбирается подмножество оцениваемых запросов (допустим, 500). Затем для каждого оцениваемого запроса для каждой системы производится оценка топовых ответов (допустим, 20). За счет того, что все системы пытаются предсказать одно и то же, их выдачи сильно пересекаются, и документов нужно оценивать заметно меньше, чем 20 * количество участников. При этом все документы по всем оцениваемым запросам у каждого участника оказываются оценены. Это позволяет корректно сравнить качество всех систем участников между собой.
Ashmanov > Это от кого совет? Это не столько совет, сколько попытка обратить ваше внимание на диссонанс между используемой вами лексикой и тем сдержанным уважительным тоном, который принят в кругу технических специалистов по отношению к коллегам.
lexa > беда методики даже не в «100 запросов из 30к» (хотя и в этом тоже), а в том что из всей коллекции оцениваются только те документы, которые попали в топы. А которые не попали — никак не оцениваются. Чем меньше участников, тем больше таких документов и тем больше беда. Частично эта статья отвечает на ваш вопрос. http://download.yandex.ru/company/grant/2005/04_Nekrestyanova_103126.pdf
Ashmanov > …надо же и остальных инвалидов как-то пустить побегать по дорожке > …суетится на дорожках Игорь Станиславович! При всем к вам уважении — спилите, пожалуйста, мушку.
> Да, над статьями Ингейта можно иронизировать, но не стоит забывать, что это был первое их участие в РОМИПе. Как раз к статье никаких претензий нет. Она, скажем так, не хуже остальных ромиповских статей, если вы понимаете, о чем я. Авторы — молодцы, вне зависимости от полученных результатов. Проблема не в статье, а в маркетинговой лапше, которую пытаются всем навесить товарищи из ингейта. На фоне вроде бы академического семинара вдруг включается маркетинговая говорильная машина и начинает что-то там бубнить про ромип. Ну вот смотрите. 1. Товарищ из ингейта говорит, что у них есть какая-то «лингвистика». Ссылается при этом на ромиповскую статью. Реальность же заключается в том, что никакой «лингвистики» нет, а есть только чужая морфология и алгоритм из учебника «IR для чайников». Ну, я уже об этом писал. 2. Товарищ из ингейта говорит, что они якобы получили результаты немного лучше остальных. Жесткая, неприятная правда состоит в том, что никакого «лучше всех» нет, а товарищ из ингейта статью своих сотрудников даже не читал. Или читал, но не понял, а говорит с чужих слов. В статье черным по белому нарисовано, что по точности, полноте и f1 участники ингейта не лучшие. 3. При первом удобном случае товарищи из ингейта ссылаются на свое участие в научном семинаре, типа мы за науку. Плохая, неудобная реальность заключается в том, что такое маркетинговое балабольство прямо запрещено правилами ромипа. Т.е. когда они утверждают, что были лучшими на семинаре, то они не только сильно преувеличивают, но и еще нарушают один из главных принципов семинара.
> Опыт РОМИПа как раз показывает, что очень часто простые и наивные алгоритмы работают на уровне, а то и лучше каких-то сложных методов, достаточно вспомнить результаты на дорожке поиска 2009 года А что не так с этими результатами? > В дорожке классификации мы использовали вполне простой и очевидный метод, Об этом я и говорю. Никакой «лингвистики» нет. Есть чужой морфологический парсер и студенческий алгоритм классификации. Или именно это вы называете «лингвистикой»? > почему же мы получили результаты несколько лучше остальных? Судя по графикам в вашей же статье, ни по точности, ни по полноте вы не являетесь лучшими. Прочитайте свою статью и убедитесь сами. Никаких результатов «несколько лучше остальных» не видно. Как-то нехорошо получается. Конечно, если тщательно поискать, то среди пары десятков разных метрик может найтись парочка где у вас окажется лучший результат, но это совсем не удивительно при таком маленьком числе участников. Так что ваше утверждение что вы лучшие по классификации — это такое недостойное преувеличение в чисто маркетинговых целях (что вообще-то запрещено правилами ромипа). Про второе место из двух возможных в снипетной дорожке уже говорилось :)
> И на Ромипе мы cо своими лингвистическими алгоритмами занимали места Помотрел ваши статьи с ромипа. Мда… Под крутыми лингвистическими технологиями вы, очевидно, понимаете использование чужого морфологического словаря АОТ и вычисление cosine similarity для двух документов? А под заниманием мест вы подразумеваете второе место из 2х возможных в дорожке по сниппетам? Я понимаю, что в дремучей сеошной тусовке это прокатывает, но все же гордиться тут нечем.