На главном информационном ресурсе data mining-сообщества, www.kdnuggets.com, появилось предложение стажировки в московском офисе Яндекса. Отправиться на 3-4 месяца в Москву приглашаются специалисты по информационному поиску (information retrieval), компьютерной лингвистике, машинному обучению, взаимодействию человека и компьютера, Data Mining, Large-Scale Computing, а также по социальным сетям и аналитике социальных медиа.
Знания русского языка от стажёров не требуется, зато нужны публикации. Таким специалистам Яндекс предлагает доступ к данным и инфраструктуре для экспериментов на больших объемах данных, недоступных в академических условиях. Стажер будет вместе с сотрудниками Яндекса работать над собственным исследовательским проектом, а одним из результатов работы должна стать публикация на одной из ключевых конференций. Стажеру помогут устроиться в Москве, Яндекс берет на себя расходы по переезду и обещает хорошую зарплату.
Добавить 20 комментариев
А почему емаил вида: research-internships@yandex.ru ? А не вида @yandex-team.ru ?
Мы задали вопрос Павлу Сердюкову, которым подписано объявление. Объявление — не фейк. Нам кажется, это и есть главное, поэтому допытываться до причин использования такого адреса мы не стали.
Как-то странно Яндекс озаботился числом своих публикаций 《на крупных конференциях》
Кто-то приехал?
Непонятно. На три-четыре месяца можно поехать в Гугл или Микрософт research и работать с такими людьми как Миша Биленко или Фернандо Перейра. А с кем работать в Яндексе?
одним из результатов работы должна стать публикация на одной из ключевых конференций. Если собственные сотрудники не могут, то приходиться обращаться и к таким методам.
«Собственные сотрудники» могут, но не хотят. Они выше этой возни по конференциям, там все равно важных результатов не показывают. «Собственные сотрудники» заняты важными проектами.
Непонятно. На три-четыре месяца можно поехать в Гугл или Микрософт research и работать с такими людьми как Миша Биленко или Фернандо Перейра. А с кем работать в Яндексе? При чем тут «с кем»? «С кем» работают для повышения своего уровня, в лучшем случае кодируя чужие мысли. Яндекс же предлагает не «с кем», а «с чем» — с уникальными данными, которые либо сложно получить самостоятельно, либо вообще не реально. К тому же среди разработчиков Яндекса не мало креативно мыслящих людей, имеющих нестандартные взгляды на многие проблемы. Общение с ними явно пойдет на пользу любому исследователю. Если собственные сотрудники не могут, то приходиться обращаться и к таким методам. Дело не в могут/не могут, фишка в другом. Привлечение серьезных сторонних исследователей (тут мера серьезности — способность выдать публикации уровня ведущих конференций) всегда идет в плюс общей работе. Появляются новые идеи или новые подходы к старым проблемам. Не зависимо от количества публикаций собственных сотрудников это хорошее начинание.
> Как-то странно Яндекс озаботился числом своих публикаций 《на крупных конференциях》 Гм. Чего странного?
хорошо, что Яндекс может это делать, может себе позволить и осознает потенциальную перспективу этого. Мы вот не можем (компания меньше 50 чел), нам просто некогда, заняты коммерческими проектами. А сторонних пригласить денег нет, да и не считается это важным сейчас, т.к. приоритеты на зарабатывание быстрых денег. Отсутствие таких более-менее дальних перспектив и удрючает, поэтому хорошо, что в Я могут и делают.
Альтер Эго (последний), не волнуйтесь. Мэтр сказал, что коммерческим компаниям не надо учавствовать в научных проектах.
проблема в том, как быть с языком. ну, допустим, общаться с куратором из яндекса человек будет на английском, я думаю большинство яндексоидов его знает. но корпус данных-то у яндекса, особенно запросов, в основном русскоязычный. как люди будут его майнить, не понимая значения, не имея возможности оценить результаты? придётся всё через куратора делать? но вообще, по-моему, идея хорошая: наконец-то кто-то поедет в москву не за russian wife, vodka, matryoshka или kalashnikov, а двигать науку.
Роджер, во-первых, после преобразования запросов в набор фич нужно натравить правильный алгоритм машинного обучения. И для этого не надо знать русский. Во-вторых, у Яндекса есть английский поиск. В-третьих, Яндекс, очевидно, старается увеличить свой visibility. В-четвертых, публикации в научных журналах и конференциях — это хороший способ продемонстрировать кандидатам, что в компании идет большой мыслительно-инновационный процесс. А это важно, потому что Яндексу нужны не только хорошие Си++ программисты и верстальщики. И он, очевидно, хочет привлечть как можно больше людей, который интересуются задачами поиска и обработки больших объемов данных.
публикации в научных журналах и конференциях — это хороший способ продемонстрировать кандидатам, что в компании идет большой мыслительно-инновационный процесс. А это важно, потому что Яндексу нужны не только хорошие Си++ программисты и верстальщики. И он, очевидно, хочет привлечть как можно больше людей, который интересуются задачами поиска и обработки больших объемов данных. Пока очевидно обратное — Яндекс хочет привлечь только тех исследователей поиска, которые имеют высокий скилл в С++. Понимание того факта, что множества сильных математиков и сильных кодеров пересекаются слабо, еще не пришло. Видимо, всему свое время…
> Яндекс хочет привлечь только тех исследователей поиска, > которые имеют высокий скилл в С++ Это неверно. Есть, например, и такие вакансии: http://company.yandex.ru/job/vacancies/data_mining_exp.xml Есть такая: http://company.yandex.ru/job/vacancies/python_group_sepe.xml Есть даже такая: http://company.yandex.ru/job/vacancies/search_research.xml Собственно, сама обсуждаемая программа противоречит такому «обобщению». > Понимание того факта, что множества сильных математиков > и сильных кодеров пересекаются слабо, еще не пришло Я зафиксирую несогласие как с содержанием, так и с тоном этого высказывания :)
itman, применить существующий «правильный» алгоритм — это инженерная задача. если яндекс хочет привлечь исследователей для проведения исследований , то предполагается, что у них (исследователей) есть некие идеи о правильном алгоритме, для проверки которых яндекс даст им много данных и вычислительных мощностей, в результате чего может родиться ещё один правильный алгоритм. проблема в том, что при этом основной корпус данных и запросов у яндекса — на русском, то есть не знающему русский исследователю довольно трудно будет оценивать результаты применения своего алгоритма в процессе тюнинга.
Это неверно. Есть, например, и такие вакансии Андрей, из трех ваших вакансий две требуют умений боевого кодинга (если что — я под «С++» имел ввиду и другие языки), а третья вообще не о том. Ну и мне припоминается недавний ваш пост в бложике, вы заманивали аналогичных людей, с отличными навыками кодирования. В целом то, что я написал — пока верно, но это не страшно. Со временем все изменится, я уверен. :) Я зафиксирую несогласие как с содержанием, так и с тоном этого высказывания Ну так высказывание верное, оно даже тупо очевидное, если одновременно общаться или наблюдать большое количество сильных математиков, как поисковых, так и непоисковых и прочих IR-исследователей. Пересечение на самом деле слабое, но оно есть, и внутри Яндекса есть конечно. Что касается привлечения молодых креативных математиков, то я бы рассмотрел еще и такой путь: искать их не только среди тематичных поиску юношей, а и среди всех остальных. Заманивая молодых гениев из других областей, которые до того никогда и не задумывались об IR. :) На самом деле уровень математики в IR на сегодня в целом слабенький, все еще в зачаточном состоянии. Т.е. любой подготовленный математик (типа тополог или алгебраист) легко поймет любую IR-статью с первого прочтения, ничего «сложноматематичного» пока не придумано. Обратное не верно — современные алгебраическо-топологические тексты без специальной подготовки не понять. А значит почти любой креативщик быстро въедет в IR-тему и начнет выдавать замечательные идеи с хорошей частотой. На это и можно завлекать — в IR гораздо проще стать видной фигурой в мировом масштабе, ну и зарплаты повыше, чем в других науках. проблема в том, что при этом основной корпус данных и запросов у яндекса — на русском, то есть не знающему русский исследователю довольно трудно будет оценивать результаты применения своего алгоритма в процессе тюнинга. Такой проблемы практически нет в данном случае. Т.к. у исследователя для оценки будет огромная база уже оцененных асессорами документов, плюс пользовательские кликовые оценки. И многое другое. Незнание русского языка не критично, разница со «знатоком» не большая.
Роджер, Прочитайте про оценки качества с помощью суждения асессоров. Если есть суждения экспертов о том, что релевантно, а что нет, можно не думать на тему релевантности конкретных документов, а оценивать качество в целом. Всякие частные случаи могут оптимизировать люди, знающие русский язык, благо их более чем достаточно.
Андрей. Это, похоже, правда, что большинство ребят из западных универов сейчас на плюсах не пишут. Все эти Люсьены, Терьеры, Айвори итд на Джаве пишутся.
> большинство ребят из западных универов сейчас на плюсах не пишут Да ради бога. В приглашении и Джава есть как вариант. По мне так вообще главное, чтобы у человека были средства для самовыражения. Иначе получится работа в стиле «на тизере должен быть изображен» (с) http://www.narisoval.ru/old.html