Разрабатываемый «Яндексом» Национальный корпус русского языка запрещается краулить посторонним → Roem.ru

В блоге на Хабре о том, как правильно расставлять ударения, который использовал спарсенные данные Национального корпуса русского языка (НКРЯ) выяснилось интересное:

Новости СМИ2

Пользователь morosowdm (в составе участников НКРЯ есть похожий на него человек Дмитрий Морозов), представившийся как непосредственно имеющий отношение к НКРЯ человек, обратил внимание автора на то, что парсить НКРЯ запрещено, а надо запрашивать данные, если их ещё нет в открытом доступе, описывая зачем они вам нужны.

...не стоит краулить ресурсы, если при этом нарушается лицензия на использование сервиса. Наша лицензия расположена тут: https://ruscorpora.ru/page/terms/. Мы открыты к сотрудничеству и регулярно делимся имеющимися датасетами. Наиболее часто запрашиваемые перечислены на странице https://ruscorpora.ru/page/corpora-datasets/. Если вам необходим специфический датасет, об этом можно написать на почту, указанную на этой же странице. Для получения данных необходимо будет описать сценарии использования и заключить лицензионное соглашение на предоставление доступа к данным. Действительно, улаживание всех формальностей и подготовка датасета займёт какое-то время, но зато получившийся результат будет валиден с легальной точки зрения.

Такое привратничество со стороны morosowdm вызвало некоторую оторопь со стороны snakers4 — на разработку НКРЯ выделялись и государственные гранты, при этом условия доступа к датасетам оказываются непрозрачными, а сроки реакции на запросы неизвестными.

Проблема омографов в ударениях и как я ее решал

Разрабатываемый «Яндексом» Национальный корпус русского языка запрещается краулить посторонним

Google Translate стал использовать нейросети для русского языка 4

Abbyy получит сколковский грант на решение вечной задачи понимания смысла текста машиной

Парсеры русского языка: тайное станет явным. 37