В блоге на Хабре о том, как правильно расставлять ударения, который использовал спарсенные данные Национального корпуса русского языка (НКРЯ) выяснилось интересное:
Пользователь morosowdm (в составе участников НКРЯ есть похожий на него человек Дмитрий Морозов), представившийся как непосредственно имеющий отношение к НКРЯ человек, обратил внимание автора на то, что парсить НКРЯ запрещено, а надо запрашивать данные, если их ещё нет в открытом доступе, описывая зачем они вам нужны.
...не стоит краулить ресурсы, если при этом нарушается лицензия на использование сервиса. Наша лицензия расположена тут: https://ruscorpora.ru/page/terms/. Мы открыты к сотрудничеству и регулярно делимся имеющимися датасетами. Наиболее часто запрашиваемые перечислены на странице https://ruscorpora.ru/page/corpora-datasets/. Если вам необходим специфический датасет, об этом можно написать на почту, указанную на этой же странице. Для получения данных необходимо будет описать сценарии использования и заключить лицензионное соглашение на предоставление доступа к данным. Действительно, улаживание всех формальностей и подготовка датасета займёт какое-то время, но зато получившийся результат будет валиден с легальной точки зрения.
Такое привратничество со стороны morosowdm вызвало некоторую оторопь со стороны snakers4 — на разработку НКРЯ выделялись и государственные гранты, при этом условия доступа к датасетам оказываются непрозрачными, а сроки реакции на запросы неизвестными.