Иван Бегтин объявил в своем Facebook о запуске ru.readability.io — интегративного веб-сервиса для оценки читаемости текстов.
Оценка рассчитывается по нескольким формулам:
- Flesch–Kincaid readability tests
- Coleman–Liau index
- Automatic Readability Index
- SMOG
- Dale–Chall readability formula
Все формулы адаптированы под русский язык. Никакого хитрого AI и т.п. в методиках нет, используются довольно простые формулы оценки длины предложений, кол-ва слов и слогов в них, «сложности» слов.
Сервису можно «скормить» URL или непосредственно текст.
Для тестов (и ради лулзов) скормим тесту три последних текста из раздела «Редакционное» c Roem.ru, и три последних текста с «ЦП».
Roem:
- roem.ru/2014/02/19/yandexkit92760/ — уровень читаемости: 8.76 (7-9 класс; 12-14 лет);
- roem.ru/2014/02/18/europagoogle92730/ — уровень читаемости: 9.53 (10-11 класс; 15-16 лет);
- roem.ru/2014/02/18/ucoz92708/ — уровень читаемости: 9.6 (10-11 класс; 15-16 лет);
«ЦП»:
- siliconrus.com/2014/02/doom-4/ — уровень читаемости: 7.27 (7-9 класс; 12-14 лет);
- siliconrus.com/2014/02/magictab/ — уровень читаемости: 8.01 (7-9 класс; 12-14 лет);
- siliconrus.com/2014/02/flappycoin/ — уровень читаемости: 9.55 (10-11 класс; 15-16 лет);
Вывод очевиден: если кому-то тяжело читать Roem — их ждут на «ЦП».
Но шутки в сторону!
Все, кто проходит мимо обменников по пути к метро или знаком с новостной повесткой дня, знает, что в России идет девальвация национальной валюты. Довольно болезненной на этом фоне оказалась новость о том, что российский Минфин будет играть против рубля и в течение нескольких ближайших месяцев (~60 рабочих дней) будет покупать на открытом внутреннем рынке по ~$100M в день.
Оценим текст, рассказывающий об этой новости в формулировке «ЦБ»:
Банк России с 19 февраля 2014 года в соответствии с действующим порядком (Информация «Об операциях Банка России на внутреннем валютном рынке» от 1 октября 2013 года) будет проводить операции на внутреннем валютном рынке с учетом планируемого Министерством финансов Российской Федерации и Федеральным казначейством перечисления в Резервный фонд по итогам 2013 года средств в иностранных валютах в объеме, эквивалентном 212,2 миллиарда рублей. Конверсия данной суммы будет производиться равномерно до конца мая 2014 года путем покупок у Банка России иностранных валют в объеме, эквивалентном 3,5 миллиарда рублей в день.
— уровень читаемости: 18.8; аудитория: Аспирантура, второе высшее образование, phD
А теперь вся та же информация, но в более милосердных к читателю «Ведомостях»:
Минфин России и Федеральное казначейство 20 февраля приступают к проведению операций по покупке иностранной валюты на внутреннем валютном рынке для перечисления в Резервный фонд дополнительных нефтегазовых доходов за 2013 г.
Как сообщил журналистам замминистра финансов Алексей Моисеев, в период до конца мая ежедневно у ЦБ будет приобретаться валюта в объеме, эквивалентном 3,5 млрд руб. в день. В сумме Минфин приобретет валюту на 212,2 млрд руб.
— уровень читаемости: 11.75; аудитория: 1-3 курсы ВУЗа (возраст примерно: 17-19 лет)
Выводы по результатам второй части эксперимента читателю придется сделать самому.
Спасибо что написали, я прокомментирую со своей стороны. Я надеюсь что сервис будет полезен для всех кто пишет тексты на русском языке, но сразу предупрежу что одних формул недостаточно. Все те способы проверки читаемости текстов что здесь были реализованы — это портированные формулы проверки читаемости для английских текстов. Они основаны на длине предложений, числе слогов в словах, числе предложений на текст, числе сложных слов и многих других критериях которые никак не затрагивают смысл текста. Поэтому такая проверка даёт лишь базовое приближение. Она редко ошибается на сложных текстах, но может дать осечку на тексте написанном простым языком об очень сложных вещах. Главная часть сервиса — API, сам сервис работает на нем же. Оно полностью открыто и позволяет проверять неограниченное количество текстов автоматически. Ну а в качестве послесловия посмотрите что по понятному языку делает американское правительство — http://www.plainlanguage.gov/