Меня зовут Алексей, я работаю программистом в Германии.
Проект Twirocket возник как результат всё чаще встречающихся в твиттере просьб "Посоветуйте почитать наших девушек/мальчиков!". Вот я и подумал - "а нельзя ли по твитам определять пол человека и его настроение?". Твиттер в данный момент такую информацию не предоставляет.
Оказалось, такую задачу решить можно при помощи алгоритмов искусственного интеллекта, точнее области информатики под названием "Обработка естественного языка" (Natural Language Processing, NLP). Еще точнее - при помощи так называемого Sentiment Analysis (анализ тональности текста).
Собственно, алгоритм, лежащий в основе Twirocket работает упрощенно таким образом:
1. Фильтруй поток твитов и анализируй каждый твит. Отбирай только твиты на русском языке.
2. Определи тональность твита.
3. По последним твитам определи тональность аккаунта.
Тональность твита определяется двумя способами. Первый: это по смайлам и междометиям типа "хахахаха". В зависимости от наличия смайлов можно более-менее точно предсказать тональность.
Второй подход - разбор предложений и применение тонального словаря. Проблема с тональностью текста есть - довольно сложно для компьютера определить в тексте такое явление, как сарказм.
Каждый твит анализируется и информация о пользователе постоянно обновляется. На данный момент в моей базе данных - более 600.000 пользователей. Бонусом слежения за аккаунтами становится история учётной записи. На страничке пользователя видны все изменения, которые происходили с профайлом: смена аватарок и никнеймов, описания и уровня приватности (открытый/закрытый).
В ближайшем будущем я собираюсь прикрутить к Twirocket как минимум настройку оповещения об изменении аккаунтов (к примеру, если я заинтересован в наблюдении за аккаунтом Х, я буду получать direct message когда Twirocket засечет изменение аккаунта). Еще в планах приватный поиск по ключевым словам (например, я хочу наблюдать за изменением тональности/отношения твиттер-среды к Ангеле Меркель. Я сохраняю этот запрос и получаю такой же график тональности, какой сейчас работает для трендов и профайлов).
Изначально этот проект был задуман как увлечение. В прошлом письме я упоминал о персональных поисковых запросах. Этот функционал будет доступен в ограниченном варианте для всех пользователей. Для платных аккаунтов будет доступен весь функционал с аналитикой, статистикой и т.д.
Возможная целевая группа - маркетинговые фирмы, мониторящие социальные сети.
Комментарий Roem.ru: для увлечения - очень хорошо. Только маркетинговым фирмам, вероятнее всего, нужен не отдельный сервис, а агрегатор, который считает и twitter, и Facebook, и Studyvz.net (если говорить про Германию) или ВКонтакте-Одноклассники-Мой мир, если говорить про Россию.
О своих новых проектах можете писать на info@roem.ru или roem.ru/tip
Добавить 2 комментария
Проверил свой профиль на ботов — выявил всего трёх среди 1300 фоловеров и двое из них точно не боты. В трендах тем временем большинство твитов — от ботов, форсирующих те или иные хэштеги, очень много повторяющихся твитов. Это сервис для анализа твитов спамеров скорее, чем людей.
http://imgur.com/gFouzzq Ревву то в девочки зачем записали ? :)