Классификация сообщений пользователей онлайновой социальной сети

Консультант(ы): 

Ключевые слова: 

Тематика проводимого исследования: 

Управление в социальных сетях и организационных структурах

Приобретаемые знания: 

Методы структурирования и анализа данных социальных сетей, методы классификации сообщений социальной сети

Приобретаемые навыки и умения: 

Обработка и анализ структурированных и слабо структурированных данных, работа с библиотеками NumPy, SciPy, scikit-learn и pandas, работа с методами машинного обучения, написание отчетов на основе полученных результатов.

Необходимый уровень знаний и навыков практиканта для выполнения задания: 

Линейная алгебра, машинное обучение (базовый курс), программирование на языке Python.

Тип проекта: 

Практика / научно-исследовательская работа

Период практики: 

3 недели

Краткое описание проекта: 

Рассматриваются посты пользователей онлайновой социальной сети (пост содержит, по крайней мере, текст и анонимизированный идентификатор автора поста). Необходимо разработать метод бинарной классификации постов по заданной тематике (является ли пост релевантным тематике).

Задания на практику: 

1) Выполнить экспресс-анализ предоставленных данных онлайновой социальной сети (постов пользователей). 2) Реализовать, как минимум, три простых метода классификации постов пользователей (например, на основе экспертных правил поиска текстов постов, на основе bag-of-words представления текстов постов или на основе совокупности характеристик постов). 3) Разработать комплексный подход к классификации, основывающийся на простых методах (при этом необходимо определить параметры и гиперпараметры такого метода, функцию потерь и т.д.). 4) Сформировать обучающую выборку, валидационную и тестовую (необходимо воспользоваться предоставленной размеченной выборкой, при необходимости произвести дополнительную разметку). 5) Выполнить обучение моделей классификации, подобрать наилучшие значения гиперпараметров при помощи валидационной выборки. 6) Провести анализ качества модели на тестовой выборке, исследовать ошибки классификации, сделать содержательные выводы

Результат выполнения проекта: 

Отчет о полученных результатах бинарной классификации постов пользователей социальной сети, программная реализация методов классификации постов на языке Python.