Data Science | ИПУ РАН

📌 Встреча клуба Data Science 5 июня

🔻В понедельник 5 июня состоялась очередная встреча клуба Data Science. Мы обсудили разметку текстов, которую проводим в рамках проекта КДС-П-1. По результатам обсуждений мы пришли к следующим выводам:

1) нужен контекст - многие комментарии являются ответами на другие высказывания, присутствие которых может сильно помочь разметке

2) высказывания пользователей многогранны - зачастую их мнения сводятся не просто к альтернативам за маски / против масок, а содержат сложные системы убеждений. В связи с этим было решено в рамках разметки попытаться построить базис из основных убеждений, а далее высказывание каждого пользователя раскладывать по ним. То есть разметка будет иметь форму таблицы, где строки - пользователи, а столбцы - базовые убеждения. Если пользователь высказался (например, про чипы) - то в соответствующей ячейке ставим целое число от -2 до 2. (-2 - не верит совсем, -1 - маловероятно, что верит, 0 - нейтрально, 1 - немного верит, 2 - уверен, что такой заговор есть).

3) Если высказывание с иронией, то ставим какую-нибудь метку, например звездочку.

4) Для разметок текстов про маски и конспирологию базисы убеждений могут быть разными, но иметь пересечения. Я, когда размечал конспирологию, встречал и высказывания про отношение к маскам. Потом мы эти два базиса сольем воедино.

5) Дмитрий Алексеевич через некоторое время подготовит обновленную версию тех же 100 комментариев, но уже с контекстом. Контекст тоже нужно размечать.

📌 Встреча клуба Data Science 22 мая

🔻В понедельник 22 мая состоялась очередная встреча клуба Data Science. Был заслушан ряд докладов студентов Дарьяны Владимировны Лемтюжниковой, которые готовятся к защите выпускных квалификационных работ:

1) Письменский Д.В. — "Классификация мнений о вакцинации с использованием методов машинного обучения"

2) Шавандрин Ф.М. — "Классификация мнений о вакцинации с использованием методов машинного обучения"

3) Демьяненко А.Е. — "Анализ художественных произведений с помощью методов искусственного интеллекта"

4) Стрыгин Д.Д. — "Поиск символов на цифровых изображениях голландских натюрмортов"

5) Козловский А.М. — "Мониторинг развития детей младшего возраста по нарративу с помощью NLP"

📌 Встреча клуба Data Science 15 мая

🔻В понедельник 15 мая состоялась очередная встреча клуба Data Science.

Мы перешли к следующей фазе нашего проекта (название я пока не придумал - можно будет вместе сгенерировать) - разметке корпуса текстов про Covid-19.

Встреча носила организационный характер - была сформирована команда, мы обменялись нужными контактами и установили протокол взаимодействия.

📌Хочу отметить, что формат наших дальнейших встреч не будет ограничиваться этим проектом - желающие всегда могут рассказать о своих исследованиях в области машинного обучения и анализа данных, или же предложить тему для дискуссии.

📌После обсуждений вопросов разметки прошел ряд выступлений студентов Дарьяны Владимировны Лемтюжниковой по тематике анализа текстов.

📌 Встреча клуба Data Science 3 апреля

🔻В понедельник 3 апреля 2023 года состоялась очередная встреча клуба Data Science. Разговор шел про тематическое моделирование - важный раздел теории обработки естественных языков, основная цель которого - выявить список тем, наиболее выпукло представленных в заданном наборе документов.

▪️ Спикером мероприятия выступил наш коллега Дмитрий Алексеевич Губанов - специалист в области теории управления социально-экономическими системами, а также эксперт в области методов машинного обучения и, в частности, анализа естественных языков.

▪️ Доклад Дмитрия был посвящен анализу крупномасштабного (~1.5 млн документов) корпуса текстов из социальной сети ВКонтакте относительно тематики пандемии коронавируса.

▪️ Представленное исследование является частью проекта по анализу общественного мнения в 2020-2021 гг. Далее планируется начать подготовку данных (разметка, предобработка) относительно выбранного списка тем, после чего вести разработку предиктивных моделей.

❗️ Приглашаем всех желающих присоединиться к проекту!!!

❗️ Презентация выступления

❗️ Ссылка на телеграм-канал

📌 Встреча клуба Data Science 13 февраля

Первая после новогоднего перерыва встреча была посвящена нашумевшей в последнее время языковой модели ChatGPT. Поговорили о ее возможностях, о том как она на самом деле работает и как проходило ее обучение.

Спикер - Илья Кудинов, математик лаборатории 68.

P.S.: по результатам встречи наш коллега Артем Голев (младший научный сотрудник лаборатории 46) предложил использовать ChatGPT для того, чтобы составить отчет о прошедней встрече. Ответ ChatGPT:

"ChatGPT является языковой моделью, разработанной OpenAI. Она использует глубокое обучение и метод предсказания для генерации текстов, основанных на предоставленной ей информации. ChatGPT имеет высокую степень точности и способность генерировать человеческий язык в многих различных стилях.

Модель была обучена на множестве большого количества текстовых данных, включая веб-страницы, книги, новости и социальные сети. Обучение проходило с использованием нейронных сетей и алгоритмов машинного обучения, которые помогали модели изучать языковые паттерны и предсказывать следующие слова или фразы в зависимости от контекста.

ChatGPT может использоваться для многих различных приложений, таких как чат-боты, перевод через Интернет, генерация текстов, аутоматизация ответов на вопросы и многое другое. Эта модель может помочь улучшить эффективность и качество работы в различных областях, таких как коммуникация, образование и бизнес.

Хотя ChatGPT является очень мощной моделью, ее использование должно быть осторожным, так как она может производить неточные или неправильные ответы в зависимости от контекста. Это подчеркивает необходимость проверять и проверять выходные данные, прежде чем использовать их в реальных приложениях.

В целом, ChatGPT является выдающейся языковой моделью, которая предлагает множество возможностей для улучшения работы в различных областях. Она уже вызвала много внимания и интереса у экспертов в области ИИ и лингвистики, и ее возможности все еще исследуются и раскрываются. Обучение ChatGPT проходило на основе массивной корпуса текстов, что позволило ей обрести глубокое понимание языка и его использования. Это означает, что ChatGPT может генерировать реалистичные и естественные тексты, которые могут быть использованы для решения различных задач.

В заключение, ChatGPT является важным инструментом в развитии ИИ и может иметь значительный вклад в улучшение работы в различных областях. Однако, необходимо помнить о ее ограничениях и необходимости проверять ее выходные данные, чтобы избежать неточных или неправильных ответов."

Дайджест

Секция посвящена актуальным вопросам машинного обучения, анализа данных и имитационного моделирования – вопросам, играющим огромную роль в устойчивом развитии современного общества. В рамках секции работает семинар, участники которого знакомятся с современными методами и подходами науки о данных и ее практическими приложениями в самых различных предметных областях.

Контакты

Козицин И.В., лаб. 57, e-mail: kozitsin.ivan@mail.ru

Телеграм-канал Data Science

Контакты

Образование и работа с молодёжью

Вход на сайт