Тематическая сегментация — это задача разделения неструктурированного
текста на тематически связные сегменты (такие, в которых речь идет об одном и том
же). Граф знаний — графовая структура, вершинами которой являются различные
объекты, а ребрами — отношения между ними. Обе задачи не являются новыми, потому
существует множество алгоритмов для их решения. Однако, методы решения задачи
тематической сегментации с использованием графов знаний до сих пор исследованы
мало. Более того, пока еще нельзя сказать, что задача тематической сегментации решена
в общем виде, то есть существуют алгоритмы, способные при должной настройке,
решить задачу с требуемым качеством на конкретном наборе данных. В данной работе
предлагается новый метод решения задачи тематической сегментации на основе графов
знаний. Применение графов знаний при сегментации позволяет использовать больше
информации о словах в тексте: помимо того чтобы основываться на co-occurrance и
семантических расстояниях (как классические алгоритмы), методы на основе графов
знаний могут применять расстояние между словами на графе, инкорпорируя тем самым
фактологическую информацию из графа знаний в процесс принятия решений о биении
текста на сегменты. В данной работе предлагается метод решения задачи тематической
сегментации на основе графов знаний.