Интеллектуальная обработка текстов на естественном языке представляет собой алгоритмическое получение знаний из текста и их структуризацию. Компьютер, оперируя полученными знаниями, способен выполнять многие простые с точки зрения человека задачи. Специальные алгоритмы могут автоматизировать обработку текстов, сортировку согласно их содержанию, или их изменение. Возможно построение вопросно-ответной системы, способной по запросу, сформулированному на естественном языке, выдавать необходимую пользователю информацию из текста мгновенно.
Представление содержания текста состоит двух частей: из знаний о внешних объектах, референтах, и из знаний об этих объектах, полученных из текста. Для получения второй части используется понятие семантического дерева, которое связывает все слова текста в соответствии с их лексической и морфологической ролью, например, подлежащие и сказуемые, прилагательные и относящиеся к ним существительные, местоимения и имена
собственные и так далее. Зная каждое слово, можно восстановить знание из цельного текста по семантическому дереву.
В работе представлен анализ видов кореференции в русском языке, которые можно разделить по нескольким признакам: референтные связи отличаются по семантическому классу референтов, отношению к знанию читателя, по синтаксическому выражению и по другим признакам. Для поиска кореферентных связей применяются методы, основанные на системе строгих правил, статистические методы и методы, основанные на машинном
обучении. Проводится сравнение различных методов решения задачи между собой, на основе полученной кореференции строится семантическое дерево.