47704

Автор(ы): 

Автор(ов): 

1

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам

ISBN/ISSN: 

ISSN 2078-9599

DOI: 

10.15622/sp.49.6

Наименование источника: 

  • Труды СПИИРАН

Обозначение и номер тома: 

№ 6 (49)

Город: 

  • Санкт-Петербург

Издательство: 

  • СПИИРАН

Год издания: 

2016

Страницы: 

104-121
Аннотация
Работа посвящена вопросу идентификации текстов, сгенерированных автоматически (искусственно) с помощью программных алгоритмов. Данная задача является актуальной в связи с ростом распространения таких текстов, распространяемых в Интернете. Создаваемые «копии» веб-страниц используются для привлечения читателей к интернет-ресурсам, а также для распространения большого количества уникальных экземпляров страниц с контентом определенной направленности. В статье описаны особенности определения происхождения текста на примере работы с текстами, порожденными методом синонимизации, как наиболее распространенного метода генерации искусственных текстов, представляющих собой веб-контент. Предложен инвариант искусственно созданных текстов, представляющий собой набор значений текстовых характеристик, который позволяет классифицировать тексты по способу их создания. Предложен метод определения искусственно созданных текстов на основе расчета меры принадлежности входного текста к инвариантам, позволяющий принять решение о происхождении текста. В статье также приведены значения, полученные в ходе проведения серии экспериментов по определению искусственно созданных текстов.

Библиографическая ссылка: 

Исхакова А.О. Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам // Труды СПИИРАН. 2016. № 6 (49). С. 104-121.