В бизнес-информатике, одним из предметов исследования которой является анализ данных о процессах в прикладных предметных областях, возникают задачи качественного анализа. Такого рода задачи возникают, например, при качественном исследовании лог-файлов бизнес-процессов, при анализе и прогнозировании временных рядов, и других процессов различной природы. Достаточно часто для представления информации об исследуемых процессах в методах качественного анализа используется символьное кодирование, позволяющее снять излишнюю детализацию числовых описаний.
Актуальность данного исследования связана с тем, что при работе с исходными данными исследователи зачастую сталкиваются с наличием шумов и искажений в исходных данных, что существенно затрудняет решение задач качественного анализа. При работе с символьными представлениями исследуемых процессов, которые достаточно часто имеют периодический характер, мы наблюдаем шумы удаления, вставки и замены символов, усложняющих решение задачи определения и анализа периодичности.
В статье рассматривается задача восстановления периодических символьных последовательностей, полученных кодированием по отсчетам периодических функций и искаженных шумами вставки, замены и удаления символов. В качестве конкретного примера синтетических данных временных рядов рассматриваются тригонометрические функции. Для кодирования тригонометрических функций используются алфавиты различных мощностей с различной детализацией интервалов отсчетов по модельному времени.
В статье представлено экспериментальное исследование зависимости характеристик качества метода восстановления периода и периодически повторяющегося фрагмента, ранее предложенного авторами и усовершенствованного в данном исследовании. Для алфавитов разной мощности при фиксированных интервалах отсчетов по модельному времени приводятся доля последовательностей с удовлетворительно восстановленным периодом и относительная погрешность определения длины периода. Качество восстановления периодически повторяющегося фрагмента оценивается отношением редакционного расстояния от восстановленной периодической последовательности до исходной последовательности, искаженной шумами.