Мы работаем с автоматизированными методами анализа научно-технической документации, в том числе семантического. Смысловой анализ результатов работы ученого с помощью систем искусственного интеллекта – это сложная задача, которая дополнительно усложняется потерей части информации при извлечении текста из публикации или другого документа. Большинство систем распознавания текста и поиска по тексту никак не обрабатывают изображения, графики, формулы. Таблицы частично обрабатываются, но могут терять большую часть смысла из-за разрушения структур данных. В статье рассматриваются методы, которые могут полностью или частично предотвратить потерю данных в существующих и в будущих публикациях. В связи с стремительным развитием систем ИИ и делегированием многих задач по обработке текстов программным системам авторам научных работ стоит задуматься о читаемости статей не для человека, а для машинной обработки.