Лаборатория № 27 «Технической диагностики и отказоустойчивости»

Основатель и первый заведующий лабораторией № 27 Павел Павлович ПархоменкоЛаборатория родилась в 1964 г. в недрах лаб. № 3, руководимой членом-корреспондентом АН СССР Михаилом Александровичем Гавриловым, и первоначально называлась Лабораторией логических машин. Это название связано с пионерскими разработками логического анализатора релейно-контактных схем и ряда образцов программно-управляемых машин для автоматизированной проверки технических объектов (телефонной аппаратуры, электровозов, самолётов, систем управления ракетами и др.). Разработки привлекли всеобщее внимание и активизировали решение задач автоматизации контроля в различных областях народного хозяйства.

Руководил новой лабораторией кандидат технических наук, ныне член-корреспондент РАН, доктор технических наук, профессор Павел Павлович Пархоменко. В состав лаборатории влились энтузиасты нового в технической кибернетике направления к.т.н. В. В. Карибский, к.т.н. Ю. Л. Томфельд и тогда ещё не доктор и не профессор Е. С. Согомонян. Новизна тематики привлекла в лабораторию многих молодых инженеров.

К интересным теоретическим результатам начального периода жизни лаборатории относится введение в обиход понятия однотактного эквивалента многотактной схемы, разработка методов синтеза логических схем из элементов различных базисов (метод замены входных переменных и метод замены выходных функций), получение фундаментальных результатов по состязаниям в логических цепях, по распознаванию классов конечных автоматов.

Лаборатория перевела на русский язык знаменитую монографию А. Гилла «Введение в теорию конечных автоматов», ставшую настольной книгой многих исследователей и побудившую сотрудников лаборатории к написанию фундаментальной монографии «Введение в техническую диагностику» в двух томах.

Техническая диагностика, новая в то время дисциплина, стала тематикой работы и названием лаборатории в конце 60-х годов. В начале 70-х в лаборатории широким фронтом стартовали работы по теории и практике тестового диагностирования комбинационных и последовательностных схем, по тестам поиска неисправностей, встроенным системам контроля и тестирования, автоматизации тестирования, расчётам и оптимизации надёжности. Большинство этих важных для практики проблем было поставлено впервые. Эта тематика сохраняется до настоящего времени.

Научно-организационная роль лаборатории оказалась весьма значительной. Ежегодные школы-семинары по технической диагностике под руководством члена-корреспондента РАН П. П. Пархоменко укрепили интерес к этому кругу проблем, заслужили авторитет и признание среди советских учёных и инженеров, занятых разработкой вычислительной и управляющей техники. Всего с 1973 г. проведено 18 школ, почти 100 «учеников» защитили кандидатские диссертации, а более 20 стали докторами наук. Проведено 6 Всесоюзных совещаний по технической диагностике и отказоустойчивости, вызвавших живой интерес представителей «ближнего и дальнего зарубежья». Был создан прочный научный фундамент очень важных технологических знаний по автоматизации проектирования, тестированию, диагностированию, функциональному контролю и отказоустойчивости. И разрушить этот фундамент полностью не удалось даже в безвременье перестроечных годов.

С 70-х годов лаборатория стала-де-факто играть в стране роль координационно-исследовательского центра по технической диагностике. Сотрудники лаборатории были тесно связаны с практическими разработками многих предприятий страны: НИЦЭВТ, НИИНЦ, НИИПМ, НИИП, НПО «ВЕГА», НИИ «ИМПУЛЬС», КБ «Электроприбор» (г. Харьков) и др. Лаборатория с честью справилась с заданием АН СССР по диагностированию, восстановлению и обслуживанию управляющей и вычислительной техники новой серии импортных рыболовных супертраулеров на стационарных базах и в открытом океане.

С середины 70-х годов на волне институтских работ по ПС-2000 в тематику лаборатории прочно вошли темы по проектированию отказоустойчивых многопроцессорных управляющих систем. Работы проводились в интересах космоса (КБ «Электроприбор») и перспективных разведывательных летающих лабораторий дальнего обнаружения (НПО «ВЕГА»). Этот круг вопросов остаётся актуальным и поныне.

В 2006—2007 гг. лаборатория пополнилась новыми научными кадрами по проблемам надёжности в микроэлектронике (к.т.н. Б. П. Петрухин и его коллеги), специалистами по теории сетей и коммутации (д.т.н., проф. Г. Г. Стецюра, д.т.н. В. С. Подлазов) и специалистом в новой для нашей лаборатории тематике — разработке модели нейронного кортекса (к.т.н. А. М. Михайлов).

В 2006—2009 гг. лаб. № 27 выполнены и продолжаются исследования по следующим теоретическим направлениям: 

  • исследование и создание высоконадёжных, живучих управляющих информационных систем;
  • анализ надёжности и разработка методик расчёта безотказности систем, построенных на современной микроэлектронной базе;
  • исследование модели нейронного кортекса для решения задач распознавания, связанных с обработкой очень большого объёма информации. 

В рамках направления по исследованию и созданию высоконадёжных, живучих управляющих информационных систем: 

  • Была разработана теория отказоустойчивости, базирующаяся на инвариантно-групповом исследовании структур систем. Впервые найден эффективный аналитический подход к проблеме отказоустойчивости, позволяющий синтезировать оптимальные отказоустойчивые системы различной архитектуры. Впервые было понято, что математическим фундаментом отказоустойчивости служат свойства симметрии (группа автоморфизмов) структуры изучаемой системы (д.т.н. М. Ф. Каравай). Решён ряд задач по системному диагностированию и оптимальному размещению ресурсов в многопроцессорных системах с архитектурами гиперкубов и однородных графов (член-корреспондент РАН П. П. Пархоменко).
  • Теоретические результаты по отказоустойчивости и живучести, полученные в лаборатории в предшествующие годы, позволяют по-новому взглянуть на проектирование «систем в кристалле» (systems-on-chip, SOC). Обилие коммутационных и логических ресурсов в кристалле позволяет реализовать разработанные в лаборатории экономичные и эффективные структурные методы отказоустойчивости. Методы основаны на виртуальном представлении схемы, спроектированной в кристалле, как совокупности логических блоков размером от единичного (один или несколько сложных логических блоков [КЛБ]) до удвоенного их числа на каждом следующем уровне. Например, 1/128 всей схемы, 1/64 и т. д. до ½ схемы. Разработан алгоритм упаковки кристалла для САПР, позволяющий воспользоваться всегда существующей естественной избыточностью в кристалле и отображать отказавший КЛБ на избыточное пространство в кристалле (к.т.н. С. С. Уваров).
  • Решён ряд принципиальных проблем по встроенным системам тестового и функционального диагностирования цифровой аппаратуры с декомпозицией системы и проверкой её на предельных рабочих частотах. Результаты позволяют по-новому подходить к синтезу контролепригодных устройств при проектировании систем в кристалле (к.т.н. Г. П. Аксенова и к.т.н. В. Ф. Халчев). Продолжаются исследования по встроенным механизмам самовосстановления систем с избыточными структурно-функциональными ресурсами. Для систем в кристалле такие механизмы исследуются на основе причинно-ориентированного подхода к учёту повреждающих факторов по аналогии с принципами выживания во враждебном окружении (неблагоприятной среде) биологических организмов, симбиозов, высокоорганизованных сообществ и разумной части человечества (Е. А. Адоян, к.т.н. Ю. Л. Томфельд).
  • Проводятся исследования по разработке новых подходов к организации надёжных (достоверных) числовых вычислений. Предполагается, что в основе его должен лежать новый стандарт, требующий проведения одновременно с вычислениями оценки достоверности получаемых результатов. Подобный подход должен резко уменьшить возможность непрогнозируемого получения некорректных результатов при работе высоконадёжных систем (к.т.н. С. И. Уваров).
  • Значительные усилия направлены в настоящее время на решение принципиально важных проблем коммутационных сетей (П. П. Пархоменко, д.т.н. М. Ф. Каравай, д.т.н. В. С. Подлазов). Предыдущие исследования инвариантно-групповых свойств структур систем показали, что из произвольной структуры редко удаётся получить отказоустойчивую структуру приемлемой избыточности. Даже если это решение минимальное. Чтобы выйти из, казалось бы, неразрешимых рамок, было предложено отображать исходную структуру в структуру полного графа. При выборе и проектировании средств коммутации анализу подвергаются вопросы производительности систем коммутации, их ёмкости, сложности реализации, масштабируемости, отказоустойчивости, возможности работы в гетерогенной среде, простоты управления, бесконфликтности, допустимых частотных диапазонов, помехоустойчивости, преемственности предыдущих решений и др. Однако выбор полного графа (или кросс-бара) в качестве среды, на которую отображают исходный граф, к сожалению, неприемлем из-за сложности. В то же время, остальные из перечисленных характеристик полного графа весьма привлекательны для проектируемых систем.
  • В лаборатории проводятся исследования по проектированию новых коммутационных структур для микроэлектроники и вычислительной техники. Цель работы — построение математической конструкции, которая помогла бы дать ясный ответ на все рассмотренные выше вопросы, включая проблему сложности полных графов. Обнаружено, что малоизвестная в инженерно-технических кругах математическая комбинаторная конструкция «симметричная уравновешенная блок-схема» содержит большие возможности в создании сетевых средств коммутации для высокопроизводительных отказоустойчивых, в том числе неоднородных управляющих и вычислительных систем. У блок-схем есть графовый эквивалент — двудольный граф. 

    При надлежащей интерпретации, блок-схемы можно рассматривать как квазиполные коммутационные структуры-графы, вершины которых соединены не по принципу «точка-точка», а через достаточно простой переключатель, практически не вносящий дополнительной задержки при прохождении сигналов. При этом число каналов связи и портов n-узловой сети уменьшается пропорционально в раз по сравнению с полным графом. В этом основное их преимущество перед коммутационными структурами, моделируемыми полными графами.

    Впервые было замечено, что двудольные графы (bipartite graphs), уравновешенные блок-схемы (block-designs) и коммутационные сети — не разрозненные понятия, а «родные братья». Это оказалось самым важным, поскольку дало в руки сильный математический инструмент и удалось сформулировать задачу проектирования высокопроизводительных отказоустойчивых сетевых систем коммутации. Также пришло понимание того, что эти исследования могут сделать прорыв в технологической области создания сверхбольших интегральных схем типа ПЛИС или SoC, поскольку на порядки снижается число необходимых соединений в коммутационной сети.

    Предлагаемая топология, по существу, представляет собой двухкаскадный коммутатор, который оказывается «почти» полным графом: для практических применений его можно рассматривать как полный граф. Мы назвали его «квазиполным графом».

    Почему квазиполный граф представляет такой интерес? В основном потому, что обладает всеми положительными характеристиками полного графа, значительно проще и, что очень важно, в него можно отобразить любую топологию — это бесценное свойство для производительности и отказоустойчивости. Достаточная для практических результатов работа уже проделана. Ясно, как проектировать кластеры, насчитывающие до 1500 абонентов. Ясно, как каскадировать эти сети, строить их комбинации. 

  • Ещё одно направление исследований связано с работами д.т.н., проф. Г. Г. Стецюры по совмещению вычислений и обмена данными в каналах передачи данных. Над данными в процессе их побитной передачи по каналу группа объединённых каналом узлов выполняет распределённые вычисления (логические, арифметические: сложение, вычитание, умножение, операции max и min). Перемещающийся по каналу пакет с данными после выхода из последнего узла группы содержит результат групповой операции. Область применений подхода довольно обширна: это ускорение коллективных операций в ЭВМ (не менее чем в log n раз при n процессорах на таких задачах, как вычисление значения полиномов, свёртка, дискретное преобразование Фурье, сортировка); сокращение активной площади кристалла, отводимой под операции обмена данными; быстрое обнаружение и устранение неисправных компонент и др. 

    Приведённые подходы разрабатываются как методы поддержки автономности систем управления жёсткого реального времени. Под автономностью понимается наличие в системе развитых средств самоуправления: конфигурируемости, оптимизации, самовосстановления и самозащиты от враждебного вмешательства. 

  • В 2006—2008 гг. под руководством к.т.н. Б. П. Петрухина в лаборатории проводился сравнительный анализ различных методик расчёта безотказности интегральных схем по результатам их испытаний различными фирмами и по различным методологиям для разработки модели прогнозирования показателей безотказности современных КМДП ИС. 

    Сегодня в мире основными элементами цифровой техники являются интегральные полевые микросхемы (КМДП ИС). Это и программируемые массивы логических элементов, микропроцессоры, различные элементы памяти и т. п. Основные производители больших и сверхбольших КМДП ИС — фирмы «Altera», «Xilinx», «Atmel», «Intel» и др. В соответствии со стандартом ISO 9000 все изготовители обязаны подтверждать качество своей продукции, в частности, показатели надёжности.

    Указанные элементы относятся к классу высоконадёжных изделий, у которых показатели безотказности, в частности, интенсивность отказов составляет один отказ на сто млн. приборочасов и менее. Поэтому для подтверждения таких показателей нужно проводить контрольные испытания в форсированных режимах и условиях, хотя изготовители предупреждают, что пользоваться значениями интенсивности отказов, полученными при контрольных испытаниях, для оценки надёжности изделий, в которые входят эти элементы, не рекомендуется. Однако достоверную информацию об отказах в процессе эксплуатации получить практически не реально. Поэтому цель данной работы состояла в оценке возможности использования результатов контрольных испытаний, проводящихся фирмами «Altera» и «Xilinx» в течение последних пяти и более лет и посему имеющих существенную эквивалентную наработку. При этом проводился критический анализ видов отказов, учитывался механизм отказа и влияние на него различных внешних факторов. Американский военный стандарт МIL-217 °F.2 дает более пессимистическую оценку, чем французский UTC (CNET93). Анализ показывает, что расчётная интенсивность отказов, получаемая по обеим методикам, как правило, выше, чем при испытаниях. Анализ результатов испытаний показывает, что интенсивности отказов ПЛИС практически не зависят от характерного размера и степени интеграции. 

  • В 2006 г. под руководством к.т.н. А. М. Михайлова начаты исследования по новой для лаборатории тематике, относящейся к классу задач искусственного интеллекта. Это задачи по исследованию модели нейронного кортекса, которые предназначены для моделирования задач распознавания, связанных с обработкой очень больших объёмов информации так, как это делает кортекс головного мозга. Прежде всего, это поиск информации и кодирование места доступа к ней. Работы только разворачиваются, привлекая многих аспирантов окунуться в эту проблематику.
  • С 1993 г. и по настоящее время заведующим лабораторией № 27 является доктор технических наук Михаил Фёдорович КаравайСотрудники лаборатории (д.т.н. М. Ф. Каравай) активно вовлечены в работы МОКБ «МАРС» и ФГУП ЦНИИмаш по проектированию и производству новейших отказоустойчивых управляющих и вычислительных систем для разгонных блоков и малых спутников широкого назначения. Многолетний опыт лаборатории по созданию диагностического обеспечения, по возможности, передаётся в последние разработки МОКБ «МАРС». Совместно с МОКБ «МАРС» получен патент РФ на новую архитектуру отказоустойчивой памяти для работы в условиях усиленного ионизирующего излучения. Память «выдерживает», то есть парирует, до нескольких сотен устойчивых отказов, которые раньше считались невосстановимыми. При этом заметных потерь в производительности нет. Ещё одно направление совместной деятельности — создание двугранных (двухканальных) отказоустойчивых систем с характеристиками, близкими к характеристикам современных четырёх- и трёхгранных систем. Двугранные системы предназначены для оснащения ими разгонных блоков, малых спутников, летательных аппаратов, производимых ФГУП «РАДУГА». Управляющие бортовые ЭВМ проектируются на базе отечественных «систем-на-кристалле», производимых фирмой «Элвис» в г. Зеленограде.
  • Продолжается инициативная совместная работа с кафедрой акустики физического факультета МГУ (д.ф-м.н. проф. В. А. Буров и его коллеги) по созданию ультразвукового медицинского томографа для ранней диагностики рака молочной железы у женщин. В этой работе лаборатория ответственна за разработку программного обеспечения томографа, уникальную ультразвуковую поворотную антенну и систему управления антенной (член-корреспондент РАН П. П. Пархоменко, д.т.н. М. Ф. Каравай, ведущий программист — О. И. Лапшёнкина, ведущий конструктор — Б. А. Фалеев). К сожалению, основные препятствия в работе связаны с развалом пьезокерамической промышленности России в 90-е годы, не преодолённым до сих пор. А качественные пьезоизлучатели — ключевой элемент томографа. Их отсутствие сдерживает продвижение вперёд.

С 1993 г. и по настоящее время заведующим лабораторией № 27 является доктор технических наук Михаил Фёдорович Каравай