Алгоритмическое и программное обеспечение интернета следующего поколения
Жижченко А.Б., Васенин В.А.

Алгоритмическое и программное обеспечение интернета следующего поколения


А.Б. Жижченко
В.А. Васенин



Интернет, составляющий основу мирового киберпространства, сегодня во многом определяет темпы развития не только в научно-технической или образовательной сфере, но и на других национально значимых направлениях хозяйственной деятельности, таких как промышленное производство и бизнес, оборона и медицина, сфера услуг, транспорт или энергетика [1–3]. Технологии и инфрастуктура, обеспечивающие обработку и передачу информации, вышли и, по прогнозам аналитиков, в ближайшее время останутся главными факторами, определяющими научно-технический прогресс информационного общества.

Технологические, архитектурные и, как следствие, инфраструктурные решения современного интернета, основы которого закладывались 20–30 лет назад, на сегодня уже не удовлетворяют развившимся на их основе потребностям современного общества, приложениям в различных сферах деятельности человека. В настоящее время (на рубеже веков) во всех экономически развитых государствах мира наблюдаются активные действия исследовательского сектора, направленные на поиск подходов, разработку и внедрение в практику технических и технологических, архитектурных и инфраструктурных решений для интернета следующего поколения. Основу таких решений формируют результаты фундаментальных исследований в области прикладной математики и информатики. В первую очередь благодаря именно этой теоретической базе достигается прогресс в области телекоммуникаций высокой и сверхвысокой производительности, сетей с интегральным обслуживанием, в суперкомпьютерных вычислениях, в области создания метакомпьютерных структур, современных систем информационной безопасности и средств визуализации с высоким разрешением.

Формируя теоретическую, а на ее основе – и технологическую базу для интернета следующего поколения, исследователи разных стран уже сегодня создают новые средства и способы работы с информацией, поэтапно развивая и эффективно используя мировое инфотелекоммуникационное пространство. Российская академия наук и высшая школа активно сотрудничают на этом направлении развития науки и техники. К настоящему времени уже сложились и апробированы временем определенные формы и методы такого взаимодействия. Не все из них одинаково эффективны, есть разные примеры и уже сложилась определенная база для осмысления и выбора рациональных путей интеграции науки и высшей школы для решения задач в области новейших, в том числе критических, технологий.

Далее, на фоне обсуждения проблем и решений, связанных с разработкой перспективной базы и проведением практических работ в области телекоммуникаций и информационно-вычислительных технологий на сетях следующего поколения, представим результаты сотрудничества Московского государственного университета им. М.В. Ломоносова (в лице НИИ механики, механико-математического факультета и Института проблем информационной безопасности) с Российской академией наук (в лице Центра научных телекоммуникаций и информационных технологий РАН).


1. Направления исследований, задачи, решения

Рассмотрим общие, наиболее важные проблемы, направления и задачи на пути формирования фундаментальных основ и программного обеспечения информационных систем нового поколения. Остановимся на подходах к решению ряда ранее сформулированных задач или решениях, которые уже получены российскими исследователями в рамках выполнения некоторых проектов Программы фундаментальных исследований Президиума РАН «Разработка фундаментальных основ создания распределенной информационно-вычислительной среды на основе технологий GRID» и Отделения математических наук РАН «Математические и алгоритмические проблемы информационных систем нового поколения», посвященных обсуждаемой тематике. Представленные материалы касаются задач и результатов, которые получены учеными из Центра научных телекоммуникаций и информационных технологий РАН совместно со специалистами МГУ им.

М.В. Ломоносова, ФГУП «НИИ «Квант», Межведомственного суперкомпьютерного центра (МСЦ). Значительную часть коллектива исполнителей задач, решение которых представлено далее, составляют студенты и аспиранты кафедры вычислительной математики механико-математического факультета МГУ. Участвуя в течение двух лет в выполнении работ на данном направлении, они выросли в специалистов высокой квалификации, некоторые защитили кандидатские диссертации, стали сотрудниками ЦНТК РАН, НИИ механики и Института проблем информационной безопасности МГУ. Далее представлены лишь краткие сведения, показывающие актуальность и формулировки задач, которые решаются в рамках отдельных проектов, а также конспективно изложены результаты, которые получены на начальных этапах их решения.


1.1. Технологии GRID–систем для высокопроизводительных вычислений

Развитие архитектур информационно-вычислительных комплексов, технологий и способов обработки данных с развитием интернета эволюционирует от «монолитных», сильносвязанных многопроцессорных систем высокой и сверхвысокой производительности к более эффективным и перспективным распределенным системам, использующим интернет как среду совместной обработки, передачи и хранения информации. Такое направление принято именовать GRID («решетка») [4,5].

Эффективное внедрение GRID-решений в повседневную практику обеспечивается лишь с достижением скоростей передачи данных в глобальных сетях, соизмеримых с современными скоростями внутримашинного (ЭВМ) обмена. Такое возможно при скоростях маршрутизации пакетов на магистральных каналах »106–109 пакетов/сек и передачи данных порядка 109–1012 бит/сек, то есть на скоростях, близких к терабитным.

Достижение подобных скоростей передачи данных на физическом уровне в ближайшие годы возможно. Перспективы разработки механизмов необходимой для этого сверхскоростной (по сегодняшним меркам) маршрутизации пакетов по магистральным сетям интернета следующего поколения в настоящее время определяются так называемыми l-подходами. Лямбда-коммутация, объединяющая технологии DWDM (Dense Wavelength Division Multiplexing) – уплотнения каналов по длине волны в одной физической волоконно-оптической линии связи под управлением MPlS (MultiProtocol l-Switching) – протокола маршрутизации пакетов на основе их меточной (по длине волны) коммутации.

С учетом темпов развертывания этих работ в странах с развитой сетевой инфраструктурой и результатов, которые уже удалось получить, можно в ближайшие годы ожидать готовых решений, поддерживающих нижние (от физического до сетевого) уровни OSI систем GRID.

Основными объектами исследований, связанных с распределенной обработкой данных на основе GRID-технологий, являются принципы, модели и алгоритмы, программные средства для построения подобных систем и управления ими [1, 4, 5].

В ходе выполнения работ по проекту «Сетевая среда распределенной обработки данных на основе технологий GRID» использовались методы сравнительного анализа известных решений в области создания распределенных высокопроизводительных вычислительных сетей, синтеза принципов построения и алгоритмов функционирования сетевой среды распределенных вычислений на основе требований, предъявляемых к функциональности подобных систем, а также методы экспериментального исследования предлагаемых решений, разработанных алгоритмов и программных средств с использованием имитационных моделей и натурных экспериментов.

Результатом работы на первом этапе выполнения проекта являются опробованные на практике рекомендации по установке и настройке свободно распространяемого программного обеспечения Globus Toolkit 2.0, предназначенного для построения подобных систем, разработанные оригинальные программные средства управления сетевой средой распределенных вычислений, научные публикации [1,7–12], содержащие описание разработанных принципов, алгоритмов функционирования и технологических этапов построения сетевой среды распределенных вычислений, результаты моделирования разработанных алгоритмов, а также действующий фрагмент GRID-полигона.

Разработанные в ходе реализации проекта принципы, алгоритмы, программные средства позволяют объединять отдельные, соединенные коммуникационными каналами вычислительные системы в единый ресурс, обеспечивая при этом большую производительность, доступность и эффективность его использования при решении прикладных задач. В состав сетевой среды распределенных вычислений могут входить отдельные комплексы, имеющие различную архитектуру, программное обеспечение, коммуникационные средства. Для включения таких комплексов в состав распределенной системы обязательным является функционирование на ней (на управляющей машине соответствующего кластера) компонентов Globus Toolkit, библиотек MPI для Globus и менеджеров системы управления. Отдельный вычислительный комплекс может использовать собственную систему планирования заданий. В этом случае требуется реализация интерфейса процесса Jobmanager пакета Globus к конкретной системе планирования заданий (в пакет Globus уже включена поддержка таких систем планирования, как LSF, PBS, PRUN, NQE, CODINE и др.). В случае нахождения отдельного вычислительного комплекса в защищенном сетевым экраном фрагменте сети может потребоваться установка на нем программных средств туннелирования сетевого трафика (например, программы Vtune) для преодоления ограничений, устанавливаемых администраторами данного сегмента сети.

В ходе работ по данному проекту создан и прошел первые тестовые испытания отечественный экспериментальный GRID-полигон-фрагмент ССРВ, объединяющий инструментальные средства всех уровней архитектурной иерархии систем аналогичного назначения, которые созданы или создаются за рубежом.

Базовое ядро GRID-полигона составили вычислительные кластеры НИИ механики МГУ им. М.В. Ломоносова (16 процессоров AMD Athlon, коммуникационная среда SCI) и НИИ «Квант» (16 процессоров Intel Xeon, коммуникационная среда Myrinet; 9 процессоров Intel Itanium, коммуникационная среда Myrinet), соединенные каналами сети Интернет.

Новизна результатов выполненной работы заключается в том, что:

  • предложена система управления распределенной гетерогенной вычислительной средой в виде иерархии менеджеров, реализующих алгоритмы управления в процессе асинхронного параллельного взаимодействия;
  • предложен новый алгоритм оптимального назначения параллельной задачи на вычислительные ресурсы сетевой среды распределенных вычислений;
  • разработана и исследована имитационная модель сетевой среды распределенных вычислений с использованием в процессе моделирования статистических данных, полученных при эксплуатации вычислительных систем МВС-100/200 в ИПМ им. М.В. Келдыша РАН и МВС-1000М в МСЦ РАН.
1.2. Активный мониторинг больших информационно-вычислительных систем

В связи с совершенствованием массово-параллельных суперкомпьютерных комплексов, появлением на интернет-инфраструктуре больших распределенных информационно-вычислительных систем высокой и сверхвысокой производительности в разряд первоочередных выдвигается проблема создания эффективных систем управления такими ресурсами. Технологические и архитектурные особенности информационно-вычислительных систем нового поколения требуют новых подходов к созданию систем управления ими. Такие системы управления должны объединять традиционно различные подсистемы:
  • мониторинга состояния разнообразных (вообще говоря, гетерогенных) распределенных на сети ресурсов и, при необходимости, управления их состоянием;
  • приема и систематизации поступающих заданий, рационального их размещения для обработки средствами (ресурсами) подконтрольной информационно-вычислительной среды;
  • обеспечения информационной безопасности как макрообъектов (компонентов) среды, так и отдельных объектов – носителей информации.

Одной из базовых в перечисленном перечне подсистем и функций является подсистема мониторинга, которая обеспечивает контроль состояния отдельных объектов и сложной, постоянно изменяющейся системы в целом, а, при необходимости, позволяет оперативно управлять состоянием объектов. Проблемы построения таких подсистем активного (имея в виду не только контроль, но и оперативное управление), функционального (с перестраиваемой функциональностью) мониторинга больших систем предполагают:
  • построение математических моделей, алгоритмов функционирования как отдельных ее объектов, компонентов, так подсистемы в целом;
  • разработку и создание программного обеспечения, реализующего различные модели и сценарии контроля состояния системы, обеспечения оперативного управления ею.

Систем такого уровня и функциональности, специально ориентированных на «большие» комплексы, распределенные в интернете, не существует. Для этих целей, как правило, используют традиционные промышленные системы сетевого мониторинга, такие как HP OpenView, SUN Net Manager, Tivoli и др. Однако закрытые исходные коды этих комплексов и, как следствие, ограниченная перестраиваемость при необходимости изменить функции, низкий уровень доверия к системе с точки зрения информационной безопасности и очень высокая стоимость не позволяют использовать их ни как общедоступные, ни для активного мониторинга больших, в том числе – распределенных систем национальной значимости.

В связи с изложенным представляет интерес подход к созданию системы FLAME – Functional Active Monitoring Environment [8,13], реализуемый в рамках проекта «Среда активного функционального мониторинга больших вычислительных систем». Объектом разработки по этому проекту является программный комплекс, предназначенный для контроля состояния вычислительных ресурсов, извещения обслуживающего персонала и программных средств реконфигурации об отказавших программно-аппаратных модулях, а также оперативного реагирования на критические состояния с целью предотвращения разрушения отдельных модулей и системы в целом.

Конечной целью работы является создание оригинальной отечественной системы активного функционального мониторинга больших вычислительных систем на базе свободно распространяемого программного обеспечения и программных модулей собственной разработки. Создаваемая система мониторинга должна формировать информационную базу для самовосстановления вычислительных систем путем обнаружения отказавших или сбойных аппаратно-программных компонент, обеспечения возможности продолжения исполнения всех или критически важных прикладных программ. Кроме того, система мониторинга должна включать программные средства автоматизации для описания конфигурации контролируемых вычислительных систем, а также сохранения и представления в удобном для администратора виде статистических данных о работе контролируемых систем за длительный промежуток времени.

В ходе выполнения проекта использовались методы сравнительного анализа известных решений в области создания систем мониторинга, таких как HP OpenView, SUN Net Manager, а также ряд свободно распространяемых программных продуктов. Работа проводилась с применением современных технологий программирования и представления структур данных, а также с учетом проблем обеспечения компьютерной безопасности. Для представления конфигурации контролируемой системы используется язык на основе XML, а результаты запросов о состоянии ресурсов возвращаются в XML-формате по HTTP-протоколу, что позволяет использовать для визуализации XML-браузер.

В результате проделанной работы создана первая версия системы активного функционального мониторинга с полными исходными текстами, предназначенная для контроля состояния больших вычислительных систем и компьютерных сетей. Система мониторинга может использоваться как самостоятельный продукт в локальных и глобальных сетях, а также в вычислительных системах и кластерах. Она может быть встроена в свободно распространяемый продукт Globus в составе программного обеспечения среды распределенной обработки данных на базе GRID-технологий.

Система мониторинга FLAME позволяет работать с любым оборудованием, которое доступно по протоколам SNMP или HTTP. Для функционирования FLAME необходим компьютер, работающий под управлением ОС Linux, имеющий не менее 64-х мегабайт оперативной памяти и достаточно дискового пространства. Компьютер должен быть в одной сети с контролируемыми устройствами. В качестве консоли может использоваться компьютер под управлением ОС Linux или ОС Windows с функционирующим программным обеспечением X-Windows для отображения экранных форм консоли.


1.3. Механизмы автоматического динамического распараллеливания в системе управления распределенными
информационно-вычислительными ресурсами

Объектами исследования в рамках проекта «Функционально-ориентированные T–суперструктуры как эффективное средство для построения высокопроизводительных распределенных приложений и информационных сервисов» являются принципы построения распределенных систем типа GRID (в первую очередь, – вычислительных) на основе комбинации инструментальных средств Globus Toolkit и механизмов автоматического динамического распараллеливания программ [2,15,16], модели организации управления такого сорта системами и их программное обеспечение. Предметом исследования являются алгоритмы и модели, программные решения, позволяющие эффективно управлять системами, построенными на технологиях GRID. Целью работы является поиск механизмов, моделей и их программной реализации, обеспечивающих эффективное управление подобными системами.

По результатам исследований и практических разработок, проведенных в рамках данного проекта, в качестве основных могут рассматриваться следующие:

  • В ходе поуровневого анализа функциональности Globus Toolkit выявлены и систематизированы проблемы, перспективные направления их разрешения и результаты исследований российских специалистов, которые могут быть использованы на начальном этапе работ по созданию отечественного GRID-полигона.
  • В качестве инструментального комплекса, эффективно дополняющего Globus Toolkit для систем типа GRID, рассмотрена T-система автоматического динамического распараллеливания с открытой архитектурой (Open TS), реализованная в виде суперструктуры (надстройки) над стандартной средой исполнения программ на языках C/C++. Это обстоятельство обеспечивает легкость переноса данного программного средства на различные аппаратные платформы. Предложенная архитектура Open TS обеспечивает такие важные аспекты модели метакомпьютерных вычислений, как:
    • неоднородная, обычно иерархически организованная вычислительная конфигурация;
    • изменяющаяся доступная мощность вычислительных узлов;
    • переменная конфигурация метакластера;
    • различные пропускные способности каналов связи;
    • распределенная схема организации вычислений.
  • С целью выполнения задач по сбору, унификации и хранения данных о ресурсах GRID-структур на локальном уровне используется уже упоминавшаяся система активного функционального мониторинга FLAME. Выполненные исполнителями проекта доработки позволили решить не только ряд универсальным способом не решаемых задач на уровне адаптации GRID, но и получить исходные механизмы и посылки для начала работ по поддержке концепции «автономного компьютинга», включающего принципы самоконфигурирования, самовосстановления, самооптимизации и самозащиты.
  • По результатам исследований возможностей, декларируемых протоколами уровня связи GRID и реализуемых в Globus Toolkit, тестовых испытаний на экспериментальном полигоне и в ходе их анализа систематизированы:
    • перечень проблем, которые могут возникнуть при реализации связи с использованием MPICH-G2, традиционного MPI и TCP/IP;
    • трудности реализации связи между вычислительными узлами при наличии механизмов защиты в условиях различных политик безопасности на уровне узлов.
  • Проведен анализ решений по организации каталога данных о структуре больших кластерных систем и метакластерных структур, создаваемых по технологии GRID на основе Globus Toolkit. Систематизированы их положительные и отрицательные аспекты. Для эффективной организации таких данных в GRID-системе на основе Globus Toolkit и Open TS разработана модель LDAP-реализации схемы гетерогенных локальных данных FLAME на единое физическое хранилище.
  • Для эффективного управления данными на уровне кооперации и координации GRID начата разработка математической модели метапланировщика, в котором реализованы алгоритмические и программные решения, совместимые с технологическими возможностями, предоставляемыми Open TS.
  • Рассмотрены в комплексе проблемы безопасности информационно-вычислительных структур, построенных по технологии GRID. Сформирована и описана обобщенная модель такой системы, потенциальные угрозы, кратко проанализированы различные концептуальные подходы к реализации защиты таких систем. Представлены математические модели для построения систем и обоснования безопасности GRID-структур.
  • Построенный в ходе выполнения работ по проекту сетевой полигон активно использовался не только для апробации базовых технологий и протоколов, инфраструктурных сервисов, но и для тестирования на его базе ряда практически значимых задач.
1.4. Модели распределенной общей памяти и файловых систем для многопроцессорных комплексов

В рамках проекта «Модели распределенной общей памяти (DSM) и файловые системы для многопроцессорных вычислительных комплексов» объектом исследований является модель (схема) использования оперативной и внешней памяти вычислительных модулей как разделяемого (общего) ресурса распределенной информационно-вычислительной среды на основе технологий GRID. Цель работы заключается в поиске подходов, моделей и реализующих их программных продуктов, которые позволяли бы создавать и эффективно исполнять параллельные программы на базе модели разделяемой памяти и распределенных параллельных файловых систем.

К основным результатам работ в рамках данного проекта следует отнести следующие:

  • Освоение, модификация для исполнения на современных программно-аппаратных платформах, анализ эффективности трех программных продуктов, а именно, – SciOS, Filaments, SCore Cluster System Software, предназначенных для создания и поддержки исполнения параллельных программ на базе разделяемой памяти. Выбор (и обоснование) SciOS в качестве продукта, перспективного для использования в сетевых средах распределенных вычислений.
  • Создание оригинального программного продукта Суперпамяти в составе Т-Суперструктуры, реализующей модель объектно-ориентированной разделяемой памяти.
  • Освоение и практическое испытание параллельных файловых систем PVFS и Open GFS, формирование подходов к решению задач:
    • Ш статической оптимизации размещения файлов на сетевой среде распределенных вычислений;
    • Ш предвыборки в дисковые кэш-памяти на локальных дисках блоков файлов, используемых в параллельных программах.
Доработанный в рамках исследований по данному проекту продукт SciOS [17] предлагается для создания параллельных программ со статическим порождением параллельных процессов (тредов). Показано, что суперпамять оказывается эффективна в программах с динамически порождаемыми тредами, но может быть использована также и для разработки программ со статическим порождением тредов.

Результаты исследований могут использоваться как на отдельных многомашинных кластерах и параллельных вычислительных системах, так и в составе сетевых сред распределенной обработки. Разработанные в рамках проекта программные продукты позволяют создавать переносимые (без какой-либо доработки) параллельные программы с одной параллельной архитектуры на другую. Они способствуют повышению производительности при параллельном программировании и исполнении параллельных программ как за счет эффективной реализации разделяемой памяти, так и за счет ускорения параллельного доступа к устройствам ввода-вывода.


1.5. Математическое и программное обеспечение информационной безопасности ресурсов распределенных информационно-вычислительных систем

Средства и механизмы, которыми оснащен TCP/IP-стек протоколов интернета на сегодня не в состоянии поддерживать должный уровень безопасности как информационно-вычислительных ресурсов, так и инфрастуктуры Метасети для предотвращения угроз конфиденциальности, целостности и доступности данных. В силу этих обстоятельств широкий спектр даже традиционных, широкодоступных приложений не может на должном уровне защищенности эксплуатироваться в интернете, не говоря уже о тех, которые имеют высокую ценность и значимость в корпоративном или национальном масштабе. Решение вопросов информационной безопасности даже для отдельных, относительно простых продуктов или систем представляет определенные трудности. В условиях же существенно распределенных на объективно гетерогенной аппаратно-программной сетевой среде «больших» систем эти задачи еще более усложняются.

Построение надежно защищенных объектов (продуктов или систем) информационных технологий требует формирования их политики безопасности, разработки надлежащих механизмов, создания средств защиты и их верификации на строгое выполнение принятой политики. Формирование и политики безопасности, и доказательной базы гарантированной защищенности таких объектов связано с построением строгих математических моделей, алгоритмов и инструментальных, в первую очередь, программных средств.

В настоящее время результаты ранее «закрытых» работ на этом направлении, базовые математические модели и основы критериального подхода к оценке уровня защищенности объектов информационных технологий стали общедоступными. Это обстоятельство обеспечило базу для развертывания работ по созданию современных средств защиты распределенных систем в интернете. Такая деятельность в настоящее время ведется в научно-исследовательских центрах, университетских лабораториях экономически развитых стран мира. Она финансируется и активно координируется государственными ведомствами, общественными фондами, заинтересованными в создании средств защиты на инфраструктуре интернета следующего поколения.

Механизмы и модели защиты сложных систем рассредоточены и располагаются на всех ее уровнях – от системного до прикладного. Особая роль в этом комплексе средств защиты принадлежит операционной системе (ОС), ее ядру, в котором реализуются механизмы логического разграничения доступа, составляющие, как правило, основу политики безопасности объекта. Разработка механизмов ОС, обеспечивающих повышенные требования к безопасности объектов разной степени сложности, связана с применением последних достижений дискретной математики и информатики. Задачи этого направления в экономически развитых странах относятся к числу национально значимых.

Отдельной, очень наукоемкой задачей в области построения современных систем информационной безопасности является разработка так называемых систем активного аудита. Они призваны обеспечить контроль состояния, своевременно обнаруживать аномальную, деструктивную активность в сложной системе и, на основании более детального анализа ситуации, оперативно предпринимать адекватные действия.

К сожалению, несмотря на объективно существующие заделы в области прикладной математики и теоретической информатики, российских результатов на указанных выше направлениях пока очень мало. Вместе с тем появившиеся в последние годы тенденции на объединение усилий теоретиков и специалистов-прикладников начинают давать свои плоды. Сегодня можно привести результаты работ, которые можно рассматривать как этапы (шаги) на пути решения перечисленных задач.

В рамках проекта «Математические модели, алгоритмы и инструментальные средства защиты ресурсов распределенных информационно-вычислительных систем» исследовались задачи на следующих направлениях:

  • построение математических моделей гарантированно защищенных распределенных систем;
  • разработка архитектурных решений, математического, алгоритмического и программного обеспечения систем обнаружения аномальных ситуаций, деструктивных воздействий на распределенные информационно-вычислительные комплексы и оперативного реагирования;
  • разработка эффективных подходов, математического обеспечения и программных средств для проверки корректности работы программ с памятью.

В ходе исследований на отмеченных направлениях получен ряд оригинальных результатов, имеющих как теоретическое значение для совершенствования математических моделей, разработки способов эффективного описания определяющих (основных) характеристик изучаемых процессов, так и практическую (прикладную) ценность – как базы для построения новых программных средств защиты.

На основе вероятностных методов разработаны математические модели гарантированно защищенных систем, обоснованы условия их применения, расширяющие ограничения традиционно используемых для этих целей детерминированных автоматных моделей невлияния [19]. Обобщение этой модели на случай вероятностных автоматов, ее «огрубление» за счет уменьшения детализации функции перехода позволило:

  • уменьшить число ее состояний;
  • построить достаточные и почти необходимые локальные условия (наложенные на матрицу переходов), обеспечивающие глобальную безопасность (в смысле угроз конфиденциальности и целостности данных в предположении абсолютно надежной аутентификации) системы.

С целью разработки теоретической базы для построения прототипа модели системы, ориентированной на поддержку высокой степени доступности, предложена и исследована модель на основе случайных графов. В рамках данной модели [19] строятся асимптотические оценки доли узлов, по наблюдению за которыми можно сделать выводы о состоянии системы в целом.

Исследования в рамках подобной модели создают хорошие исходные посылки для создания на их основе прикладной системы мониторинга состояния распределенного информационно-вычислительного комплекса на предмет наличия атак на отказ в обслуживании и оперативного реагирования на них.

С целью разработки подходов к построению политик безопасности сложных распределенных объектов формализована постановка задачи объединения (интеграции) разнородных (различных) политик безопасности отдельных подсистем в составе единой системы.

В развитие работ по построению отдельных элементов и прототипа системы активного аудита распределенных информационно-вычислительных комплексов:

  • обоснована, формализована и описана архитектурная модель системы;
  • разработано математическое, алгоритмическое обеспечение и реализованы программно компоненты системы, ориентированные на нейросетевой анализ следа системных вызовов ключевых процессов [20,21], а также на интегральный анализ трафика [22];
  • созданы инфраструктурные элементы для интеграции компонент системы активного аудита в соответствии с предложенной архитектурой.

Проведена архитектурная проработка, реализовано математическое, алгоритмическое обеспечение и программная реализация прототипа системы, предназначенной для выявления возможных переполнений буферов в программах, написанных на языке С [23].

1.6. Модели управления в больших (и сверхбольших) хранилищах данных со слабой структурой

Интеграционные процессы доминируют в современном обществе. Далеко не всегда они приводят к желаемым позитивным результатам, однако их ведущая роль в развитии общества сомнению не подвергается. Технологической базой таких процессов является Метасеть Интернет, объединяющая огромные информационные ресурсы.

Для систематизации технических проблем интеграции всю совокупность подлежащих объединению ресурсов целесообразно разделять на уровни, каждый из которых обладает специфическими требованиями к способам обработки данных, качеству данных и правилам их использования, что в свою очередь влияет на выбор стратегии их интеграции. Например, при интеграции ресурсов научных организаций [24] такими уровнями могут являться:

  • автоматизация процессов административно-управленческой деятельности;
  • автоматизация процессов административного сопровождения основной деятельности;
  • автоматизация основной деятельности;
  • информационно-просветительская деятельность.

Верхние уровни характеризуются наличием конфиденциальных строго структурированных данных, для манипулирования которыми используются системы управления реляционными базами данных. Интеграция таких ресурсов приводит к задачам сопряжения разнородных схем данных и трансляции запросов [25].

На нижних уровнях иерархии характерно использование общедоступных текстовых документов. Учитывая широкое распространение веб-технологии, децентрализованный характер сопровождения и большие объемы информации, размещенные в настоящее время на серверах интернета, содержимое веб-серверов является значимым информационным ресурсом. В связи с этим особое значение имеют системы информационного поиска в глобальных сетях.

Сложность задачи создания подобных систем состоит в том, что в подавляющем числе случаев поступающая информация представлена в слабоструктурированном или неструктурированном текстовом виде. Примерами полуструктурированных данных являются XML- и HTML-документы, тексты математических работ в формате TeX или результат объединения данных из нескольких информационных источников. Большие коллекции таких данных не могут эффективно обрабатываться существующими полнотекстовыми информационными системами, которые не учитывают логическую структуру документов. Это требует разработки новых механизмов поиска и обработки информации.

Для повышения релевантности поиска, то есть отношения числа значимых документов к общему числу найденных по запросу, следует использовать различные модели, механизмы и методы, позволяющие выявлять или формально описывать смысловое содержание документов. К числу таких методов можно отнести использование логической структуры документа, кластеризацию, классификацию, поиск по подобию, исследование структуры перекрестных ссылок для выявления значимых ресурсов и уточнения процесса кластеризации, использование метаданных, лингвистический анализ текстов.

Целью проекта «Организация, поиск и кластеризация полуструктурированных данных в глобальных сетях» является анализ перечисленных выше методов обработки текстов и разработка на их основе архитектуры автоматизированной системы информационного обеспечения (АСИО), позволяющей производить поиск и тематический мониторинг (фильтрацию) информационных ресурсов. Основными требованиями, которым должна удовлетворять система, являются высокая скорость обработки данных и возможность работы с большим числом непрерывно изменяющихся информационных ресурсов. Потенциальными сферами применения системы являются корпоративные информационные комплексы или глобальные информационно-поисковые системы в интернете.

В результате выполнения работ по проекту были проанализированы различные методы обработки текстов, включая методы выявления новых тематических направлений [26] поиска с использованием логической структуры документов [27, 28], классификации и кластеризации гипертекстов [29–31], автоматического реферирования. Предложена архитектура автоматизированной системы информационного обеспечения [27], предоставляющей возможности поиска и тематического мониторинга информационных ресурсов. Для отдельных элементов архитектуры разработаны прототипы соответствующих модулей.

При выборе методов, алгоритмов и конкретных технических решений значительное внимание уделялось проблеме скорости обработки информации. Комбинация вероятностного и нейросетевого подходов к проблеме классификации текстов дает возможность обрабатывать с использованием современной вычислительной техники десятки мегабайт текста в минуту. Для задачи уточнения классификации на основе анализа структуры перекрестных ссылок, которая является вычислительно сложной, известны эффективные параллельные алгоритмы ее решения. Все это позволяет рассчитывать на возможность применения системы в глобальных сетях.

Результаты предварительных испытаний показывают, что предложенный подход к решению задач поиска и тематического мониторинга позволяет получить результаты, находящиеся на уровне современных информационно-поисковых систем. Аналогов крупномасштабных систем поиска полуструктурированных документов в мире пока не предложено. Проведенный анализ методов вычисления и оптимизации запросов с учетом структуры документов показывает, что известные на настоящее время алгоритмы могут использоваться для создания подобной системы.

Предложенные в последнее время модели полуструктурированных данных и языков запросов основываются на понятиях ориентированного помеченного графа и регулярного путевого запроса [27, 28]. Данные представляются в виде графа (или дерева), вершины которого соответствуют объектам предметной области, а ребра помечены символами некоторого алфавита и определяют отношения между объектами. Так как задача информационного поиска может быть сформулирована как задача поиска объектов, связанных некоторыми соотношениями, то при графовом представлении данных это приводит к поиску вершин графа, связанных путями в графе. Характерной является следующая задача: для заданного графа G и регулярного языка Q (запроса) требуется найти такие вершины u и v, что найдется путь между u и v, метки которого образуют слово в языке Q.

На основе регулярных путевых запросов можно построить более сложные языки запросов. Одной из возможностей являются конъюнктивные регулярные путевые запросы. В этой модели запрос представляется совокупностью регулярных путевых выражений относительно переменных x1,…,xn, а вычисление запросов может быть сведено к поиску подграфа в помеченном мультиграфе.

В работе по проекту «Проектирование и реализация параллельных алгоритмов вычисления и оптимизации запросов в системах управления полуструктурированными данными» рассматриваются проблемы построения эффективных параллельных алгоритмов вычисления конъюнктивных регулярных путевых запросов к базам полуструктурированных данных. База данных представляется большим массивом изолированных полуструктурированных документов. Такая модель отражает потребности реальных прикладных задач, в частности, – поиска информации в массиве текстовых документов с заданной логической структурой.

Целью работы является математически строгая постановка задачи вычисления запросов к полуструктурированным данным и разработка параллельных алгоритмов вычисления запросов. В ходе выполнения данной работы использовались методы теории графов и теории формальных языков.

В результате выполнения работ были получены следующие результаты:

  • Проведен анализ современных методов вычисления и оптимизации конъюнктивных регулярных путевых запросов.
  • Разработаны параллельные алгоритмы вычисления конъюнктивных регулярных путевых запросов и описан ряд эвристик, существенно влияющих на эффективность вычисления запросов.
  • Доказана алгоритмическая разрешимость и построен алгоритм представления регулярного языка в виде произведения заданного и неизвестного, что позволяет построить параллельный алгоритм вычисления элементарного запроса.
  • Разработан алгоритм построения иерархии схем и усечения пространства поиска.

Результаты, полученные в ходе выполнения проекта [32, 33], показывают, что эффективность вычисления конъюнктивных регулярных путевых запросов существенно зависит от порядка обхода вершин запроса. В то же время использование структуры запроса и характеристик базы данных значительно снижает эффективность параллельного вычисления запросов, а именно – увеличение числа вычислительных узлов приводит к росту производительности только в случае неоптимальных планов выполнения запросов. Таким образом, разработанные эвристические методы позволяют получить приближение оптимального плана, а ошибка приближения может быть компенсирована за счет увеличения количества вычислительных узлов.

2. Перспективы продолжения работ

Результаты исследований, проведенных на первом этапе выполнения упомянутых выше проектов обеих программ фундаментальных исследований РАН, подтверждают исходные посылки об относительно высоком российском потенциале в области теоретической и прикладной математики и информатики, который служит залогом (гарантией) успешной работы на направлении, обеспечивающем базовые теоретические основы технологий, которые будут доминировать в интернете следующего поколения.

Эффективное взаимодействие ЦНТК РАН с НИИ механики, механико-математическим факультетом и Институтом проблем информационной безопасности МГУ им. М.В. Ломоносова, направленное на разработку и реализацию технологий, которые принято относить к числу критических, на их использование в составе национально значимых систем, наглядно демонстрирует перспективные подходы к организации подобных работ.

Оригинальные подходы к решению задач, полученные в рамках выполнения различных, однако взаимосвязанных и взаимодополняющих друг друга проектов уже сегодня могут и должны использоваться для разработки новых инфокоммуникационных технологий, инфраструктурных элементов (компонентов) и полигонов для тестирования приложений и оценки их функциональности. Такая деятельность позволит в ближайшие годы создать отдельные экспериментальные сегменты на основе технологий будущего, аналогичных тем, которые существуют в развитых (в первую очередь, в информационном плане) странах, для постепенного объединения их на национальном уровне.

В ходе выполнения работ по обсуждаемым проектам не только появляются новые теоретические результаты, технологические решения и технические системы. Не менее важным и значимым является тот факт, что несколько десятков студентов выросли в специалистов высшей квалификации на стратегически важном для будущего страны направлении. Таким образом, сотрудничество с Российской академией наук помогает первому российскому Московскому государственному университету им. М.В. Ломоносова успешно выполнять свою главную задачу – готовить интеллектуальную элиту общества.


Литература

  1. Математические модели, алгоритмы и программное обеспечение информационных систем нового поколения / В. А. Васенин, А. Б. Жижченко // Высокопроизводительные вычисления и технологии: Тезисы Всероссийской конференции. – Москва–Ижевск, Институт компьютерных исследований, 2003. – С. 28–34.
  2. GRACE: распределенные приложения в Internet / В. А. Васенин, В. А. Роганов, // Открытые системы. – 2001. – № 5-6 – С. 29–33.
  3. Internet: от настоящего к будущему / В. А. Васенин // Открытые системы. – 2001. – № 12(56). – С. 36–44.
  4. J. Foster, C. Kesselman, S. Tuecke. The Anatomy of the Grid: Enabling Scalable Virtual Organizations. International Journal of High Performance Computing Application, 15(3), 2001.
  5. Эволюция и проблемы GRID / В. Коваленко, Д. Корягин // Открытые системы. – 2003. – № 1. – С. 27.
  6. Богданов С.А., Коваленко В.Н., Хухлачев Е.В., Шорин О.Н. Метадиспетчер: реализация средствами метакомпьютерной системы Globus: Препринт ИПМ РАН, N30. – Москва, 2001.
  7. Проблемы математического, алгоритмического и программного обеспечения компьютерной безопасности в Интернет / В.А. Васенин // Математика и безопасность информационных технологий: Материалы конференции, МГУ, 23-24 октября 2003. – М.: МЦНМО, 2004. – С. 111–143.
  8. Система функционального активного мониторинга FLAME / В.А. Васенин, В.В. Корнеев, М.Ю. Ландина, В.А. Роганов // Программирование. – 2003. – №3. – С. 161–173.
  9. Технологии высокопроизводительных информационно-вычислительных систем: Сборник статей молодых ученых / Под ред. профессора В.А. Васенина. – Переславль-Залесский: Университет города Переславля, 2003. – 132 с.
  10. Управление сетевой средой распределенных вычислений. Методы и средства обработки информации: Труды первой Всероссийской научной конференции / В.В. Корнеев, А.В. Киселев, А.В. Баранов, Е.Л. Зверев, В.В. Подзоров. – М: Издательский отдел факультета ВМК МГУ им. М.В. Ломоносова, 2003. – С. 98–103.
  11. V.V. Korneev. The Development of System Software for Parallel Supercomputers. Advances in Computer System Architecture. Proc. 8th Asia-Pacific Conference ACSAC’2003, Aizu-Wakamatsu, Japan, 23–26 Sept. 2003. LNCS 2823 Springer.
  12. Будущее высокопроизводительных вычислительных систем / В.В. Корнеев // Открытые системы. – 2003. – № 5 (май 2003). – С.10.
  13. http://flame.s2s.msu.ru – [Электронный ресурс].
  14. Vasenin V.A., Korneev V.V., Landina M.Y., Roganov V.A. Functional Active Monitoring Environment for Supercomputer Systems. Proceedings of the 7th World Multi-Conference on SYSTEMICS, CYBERNETICS AND INFORMATICS SCI 2003, July 27–30, 2003. – Orlando, Florida (USA).
  15. Динамическое распараллеливание программ на базе параллельной редукции графов. Архитектура программного обеспечения новой версии Т-системы / С.М. Абрамов, В.А. Васенин, Е.Е. Мамчиц, В.А. Роганов, А.Ф. Слепухин // Высокопроизводительные вычисления и их приложения: Труды Всероссийской научной конференции. – Черноголовка, 2002. – С. 261–265.
  16. Метакомпьютинг, распределенные приложения в Интернет и система GRACE / В.А. Васенин, В.А. Роганов, А.Ф. Слепухин // Новые информационные технологии в университетском образовании: Материалы научно-методической конференции, март 2000. – Новосибирск: Изд-во ИДМИ, 2000. – С. 179–184.
  17. Распределенная общая память в системах с массовым параллелизмом / А.Н. Водомеров // Технологии высокопроизводительных информационно-вычислительных систем: Сборник статей молодых ученых / Под ред. профессора В.А. Васенина. – Переславль-Залесский: Университет города Переславля, 2003. – С. 119–126.
  18. К созданию эффективных систем предоставления гарантированного качества услуг для ресурсоемких сетевых приложений / В.А. Васенин, К.М. Щербатых и др. // Новые информационные технологии в университетском образовании: Тезисы международной научно-методической конференции / Кемерово, 20–22 марта 2002. – КемГУ, ИДМИ, 2002. – С. 229–233.
  19. Вероятностные модели гарантированно защищенных систем / А.В. Галатенко // Математика и безопасность информационных технологий: Материалы конференции / Москва, МГУ, 23–24 октября 2003. – М.: МЦНМО, 2004. – С. 234–237.
  20. Применение нейронных сетей для решения задач кластеризации в процессе мониторинга информационной безопасности / В.В. Райх // Математика и безопасность информационных технологий: Материалы конференции / Москва, МГУ, 23–24 октября 2003. – М.: МЦНМО, 2004. – С. 321–327.
  21. Использование нейронных сетей для выявления и классификации атак в ОС UNIX / С.В. Васютин // Математика и безопасность информационных технологий: Материалы конференции / Москва, МГУ, 23–24 октября 2003. – М.: МЦНМО, 2004. – С. 365–370.
  22. Анализ отдельных компонент трафика в системах активного аудита компьютерных сетей / В.А. Васенин, А.В. Галатенко, А.А. Макаров // Математика и безопасность информационных технологий: Материалы конференции / Москва, МГУ, 23–24 октября 2003. – М.: МЦНМО, 2004. – С. 352–365.
  23. Способ анализа программ на наличие угроз переполнения буферов / А.В. Галатенко, Ф.М. Пучков, К.А. Шапченко // Информационная безопасность регионов России (ИБРР-2003): Материалы конференции, – Санкт-Петербург, 2003. – С. 33.
  24. К созданию концепции интегрированной системы распределенных информационных ресуров Московского государственного университета им. М.В. Ломоносова / В.А. Васенин, С.А. Афонин, А.А. Коршунов. – М.: Изд–во Московского университета, 2001. – 111 с.
  25. UQL: язык запросов к интегрированным данным в терминах UML / М.Н. Гринев, С.Д. Кузнецов // Программирование. – 2002. – № 4. – С.9–19.
  26. Тематический поиск полнотекстовых документов / А.С. Козицын // Современные проблемы математики, механики, информатики: Тезисы докладов / Международная научная конференция «Современные проблемы математики, механики, информатики», секция информатики, ноябрь 2003. – Тула, 2003. – С. 162.
  27. К разработке моделей эффективного поиска информации в сети Интернет / В.А. Васенин, С.А. Афонин // Научный сервис в сети Интернет 2003: Сборник трудов Всероссийской научной конференции. – М.: Изд-во МГУ, 2003. – С. 252–255.
  28. О представлении регулярных языков в виде конкатенации заданных / Е.Е. Хазова // Межвузовский сборник статей. – Выпуск 3(8). – МГИУ, 2003. – С. 23–38.
  29. Поиск текстовых документов с учетом их логической структуры / С.А. Афонин, А.С. Козицын // XII международная конференция по вычислительной механике и современным прикладным программным системам (ВМСППС): Тезисы докладов. – Владимир, июнь 2003. – С. 74.
  30. Поиск текстовых документов с учетом их логической структуры / С.А. Афонин, А.С. Козицын // Ломоносовские чтения. Секция механики: Тезисы докладов, апрель 2003 г. – М.: Изд-во МГУ, 2003. – С. 22–23.
  31. Кластеризация на основе гравитационного метода / А.С. Титов // Межвузовский сборник статей. Выпуск 2(7). – МГИУ. – 2003. – С. 51–60.
  32. Параллельное вычисление запросов к базам полуструктурированных данных / С.А. Афонин // Высокопроизводительные вычисления и технологии: Тезисы докладов Всероссийской конференции. – Ижевск, 2003. – С. 202–205.
  33. Semistructured data search using dynamic parallelisation technology / S.Afonin, A.Shundeev, V.Roganov // Proceedings of the 26th international convention MIPRO-2003, 2003. – Рp. 152–157.
  34. Управление автоматизированными бизнес-процессами на основе XML / А.С. Шундеев // Информационные технологии и программирование 1(6). – М.: МГИУ, 2003. – С. 31–44.
  35. Редактирование документов и управление содержанием в среде WEB / Э.Е. Долгалев, А.А. Коршунов // Международная конференция по вычислительной механике и современным прикладным программным системам: Тезисы докладов / Международная конференция по вычислительной механике и современным прикладным программным системам (ВМСППС’2003), Владимир, 30 июня-5 июля 2003. – Владимир, 2003. – Т. 1. – С. 247.
  36. http://onager.s2s.msu.ru/portman.html– [Электронный ресурс].


Жижченко Алексей Борисович - Директор Центра научных телекоммуникаций и информационных технологий РАН, член-корреспондент РАН, доктор физико-математических наук.

Васенин Валерий Александрович - Заведующий отделом Института проблем информационной безопасности МГУ им. М.В. Ломоносова, доктор физико-математических наук, профессор.


&copy Информационное общество, 2005, вып. 1, сс. 56-64.