Технологии извлечения знаний на службе научно-исследовательской деятельности в вузе
Кононова О.В., Крутько Е.А., Ляпин С.Х.

Технологии извлечения знаний на службе научно-исследовательской деятельности в вузе

_______________

Кононова О.В., Крутько Е.А., Ляпин С.Х.



Статья рекомендована Б.В. Кристальным 18.11.2016.

Аннотация

В статье рассматривается подход к организации научно-исследовательской работы в вузе c использованием информационных технологий извлечения контекстных знаний. Предложена методика использования сервисов контекстного поиска и извлечения контекстных знаний из текстов электронной библиотеки «Humanitariana» – виртуального информационно-ресурсного центра с возможностями функциональной интеграции ресурсов и сервисов в распределенной среде.

Опыт организации исследовательской и аналитической работы на базе сервисов ЭБ «Humanitariana» впервые выносится на широкое обсуждение. Он систематизирован и представлен в рамках общей концепции развития мега-факультетов Университета ИТМО и дополняет системное понимание организационно-управленческой траектории и технологий информационного общества, способствующих ее воплощению.

Ключевые слова: технологии информационного общества, научно-исследовательская деятельность, технологии извлечения контекстного знания, контекстный поиск, абзацно-ориентированный запрос, частотно-ранжированный запрос.

Особенностью, характеризующей глобальное информационное общество, является изменение требований к потребительским качествам информации, способам и инструментам ее получения и анализа. Под удовлетворением информационных потребностей понимается прежде всего обеспечение открытости и достоверности данных, а также возможности самостоятельно управлять информационными ресурсами – поиском, анализом, оценкой информации и получением благодаря этому новых экспертных знаний. Именно качество и полнота удовлетворения информационных потребностей социума выступает фактором повышения эффективности управления предприятиями, организациями, государственным сектором экономики и государственными институтами, деятельностью отдельного человека.

Задача повышения эффективности управления может быть решена за счет использования механизмов извлечения контекстного знания и методов контекстного поиска из доступного пользователям информационного массива [1–3]. Под контекстным знанием подразумевается умение правильно воспринимать контекст, извлекать и интерпретировать профессионально значимую информацию из любых источников. Контекстный поиск – это метод последовательного поиска фрагментов текстовых записей, релевантных пользовательскому запросу в соответствии с требуемым контекстом.

Методы контекстного поиска включены в большинство современных BI-систем и предназначены для поддержки проведения бизнес-аналитики, обеспечения свободного поиска и интеллектуальной выборки данных в систематизированных хранилищах информации, повышения гибкости бизнеса. Важным аспектом применения методов контекстного поиска является поддержка научно-исследовательской деятельности в организациях и компаниях [4]. На практике использование методов контекстного поиска требует перестройки мировоззрения сотрудников и креативного подхода к изменению критериев сбора, обработки, анализа и оценки прагматической ценности информации. Поэтому для формирования внутренней мотивации, соответствующих компетенций, приобретения устойчивых навыков использования технологий контекстного поиска следует внедрять данные технологии в учебный процесс вузов, в первую очередь по программам магистратуры в рамках научно-исследовательской работы студентов. Для достижения успеха начинания необходимо, чтобы методы и технологии контекстного поиска использовались всем научно-преподавательским составом вуза (на первых порах – отдельного факультета или кафедры) в проектной, аналитической и образовательной деятельности.

Предпринимая исследование об использовании информационных технологий при организации НИР в вузе, мы ставили перед собой следующие задачи:

• проанализировать структуру, этапы и последовательность выполнения научно-исследовательской работы в вузе, выделить потребности каждого из этапов;

• выбрать эффективный инструментарий извлечения и анализа контекстных знаний, обеспечивающий доступность данных и открытость исследований;

• разработать методику организации НИР с использованием данного инструментария.

Организация научно-исследовательской деятельности в вузе. Содержание проектной, аналитической, образовательной и научно-исследовательской деятельности в вузе предполагает написание рефератов, обзоров, аналитических отчетов, подготовку научных публикаций, учебных кейсов, списков источников и ключевых слов. Кроме того, НИР в вузе подразумевает такую организацию работы студентов и сотрудников, которая обеспечивала бы обоснованный выбор тематики, а затем конкретных тем исследований с доказательством ее актуальности.

Научно-исследовательская работа магистрантов и аспирантов нацелена на формирование общекультурных и общепрофессиональных компетенций, соответствующих ряду задач профессиональной деятельности:

• расширению теоретического кругозора и научной эрудиции;

• овладению методами научного познания, творческого освоения учебного материала;

• формированию навыков анализа и обобщения результатов НИР с использованием современных достижений науки и техники;

• формированию навыков работы с научной литературой;

• овладению методами анализа и управления информационными ресурсами;

• овладению навыками подготовки публикаций по тематике НИР.

Каждая из перечисленных задач связана с обработкой информационных ресурсов – документов или массивов документов в информационных системах (библиотеках, архивах, фондах, банках данных и т.д.) [5]. Поиск, анализ и отбор полезной информации для научных сотрудников, преподавателей и студентов – актуальная задача, требующая определенных компетенций и навыков. Оптимизация процессов отбора и обработки больших массивов информационных ресурсов необходима и при организации проектной и аналитической работы на кафедре.

При поиске информации накапливается огромное количество исходного материала, который необходимо сохранить и в дальнейшем иметь возможность его обрабатывать и анализировать. Возникает необходимость создавать личные полнотекстовые тематические коллекции научных материалов. Для формирования таких коллекций в настоящее время применяется несколько подходов и инструментов:

• сохранение web-страницы на своем компьютере в исходном формате с использованием возможностей Web-браузера;

• копирование URL найденного текста и дальнейшее сохранение полученного документа в текстовом формате, например в формате Word-документа, а также в некоторой папке на своем компьютере;

• использование систем типа NetSnippets для копирования и сохранения найденных ресурсов с возможностью дальнейшего их поиска.

Однако эти подходы обладают существенными недостатками, среди которых:

• разнородность форматов представляемых данных;

• невозможность создания единообразных библиографических описаний для всех найденных как в открытом интернете, так и в автономных электронных библиотеках разнородных информационных ресурсов;

• невозможность организации эффективного полнотекстового поиска требуемого материала в достаточно больших полнотекстовых коллекциях;

• невозможность представить и индексировать полнотекстовые документы в том виде, который допускает их дальнейшее использование.

Повышение управляемости, качества и интенсификация всех этих видов деятельности могут быть достигнуты за счет использования распределенных информационных систем, обладающих функционалом сквозного, прозрачного для пользователя, полнотекстового контекстного поиска. Такие системы предоставляют следующие возможности:

• содержательное структурирование предметной области произвольной совокупности документов;

• типологизацию задач автоматизированного извлечения контекстного знания из текстов;

• методы контекстного поиска;

• методики составления запросов разного типа и вида для типовых задач извлечения знаний;

• различные формы презентации результатов поиска;

• экспликацию различных смысловых контекстов и тематизацию материала.

Для повышения качества результатов НИР магистрантов и активизации проектной деятельности на факультете ФТМИ ИТМО было принято решение использовать электронную библиотечную информационную систему «Humanitariana» с функциями гибкого тематизируемого полнотекстового поиска и возможностями извлечения контекстных знаний из текстов при различных формах их презентации (книга, архивный документ и т.д.).

Проект создания электронной библиотеки «Humanitariana» поддержан грантом РГНФ № 14-03-12017 и рассчитан на 2014–2016 гг. В его рамках при координирующей роли Университета ИТМО (г. Санкт-Петербург) поэтапно создавалась междисциплинарная информационная распределенная среда с открытым доступом, разрабатывалась типология задач автоматизированного извлечения контекстного знания из научных текстов, создавались запросы разного типа и вида для типовых задач извлечения знаний.

Электронная библиотека (ЭБ) «Humanitariana» разработана в клиент-серверной Интернет/Интранет архитектуре: Web-browser / Web-server + ApplicationServer / Relational DBMS, с протоколами HTTP, CGI, PIPE API, ODBC. Функционирует в среде Windows: на сервере – Windows 2000/2003/XP/Vista/Windows 7, СУБД MySQL, веб-сервер Apache, сервер приложения. На серверах также может функционировать операционная система Linux. Сервер приложения охватывает всю бизнес-логику системы.

На клиентском месте – любая из версий Windows. Клиентской программой для ЭБ «Humanitariana» является стандартный веб-браузер (поддерживаются MS InternetExplorer, MozillaFirefox, Opera, AppleSafari, GoogleChrome, Яндекс.Браузер). С учетом тенденций развития современного информационного пространства была выбрана модель децентрализованной среды под управлением пользовательского браузера и с ориентацией на веб-сервисы и интернет-протоколы. Браузер обращается к множеству независимых серверов, находящихся в ведении различных организаций. Прямого взаимодействия серверов при этом не требуется [6].

ЭБ «Humanitariana» может функционировать:

• в режиме локальной сети в каждой из организаций-участников (технология клиент–сервер);

• в режиме распределенной информационной среды (децентрализованная архитектура в среде интернет, пользовательский запрос ко всем ресурсам осуществляется с любого из серверов).

Сервисы ЭБ обеспечивают два вида абзацно-ориентированного и четыре вида частотно-ориентированного контекстного поиска, а также поддерживают различные формы представления результатов запроса.

Абзацно-ориентированный поиск – это поиск, осуществляемый по выбранной совокупности ресурсов с учетом словоизменения поисковых терминов (например, множественное или единственное число в английском языке, склонение по падежам в русском языке). Эта методика предназначена для поиска и презентации текста с точностью до отдельных авторских абзацев, содержащих заданную пользователем терминологическую структуру (тем самым эксплицируется «горизонтальный» микро-контекст, в котором в составе абзаца находятся искомые термины). Авторский абзац выбран в качестве естественной единицы смыслового членения текста.

Информационной системой обеспечивается два вида абзацно-ориентированного контекстного запроса (АОЗ) и поддерживаются различные формы представления результатов поиска. Простой («однослойный») контекстный запрос – поиск с одним комплексным полем для ввода терминов и использованием для этих терминов операторов логического объединения, обязательного исключения или обязательного включения термина в запрос. Результатом поиска является список абзацев, удовлетворяющих заданным условиям. Доступные сервисы:

• просмотр с той же экранной страницы соответствующего ресурса (статьи, книги и т.д.) в файловом виде; форматы файлов – текстовые документы, графический образ документа (для архивных ресурсов), аудио- или видеодокументы (для организации электронных выставок и коллекций);

• экспертная оценка пользователем найденных абзацев;

• автоматизированная сборка в отдельный файл тематически ориентированных абзацев из различных документов электронной библиотеки вместе с их библиографическими описаниями и информацией об источниках;

• запись файла на переносной носитель информации.

Расширенный («многослойный») контекстный запрос – поиск с функционалом дополнительной тематической фокусировки запроса. Поисковое поле «слой» (от 2 до 8 слоев) представляет собой технический инструмент для выделения того или иного содержательного «аспекта» интересующей пользователя «темы». Например, в первом слое вводим термин «правительство», во втором – «услуги», в третьем – «регион». Тем самым в структуре запроса тематика «правительства» специализирована в связи с «услугами» и «регионом». Еще более точная тематическая фокусировка запроса достигается за счет указания максимального расстояния между терминами, принадлежащими разным слоям: от 0, когда слова из двух разных слоев запроса в составе абзаца примыкают друг к другу (например, «электронное правительство» или «государственные услуги» и т.п.), до произвольной величины.

Рис. 1. Многослойный АОЗ c терминами «человек», «развитие», «время», «проблема» по массиву текстов «Компьютерные игры» за 2014–2015 гг. (всего 264 статьи). При заданных условиях фокусировки запроса найдено 87 релевантных абзацев в 47 статьях. Запрос произведен по ЭБ «Humanitariana» Университета ИТМО 23.03.2016

Рис. 2. Результаты многослойного АОЗ c терминами «люди», «развитие», «время», «проблема» по массиву текстов «Компьютерные игры» за 2014–2015 гг. (найдено 36 статей) с раскрытием одной из статей до абзацев. Запрос произведен по ЭБ «Humanitariana» Университета ИТМО 23.03.2016

Частотно-ориентированный поиск предназначен для построения частотно-ранжированных списков терминов (существительных) и тем самым экспликации различных «вертикальных» макроконтекстов, неявно присутствующих в отдельном документе или массиве документов [6]. ЭБ обеспечивает поддержку двух видов частотно-ориентированного запроса (ЧОЗ):

• абсолютный частотный, результатом которого является частотно-ранжированный список существительных, входящих в ресурсы области поиска и приведенных к нормальной форме (именительный падеж, единственное число);

• относительный частотный, результатом которого является частотно-ранжированный список существительных, входящих только в те абзацы, которые содержат заранее заданный пользователем термин.

Результатом частотно-ориентированных запросов являются «терминограммы». Терминограмма – это совокупность единиц анализа (таблица терминов), содержащая информацию об абсолютной (в числах) и относительной (в промилле, ‰) частоте употребления терминов в тексте. Пример результата запроса абсолютного частотно-ориентированного поиска приведен на рисунке 3.

Рис. 3. Терминограммы как результат абсолютного ЧОЗ по трем корзинам тематического массива текстов «Компьютерные игры». Запрос произведен по ЭБ «Humanitariana» Университета ИТМО 23.03.2016

Относительный частотно-ориентированный запрос, результатом которого является частотно-ранжированный список существительных, входящих только в те абзацы, которые содержат заданный пользователем термин (тем самым терминограмма строится относительно этого термина). Поиск может проводиться одновременно по 1, 2 или 3 корзинам ресурсов (рис. 4).

Рис. 4. Пример автоматического построения «терминограмм» (ЧОЗ относительно термина «люди») по трем корзинам ресурсов. Запрос произведен по ЭБ «Humanitariana» Университета ИТМО 23.03.2016

Все термины, входящие в терминограмму, являются активными. «Кликнув» любой из них, можно выйти на уже сформированный абзацно-ориентированный запрос по данному термину и эксплицировать его микроконтекст. Среди реализуемых с помощью контекстного поиска сервисов:

• текстологический анализ документа;

• выявление и описание предметной области документа;

• составление списка ключевых слов;

• сравнительный анализ предметных областей, разных авторов или разных документов;

• проверка текстов на плагиат и т.д.

Инструментарий ЭБ «Humanitariana» позволяет реализовать не только стандартные функции нахождения требуемых информационных ресурсов, их описания, каталогизации, хранения, поиска, присущие классическим автоматизированным информационным библиотечным системам, но и обеспечивает максимально возможную автоматизацию работы с тематическими коллекциями запросов.

В структуре ЭБ «Humanitariana» имеется подсистема «Личные ресурсы». Она предназначена для создания и управления совокупностью персональных хранилищ информации. Это могут быть:

• подборки библиографических описаний с прикрепленными к ним полнотекстовыми ресурсами;

• произвольные абзацы или их совокупности, полученные в результате полнотекстового поиска;

• терминограммы (частотно-ранжированные списки терминов);

• списки литературы, используемые при написании обзоров, научных отчетов и публикаций, цитировании источников;

• готовые структуры пользовательских запросов, тематических подборок материала.

Рис. 5. Пример персональных хранилищ информационных ресурсов. Запрос произведен по ЭБ «Humanitariana» Университета ИТМО 23.03.2016

Сервисы ЭБ «Humanitariana» могут быть использованы и для создания качественно нового вида информационных ресурсов – тематических коллекций полнотекстовых запросов. Запросы могут использоваться как готовое тематизированное (экспертное, контекстное) знание, расширяющее состав информационных ресурсов электронной библиотеки, и как пользовательский инструмент для создания и расширения коллекций.

Дополнительные возможности поиска и презентации результатов [6]:

• показ «кластера абзацев», в котором находится найденный абзац (открытие нескольких абзацев, расположенных в первичном документе до и после найденного);

• отображение графического оригинала страницы текстового ресурса, содержащей найденный абзац текста;

• возможность сохранения запросов зарегистрированного пользователя для последующего формирования личного кабинета пользователя.

Сервисы ЭБ «Humanitariana» как инструмент исследования обеспечивают интерпретируемость и воспроизводимость полученных результатов, позволяют обосновать актуальность и практическую значимость тематики предполагаемого исследования.

Экспериментальной базой для разработки методики послужили тематические коллекции материалов по двум исследовательским тематикам – электронное правительство и игровой компьютерный опыт. Создание и апробация методики проводились в рамках подготовки магистерских диссертаций по направлению «Прикладная информатика» (Университет ИТМО, Факультет технологического менеджмента и инноваций) и поискового научного исследования (Социологический институт РАН, грант РФФИ 16-06-00368.а, 2016–2018 гг.), выполняемого с участием сотрудников университета ИТМО.

База данных ЭБ «Humanitariana», используемая для проведения исследования и апробации методики, была сформирована из трех информационных источников:

• архива научных публикаций по тематике «Электронное правительство и электронные услуги» (70 ресурсов состоящих из 5,2 тыс. новостных сообщений) за 2011–2015 гг.;

• научной периодики, размещенной в открытом доступе на портале научной электронной библиотеки eLibrary (http://elibrary.ru/); при поиске на портале задавалось ключевое слово «компьютерные игры»; хронологические рамки поиска 2005–2015 гг., всего для анализа было подготовлено 604 файла;

• научных англоязычных журналов «Game Studies» (выходит с 2001 г.), «Games and Culture» (выходит с 2006 г.) [7], которые первыми начали формировать социально-гуманитарную теорию компьютерных игр.

Разработанная в ИТМО методика использования сервисов контекстного поиска и извлечения контекстного знания в организации НИР применима для проведения как студенческих, так и независимых научных исследований, подготовки преподавателями и научными сотрудниками университета аналитических и библиографических обзоров, научных публикаций. Методика предназначена для поддержки следующих этапов НИР (таблицы 1–3):

1 – постановка проблемы;

2 – выдвижение и обоснование темы НИР/ВКР;

3 – теоретическое исследование;

4 – экспериментальные исследования;

5 – анализ и сопоставление результатов.

Таблица 1. 1-й этап НИР: постановка проблемы

Постановка проблемы – этап для исследователей. Основной сервис, используемый на данном этапе, – формирование частотно-ранжированного списка терминов, характеризующего предметную область исследований (смысловой макроконтекст). Он позволяет сформулировать тематику научных исследований в предметной области, определить динамику интереса научных кругов к отдельно взятым темам и проблемам, выделить наиболее и наименее интересующие аудиторию ракурсы научной проблемы.

Тематика НИР магистрантов «определяется направлениями исследований выпускающей кафедры и других организаций, принимающих совместно с вузом участие в исследованиях. Тема НИР выбирается студентом под руководством преподавателя с учетом личных наклонностей и интересов студента» [8].

Результатом работы магистранта с сервисами ЭБ «Humanitariana» по выбранной тематике исследования на данном этапе является:

• выбор и обоснование актуальности темы, способов решения задач исследования (концептов, выделенных экспликацией предметной области);

• утверждение темы и разработка плана НИР;

• составление библиографических указателей, списков источников, каталогов.

Таблица 3. 3-й и 4-й этапы НИР: теоретическое и экспериментальные исследования

Основные итоги данного этапа – подготовка материала для аналитики (терминограммы), формирование личных тематических коллекций, подготовка аналитического обзора по теме исследования (на основе эксплицированного линейно упорядоченного списка «горизонтальных» микроконтекстов) с использованием контекстов для цитирования фрагментов текста.

На этапе анализа и сопоставления результатов может быть использована любая комбинация сервисов ЭБ «Humanitariana». Особенность сценария действий пользователя состоит в использовании сервисов полнотекстового поиска (эксплицированных контекстов) для цитирования работ при подготовке научных публикаций и отчетов.

* * *

Использование сервисов открытой распределенной библиотечной среды «Humanitariana» позволяет повысить управляемость и интенсифицировать проведение научных исследований, в первую очередь аналитического характера, а также создать собственные тематические хранилища и осуществлять доступ к тематическим хранилищам и коллекциям других организаций.

Апробация методики показала, что возможности и сервисы контекстного поиска ЭБ «Humanitariana» позволяют:

• более оперативно организовать предварительный этап НИР, связанный с рассмотрением научной тематики, выбором научного руководителя и темы исследования;

• сократить трудоемкость обработки информационных источников и ресурсов.

Проведенная работа намечает пути дальнейшего совершенствования организации научных исследований, аналитической и проектной деятельности с помощью уже реализованных и разрабатываемых сервисов ЭБ «Humanitariana».

Литература

1. Демин И.С. Поиск научной и учебной информации в сети Интернет // Вестник Тамбовского университета. Серия: Гуманитарные науки. – 2008. – Вып. 9. – С. 446–450.

2. Голанова А.В. Некоторые аспекты обучения технологии поиска информации в сети Internet / А.В. Голанова, Е.И. Голикова // Царскосельские чтения. – 2012.– Вып. 16. – Т. 4. – С. 129–134.

3. Аюшеева Н.Н. Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке: автореф. дис. ... канд. техн. наук: 05.13.11. – Улан-Удэ, 2004.

4. Шуклин А. Кому нужен контекстный поиск? URL: http://www.cnews.ru/reviews/free/BI2012/articles/articles2.shtml (дата обращения 15.03.2016).

5. О модельном законе «О международном информационном обмене»: постановление Межпарламентской Ассамблеи государств – участников Содружества Независимых Государств от 26 марта 2002 г. № 19-7. URL: http://base.consultant.ru/cons/cgi/online.cgi?req=doc;base=INT;n=13288 (дата обращения 27.03.2016).

6. Ляпин С.Х. Тематические коллекции полнотекстовых запросов для изучения контекстного знания (проект Humanitariana) / С.Х. Ляпин, А.В. Куковякин // Сборник научных трудов XVIII Объединенной научной конференции «Интернет и современное общество», Санкт-Петербург, 23 – 25 июня 2015 г. – СПб: Университет ИТМО, 2015. – С. 216–224.

7. Кононова О.В. Игровой компьютерный опыт как тема научной периодики в фокусе автоматизированного контекстного поиска / О.В. Кононова, О.В. Сергеева, Е.А. Крутько, Е.А. Орех. // Материалы IV Международной научно-практической конференции «Коммуникации в социально-гуманитарном знании, экономике, образовании». Минск, 7–9 апреля 2016 г. – Минск: Издательство БГУ, 2016. – С. 251–253.

8. Рекомендации по организации проведения научно-исследовательской работы студента в СПБГУ ИТМО от 2009 г. URL: http://uop.ifmo.ru/file/stat/17/nirstudenta.pdf (дата обращения 15.03.2016).

________________________________________

КОНОНОВА Ольга Витальевна

Кандидат экономических наук, доцент кафедры управления государственными информационными системами Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики (Университет ИТМО)

КРУТЬКО Елена Алексеевна

Ведущий специалист-аналитик отдела развития информационных систем ЖКХ и дежурных служб СПб ИАЦ, магистрант кафедры управления государственными информационными системами Университета ИТМО, Санкт-Петербург

ЛЯПИН Сергей Хамзеевич

Научный сотрудник центра технологий электронного правительства факультета технологического менеджмента и инноваций Университета ИТМО, Санкт-Петербург, старший научный сотрудник Архангельского краеведческого музея, Архангельск


&copy Информационное общество, 2016 вып. 6, с. 25-37.