О журнале
Рекомендации
Опыт технологической организации и промышленной эксплуатации на персональных ЭВМ библиографических баз данных большого объема
Старкова М.Н.
_____________________________________
Старкова М.Н.
Описана технология генерации базы данных по медицине и здравоохранению, разработанная во Всесоюзном НИИ медицинской и медико-технической информации и работающей в промышленном режиме на базе Государственной центральной научной медицинской библиотеки. Представленная технология обеспечивает ежегодную затрузку 100 тыс. документов и информационное обслуживание на основе генерируемой базы данных с использованием микрокомпьютерной ГОМ-совместимой техники.
Описана часть реально функционирующей технологии генерации базы данных по медицине и здравоохранению. Данная технология в полном объеме разрабатывалась в 1987 - 88 гг. коллективом сотрудников Всесоюзного научно-исследовательского института медицинской и медико-технической информации Минздрава СССР (ВНИИМИ) и Государственной центральной научной медицинской библиотеки (ГЦНМБ), входящих в настоящее время в состав научно-производственного объединения "СОЮЗМЕДИНФОРМ" в качестве самостоятельных организаций. Вниманию читателей предоставляется описание той части технологии генерации базы данных (БД) по медицине и здравоохранению, которая затрагивает некоторые аспекты системы ввода данных в ЭВМ, и полностью описывает технологию загрузки и ведения непосредственно самой БД.
Основные цели и задачи
Любая технология определяется задачами, решение которых она призвана реализовывать. Основные цели и задачи, определившие данную технологию, впервые сформулированы в работе [1 ]. Отметим наиболее существенные для описываемой технологии отправные моменты.
Перед ВНИИМИ - головной организацией по медицинской информации - стоит задача создания базы данных в области медицины, здравоохранения и ряда других областей. При этом выдвигаются следующие требования:
- полнота отражения отечественной научной литературы в этих областях;
- достаточная оперативность;
- доступность для англоязычных пользователей;
- отсутствие ограничений в коммуникативных форматах данных и магнитных носителях данных.
Исходя из имеющихся технических и экономических возможностей ВНИИМИ и ГЦНМБ и перспектив ближайшего развития, было принято решение ориентироваться в разработке технологии генерации, ведения и использования БД на персональные 1ВМ-совместимые ЭВМ, на базе которых создавать соответствующие автоматизированные рабочие места (АРМ). На рисунке представлена технологическая схема машинной обработки данных, которая производится в настоящее время в Центре автоматизированной технологии информационного обслуживания (Центре АТИО) НПО "СОЮЗМЕДИНФОРМ" для создания и ведения БД по медицине и здравоохранению. В этой технологической схеме выделено девять основных этапов, отличающихся по выполняемым функциям, программному и техническому обеспечению.
Пооперационное описание технологии
Рассмотрим детально представленную на рисунке технологию. 1. В рамки данной статьи не входит подробное описание технологической организации работы в системе ввода данных. Отметим, что технологически это представляется автоматизированными рабочими местами (АРМ) библиографов-операторов, при этом предусмотрена специализация библиографов-операторов по видам вводимой литературы. АРМ библиографов-операторов технически реализованы на IBМ-совместимых ПЭВМ типа РС/РС, не объединенных в одну сеть, а работающих в автономном режиме. Программно система ввода написана на языке программирования DBASE-Ш рlus (программист-разработчик - В.П. Золотухин). В течение дня в систему ввода поступает порядка 250-300 документов. Учет и контроль пути движения самих первоисточников, соответствующих им дискет с введенными данными и распечаток, потребовало создания специальной диспетчерской группы системы ввода. В настоящее время разработано АРМ диспетчера системы ввода, выполняющего следующие функции:
- учет и контроль ввода данных;
- учет и контроль наличия редакционных распечаток;
- учет и контроль редактирования данных на распечатках;
- учет и контроль внесения корректив в данные на дискетах;
- учет и контроль готовности данных для загрузки в базу данных;
- учет и контроль сроков обработки данных;
- учет и контроль наличия всех выпусков периодических изданий и правильной последовательности их ввода;
- учет объема работы каждого библиографа-оператора;
- различная статистическая отчетность за определенный период времени по функционированию системы ввода и работе библиографов-операторов.
Программист-разработчик АРМ диспетчера системы ввода - Е. М. Манвелян.
Одним из основных результатов функционирования системы ввода является еженедельно подготавливаемая порция дискет с данными, прошедшими полный цикл обработки и готовыми для ввода в базу данных. В среднем такая недельная порция содержит 1200 - 1500 библиографических описаний. На одной дискете может быть 15 - 150 записей. Наполняемость дискеты определяется не ее физическим объемом памяти, а технологическими соображениями. К каждой дискете прилагается сопроводительный талон, в котором указывается количество введенных записей, вид введенной литературы, дата и подпись лица, ответственного за формирование выходной порции дискет.
2. Партия дискет с сопроводительными талонами передается администратору базы данных. Администратор БД имеет свое рабочее место, выполняющее две основные функции:
- пакетную предзагрузочную обработку данных;
- актуализацию базы данных.
На рисунке это схематически изображено тремя блоками. На первом этапе производится автоматическое считывание файлов с дискет и их копирование на диск ПЭВМ, выполняющей роль АРМ администратора базы данных. Файлы копируются в режиме АРРЕND, в результате чего на выходе получается 9 файлов в формате DBASE-Ш рlus (табл. 1).
На следующем этапе производится физическое уничтожение тех записей в файлах, которые имеют нулевое значение в поле, характеризующем уровень обработки документа. Такие записи не загружаются в базу данных. Следующая процедура создает два файла с новыми структурами записей путем слияния файлов АNАL с JOUR и ANAL с ВООК. Образованные файлы JOUR_АNА и ВООК_АNА также имеют формат файлов DBASE-Ш plus. Структура файлов JOUR_АNА и ВООК_АNА представляет собой объединение определенных полей соответствующих исходных файлов. Количество записей в файлах JOUR_АNА и ВООК_АNА полностью соответствует количеству записей в исходном файле АМАЬ. Подсоединение данных из файла JOUR (ВООК) к записи в файле АNAL происходит при условии совпадения значений в поле с именем "Уникальный код", имеющемся в каждом из исходных файлов.
Следующим шагом производится автоматическая транслитерация с русского языка на английский в файлах JOUR_АNА, ВООК_АNА, ВООК, ВОСU данных, относящихся к фамилиям советских авторов, с занесением получаемых данных в специально предусмотренное для этого поле.
Последующей технологической процедурой производится замена разделителей в ряде полей во всех файлах. Необходимость этой процедуры вызвана поисковыми особенностями информационно-поисковой системы СDS/ISIS.
На следующем этапе производится переформирование данных из формата * DBF в фиксированный текстовый формат. Затем в этих файлах, записанных в текстовом формате, производится автоматическая замена наполнения определенных полей на стандартные унифицированные значения. При этом, как и ранее в системе ввода, проводится автоматический контроль введенных значений некоторых полей. Кроме того, автоматически вводится дополнительная информация о номере и годе выпуска соответствующего еженедельного указателя литературы по медицине и здравоохранению, издаваемого автоматизированным способом в НПО "Союзмединформ", в котором будут отражены данные библиографические описания.
На заключительном этапе предзагрузочной обработки данных производится конвертирование данных из текстового формата в международный формат 180-2709.
Весь комплекс программ, выполняющих описанные процедуры, написан на языках Си и Турбо-Паскаль (авторы прграмм - Е. М. Омельченко, Д. Ю. Винслав) и может быть реализован на ПЭВМ типа РС/ХТ с оперативной памятью не менее 300 Кбайт. Для обработки средней по объему недельной порции данных требуется 6-8 Мбайт внешней памяти и порядка 1,5 - 2 ч машинного времени.
3. В качестве информационно-поисковой системы в данной технологии генерации, ведения и использования базы данных применяется базовое программное обеспечение, разработанное в ЮНЕСКО, микро CDS/ISIS (2).
Комплексный учет принципов организации каталога ГЦНМБ, разных объемов документопотоков в зависимости от вида литературы, специфики библиографического описания, а также технических ограничений на объем внешней памяти и ряда других причин привел к решению организовать банк данных по медицине и здравоохранению в виде 5 баз данных (табл. 2).
Годовой объем пополнения каждой из указанных БД составляет соответственно 45, 8 , 6, 2, 1 тыс. документов. С учетом размеров файлов быстрого поиска один документ в поисковой системе в БД МEDAR занимает в среднем 800 байт, в БД МЕD - 1100, в БД МЕDD - 900, в БД МЕDP - 1000, в БД NMD - 800.
Загрузка новой порции данных в ИПС microCDS/ISIS производится автоматически после создания файлов с заранее определенными именами в
Таблица 2
п/п | Имя БД | Вид литературы |
1 | MEDAR | Статьи из отечественных и некоторых зарубежных журналов, отечественных сборников работ институтов, трудов конференций, симпозиумов, конгрессов |
2 | MED | Отечественные и зарубежные книги и сборники, депонированные рукописи, неопубликованные переводы |
3 | MEDD | Диссертации и авторефераты диссертаций |
4 | MEDP | Патенты и авторские свидетельства |
5 | NMD | Нормативно-методические документы |
коммуникативном формате ISO-2709. После загрузки данных в файл с расширением * МSТ администратор базы данных может прервать дальнейшую пакетную работу и в режиме просмотра данных визуально выборочно или подряд проверить правильность соответствия загруженных данных соответствующим полям структуры базы данных. После этого администратор базы данных проводит процедуру инвертирования для загруженных данных или при необходимости - процедуру полного инвертирования для всей БД. После загрузки новой порции в БД делается страховая копия всей БД. Опыт промышленной эксплуатации базы данных показал предпочтительность копирования БД на стримерную ленту в виде физических копий директорий твердого диска по сравнению с созданием архива на дискетах в формате * ВКР с помощью встроенной функции копирования данных в ИПС microCDS/ISIS . Таким образом делается текущая еженедельная копия БД. В технологии используются две стримерные ленты, на которые поочередно копируются БД, в результате чего в наличии всегда имеется копия БД с результатами последней загрузки и копия БД с результатами предпоследней загрузки.
4. С окончанием выполнения процедур предыдущего (третьего) этапа и создания страховой копии БД задачу еженедельной актуализации БД формально можно считать законченной. Однако опыт работы показал, что, несмотря на двухкратное редактирование данных в системе ввода, остаются ошибки, которые могут быть выявлены и устранены в самой базе данных.
Удобным и эффективным средством редактирования базы данных является процедура, получившая условное название "Чистка словаря".
Администратор БД просматривает после инвертирования словарь БД (эта функция предусмотрена в ИПС ппсгоСОС/1818 в режиме поиска) и отмечает явно неправильные или сомнительные термины. Из отобранных терминов автоматически составляется поисковое предписание, проводится поиск и затем редактирование найденных документов. После этого производится переинвертирование для отредактированных записей и вся процедура повторяется сначала, для следующих по порядку терминов словаря. После такой "чистки" всего словаря производятся его выгрузка и новая загрузка, что позволяет физически уничтожить помеченные в качестве уже несуществующих термины словаря. Как правило, после выполнения всего цикла работ делается новая текущая копия БД.
5. Описанная процедура позволяет находить ошибки только в поисковых полях и выявляет, в первую очередь, орфографические и пунктуационные ошибки.
В результате эксплуатации базы данных технологически сложилась еще одна процедура выверки данных, касающаяся качества индексирования документов. Для того чтобы рассмотреть этот вопрос подробнее, необходимо остановиться на подсистеме информационного обслуживания потребителей в медицине и здравоохранении.
Информационное обслуживание, осуществляемое в НПО "Союзмединформ" на основе единой базы данных по медицине и здравоохранению, включает в себя:
5.1. Ежемесячное избирательное распространение информации (ИРИ) по постоянным запросам, предоставляемое потребителям как в печатной форме, так и на магнитных носителях.
Фактически — это наиболее оперативный вид информационного обслуживания, опережающий даже обслуживание по каталогам ГЦНМБ.
В основе формирования запросов лежат только требования заказчика, т. е. не существует заранее кем-то определенных типовых запросов, исходя из списка которых потребитель вынужден выбирать себе наиболее приемлемые. Данным видом информационного обслуживания в НПО "Союзмединформ" в настоящее время пользуются около 100 организаций.
5.2. Автоматизированное формирование традиционных изданий ГЦНМБ и ВНИИМИ.
5.3. Ретроспективные поиски в БД с возможностью автоматизированного заказа копий первоисточников. При желании потребителя найденная информация может быть представлена в виде сформированных по ГОСТу библиографических карточек.
5.4. Распространение проблемно-ориентированных фрагментов БД на магнитных носителях в различных выходных форматах.
5.5. Предоставление БД в режиме удаленного теледоступа путем инсталяции БД в телекоммуникационных отечественных и зарубежных информационных центрах.
Информационное обслуживание, осуществляемое в НПО "Союзмединформ", не ограничивается перечисленными видами услуг. Названные услуги выполняются именно на основе генерируемой в НПО "Союзмединформ" базы данных. Существуют также информационные услуги, выполняемые на основе других информационных ресурсов (например, один из новых и перспективных видов информационного обслуживания - обслуживание по зарубежным базам данных, представленных на оптических дисках).
В устоявшейся к настоящему времени -технологии ведения и использования отечественной БД по медицине и здравоохранению используется двумашинный комплекс на основе ПЭВМ типа IBM-PC/AT с твердым диском 40 Мбайт и 32-разрядной ПЭВМ с 386-процессором и твердым диском 80 Мбайт.
На первой машине программно реализован АРМ администратора базы данных, который позволяет еженедельно проводить дозагрузку БД и поддерживать так называемую "оперативную БД", наполнение которой составляют документы последних 2-3 мес. по времени ввода. На этой же ПЭВМ проводится ежемесячное ИРИ обслуживание по постоянным запросам абонентов. После проведения ИРИ-поисков полученные текстовые файлы документов просматриваются ответственным сотрудником. При этом иногда выявляются документы, не соответствующие по представленному библиографическому описанию поисковому предписанию. Подобные документы отыскиваются в БД, уточняется их индексирование и при необходимости проводится редактирование.
6. Через каждые 2-3 мес. по мере заполнения диска на ПЭВМ с оперативной БД данные перезагружаются на вторую машину и пополняют так называемую "Текущую БД". Очевидно, что текущая БД из-за тех же ограничений на объем дисковой памяти также поддерживает в актуализированном состоянии базу данных только за определенный временной промежуток. Технологически вопрос определения величины этого временного промежутка решается дифференцирование для разных баз данных. В связи с тем, что описываемая технология начала функционировать с марта 1988 г., к настоящему моменту БД по медицине и здравоохранению обладает глубиной в 2 г. На данный момент текущая БД состоит из двухгодичных массивов данных в БД МЕD, МEDD, NMD объемами соответственно 16 тыс., 12 тыс. и 2 тыс. документов, годового массива в БД МЕDP (2 тыс. документов) и 4-месячного массива в БД МЕДАР (15 тыс. документов). Очевидно, что в ближайшее время возникнет необходимость в архивировании первых по времени ввода документов в БД МЕD и БД МЕDD.
7. На ПЭВМ с текущей БД в полной мере реализован АРМ пользователя БД. На этой машине осуществляются 5,1-5,4 из перечисленных в разделе 5 видов информационного обслуживания. В технологическом отношении в этой подсистеме информационного обслуживания необходимо отметить следующую устоявшуюся процедуру редактирования данных. После автоматического формирования вторичных информационных изданий на основе текущей БД каждый ответственный редактор просматривает очередной выпуск курируемого им издания и, по своему усмотрению, может "убирать", переносить или дублировать некоторые библиографические описания из одного раздела указателя в другой. После этого ответственный редактор совместно с администратором базы данных и руководителем группы индексаторов находит в БД те документы, индексирование которых вызвало у него вопросы, эти спорные случаи обсуждаются и при необходимости администратор базы данных редактирует соответствующие документы в БД.
8. В качестве технологически самостоятельной подсистемы в системе информационного обслуживания следует выделить подсистему выгрузки данных из БД. В этой подсистеме можно технологически и функционально выделить два направления.
1. Для осуществления информационного обслуживания советских и зарубежных пользователей по медицине и здравоохранению в режиме удаленного теледоступа ежемесячно из оперативной БД выгружаются данные для ХОСТ-центров, предоставляющих свои большие ЭВМ для эксплуатации генерируемой в НПО "Союзмединформ" базы данных. Данные выгружаются в формате 150-2709 и передаются на дискетах.
2. Ряд библиотек и НИИ получают ежемесячно на договорных условиях проблемно ориентированные выборки документов или выборки документов по определенному виду литературы независимо от тематики из всей БД. Существуют также центры, получающие от НПО "Союзмединформ" всю БД на магнитных носителях для обслуживания только своих региональных потребителей.
Технологически в БД сначала отбираются (при необходимости) нужные документы, затем они выгружаются из БД в формате ISO-2709. Перечень выгружаемых полей и метки полей определяются по согласованию с заказчиком. После того при необходимости данные конвертируются в формат МЕКОФ и по желанию заказчика записываются на магнитную ленту ЕС ЭВМ.
9. После того как на основе текущей БД администратор БД сформирует все издания, ответственные редакторы отредактируют их, и при необходимости внесут изменения в соответствующие записи БД, администратор БД осуществит все выгрузки из БД для ХОСТ-центров или выгрузки отдельных кусков БД для организаций, заключивших с НПО "Союзмединформ" договор на этот вид информационного обслуживания, а также по мере заполнения диска ПЭВМ, используемой под текущую БД, часть БД переводится в постоянный архив. Архивный материал хранится в коммуникативном формате 150-2709 и содержит -все поля БД. Такое архивирование данных проводится в среднем один раз в 4-6 мес.
В заключение следует отметить, что описанная технология складывалась постепенно, в процессе опытной и промышленной эксплуатации всей системы подготовки и генерации базы данных по медицине и здравоохранению и проведения на ее основе информационного обслуживания. На данном этапе, когда участие программистов-разработчиков практически свелось только к авторскому надзору, технологию нельзя считать застывшей, так как постоянно происходит настройка ее под влиянием внешних воздействий. Однако ключевые, принципиальные моменты технологии при этом остаются неизменными.
ЛИТЕРАТУРА
1. Логинов Б. Р., Старкова М.Н. Концепция единой базы данных по медицине и здравоохранению // Тезисы докладов на 1 международной конференции "Информатика-88". -Куба,1988.- 1 с.
2. CDS/ISIS (mini-micro Version, Release 2,0) Reference Manual, UNESCO, 1987. - 196р.
НПО "Союзмединформ" Минздрава СССР