О журнале
Рекомендации
Анализ данных как инструмент формирования баз знаний для мкедицинских консультационных и экспертных систем
Волынский Ю.Д., Курочкина А.И.
___________________________
Волынский Ю.Д., Курочкина А.И.
Изложена разрабатываемая в Институте хирургии им. А. В. Вишневского методология использования анализа данных в качестве рабочего инструмента при создании баз медицинских знаний.
Сами по себе знания не являются продуктом, годным для построения, создания экспертных систем. Как и любой другой продукт для своего распространения они требуют упаковки, транспортировки, соответствующего аннотационного и рекламного обеспечения. Медиков, в частности,врачей, необходимо готовить к новому типу мышления, новому ведению документацией этот этап не проще, чем получение нового первичного знания. Он требует затрат времени, умения, профессионализма и таланта.
Создание эффективно работающих баз медицинских знаний требует разработки классификационных систем, отражающих концептуальную схему тех явлений реального мира, которые представляют интерес для данной проблемы. Такие классификационные системы во многом не совпадают с принципами изложения материала в медицинских руководствах и монографиях. Они не могут строиться на чисто формальной фиксации известных связей между известными явлениями и процессами, так как в этом случае, при дефиците понимания основных патофизиологических механизмов, получается лишь типичная картина, не отражающая всего многообразия проявлений реального заболевания.
Поскольку компьютерное средство должно не дублировать врача, а предоставлять ему сведения, обогащающие его собственные способности, классификационная система должна строиться совместными усилиями РЕАЛЬНЫХ пользователей, в РЕАЛЬНОЙ ситуации на всем многообразии РЕАЛЬНЫХ данных. Реальные данные это материалы историй болезни.
Современная история болезни продукт, аккумулирующий знания и суждения по поводу реальных клинических ситуаций многих экспертовспециалистов:
лечащего врача, рентгенолога, эндоскописта, гистолога, цитолога, биохимика и т. п. При этом нет уверенности во внутренней согласованности не только данных разных методов исследования, но и внутри одного метода. Это коренное противоречие и сложность медицинской специальности приводит к тому, что системы логического вывода часто не срабатывают или не приносят удовлетворения.
В клинической практике подобные противоречия устраняются как путем неоднократных специальных консилиумов, т. е. встреч разных экспертов, так и в процессе динамического наблюдения за больным и проведения новых исследований.
При построении баз знаний для консультационных систем подобные противоречия могут быть устранены в процессе реализации итеративной процедуры, состоящей из ряда последовательных шагов, позволяющих адекватно классифицировать и интерпретировать реальное многообразие клинических случаев в виде семантической иерархии понятий разного уровня абстракции. База знаний каждого уровня это набор правил или алгоритмов, по которым формируются соответствующие понятия. На наш взгляд, оптимальным является процесс построения такой иерархии, проводимый в ходе совместной работы когнитолога (инженера по знаниям) и специалистовэкспертов на базе логикосемантического анализа реальных данных с помощью современных методов прикладной статистики ("анализа данных"),
Излагается разрабатываемая методология использования анализа данных в качестве рабочего инструмента при создании баз медицинских знаний. Эта работа проводится нами на протяжении ряда лет, при этом способы решения отдельных вопросов несколько видоизменялись, но сохранен принципиальный подход к построению баз знаний, организованных в виде иерархического дерева понятий. В последнее время для упрощения работы врача мы сочли возможным изменить методологию таким образом, чтобы максимально облегчить работу врача. При этом заполнение первичной карты (вопросника) реализовано на экране дисплея. Врач заполняет вопросник с максимально простыми признаками, а процесс формирования первичных понятий происходит с помощью ПЭВМ. Принципиальная схема работы врача и когнитолога представлена на рисунке.
На первом этапе вырисовывается та область и направление исследования, внутри которого или по которому предполагается далее вести разработку, т. е. область интереса. Это могут быть исследование одного процесса или механизма, диагностика заболевания или группы заболеваний, описание или исследование возможностей одного метода.
На следующем этапе выделяем внутренние блоки знаний, т. е. методы или совокупности методик, исследующие одну сторону изучаемого явления, процесса, заболевания. Эта процедура выполняется экспертным путем на основе объективных возможностей и субъективных оценок.
Далее по каждому блоку методу исследования или совокупности методик, предназначенных для выяснения одного процесса,как, например.механики дыхания, составляется перечень (список) признаков. Данный список включает в себя все те данные из истории болезни, которые в дальнейшем могут включаться в вычислительные или логические процедуры. Формируется то пространство первичных признаков, за пределы которого при решении данной проблемы мы выходить не будем.
Логикоструктурный анализ всех медицинских данных, содержащихся в истории болезни, позволяет прийти к утверждению: все многообразие чисел, кривых, изображений, клинических заключений сводится в сегодняшних условиях к двум основным типамчислам и текстам. Врачспециалист, работающий с изображениями и кривыми на сегодняшнем уровне медицинской технологии предоставляет лечащему врачу заключение, т. е. текст, который официально входит в историю болезни, являясь и медицинским и юридическим документом. В принципиальном плане база данных может быть сформирована любым образом. Она может содержать неформализованные исходные тексты, значения исходных признаков, кривые, изображения (если позволяет вычислительная техника). В этом случае работа когнитолога со специалистом по формированию первичного признакового пространства может вестись через экран дисплея. Они могут вызывать на экран нужные им изображения, кривые, тексты из базы данных. Если в ЭВМ такой базы нет, то работа ведется непосредственно с текстами историй болезни, кривыми и изображениями на различных материальных носителях (бумага, пленка, фотография).
Следующий шаг заключается в переходе от перечня признаков к первичным понятиям, которые лягут в основу матрицы "объектпризнак" и послужат базой для построения консультационных систем. Процесс перехода от признаков к первичным понятиям сложный и трудоемкий. В ходе его приходится делать несколько итераций и применять разные подходы. Задача заключается в том, чтобы привести числа и тексты к единой метрике.
Эта задача нами решается следующим образом. При работе с числами вся числовая выборка располагается на числовой шкале от минимального до максимального значений. Затем на этой шкале выделяются границы нормы. Задача определения границ нормы является одной из сложнейших медицинских проблем. Здесь за неимением места мы ее излагать не будем, а сошлемся на публикации [1 ]. В пределах нормы мы выделяем три основные градации: типичное ядро и две пограничные формы, соответствующие понятиям верхняя и нижняя границы нормы. Некоторые исследователи [2 ] выделяют больше градаций (мининорма, оптинорма, максинорма и т. д.). Однако мы предпочитаем иметь дело с терминологией, общепринятой клиницистами. Естественно, что границы между этими понятиями условны, но их выделение важно по следующим соображениям: среди ряда известных специалистовмедиков существует мнение, что, ввиду относительности понятий "норма" и "патология", необходимо рассматривать эти процессы как единые [3 ].
Реальные трудности определения границ нормы и патологии хорошо известны, но все же смешивать понятия "норма" и "патология" нельзя. Искусство врача во многом и заключается в оценке этих зыбких границ. При их определении большую роль играет осознанное или неосознанное представление о других сторонах жизнедеятельности организма или проявлениях заболевания. Нами, в частности, неоднократно публиковался пример, как анализ цитохимических показателей крови в норме позволил более четко понять, что происходит в патологии [1 ]. При наличии достаточного материала методы анализа данных помогают исследовать пограничные значения, идентифицировать их с субклиническими формами заболеваний.
Дальнейшая процедура заключается в том, что числовой ряд превращается в понятийный ряд, т. е. экспертным путем вся шкала делится на интервалы (градации), каждой градации дается содержательное описание. В табл. 1 дан пример такого определения первичных понятий, описывающих изменения уровня фибриногена.
Преимущество такого подхода заключается в следующем. Понятийный ряд позволяет абстрагироваться от конкретных значений показателя, которые в каждом клиническом учреждении, в разных странах вследствие метрологических, выборочных и других субъективных и объективных причин могут колебаться и, как правило, опытным путем уточняются в каждом лечебном учреждении. Это одна из причин, почему числовые значения пределов нормы подчас становятся предметом длительных дискуссий на международных съездах и конференциях.
При работе с текстами когнитолог сталкивается с тем фактом, что врач определяет одно и то же явление разными словами в зависимости от ряда субъективных и объективных причин. Это несовпадение может наблюдаться даже в пределах одного и того же заключения одного и того же врача. Следовательно, когнитолог должен, "пройдя по следу" врачаэксперта, составить словарь его определений, а затем попытаться выяснить у врача их смысл, построить цепочки определений и ранжировать их по нарастанию тяжести процесса. Например, цитолог, описывая мокроту, может описать ее цвет, отметить наличие прожилок крови, наличие эритроцитов среди других клеток. При этом, описывая цвет как ржавый, отмечая наличие эритроцитов или прожилок крови.цитолог фактически описывает одно и то же явление: выраженность легочного кровохарканья. В результате удается прийти к цепочке превратить неоформленное неранжированное описание в ряды ранжированных понятий (отсутствие кровохарканья, небольшое кровохарканье, выраженное кровохарканье, т. е. в упорядоченный понятийный ряд. В табл. 2 приведен ряд примеров построения первичных понятий.
Таблица 2
Таким образом формируется представление о первичном понятии, как о единице знания, которая в контексте данной задачи не подлежит дальнейшему делению. Как следует из сказанного, первичные понятия формируются когнитологом совместно с врачамиэкспертами на базе первичных признаков, являющихся понятиеобразующими элементами. При этом первая часть базы знаний содержит определение первичных понятий, их клиническую интерпретацию. Определение может:
- быть ориентировано на общепринятую интерпретацию без всяких изменений;
- иметь уточняющий характер с внесением добавочных элементов для достижения должного уровня точности;
- иметь вид иллюстрации с демонстрацией типичной картины. Могут быть введены в употребление новые термины (особенно при описании новых, мало разработанных методов исследования).
Для перехода от первичных признаков к первичным понятиям необходима определенная база знаний. Она включает в себя набор логических правил вида "ЕСЛИ,условие ТО определение" и может включать набор простейших вычислительных процедур. Так, для определения понятия "удлинение периода наполнения правого желудочка" по данным яремной флебографии необходимы первичные признаки: длительность интервала КК на ЭКГ и интервал УА на флебограмме. Кроме того, база знаний должна содержать уравнение регрессии, описывающее зависимость между КК и УА у здоровых людей, величину стандартного отклонения относительной этой линии регрессии "б". Тогда процесс определения понятия "удлинение периода наполнения правого желудочка" предусматривает вычисление отклонения наблюдаемого УА от должного при данном КК в долях "б". В результате первичные понятия становятся формализованными и составляют основу таблицы "объектпризнак". Программное сопровождение этой части базы знаний должно обеспечивать легкость в модификациях определений первичных понятий для настройки системы на условия работы в конкретном медицинском учреждении.
Вторая часть базы знаний формируется в результате построения понятий более высоких уровней абстракции интегральных признаков (классификаций). Под интегральным признаком понимается сложное понятие высокого уровня абстракции, в основе которого лежит совокупность первичных понятий, сконструированное на строго формальной основе с применением многомерных методов автоматической классификации. В ряде случаев понятие может быть логическим уточнением существующих медицинских классификаций, имевших до этого характер типологий или может быть новой классификацией [4]. Нередко интегральный признак совпадает в своей содержательной основе с медицинским понятием клинического синдрома [5 ].
Таким образом, предлагаемая методология рассматривает построение баз знаний консультационных или экспертных систем как процесс приведения совокупности данных и знаний в выбранной предметной области интереса к упорядоченной иерархической структуре. "Сырые" данные из истории болезни с помощью базы знаний первого уровня трансформируются в понятийные ряды. На следующем этапе первичные понятия рассматриваются как данные и с помощью базы знаний следующего уровня трансформируются в интегральные признаки, фактически замыкающие результаты и их интерпретацию внутри одного блока исследований. На следующем этапе эти интегральные признаки рассматриваются как данные и с помощью базы знаний более высокого уровня строятся классификации, диагностические заключения, прогнозы течения заболеваний и т. п.
Данная методология облегчает интерпретацию известных знаний и подталкивает специалиста к эвристическим решениям в плане объяснения патофизиологических механизмов, процессов и закономерностей.
ЛИТЕРАТУРА
1. Курочкина А. И. Методы многомерной статистики, ориентированные на специфику клиникодиагностических данных.Канд. диссертация. М., 1982.
2. Ш о р н и к о в Б. С. Классификация и диагностика в биологическом эксперименте. М., Наука, 1979.
3. Давыдовский И. В. Проблемы причинности в медицине. М., Медгиз, 1962.
4. Волынский Ю. Д., К у р о ч к и н а А. И. Многомерный анализ клинических данных. Вестник АМН СССР, N 1,1987.
5. Волынский Ю.Д., Курочкина А. И., Титов а М.И., Катышева И. А., Асташева Н. Г., Баевский А. Р. Использование многомерного анализа данных при построении медицинских экспертных систем. Вестник АМН СССР, N8,1988.
Институт хирургии им. А. В. Вишневского АМН СССР
© Информационное общество, 1991, вып. 1, с. 4145.