О журнале
Рекомендации
Использование открытых данных в научных исследования
И.А. Радченко
в научных исследованиях
______________________
И.А. Радченко
Аннотация
В статье даются определения открытых и связанных данных. Автор обращается к истории возникновения и предпосылкам разработки концепции открытых данных и их использования в научных исследованиях. В качестве технической реализации идеи открытых данных рассматривается подход, называемый Linked Open Data и применяемый для опубликования наборов связанных открытых данных.
Ключевые слова: открытые данные, открытая наука, открытые государственные данные, открытые научные данные, связанные открытые данные, семантическая паутина, LOD-облако, связанные данные, Open Data, Open Science, Open Government Data, Open Science Data, Linked Open Data, Semantic Web, LOD-cloud, Linked Data, RDF.
Введение
Открытые данные (Open Data) — это концепция, заключающаяся в том, что данные должны быть свободно доступны для всех пользователей и пригодны для повторного использования без каких-либо ограничений и контроля со стороны публикатора данных.
Когда говорят про открытые данные, обычно подразумевают массивы данных, хранящихся в свободном доступе в интернете. Несмотря на то, что информационные источники открытых данных довольно разнообразны, можно выделить две основные категории открытых данных — открытые государственные данные и открытые научные данные. Для того чтобы идея открытых данных была более ясна и понятна, имеет смысл обратиться к хронологии и посмотреть на предпосылки зарождения этой концепции.
История возникновения открытых данных
Первые шаги к формированию доступных массивов открытых данных были сделаны еще в 50-е годы прошлого столетия. С 1 июля 1957 г. по 31 декабря 1958 г. по всему земному шару проводились геофизические наблюдения и исследования по единой методике — это событие условно называется международным геофизическим годом (МГГ). Тогда же Международным советом по науке [1] был сформирован Мировой центр данных [2] для хранения данных, полученных в результате мероприятий, проводимых в рамках МГГ. Изначально в Мировой центр данных входил Советский Союз, США, Япония и некоторые европейские страны, позднее к участию в системе Мирового центра данных были подключены и другие страны. Этот центр был основан в первую очередь для того, чтобы свести к минимуму риск потери научных данных и сделать их доступными для исследователей.
В 1958 году в агентстве NASA был разработан законодательный проект, призванный обеспечить широкое распространение информации [3]. NASA имеет длинную историю хранения огромных массивов научных данных, выкладываемых в свободном доступе в интернете, при этом надо особо отметить, что агентством накоплено огромнейшее количество научных данных. Например, в рамках проекта «Системные данные NASA и информационная система наблюдения Земли» (NASA’s Earth Observing System Data and Information System, EOSDIS) [4], начиная с 2005 года, было получено свыше 5 Пб данных, хранящихся в распределенных хранилищах данных. Для сравнения, приблизительно такой же объем данных имеет Библиотека Конгресса США. Агентство NASA уже выложило в сеть значительную часть своих данных, полученных в ходе выполнения различных космических программ, включая данные в области наук, изучающих Землю (это свыше 4 Тб научных данных, полученных только за один день проведенных исследований).
В рамках инициативы открытого правительства (Open Government Initiative) агентство NASA работает над улучшением качества доступа к этим данным [5]. В агентстве также проводятся исследовательские работы в области открытых государственных данных. В 2010 г. NASA добавило 3 массива научных данных и 18 инструментов для работы с ними на сайт открытого правительства США (http://data.gov/). Этот сайт был разработан в рамках инициативы открытого правительства администрации Барака Обамы и запущен в мае 2009 г. под руководством федерального директора по информационным технологиям Вивека Кундры.
«Целью Data.gov является увеличение общественного доступа к значимым машиночитаемым наборам данных, генерируемых исполнительной властью Федерального правительства» – это перевод на русский язык цитаты, поясняющей цели проекта. Она взята с сайта открытого правительства США.
Концепция открытого правительства и, следовательно, концепция использования открытых данных) предполагает соблюдение следующих принципов [5]:
- увеличение прозрачности и подотчетности по отношению к гражданам;
- усиление вовлеченности граждан в деятельность NASA;
- повышение качества внутреннего сотрудничества между исследователями NASA;
- поощрение в большей степени совместной работы, чем экономического сотрудничества;
- применение доктрины открытого правительства в NASA.
- Деятельность открытого правительства под эгидой NASA охватывает 3 основных направления и 22 проекта, выводящих инициативу открытого правительства на новый уровень. К основным направлениям деятельности открытого правительства относятся следующие.
- Политика: разработка программного обеспечения с открытым исходным кодом с целью создания условий для тесного сотрудничества на благо агентства и общества.
- Технология: NASA Nebula, первая платформа облачных вычислений с открытым исходным кодом, которая обеспечивает простой способ для обмена научными данными между учеными из NASA, а также доступ к информации общественности и гражданских ученых (Citizen Scientists).
- Культура: создание нового ведомства совместных исследований NASA, которое привлечет общественность к участию в его проектах [6].
В 2004 г. Организацией экономического развития и сотрудничества (ОЭСР, Organisation for Economic Co-operation and Development, OECD) [7] было подписано коммюнике, определяющее доступность для граждан всех архивов, финансируемых за счет государственных средств [8].
В 2007 г. были опубликованы Принципы и положения для обеспечения доступа к научным данным исследований, финансируемых государством (OECD Principles and Guidelines for Access to Research Data from Public Funding) [9]. В них говорится о том, что в связи с высокой скоростью развития интернета и технологий, связанных с передачей, хранением и обработкой информации, появились новые возможности по совместному использованию научных данных мировым сообществом. В качестве наглядного примера в них приводится международный проект «Геном человека» (The International Human Genome Project) [10].
3–4 октября 2006 г. в Вашингтоне проходила конференция организации Научных общин (Science Commons), где главной темой были открытые данные в науке [11]. Именно тогда было обращено особое внимание на такое явление, характерное для некоторых областей научных исследований, как «трагедия общин», когда затраты на лицензирование научного продукта настолько высоки, что разработки оказываются экономически неэффективными.
В июле 2009 г. был опубликован первый черновой вариант Пантонских принципов (Panton Principles), которые представляют собой набор рекомендаций по опубликованию научных данных, доступных для их последующего использования всеми заинтересованными в этом лицами [12]. Группа исследователей-энтузиастов разработала эти принципы в пабе «Пантон Армз» (Panton Arms), который расположен на Пантон-стрит, рядом с химическим факультетом Кембриджского университета, где работал Петер Мюррей-Руст (Peter Murray-Rust), один из идейных вдохновителей и авторов принципов. В 2008 г. он опубликовал статью «Открытые данные в науке» (Open Data in Science), в которой обосновал необходимость открытия научных данных для общественности [13]. Позднее некоторые важные положения, описанные в этой статье, легли в основу Пантонских принципов.
В 2010 г. Пантонские принципы были уточнены и доработаны при участии членов рабочей группы «Открытые данные в науке» (Open Data in Science Working Group) фонда Открытых знаний (Open Knowledge Foundation) [14].
В Пантонских принципах, в частности, говорится о том, что научные данные должны представлять собой общественное достояние и публиковаться с соответствующей лицензией таким образом, чтобы предоставлять возможность их повторного использования. При публикации массивов научных данных рекомендуется использовать такие лицензии, как Open Data Commons Public Domain Dedication and License (PDDL) [15], Open Data Commons Attribution License [16], Open Data Commons Open Database License (ODbL) [17] и Creative Commons CCZero [18].
6 декабря 2009 г. Европейская организация по ядерным исследованиям (CERN) опубликовала книжный каталог открытых данных в рамках проекта «Открытая библиотека» (Open Library) [19]. ЦЕРН — это организация, которая входит в консорциум SCOAP3 (Sponsoring Consortium for Open Access Publishing in Particle Physics) [20] и поддерживает инициативу открытого доступа (Open Access), поэтому неудивительно, что она заключила соглашение с Американским физическим обществом (American Physical Society), Институтом Сисса (SISSA), издательскими домами «Эльзевир» (Elsevier) и «Шпрингер» (Springer), по которому научные данные, полученные при помощи Большого адронного коллайдера, публикуются в открытом доступе под лицензией Creative Commons [21].
В 2010 г. открытыми данными заинтересовался Всемирный банк (The World Bank) [22]. «Я считаю, очень важным, чтобы данные и результаты исследований Всемирного банка были доступны для всех, – заявил Роберт Б. Зеллик, занимавший в то время должность президента Всемирного банка. – Статистические данные показывают, как живут люди в развивающихся странах и в странах с формирующимся рынком, и могут иметь большое значение для сокращения масштабов бедности. Теперь эти данные доступны для всех через интернет, и их можно использовать для разработки новых программ и решений, способствующих развитию» [23].
Понятие связанной науки
В 2011 г. Томи Кауппинен (Институт геоинформатики Мюнстерского университета, Федеративная республика Германия) запустил проект LinkedScience.org [24], в рамках которого было дано определение связанной науки (Linked Science) и разработаны основные ее принципы.
Связанная наука – это подход к связыванию научных данных с целью обеспечения прозрачности, воспроизводимости результатов и реализации междисциплинарных исследований. Термин «связанная наука» был впервые упомянут в статье о связанной открытой науке, написанной Томи Кауппиненом в соавторстве с Джованной Мира-де-Эспиндола из Национального института Бразилии по исследованию космического пространства (The Brazil’s National Institute for Space Research, INPE) со ссылкой на LinkedScience.org [24]. В марте 2011 г. в Оксфорде Томи Кауппинен и Джун Жао решили, что мастер-класс по связанной науке будет хорошим началом для организации соответствующего сообщества, и реализовали эту идею в рамках конференции ISWC 2011 [25].
Но вернемся к понятию связанных данных, лежащих в основе подхода связанной науки.
Понятие связанных данных
Связанные данные (Linked Data) – это наборы данных, опубликованные в RDF-формате представления данных в соответствии с концепцией семантической паутины (Semantic Web) с использованием унифицированного идентификатора ресурсов URI для идентификации и связывания между собой элементов, которые они содержат. Связываемость данных – это одна из основных возможностей, предоставляемых семантической паутиной. Семантические связи между данными повышают ценность данных и предоставляют дополнительные возможности для информационного поиска. Таким образом, данные, интегрированные в единую семантическую паутину, представляют собой пространство знаний о некоторой предметной области.
Возможность и простота связывания данных в семантической паутине – результат использования стандартного формата их представления благодаря модели Resource Description Framework (RDF). RDF – это простой способ описания экземпляров данных в формате «субъект – отношение – объект», в котором в качестве любого элемента этого RDF-триплета используются идентификаторы ресурсов. В виде RDF-триплетов может быть представлена любая информация, любые информационные объекты, которые можно выделить и идентифицировать в интернете.
Тим Бернерс-Ли предложил идею связанных данных [26] на основе четырех принципов, стимулирующих применение базовых принципов веба для доступа к данным:
- применение универсальных идентификаторов ресурсов (URI) в качестве имен объектов;
- применение идентификаторов HTTP URI для реализации возможности обращения по этим именам;
- предоставление полезной информации тому, кто обращается по URI, с помощью стандартов (RDF*, SPARQL);
- включение ссылок на другие универсальные идентификаторы ресурсов, позволяющих найти дополнительную информацию.
- Распределенная открытая модель данных, используемая в концепции связанных данных, делает этот подход очень удобным для интеграции данных, хранящихся в различных базах данных и файловых системах, а также приложений, касающихся конкретных данных. Ниже перечислены некоторые возможности, благодаря которым связанные данные становятся очень удобным инструментом интеграции данных:
- единый интерфейс (определенный методами HTTP), универсально понимаемый и неизменный для всех приложений;
- универсальная схема адресации (благодаря URL) как для идентификации, так и для доступа ко всем объектам;
- простая и в то же время расширяемая модель данных для описания ресурсов, которая не требует предварительного изучения специальной терминологии.
- Связанные данные опираются на существующую инфраструктуру интернета и обладают такими важными характеристиками как распределенность и масштабируемость.
Связанные открытые данные
Связанные открытые данные (Linked Open Data, LOD) можно определить как связанные наборы данных, опубликованные в RDF-формате и доступные для свободного использования всеми пользователями без каких-либо ограничений в виде авторских прав, патентов и других механизмов контроля.
В 1999 г. консорциум W3C [27] опубликовал набор открытых стандартов Семантической паутины, включающий в себя описание модели RDF. Этот стандарт и стал использоваться в проекте DBpedia [28], составившем «ядро» пространства наборов данных Linked Open Data (рис. 1), которое также называют LOD-облаком (LOD-cloud) [29]. Проект DBpedia стартовал в 2007 г. в двух университетах: Свободном университете Берлина (Free University of Berlin) и
Рис. 1. LOD-облако от 19 сентября 2011 г.
Схематичное изображение стека связанных открытых данных было разработано Тимом Дэвисом, работающим над диссертацией в области LOD [30], и представлено на рисунке 2 [31].
Рис. 2. Схематическое изображение стека связанных открытых данных
Тим Бернес-Ли предложил пятизвездочную шкалу классификации открытых данных [32]:
• одна звезда: данные доступны в Вебе (в любом формате), но подпадают под лицензию открытых данных правительства Великобритании (Open Government Licence for public sector information) [33];
• две звезды: открытые данные доступны в качестве машиночитаемых структурированных данных (например, в виде Excel-таблицы вместо отсканированного изображения таблицы);
• три звезды: открытые данные соответствуют двум звездам плюс представлены в непроприетарном формате (например, в формате CSV вместо Excel-формата);
• четыре звезды: открытые данные соответствуют трем звездам плюс представлены в открытых стандартах консорциума W3C (RDF и SPARQL), предназначенных для идентификации данных;
• пять звезд: открытые данные соответствуют четырем звездам, плюс они связаны с другими данными с учетом контекста их использования.
Из этого следует, что наиболее предпочтительны и удобны в использовании связанные открытые данные, интегрированные в пространство LOD (имеющие пять звезд по представленной шкале классификации открытых данных), что позволяет не только их повторно использовать, но также производить над ним машинную обработку, осуществлять поиск, разрабатывать аналитические инструменты и интегрировать их в различные системы.
Связанные открытые данные, интегрированные в пространство LOD, удовлетворяют Пантонским принципам и являются актуальным вспомогательным инструментом для передовых научных разработок, способствуя совершенствованию междисциплинарных исследований благодаря такому свойству наборов данных Linked Open Data, как связанность.
Примеры использования связанных открытых данных
Примером использования связанных открытых данных в научных исследованиях является проект AGROVOC Linked Open Data продовольственной и сельскохозяйственной организации ООН (Food and Agriculture Organization, FAO) [34]. В нем используются RDF-модель представления данных и язык SPARQL для осуществления запросов, а сами наборы научных данных содержатся в хранилище Allegrograph triple store.
Другие примеры применения связанных открытых данных в науке можно легко обнаружить на схеме, представляющей LOD-облако, разработанной Ричардом Сиганьяком (Digital Enterprise Research Institute, DERI) и Аней Женщ (Free University of Berlin) (см. рис. 1) [29].
В России одним из первых подобных проектов является проект «Создание публичного ресурса открытых данных в области науки и техники, интегрированного в единое международное пространство знаний Linked Open Data», реализуемый совместно ЗАО «Эвентос» и НИУ «Высшая школа экономики».
Эта работа ведется при финансовой поддержке Министерства образования и науки Российской Федерации в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007–2013 годы» (Государственный контракт №07.524.11.4005).
Литература
1. International Council for Science // URL: http://www.icsu.org/ (дата обращения: 18.12.2012).
2. Мировой центр данных. ICSU World Data System // URL: http://www.icsu-wds.org/ (дата обращения: 18.12.2012).
3. Open Data NASA // URL: http://open.nasa.gov/opendata/ (дата обращения: 18.12.2012).
4. Earth Observing System Data and Information System (EOSDIS) // URL: http://data.nasa.gov/earth-observing-system-data-and-information-system-eosdis/ (дата обращения: 18.12.2012).
5. NASA Open Government Plan // URL: http://www.nasa.gov/open (дата обращения: 18.12.2012).
6. Правительство США // URL: http://data.gov/ (дата обращения: 18.12.2012).
7. Организация экономического сотрудничества и развития // URL: http://oecdru.org/oecd_rf.html (дата обращения: 19.12.2012).
8. Science, Technology and Innovation for the 21st Century. Meeting of the OECD Committee for Scientific and Technological Policy at Ministerial Level. 29–30 January 2004. Final Communique // URL: http://www.oecd.org/science/scienceandtechnologypolicy/sciencetechnologyandinnovationforthe21stcenturymeetingoftheoecdcommitteeforscientificandtechnologicalpolicyatministeriallevel29-30january2004-finalcommunique.htm (дата обращения: 19.12.2012).
9. OECD Principles and Guidelines for Access to Research Data from Public Funding // URL: http://www.oecd.org/science/scienceandtechnologypolicy/oecdprinciplesandguidelinesforaccesstoresearchdatafrompublicfunding.htm (дата обращения: 19.12.2012).
10. The International Human Genome Project // URL: http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml (дата обращения: 19.12.2012).
11. Commons of Science Conference // URL: http://www.spatial.maine.edu/icfs/index.html (дата обращения: 19.12.2012).
12. Panton Principles. Principles for Open Data in Science // URL: http://pantonprinciples.org/ (дата обращения: 19.12.2012).
13.Peter Murray-Rust. Open Data in Science // URL: http://precedings.nature.com/documents/1526/version/1 (дата обращения: 19.12.2012).
14. Open Knowledge Foundation // URL: http://okfn.org/ (дата обращения: 19.12.2012).
15. Open Data Commons Public Domain Dedication and Licence (PDDL) // URL: http://www.opendatacommons.org/odc-public-domain-dedication-and-licence/ (дата обращения: 19.12.2012).
16. Open Data Commons Attribution License // URL: http://opendatacommons.org/licenses/by/ (дата обращения: 19.12.2012).
17. Open Data Commons Open Database License (ODbL) // URL: http://opendatacommons.org/licenses/odbl/ (дата обращения: 19.12.2012).
18. Creative Commons CCZero // URL: http://creativecommons.org/publicdomain/zero/1.0/legalcode (дата обращения: 19.12.2012).
19. Open Library // URL: http://openlibrary.org/ (дата обращения: 19.12.2012).
20. SCOAP3 (Sponsoring Consortium for Open Access Publishing in Particle Physics) // URL: http://scoap3.org/index.html (дата обращения: 19.12.2012).
21. Supporting Open Access Publishing // URL: http://library.web.cern.ch/library/OpenAccess/OpenAccessPolicy.html (дата обращения: 19.12.2012).
22. Data. World Bank // URL: http://data.worldbank.org/ (дата обращения: 19.12.2012).
23. Группа организаций Всемирного банка делает свои данные открытыми для всех // URL:
http://web.worldbank.org/WBSITE/EXTERNAL/EXTRUSSIANHOME/NEWSRUSSIAN/0,,contentMDK:22548625~pagePK:64257043~piPK:437376~theSitePK:1081472,00.html (дата обращения: 19.12.2012).
24. Linked Science // URL: http://linkedscience.org/ (дата обращения: 19.12.2012).
25. The 10th International Semantic Web Conference. October 23–27, 2011. Boon, Germany // URL: http://iswc2011.semanticweb.org/workshops/linked-science/ (дата обращения: 19.12.2012).
26. Tim Berners-Lee. Linked Data. Design Issues // URL:
http://www.w3.org/DesignIssues/LinkedData.html (дата обращения: 19.12.2012).
27. World Wide Web Consortium (W3C) // URL: http://www.w3.org/ (дата обращения: 19.12.2012).
28. Проект DBpedia // URL: http://dbpedia.org/About (дата обращения: 19.12.2012).
29. The Linking Open Data cloud diagram // URL: http://richard.cyganiak.de/2007/10/lod/ (дата обращения: 19.12.2012).
30. Open Data Impacts. What`s in the Open Data Stack? By Tim Davies on May 2, 2011 // URL: http://www.opendataimpacts.net/2011/05/whats-in-the-linked-open-data-stack/Стек
31. Linked Open Data на русском языке // URL: http://iradche.livejournal.com/9036.html (дата обращения: 19.12.2012).
32. Linked Data – Design Issues // URL: http://www.w3.org/DesignIssues/LinkedData.html (дата обращения: 18.12.2012)
33. Open Government Licence for public sector information // URL: http://www.nationalarchives.gov.uk/doc/open-government-licence/ (дата обращения: 18.12.2012)
34. AGROVOC Linked Open Data // URL: http://aims.fao.org/standards/agrovoc/linked-open-data (дата обращения: 19.12.2012).
___________________________
Радченко Ирина Алексеевна - Центр семантических технологий НИУ «Высшая школа экономики»
© Информационное общество, 2013 вып. 1-2, с. 93-101.