О журнале
Рекомендации
К вопросу о выборе технологических средств сбора и обработки материалов Всероссийской переписи населения 2020 года
Манжула О.В.
_________________
Манжула О.В.
Статья рекомендована Ершовой Т.В. 26.09.2014 г.
Аннотация
В статье рассматриваются вопросы выбора технологических средств сбора и обработки информации на этапе подготовки к Всероссийской переписи населения 2020 года с учетом требований надежности, удобства применения, обеспечения сохранности и конфиденциальности информации, на основе применения современных информационно-коммуникационных технологий. Предлагается методика расчета единовременной нагрузки интернет-сайта переписи населения и оценка функциональной пригодности планшетных компьютеров при проведении переписи.
Ключевые слова: перепись населения, ВПН-2020, эффективность, надежность, конфиденциальность, методика, функциональная пригодность, информационно-коммуникационные технологии, интернет-перепись.
В настоящее время Росстат приступил к подготовке организационно-методологических положений, а также к выбору инструментальных средств сбора и обработки данных Всероссийской переписи населения 2020 года (ВПН-2020). Опыт ВПН-2010 показал необходимость модернизации отдельных подходов к проведению переписи, без которой уже невозможно достичь главной ее цели – получения полной и достоверной картины современного общества.
Ориентируясь на положительный опыт проведения переписей во многих странах мира, а также учитывая положительную динамику развития информационного потенциала в России, Росстат планирует проводить ВПН-2020 с использованием следующих трех методов сбора сведений о населении [1]:
1) самостоятельное заполнение респондентами электронных вопросников в сети интернет, включая следующие этапы:
– заполнение респондентами специальной регистрационной формы на вебсайте переписи населения (ФИО, данные документа, удостоверяющего личность, страховой номер индивидуального лицевого счета застрахованного лица в системе обязательного пенсионного страхования РФ (СНИЛС) и идентификационный код переписи домохозяйства);
– заполнение респондентами электронного вопросника на сайте за себя и свое домохозяйство;
– сохранение данных переписи;
2) заполнение переписчиком электронных вопросников на планшетных компьютерах с установленным специализированным программным обеспечением, в том числе:
– опрос переписчиком респондентов и занесение полученных данных в планшетный компьютер;
– проведение формального и логического контроля введенных данных;
– передача данных в территориальный орган государственной статистики (ТОГС);
3) традиционное заполнение переписчиком бумажных вопросников (двусторонних машиночитаемых переписных листов) ручкой с гелиевой пастой.
Критерии выбора технологических средств сбора и обработки материалов ВПН-2020. Анализ специфики и социальных условий жизни населения РФ позволяет выделить основные факторы, влияющие на эффективность проведения переписи, и определить критерии выбора наиболее подходящих технологических решений (табл. 1). Эти сведения служат основой разработки рекомендаций по выбору технологии проведения ВПН-2020, включая использование современных и перспективных информационных и коммуникационных технологий (ИКТ).
Таблица 1. Факторы и критерии, оказывающие влияние на эффективность ВПН-2020
Однако следует иметь в виду, что использование современных ИКТ, в частности интернета и планшетных компьютеров при сборе информации, имеет не только достоинства, но и недостатки, которые приведены в обзоре [2] национального опыта переписей последних лет (табл. 2 и 3).
Таблица 2. Достоинства и недостатки использования интернета в ходе проведения переписей населения
Таблица 3. Достоинства и недостатки использования планшетных компьютеров
Выбор инструментальных средств сбора и обработки данных ВПН-2020 направлен на реализацию предложенных выше методов и производится с учетом развития ИКТ в России по критериям наибольшей эффективности применения, минимума стоимости, обеспечения конфиденциальности полученной информации, надежности и удобства применения. При этом рассматриваются два метода: использование переписчиками планшетных компьютеров и интернет-перепись на сайте силами самих респондентов. Классическая технология – заполнение бумажной анкеты переписчиком – в данном случае не рассматривается.
Сбор сведений о населении с использованием планшетных компьютеров. Сравнительный анализ источников [3, 4] показывает, что в различных нормативных документах номенклатура показателей качества технических и программных средств заметно отличается друг от друга. Стандарты практически не содержат рекомендаций по выбору, применению и упорядочению необходимой совокупности показателей качества требуемым функциональным характеристикам планшетных компьютеров.
Таким образом, для определения технических характеристик планшетных компьютеров необходимо самостоятельно очертить комплекс функциональных требований, который бы в наибольшей мере отражал особенности их применения переписчиками в полевых условиях. В данном случае следует руководствоваться функциональной пригодностью, критериями которой являются удобство применения устройства в заданных условиях, его надежность, обеспечение сохранности и конфиденциальности информации, защищенность от внешних воздействий, способность к взаимодействию с внешними системами. Рассмотрим более подробно связь перечисленных выше функциональных требований с базовыми техническими характеристиками планшетных компьютеров (табл. 4).
Табл. 4. Функциональные требования и технические характеристики планшетных компьютеров
Для удобства применения планшетного компьютера переписчиком определяющими параметрами являются размер экрана, емкость аккумулятора и тип операционной системы. На примере проведенного Росстатом в августе 2013 г. «Выборочного наблюдения поведенческих факторов, влияющих на состояние здоровья населения 2013 года» с использованием планшетных компьютеров [6] можно сделать вывод, что оптимально удобный для переписчика экран – 10”. Если экран меньшего размера, переписчику неудобно заполнять электронный вопросник – не видно одновременно вопроса и вариантов ответа или всех подсказок. В то же время экран большего размера сложнее переносить, у него быстрее расходуется емкость аккумулятора, а ее гарантированно должно хватать на 5-6 часов непрерывной работы, т.е. на рабочий день переписчика с учетом переходов между объектами переписи.
Наличие GPS – необходимая опция на планшетном компьютере для отображения маршрутного листа и позиции на нем переписчика, а также информации о транспортной доступности населенных пунктов. Кроме того, возможна функция автоматического сохранения координат в момент сохранения заполненного вопросника – для последующего контроля качества материала при приеме его от переписчика. В перспективе возможна реализация функции поиска украденного (утерянного) планшетного компьютера или помощи переписчику в форс-мажорных обстоятельствах, если будет обратная связь между переписчиком и центром сбора информации (например, с использованием мобильных интернет-сетей 3G или 4G).
Для переноски планшетного компьютера и работы с ним рекомендуется чехол-книжка. В этом случае переписчик не вынимает прибор из чехла в процессе заполнения электронного вопросника. Чехол-книжка должен иметь технологические отверстия для зарядки аккумулятора и подключения к стационарному компьютеру.
Надежность рекомендуется характеризовать уровнем завершенности (отсутствием сбоев), устойчивостью к ошибкам, обусловленным человеческим фактором, и быстрой перезапускаемостью планшетного компьютера [3]. На надежность применения (бесперебойную работу) планшетного компьютера влияют все технические характеристики, особенно те, которые обеспечивают сохранность информации в случае отказа прибора (разрядка аккумулятора или неисправность). При сохранении заполненного вопросника необходимо сохранять данные одновременно во внутренней и внешней памяти прибора. Важным критерием надежности планшетного компьютера является емкость аккумулятора – для обеспечения продолжительной его работы.
Конфиденциальность информации при применении планшетных компьютеров для сбора сведений о населении в первую очередь обеспечивается типом операционной системы и возможностью применения одновременно с ней существующих на рынке программных средства защиты информации от несанкционированного доступа (СЗИ от НСД) и шифрования информации для ее передачи в центр обработки: например, программная совместимость с СЗИ от НСД DallasLock 8.0-K, средство антивирусной защиты Kaspersky, средство криптографической защиты информации «КриптоПро CSP» [5]. Исходя из имеющегося в Росстате опыта [6], такой операционной системой для планшетного компьютера можно считать ОС Android 4.0 и выше.
Наличие Wi-Fi, Bluetooth и мобильного интернет (3G, 4G), наоборот, отрицательно влияет на обеспечение конфиденциальности информации, так как требует дополнительных действий и настроек для предотвращения утечки или случайного разглашения информации.
Защищенность от внешних воздействий в первую очередь обеспечивает корпус самого планшетного компьютера, его чехол, технологические характеристики экрана (реагирование на солнечный свет) и емкость аккумулятора.
Взаимодействие с внешними системами необходимо в первую очередь для установки программного обеспечения электронного вопросника и его обновлений, а также для оперативной передачи собранной информации. В перспективе возможна также реализация обратной связи между переписчиком и центром сбора информации.
Таким образом, оценку и выбор технических характеристик планшетных компьютеров для применения в ходе ВПН-2020 следует проводить в несколько этапов.
На первом этапе по показателям функциональной пригодности, указанным выше, определяются базовые технические характеристики планшетных компьютеров. На втором этапе выполняется экономическая оценка вариантов моделей планшетных компьютеров и выбирается экономически более выгодный вариант. Если определенный тип планшетного компьютера уже опробован в аналогичных опросах и имеются достаточно надежные сведения о его удовлетворительном функционировании, второй этап оценки может стать последним. В противном случае выполняется третий этап, когда отбираются и оцениваются существенные для данных условий базовые технические характеристики планшетных компьютеров. Если некоторый параметр является несущественным (например, наличие встроенных динамиков или микрофона), он во внимание не принимается.
При выборе базовых технических характеристик планшетных компьютеров можно воспользоваться разработанной методикой организации закупки оборудования [7], реализация которой возможна либо методом ветвей и границ, либо методом отсечений (отсекающих плоскостей).
Известно, что метод ветвей и границ эффективнее метода отсечений и наиболее часто используется для реализации моделей целочисленного линейного программирования. Особенностью разработанной модели [7] является присутствие булевых переменных среди общего числа целочисленных переменных, кроме того, для всех целочисленных переменных известны конечные верхние границы значений (в нашем случае – диапазон требуемых технических характеристик планшетных компьютеров). Вторая особенность позволяет перейти полностью к модели линейного программирования с булевыми переменными путем представления всех целочисленных переменных в двоичном виде:
х = 2k×zk+2k-1×zk-1+…+22×z2 +21×z1+20×z0 ,
где k – наименьшее целое число, удовлетворяющее условию 2k-1×zk-1 ≥r (r- конечная верхняя граница переменной х, т.е. 0≤х≤r), а zk, zk-1, z2, z1, z0 – двоичные переменные.
Фактически применение данной модели для выбора основных технических характеристик планшетных компьютеров заключается в выполнении следующих этапов:
1 этап – сбор исходных данных для расчета модели;
2 этап – ввод исходных данных для расчета модели;
3 этап – расчет модели и получение результатов.
Расчет модели осуществляется с использованием прикладного программного обеспечения (ППО). Ввод исходных данных в ППО возможен в интерактивном режиме. По завершении ввода данных ППО автоматически определяет количество переменных, а также формирует целевую функцию и ограничения модели.
Исходные данные могут быть получены экспертным путем после формирования функциональных требований применения планшетных компьютеров, описанных выше.
После расчета модели ППО представляет пользователю один из возможных вариантов:
– решение, являющееся оптимальным (с минимальной общей стоимостью планшетных компьютеров);
– сообщение о невозможности получить решение, удовлетворяющее заданным ограничениям модели (в этом случае требуется корректировка первичных функциональных требований или приоритетов их реализации в базовых технических характеристиках планшетных компьютеров).
По завершении формирования базовых технических характеристик планшетных компьютеров эти характеристики будут включены в технические требования документации для организации и проведения аукционных процедур в соответствии с Федеральным законом «О контрактной системе в сфере закупок товаров, работ, услуг для обеспечения государственных и муниципальных нужд».
Выбор технологических средств интернет-переписи. Для организации сбора сведений о населении с использованием сети интернет при проведении ВПН-2020 возможны два варианта технического обеспечения сайта интернет-переписи:
1) аренда серверного оборудования в облачной инфраструктуре;
2) закупка необходимого серверного оборудования.
Рассмотрим эти варианты более подробно с учетом необходимости обеспечить безотказную работу сайта интернет-переписи при следующих допущениях:
- участие в интернет-переписи 40% домохозяйств [8];
- из них 20% могут заполнять электронные вопросники в один день;
- из них 40% – в один и тот же трехчасовой промежуток – с 18 до 22 часов.
В соответствии с делением Российской Федерации на часовые пояса одновременный доступ к сайту интернет-переписи должен быть обеспечен пользователям следующих федеральных округов (табл. 5).
Таблица 5. Распределение численности населения РФ по федеральным округам
(по данным ВПН-2010)
Чтобы определить показатели, влияющие на пиковую нагрузку (Nпик) обращений домохозяйств к сайту интернет-переписи, была построена регрессионная модель зависимости количества домохозяйств, которые имеют возможность обратиться к сайту интернет-переписи, от различных ситуационных факторов. Для построения уравнения регрессии использовался механизм пошагового регрессионного анализа [9], позволяющего оценить влияние одного или нескольких показателей на Nпик. При этом независимые показатели называются регрессорами (предикторами), а зависимые – критериальными покзателями. Алгоритм пошагового регрессионного анализа иллюстрирует исключительно математическую зависимость показателей, но не их причинно-следственные связи. В процессе проведенного исследования были исключены статистически незначимые регрессоры: количество членов семьи в домохозяйстве, возраст населения и т.д. В результате анализа с учетом временных поясов пиковую нагрузку (Nпик) обращений домохозяйств к интернет-сайту переписи можно рассчитать следующим образом:
Nпик = Кд/х*D1* D2*D3 ≈ 1 400 000,
где Кд/х =45 595 802 – сумма домохозяйств по строкам 1–6, 9 таблицы 5;
D1=0,4 – допущение об участии в интернет-переписи 40% домохозяйств;
D2=0,2 – допущение, что из этих домохозяйств 20% могут заполнять электронные вопросники в один день;
D3 =0,4 – допущение, что из этих домохозяйств 40% – в один и тот же трехчасовой промежуток времени с 19 до 22 часов.
Таким образом, получается количество домохозяйств, обратившихся к сайту интернет-переписи в течение трех часов. При условии, что время, требующееся на заполнение электронного вопросника по одному домохозяйству, составляет около 30 минут, количество одновременных подключений можно рассчитать по формуле:
Коп = Nпик * t/ T ≈ 233 333,3 ,
где Коп – количество одновременных подключений;
t – время, необходимое для заполнения электронного вопросника по одному домохозяйству;
T – общее время в период пиковой нагрузки.
Таким образом, количество одновременных подключений может составить около 233 333,3 в минуту. Для гарантированной безотказности сайта интернет-переписи стоит увеличить это число в 3 раза. Итого получается 700 000 одновременных подключений.
Обслуживать все эти подключения должен кластер веб-серверов со следующими минимальными техническими характеристиками: 32-ядра, 124 ГБ оперативной памяти, 200 ГБ HDD. Количество одновременных подключений на одном сервере – порядка 10 000. Следовательно, необходим кластер из 70 серверов.
Общая стоимость аренды составит приблизительно 5,95 млн. руб. в месяц, исходя из формулы:
Собщ.= Сср.*Ксерв = 5 950 000 руб./мес.,
где Сср.= 85000 руб./мес. – средняя стоимость аренды одного сервера в облачной инфраструктуре российских компаний (по состоянию на январь 2014 г.);
Ксерв.= 70 – количество серверов в кластере.
Для обеспечения нагрузочного тестирования перед промышленной эксплуатацией необходимо арендовать серверы как минимум на два месяца, что составит итоговую сумму Ситог.= 11,9 млн. руб. Стоимость серверного оборудования, аналогичного указанному выше, составляет около 850 тыс. руб. по состоянию российского ИТ-рынка на октябрь 2014 г.
С учетом необходимости создания кластера из 70 серверов с данной спецификацией общая стоимость серверного оборудования с лицензионным программным обеспечением для создания сайта интернет-переписи населения составит:
Собщ.= 846 300,00*70= 59 241 000,00 руб.
Дополнительно необходимо будет предоставить помещение для размещения серверного оборудования, осуществить закупку серверных стоек и коммутационного оборудования, произвести работы по подключению и настройке, что увеличит смету расходов. Общая ориентировочная стоимость серверного оборудования и пуско-наладочных работ по подключению и настройке (+10% стоимости) составит 65,141 млн. руб.
Данный расчет наглядно показывает, что с целью экономии бюджетных средств Росстату выгоднее арендовать серверное оборудование вместе с помещениями для его размещения (11,9 млн. руб.), чем осуществлять закупку такого оборудования (65,141 млн. руб.) для создания сайта интернет-переписи населения (при условии его использования в течение двух месяцев).
Резюмируя, следует отметить, что использование современных информационных технологий будет способствовать повышению качества итогов переписи населения и уже на стадии заполнения переписных листов обеспечит контроль полноты и правильности учета населения, а также логический контроль информации, позволит минимизировать ошибки, вызванные человеческим фактором.
В 2015 г. Росстатом проведет федеральное статистическое наблюдение «Социально-демографическое обследование (микроперепись населения) 2015 года» с охватом двух процентов населения, когда пройдет апробация использования планшетных компьютеров для сбора сведений о населении и интернет-переписи. В 2016 г. Росстат планирует провести Всероссийскую сельскохозяйственную перепись с применением методов сбора данных на планшетных компьютерах для сбора сведений при опросе хозяйств населения (форма № 3 ЛПХ) в отдельно взятых субъектах (районах) Российской Федерации. Благодаря апробации новых методов сбора данных (планшетных компьютеров и технологии интернет-переписи) будет решена задача повышения полноты и достоверности получаемых данных и сокращения сроков их обработки с учетом требований о защите персональных данных. Это позволит подготовиться к проведению Всероссийской переписи населения 2020 г. и успешно провести на качественно новых технологических решениях в установленные Правительством РФ сроки.
Литература
1. Суринов А.Е. Всероссийская перепись населения: опыт и перспективы. Доклад на научно-практической конференции, Росстат, 27–28 ноября 2012 г. URL: http://www.perepis-2010.ru/events/s-p-conference/conference-27112012.php.
2. Инновации, аутсорсинг и безопасность: основные итоги обследования ЕЭК ООН, посвященного национальной практике проведения переписей, и первые предложения в отношении Рекомендаций КЕС по циклу переписей 2020 года. Записка Руководящей группы ЕЭК ООН по переписям населения и жилищного фонда. Европейская экономическая комиссия. Конференция европейских статистиков. Группа экспертов по переписям населения и жилищного фонда. Пятнадцатое совещание. Женева, 30 сентября – 3 октября 2013 года. Пункт 3 предварительной повестки дня: Технология переписи, инновации и аутсорсинг.
3. Серия стандартов ISO 9000.
4. Совместный стандарте ISO и международной комиссии по электротехнике (IEC) ISO/IEC 9126:1993/
5. Материалы шестой ежегодной конференции «Встраиваемые технологии 2013. Современные программные и аппаратные решения». Москва, 18 апреля 2013 г.
6. Сайт Федеральной службы государственной статистики: Итоги федерального статистического наблюдения по вопросам использования населением информационных технологий и информационно-телекоммуникационных сетей за октябрь 2013 г. (размещено 09.01.2014г.) [Электронный ресурс]. Режим доступа: http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/science_and_innovations/it_technology/.
7. Божко В.П., Лури А.В., Сычев Е.Б. Совершенствование процессов проведения статистических переписей и обследований / Под ред. Божко В.П. М., 2008.
8. Сайт Федеральной службы государственной статистики: Итоги выборочного наблюдения поведенческих факторов, влияющих на состояние здоровья населения 2013. [Электронный ресурс]. Режим доступа:http://www.gks.ru/free_doc/new_site/ZDOR/Sdp2013.Bfs.Publisher/index.html .
9. Назаров М.Г. Курс социально-экономической статистики: Учебник для вузов / Под ред. М.Г. Назарова. М.: Финстатинформ, ЮНИТИ-ДАНА, 2000.
______________________________________
МАНЖУЛА Олег Владимирович
Заместитель начальника Управления организации проведения переписей и сплошных обследований Росстата
© Информационное общество, 2014 вып. 5-6, с. 103-116.