Новости

Базы данных информационной системы в госуправлении

Сегодня в рамках образовательного интенсива «Муравьев-Амурский 2030» в Высшей школе в малом лектории прошел семинар Артура Нагапетяна, федерального спикера и эксперта, руководителя Лаборатории анализа данных и прикладных эконометрических исследований Школы экономики и менеджмента Дальневосточного федерального университета. На семинаре он рассказал об уникальных цифровых продуктах и сервисах на основе данных, выполненных в логике систем по поддержке принятия управленческих решений в госуправлении.
Для нашего сайта Артур Рубикович ответил на несколько вопросов:

- Какая особенность есть у формирования баз данных для подобных сервисов?
- В первую очередь, это безопасность персональной информации. Для формирования хорошего продукта нужно работать с большими массивами данных, также важно, чтобы они были качественными. Но, прежде чем получить к ним доступ, необходимо чтобы они были обезличены и процесс этот тем сложнее чем более «грязными» они изначально являются. Так, в ходе работы над платформой по анализу медицинских данных «Медстатан» наша команда исследователей столкнулась с тем, что если данные изначально имеют «плохое» качество, то возникает замкнутый круг. Для получения доступа к данным необходимо, чтобы они были обезличены, но для обезличивания данных необходимо получить к ним доступ, потому что у держателя данных не всегда есть ресурсы для оперативной работы над их обезличиванием. Что значит плохое качество данных? Представьте, что есть таблица с 10 миллионами строк, где есть столбец с адресами с десятками форматов написания. Это сильно усложняет процедуру обезличивания. Иногда возникает другая проблема, связанная с нехваткой определенных параметров в базе данных, наличие которых могло бы позволить кратно увеличить потенциал сервисов на его основе. При этом их отсутствие обусловлено не наличием дополнительных издержек, а лишь тем, что изначально не были продуманы в достаточной степени дизайны потенциальных сервисов, для которых они могли бы собираться.

- Можно ли решить эту проблему?
- Проблему можно решить, если регулярно осуществлять целеполагание относительно того почему именно собираются те или иные данные, какие существуют потенциальные возможности в части создания на их базе тех или иных цифровых продуктов позволяющих, например, увеличивать эффективность приминаемых управленческих решений. Это позволит избегать ситуаций, когда нехватка или низкое качество определенных данных заставляет мириться с ограничениями, не позволяющими получить максимальную полезность от использования данных. Таким образом, процесс мониторинга и пересмотра набора собираемых данных может происходить достаточно регулярно, при этом не только в контексте их соответствия потребностям собственных сервисов на основе данных, но и потребностям успешных сервисов других регионов хотя бы для того, чтобы была возможность подключиться к ним при необходимости.

- Как много времени уходит на сбор базы данных информационных систем?
- Используем ли мы грантовые средства, чтобы осуществлять продвинутое пространственно-авторегрессионное моделирование показателей заболеваемости от сердечно-сосудистых заболеваний или оцениваем простейшие регрессии в первую очередь необходимо подготовить данные. Обычно на это уходит до 60-70% рабочего времени. При этом это в случае, если есть соответствующие компетенции и технические возможности. На наш взгляд было бы очень полезно повысить уровень вовлеченности и сотрудничества органов государственной власти – ответственных за сбор и хранение данных и исследовательского сообщества, ориентированного на проектирование и разработку сервисов на основе данных. С учетом принятия мер для защиты персональной информации это бы позволило получать на выходе более качественные, полные и самое главное употребимые базы данных, что в свою очередь позволило бы с большей эффективностью использовать их для достижения результатов, связанных с повышением качества жизни жителей наших регионов.