Проект IS_Agro — это инициатива, направленная на критическую оценку и последующую адаптацию методологий, разработанных на глобальных форумах, с целью их применения в национальном контексте на основе разработки новых агро-социально-экологических показателей и индикаторов (АЭО), призванных обеспечить более точное и достоверное представление сельскохозяйственного ландшафта на национальной территории. АЭО — это меры, используемые для мониторинга и оценки сельскохозяйственной деятельности с учетом социальных, экономических и экологических аспектов, что имеет большое значение для разработки более устойчивых политических стратегий и сельскохозяйственной практики как государственными, так и частными организациями. Они служат для «оценки эффективности сельского хозяйства с точки зрения его экологических, социальных и экономических показателей, предоставления сравнительных данных и информации между федеративными образованиями или странами, а также для ряда других применений» (EMBRAPA SOLOS, 2023). В рамках этого проекта АЭО разрабатываются различными группами специалистов по предлагаемым темам, чьи работы ранее были одобрены и опубликованы в научной сфере. Для автоматизации сбора, распределения, расчетов и постоянного обновления данных АЭО существует группа, называемая Цифровым модулем, которая разрабатывает решения для Каждый показатель преобразуется в цифровые алгоритмы. Структурированные, полуструктурированные и неструктурированные регистрационные данные собираются и хранятся в хранилище данных, что требует значительной организации внутри репозитория для обеспечения постоянной доступности и легкого доступа к данным. Было решено реализовать архитектуру Medallion (архитектуру Medallion), которая состоит из распределения данных по трем слоям с различными целями, при этом для управления и автоматизации конвейера использовалась платформа с открытым исходным кодом.
Концепция этого проекта как цифровой платформы, связанной с Бразильской сельскохозяйственной обсерваторией, направлена на публикацию показателей и параметров, полученных на основе обоснованных технических и научных данных, способных оценивать эффективность работы национального сельскохозяйственного сектора на муниципальном или государственном уровне, способствуя отраслевой политике, планированию и процессам управления, направленным на построение устойчивого сельского хозяйства и правильное позиционирование страны на международной арене. Таким образом, общая цель состоит в разработке интеллектуальной среды, которая автоматизирует и управляет конвейерами IAS в организационной среде хранения данных на основе архитектуры Medallion, которая станет основой панели данных для публикации показателей.
Конвейер данных представляет собой последовательность связанных этапов, которые позволяют Сбор, хранение, модификация, анализ и представление данных с целью получения значимых выводов и поддержки принятия обоснованных решений (CALANCA, 2023). «Озеро данных», конечный пункт конвейеров проекта, представляет собой «современную платформу данных, построенную на основе комбинации озера данных и хранилища данных» (ORACLE CLOUD INFRASTRUCTURE, 2023), использующую «гибкое хранение неструктурированных данных из озера данных и возможности управления и инструменты хранилищ данных, а затем стратегически развертывающую их вместе как более крупную систему» (ORACLE CLOUD INFRASTRUCTURE, 2023). Архитектура Medallion — это последовательная структуризация хранения данных, направленная на логическую организацию данных в озере данных с целью постепенного и прогрессивного улучшения структуры и качества данных по мере их прохождения через три уровня архитектуры (ARQUITETURA medallion, 2024). Термины «бронза» (исходные данные), «серебро» (преобразование и проверка данных) и «золото» (уточненные и обогащенные данные для использования в проектах) описывают качество данных в процессе (ECTION и др., 2024). Управление конвейером осуществляется с помощью Apache Airflow (версия 2.44), платформы с открытым исходным кодом для разработки, планирования и мониторинга пакетных рабочих процессов на основе языка программирования Python, которая позволяет создавать рабочие процессы, связанные практически с любой технологией (ЧТО такое Airflow™?, 2023). Среда выполнения Airflow была структурирована в Docker, платформе с открытым исходным кодом, которая позволяет создавать и управлять контейнерами как модульными виртуальными машинами, содержащими все необходимое для их выполнения. Разработанный образ доступен на GitHub.
Карлос Эдуардо Мота
Примеры использования и приложения
Информация по комментариям в разработке