Data Steward: задачи, компетенции, модели работы.

В наши дни фраза «управление данными как корпоративным активом» все чаще повторяется среди руководителей организаций не только коммерческого сектора. В Центр оценки и кадрового развития постоянно поступают запросы на поиск специалистов по управлению данными. И если ранее вакансии были связаны с аналитикой данных, то сейчас руководители говорят о необходимости управления данными, которые содержатся в государственных информационных системах.

В статье мы постараемся подробно рассказать о новой профессии для ГосИТ в области управления данными – Data Steward.

Особую актуальность профессия Data Steward получила в связи с активным внедрением целостной стратегии управления корпоративными данными Data Governance в крупных организациях. Data Governance сосредоточено на процедурах высокого уровня и внедрения политики, а управление данными на тактической реализации процессов работы с информацией. Одна из ролей в данном направлении – Data Steward. Он отвечает за выполнение политик использования корпоративных данных и их безопасности и является связующим звеном между Data Engineer и бизнес-подразделениями.

Data Steward – это «рабочие руки» для архитектора данных, которые осуществляют ведение данных по установленным требованиям по содержанию от структурных подразделений организации. Они также могут искать необходимую информацию, если эксперты из бизнес-подразделений по каким-то причинам не могут выполнить эту задачу. Важная функция, которую может выполнять Data Steward – это сравнение требований от бизнес-подразделений к реализованным разработкам (при наличии каталога метаданных). Как правило, такая необходимость возникает при формировании показателей отчетов или данных для анализа. В последнее время распространена практика, когда Data Steward прикреплен к функциональному подразделению и имеет косвенное управление со стороны другого департамента по управлению данными: он решает проблемы с качеством данных.

Актуальность возникновения позиции Data Steward в государственных органах власти определена огромным массивом накопленных данных и недостаточным учетом актуальной информации. В ситуации отсутствия необходимых данных и вследствие их разрозненности, возникают риски для принятия оперативных и грамотных стратегических решений.

Задачи и функции Data Steward

В зависимости от уровня зрелости компании по управлению данными в организации Data Steward может работать над разными задачами:

  • Создание источников данных для разных групп пользователей;
  • Обеспечение и оценка качества данных;
  • Обеспечение пользователей доступом к достоверным источникам данных для дальнейшего анализа;
  • Участие в разработке аналитических решений;
  • Управление данными в соответствии с политикой и стандартами компании;
  • Разработка правил, стандартов, процедур валидации и требований к источникам данных на стороне BI-платформ;
  • Построение и поддержка системы хранения данных;
  • Обеспечение конфиденциальности и приватности данных;
  • Ввод, хранение, защита и обеспечение целостности данных;
  • Понимание и поддержка информационных потребностей организаций;
  • Создание добавленной ценности в организации с помощью данных.

Функциональные обязанности Data Steward могут кардинально отличаться. Это может быть функционал, связанный с обеспечением сбора данных в соответствии с установленными правилами, или он может выполнять функцию по обеспечению участия в проектировании и реализации процессов управления данными, такими как:

  • Сбор, обработка и анализ информации, содержащейся в информационных системах организации;
  • Определение требований к данным на основе запросов подразделения и способы их использования для достижения поставленных целей;
  • Ведение нормативно-справочной информации (далее -НСИ) информационных систем, в том числе проверка и обеспечение качества и актуальности данных;
  • Определение источников данных и степени доверия к ним;
  • Обеспечение и гарантия качества собранных, хранящихся и используемых данных;
  • Контроль инцидентов, связанных с качеством данных;
  • Выполнение политик и стандартов, установленных программой управления данными;
  • Обеспечение доступа к нужным данным пользователей в заданное время;
  • Помощь инженерам и аналитика данных в проектировании и реализации процессов и процедур для сбора, хранения, использования и безопасности данных.

Что должен уметь Data Steward?

К специалистам по управлению данными предъявляются довольно высокие требования. Профессиональные компетенции «распорядителей данных» должны быть развиты в следующих направлениях:

  • Проведение инвентаризации данных;
  • Проведение плановых аудитов данных и формирование отчетности по результатам проверок;
  • Внедрение процедур регулирования данных для обеспечения качества данных;
  • Построение онтологии и визуализации моделей данных: смысловые, концептуальные, логические, физические;
  • Выявление ограничений и возможностей улучшения бизнес-процессов, связанных с данными;
  • Дизайн данных для интеграции информационных систем и создания единого информационного пространства организации.

Data Steward имеет техническое образование, опыт работы с базами данных. Кроме того, к специалистам предъявляются требования:

  • Навыки аналитика данных (BI): понимание основ BI, анализ данных, визуальный анализ, владение основами SQL, глубокое понимание всех возможностей BI-инструментов, решение проблем производительности BI-инструментов, оптимизация производительности рендеринга визуализаций, решение задачи A/B-тестирования, поиска количества уникальных покупателей в периоде с плавающим окном, решение задач когортного анализа, сегментация клиентской базы.
  • Опыт в программировании и понимание теории баз данных (SQL, NoSQL, NewSQL,Vertica).
  • Знание принципов хранения и обработки данных в стеке Big Data: очистка данных без программирования, фильтрация данных, объединение данных из нескольких разнородных источников, применение формул, создание макросов, соединение макросов с BI-инструментами; пакетные и потоковые вычисления, Hadoop MapReduce, функциональные возможности Apache Spark, Kafka, NiFi, AirFlow, HDFS, HBase, Hive, Impala и другие средства SQL-on-Hadoop.
  • Основы проектирования и работы с корпоративными хранилищами и озерами данных (Data WareHouse, Data Lake), а также ETL/ELT-процессами.
  • Знакомство с инструментами обеспечения качества данных, например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие подобные системы.
  • Методы и техники бизнес-анализа для выявления и формализации требований к данным.
  • Нотации моделирования данных, в т.ч. процессные, например, DFD-диаграммы, а также логические модели ERD с целью описания зависимостей между справочниками информационных систем.
  • Навыки разработки технической документации.
  • Понимание процессов обслуживания источников данных.

Важное значение в работе Data Steward имеют и личностные качества, которые выражаются в развитых коммуникативных навыках, способности к командной работе, системном и критичном мышлении, нацеленности на результат, любознательности и креативности.

Большинство руководителей отмечают, что Data Steward должен хорошо знать доменную область, именно поэтому при поиске «распорядителей данных» очень часто обращают внимание на предыдущий опыт работы соискателей. Это требование наиболее актуально при внедрении моделей управления данными, в которых Data Steward отвечает за функциональную область.

Модели работы Data Steward

Вследствие некоторой незрелости многих организаций в области управления данных создается хаотичная среда с сильно распределенными системами и проектами управления данными. Такая тенденция наблюдается в организациях, где право принятия решений по управлению данными основывается на установленной отчетности. В подобных структурах данные используются по заранее установленным шаблонам и схемам без возможности повторного использования. Обработанная таким методом информация отличается инертностью, а владельцы данных являются некими «защитниками» этой информации. Они представляют подготовленную информацию на различных внутрикорпоративных собраниях в качестве отчётности, не имея возможности повлиять на качество данных или продемонстрировать варианты для их повторного использования.

При внедрении систем управления данными руководитель по управлению данными (CDO) учитывает огромное количество факторов:

  • Уровень зрелости навыков работы с данными и их связь с существующими информационными системами;
  • Состав команды по управлению данными: администраторы баз данных или разработчики моделей данных;
  • Корпоративная культура: культура анархии, культура управления указом, компетенции членов команд различных подразделений – владельцев данных;
  • Репутация данных: качество и полнота данных, которыми на данный момент пользуется организация;
  • Повторное использование данных: при совместном использовании данных возникают естественные конфликты в целях использования данных;
  • Место сосредоточения управление данными – в бизнес-подразделениях или информационных системах.

Исходя из вышеперечисленных факторов определяется и роль Data Steward в организации. Как правило, выделяют пять основных направлений моделей работы «распорядителей данных» в организации.

Модель 1. Data Steward по предметной области.

Data Steward привязан к определенной предметной области данных и владеет узкой специализацией. В зависимости от размера организации могут быть выделены еще более специализированные направления работы. Такие модели распространены в организациях, где с одними и теми же данными работают разные подразделения: границы собственности данных четко определены, со временем управляющий данных расширяет свои знания о сопутствующих бизнес-задачах.

Модель 2. Data Steward по функционалу

В этой модели Data Steward фокусируется на функциональных данных конкретного подразделения. В особо крупных организациях может наблюдаться гибрид модели 1 и модели 2, где «распорядители данных» работают с предметной и функциональной областью.

Data Steward может устанавливать правила работы с информацией и иметь возможность смягчать некоторые рабочие процессы за счет систематизации работы с данными. Они хорошо знают контекст использования данных и естественным образом связаны с бизнес-целями своего направления, так как часто контактируют с владельцами данных. И все эти обстоятельства в итоге способствуют распространению культуры работы с данными.

Модель 3. Data Steward по бизнес-процессам

Data Steward отвечает за управление данными внутри бизнес-процессов. Такая модель наиболее эффективно работает в организациях, которые имеют четкое представление о своих процессах на уровне предприятия и понимают, что любая работа порождает данные и наоборот.

«Распорядители данных» несут ответственность за несколько доменов данных или систем, которые участвуют в бизнес-процессе. Участники процесса могут получить от Data Steward всю информацию по бизнес-процессу, оценить его эффективность, сделать определенных выводы об оптимизации. Даже если одно подразделение запустило пилотный проект по внедрению управления данными с участием Data Steward, такая практика начинает быстро распространяться на другие подразделения.

Модель 4. Data Steward по системам

В этой модели «распорядителей данных» назначают в соответствии с системами генерации данных, которыми они управляют. Data Steward в таких моделях имеют более высокий уровень ИТ-подготовки. Но вместе с тем, они сталкиваются с недостаточным качеством данных, нечеткими определениями, значениями и записями. Data Steward недостаточно владеют предметными знаниями и ожидают от владельцев данных инициативы по работе с данными.

В свою очередь, при желании и погружении Data Steward в бизнес-процессы и предметную область, он сможет дать владельцам данных необходимые четкие данные для оптимизации внутренних процессов и разработки стратегических решений, покажет вектор развития оптимальных ИТ-систем. Кроме того, при соответствующих инициативах именно Data Steward сможет прописать определенные правила и политики работы с данными, сформировать корпоративную культуру управления данными.

Модель 5. Data Steward в проектах

В этой модели работы Data Steward сможет стать проводником быстрого распространения системы управления данными.

Управление данными на основе проектов является временной мерой. Роль Data Steward в такой модели может быть внедрен очень быстро и на первоначальном этапе процессы управления данными могут быть адаптированы к желаемым проектам, а конечный успех будет напрямую связан с процессом управления данными. Полученный результат может быть доработан для более широкого использования.

Важно отметить, что компетенции Data Steward в любой из приведенных моделей будут развиваться по мере того, как организации принимают идею управления данными. Описание моделей работы Data Steward являются некоторой основой, которая доказывает ценность управления данными и обогащение информацией в процессе. Они устанавливают, как Data Steward интегрируются с существующими процессами и операционной деятельностью.

Востребованность Data Steward

В конце 2020 года отечественный рынок демонстрировал высокий спрос на Data Steward в крупных коммерческих организациях, которые стремились стать дата-драйверами, и тесно работали со стеком технологий Big Data: банковская сфера, ритейл, телеком. При этом функционал Data Steward был довольно нечетко размыт между задачами Data Analyst и Data Engineer, ИТ-архитектора и Data Scientist.

При этом западный рынок показывал востребованность Data Steward в различных предметных областях: образование, медицина, промышленность, энергетика. HR-менеджеры зарубежных компаний четко определяли рабочие задачи и технический бэкграунд специалистов.

В государственном секторе России востребованность Data Steward наблюдалась с начала года 2021 года в основном в финансовых структурах: Счетная плата, ФНС. На конец 2021 года в подобных специалистах увидели необходимость и другие отраслевые министерства. Роль Data Steward становится востребованной в мире Big Data благодаря возможности улучшить качество огромных массивов данных, формировании четких политик управления и процессами обработки данных, эффективным программам аналитики, объективным принятием управленческих решений на основе данных, снижению ошибок в процессах и решениях, основанных на данных, снижения рисков, связанных с требованиями безопасности и конфиденциальности данных.

Наталья Карташева,
Эксперт центра