DataOps (DataOps)

DataOps — набор практик, процессов и технологий, который сочетает, интегрированный и ориентированный на процесс, взгляд на данные с автоматизацией и методами гибкой инженерии программного обеспечения для улучшения качества, скорости, сотрудничества и продвижения культуры непрерывного улучшения в области анализа данных.^[1] Хотя DataOps начинался как набор самых лучших практик, к настоящему моменту он созрел для того, чтобы стать новым и независимым подходом к анализу данных.^[2] DataOps применяется ко всему циклу жизни данных^[3], начиная с подготовки данных и до предоставления отчётности, и признает взаимосвязь между отделом аналитики данных и отделом информационных технологий.^[4]

DataOps включает методологию Agile для сокращения время цикла разработки аналитики в соответствии с целями бизнеса.^[3]

DevOps фокусируется на непрерывной доставке используя по запросу IT ресурсы и автоматизируя тестирование и развертывание программного обеспечения. Это объединение разработки программного обеспечения и IT операций позволило улучшить скорость, качество, предсказуемость и масштаб инженерии программного обеспечения и его развертывания. Заимствуя методы DevOps, DataOps стремится привнести те же улучшения в анализ данных.^[4]

DataOps использует статистическое управление процессами (statistical process control (SPC)) для мониторинга и контроля конвейера аналитики данных. При применении SPC, поток данных, протекающих через работающую систему, непрерывно контролируется и проверяется на работоспособность. При появлении аномалии, команда анализа данных может быть уведомлена с помощью автоматизированного сигнала тревоги.^[5]

DataOps не привязан к конкретной технологии, архитектуре, инструменту, языку или фреймворку. Инструменты, поддерживающие DataOps продвигают сотрудничество, оркестровку, качество, безопасность, доступность и легкость использования.^[6]

История

DataOps был впервые представлен Ленни Либманном, пишущим редактором журнала InformationWeek, 19 июня 2014 года в блог-посте на информационном хабе IBM Big Data & Analytics Hub, озаглавленном «3 причины, почему DataOps необходим для успеха больших данных» («3 reasons why DataOps is essential for big data success»).^[7] Позднее термин DataOps был популяризован Энди Палмером и Стеф Локком.^[8]^[4] DataOps является сокращением от «Data Operations».^[3] 2017 год был знаменательным годом для DataOps со значительным развитием экосистемы, охватом аналитики, увеличением количества поисковых запросов, обзорам, публикациям, и количеству проектов с открытым исходным кодом.^[9] По мнению компании Gartner в 2018 году DataOps находился в цикле хайпа Управления данными.^[10]

DataOps наследует от DevOps, Agile, и производства

Цели и философия

Прогноз роста объема данных составляет 32% совокупного среднегодового темпа роста (CAGR) до 180 Зеттабайт к 2025 году. (Источник: IDC).^[6] DataOps стремиться предоставить инструменты, процессы, и организационные структуры для того, чтобы справиться с этим значительным увеличением данных.^[6] Автоматизация упрощает повседневную потребность в управлении большими интегрированными базами данных, освобождая команды, занимающиеся данными для разработки новой аналитики более действенным и эффективным способом.^[11]^[4] DataOps стремиться увеличить скорость, надежность, и качество анализа данных.^[12] Он ставит акцент на коммуникацию, сотрудничество, интеграцию, автоматизацию, измерение и сотрудничество между учеными в области данных, аналитиками, ETL инженерами, специалистами по информационным технологиям (IT) и специалистами обеспечения и управления качеством.

Реализация

Тоф Уитмор из компании Blue Hill Research предлагает следующие лидерские DataOps принципы для департамента информационных технологий:^[2]

«Установить измерения прогресса и производительности на каждом этапе потока данных. Там, где возможно, измерить время циклов потоков данных на соответствие стандарту.»
Определить правила абстрактного семантического слоя. Убедиться, что все „разговаривают на одном и том же языке“ и прийти к соглашению, что является данными (и метаданными), а что нет.
Проверять глазами: включить непрерывное улучшение циклов обратной связи, предназначенных для людей. Потребители должны иметь возможность доверять данным, а это может произойти только с возрастанием проверки.
Автоматизировать такое множество этапов потока данных какое только возможно включая бизнес-аналитику (BI), науку о данных, и аналитику.
Используя информацию о проверки производительности, найти узкие места и оптимизировать их после этого. Для этого в процессе могут потребоваться инвестиции в оборудование, или автоматизация процесса, занимающегося наукой о данных, который прежде выполнялся людьми.
Установить дисциплину управления, с особым вниманием к двухстороннему контролю за данными, владению данными, прозрачности, и всестороннему отслеживанию происхождения данных во время всего рабочего процесса.
Спроектировать процесс с учётом роста и расширяемости. Модель потока данных должна быть спроектирована для вмещения объемов и разнообразия данных. Следует убедиться, что имеющиеся технологии, с учётом роста данных предприятия, имеют доступную для масштабирования стоимость.»

События

Data Opticon^[13]
Data Ops Summit^[14]
Data Ops Online Champion^[15]

Ссылки

↑ Ereth, Julian (2018). "DataOps-Towards a Definition" (PDF). Proceedings of LWDA 2018: 109. Архивировано (PDF) 25 января 2023. Дата обращения: 8 февраля 2023.
↑ ¹ ² DataOps – It’s a Secret (англ.). www.datasciencecentral.com. Дата обращения: 5 апреля 2017. Архивировано 30 июня 2017 года.
↑ ¹ ² ³ "What is DataOps (data operations)? - Definition from WhatIs.com". SearchDataManagement (англ.). Архивировано 26 октября 2021. Дата обращения: 8 февраля 2023.
↑ ¹ ² ³ ⁴ "From DevOps to DataOps, By Andy Palmer - Tamr Inc". Tamr Inc. (англ.). 2015-05-07. Архивировано 12 июля 2018. Дата обращения: 8 февраля 2023.
↑ DataKitchen Lean Manufacturing Secrets that You Can Apply to Data Analytics (неопр.). Medium (7 марта 2017). Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
↑ ¹ ² ³ What is DataOps? | Nexla: Scalable Data Operations Platform for the Machine Learning Age (амер. англ.). www.nexla.com. Дата обращения: 7 сентября 2017. Архивировано 7 сентября 2017 года.
↑ "3 reasons why DataOps is essential for big data success". IBM Big Data & Analytics Hub (англ.). Архивировано 26 октября 2020. Дата обращения: 8 февраля 2023.
↑ Mango Solutions: #DataOps - it's a thing (honest) (англ.), Архивировано 28 июня 2021, Дата обращения: 28 июня 2021
↑ DataKitchen 2017: The Year of DataOps (неопр.). data-ops (19 декабря 2017). Дата обращения: 24 января 2018. Архивировано 25 января 2018 года.
↑ Gartner Hype Cycle for Data Management Positions Three Technologies in the Innovation Trigger Phase in 2018 (англ.). Gartner. Дата обращения: 19 июля 2019. Архивировано 19 июля 2019 года.
↑ "5 trends driving Big Data in 2017". CIO Dive (англ.). Архивировано 8 февраля 2023. Дата обращения: 8 февраля 2023.
↑ "Unravel Data Advances Application Performance Management for Big Data". Database Trends and Applications (англ.). 2017-03-10. Архивировано 8 февраля 2023. Дата обращения: 8 февраля 2023.
↑ DataOpticon - YouTube (неопр.). www.youtube.com. Дата обращения: 28 июня 2021. Архивировано 28 июня 2021 года.
↑ DataOps Summit (неопр.). www.dataopssummit-sf.com. Дата обращения: 28 июня 2021. Архивировано из оригинала 2 июля 2021 года.
↑ Intelligence, Corinium Global DataOps Champions Online 2021 | Corinium (англ.). dco-dataops.coriniumintelligence.com. Дата обращения: 28 июня 2021. Архивировано 28 июня 2021 года.

[1] Ereth, Julian (2018). "DataOps-Towards a Definition" (PDF). Proceedings of LWDA 2018: 109. Архивировано (PDF) 25 января 2023. Дата обращения: 8 февраля 2023.

[:1-2] ¹ ² DataOps – It’s a Secret (англ.). www.datasciencecentral.com. Дата обращения: 5 апреля 2017. Архивировано 30 июня 2017 года.

[:5-3] ¹ ² ³ "What is DataOps (data operations)? - Definition from WhatIs.com". SearchDataManagement (англ.). Архивировано 26 октября 2021. Дата обращения: 8 февраля 2023.

[:0-4] ¹ ² ³ ⁴ "From DevOps to DataOps, By Andy Palmer - Tamr Inc". Tamr Inc. (англ.). 2015-05-07. Архивировано 12 июля 2018. Дата обращения: 8 февраля 2023.

[5] DataKitchen Lean Manufacturing Secrets that You Can Apply to Data Analytics (неопр.). Medium (7 марта 2017). Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.

[:4-6] ¹ ² ³ What is DataOps? | Nexla: Scalable Data Operations Platform for the Machine Learning Age (амер. англ.). www.nexla.com. Дата обращения: 7 сентября 2017. Архивировано 7 сентября 2017 года.

[7] "3 reasons why DataOps is essential for big data success". IBM Big Data & Analytics Hub (англ.). Архивировано 26 октября 2020. Дата обращения: 8 февраля 2023.

[8] Mango Solutions: #DataOps - it's a thing (honest) (англ.), Архивировано 28 июня 2021, Дата обращения: 28 июня 2021

[9] DataKitchen 2017: The Year of DataOps (неопр.). data-ops (19 декабря 2017). Дата обращения: 24 января 2018. Архивировано 25 января 2018 года.

[10] Gartner Hype Cycle for Data Management Positions Three Technologies in the Innovation Trigger Phase in 2018 (англ.). Gartner. Дата обращения: 19 июля 2019. Архивировано 19 июля 2019 года.

[11] "5 trends driving Big Data in 2017". CIO Dive (англ.). Архивировано 8 февраля 2023. Дата обращения: 8 февраля 2023.

[12] "Unravel Data Advances Application Performance Management for Big Data". Database Trends and Applications (англ.). 2017-03-10. Архивировано 8 февраля 2023. Дата обращения: 8 февраля 2023.

[13] DataOpticon - YouTube (неопр.). www.youtube.com. Дата обращения: 28 июня 2021. Архивировано 28 июня 2021 года.

[14] DataOps Summit (неопр.). www.dataopssummit-sf.com. Дата обращения: 28 июня 2021. Архивировано из оригинала 2 июля 2021 года.

[15] Intelligence, Corinium Global DataOps Champions Online 2021 | Corinium (англ.). dco-dataops.coriniumintelligence.com. Дата обращения: 28 июня 2021. Архивировано 28 июня 2021 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]