in

Comment choisir une plateforme d'analyse de données et d'apprentissage automatique

Que vous ayez des responsabilités dans le développement de logiciels, le développement, les systèmes, les cloud, l'automatisation des tests, la fiabilité des sites, la direction d'équipes Scrum, la sécurité de l'information ou d'autres domaines liés aux technologies de l'information, vous aurez de plus en plus d'opportunités et d'exigences pour travailler avec des données, des analyses et de l'apprentissage automatique. .

Votre exposition à l'analyse peut provenir de données informatiques, telles que le développement de métriques et d'informations à partir de métriques agiles, devops ou de sites Web. Il n'y a pas de meilleur moyen d'acquérir les compétences et les outils de base autour des données, de l'analyse et de l'apprentissage automatique que de les appliquer à des données que vous connaissez et que vous pouvez exploiter pour obtenir des informations permettant de conduire des actions.

Les choses deviennent un peu plus complexes une fois que vous quittez le monde des données informatiques et que vous fournissez des services aux équipes de data scientists, aux citoyens data scientists et à d'autres analystes commerciaux effectuant des visualisations de données, des analyses et du machine learning.

Tout d’abord, les données doivent être chargées et nettoyées. Ensuite, en fonction du volume, de la variété et de la vélocité des données, vous risquez de rencontrer plusieurs bases de données back-end et technologies de données cloud. Enfin, au cours des dernières années, ce qui était autrefois un choix entre des outils de business intelligence et de visualisation de données s'est transformé en une matrice complexe d'analyses du cycle de vie complet et de plateformes d'apprentissage automatique.

L'importance de l'analyse et de l'apprentissage automatique accroît les responsabilités de l'informatique dans plusieurs domaines. Par exemple:

  • L'informatique fournit souvent des services autour de toutes les intégrations de données, bases de données back-end et plates-formes d'analyse.
  • Les équipes Devops déploient et font souvent évoluer l'infrastructure de données pour permettre l'expérimentation sur des modèles d'apprentissage automatique, puis prennent en charge le traitement des données de production.
  • Les équipes d'exploitation réseau établissent des connexions sécurisées entre les outils d'analyse SaaS, les multiclouds et les centres de données.
  • Les équipes de gestion des services informatiques répondent aux demandes et incidents de services de données et d’analyse.
  • Infosec supervise la gouvernance et les mises en œuvre de la sécurité des données.
  • Les développeurs intègrent des modèles d'analyse et d'apprentissage automatique dans les applications.

Compte tenu de l'explosion de l'analyse, des plates-formes de données cloud et des capacités d'apprentissage automatique, voici une introduction pour mieux comprendre le cycle de vie de l'analyse, de l'intégration et du nettoyage des données, aux opérations de données et de modélisation, en passant par les bases de données, les plates-formes de données et les offres d'analyse elles-mêmes.

L'analyse commence par l'intégration et le nettoyage des données

Avant que les analystes, les citoyens data scientists ou les équipes de science des données puissent effectuer des analyses, les sources de données requises doivent leur être accessibles dans leurs plateformes de visualisation et d'analyse de données.

Pour commencer, l'entreprise peut avoir besoin d'intégrer des données provenant de plusieurs systèmes d'entreprise, d'extraire des données d'applications SaaS ou de diffuser des données à partir de capteurs IoT et d'autres sources de données en temps réel.

Ce sont toutes les étapes pour collecter, charger et intégrer des données à des fins d'analyse et d'apprentissage automatique. En fonction de la complexité des données et des problèmes de qualité des données, il existe des opportunités de s'impliquer dans les opérations de données, le catalogage des données, la gestion des données de référence et d'autres initiatives de gouvernance des données.

Nous connaissons tous l’expression « les déchets rentrent, les déchets sortent ». Les analystes doivent se soucier de la qualité de leurs données, et les data scientists doivent se soucier des biais dans leurs modèles d'apprentissage automatique. En outre, la rapidité d’intégration de nouvelles données est essentielle pour les entreprises qui cherchent à s’orienter davantage vers les données en temps réel. Pour ces raisons, les pipelines qui chargent et traitent les données sont d’une importance cruciale pour l’analyse et l’apprentissage automatique.

Bases de données et plateformes de données pour tous types de défis de gestion de données

Le chargement et le traitement des données sont une première étape nécessaire, mais les choses se compliquent ensuite lors de la sélection des bases de données optimales. Les choix actuels incluent les entrepôts de données d'entreprise, les lacs de données, les plates-formes de traitement de Big Data et les bases de données spécialisées NoSQL, graphiques, valeurs-clés, de documents et en colonnes. Pour prendre en charge l'entreposage et l'analyse de données à grande échelle, il existe des plates-formes telles que Snowflake, Redshift, BigQuery, Vertica et Greenplum. Enfin, il existe les plateformes big data, dont Spark et Hadoop.

Les grandes entreprises sont susceptibles de disposer de plusieurs référentiels de données et d'utiliser des plateformes de données cloud telles que Cloudera Data Platform ou MapR Data Platform, ou des plateformes d'orchestration de données comme InfoWorks DataFoundy, pour rendre tous ces référentiels accessibles à des fins d'analyse.

Les principaux cloud publics, notamment AWS, GCP et Azure, disposent tous de plates-formes et de services de gestion de données à parcourir. Par exemple, Azure Synapse Analytics est l'entrepôt de données SQL de Microsoft dans le cloud, tandis qu'Azure Cosmos DB fournit des interfaces à de nombreux magasins de données NoSQL, notamment Cassandra (données de colonnes), MongoDB (données de valeurs-clés et de documents) et Gremlin (données graphiques). .

Les lacs de données sont des quais de chargement populaires pour centraliser les données non structurées pour une analyse rapide, et on peut choisir parmi Azure Data Lake, Amazon S3 ou Google Cloud Storage pour atteindre cet objectif. Pour le traitement du Big Data, les cloud AWS, GCP et Azure proposent également des offres Spark et Hadoop.

Les plateformes d'analyse ciblent l'apprentissage automatique et la collaboration

Une fois les données chargées, nettoyées et stockées, les data scientists et les analystes peuvent commencer à effectuer des analyses et du machine learning. Les organisations disposent de nombreuses options en fonction des types d’analyses, des compétences de l’équipe d’analyse effectuant le travail et de la structure des données sous-jacentes.

Les analyses peuvent être effectuées dans des outils de visualisation de données en libre-service tels que Tableau et Microsoft Power BI. Ces deux outils ciblent les data scientists citoyens et exposent des visualisations, des calculs et des analyses de base. Ces outils prennent en charge l'intégration et la restructuration des données de base, mais une gestion des données plus complexe se produit souvent avant les étapes d'analyse. Tableau Data Prep et Azure Data Factory sont les outils complémentaires pour vous aider à intégrer et à transformer les données.

Les équipes d'analyse qui souhaitent automatiser plus que la simple intégration et préparation des données peuvent se tourner vers des plateformes comme Alteryx Analytics Process Automation. Cette plate-forme collaborative de bout en bout connecte les développeurs, les analystes, les citoyens data scientists et les data scientists avec des capacités d'automatisation des flux de travail et de traitement des données, d'analyse et d'apprentissage automatique en libre-service.

Alan Jacobson, responsable de l'analyse et des données chez Alteryx, explique : « L'émergence de l'automatisation des processus analytiques (APA) en tant que catégorie souligne une nouvelle attente pour chaque travailleur d'une organisation d'être un travailleur des données. Les développeurs informatiques ne font pas exception, et l'extensibilité de la plateforme Alteryx APA est particulièrement utile pour ces travailleurs du savoir.

Il existe plusieurs outils et plates-formes destinés aux data scientists qui visent à les rendre plus productifs avec des technologies telles que Python et R tout en simplifiant de nombreuses étapes opérationnelles et d'infrastructure. Par exemple, Databricks est une plateforme opérationnelle de science des données qui permet de déployer des algorithmes sur Apache Spark et TensorFlow, tout en autogérant les clusters informatiques sur le cloud AWS ou Azure.

Désormais, certaines plates-formes comme SAS Viya combinent la préparation des données, l'analyse, les prévisions, l'apprentissage automatique, l'analyse de texte et la gestion de modèles d'apprentissage automatique dans une seule plate-forme modelops. SAS opérationnalise l'analyse et cible les data scientists, les analystes commerciaux, les développeurs et les dirigeants avec une plateforme collaborative de bout en bout.

David Duling, directeur de la recherche et du développement en gestion décisionnelle chez SAS, déclare : « Nous considérons les modelops comme une pratique consistant à créer un pipeline d'opérations reproductible et vérifiable pour déployer toutes les analyses, y compris les modèles d'IA et de ML, dans les systèmes opérationnels. Dans le cadre des modelops, nous pouvons utiliser des pratiques devops modernes pour la gestion, les tests et la surveillance du code. Cela contribue à améliorer la fréquence et la fiabilité du déploiement des modèles, ce qui améliore à son tour l’agilité des processus métier construits sur ces modèles.​”

Dataiku est une autre plate-forme qui s'efforce d'apporter la préparation des données, l'analyse et l'apprentissage automatique aux équipes de science des données en pleine croissance et à leurs collaborateurs. Dataiku dispose d'un modèle de programmation visuel pour permettre la collaboration et les blocs-notes de code pour les développeurs SQL et Python plus avancés.

D'autres plates-formes d'analyse et d'apprentissage automatique des principaux fournisseurs de logiciels d'entreprise visent à apporter des capacités d'analyse aux sources de données des centres de données et du cloud. Par exemple, Oracle Analytics Cloud et SAP Analytics Cloud visent tous deux à centraliser les renseignements et à automatiser les informations pour permettre des décisions de bout en bout.

Choisir une plateforme d'analyse de données

La sélection des outils d'intégration, d'entreposage et d'analyse des données était auparavant plus simple avant l'essor du Big Data, de l'apprentissage automatique et de la gouvernance des données. Aujourd'hui, il existe un mélange de terminologie, de capacités de plateforme, d'exigences opérationnelles, de besoins de gouvernance et de personnalités d'utilisateurs ciblées qui rend la sélection de plateformes plus complexe, d'autant plus que de nombreux fournisseurs prennent en charge plusieurs paradigmes d'utilisation.

Les entreprises diffèrent en termes d’exigences et de besoins en matière d’analyse, mais devraient rechercher de nouvelles plateformes en s’appuyant sur ce qui existe déjà. Par exemple:

  • Les entreprises qui ont réussi avec des programmes de science des données citoyennes et qui disposent déjà d'outils de visualisation de données voudront peut-être étendre ce programme avec des technologies d'automatisation des processus d'analyse ou de préparation de données.
  • Les entreprises qui souhaitent une chaîne d'outils permettant aux data scientists de travailler dans différentes parties de l'entreprise peuvent envisager des plates-formes d'analyse de bout en bout dotées de capacités de modélisation.
  • Les organisations disposant de plusieurs plates-formes de données back-end disparates peuvent bénéficier des plates-formes de données cloud pour les cataloguer et les gérer de manière centralisée.
  • Les entreprises qui normalisent la totalité ou la plupart des capacités de données chez un seul fournisseur de cloud public devraient étudier les plateformes d'intégration, de gestion et d'analyse de données proposées.

L’analyse et l’apprentissage automatique devenant une compétence de base importante, les technologues devraient envisager d’approfondir leur compréhension des plateformes disponibles et de leurs capacités. La puissance et la valeur des plateformes d’analyse ne feront qu’augmenter, tout comme leur influence au sein de l’entreprise.

Copyright © 2020 IDG Communications, Inc.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

GIPHY App Key not set. Please check settings

    Barcelone propose un accord cash plus joueur pour Bruno Guimaraes

    sa transformation physique interpelle, “Pauvre femme…”