Un nouvel ensemble d’utilitaires pour accélérer l’opérationnalisation de l’apprentissage automatique

juin 13, 2023

Evan Seabrook, directeur principal, Génie infonuagique
Kyle Bassett, associé, responsable de la pratique de l’informatique en nuage

Toutes les organisations veulent se lancer dans l’apprentissage automatique (ou apprentissage machine), mais la plupart ne savent pas par où commencer. De plus, celles qui entreprennent une telle transformation ont souvent du mal à intensifier leurs opérations d’apprentissage automatique (souvent appelées MLOps) et à créer des pipelines d’entraînement continu. 

PwC Canada vous propose un nouvel ensemble d’utilitaires, le Data Analytics Workbench – DAW, qui facilitera le démarrage de vos opérations d’apprentissage automatique et permettra à votre organisation de passer à une vitesse supérieure si elle utilise l’une des principales plateformes infonuagiques (GCP, AWS et Azure).

Qu’est-ce que le DAW?

Le DAW est une infrastructure en tant que code (IaC) qui sert de tremplin aux experts en science des données et aux ingénieurs en apprentissage automatique pour l’opérationnalisation de l’apprentissage automatique sur le nuage. Les déploiements infonuagiques présentent habituellement un certain nombre d’avantages : extensibilité, contrôles de sécurité améliorés et intégration supérieure, entre autres. L’opérationnalisation de l’apprentissage automatique a elle aussi des avantages qui valent la peine d’être explorés. 

Le DAW permet aux professionnels de l’apprentissage automatique de voir ce qu’il leur est possible de faire sur le nuage, tout en leur faisant gagner du temps et en nécessitant un effort minime. 

Comment fonctionne le DAW?

Le DAW rend possible l’adaptation d’outils courants ou standardisés selon les besoins de l’organisation. Le diagramme ci-dessous illustre la mise en œuvre du DAW sur la plateforme GCP.

Le processus de mise en œuvre du DAW sur la plateforme GCP commence par le déploiement de l’infrastructure, par l’équipe de développement, à l’aide de Terraform via Gitlab CI. Des ajustements peuvent ensuite être faits au moyen des modules Terraform et mis en œuvre automatiquement dans le pipeline CI/CD.

Ici, le DAW utilise le programme Vertex AI Pipelines pour orchestrer les opérations d’apprentissage de bout en bout. Le programme Vertex AI est pour l’essentiel une version gérée de Kubeflow : les tâches qui décrivent différentes composantes sont instanciées de façon déclarative dans Python, et les déclarations peuvent être faites en amont ou en aval et créer une condition à l’exécution entre les tâches.

Le programme Vertex AI Pipelines comporte un certain nombre de composants standards qui en facilitent l’utilisation et éliminent en partie la monotonie des opérations d’apprentissage. Par exemple, le composant HyperparameterTuningJobRunOp permet d’entraîner plusieurs modèles en parallèle de sorte à minimiser (ou maximiser) l’utilisation d’une valeur.

Le DAW intègre le programme Vertex AI Pipeline, dont plusieurs composants utiles pour démarrer le processus d’opérationnalisation de l’apprentissage automatique sur GCP.

Quels sont les avantages de l’IaC?

L’outil libre IaC Terraform (de Hashicorp) permet d’approuver, d’auditer et de contrôler le déploiement de composants dans un environnement infonuagique sans créer de frein à l’innovation. Il permet en outre la réutilisation de certaines abstractions (modules) et le déploiement dans des environnements multiples. On peut également s’en servir pour intégrer certaines politiques dans l’infrastructure et ainsi assurer le respect de certaines règles (par exemple, les exigences sur la résidence des données).

Enfin, l’IaC facilite grandement le déprovisionnement, les bacs à sable pouvant au besoin être détruits en toute sécurité.

Et qu’en est-il de l’analyse exploratoire des données (AED) et du développement?

Le DAW comporte également une interface hautement personnalisable, JupyterLab (Vertex AI Workbench) qui présente plusieurs avantages : accès simultané par des utilisateurs multiples, contrôle de la révision du code, revue de code par les pairs facilitée, retour en arrière en cas de défectuosité du code et intégration de nouvelles fonctionnalités.

Le DAW peut-il s’intégrer à ma plateforme infonuagique actuelle?

Le DAW peut être utilisé sur les plateformes GCP, AWS et Azure. Si votre organisation utilise déjà une de ces plateformes et veut continuer de s’en servir pour y mettre en œuvre des opérations d’apprentissage machine, le DAW est la solution qu’il vous faut. Il peut également s’adapter aux environnements infonuagiques multiples.

Si vos données sont hébergées sur place, l’équipe de génie infonuagique de PwC Canada peut vous aider à moderniser votre plateforme de données et à opérer la migration de vos données avant l’intégration du DAW. Nous pouvons vous assister dans l’évaluation et la mise en œuvre d’une solution qui répondra le mieux à vos besoins.

Communiquez avec nous pour obtenir de plus amples informations sur le Data Analytics Workbench et sur l’aide que nous pouvons vous apporter.

Contactez-nous

Kyle Bassett

Kyle Bassett

Associé, responsable de la pratique de l’informatique en nuage, PwC Canada

Tél. : +1 416 687 9079

Suivre PwC Canada