Snowflake Summit 2022 : De nombreuses innovations notables devant permettre de renforcer la position de leader de Snowflake sur le marché des Data Platforms modernes
Trois ans après la dernière édition (COVID oblige), Snowflake organisait à Las Vegas l’édition 2022 de son Summit, du 13 au 16 juin dernier.
En une décennie d’existence, Snowflake aura su développer une plateforme lui ayant permis de passer du statut de précurseur d’un nouveau marché à un statut de leader d’un marché qui est aujourd’hui stratégique pour les éditeurs spécialisés dans le domaine de la Data.
Avec presque 1,2 Md$ en 2021, Snowflake améliore encore de manière significative son revenu récurrent avec une croissance de plus de 100% par rapport à l’exercice 2020. L’édition 2022 de son Summit est donc l’occasion pour l’éditeur américain d’annoncer de nombreuses innovations avec comme objectif de renforcer sa position technologique et donc stratégique sur le marché des Data Platforms modernes. Il s’agit d’une nouvelle étape importante dans l’ambition de l’éditeur de devenir « le » leader ultime de son marché et d’atteindre un revenu récurrent de 10 Md $ pour l’exercice 2029.
Au cours de la Keynote, Snowflake, par la voix de Benoit DAGEVILLE, Co-Founder et President of Product, a présenté sa stratégie produit reposant sur les 7 piliers d’innovation suivants :
- All data
- All workloads
- Global architecture
- Self-managed
- Fully programmable
- Marketplace
- Governance and compliance
Des améliorations ou innovations concernant chaque pilier ont été annoncées au cours du Summit de Las Vegas. La suite de cet article ne décrira qu’une partie des innovations les plus notables.
Python sur le devant de la scène
Après une phase « Private Preview » de plusieurs mois, Snowpark for Python est maintenant disponible en mode « Public Preview » pour tous les clients Snowflake. Le langage Python vient donc compléter les langages déjà supportés par Snowpark, à savoir SQL, Java, et Scala.
Introduit en juin 2021 et disponible de manière générale depuis janvier 2022, Snowpark a pour vocation d’aider les développeurs dans la mise en œuvre de pipelines et d’applications natives s’exécutant directement au sein de la plateforme Data Cloud de Snowflake.
Python étant le langage de référence dans le domaine de la Data Science, Snowpark for Python doit permettre de simplifier la mise en œuvre et le déploiement des travaux des Data Scientists reposant sur les bibliothèques Python les plus courantes (pandas, scikit-learn, Keras,…) tout en profitant de l’élasticité et de la robustesse de la plateforme Snowflake.
Néanmoins, Snowflake ne proposant pas encore d’instance dotée de GPU ou de « forte » capacité en mémoire, Snowpark ne permettra pas dans un premier temps de recourir aux modèles de Machine Learning et de Deep Learning les plus avancés et donc les plus exigeants en termes de ressources. Pour repousser ces limites et supporter ces familles de modèles, Snowflake travaille déjà au développement d’instances Large Memory Warehouse. Des instances 5X-Large et 6X-Large (l’instance en disponibilité générale la plus puissante étant à date la 4X-Large) sont d’ailleurs déjà disponibles en « Preview » au sein de la région Europe (Irlande) d’Amazon Web Services.
A terme, une fois la solution plus complète et mature, Snowpark for Python pourrait devenir une alternative pertinente au recours à des plateformes spécialisées en Data Science et Machine Learning.
L’arrivée des Data Apps avec les Snowflake Native Applications
Snowflake enrichit sa plateforme Data Cloud avec des Natives Applications. Les fonctionnalités proposées permettent de mettre en œuvre des Data Apps, sous la forme d’extensions de la plateforme, afin de démocratiser encore davantage l’accès aux données et de simplifier l’exploitation de modèles de Machine Learning par des utilisateurs métiers. Le langage et l’écosystème de bibliothèques Python sont ici, encore une fois, au cœur de cette innovation majeure.
L’introduction des Snowflake Natives Applications est issue du rachat en mars 2022 de la startup Streamlit pour la « modique » somme de 800 M$. La startup propose un framework open-source orienté applicatif et reposant sur Python afin de permettre aux équipes Data (le plus souvent des Data Scientists) de partager leurs travaux sous la forme d’applications Web et cela sans compétence avancée en développement « front-end ». Un positionnement repris dans l’état et intégré à la plateforme Data Cloud de Snowflake pour proposer des Data Apps.
Au-delà de la démocratisation en interne, cette innovation étend les principes de monétisation déjà offerts par Snowflake au travers de la Data Marketplace. A cette occasion, la marketplace est rebaptisée Snowflake Marketplace pour refléter son nouveau positionnement en termes de monétisation. Les clients de la plateforme Data Cloud de Snowflake peuvent donc proposer des Data Apps à des utilisateurs externes en contrepartie du paiement d’une redevance mensuelle et éventuellement d’une redevance supplémentaire à la requête.
Données analytiques, données transactionnelles : une plateforme Data Cloud pour les gouverner toutes… de manière unifiée
La surprise du Snowflake Summit est venue de l’annonce d’un nouveau workload nommé Unistore. Unistore offre la possibilité d’exploiter des tables de données de manière transactionnelle et analytique sur une seule et même plateforme tout en garantissant la sécurité et la gouvernance de ces données.
Techniquement, Unicorn introduit un nouveau format de tables Snowflake appelées les tables hybrides (actuellement en « Private Preview »). Un des principes de base des tables hybrides est de proposer les fonctionnalités requises par les applications transactionnelles et notamment la capacité à proposer des opérations au niveau ligne performantes. Pour ce faire, Snowflake a développé un tout nouveau moteur de stockage de données orienté ligne.
Comme beaucoup d’autres innovations récentes, la motivation de Snowflake est ici de proposer à ses clients une expérience la plus totale en termes de gestion et de gouvernance des données. En développant des applications transactionnelles directement dans Snowflake, les entreprises profiteront des fonctionnalités apportées par Unistore pour exploiter les données produites par ces mêmes applications de la manière la plus efficace possible et notamment sans devoir au préalable les déplacer ou les dupliquer.
Les tables externes : la rupture avec le sacro-saint modelé 100% Public Cloud
Introduites en janvier 2021, les tables externes ne sont pas une nouvelle fonctionnalité de la plateforme Snowflake. Elles ont initialement été mises en œuvre pour permettre d’adresser des cas d’usage requérant de ne pas devoir au préalable déplacer les données dans Snowflake. Par exemple, les tables externes permettent de réaliser des analyses sur des données stockées dans le système de stockage objet (Object Storage) d’un fournisseur Cloud sans devoir les ingérer dans Snowflake. Le tout en garantissant toujours la sécurité et la gouvernance des données : sécurités au niveau des colonnes et des lignes, journalisation des accès,…
Annoncé au cours du Summit et disponible en « Private Preview », les tables externes supportent maintenant le format Apache Iceberg. Le support de ce nouveau format va notamment permettre aux utilisateurs Snowflake d’exploiter une plus grande variété de données et notamment des données hébergées par des solutions de stockage compatibles avec l’API REST AWS S3. Ce qui inclura de facto la possibilité d’exploiter des données « on-premise » depuis Snowflake via des solutions telles Dell ECS, Pure Storage FlashBlade ou encore MinIO. Les premières intégrations sont attendues au cours de l’année 2022 et porteront dans un premier temps sur le support des solutions de deux des plus grands partenaires de Snowflake, à savoir Dell Technologies et Pure Storage.
Cette annonce arrive donc comme une (bonne) surprise au regard de la position passée de Snowflake et de son CEO de rester focalisé sur le Public Cloud. Une manière supplémentaire d’adresser le traitement des données sensibles.
Un pas de plus vers la plateforme Data totale
Toutes ces innovations majeures annoncées au cours du Summit 2022 ajoutées à beaucoup d’autres (ingestion de données streaming en mode « serverless » avec Snowpipe Streaming, disponibilité d’un nouveau workload dédié à la cybersécurité, amélioration des fonctionnalités de « tagging » et de « masking » pour simplifier la gestion des données sensibles,…) participent à faire de la plateforme Data Cloud de Snowflake une des plateformes les plus complètes du marché. Tout est fait pour attirer de nouveaux clients et susciter l’intérêt d’adhérer à l’approche « tout intégré » proposé par Snowflake. La maximisation de la consommation des services est primordiale pour Snowflake afin de permettre à l’éditeur de poursuivre l’écriture de son histoire et d’atteindre le statut de leader incontestable du marché avec en ligne de mire le revenu de 10 Md$ en 2029.
Bibliographie :
- https://www.snowflake.com/blog/four-customer-takeaways-from-summit-2022/
- https://www.snowflake.com/blog/snowpark-python-innovation-available-all-snowflake-customers/
- https://www.snowflake.com/blog/snowflake-to-acquire-streamlit/?lang=fr
- https://www.snowflake.com/blog/introducing-unistore/
- https://www.snowflake.com/news/snowflake-launches-new-unistore-workload-to-drive-next-phase-of-innovation-with-transactional-and-analytical-data-together-in-the-data-cloud/
- https://www.snowflake.com/blog/external-tables-on-prem/
- https://www.purestorage.com/company/newsroom/press-releases/pure-and-snowflake-deliver-increased-data-accessibility.html