Pendant de nombreuses années, Talend Open Studio (TOS) a été une des rares solutions d’intégration de données (ou ETL) open source performante et massivement adoptée sur le marché. D’autres initiatives ont existé ou existent encore (notamment Kettle et Pentaho Data Integration, une de ses déclinaisons) mais aucune n’a réellement atteint le niveau de popularité et d’adoption de TOS.
Avec l’avènement du Cloud et le succès grandissant du pattern d’architecture Modern Data Stack (MDS), de nouvelles solutions Data offrant plus de flexibilité et de facilité d’utilisation émergent régulièrement. Beaucoup d’entre elles reposent sur une philosophie semblable à celle de Talend au début de son histoire, à savoir une édition open source et gratuite et une autre payante pour des usages plus professionnels et industriels. Cloud oblige, cette dernière est aujourd’hui presque toujours une édition en mode SaaS.
A noter que l’intégration de données au sein d’une MDS repose principalement sur l’approche ELT. Techniquement, cela signifie que les données sont transformées (le « T ») une fois qu’elles sont chargées (le « L ») dans une solution de stockage de données, le plus souvent une solution orientée Data Warehousing. Evidemment, avant de pouvoir charger les données, il est nécessaire de (savoir) les extraire (le « E »).
Aujourd’hui, s’il faut sélectionner des technologies open source pour apporter des fonctionnalités ELT à sa MDS, bon nombre d’experts Data conseilleront Airbyte pour assurer l’extraction et le chargement de données (EL) et dbt pour la transformation (T).
Figure 1 : Illustration de l’approche ELT avec Airbyte et dbt sur base de Google BigQuery
Cet article explore la Modern Data Stack reposant sur Airbyte et dbt et les raisons pour lesquelles cette dernière peut être considérée comme une alternative crédible au remplacement de Talend Open Studio.
Airbyte : Une plateforme EL(T) moderne et open source
Créé en 2020 à San Francisco (USA) par deux français, Michel Tricot et Jean (John) Lafleur, Airbyte est une plateforme open source d’intégration de données permettant aux entreprises de connecter et d’intégrer de manière simple et transparente diverses sources et destinations de données.
L’atout principal de la plateforme Airbyte est d’être conçue pour être capable d’adresser la « long tail » des connecteurs. Livrée à date avec plus de 350 connecteurs prêts à l’emploi, la plateforme propose un SDK (plus précisément un CDK pour Connector Development Kit) afin de pouvoir maintenir et améliorer les connecteurs existants et développer de nouveaux connecteurs. Le tout avec une forte implication de la communauté (+ de 800 contributeurs) afin d’atteindre dès que possible l’objectif ultime de couvrir tous les besoins possibles en termes de synchronisation de données.
La plateforme Airbyte permet donc de synchroniser des données provenant de sources variées (telles que Salesforce, Google Analytics, PostgreSQL ou encore des fichiers Microsoft Excel ou CSV) avec des destinations orientées stockage de données telles que Redshift, Snowflake, ou Google BigQuery.
Figure 2 : Quelques exemples de sources et destinations supportées par Airbyte
En complément de son atout majeur sur la connectivité des données, Airbyte offre d’autres avantages significatifs liés à son approche moderne et orientée Cloud :
- Une interface hautement ergonomique : Airbyte propose une interface utilisateur graphique conviviale et efficace pour configurer les pipelines d’intégration de données. L’approche « No code » de la solution permet aux utilisateurs de définir et de gérer facilement les flux de données sans avoir besoin de compétences de codage avancées ;
- La mise à jour automatisée des schémas : Airbyte simplifie la gestion des mises à jour de schémas en automatisant le processus associé. Lorsque la structure des données source change, Airbyte s’adapte automatiquement, réduisant ainsi le temps et les efforts nécessaires pour maintenir la cohérence des données ;
- Une architecture orientée microservices : Pour une scalabilité la meilleure possible, Airbyte repose sur une architecture basée sur des microservices. Les composants peuvent être déployés indépendamment ce qui facilite la maintenance, les mises à jour et l’ajout de nouvelles fonctionnalités. Par ailleurs, toutes les fonctionnalités majeures étant disponibles sous la forme d’API, les usages de Airbyte peuvent être exploités sans passer par l’interface de Airbyte et sont donc totalement industrialisables. Il sera par exemple possible d’appeler les fonctionnalités d’Airbyte depuis l’orchestrateur Airflow.
Bien que la plateforme Airbyte permette d’intégrer nativement des transformations SQL et Java dans les synchronisations, d’où le terme EL(T), les transformations réalisées au sein de Airbyte sont le plus souvent assurées par dbt.
En termes de positionnement marché, les solutions concurrentes directes à Airbyte sont toutes des solutions SaaS avec un focus fort sur la gestion des connecteurs. Airbyte est en revanche plus rarement comparé à des solutions ETL, y compris celles comme Informatica qui ont fait leur transition vers le Cloud pour devenir des Integration Platform as a Service (iPaas). Parmi les concurrents directs, il est pertinent de citer Matillion, Fivetran, Stitch (racheté par Talend il y a quelques années), Rivery ou encore Portable.
Sur le segment open source, Meltano est aujourd’hui une des très rares solutions avec un positionnement similaire à Airbyte. Créé en 2018 chez Gitlab sur base de Singer (un ETL open source), après avoir testé plusieurs approches, Meltano est aujourd’hui sur un focus DataOps sur base d’une forte intégration avec Airflow. Néanmoins, Meltano ne dispose pas d’une communauté aussi importante et engagée que Airbyte et ne propose pas aujourd’hui d’offre en mode SaaS, ni de support et de fonctionnalités premium.
dbt : La transformation des données simple et efficace
Créé en 2016 par la société dbt Labs, dbt, pour Data Build Tool, est un framework intervenant dans le processus ELT et plus particulièrement sur le « T », c’est-à-dire la transformation des données directement dans la base de données cible (le plus souvent une base orientée Data Warehouse).
Figure 3 : dbt au cœur de la transformation de données
Un des atouts majeurs de dbt est sa simplicité d’utilisation pour transformer les données puisque reposant sur de « simples » requêtes SQL.
Au-delà de la structuration des projets à partir du langage SQL, dbt propose de nombreuses autres fonctionnalités pour simplifier et accélérer la phase de transformation des données :
- Des données plus fiables grâce au Data Lineage : La généalogie repose sur la gestion des dépendances entre les modèles et est rendue possible via l’utilisation de Jinja (moteur de template) pour référencer les modèles entre eux ;
- Des tests automatisés et robustes pour des données de qualité : dbt permet de tester aussi bien les sources de données que les données transformées et cela via des tests génériques ou des tests spécifiques écrits en SQL ;
- Une documentation facile à mettre en place : dbt génère automatiquement une documentation détaillée des transformations effectuées sur les données. La documentation générée inclut des informations au niveau du projet (code SQL, DAG, tests, …) et de la base cible (type des colonnes, taille des tables, …).
Pour plus d’informations concernant la solution dbt, un article dédié est disponible ici : A la découverte de dbt.
Une Data Stack moderne et open source … mais aussi évolutive et taillée pour les déploiements à grande échelle
La Data Stack composée de Airbyte et de dbt offre une solution robuste, moderne et open source tout en permettant à ses utilisateurs de pouvoir la faire évoluer vers une édition payante et plus riche en fonctionnalités dites industrielles.
Les éditions payantes des deux solutions sont sobrement nommées Airbyte Cloud et dbt Cloud et comme leurs noms l’indiquent sont disponibles exclusivement en mode Software as a Service (SaaS).
Les principaux avantages des éditions payantes sont les suivants :
- SaaS oblige, l’utilisation des solutions ne nécessite aucune installation, ni de gestion des infrastructures et des versions logicielles ;
- Un support technique premium ;
- Une gestion renforcée des sécurités : SSO, RBAC, … ;
- Des fonctionnalités permettant l’organisation et le travail en mode collaboratif. Par exemple, la gestion de multiples workspaces avec Airbyte et la réalisation de projets dbt par plusieurs développeurs ;
- Et sans oublier des fonctionnalités avancées spécifiques à chaque solution. Par exemple, le Semantic Layer pour dbt Cloud et l’intégration de dbt Cloud pour Airbyte Cloud.
Pourquoi adopter Airbyte et dbt en remplacement de TOS ?
Pour faire face à l’arrêt de TOS, si une décision doit être prise (le fait de ne rien faire à court terme étant toujours possible), opter pour une Data Stack composée de Airbyte et de dbt permet de disposer d’une solution d’intégration de données moderne et toujours open source.
Les principaux avantages à adopter Airbyte et dbt sont les suivants :
- Une grande simplicité d’utilisation : La configuration des connexions et des synchronisations avec Airbyte est simple et visuelle et les transformations de données avec dbt requièrent uniquement des compétences en SQL. Ces solutions sont grâce à cela utilisables par des profils Data moins techniques telles que les Data Analysts, voire par des utilisateurs métiers ;
- Une stack moderne et pérenne : Les solutions sont récentes mais déjà éprouvées et largement adoptées par la communauté des experts Data. Le déploiement de ces solutions dépasse aujourd’hui largement l’écosystème des startups ou des entreprises de la Tech. Elles sont de plus en plus déployées au sein de grandes entreprises dites « classiques » ;
- Une stack innovante : Les solutions les plus récentes et innovantes du marché sont rapidement prises en compte et supportées par Airbyte. Par exemple, Airbyte supporte déjà de nombreuses « vector databases » qui sont aujourd’hui quasiment incontournables pour exploiter des LLMs et donc mettre en œuvre une stratégie « Generative AI » ;
- Une stack attractive : Attirer les meilleurs talents est une préoccupation importante pour toutes les entreprises. Une stack « sexy » est primordiale pour attirer et retenir les meilleurs profils Data, notamment les Data Engineers.
En termes de coût total de possession (TCO), remplacer TOS par les versions gratuites de Airbyte et de dbt n’aura pas ou très peu d’impact. Evidemment, le TCO ne comprend pas les aspects de change management et les couts fixes d’adoption de toute nouvelle solution et plus précisément le coût de migration du patrimoine TOS.
Par ailleurs, à taille d’équipe de développeurs équivalente et pour des besoins d’intégration de données dans la norme (en termes de volumétrie de données), les souscriptions cumulées des versions payantes de Airbyte et dbt seront toujours plus compétitives que la souscription liée à l’upgrade vers Talend Cloud (modèle principalement basé sur le nombre de licences développeurs).
En conclusion
L’association de Airbyte et de dbt forme donc une Data (Integration) Stack moderne, open source et évolutive. Cette stack, à laquelle on peut ajouter Airflow, est avant tout une très bonne stack sur le papier pour mettre en œuvre les principaux besoins d’intégration de données dans un contexte MDS et de SI modernes avec des fournisseurs (sources) de données très SaaS.
L’arrêt de TOS est donc une opportunité d’évaluer et d’adopter un nouvelle Data Stack composée de Airbyte et dbt. En effet, les profils Talend sont des bons candidats pour monter en compétences sur les deux solutions. Ces solutions sont peu complexes techniquement et en termes de prise en main, elles nécessitent avant tout une bonne connaissance des principes de modélisation et d’intégration de données ainsi qu’une « expertise » SQL spécifique aux bases de données cibles (approche ELT oblige).
Néanmoins, avant de remplacer TOS par Airbyte et dbt, il est important de se poser quelques questions structurantes :
- Est-ce que les risques liés à l’arrêt de TOS valent l’investissement qu’il sera nécessaire de faire pour dépasser cet arrêt et migrer vers une nouvelle solution ?
- Est-ce que les usages adressés avec TOS sont adaptés à une migration vers Airbyte et dbt ? Par exemple, réaliser des activités de migration « ad-hoc » de données n’est pas forcément un usage idéal à un changement. La meilleure décision sera très certainement de ne rien faire et de rester sur TOS le temps de finaliser la migration des données ;
- Est-ce que l’approche ELT de Airbyte et dbt est compatible avec le contexte technique et le patrimoine TOS de son organisation ? Il faut a minima disposer, au sein de son SI, d’une base de données cible performante et capable d’assurer dans de bonnes conditions les traitements relatifs aux transformations de données.
Pour conclure, l’arrêt de TOS n’implique pas de réagir urgemment et encore moins de se précipiter pour transférer son patrimoine TOS vers une nouvelle solution, que ce soit une Data Stack reposant sur Airbyte et dbt ou une autre solution alternative à Talend Cloud. Néanmoins, les nouveaux projets d’intégration de données seront de bonnes occasions pour tester de nouvelles solutions telles que Airbyte et dbt.
Essayer Airbyte et dbt, ce sera probablement commencer à l’adopter !
Bibliographie :
- https://airbyte.com/product/features
- https://airbyte.com/product/airbyte-open-source
- https://airbyte.com/blog/data-integration
- https://airbyte.com/etl-tools/meltano-alternative-airbyte
- https://docs.airbyte.com/cloud/managing-airbyte-cloud/dbt-cloud-integration
- https://docs.airbyte.com/operator-guides/using-the-airflow-airbyte-operator
- https://www.getdbt.com/
- https://www.getdbt.com/pricing