Skip to main content

7 Juin, 2019

Snowflake améliore les data pipelines avec le lancement des nouvelles fonctions Auto-Ingest et Streams & Tasks

Snowflake améliore les data pipelines avec le lancement des nouvelles fonctions Auto-Ingest et Streams & Tasks

Snowflake, le seul datawarehouse conçu pour le cloud vient d’annoncer dans le cadre de sa première conférence, le Snowflake Summit, qui s’est tenue à San Francisco cette semaine, plusieurs évolutions de sa solution d’entrepôt de données dont une intégration de Snowflake Data Pipelines (1). Ces améliorations vont permettre au datawarehouse conçu pour le cloud de Snowflake d’être encore plus performant. L’objectif est de fournir aux clients des services continus, automatisés et économiques pour charger les données efficacement et sans aucun effort manuel.

Auto-Ingest

AWS et Azure fournissent des mécanismes de notification pour avertir les utilisateurs lorsqu’un objet est créé. Auto-Ingest utilise ces mécanismes et les superpose sur le service d’acquisition pour que ce dernier puisse automatiquement détecter et récupérer les fichiers créés sous une étape et les intégrer dans les tables appropriées. Cela réduit le temps d’attente pour le requêtage en ingérant et transformant les données au fur et à mesure de leur arrivée.

Streams and Tasks

Streams and Tasks vise à fournir des mécanismes de planification afin que les clients n’aient plus à recourir à des interventions manuelles pour organiser les tâches les plus courantes au sein des bases Snowflake. Cette fonction permet également aux clients d’automatiser les différentes étapes du processus de préparation et de tri des données entre les tables de staging et les tables de destination.

Connecteur Snowflake pour Kafka

Kafka Apache est une plate-forme de construction de pipelines pour gérer des flux continus d’enregistrements, et le connecteur rend rapide et facile le chargement de ces enregistrements à votre instance Snowflake pour faciliter le stockage et l’analyse.

Le connecteur Snowflake pour Kafka est disponible via le repository Maven. Après avoir installé le connecteur sur un cluster Kafka Connect, il peut être instancié via une simple configuration JSON ou via le Confluent Control Center. Après avoir configuré le connecteur pour un ensemble de sujets, il crée et gère les étapes, les pipelines et les fichiers au nom de l’utilisateur pour ingérer de façon fiable les informations dans les tables Snowflake. Il n’y a aucun coût supplémentaire pour l’utilisation du Snowflake Connector pour Kafka, qui est disponible gratuitement sous une licence Apache 2.0.

Les entreprises travaillent aujourd’hui avec des quantités massives de données et, pour analyser toutes ces données, elles ont besoin d’une vue unique de l’ensemble des celles-ci. Le défi est que les données sont stockées dans de multiples systèmes et services, et qu’elles doivent être combinées de manière à permettre une analyse approfondie. Le flux de données lui-même peut être particulièrement peu fiable parce qu’il y a de nombreux points pendant le transit des données d’un système à un autre où elles peuvent être corrompues. Au fur et à mesure que l’ampleur et la portée du rôle joué par les données augmentent, l’ampleur et l’impact des problèmes ne font que s’amplifier.

C’est pourquoi les data pipelines sont essentiels. Ils éliminent de nombreuses étapes manuelles du processus, ce qui apporte un flux de données automatisé et fluide d’une étape à l’autre. Ils sont aussi importants pour l’analyse en temps réel afin d’aider les entreprises à prendre des décisions plus rapidement.

Pour en apprendre plus sur les solutions :

Le poste de blog sur Data Pipeline: https://www.snowflake.com/blog/snowflake-data-pipelines/

  1. Les entreprises travaillent aujourd’hui avec des quantités massives de données et, pour les analyser toutes, elles ont besoin d’une vue unique de l’ensemble des données. Le défi est que ces dernières résident dans de multiples systèmes et services, mais qu’elles doivent être combinées de manière à permettre une analyse approfondie. Le flux de données lui-même peut être particulièrement peu fiable parce qu’il y a de nombreux points pendant le transport d’un système à un autre où la corruption peut se produire tout comme des goulots d’étranglement (ce qui peut entraîner des temps de latence). Au fur et à mesure que l’ampleur et la portée du rôle joué par les données augmentent, l’ampleur et l’impact des problèmes ne font que s’amplifier. C’est pourquoi les data pipelines sont essentiels. Ils éliminent de nombreuses étapes manuelles du processus, ce qui permet un flux de données automatisé et fluide d’une étape à l’autre. Les pipelines de données sont importants pour l’analyse en temps réel afin d’aider les entreprises à prendre des décisions plus rapides et fondées sur les données. Elles sont particulièrement importantes pour les organisations qui s’appuient sur l’analyse des données en temps réel, stockent les données dans le Cloud ou hébergent des données sur de multiples sources