Ao longo do caminho, os dados são transformados e otimizados, chegando a um estado em que podem ser analisados e usados para desenvolver insights de negócios.
Um pipeline de dados é essencialmente o conjunto das etapas envolvidas na agregação, organização e movimentação de dados.
Os pipelines de dados modernos automatizam muitas das etapas manuais envolvidas na transformação e otimização do carregamento de dados
Normalmente , o pipeline inclui carregar dados brutos em uma tabela de preparação ( área intermediária ou staging area) para armazenamento temporário e, em seguida, alterá-los antes de inseri-los no destino.
Pipeline de dados é um conceito e pode ser implementado de muitas formas diferentes, desde ferramentas de automação em ambiente local, ferramentas em nuvem ou mesmo via programação em linguagens como Python, R, Scala, C++ ou Java.
Componentes de um pipeline de dados
2- Processamento: é a limpeza dos dados, a transformação. Normalmente é a etapa mais complexa. Cada pipeline atende a um objetivo e podemos ter dezenas ou centenas dela, dependendo da infraestrutura de dados da empresa.
3- Destino: é o lugar onde vou colocar os dados depois de limpo, processado e organizado. Eu posso gravar em um Data Lake, Data Warehouse, banco de dados. Eu posso armazenar esses dados ou posso usar esses dados à medida que eu vou processando. o destino pode ser o uso em tempo real principalmente em projetos de Machine Learning.
Pipeline de dados x Pipeline ETL
Os sistemas de extração, Transformação e Carga(ETL-Extract,Transform, Load) são um tipo de pipeline de dados, pois eles movem dados de uma origem , transformam os dados e , em seguida, carregam os dados em um destino. Geralmente, ETL é apenas um subprocesso de um pipeline de dados.
O termo ETL foi criado em uma época onde normalmente o único destino era um Data Warehouse e o processo era bem menos complexo. Atualmente, ETL faz parte de um processo maior de pipeline de dados.
Características dos Pipelines de Dados Modernos
Pipelines de dados robustos podem equipar uma empresa adequadamente para obter, coletar, gerenciar, analisar e usar dados com eficiência e então usar os dados para gerar novas oportunidades de mercado e fornecer processos de negócios mais eficientes e econômicos.
Os pipelines de dados modernos tornam mais rápida e eficiente a extração de informações dos dados coletados.
As principais características ao considerar um pipeline de dados incluem:
Processamento de dados contínuo e extensível;
A elasticidade e agilidade da nuvem;
Recursos isolados e independentes para processamento de dados;
Acesso democratizado a dados e gerenciamento de autoatendimento;
Alta disponibilidade e recuperação de desastres.
Faça o Quiz e teste seus conhecimentos
1 - Um _____________ de dados é um meio de mover dados de um local (a origem) para um destino (um Data Warehouse ou Data Lake por exemplo).
a) pipeline
b) modelo
c) canal
d) tubo
2- Ao longo do caminho em um pipeline de dados, os dados são transformados e otimizados, chegando a um estado em que podem ser analisados e usados para desenvolver insights de negócios.
a) Verdadeiro
b) Falso
3 - Um pipeline de dados é essencialmente o conjunto das etapas envolvidas na agregação, organização e movimentação de dados.
a) Verdadeiro
b) Falso
4 - Os pipelines de dados ____________ automatizam muitas das etapas manuais envolvidas na transformação e otimização do carregamento de dados.
a) manuais
b) antigos
c) modernos
d) futuros
5 - Pipeline de dados é um conceito e pode ser implementado de muitas formas diferentes, desde ferramentas de automação em ambiente local, ferramentas em nuvem ou mesmo via programação em linguagens como:
a) Linguagem Python
b) Linguagem R
c) Linguagem Scala
d) Linguagem Java
e) Linguagem C++
f) Todas as alternativas acima estão corretas
6- Um pipeline de dados é uma série de etapas de _________ de dados.
a) análise
b) processamento
Comentários
Postar um comentário