Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx...

17
Azure HDInsights. Como aproveitar a plataforma para analisar dados. Cristiano Joaquim – MTAC Consultor BI / Big Data

Transcript of Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx...

Page 1: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Azure HDInsights. Como aproveitar a plataforma para analisar dados.

Cristiano Joaquim – MTACConsultor BI / Big Data

Page 2: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM
Page 3: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Quem sou eu?Cristiano Joaquim

Formado em Ciência da Computação pela Universidade de Guarulhos (UnG), Pós Graduado em BI pela Faculdade IBTA.Com 19 anos (até o momento) trabalhando com TI, atuou em diversos ramos de atividades: Financeiras, Seguradores, Logística, Gestão de Meio de Pagamentos e Atacarejo (Varejo e Atacado).Palestrante em diversas comunidades e criador dos grupos Data Analytics BR e SQL Server – Database & BI.

Page 4: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Pai do Nathan, Isabelle e esposo da Kátia

Page 5: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

O que é o Azure HDInsight

1

O que é o Azure HDInsight

2

Arquitetura do Hadoop no Azure

HDInsight

3

Cenários de uso do Azure HDInsight

Page 6: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

O que é o Azure HDInsight?

• O HDInsight do Azure é um serviço de análise totalmente gerenciado, completo e de fonte aberta para empresas.

• É uma distribuição em nuvem dos componentes do Hadoop da HDP (Hortonworks Data Platform).

• O Azure HDInsight torna mais fácil, rápido e econômico processar grandes quantidades de dados. Você pode usar as estruturas de código aberto mais populares, como Hadoop, Spark, Hive, Kafka, Storm, R e muito mais. Com essas estruturas, você pode habilitar uma grande variedade de cenários, como extração, transformação e carregamento (ETL), data warehouse, aprendizado de máquina e IoT.

Page 7: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Vamos falar um pouco sobre Apache Hadoop

• Quando falamos do Azure HDInsight, não podemos deixar de destacar a estrutura doframework de processamento distribuído e análise de Big Data de Big Data em Clusters.

• Os softwares que compõem a pilha de tecnologias do Framework Hadoop são asseguintes:

- Apache Hive- Hbase- Spark- Kafka- Zookepper

• E muitos outros.

Page 8: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

• O Hadoop inclui dois componentes principais:

- O HDFS (Sistema de Arquivos Distribuído Hadoop), que fornecearmazenamento;

- O YARN (Yet Another Resource Negotiator), que fornece processamento.

• Para um entendimento rápido, o YARN coordena o processamento dedados em Hadoop, possuindo dois serviços principais que são executadosem processos em nós nos Clusters.

• São eles:- ResourceManager, que concede recursos de computação de cluster para

aplicativos como trabalhos MapReduce.- NodeManager, que são nós onde os aplicativos realmente executam.

Page 9: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Arquitetura de Hadoop no Azure HDInsight

• O Hadoop inclui dois componentes principais:

- O HDFS (Sistema de Arquivos Distribuído Hadoop), que fornece armazenamento;- O YARN (Yet Another Resource Negotiator), que fornece processamento.

• Para um entendimento rápido, o YARN coordena o processamento de dados em Hadoop,possuindo dois serviços principais que são executados em processos em nós nosClusters.

• São eles:- ResourceManager, que concede recursos de computação de cluster para aplicativos

como trabalhos MapReduce.- NodeManager, que são nós onde os aplicativos realmente executam.

Page 10: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM
Page 11: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Cenários de uso do Azure HDInsight

Processamento em lotes (ETL)

• Extração, transformação e carregamento (ETL) é um processo em que os dadosestruturados ou não estruturados são extraídos de fontes de dadosheterogêneas.

• Em seguida, ele é transformado em um formato estruturado e carregado norepositório de dados.

• Você pode usar os dados transformados para ciência de dados ou datawarehousing.

Page 12: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Cenários de uso do Azure HDInsights

•Data warehousing

• É possível usar o HDInsight para executar consultasinterativas em escalas petabyte sobre dados estruturados ounão estruturados em qualquer formato. Também é possívelcriar modelos conectando-os a ferramentas de BI.

Page 13: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM
Page 14: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Cenários de uso do Azure HDInsight

Internet das coisas (IoT)

• Você pode usar o HDInsight para processar os dados de streaming recebidos em tempo real de uma variedade de dispositivos.

Page 15: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM
Page 16: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM

Meus contatos:E-mail:[email protected]@[email protected]

LinkedIn:https://www.linkedin.com/in/cristiano-joaquim-50956623/

Facebook:https://www.facebook.com/cristianojoaquimsantos

Quer aprender a trabalhar com BI?Acesse meu Canal:https://www.youtube.com/cristianojoaquim

Page 17: Azure HDInsight - DB4 · 2019-05-15 · Title: Microsoft PowerPoint - Azure HDInsight - DB4.pptx Author: crisj Created Date: 5/12/2019 11:20:42 PM