Baixe o app para aproveitar ainda mais
Prévia do material em texto
06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 1/31 FUNDAMENTOS DEFUNDAMENTOS DE BIG DATABIG DATA Esp. Márc io dos Santos I N I C I A R 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 2/31 introdução Introdução Nesta unidade, apresentaremos alguns conceitos básicos para, posteriormente, aprendermos o conteúdo sobre a área de Big Data. Nesse sentido, apresentaremos o per�l do pro�ssional de Big Data. Em seguida, conheceremos os conceitos e os componentes da tecnologia Big Data, com explicações sobre o processo de Big Data e/ou Data Science. Ainda, aprenderemos sobre o armazenamento de dados e a representação dos diferentes tipos de dados: texto, valor numérico, imagem e som. Finalmente, conheceremos os conceitos sobre arquitetura e organização de computadores. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 3/31 Iniciaremos este conteúdo destacando que os dados são gerados desde o horário em que uma pessoa sai de casa em direção ao trabalho até o número de passos que dá até uma loja, o que consumiu e em quanto tempo. Contudo, é necessária uma análise adequada para que esses dados, um aglomerado de números, transformem-se em informação que possa ser utilizada no planejamento de organização. Note que, com base na localização, nas preferências do consumidor, na rotina e em outras informações disponíveis, uma empresa pode estimar tendências e fazer previsões que, efetivamente, determinam um melhor rumo nos negócios dessa empresa. Além disso, na área da saúde, sintomas parecidos em pacientes de uma mesma região podem servir como um alerta para que médicos identi�quem uma epidemia ou um surto que se aproxima. Sugestões de �lmes e séries em serviços de streaming também usam a tecnologia, analisando dados de per�l e histórico de buscas para indicar o que o usuário gostaria de assistir dentre os títulos disponíveis. Motivação e Per�l do Pro�ssionalMotivação e Per�l do Pro�ssional de de Big DataBig Data 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 4/31 No dia a dia de trabalho, as mudanças têm sido visíveis. Por isso, re�etir sobre a quantidade de registros que é gerada sobre o que produzimos, pensamos, sentimos ou até mesmo desejamos é muito importante. Por conta de tudo isso, técnicas têm sido desenvolvidas para possibilitar o processamento de dados com alto desempenho e disponibilidade. Nesse sentido, o Big Data visa simpli�car a coleta, o processamento e a visualização de informações, oferecendo uma padronização e�caz. Assim, as empresas conseguem detectar e compreender tendências em tempo real e, por consequência, re�nar os seus produtos e torná-los mais lucrativos. É importante ressaltar que as soluções de Big Data trabalham os dados “brutos” até que estes sejam transformados em ideias (em inglês, insights) valiosas para uma sabedoria que permitirá uma tomada de decisão efetiva e e�ciente. A �gura a seguir procura demonstrar a complexidade dessa transformação: Na Figura 1.1, podemos notar que os dados brutos constituem a matéria- prima da informação, ou seja, é a informação não tratada de uma organização. A informação é o conjunto de dados que foram processados, seja por meio eletrônico, mecânico ou manual, e que produziu um resultado com signi�cado. As informações são valiosas, mas o conhecimento constitui o saber, pois produz ideias e experiências que as informações não são capazes de representar. Se informação é dado trabalhado, então o conhecimento é a informação trabalhada. Já o conhecimento transforma-se 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 5/31 em sabedoria quando se torna necessária uma tomada de decisão assertiva no contexto de negócio da organização. A Ciência de Dados (ou Data Science, em inglês) surge para sanar a necessidade por novas aplicações, permitindo que novas indústrias utilizem, de forma criteriosa, grandes quantidades de dados. Exemplos de aplicações incluem reconhecimento de fala, reconhecimento de objetos em visão computacional, robôs e carros autônomos, bioinformática, neurociência, a descoberta de exoplanetas e uma compreensão das origens do universo e até mesmo a montagem de times de beisebol baratos, mas vencedores. Em cada um dos casos citados anteriormente, deve-se combinar o conhecimento da área de aplicação com o conhecimento estatístico e implementar tal combinação, buscando utilizar as últimas novidades da ciência da computação, conforme apresentado na Figura 1.2. O cientista de dados deve ter a habilidade de trabalhar de forma adequada com os dados, gerando informações pertinentes e identi�cando padrões de comportamento. Portanto, algumas competências e habilidades são necessárias: habilidade de programação de forma a extrair, dos dados, as respostas para perguntas que ainda não foram feitas; 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 6/31 pensamento lógico, para que se possa fazer análises adequadas sobre as informações obtidas; habilidade com números, pois algoritmos de Machine Learning são baseados em conceitos matemáticos, e a estatística (parte fundamental da Ciência de Dados) requer habilidade com números; conhecimento das tecnologias atuais de armazenamento de dados. Nesse sentido, podemos notar que todas as competências citadas, associadas à Inteligência Arti�cial e baseadas na premissa de que sistemas podem aprender com dados, identi�cam padrões e tomam decisões com cada vez menos intervenção humana. Portanto, os pro�ssionais da Ciência de Dados devem entender tanto de ferramentas quanto dos processos disponíveis. Além disso, todo cientista de dados deve procurar compreender a área de negócio na qual irá atuar. Cada área de negócio tem as suas particularidades, e deve haver uma compreensão ampla dessa área. Para permitir um trabalho que gere valor, o cientista de dados deve questionar a organização: Quais são os principais indicadores? De onde vêm os dados? Quais problemas a organização precisa resolver? Quais tipos de dados devem ser analisados e correlacionados? Como técnicas de Machine Learning podem ser empregadas para melhorar o faturamento da organização? Como a análise de dados permite oferecer um serviço melhor aos clientes da organização? Etc. O cientista de dados vai utilizar o Big Data como matéria-prima, aplicando diversas técnicas e colhendo insights. Mas a responsabilidade por coletar e armazenar os dados, normalmente, é do engenheiro de dados. Esse pro�ssional utiliza conhecimento em ciência da computação para criar sistemas e resolver problemas de processamento de dados em tempo real, manipulando quantidades imensas de dados para o Big Data. Mais especi�camente, o engenheiro de dados é responsável pela criação do pipeline, que transforma os dados brutos que estão nos mais variados 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 7/31 formatos, desde bancos de dados transacionais até arquivos de texto, em um formato que permita ao cientista de dados começar seu trabalho. O engenheiro de dados deve, portanto, ter habilidades e competências para arquitetar sistemas distribuídos, além de criar pipelines con�áveis, combinar fontes de dados, criar a arquitetura de soluções e, obviamente, colaborar com a equipe de Ciência de Dados para construir as soluções certas para essa equipe. Outro pro�ssional importante é o arquiteto de dados. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_…8/31 atividade Atividade A qualidade de uma imagem depende, basicamente: a) da quantidade de frames por polegadas. b) da sua compressão. c) de sua resolução (pixels por polegada). d) de seu tamanho. e) de sua compactação e de seu formato 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479_… 9/31 O ponto de partida para a compreensão dos próximos conceitos é ter em mente que o Big Data trata-se do processamento de um grande volume de dados, dados esses que, via de regra, não poderiam ser processados via mecanismos habituais, como por meio de um Sistema Gerenciador de Banco de Dados (SGBD). Esse processamento inicia-se a partir da captação de dados de fontes diversas, sejam elas internas (da própria organização que está estruturando o processamento) ou externa. Não raro, os dados captados para início do processamento estão em sua forma bruta, ou seja, não estão estruturados e precisam ainda passar por etapas de tratamento para que sejam utilizados. Processo de Big Data e/ou Data Science Os dados citados anteriormente podem ser divididos em algumas categorias: Dados Estruturados: são aqueles dados cuja estrutura está de�nida e, geralmente, são obtidos de um banco de dados próprio ou cedido. Conceitos, Componentes eConceitos, Componentes e Processo do Big DataProcesso do Big Data 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 10/31 Dados Semiestruturados: são aqueles que não seguem propriamente uma estrutura de�nida (e em geral são obtidos tanto interna quanto externamente à organização que está realizando o processo de Big Data). Dados Não Estruturados: são dados gerais, incluindo imagens, vídeos, PDFs e outros arquivos diversos. Para o tratamento, o gerenciamento, o tráfego e a manipulação de uma grande massa de dados, é necessário, ao engenheiro de Big Data, pensar conceitualmente na estrutura que irá suportar tal quantidade de recursos, atentando-se sempre à disponibilidade do conteúdo e ao consumo de hardware e escalabilidade dessa estrutura. Quanto aos critérios de disponibilidade, podemos usar como exemplo o uso de containers para ativar serviços em poucos minutos. Nesse contexto, containers são imagens de um sistema completo (incluindo, às vezes, até mesmo um Sistema Operacional). Essas imagens contêm todas as informações e con�gurações de um sistema, de forma que, em caso de pane em algum servidor que hospede uma determinada aplicação, o container com a imagem cópia é iniciado, e o serviço retorna à atividade em questão de minutos. Vejamos a de�nição de containers, de acordo com o site o�cial da distribuição Linux: Um container Linux® é um conjunto de um ou mais processos organizados isoladamente do sistema. Todos os arquivos necessários à execução de tais processos são fornecidos por uma imagem distinta. Na prática, os containers Linux são portáteis e consistentes durante toda a migração entre os ambientes de desenvolvimento, teste e produção. Essas características os tornam uma opção muito mais rápida do que os pipelines de desenvolvimento, que dependem da replicação dos ambientes de teste tradicionais (O QUE É…, 2019, on-line). 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 11/31 A Computação em Nuvem (ou Cloud Computing) também é um elemento amplamente utilizado quando tratamos do tema Big Data. Ao contrário do que, erroneamente, se pensa, a computação em nuvem tem uma estrutura física para armazenamento de arquivos. Os arquivos não �cam propriamente “em nuvem”, uma vez que eles estão �sicamente em algum local. O que caracteriza o termo “nuvem” é a possibilidade de executar aplicações sem que estas estejam instaladas no computador do usuário que as requer. São exemplos de serviço de nuvem o Google Drive (Google) e o OneDrive (Microsoft). Tais exemplos citados apresentam uma gama de aplicações (editor de textos, planilha eletrônica, ferramenta para criação de grá�cos e vetores) totalmente on-line, dispensando a instalação de software em seu computador. Esse mesmo conceito é utilizado por empresas quanto ao uso de aplicações desktop. O uso da computação em nuvem provê baixo consumo de hardware (considerando que as aplicações não rodam localmente no requerente) e alta disponibilidade, devido ao fato de estarem na nuvem , possibilitando o acesso a partir de qualquer máquina previamente conectada à internet. Ressalta-se, portanto, a necessidade de disponibilidade do conteúdo, por meio de uma estrutura escalável e pensada quanto à disponibilidade. Geralmente, sistemas de computação em nuvem estão diretamente atrelados a um alto processamento, seja este um processamento paralelo ou distribuído. Este tipo de processamento possibilita que uma mesma carga de tarefas em uma máquina (podemos considerar um servidor para nossos exemplos de Big Data) seja distribuída entre vários outros servidores de maneira inteligente e escalonar; assim, quanto maior for o tráfego, maior será a divisão dos processos por máquina. É intuitivo pensar que, com esses critérios, uma estrutura de redes de alta performance é requerida, para suportar o alto tráfego de informação sem apresentar oscilações. Toda essa gama de recursos, geralmente, é utilizada em conjunto, para prover ambientes de Big Data e�cientes. A�nal, vivemos na era da informação, e as informações crescem em um ritmo frenético nos dias atuais. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 12/31 Com o advento das Inteligências Arti�ciais, da Internet das Coisas (IoT) e de outros aparatos tecnológicos conectados à grande rede, o crescimento do volume de informações torna-se exponencial. Ao tratarmos de Big Data, destacamos diretamente alguns critérios: Volume de dados: como já foi citado, os dados crescem de maneira exponencial, e apenas sistemas de Big Data possuem estrutura ideal de tratamento. Variedade de dados: além do crescimento desenfreado, os tipos de dados gerados são diversos. Velocidade de geração de dados: diariamente, a quantidade de dados gerada na web é gigantesca. Veracidade dos dados: nem todos os dados gerados são factíveis; então, uma interação com sistemas de Inteligência Arti�cial é bastante útil para mensurar o que é fato ou não. Valor dos dados: Por �m, nem todos os dados captados são úteis para um propósito especí�co, ou seja, são dados considerados sem valor para um determinado �m. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 13/31 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 14/31 atividade Atividade Sistemas de Big Data diferenciam-se de sistemas de Business Intelligence (BI): a) porque o Big Data utiliza dados internos de uma organização, enquanto que o BI utiliza dados externos. b) porque o Big Data está diretamente atrelado a um Data Warehouse, enquanto que o BI está atrelado a Data Marts. c) porque o BI utiliza dados internos de uma organização, enquanto que o Big Data utiliza dados externos. d) porque o BI pode ser lido, interpretado e adaptado por sistemas de ETL, enquanto que o Big Data não pode. e) porque o Big Data só pode manipular grandes volumes de dados estruturados, enquanto que o BI suporta dados semiestruturados. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 15/31 É bastante comum, ao ingressarmos no ambiente Big Data, confundir seus recursos e até aplicabilidades com sistemas de Business Intelligence (BI). Sistemas de BI, geralmente, armazenam informação de Data Warehouse, que podem ser considerados grandes armazénsde dados utilizados por empresas para gerar tomada de decisões baseada em cenários internos, ou seja, da própria empresa. De contrapartida, sistemas de Big Data utilizam dados gerais, muitas vezes externos à empresa, como já citado anteriormente. É bastante comum, inclusive, que empresas de grande porte utilizem sistemas de Big Data para gerarem dados a serem armazenados em seu Data Warehouse próprio, para �ns de utilizar tais dados, posteriormente, em estruturas de BI da organização. ETL (Extract, Transform, Load) O armazenamento de dados obtidos por Big Data passa por um processo de tratamento conhecido por ETL (Extract, Transform, Load). Vejamos, a seguir, Armazenamento de DadosArmazenamento de Dados 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 16/31 mais detalhes: Extract Esse processo consiste em obter os dados das mais diversas fontes (dados estruturados, semiestruturados e não estruturados). Para a obtenção desses dados, realiza-se o processo de extração, que capta, sem distinção, os dados mais diversos, conforme alguns critérios pré-selecionados. Transform O processo de transformação é responsável por tratar, previamente, os dados, adequando-os ao per�l que a organização deseja utilizar. Um dos itens mais importantes nessa etapa é a categorização dos dados por meio de categorias de dados, chamadas também de Data Marts, que organizam os dados, deixando-os prontos para a próxima etapa. Load A etapa de carregamento utiliza os Data Marts para popular uma estrutura ou algum sistema que processe os dados, transformando-os em informação. Geralmente, utiliza-se um banco de dados (relacional ou não relacional) ou sistemas de inteligência arti�cial que tomam decisões imediatas, mediante recepção dos dados. Todo esse processo é bastante trabalhoso, porém grande parte desse trabalho pode ser extinguida com o uso de software ou framework de processamento de Big Data. Um dos frameworks mais conhecidos dessa categoria é o Hadoop. O Hadoop é um framework de código aberto que permite que qualquer pessoa modi�que e implemente novas funcionalidades, e é desenvolvido e mantido pela Apache Software Foundation. O Hadoop utiliza arquitetura clusterizada, ou seja, um conjunto de computadores que trabalham em conjunto, como se fossem apenas um. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 17/31 Medidas de Armazenamento Da mesma forma que existem unidades de medidas para representar distâncias (quilômetros, milhas, centímetros, metros), peso (quilos, toneladas, gramas) tempo (minutos, segundos, dias, horas), existem também as unidades de medida computacionais, que servem para mensurar pesos de dados, arquivos e qualquer informação que tenha cunho digital. A menor unidade de armazenamento é o bit (Binary Digit), que pode assumir apenas dois valores: 0 (zero) ou 1 (um); por isso o nome binário. A base binária vem da área da eletrônica, em que o dígito zero representa um circuito desligado, enquanto que o dígito um representa um circuito ligado. Na computação, esses conceitos têm as representações apresentadas no Quadro 1.1, a seguir: Quadro 1.1 - Equivalências dos dígitos binários Fonte: Elaborado pela autora. O conjunto de 8 bits é responsável por formar 1 byte. O cálculo das unidades de medida computacionais é feito da seguinte forma: dígitos binários elevados a cada 10 potências, tomando-se como partida a potência zero. Por haver uma representação de apenas duas opções, é comum chamarmos essa representação de “base 2”, pois a base do expoente é sempre o número dois. Vejamos o Quadro 1.2, a seguir: 0 1 Desligado Ligado Não Sim Falso Verdadeiro False True 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 18/31 Quadro 1.2 - Unidades de medidas computacionais Fonte: Elaborado pela autora. Representação de Tipos de Dados como Padrões de Bits Como já veri�cado, as unidades de medidas têm o bit como menor elemento na computação. Uma sequência de bits é composta apenas de números 0 e números 1. Isso signi�ca que qualquer dado, seja ele um texto, uma imagem, um vídeo, um cálculo ou mesmo um programa de computador, é lido e interpretado como Elevação de potência Resultado em sigla Unidade de Medida 2 1 B Byte 2 1024 Kb Kilobytes 2 1024 MB Megabytes 2 1024 GB Gigabytes 2 1024 TB Terabytes 2 1024 PB Petabytes 2 1024 HB Hexabytes 2 1024 ZB Zetabytes 2 124 YB Yotabytes 0 10 20 30 40 50 60 70 80 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 19/31 uma sequência lógica de “zeros” e “ums”. Essa conversão é feita de maneira automática pela arquitetura lógica dos computadores, quando estes recebem algum tipo de dado. A conversão de números decimais para binários, por exemplo, dá-se com a seguinte lógica: divide-se o número decimal por dois; preserva-se o resto da operação; divide-se o próximo número por dois; preserva-se o resto da operação; [...]. Repete-se esse procedimento quantas vezes forem necessárias, até que o quociente seja o número um. Veja a Figura 1.3, a seguir, para facilitar a sua compreensão: Podemos observar na Figura 1.3 que o processo de divisão foi repetido sequencialmente, até que o número 1 surgisse como quociente. A leitura do binário resultante dessa operação é: 1001. A leitura correta de qualquer binário gerado por esse método deve ser feita de baixo para cima. O número 9, especi�camente, gera o mesmo resultado lendo-o de baixo para cima ou de cima para baixo, mas isso não ocorre com qualquer número. Veja na Figura 1.4, a seguir: Figura 1.3 - Convertendo decimais em binários Fonte: Elaborada pela autora. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 20/31 Conforme mostrado na Figura 4, o decimal 8 convertido em binários resulta em 1000 (bem diferente do resultado 0001, se fosse lido de cima para baixo). Texto, Valores Numéricos, Imagem (pixel) e Som (sinal) Independentemente do tipo de dado, tudo é convertido em binários, para que seja possível a leitura correta por um computador. Isso não signi�ca que, em sua estrutura digital, os dados possuam as mesmas características. Muito pelo contrário! Figura 1.4 - Convertendo decimais em binários: conversão do número 8 Fonte: Elaborada pela autora. reflitaRe�ita Existem outros tipos de conversão, como textos, imagens e vídeos para binários. Essa estrutura de conversões é um pouco mais complexa e requer certa prática para ser executada. Conhecimentos sobre base 16 também serão bem-vindos. A base 16 tem como característica trabalhar com números de 0 a 15. Os numerais de 0 a 9 são representados pelos respectivos números; já os numerais de 10 a 15 são representados por letras de A a F. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 21/31 Uma imagem, por exemplo, terá uma representação binária, diferente das representações binárias de arquivos de vídeo, áudio, números ou texto. Entretanto, essas representações não são as únicas diferenças entre os diferentes tipos de arquivos/dados. A própria estrutura de medição dos arquivos é distinta para cada categoria citada. Imagens, por exemplo, têm as dimensões medidas em pixels. As medidas de cada pixel dependem, basicamente, da resolução trabalhada em uma imagem. Quanto maior a resolução, maior a quantidade de pixels, pois isso signi�ca que para cada polegada existe um número maior de pixels, o que torna a imagem de alta qualidade. Dessa maneira, quando o termo “imagem de alta resolução” é expresso, signi�ca o mesmo que dizer que uma determinada imagem tem mais pixels por polegada. Um bom exemploé comparar esses pixels como grãos de areia. Se os grãos estiverem dispersos, distanciados uns dos outros sobre um piso frio, será possível enxergar partes do piso sob eles. Todavia, se os grãos estiverem agrupados, o piso será menos visto e os grãos parecerão cada vez mais nítidos. Quanto mais próximos estiverem, maior será a nitidez e mais compactos parecerão, a ponto de se assemelharem a um único bloco de areia. Isso ocorre porque existem mais grãos por centímetro; ou, em uma alusão ao tema atual, existem mais pixels por polegada. A mesma ideia se aplica a arquivos de áudio e vídeo; porém, quanto à qualidade de compressão e à quantidade de frames por segundo. Outro exemplo que podemos apresentar é o de um elástico com algumas pedrinhas presas a ele (similar àqueles usados como bijouteria). As pedrinhas estão tão próximas umas às outras que parecem cobrir o elástico por completo; porém, se o elástico for esticado, pequenos vãos começarão a surgir entre uma pedrinha e outra, revelando partes do elásticos sob elas. Essa mesma lógica ocorre com arquivos de áudio, que podem ter maior ou menor compressão. Os arquivos com maior compressão simbolizam o elástico esticado, ou seja, possuem pedaços visíveis do elástico entre as 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 22/31 pedrinhas, resultando em uma baixa qualidade de áudio. Já os arquivos com menor compressão simbolizam o elástico esticado , que tem toda a sua estrutura coberta por pedrinhas, o que simboliza arquivos de maior qualidade de áudio. Já quanto aos arquivos de vídeo, o fator determinante (além dos pixels por polegada) é a quantidade de frames (quadros) exibidos por segundo. Por padrão, um arquivo de vídeo possui 24 frames por segundo (FPS). Quanto mais frames por segundo, maior a qualidade obtida no vídeo. Podemos imaginar o movimento de uma bola quicando sobre o chão. O vídeo armazena uma sequência de vários quadros que, ao serem executados rapidamente, simulam movimento. O espaçamento entre um quadro e outro, embora seja relativamente curto, pode tornar a qualidade do vídeo baixa. Quando a quantidade de quadros por segundo aumenta, diminui-se o espaçamento entre os quadros, dando a impressão de aumento na qualidade da imagem do vídeo. Todos esses critérios de peso, qualidade e compressão devem ser analisados pelos sistemas de Big Data, pois, como uma grande gama de dados é lida, processada e armazenada simultaneamente, é necessário ter bom senso para que a plataforma de armazenamento não “in�e” por estar com pouco material de alta qualidade, quando, na verdade, esperava-se ter muitos dados de qualidade mediana, por exemplo. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 23/31 atividade Atividade Os dados utilizados no Big Data podem ser de três tipos: a) Estruturados, não estruturados e semiestruturados. b) Estruturados, orientados e extraídos. c) Transformados, semiestruturados e orientados. d) Orientados, extraídos, e não estruturados. e) Orientados, carregados e transformados. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 24/31 Visão Geral de Arquitetura e Organização de Computadores Podemos relacionar a arquitetura de computadores como um mapa para se caminhar do ponto A ao ponto B. Existirão diversas vias que poderão ser escolhidas. Da mesma maneira, existem várias formas de se realizar o deslocamento (a pé, de bicicleta, de carro, de ônibus etc., e isso irá depender do caminhos escolhidos e da localização dos pontos A e B). Já na arquitetura e na organização de computadores, a lógica é a mesma: existe uma estrutura feita para realizar as tarefas da melhor forma possível; em contrapartida, existem os critérios de organização, que irão atuar sobre a arquitetura utilizando os recursos computacionais com total e�ciência. Estrutura e Função de Componentes de Computadores Arquitetura e Organização deArquitetura e Organização de ComputadoresComputadores 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 25/31 De acordo com Stallings (2002 , p. 6), a estrutura e a função dos componentes de um computador podem ser de�nidas como: “Estrutura: a forma como os componentes estão inter-relacionados. Função: a operação de cada componente individual como parte de uma estrutura. Além dos dispositivos convencionais e amplamente conhecidos, como os hardwares (placa-mãe, placa de som, placa de vídeo, placa de rede, placa de memória etc.) divididos nas categorias “dispositivos de entrada” e “dispositivos de saída”, trataremos de um componente que é considerado o cérebro do computador: a CPU. A sigla CPU signi�ca Central Processing Unit (Unidade Central de Processamento). Ela é responsável por realizar todas as operações lógicas do computador, e é formada pelos seguintes componentes: Unidade de Controle (UC): fornece e controla as instruções para a ULA, ditando a forma como eles serão processados dentro da CPU. Unidade Lógico-Aritmética (ULA): nessa divisão da CPU, são realizados os cálculos matemáticos e as comparações lógicas para a realização do processamento de dados. Registradores: são micromemórias nas quais os dados �cam armazenados. Os dados processados pela ULA (que foram fornecidos pela UC) são armazenados nos registradores 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 26/31 atividade Atividade O Hadoop é um framework desenvolvido e mantido pela Apache Software Foundation. Sobre sua aplicação, é correto a�rmar que: a) É focada na extração de dados para Big Data. b) É focada na transformação de dados para Big Data. c) É focada em todo o processo de Big Data. d) É focada no carregamento de Data Marts em bancos relacionais. e) É focada na geração de Data Marts. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 27/31 indicações Material Complementar LIVRO Programação em Baixo Nível Igor Zhirkov Editora: Novatec ISBN: 978-85-7522-667-4 Comentário: O livro é desenvolvido com assuntos mais detalhados sobre a arquitetura de computadores e o funcionamento dos sistemas de processamento interno, como alocação de memória de priorização de tarefas, e aborda a linguagem Assembly em plataforma com arquitetura Intel 64. 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 28/31 FILME Hackers: anjos e criminosos Ano: 2002 Comentário: O �lme apresenta a história dos hackers mais famosos do mundo, bem como dos primeiros hackers da história. É um documentário que explora o mundo tecnológico a partir de seus bastidores. T R A I L E R https://www.youtube.com/watch?v=FcQKYbqD834 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 29/31 conclusão Conclusão Nesta unidade estudamos os princípios básicos que envolvem a tecnologia Big Data e, além disso, conhecemos um pouco de suas características, sua aplicabilidade e sua estrutura. Nesse sentido, é importante nos aprofundarmos mais em todos os tópicos abordados. Com isso, destacamos que o tema Big Data é extremamente amplo. Recomendamos que você tenha como princípio de estudos algum framework de código aberto, como o Hadoop, apresentando nesta unidade. referências Referências Bibliográ�cas EVOLUÇÃO no processo de dados. Deviante, fev. 2018. Disponível em: <http://www.deviante.com.br/wp-content/uploads/2018/02/data-driven- 01.jpg>. Acesso em: 17 abr. 2019. O QUE É um container Linux? Redhat, 2019. Disponível em: <https://www.redhat.com/pt-br/topics/containers/whats-a-linux-container>.Acesso em: 30 mar. 2019. http://www.deviante.com.br/wp-content/uploads/2018/02/data-driven-01.jpg https://www.redhat.com/pt-br/topics/containers/whats-a-linux-container 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 30/31 STALLINGS, W. Arquitetura e Organização de Computadores: projeto para o desempenho. 8. ed. São Paulo: Pearson Practice Hall, 2010. IMPRIMIR 06/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_666479… 31/31
Compartilhar