Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIDADE 02- TOPICO 01 BIG DATA Big Data ou, em português, Grande Base de Dados, refere-se a um amplo conjunto de dados em constante crescimento, ou seja, uma base de dados que acumula informações ao longo do tempo. A maioria dos dados são armazenadas em base de dados computacionais sendo analisadas com a utilização de um software específico que seja capaz de processar um grande volume de dados. O conceito do Big Data pode ser avaliado dentro de uma terminologia chamada de 6 Vs (seis “V”) Esse tema tem sido amplamente discutido na indústria da computação como fatores determinantes que definem o Big Data, no qual, inicialmente, o modelo foi criado com os termos volume, velocidade e variedade da informação. Posteriormente, foram adicionados os termos de veracidade, variabilidade e valores dos dados como fatores de definição de um Big Data. · Volume: refere-se ao montante de dados que um negócio cria, manipula e gerencia. · Velocidade: refere-se à velocidade no qual os dados são gerados e processados. · Variedade: abrange os diversos tipos de dados, como dados contínuos, intervalos entre outros. · Veracidade: consiste na acurácia (precisão) e confiabilidade dos dados. · Variabilidade: refere-se na variação existente dentro de uma variável. · Valor (value): aborda sobre o valor que os dados podem fornecer a um negócio, como ter acesso a informações para uma tomada de decisão (NISHADI, 2018). Os dados passam por um período de ciclo de vida. De acordo com a Figura 2, os dados são coletados em um primeiro momento (coleta de dados). Na sequência, os dados devem ser armazenados em uma grande base de dados (armazenamento de dados). Após, os dados são tratados e analisados (análise de dados). Por fim, esses dados permitem conclusões e criação de novos conhecimentos (criação de conhecimento). Ciclo de vida dos dados Entretanto, para que todo esse processo possa gerar novos conhecimentos, faz-se necessário compreender os conceitos dos dois tipos de dados – dados estruturados e não estruturados na seção a seguir. DADOS ESTRUTURADOS E NÃO ESTRUTURADOS -De acordo com Lock, Lock e Lock (2017), estima-se que a quantidade de dados novos é dobrada a cada dois anos, ou seja, mais do que a soma de dados gerados ao longo dos últimos cinco mil anos. -Os dados em si são chamados de precedentes a informação, ou seja, referem-se a uma coleção de observações, sejam por meio de medidas, gêneros, respostas de pesquisa etc. _______________________________________________________________ Apenas com relação à origem dos dados, estes podem ser classificados em dados estruturados e não estruturados, como será visto no subtópico a seguir. DADOS ESTRUTURADOS Os dados estruturados referem-se aos dados obtidos em fontes previamente organizadas e padronizadas. A formatação dos dados antes da coleta de dados é o que caracteriza essa classificação. Como o próprio nome diz, os dados estruturados são aqueles que possuem estruturas bem definidas, rígidas, pensadas antes da própria existência do dado que será carregado naquela estrutura. Não permitem que tipos de dados diferentes das estruturas preestabelecidas sejam carregados. A natureza destes dados é, geralmente, em ordem numérica. EX: Podem ser obtidos por meio de relatórios de sistemas de gerenciamento de organizações (ERPs), dados de sistema, organização de planilhas entre outros. Código Nome Idade (anos) Grau 1 João 18 Bacharel 2 Davi 31 Doutor 3 Roberto 51 Doutor 4 Ricardo 26 Mestre 5 Maicon 19 Tecnólogo Os dados estão organizados em um formato padronizado, caracterizando-o em uma classificação de dados estruturados. Apesar desse formato de dados fornecer informações prontas para análise, ele possui limitações de dados e uma geração limitada de informações quando comparados com a classificação de dados não estruturado. DADOS NÃO ESTRUTURADOS Por sua vez, os dados não estruturados referem-se a dados obtidos sem uma formatação pré-definida, ou seja, um conjunto de dados é obtido e requer uma “organização” ou “separação” dos dados úteis para análise. Os dados não estruturados requerem algumas etapas de organização de dados após a sua coleta. EX: Abaixo na tabela, na qual é apresentado um texto com dados sem qualquer padronização e formatação. Essa formatação pode ser classificada por meio de uma linguagem de programação computacional capaz de minimamente organizar os dados – chamado de dados semiestruturados. Dados não estruturados Dados semiestruturados A universidade possui 5600 alunos. O número de identificação de João é o número 1, ele tem 18 anos e já é Bacharel. O número de identificação de Davi é o número 2, ele tem 31 anos e é Doutor. Roberto é o número 3, ele tem 51 anos e também possui o mesmo diploma que Davi. <Universidade> <Estudante ID=”1”> <Nome>João</Nome> <Idade>18</Idade> <Grau>Bacharel</Grau> </Estudante> <Estudante ID=”2”> <Nome>Davi</Nome> <Idade>31</Idade> <Grau>Doutor </Grau> </Estudante> … </Universidade> Os dados não estruturados podem ser coletados de diversas fontes, como redes sociais e outras páginas da web ao qual podem ser transformados em informações. Em geral, esse tipo de dados é recomendado para organizações que necessitam avaliar o comportamento dos seus clientes, como preferências, necessidades e desejos ORGANIZAÇÃO DOS DADOS Após a coleta de dados, faz-se necessário a organização dos casos e variáveis em uma base de dados. Os casos são os respondentes da pesquisa, ou seja, os dados que são obtidos a partir da aplicação de um instrumento de pesquisa. Por sua vez, as variáveis correspondem a uma característica registrada ou avaliada para cada caso. No exemplo aplicado, os casos são as respostas fornecidas pelos respondentes, sendo apresentados na horizontal, enquanto as variáveis referem-se nas colunas. Sexo Idade (anos) Respondente 1 Masc 18 105 Respondente 2 Fem 25 58 Respondente 3 Fem 21 56 Respondente 4 Masc 85 75 Respondente 5 Fem ? 77 Como analisar esses dados? Como perceber as variações existentes nos dados? Mesmo que esse exemplo apresente apenas cinco casos, isso pode levar a dificuldades de interpretação. A partir dessa necessidade, a organização dos dados consiste em organizá-los em uma base de dados, quadro ou tabela, conforme apresentado no Quadro 1. Portanto, como primeira etapa do tratamento de dados, você deverá organizar seus dados em um formato que permita análises estatísticas. Após realizado a organização dos dados em bases de dados, deve-se proceder uma análise unidirecional, ou seja, uma análise dos casos por variáveis. Os termos missing values e outliers são importantes neste momento. missing values -não-resposta é um conceito associado a toda e qualquer falha na obtenção de respostas sobre os elementos selecionados e designados para pertencerem à amostra. Qualquer estudo feito por Estudo por amostragem está sujeito a vários erros. Enquanto o termo missing values refere-se aos valores não fornecidos pelo respondente (valores faltantes) Outliers- Em estatística, outlier, valor aberrante ou valor atípico, é uma observação que apresenta um grande afastamento das demais da série, ou que é inconsistente. A existência de outliers implica, tipicamente, em prejuízos a interpretação dos resultados dos testes estatísticos aplicados às amostras. Os outliers representam os valores que estão fora de padrão (valores distorcidos) Vamos tomar o Quadro 1 para esclarecer esses conceitos. Note que há dois outliers, sendo um referente a idade – respondente 4 por ter idade muito acima dos demais (85 anos), enquanto o outro possui um peso relativamente acima dos demais – respondente 1 por seu peso (105 kg). Portanto, a depender do objetivo da pesquisa, sugere-se que esses outliers sejam removidos da amostra para assegurar dados normalizados. Caso essas variáveis não sejam determinantes para a pesquisa e não devem interferir nos resultados, esses casos podem ser mantidos. Independentemente do motivo, note que o quintorespondente não forneceu sua idade. Essa é uma situação de missings value (valor faltante). Essa situação remete a uma decisão referente a esse caso, sendo possível aplicar um conjunto de técnicas para tratar esses dados: · Excluir: consiste em excluir o respondente da amostra uma vez que não forneceu informações completas. Essa técnica é sugerida quando há falta de dados em várias variáveis. · Aplicar média: consiste em aplicar a média de todos os respondentes de uma variável para o caso com dados faltantes. A vantagem da técnica é de aproveitamento de parte dos dados, porém, não se sabe exatamente o motivo da ausência de dados (que também pode revelar algum motivo oculto). A técnica é sugerida quando poucos dados estão faltantes (HAIR et al., 2009). DISTRIBUIÇÃO DE FREQUÊNCIA – ELEMENTOS E CONSTRUÇÃO A distribuição de frequência demonstra a distribuição de uma amostra em relação às classes ou grupos. Ou seja, quantos respondentes há em cada classe ou quantas respostas repetidas se encontram em uma determinada classe. Essa análise deve ser feita inicialmente para avaliar a distribuição por classes de um conjunto de dados, se, por exemplo, há algum viés ou tendência nos dados EX: QUADRO 02 - DADOS DE PESQUISA VOLUNTÁRIA Sexo Idade (anos) Peso (kg) Respondente 1 Masc 18 105 Respondente 2 Fem 25 58 Respondente 3 Fem 21 56 Respondente 4 Masc 85 75 Respondente 5 Fem ? 77 Respondente 6 Masc 45 85 Respondente 7 Masc 29 76 Respondente 8 Masc 17 65 Respondente 9 Fem 53 59 Respondente 10 Fem 61 67 Com base no quadro anterior, qual a menor idade? Qual a maior idade? Qual o menor peso? Qual o maior peso? Para responder essas questões você deverá procurar os valores dentro do quadro, e inclusive a probabilidade de erro na informação é relativamente alta. Essa análise se chama ROL e é apresentada na seção a seguir. ANÁLISE ROL A tabela primitiva ROL considera a ordenação destes dados (seja crescente ou decrescente). EX: QUADRO 3 – QUADRO ROL REFERENTE DADOS DE IDADE E PESO Idade (anos) 17 18 21 25 29 45 53 61 85 ? Peso (kg) 56 58 59 65 67 75 76 77 85 105 Como você pode perceber, o Quadro 3 apresenta os mesmos dados do Quadro 2, mas de forma ordenada por idade e peso. Note que essa ordenação denominada ROL facilita a compreensão do valor mínimo, máximo e amplitude dos dados. Logo, torna-se mais fácil e assertiva responder as questões realizadas anteriormente: · Qual a menor idade? 17. · Qual a maior idade? 85. · Qual o menor peso? 56. · Qual o maior peso? 105. Além disso, é comum analisar a quantidade de indivíduos segundo uma variável que, nesse caso, poderia ser idade ou peso, como exemplo. Denomina-se frequência o número de indivíduos que possui características de uma variável. Por exemplo, pode se elaborar um quadro com a distribuição de frequência: EX: QUADRO 4 – DISTRIBUIÇÃO DE FREQUÊNCIA POR IDADE Idade (anos) Frequência 17 1 18 1 21 1 25 1 29 1 45 1 53 1 61 1 85 1 Note que, nesse exemplo, há nove intervalos de classe, quando medidos pela idade do indivíduo. ____________________________________________________________ Mas, como fazer essa análise em um volume de dados maior? RESPOSTA- é possível classificar esses dados em intervalos de análise e, a partir disso, avaliar a distribuição por intervalos. ____________________________________________________________ No entanto, como calcular os intervalos de classe? RESPOSTA- É comum dividir os intervalos em grupos de mesmo tamanho, exceto se há algum interesse do pesquisador em avaliar algum intervalo em específico ou dar ênfase em algum grupo. Suponha que desejamos definir quatro classes de grupos de indivíduos. Isso pode levar a duas maneiras de se estruturar os intervalos de classe, uma vez que há indivíduos em diferentes momentos de suas vidas, e considerando uma amostra com jovens, adultos, meia-idade e idosos. Para delimitar esses intervalos, será necessário calcular a amplitude total (AT) para obter a amplitude por classe (h), e a relação com o número de classes (k). NÚMERO OU INTERVALOS DE CLASSE “Classes de frequência ou, simplesmente, classes, são intervalos de variação da variável” - Refere-se ao número de intervalos de classe que o pesquisador deseja delimitar sua amostra. O cálculo de intervalos de classe tem por objetivo reduzir a distribuição de frequência em grupos menores. Como no Quadro 4 apresenta-se nove intervalos de classe (k=9), suponha que o pesquisador deseja reduzi-lo para quatro intervalos (k=4) para facilitar a distribuição e compreensão da amostra. Por fim, a símbolo “k” é atribuído para representar o número de intervalos de classe. Esse cálculo é realizado apenas em variáveis contínuas e qualitativas (gênero, idade, cargo etc.) para delimitar intervalos de classificação dos respondentes e seus respectivos perfis. As variáveis categóricas não necessitam desse tratamento, pois já possuem intervalos pré-estabelecidos. AMPLITUDE TOTAL DA DISTRIBUIÇÃO A amplitude total (AT) refere-se na diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo). O cálculo é realizado por meio da seguinte fórmula: AT = L(máx) - l(mín). Suponha o exemplo de idade do quadro 4: AT = 85 – 17 anos. AT = 68 anos AMPLITUDE DE UM INTERVALO DE CLASSE A amplitude de um intervalo de classe (h) refere-se na medida do intervalo que define a classe (CRESPO, 2017). Como o número de classes (k) desejado pelos pesquisadores é 4, a amplitude de cada classe (h) é de: h = AT / k. h = 68 / 4. h = 17 anos de idade. Logo, tem-se a seguinte distribuição por frequência: EX: QUADRO 5 – DISTRIBUIÇÃO DE FREQUÊNCIA EM QUATRO INTERVALOS DE CLASSES Classe Frequência 17 - 34 5 34 - 51 1 51 - 68 2 68 - 85 1 TIPOS DE FREQUÊNCIA As frequências podem ser caracterizadas: Simples (f) Relativas (fr) Frequência simples acumulada (F) Frequência relativa acumulada (Fr) Enquanto as: Frequências simples: “são os valores que realmente representam o número de dados de cada classe” Frequências relativas: “são os valores das razões entre as frequências simples e a frequência total” Veja a aplicação desses dois conceitos no Quadro 6: EX; QUADRO 6 – DISTRIBUIÇÃO POR FREQUÊNCIA SIMPLES E RELATIVA Classe f fr 17 - 34 5 0,55 34 - 51 1 0,11 51 - 68 2 0,22 68 - 85 1 0,11 Total T=9 T=1 Perceba que o Quadro 6 demonstra a aplicação da distribuição por frequência simples e frequência relativa. Para obter o valor da frequência relativa basta dividir o valor da frequência de uma classe pelo número total da amostra (9). Por exemplo, no cálculo da primeira classe obteve-se: 5 / 9 = 0,55. Por fim, a soma da frequência relativa deve-se obter o número inteiro 1, ou se transformado em percentual deverá alcançar 100%.
Compartilhar