Buscar

Topico 01

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIDADE 02- TOPICO 01
BIG DATA
Big Data ou, em português, Grande Base de Dados, refere-se a um amplo conjunto de dados em constante crescimento, ou seja, uma base de dados que acumula informações ao longo do tempo. 
A maioria dos dados são armazenadas em base de dados computacionais sendo analisadas com a utilização de um software específico que seja capaz de processar um grande volume de dados.
O conceito do Big Data pode ser avaliado dentro de uma terminologia chamada de 6 Vs (seis “V”)
Esse tema tem sido amplamente discutido na indústria da computação como fatores determinantes que definem o Big Data, no qual, inicialmente, o modelo foi criado com os termos volume, velocidade e variedade da informação. Posteriormente, foram adicionados os termos de veracidade, variabilidade e valores dos dados como fatores de definição de um Big Data.
· Volume: refere-se ao montante de dados que um negócio cria, manipula e gerencia.
· Velocidade: refere-se à velocidade no qual os dados são gerados e processados.
· Variedade: abrange os diversos tipos de dados, como dados contínuos, intervalos entre outros.
· Veracidade: consiste na acurácia (precisão) e confiabilidade dos dados.
· Variabilidade: refere-se na variação existente dentro de uma variável.
· Valor (value): aborda sobre o valor que os dados podem fornecer a um negócio, como ter acesso a informações para uma tomada de decisão (NISHADI, 2018).
Os dados passam por um período de ciclo de vida. De acordo com a Figura 2, os dados são coletados em um primeiro momento (coleta de dados). Na sequência, os dados devem ser armazenados em uma grande base de dados (armazenamento de dados). Após, os dados são tratados e analisados (análise de dados). Por fim, esses dados permitem conclusões e criação de novos conhecimentos (criação de conhecimento). 
Ciclo de vida dos dados
Entretanto, para que todo esse processo possa gerar novos conhecimentos, faz-se necessário compreender os conceitos dos dois tipos de dados – dados estruturados e não estruturados na seção a seguir.
DADOS ESTRUTURADOS E NÃO ESTRUTURADOS
-De acordo com Lock, Lock e Lock (2017), estima-se que a quantidade de dados novos é dobrada a cada dois anos, ou seja, mais do que a soma de dados gerados ao longo dos últimos cinco mil anos. 
-Os dados em si são chamados de precedentes a informação, ou seja, referem-se a uma coleção de observações, sejam por meio de medidas, gêneros, respostas de pesquisa etc.
_______________________________________________________________
Apenas com relação à origem dos dados, estes podem ser classificados em dados estruturados e não estruturados, como será visto no subtópico a seguir.
DADOS ESTRUTURADOS
Os dados estruturados referem-se aos dados obtidos em fontes previamente organizadas e padronizadas. A formatação dos dados antes da coleta de dados é o que caracteriza essa classificação.
Como o próprio nome diz, os dados estruturados são aqueles que possuem estruturas bem definidas, rígidas, pensadas antes da própria existência do dado que será carregado naquela estrutura. Não permitem que tipos de dados diferentes das estruturas preestabelecidas sejam carregados.
A natureza destes dados é, geralmente, em ordem numérica.
EX: Podem ser obtidos por meio de relatórios de sistemas de gerenciamento de organizações (ERPs), dados de sistema, organização de planilhas entre outros.
	Código
	Nome
	Idade (anos)
	Grau
	1
	João
	18
	Bacharel
	2
	Davi
	31
	Doutor
	3
	Roberto
	51
	Doutor
	4
	Ricardo
	26
	Mestre
	5
	Maicon
	19
	Tecnólogo
Os dados estão organizados em um formato padronizado, caracterizando-o em uma classificação de dados estruturados. Apesar desse formato de dados fornecer informações prontas para análise, ele possui limitações de dados e uma geração limitada de informações quando comparados com a classificação de dados não estruturado.
 DADOS NÃO ESTRUTURADOS
Por sua vez, os dados não estruturados referem-se a dados obtidos sem uma formatação pré-definida, ou seja, um conjunto de dados é obtido e requer uma “organização” ou “separação” dos dados úteis para análise. 
Os dados não estruturados requerem algumas etapas de organização de dados após a sua coleta.
EX: Abaixo na tabela, na qual é apresentado um texto com dados sem qualquer padronização e formatação. Essa formatação pode ser classificada por meio de uma linguagem de programação computacional capaz de minimamente organizar os dados – chamado de dados semiestruturados.
	Dados não estruturados
	Dados semiestruturados
	A universidade possui 5600 alunos. O número de identificação de João é o número 1, ele tem 18 anos e já é Bacharel. O número de identificação de Davi é o número 2, ele tem 31 anos e é Doutor. Roberto é o número 3, ele tem 51 anos e também possui o mesmo diploma que Davi.
	<Universidade>
  <Estudante ID=”1”>
    <Nome>João</Nome>
    <Idade>18</Idade>   
    <Grau>Bacharel</Grau>
</Estudante>
  <Estudante ID=”2”>
    <Nome>Davi</Nome>
    <Idade>31</Idade>
    <Grau>Doutor </Grau>
</Estudante>
…
</Universidade>
Os dados não estruturados podem ser coletados de diversas fontes, como redes sociais e outras páginas da web ao qual podem ser transformados em informações. Em geral, esse tipo de dados é recomendado para organizações que necessitam avaliar o comportamento dos seus clientes, como preferências, necessidades e desejos
ORGANIZAÇÃO DOS DADOS
Após a coleta de dados, faz-se necessário a organização dos casos e variáveis em uma base de dados.
Os casos são os respondentes da pesquisa, ou seja, os dados que são obtidos a partir da aplicação de um instrumento de pesquisa. Por sua vez, as variáveis correspondem a uma característica registrada ou avaliada para cada caso.
No exemplo aplicado, os casos são as respostas fornecidas pelos respondentes, sendo apresentados na horizontal, enquanto as variáveis referem-se nas colunas. 
	
	Sexo
	Idade (anos) 
	Respondente 1
	Masc
	18
	105
	Respondente 2
	Fem
	25
	58
	Respondente 3
	Fem
	21
	56
	Respondente 4
	Masc
	85
	75
	Respondente 5
	Fem
	?
	77
Como analisar esses dados? Como perceber as variações existentes nos dados? Mesmo que esse exemplo apresente apenas cinco casos, isso pode levar a dificuldades de interpretação. A partir dessa necessidade, a organização dos dados consiste em organizá-los em uma base de dados, quadro ou tabela, conforme apresentado no Quadro 1. Portanto, como primeira etapa do tratamento de dados, você deverá organizar seus dados em um formato que permita análises estatísticas. 
Após realizado a organização dos dados em bases de dados, deve-se proceder uma análise unidirecional, ou seja, uma análise dos casos por variáveis. Os termos missing values e outliers são importantes neste momento.
missing values  -não-resposta é um conceito associado a toda e qualquer falha na obtenção de respostas sobre os elementos selecionados e designados para pertencerem à amostra. Qualquer estudo feito por Estudo por amostragem está sujeito a vários erros.
Enquanto o termo missing values refere-se aos valores não fornecidos pelo respondente (valores faltantes)
 Outliers- Em estatística, outlier, valor aberrante ou valor atípico, é uma observação que apresenta um grande afastamento das demais da série, ou que é inconsistente. A existência de outliers implica, tipicamente, em prejuízos a interpretação dos resultados dos testes estatísticos aplicados às amostras.
Os outliers representam os valores que estão fora de padrão (valores distorcidos) 
Vamos tomar o Quadro 1 para esclarecer esses conceitos. Note que há dois outliers, sendo um referente a idade – respondente 4 por ter idade muito acima dos demais (85 anos), enquanto o outro possui um peso relativamente acima dos demais – respondente 1 por seu peso (105 kg). Portanto, a depender do objetivo da pesquisa, sugere-se que esses outliers sejam removidos da amostra para assegurar dados normalizados. Caso essas variáveis não sejam determinantes para a pesquisa e não devem interferir nos resultados, esses casos podem ser mantidos.
Independentemente do motivo, note que o quintorespondente não forneceu sua idade. Essa é uma situação de missings value (valor faltante). Essa situação remete a uma decisão referente a esse caso, sendo possível aplicar um conjunto de técnicas para tratar esses dados:
· Excluir: consiste em excluir o respondente da amostra uma vez que não forneceu informações completas. Essa técnica é sugerida quando há falta de dados em várias variáveis.
· Aplicar média: consiste em aplicar a média de todos os respondentes de uma variável para o caso com dados faltantes. A vantagem da técnica é de aproveitamento de parte dos dados, porém, não se sabe exatamente o motivo da ausência de dados (que também pode revelar algum motivo oculto). A técnica é sugerida quando poucos dados estão faltantes (HAIR et al., 2009).
 DISTRIBUIÇÃO DE FREQUÊNCIA – ELEMENTOS E CONSTRUÇÃO
A distribuição de frequência demonstra a distribuição de uma amostra em relação às classes ou grupos. Ou seja, quantos respondentes há em cada classe ou quantas respostas repetidas se encontram em uma determinada classe.
Essa análise deve ser feita inicialmente para avaliar a distribuição por classes de um conjunto de dados, se, por exemplo, há algum viés ou tendência nos dados
EX: QUADRO 02 - DADOS DE PESQUISA VOLUNTÁRIA
	Sexo
	Idade (anos)
	Peso (kg)
	Respondente 1
	Masc
	18
	105
	Respondente 2
	Fem
	25
	58
	Respondente 3
	Fem
	21
	56
	Respondente 4
	Masc
	85
	75
	Respondente 5
	Fem
	?
	77
	Respondente 6
	Masc
	45
	85
	Respondente 7
	Masc
	29
	76
	Respondente 8
	Masc
	17
	65
	Respondente 9
	Fem
	53
	59
	Respondente 10
	Fem
	61
	67
Com base no quadro anterior, qual a menor idade? Qual a maior idade? Qual o menor peso? Qual o maior peso? Para responder essas questões você deverá procurar os valores dentro do quadro, e inclusive a probabilidade de erro na informação é relativamente alta. Essa análise se chama ROL e é apresentada na seção a seguir.
ANÁLISE ROL
 
A tabela primitiva ROL considera a ordenação destes dados (seja crescente ou decrescente).
EX: QUADRO 3 – QUADRO ROL REFERENTE DADOS DE IDADE E PESO
	Idade (anos)
	17
	18
	21
	25
	29
	45
	53
	61
	85
	?
	Peso (kg)
	56
	58
	59
	65
	67
	75
	76
	77
	85
	105
Como você pode perceber, o Quadro 3 apresenta os mesmos dados do Quadro 2, mas de forma ordenada por idade e peso. 
Note que essa ordenação denominada ROL facilita a compreensão do valor mínimo, máximo e amplitude dos dados. Logo, torna-se mais fácil e assertiva responder as questões realizadas anteriormente:
· Qual a menor idade? 17.
· Qual a maior idade? 85.
· Qual o menor peso? 56.
· Qual o maior peso?  105.
Além disso, é comum analisar a quantidade de indivíduos segundo uma variável que, nesse caso, poderia ser idade ou peso, como exemplo. Denomina-se frequência o número de indivíduos que possui características de uma variável. Por exemplo, pode se elaborar um quadro com a distribuição de frequência:
EX: QUADRO 4 – DISTRIBUIÇÃO DE FREQUÊNCIA POR IDADE
	Idade (anos)
	Frequência
	17
	1
	18
	1
	21
	1
	25
	1
	29
	1
	45
	1
	53
	1
	61
	1
	85
	1
Note que, nesse exemplo, há nove intervalos de classe, quando medidos pela idade do indivíduo. 
____________________________________________________________
Mas, como fazer essa análise em um volume de dados maior?
RESPOSTA- é possível classificar esses dados em intervalos de análise e, a partir disso, avaliar a distribuição por intervalos. 
____________________________________________________________
No entanto, como calcular os intervalos de classe?
RESPOSTA- É comum dividir os intervalos em grupos de mesmo tamanho, exceto se há algum interesse do pesquisador em avaliar algum intervalo em específico ou dar ênfase em algum grupo. Suponha que desejamos definir quatro classes de grupos de indivíduos. Isso pode levar a duas maneiras de se estruturar os intervalos de classe, uma vez que há indivíduos em diferentes momentos de suas vidas, e considerando uma amostra com jovens, adultos, meia-idade e idosos. Para delimitar esses intervalos, será necessário calcular a amplitude total (AT) para obter a amplitude por classe (h), e a relação com o número de classes (k).
NÚMERO OU INTERVALOS DE CLASSE
“Classes de frequência ou, simplesmente, classes, são intervalos de variação da variável” - Refere-se ao número de intervalos de classe que o pesquisador deseja delimitar sua amostra. 
O cálculo de intervalos de classe tem por objetivo reduzir a distribuição de frequência em grupos menores. 
Como no Quadro 4 apresenta-se nove intervalos de classe (k=9), suponha que o pesquisador deseja reduzi-lo para quatro intervalos (k=4) para facilitar a distribuição e compreensão da amostra. 
Por fim, a símbolo “k” é atribuído para representar o número de intervalos de classe.
Esse cálculo é realizado apenas em variáveis contínuas e qualitativas (gênero, idade, cargo etc.) para delimitar intervalos de classificação dos respondentes e seus respectivos perfis. As variáveis categóricas não necessitam desse tratamento, pois já possuem intervalos pré-estabelecidos.
AMPLITUDE TOTAL DA DISTRIBUIÇÃO
A amplitude total (AT) refere-se na diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo). 
O cálculo é realizado por meio da seguinte fórmula:
AT = L(máx) - l(mín).
Suponha o exemplo de idade do quadro 4:
AT = 85 – 17 anos.
AT = 68 anos
AMPLITUDE DE UM INTERVALO DE CLASSE
A amplitude de um intervalo de classe (h) refere-se na medida do intervalo que define a classe (CRESPO, 2017). Como o número de classes (k) desejado pelos pesquisadores é 4, a amplitude de cada classe (h) é de:
h = AT / k.
h = 68 / 4.
h = 17 anos de idade.
Logo, tem-se a seguinte distribuição por frequência:
EX: QUADRO 5 – DISTRIBUIÇÃO DE FREQUÊNCIA EM QUATRO INTERVALOS DE CLASSES
	Classe
	Frequência
	17 - 34
	5
	34 - 51
	1
	51 - 68
	2
	68 - 85
	1
TIPOS DE FREQUÊNCIA
As frequências podem ser caracterizadas:
Simples (f) 
Relativas (fr)
Frequência simples acumulada (F) 
Frequência relativa acumulada (Fr)
Enquanto as:
Frequências simples: “são os valores que realmente representam o número de dados de cada classe”
Frequências relativas: “são os valores das razões entre as frequências simples e a frequência total”
Veja a aplicação desses dois conceitos no Quadro 6: 
EX; QUADRO 6 – DISTRIBUIÇÃO POR FREQUÊNCIA SIMPLES E RELATIVA
	Classe
	f
	fr
	17 - 34
	5
	0,55
	34 - 51
	1
	0,11
	51 - 68
	2
	0,22
	68 - 85
	1
	0,11
	Total
	T=9
	T=1
Perceba que o Quadro 6 demonstra a aplicação da distribuição por frequência simples e frequência relativa. 
Para obter o valor da frequência relativa basta dividir o valor da frequência de uma classe pelo número total da amostra (9). 
Por exemplo, no cálculo da primeira classe obteve-se: 
5 / 9 = 0,55. 
Por fim, a soma da frequência relativa deve-se obter o número inteiro 1, ou se transformado em percentual deverá alcançar 100%.

Outros materiais