Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Análise exploratória de dados e 
Análise Estatística 
 
Com o crescimento diário do volume de dados através das redes sociais, faz-se 
necessário explorar esses dados com a finalidade de obter informações e através das 
mesmas explorar oportunidades contidas no Big Data. Através da técnica de análise 
exploratória de dados e com a utilização da estatística descritiva é possível criar 
tabelas com informações percentuais onde as mesmas são capazes de nortear o 
gestor no processo decisório, dando ao mesmo um maior nível de assertividade 
baseada nos dados. Também é possível representar os dados e informações 
percentuais em gráficos onde sua análise poupa tempo e recursos no processo de 
exploração e decisão. 
 
Você verá que é possível utilizar a análise exploratória de dados para tomar decisões 
baseadas nas informações que serão extraídas das tabelas exemplo em nosso texto. 
Para que isto seja possível, vamos entender alguns passos importantes sobre limpeza 
de dados, exploração dos dados e transformação dos dados e através deles gerar 
análises gráficas e criar variáveis individuais, comparações entre outras técnicas. 
Esperamos que esteja pronto para iniciar esta jornada de conhecimento e 
oportunidades para a sua carreira. 
 
 
Objetivos 
 
 
Ao final desta unidade, você deverá ser capaz de: 
 
• Analisar dados previamente obtidos com aplicação de 
técnicas estatísticas 
 
 
 
 
Conteúdo Programático 
 
Esta unidade está organizada de acordo com os seguintes temas: 
• Tema 1 - Estatística Básica aplicada à ciência de dados 
• Tema 2 - Análise exploratória e pré-processamento de 
dados 
• Tema 3 - Representação e Análise de Gráficos Estatísticos 
 
 
 
 
Com a análise exploratória de dados é 
possível obter informações através de 
análises gráficas, mas como montar uma 
tabela e quais aspectos devemos levar em 
consideração nesta modelagem? 
Acesse: Os dados estatísticos e a 
representação gráfica que irá lhe ajudar 
a entender melhor sobre alguns processos 
de análise exploratória de dados. 
 
 
 
 
Tema 1 
Estatística Básica aplicada à ciência de dados 
 
 
Quais os conceitos fundamentais de estatística 
utilizados pelos cientistas de dados? 
 
 
Título nível 1 
 
O cientista de dados é o profissional que possui habilidades e conhecimentos nas 
áreas de programação, Ciência da Computação, machine learning e utilizam a 
matemática e estatística para a realização de análises sobre os dados obtidos e 
armazenados. 
Sobre a estatística podemos afirmar que é um ramo da matemática que está ligada 
diretamente a coleta e análise de dados e a interpretação e apresentação do mesmo. 
A estatística é utilizada na ciência de dados em quase todos os aspectos necessários 
para limpar dados, analisar dados, transformar dados e também no processo de 
atualização de algoritmos com base na aprendizagem de máquina e isto aumenta a 
percepção de descoberta de informações contidas no Big Data. 
 
 
 
Vamos neste momento conhecer alguns aspectos e conceitos básicos e 
fundamentais em estatística de grande importância na área de ciência de 
dados 
 
 
Conceito de Amostragem 
 
Um dos conceitos importantes dentro da área estatística e para que seja possível 
garimpar informações é o de população, que é o grande volume de dados em sua 
forma bruta, que será utilizado para um teste ou experimento. Não é aconselhável 
medir padrões e tendências em toda a população, e por este motivo utilizamos a 
estatística para analisar uma parte destes dados que chamamos de amostra e a 
mesma irá representar os padrões de todo o volume de dados armazenado. Em 
resumo, amostra é uma parte do todo que irá servir como espelho para analisar os 
dados e obter informações. 
 
 
 Utilizando a estatística sobre uma amostra é possível que o cientista de 
dados utilize cálculos sobre o conjunto de dados. Após esses cálculos é 
possível usar probabilidades e suposições para se ter certeza sobre as 
tendências dentro do volume de dados ou até prever alguns eventos futuros 
contidos no Big Data. 
 
 
 
Conceito de Estatística Descritiva 
 
Um dos conceitos importantes dentro da área estatística e para que seja possível 
garimpar informações é o de população, que é o grande volume de dados em sua 
forma bruta, que será utilizado para um teste ou experimento. Não é aconselhável 
medir padrões e tendências em toda a população, e por este motivo utilizamos a 
estatística para analisar uma parte destes dados que chamamos de amostra e a 
mesma irá representar os padrões de todo o volume de dados armazenado. Em 
resumo, amostra é uma parte do todo que irá servir como espelho para analisar os 
dados e obter informações. 
 
Como previsto neste subtítulo a estatística descritiva ela tem o papel de descrever os 
dados, ou seja, ela permite compreender as características dos dados obtidos. 
 
 
Curiosidade 
 
Não devemos confundir este tópico com o anterior, aqui não precisamos 
prever ou fazer suposições inferências sobre os dados trabalhados, 
apenas devemos fornecer algumas descrições da amostra de dados que 
possuímos. A estatística descritiva é calculada a partir dos dados. 
 
As medidas de tendências centrais (Média, Moda e a Mediana) são aplicadas em 
conjunto de dados numéricos na estatística. Veja alguns exemplos de cálculos que 
podem ser realizados com esta técnica: 
Média - Cálculo do valor médio dos dados 
 
Na escola, Celso Barreto realizou algumas atividades avaliativas onde obteve os 
seguintes resultados: Prova-8,0, teste-9,0 e um trabalho-7,0 
 
Para se calcular a média utilizamos a seguinte fórmula: x= (x1+x2+...xn)/n , ou seja, 
somaremos todos os valores e vamos dividir pela quantidade total de itens contidos 
na soma. 
 
x = (8 + 9 + 7)/3 | Resultado : 8,0 
 
 
 
Mediana (Md) – o valor central se ordenarmos os dados em ordem crescente e 
dividirmos exatamente pela metade. 
 
Para que seja possível calcular a mediana é necessário seguir alguns passos 
iniciais, são eles: 
• Ordenar os dados em ordem crescente; 
• Verificar se o número de elementos contidos no conjunto de dados for par, 
caso sim, a mediana será encontrada pela divisão do resultado dos valores 
centrais, (a + b)/2. 
• Se a quantidade de elementos for ímpar, a mediana é o valor central. 
Vamos ver um exemplo: 
• Conjunto A = {5, 3, 10} 
• Conjunto B = {6, 4, 7, 2} 
• Conjunto C = {6, 7, 2, 1, 8} 
Colocar em ordem crescente: Conjunto A = {3,5, 10} | Conjunto B = {2, 4, 6, 7} | 
Conjunto C = {1, 2, 6, 7, 8} 
• Quantidade de elementos ímpares: Conjunto A = {3, 5, 10} => Md =3 
• Número de elementos contidos no conjunto de dados for par: Conjunto B = 
{2, 4, 6, 7} => Md = (4 + 6)/2 = 5 
• Número de elementos contidos no conjunto de dados for ímpar. C = {1, 2, 6, 
7, 8} => Md = 6 
 
 
 
 
Média - Cálculo do valor médio dos dados 
 
Conjunto A = {2, 25, 4, 2, 3} | B = {18, 22, 2, 22, 7, 2} 
No conjunto A observe que o número 2 é o que mais se repete, portanto ele será a 
nossa moda, Mo=2. 
No conjunto B, existem 2 números que se repetem: 2 e 22. Este conjunto possui 
duas modas, então chamamos o conjunto B de bimodal. 
 
 
 
 
Distribuições 
 
Uma distribuição nada mais é do que a representação gráfica de determinados valores 
mostrando Com que frequência este valor é exibido no conjunto de dados. O gráfico 
gerado através da distribuição tem o formato semelhante a uma curva que pode ser 
inclinada para o lado direito ou esquerdo. 
 
 
 
 
Probabilidade 
A probabilidade é de 16,7%, mas como chegamos a esta conclusão? Apenas 
observamos o valor desejado sobre a quantidade de possibilidades deste evento 
acontecer. 1/6 = 0,167 ↔; 16,7%. E se eu jogasse o dado 3 vezes, qual a 
probabilidade do mesmo evento ocorrer? 
 
 
 
 
1/6 = 0,167 | 1/6 = 0,167 | 1/6 = 0,167 
0,167 * 0,167 * 0,167 = 0,005 
 
 
Esperamos que através destes exemplos o conceito de probabilidade tenha sido 
esclarecido.Para se aprofundar sobre a probabilidade, acesse a Minha Biblioteca e leia 
as páginas 71 a 74 do livro: Probabilidade e Estatística para Ciências 
Exatas, NAVIDI, William. Porto Alegre, 2012. ISBN: 9788580550740. 
 
 
Ainda existem os conceitos de viés, variância e correlação que você poderá saber 
facilmente através do livro acima. 
 
 
Tema 2 
Análise exploratória e pré-processamento de 
dados 
 
Qual a finalidade e utilidade da Análise Exploratória de 
Dados(AED)? 
 
Finalidade da Análise Exploratória de Dados e Suas Etapas 
 
O analista ele precisa desenvolver o entendimento básico acerca dos dados obtidos, 
das relações que existem entre os dados e as variáveis que serão analisadas. Antes 
da aplicação de técnicas estatísticas é feito uma análise exploratória de dados(AED), 
com a finalidade de examinar os dados de maneira prévia à aplicação das técnicas de 
cálculo.Conforme FERREIRA (2021): 
 
“ 
A finalidade da análise exploratória de dados (AED) é verificar os dados, para 
qualquer aplicação estatística. Com isso, obtemos entendimento sobre os dados 
coletados e, principalmente, sobre as relações existentes entre as variáveis 
analisadas. 
FERREIRA, Rafael.G. C.; MIRANDA, Leandro.B.A. D.; PINTO, Rafael. A.; AL., 
et. Preparação e Análise Exploratória de Dados. Porto Alegre: Grupo A, 2021. p.71-74. 
ISBN: 9786556902890. 
” 
 
 
Ao obter os dados que foram previamente digitados em um banco de dados de 
maneira apropriada, segue-se para o próximo passo que é a análise descritiva. Esta 
etapa torna-se importante e muito relevante pois, é através dela que o pesquisador 
consegue familiaridade com os dados a ponto de organizá-los e sintetizá-los com foco 
em obter informações acerca das questões estudadas e através delas conseguir 
respostas. 
 
 
 
Organizar os dados e deixá-los 
prontos a qualquer técnica 
estatística. 
Realizar uma análise gráfica da 
natureza das variáveis individuais 
que permita extrair informações 
quantitativas 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Outliers: É um valor que foge da normalidade e poderá causar anomalias 
nos resultados obtidos. 
Missing: Valores que não foram encontrados em sua busca 
 
Conforme a nossa tabela abaixo Existem algumas estratégias que podem ser 
aplicadas no processo da exploração de dados. Através do trabalho de mineração de 
dados é possível indicar qual o melhor modelo ou estratégia a ser aplicada. 
Abordagem Estratégia aplicada 
Estatística clássica Problema → Dados → Modelo → Análise 
Estatística Bayesiana Problema → Dados → Modelo Priori → Análise 
AED Problema → Dados → Análise → Modelo 
 
Observe que a análise exploratória de dados encontrada na última linha da tabela 
acima, esta vai além do uso descritivo da estatística, pois a mesma sempre busca se 
aprofundar no processo de resumo dos dados sem resumir a quantidade de 
informações contida nele. 
 
 
 
Para se aprofundar sobre este assunto, acesse a Minha Biblioteca e leia 
as páginas 13 a 14 do livro: FERREIRA, Rafael G. Preparação e análise 
exploratória de dados. Porto Alegre, 2021. ISBN: 9786556902890 
 
Pré-processamento de Dados - Conceito e Importância 
 
m profissional que trabalha com dados ele gasta a maior parte do seu tempo em uma 
atividade intensa de pré-processamento de dados. Esta etapa consome a maior parte 
do seu tempo, em torno de 70% a 80%, devido ao esforço que é realizado pelo 
cientista com a finalidade de preparação, organização e estruturação dos dados a 
serem trabalhados. Esta etapa fundamental acontece antes da realização das análises 
e predições. 
Realizar uma análise gráfica da 
natureza das variáveis individuais 
que permita extrair informações 
quantitativas 
Avaliar após um exame gráfico a 
relação entre as variáveis de 
maneira descritiva que 
quantifique o grau de inter-
relação entre as variáveis. 
Estar atento a possíveis casos 
atípicos (outliers); 
Estar atento a presença de 
possíveis dados Ausentes 
(missing); 
 
Técnicas de Pré-Processamento 
 
Como visto anteriormente sobre o processamento de dados e a sua finalidade, o 
mesmo resume-se em transformar os dados brutos em informações que sejam úteis e 
relevantes ao negócio. Para que isto seja possível existem três passos principais que 
estão envolvidos nesse processo, são eles: limpeza dos dados, transformação dos 
dados e redução dos dados. Em cada uma dessas técnicas é desenvolvido diversas 
atividades pelo cientista. 
 
 
 
Curiosidade 
 
• Limpeza dos Dados: Nesta etapa está envolvido preenchimento 
de muitos dados que estão ausentes a remoção de valores 
afastados do objetivo e inconsistentes. 
• Transformação dos Dados: Aqui acontece a transformação dos 
dados originais em outros formatos adequados à mineração 
• Redução dos Dados: Nesta etapa é selecionado apenas os dados 
que são relevantes ao processo 
 
 
 
Para que esta etapa de pré-processamento de dados possa ocorrer de maneira 
eficiente é necessário que o analista escolha bem as suas variáveis, pois são elas que 
fornecerão as informações necessárias acerca dos dados. Estas informações podem 
ser quantitativas, que serão expressas em valores numéricos, ou qualitativas. 
 
 
 
Vale ressaltar que, nesta etapa é definida a qualidade dos dados que serão 
analisados, pois ela impacta diretamente no modelo de previsão que será 
gerado a partir desses dados. 
 
 Vídeo 
Para saber mais, assista ao vídeo publicado na unidade da disciplina no 
Ambiente Virtual de Aprendizagem. 
 
 
 
 
file:///C:/Workspace/Web%20Design/WebDesignNEAD/CDI_U1/cdi/u2/tema-2.htm%23pop1
file:///C:/Workspace/Web%20Design/WebDesignNEAD/CDI_U1/cdi/u2/tema-2.htm%23pop1
 
Tema 3 
Representação e Análise de Gráficos Estatísticos 
 
Quais maneiras encontro para representar e analisar 
dados? 
 
A análise gráfica dos dados estatísticos apresenta grande importância pois informa 
numericamente um fato ou algum fenômeno estudado. Gráficos são utilizados para 
facilitar a análise dos dados e trazem praticidade, e facilidade em sua interpretação. 
Vamos analisar a tabela a seguir sobre a hospedagem do hotel Celso Barreto: 
 
Ano Quantidade de Hóspedes 
2016 301 
2017 387 
2018 405 
2019 257 
2020 131 
2021 53 
Tabela 1: Hóspedes do Hotel Celso Barreto 
 
 
Ano Quantidade de Hóspedes % 
2016 301 20% 
2017 387 25% 
2018 405 26% 
2019 257 17% 
2020 131 9% 
2021 53 3% 
Total 1534 100% 
Tabela 2: Porcentagem de Hóspedes do Hotel Celso Barreto 
 
Este tipo de informação 
apresentado na tabela 
denominamos como 
cronológico ou histórico, estas 
informações correspondem a 
variáveis ligadas a intervalo de 
tempo. Essa tabela 
corresponde a uma maneira de 
apresentar os dados dos 
hóspedes de um determinado 
hotel, veremos abaixo uma 
outra forma de apresentar os 
mesmos dados. 
 
 
Gráfico 1: Hóspedes do Hotel Celso Barreto 
Observe que em nossa segunda a tabela, foi acrescentado uma coluna responsável 
pelas informações de porcentagem, e observa-se uma diminuição na quantidade de 
hóspedes do hotel, estas informações em porcentagem nos ajuda a observar que 
algum fenômeno impactou diretamente na quantidade de clientes. Esta queda deu-se 
a partir do ano de 2019. Por que será? 
 
Neste momento, o cientista de dados irá investigar as informações contidas nos dados 
e no mundo dos negócios que envolvem hospedagem. Observe também que 1534 
hóspedes apenas 3% deles correspondem ao ano de 2021 ou seja, existe algum 
fenômeno ocorrendo que está prejudicando diretamente a quantidade de hóspedes no 
hotel. Através da análise e apresentação dos dados o gestor conseguirá tomar 
decisões acerca do negócio. 
 
 
 Questões que poderíamos colocar em pauta: 
 
• O que ocorreu em 2019 que reduziu de 26% para 17% o número de hóspedes? 
• Quais informações temos disponíveis para traçar novas estratégias? 
• Existem caminhos alternativos contidos no Big Data? 
• Quais as tendências no setor?Outros questionamentos devem ser feitos para que o negócio retome o seu 
crescimento. 
 
A tabela a seguir corresponde a uma composição da população do Brasil entre os 
anos de 2000 e 2010. Os dados abaixo são apenas de caráter informativo para nos 
ajudar a entender sobre o tema de apresentação e análise gráfica (os dados são 
fictícios). 
 
 
 
2000 2010 
Branca 75704 Branca 91298 
Parda 62316 Parda% Parda% 
Preta 7355 Preta 10554 
Amarela 630 Amarela 761 
Indígena 294 Indígena 734 
Sem 
declaração 534 
Sem 
declaração 1206675 
Total 146833 Total 1375340 
Tabela 3: BRASIL - Composição da População por Raça, 2000/2012-
Dados fictícios 
 
 
 
2000 % 2010 % 
Branca 75704 51,56% Branca 91298 6,64% 
Parda 62316 42,44% Parda% Parda% 4,75% 
Preta 7355 5,01% Preta 10554 0,77% 
Amarela 630 0,43% Amarela 761 0,06% 
Indígena 294 0,20% Indígena 734 0,05% 
Sem 
declaração 534 0,36% Sem declaração 1206675 87,74% 
Total 146833 Total 1375340 
 
Tabela 4: BRASIL - Composição da População por Raça, 2000/2012-Dados fictícios 
 
Em nosso exemplo acima, após a inserção dos dados estatísticos você consegue 
perceber que no ano de 2010 87.74% das pessoas não fazem parte de nenhuma raça 
ou não se declaram parte? Será que existe alguma oportunidade dentro dessa 
informação? 
 
Este tipo de informação 
apresentado na tabela 
denominamos como 
cronológico ou histórico, estas 
informações correspondem a 
variáveis ligadas a intervalo de 
tempo. Essa tabela 
corresponde a uma maneira de 
apresentar os dados dos 
hóspedes de um determinado 
hotel, veremos abaixo uma 
outra forma de apresentar os 
mesmos dados. 
 
 
Gráfico 2: 2010-Público sem declaração Gráfico 3 2000-Declaração parda 
 
 
Após análise gráfica e exposição dos dados da tabela conseguimos identificar que as 
pessoas que se declararam parda no ano 2000 ou até de outras etnias não mais o 
fazem. Por quê? quais eventos aconteceram? Quais fatos precisam ser analisados? e 
agora cabe ao cientista identificar outras variáveis para realizar o confronto das dos 
dados e explorar as oportunidades contidas no mesmo. 
 
 
 
 
 
Encerramento 
 
 
Pergunta 1 
 
Quais os conceitos fundamentais de estatística 
utilizados pelos cientistas de dados? 
 
Através Da aplicação da estatística conseguimos aplicar os conceitos de Amostragem, 
Estatística descritiva (Média, Mediana, Modal), Distribuições, Probabilidades. 
 
Qual a finalidade e utilidade da Análise Exploratória de 
Dados(AED)? 
 
Com análise exploratória é possível distribuir e organização de dados, aprender com 
os dados e extrair o máximo de informações quantitativas. Vimos o que são outliers e 
missing neste tópico. 
 
Quais maneiras encontro para representar e analisar 
dados? 
 
Foi utilizado neste tópico a representação de dados através de tabelas e gráficos. 
alguns exemplos que exploramos tivemos que acrescentar dados percentuais com a 
finalidade de analisar e obter informações relevantes. 
 
Resumo da Unidade 
 
Nesta unidade foi estudado alguns conceitos fundamentais de estatística, como por 
exemplo, o conceito de amostragem ou população. Amostragem é o experimento 
realizado em apenas uma parte representante do todo. Observamos também outros 
conceitos importantes para a ciência de dados dentro da área estatística, por exemplo, 
estatística descritiva, que através de fórmulas é possível encontrar valores médios, 
medianos e moda que são os valores com maior frequência. Foi visto o assunto sobre 
distribuição ou representação gráfica onde foi utilizado um gráfico de distribuição para 
nos ajudar entender este tópico. Nós utilizamos também dentro da estatística mais um 
conceito que é o de probabilidade, que é a possibilidade de um evento ocorrer. 
 
 
Nesta unidade informações também estudamos análise exploratória e as etapas que 
fazem parte desta análise, como organizar dados e dentro dessa organização obter 
informações, aprendemos sobre pré-processamento de dados e a sua importância 
com a utilização desta técnica, e algumas etapas como a limpeza dos dados e a 
transformação dos mesmos em informações úteis. 
 
Por fim, aprendemos sobre a representação e análise de gráficos estatísticos onde 
através dos mesmos conseguimos investigar informações contidas nos dados e 
acerca deles analisar para tomar decisões. 
 
 
 
 
 
Para aprofundar e aprimorar os seus conhecimentos sobre os assuntos 
abordados nessa unidade, não deixe de consultar as referências 
bibliográficas básicas e complementares disponíveis no plano de 
ensino publicado na página inicial da disciplina.

Mais conteúdos dessa disciplina