Prévia do material em texto
Análise exploratória de dados e Análise Estatística Com o crescimento diário do volume de dados através das redes sociais, faz-se necessário explorar esses dados com a finalidade de obter informações e através das mesmas explorar oportunidades contidas no Big Data. Através da técnica de análise exploratória de dados e com a utilização da estatística descritiva é possível criar tabelas com informações percentuais onde as mesmas são capazes de nortear o gestor no processo decisório, dando ao mesmo um maior nível de assertividade baseada nos dados. Também é possível representar os dados e informações percentuais em gráficos onde sua análise poupa tempo e recursos no processo de exploração e decisão. Você verá que é possível utilizar a análise exploratória de dados para tomar decisões baseadas nas informações que serão extraídas das tabelas exemplo em nosso texto. Para que isto seja possível, vamos entender alguns passos importantes sobre limpeza de dados, exploração dos dados e transformação dos dados e através deles gerar análises gráficas e criar variáveis individuais, comparações entre outras técnicas. Esperamos que esteja pronto para iniciar esta jornada de conhecimento e oportunidades para a sua carreira. Objetivos Ao final desta unidade, você deverá ser capaz de: • Analisar dados previamente obtidos com aplicação de técnicas estatísticas Conteúdo Programático Esta unidade está organizada de acordo com os seguintes temas: • Tema 1 - Estatística Básica aplicada à ciência de dados • Tema 2 - Análise exploratória e pré-processamento de dados • Tema 3 - Representação e Análise de Gráficos Estatísticos Com a análise exploratória de dados é possível obter informações através de análises gráficas, mas como montar uma tabela e quais aspectos devemos levar em consideração nesta modelagem? Acesse: Os dados estatísticos e a representação gráfica que irá lhe ajudar a entender melhor sobre alguns processos de análise exploratória de dados. Tema 1 Estatística Básica aplicada à ciência de dados Quais os conceitos fundamentais de estatística utilizados pelos cientistas de dados? Título nível 1 O cientista de dados é o profissional que possui habilidades e conhecimentos nas áreas de programação, Ciência da Computação, machine learning e utilizam a matemática e estatística para a realização de análises sobre os dados obtidos e armazenados. Sobre a estatística podemos afirmar que é um ramo da matemática que está ligada diretamente a coleta e análise de dados e a interpretação e apresentação do mesmo. A estatística é utilizada na ciência de dados em quase todos os aspectos necessários para limpar dados, analisar dados, transformar dados e também no processo de atualização de algoritmos com base na aprendizagem de máquina e isto aumenta a percepção de descoberta de informações contidas no Big Data. Vamos neste momento conhecer alguns aspectos e conceitos básicos e fundamentais em estatística de grande importância na área de ciência de dados Conceito de Amostragem Um dos conceitos importantes dentro da área estatística e para que seja possível garimpar informações é o de população, que é o grande volume de dados em sua forma bruta, que será utilizado para um teste ou experimento. Não é aconselhável medir padrões e tendências em toda a população, e por este motivo utilizamos a estatística para analisar uma parte destes dados que chamamos de amostra e a mesma irá representar os padrões de todo o volume de dados armazenado. Em resumo, amostra é uma parte do todo que irá servir como espelho para analisar os dados e obter informações. Utilizando a estatística sobre uma amostra é possível que o cientista de dados utilize cálculos sobre o conjunto de dados. Após esses cálculos é possível usar probabilidades e suposições para se ter certeza sobre as tendências dentro do volume de dados ou até prever alguns eventos futuros contidos no Big Data. Conceito de Estatística Descritiva Um dos conceitos importantes dentro da área estatística e para que seja possível garimpar informações é o de população, que é o grande volume de dados em sua forma bruta, que será utilizado para um teste ou experimento. Não é aconselhável medir padrões e tendências em toda a população, e por este motivo utilizamos a estatística para analisar uma parte destes dados que chamamos de amostra e a mesma irá representar os padrões de todo o volume de dados armazenado. Em resumo, amostra é uma parte do todo que irá servir como espelho para analisar os dados e obter informações. Como previsto neste subtítulo a estatística descritiva ela tem o papel de descrever os dados, ou seja, ela permite compreender as características dos dados obtidos. Curiosidade Não devemos confundir este tópico com o anterior, aqui não precisamos prever ou fazer suposições inferências sobre os dados trabalhados, apenas devemos fornecer algumas descrições da amostra de dados que possuímos. A estatística descritiva é calculada a partir dos dados. As medidas de tendências centrais (Média, Moda e a Mediana) são aplicadas em conjunto de dados numéricos na estatística. Veja alguns exemplos de cálculos que podem ser realizados com esta técnica: Média - Cálculo do valor médio dos dados Na escola, Celso Barreto realizou algumas atividades avaliativas onde obteve os seguintes resultados: Prova-8,0, teste-9,0 e um trabalho-7,0 Para se calcular a média utilizamos a seguinte fórmula: x= (x1+x2+...xn)/n , ou seja, somaremos todos os valores e vamos dividir pela quantidade total de itens contidos na soma. x = (8 + 9 + 7)/3 | Resultado : 8,0 Mediana (Md) – o valor central se ordenarmos os dados em ordem crescente e dividirmos exatamente pela metade. Para que seja possível calcular a mediana é necessário seguir alguns passos iniciais, são eles: • Ordenar os dados em ordem crescente; • Verificar se o número de elementos contidos no conjunto de dados for par, caso sim, a mediana será encontrada pela divisão do resultado dos valores centrais, (a + b)/2. • Se a quantidade de elementos for ímpar, a mediana é o valor central. Vamos ver um exemplo: • Conjunto A = {5, 3, 10} • Conjunto B = {6, 4, 7, 2} • Conjunto C = {6, 7, 2, 1, 8} Colocar em ordem crescente: Conjunto A = {3,5, 10} | Conjunto B = {2, 4, 6, 7} | Conjunto C = {1, 2, 6, 7, 8} • Quantidade de elementos ímpares: Conjunto A = {3, 5, 10} => Md =3 • Número de elementos contidos no conjunto de dados for par: Conjunto B = {2, 4, 6, 7} => Md = (4 + 6)/2 = 5 • Número de elementos contidos no conjunto de dados for ímpar. C = {1, 2, 6, 7, 8} => Md = 6 Média - Cálculo do valor médio dos dados Conjunto A = {2, 25, 4, 2, 3} | B = {18, 22, 2, 22, 7, 2} No conjunto A observe que o número 2 é o que mais se repete, portanto ele será a nossa moda, Mo=2. No conjunto B, existem 2 números que se repetem: 2 e 22. Este conjunto possui duas modas, então chamamos o conjunto B de bimodal. Distribuições Uma distribuição nada mais é do que a representação gráfica de determinados valores mostrando Com que frequência este valor é exibido no conjunto de dados. O gráfico gerado através da distribuição tem o formato semelhante a uma curva que pode ser inclinada para o lado direito ou esquerdo. Probabilidade A probabilidade é de 16,7%, mas como chegamos a esta conclusão? Apenas observamos o valor desejado sobre a quantidade de possibilidades deste evento acontecer. 1/6 = 0,167 ↔; 16,7%. E se eu jogasse o dado 3 vezes, qual a probabilidade do mesmo evento ocorrer? 1/6 = 0,167 | 1/6 = 0,167 | 1/6 = 0,167 0,167 * 0,167 * 0,167 = 0,005 Esperamos que através destes exemplos o conceito de probabilidade tenha sido esclarecido.Para se aprofundar sobre a probabilidade, acesse a Minha Biblioteca e leia as páginas 71 a 74 do livro: Probabilidade e Estatística para Ciências Exatas, NAVIDI, William. Porto Alegre, 2012. ISBN: 9788580550740. Ainda existem os conceitos de viés, variância e correlação que você poderá saber facilmente através do livro acima. Tema 2 Análise exploratória e pré-processamento de dados Qual a finalidade e utilidade da Análise Exploratória de Dados(AED)? Finalidade da Análise Exploratória de Dados e Suas Etapas O analista ele precisa desenvolver o entendimento básico acerca dos dados obtidos, das relações que existem entre os dados e as variáveis que serão analisadas. Antes da aplicação de técnicas estatísticas é feito uma análise exploratória de dados(AED), com a finalidade de examinar os dados de maneira prévia à aplicação das técnicas de cálculo.Conforme FERREIRA (2021): “ A finalidade da análise exploratória de dados (AED) é verificar os dados, para qualquer aplicação estatística. Com isso, obtemos entendimento sobre os dados coletados e, principalmente, sobre as relações existentes entre as variáveis analisadas. FERREIRA, Rafael.G. C.; MIRANDA, Leandro.B.A. D.; PINTO, Rafael. A.; AL., et. Preparação e Análise Exploratória de Dados. Porto Alegre: Grupo A, 2021. p.71-74. ISBN: 9786556902890. ” Ao obter os dados que foram previamente digitados em um banco de dados de maneira apropriada, segue-se para o próximo passo que é a análise descritiva. Esta etapa torna-se importante e muito relevante pois, é através dela que o pesquisador consegue familiaridade com os dados a ponto de organizá-los e sintetizá-los com foco em obter informações acerca das questões estudadas e através delas conseguir respostas. Organizar os dados e deixá-los prontos a qualquer técnica estatística. Realizar uma análise gráfica da natureza das variáveis individuais que permita extrair informações quantitativas Outliers: É um valor que foge da normalidade e poderá causar anomalias nos resultados obtidos. Missing: Valores que não foram encontrados em sua busca Conforme a nossa tabela abaixo Existem algumas estratégias que podem ser aplicadas no processo da exploração de dados. Através do trabalho de mineração de dados é possível indicar qual o melhor modelo ou estratégia a ser aplicada. Abordagem Estratégia aplicada Estatística clássica Problema → Dados → Modelo → Análise Estatística Bayesiana Problema → Dados → Modelo Priori → Análise AED Problema → Dados → Análise → Modelo Observe que a análise exploratória de dados encontrada na última linha da tabela acima, esta vai além do uso descritivo da estatística, pois a mesma sempre busca se aprofundar no processo de resumo dos dados sem resumir a quantidade de informações contida nele. Para se aprofundar sobre este assunto, acesse a Minha Biblioteca e leia as páginas 13 a 14 do livro: FERREIRA, Rafael G. Preparação e análise exploratória de dados. Porto Alegre, 2021. ISBN: 9786556902890 Pré-processamento de Dados - Conceito e Importância m profissional que trabalha com dados ele gasta a maior parte do seu tempo em uma atividade intensa de pré-processamento de dados. Esta etapa consome a maior parte do seu tempo, em torno de 70% a 80%, devido ao esforço que é realizado pelo cientista com a finalidade de preparação, organização e estruturação dos dados a serem trabalhados. Esta etapa fundamental acontece antes da realização das análises e predições. Realizar uma análise gráfica da natureza das variáveis individuais que permita extrair informações quantitativas Avaliar após um exame gráfico a relação entre as variáveis de maneira descritiva que quantifique o grau de inter- relação entre as variáveis. Estar atento a possíveis casos atípicos (outliers); Estar atento a presença de possíveis dados Ausentes (missing); Técnicas de Pré-Processamento Como visto anteriormente sobre o processamento de dados e a sua finalidade, o mesmo resume-se em transformar os dados brutos em informações que sejam úteis e relevantes ao negócio. Para que isto seja possível existem três passos principais que estão envolvidos nesse processo, são eles: limpeza dos dados, transformação dos dados e redução dos dados. Em cada uma dessas técnicas é desenvolvido diversas atividades pelo cientista. Curiosidade • Limpeza dos Dados: Nesta etapa está envolvido preenchimento de muitos dados que estão ausentes a remoção de valores afastados do objetivo e inconsistentes. • Transformação dos Dados: Aqui acontece a transformação dos dados originais em outros formatos adequados à mineração • Redução dos Dados: Nesta etapa é selecionado apenas os dados que são relevantes ao processo Para que esta etapa de pré-processamento de dados possa ocorrer de maneira eficiente é necessário que o analista escolha bem as suas variáveis, pois são elas que fornecerão as informações necessárias acerca dos dados. Estas informações podem ser quantitativas, que serão expressas em valores numéricos, ou qualitativas. Vale ressaltar que, nesta etapa é definida a qualidade dos dados que serão analisados, pois ela impacta diretamente no modelo de previsão que será gerado a partir desses dados. Vídeo Para saber mais, assista ao vídeo publicado na unidade da disciplina no Ambiente Virtual de Aprendizagem. file:///C:/Workspace/Web%20Design/WebDesignNEAD/CDI_U1/cdi/u2/tema-2.htm%23pop1 file:///C:/Workspace/Web%20Design/WebDesignNEAD/CDI_U1/cdi/u2/tema-2.htm%23pop1 Tema 3 Representação e Análise de Gráficos Estatísticos Quais maneiras encontro para representar e analisar dados? A análise gráfica dos dados estatísticos apresenta grande importância pois informa numericamente um fato ou algum fenômeno estudado. Gráficos são utilizados para facilitar a análise dos dados e trazem praticidade, e facilidade em sua interpretação. Vamos analisar a tabela a seguir sobre a hospedagem do hotel Celso Barreto: Ano Quantidade de Hóspedes 2016 301 2017 387 2018 405 2019 257 2020 131 2021 53 Tabela 1: Hóspedes do Hotel Celso Barreto Ano Quantidade de Hóspedes % 2016 301 20% 2017 387 25% 2018 405 26% 2019 257 17% 2020 131 9% 2021 53 3% Total 1534 100% Tabela 2: Porcentagem de Hóspedes do Hotel Celso Barreto Este tipo de informação apresentado na tabela denominamos como cronológico ou histórico, estas informações correspondem a variáveis ligadas a intervalo de tempo. Essa tabela corresponde a uma maneira de apresentar os dados dos hóspedes de um determinado hotel, veremos abaixo uma outra forma de apresentar os mesmos dados. Gráfico 1: Hóspedes do Hotel Celso Barreto Observe que em nossa segunda a tabela, foi acrescentado uma coluna responsável pelas informações de porcentagem, e observa-se uma diminuição na quantidade de hóspedes do hotel, estas informações em porcentagem nos ajuda a observar que algum fenômeno impactou diretamente na quantidade de clientes. Esta queda deu-se a partir do ano de 2019. Por que será? Neste momento, o cientista de dados irá investigar as informações contidas nos dados e no mundo dos negócios que envolvem hospedagem. Observe também que 1534 hóspedes apenas 3% deles correspondem ao ano de 2021 ou seja, existe algum fenômeno ocorrendo que está prejudicando diretamente a quantidade de hóspedes no hotel. Através da análise e apresentação dos dados o gestor conseguirá tomar decisões acerca do negócio. Questões que poderíamos colocar em pauta: • O que ocorreu em 2019 que reduziu de 26% para 17% o número de hóspedes? • Quais informações temos disponíveis para traçar novas estratégias? • Existem caminhos alternativos contidos no Big Data? • Quais as tendências no setor?Outros questionamentos devem ser feitos para que o negócio retome o seu crescimento. A tabela a seguir corresponde a uma composição da população do Brasil entre os anos de 2000 e 2010. Os dados abaixo são apenas de caráter informativo para nos ajudar a entender sobre o tema de apresentação e análise gráfica (os dados são fictícios). 2000 2010 Branca 75704 Branca 91298 Parda 62316 Parda% Parda% Preta 7355 Preta 10554 Amarela 630 Amarela 761 Indígena 294 Indígena 734 Sem declaração 534 Sem declaração 1206675 Total 146833 Total 1375340 Tabela 3: BRASIL - Composição da População por Raça, 2000/2012- Dados fictícios 2000 % 2010 % Branca 75704 51,56% Branca 91298 6,64% Parda 62316 42,44% Parda% Parda% 4,75% Preta 7355 5,01% Preta 10554 0,77% Amarela 630 0,43% Amarela 761 0,06% Indígena 294 0,20% Indígena 734 0,05% Sem declaração 534 0,36% Sem declaração 1206675 87,74% Total 146833 Total 1375340 Tabela 4: BRASIL - Composição da População por Raça, 2000/2012-Dados fictícios Em nosso exemplo acima, após a inserção dos dados estatísticos você consegue perceber que no ano de 2010 87.74% das pessoas não fazem parte de nenhuma raça ou não se declaram parte? Será que existe alguma oportunidade dentro dessa informação? Este tipo de informação apresentado na tabela denominamos como cronológico ou histórico, estas informações correspondem a variáveis ligadas a intervalo de tempo. Essa tabela corresponde a uma maneira de apresentar os dados dos hóspedes de um determinado hotel, veremos abaixo uma outra forma de apresentar os mesmos dados. Gráfico 2: 2010-Público sem declaração Gráfico 3 2000-Declaração parda Após análise gráfica e exposição dos dados da tabela conseguimos identificar que as pessoas que se declararam parda no ano 2000 ou até de outras etnias não mais o fazem. Por quê? quais eventos aconteceram? Quais fatos precisam ser analisados? e agora cabe ao cientista identificar outras variáveis para realizar o confronto das dos dados e explorar as oportunidades contidas no mesmo. Encerramento Pergunta 1 Quais os conceitos fundamentais de estatística utilizados pelos cientistas de dados? Através Da aplicação da estatística conseguimos aplicar os conceitos de Amostragem, Estatística descritiva (Média, Mediana, Modal), Distribuições, Probabilidades. Qual a finalidade e utilidade da Análise Exploratória de Dados(AED)? Com análise exploratória é possível distribuir e organização de dados, aprender com os dados e extrair o máximo de informações quantitativas. Vimos o que são outliers e missing neste tópico. Quais maneiras encontro para representar e analisar dados? Foi utilizado neste tópico a representação de dados através de tabelas e gráficos. alguns exemplos que exploramos tivemos que acrescentar dados percentuais com a finalidade de analisar e obter informações relevantes. Resumo da Unidade Nesta unidade foi estudado alguns conceitos fundamentais de estatística, como por exemplo, o conceito de amostragem ou população. Amostragem é o experimento realizado em apenas uma parte representante do todo. Observamos também outros conceitos importantes para a ciência de dados dentro da área estatística, por exemplo, estatística descritiva, que através de fórmulas é possível encontrar valores médios, medianos e moda que são os valores com maior frequência. Foi visto o assunto sobre distribuição ou representação gráfica onde foi utilizado um gráfico de distribuição para nos ajudar entender este tópico. Nós utilizamos também dentro da estatística mais um conceito que é o de probabilidade, que é a possibilidade de um evento ocorrer. Nesta unidade informações também estudamos análise exploratória e as etapas que fazem parte desta análise, como organizar dados e dentro dessa organização obter informações, aprendemos sobre pré-processamento de dados e a sua importância com a utilização desta técnica, e algumas etapas como a limpeza dos dados e a transformação dos mesmos em informações úteis. Por fim, aprendemos sobre a representação e análise de gráficos estatísticos onde através dos mesmos conseguimos investigar informações contidas nos dados e acerca deles analisar para tomar decisões. Para aprofundar e aprimorar os seus conhecimentos sobre os assuntos abordados nessa unidade, não deixe de consultar as referências bibliográficas básicas e complementares disponíveis no plano de ensino publicado na página inicial da disciplina.