Baixe o app para aproveitar ainda mais
Prévia do material em texto
Big Data Real-Time Analytics com Python e Spark www.datascienceacademy.com.br Análise Estatística de Dados www.datascienceacademy.com.br Os números constituem a única verdade universal. Nathanael West www.datascienceacademy.com.br Introdução Análise Estatística de Dados www.datascienceacademy.com.br Introdução O que é Estatística? www.datascienceacademy.com.br Introdução É a ciência que nos permite aprender a partir dos dados. www.datascienceacademy.com.br Introdução Com a Estatística nós podemos: www.datascienceacademy.com.br Introdução Coletar dados www.datascienceacademy.com.br O principal objetivo é determinar quais os dados são mais relevantes no momento do levantamento dos dados. A qualidade e confiabilidade da análise estatística está diretamente ligada à qualidade e a confiabilidade dos dados. Introdução Coletar Organizar Apresentar Descrever Interpretar os Dados www.datascienceacademy.com.br Introdução Tipos de Dados www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br Introdução Sistema de Cotas Branco Pardo Negro www.datascienceacademy.com.br Introdução Idade dos Estudantes 17 18 1 7 1919 27 20 25 www.datascienceacademy.com.br Tipos de Dados Qualitativos (categóricos) Quantitativos (numéricos) Nominais Ordinais Discretas Contínuas • Profissão • Sexo • Religião • Escolaridade • Classe Social • Fila • Número de Filhos • Número de carros • Número de acessos • Altura • Peso • Salário www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br Dados Qualitativos Nominais – representam descrições para os dados e não permitem ranqueamento. Exemplo: CEP (70.098-080). www.datascienceacademy.com.br Dados Qualitativos Ordinais - existe uma ordenação entre as categorias (ranqueamento) e os dados podem ser medidos. www.datascienceacademy.com.br Dados Quantitativos Discretos – valores baseados em observações que podem ser contados, normalmente representados por valores inteiros. www.datascienceacademy.com.br Dados Quantitativos Contínuos – valores baseados em observações que podem ser medidas e normalmente representados por valores decimais. www.datascienceacademy.com.br Introdução Exercício www.datascienceacademy.com.br Introdução Dados Tipo de Dados 1 – Masculino / 2 - Feminino Branco / Pardo / Negro 3.125,44 3 filhos 1 – Acima da Média / 2 – Abaixo da Média Qualitativo Quantitativo Discreto Quantitativo Contínuo www.datascienceacademy.com.br Introdução Níveis de Medição dos Dados Nominal Ordinal Intervalar Razão/Ratio www.datascienceacademy.com.br Introdução A População é a coleção completa de todos os dados de interesse que estão sob observação. www.datascienceacademy.com.br População www.datascienceacademy.com.br Introdução Censo é a colação de dados de cada membro da população www.datascienceacademy.com.br Introdução O tamanho da população = número de membros www.datascienceacademy.com.br Introdução O tamanho da população = número de membros www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br Roraima 505,7 mil 0,2% São Paulo 44,4 milhões 21,7% 204.450.649 Número de Brasileiros = N = População Minas Gerais 20,86 milhões Bahia 15,2 milhões Rio de Janeiro 16,55 milhões Fonte IBGE 2010 www.datascienceacademy.com.br Roraima 505,7 mil 0,2% São Paulo 44,4 milhões 21,7% 204.450.649 Número de Brasileiros = N = População Minas Gerais 20,86 milhões Bahia 15,2 milhões Rio de Janeiro 16,55 milhões Fonte IBGE 2010 1,09% da população é amarela www.datascienceacademy.com.br Introdução Amostra é a parte da população da qual os dados foram recolhidos. www.datascienceacademy.com.br Introdução O Tamanho da Amostra = número de objetos pertencentes à amostra www.datascienceacademy.com.br www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br População www.datascienceacademy.com.br Amostra 18% = 180 g/L www.datascienceacademy.com.br Introdução Investigação: O propósito de um estudo estatístico está na razão ou motivo da pesquisa ou investigação. www.datascienceacademy.com.br Introdução Perguntas tais: Quem são os membros de interesse da população? Quais dados são os mais relevantes para pesquisa? Como os dados devem ser coletados? www.datascienceacademy.com.br Introdução Exercício www.datascienceacademy.com.br Introdução Identificar o problema a ser investigado da população e da amostra a seguir. E determinar se a amostra é representativa da população. www.datascienceacademy.com.br Introdução A Universidade de Brasília, deseja saber a nota média do Enem para os alunos que se candidatam para o curso de medicina. E que estão cursando a disciplina Fundamentos de Morfologia. www.datascienceacademy.com.br Introdução Métodos de Amostragem Amostragem: é a técnica, processo ou a pesquisa que podem ser realizadas para obter uma amostra. www.datascienceacademy.com.br Introdução Amostragem Amostragem Probabilística Aleatória Simples Sistemática Estratificada Conglomerados Conveniência Reamostragem (Bootstrap) Amostragem Não-Probabilistica www.datascienceacademy.com.br Introdução Amostragem probabilística é uma amostra em que todos os membros da população tem chance de pertencer a amostra. www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br Introdução Amostragem Não Probabilística A amostra em que a probabilidade de selecionar um membro da população para a amostra, não é conhecida, é criada através de amostragem não-probabilística. www.datascienceacademy.com.br Introdução Pesquisa de internet, aquelas enquetes que você vê quando acessa os mais diversos sites. www.datascienceacademy.com.br Introdução As pessoas ficam impressionadas quando veem os números nas pesquisas, normalmente respondidas por milhares de pessoas (internautas). www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br Introdução Sem querer entrar em polêmicas aqui, talvez você se lembre de uma pesquisa feita no site da FIFA alguns anos atrás. Nela, o organizador perguntava: Quem foi o melhor jogador de futebol do século? www.datascienceacademy.com.br Introdução Na pesquisa feita pela internet, Maradona foi escolhido o melhor jogador do século e Pelé ficou em segundo. 1º 2º www.datascienceacademy.com.br Introdução Quando a pesquisa foi feita usando amostragem probabilística (selecionando para a amostra técnicos, jornalistas esportivos, ex-jogadores e profissionais do futebol). www.datascienceacademy.com.br Introdução Maradona ficou em quinto lugar e Pelé em primeiro. 1º 2º 3º 4º 5º www.datascienceacademy.com.br Introdução A que se atribui tal diferença? www.datascienceacademy.com.br Introdução Veja a pesquisa aqui: https://pt.wikipedia.org/wiki/Melhor_Jogador_do_S%C3%A9culo_da_FIFA www.datascienceacademy.com.br https://pt.wikipedia.org/wiki/Melhor_Jogador_do_S%C3%A9culo_da_FIFA Introdução Não ter controle sobre a amostra, reduz muito a confiabilidade dos resultados de análise. www.datascienceacademy.com.br Introdução A amostragem é uma técnica fabulosa, que nos permite obter informações sobre uma população inteira, analisando apenas uma porção dos dados. www.datascienceacademy.com.br Introdução Parâmetro Estatística Valores que descrevem características da população, como média e mediana da população. Valores calculados a partir da amostra, como média e mediana da amostra. www.datascienceacademy.com.br Introdução Erro de amostragem = x - Onde: x = média da amostra = média da população www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br Introdução Em uma pesquisa eleitoral para senador foi divulgado o resultado: 47% 43% 10% Pesquisa Eleitoral Senador A Senador BSenador C www.datascienceacademy.com.br Introdução Considerando uma margem de erro de 0.03 para mais ou para menos: 47% 43% 10% Pesquisa Eleitoral Senador A Senador B Senador C www.datascienceacademy.com.br Introdução Senador A tem a proporção de votos de 47%. A proporção real fica entre: 0,47 + 0,03 = 50% ( para mais) 0,47 – 0,03 = 44% (para menos) 47% 43% 10% Pesquisa Eleitoral Senador A Senador B Senador C Portanto, a margem de erro é a distância entre o valor populacional e o valor amostral. www.datascienceacademy.com.br Introdução Estudos Estatísticos www.datascienceacademy.com.br Introdução Há dois tipos de estudos estatísticos: Observacional Experimental www.datascienceacademy.com.br Introdução Em um estudo de observação, os dados e as características específicas são recolhidas e observadas, entretanto, não há iniciativa de modificar os estudos que estão sendo realizados. www.datascienceacademy.com.br Introdução Exemplo www.datascienceacademy.com.br Introdução 50 alunos receberam um formulário de avaliação educacional. o 25 alunos receberam a instrução de enviar a resposta por e-mail. o 25 alunos receberam a instrução de enviar a resposta por carta sem identificação. www.datascienceacademy.com.br Introdução Em um estudo experimental, cada indivíduo é aleatoriamente atribuído a um grupo de tratamento, em seguida, os dados e as características específicas são observadas e coletadas www.datascienceacademy.com.br Introdução A Análise de Dados é o meio através do qual utilizamos a estatística para apresentar e demonstrar os resultados dos dados que foram avaliados. www.datascienceacademy.com.br Introdução Estatística não tem sido usada apenas por técnicos, mas também por gestores de todos os níveis. Para onde se olha, se vê Estatística sendo aplicada, desde o planejamento corporativo, até decisões simples do dia a dia. www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Análise Estatística de Dados www.datascienceacademy.com.br A matemática é o alfabeto que Deus usou para escrever o universo. Galileu Galilei www.datascienceacademy.com.br Estatística Descritiva www.datascienceacademy.com.br Estatística Descritiva É um conjunto de métodos estatísticos utilizados para descrever as principais características dos dados. www.datascienceacademy.com.br Estatística Descritiva O principal propósito de métodos gráficos é organizar e apresentar os dados de forma gerencial e ágil. www.datascienceacademy.com.br Estatística Descritiva A Estatística Descritiva tem por objetivo sumarizar e mostrar os dados, de forma que se possa rapidamente obter uma visão geral da informação que está sendo analisada. www.datascienceacademy.com.br Estatística Descritiva Por meio da Estatística Descritiva entendemos melhor um conjunto de dados através de suas características. As três principais características são: www.datascienceacademy.com.br Estatística Descritiva Um valor representativo do conjunto de dados. Ex.: uma média www.datascienceacademy.com.br Estatística Descritiva Uma medida de dispersão ou variação. Ex: Variância, desvio padrão. www.datascienceacademy.com.br Estatística Descritiva A natureza ou forma da distribuição dos dados: sino, uniforme ou assimétrica www.datascienceacademy.com.br Estatística Descritiva Visualização de dados www.datascienceacademy.com.br Estatística Descritiva Um dos meios mais simples de descrever dados é através de tabelas de frequência, que refletem as observações feitas nos dados. www.datascienceacademy.com.br Estatística Descritiva Número de tablets vendidos por dia Frequência 0 5 1 8 2 14 3 13 4 6 Exemplo de uma tabela de frequência www.datascienceacademy.com.br Estatística Descritiva Cada linha em uma tabela de frequência corresponde a uma classe. Classe Número de tablets vendidos por dia Frequência 0 5 1 8 2 14 3 13 4 6 www.datascienceacademy.com.br Estatística Descritiva Classe Número de tablets vendidos por dia Frequência 0 5 1 8 2 14 3 13 4 6 Cada classe corresponde a uma categoria em uma tabela de frequência. www.datascienceacademy.com.br Estatística Descritiva Distribuição de Frequência www.datascienceacademy.com.br Distribuição de Frequência Mostra o número de observações de dados que estão em um intervalo específico. www.datascienceacademy.com.br Estatística Descritiva Como construir uma Distribuição de Frequência? www.datascienceacademy.com.br Para construir uma tabela de Distribuição de Frequência nós precisamos: Criar o Rol Definir a Amplitude Determinar o Número de Classes Determinar o Tamanho do Intervalo de Classes Fazer a Distribuição de Frequência 1 2 3 4 5 www.datascienceacademy.com.br Estatística Descritiva Exemplo www.datascienceacademy.com.br Fazer a Distribuição de Frequência das Notas de 30 alunos da Turma C, do Colégio BluSky. www.datascienceacademy.com.br Fazer a Distribuição de Frequência das Notas de 30 alunos da Turma C, do Colégio BluSky. www.datascienceacademy.com.br Colocar os números em uma ordem de grandeza crescente ou decrescente. O rol representa o conjunto dos dados organizados. Criar o Rol é…1 www.datascienceacademy.com.br Estabelecer a diferença entre os valores extremos do conjunto de dados. Definir a Amplitude é…2 Fórmula: At = Vmáx - Vmín Onde: At = Amplitude Total Vmáx = Maior Valor Vmín = Menor Valor www.datascienceacademy.com.br At = Vmáx - Vmín At = 10,0 – 1,0 = 9 Resposta: Amplitude Total é = 9 www.datascienceacademy.com.br Definir a quantidade de intervalos de dados que iremos trabalhar, ou seja, quantas linhas terão a tabela de distribuição de frequência. Determinar o Número de Classes é…3 Para determinar o número de classes nós podemos utilizar: 4 regras: www.datascienceacademy.com.br Resposta: O número de classe é = 6 K = K = 5,4772 K = nn 30 Obs: Nesse caso arredondamos para 6, pois não é possível termos 5,4772 linhas www.datascienceacademy.com.br Realizar a razão da Amplitude Total pelo número de classes. Determinar o Tamanho do Intervalo de Classe é…4 Fórmula: Onde: h= Tamanho do intervalo At = Amplitude Total K = Número de classes h = At K www.datascienceacademy.com.br Resposta: O tamanho do intervalo de classe é = 1,50 h = At K h = 9 6 h = 1,50 www.datascienceacademy.com.br Para tanto, vamos apresentar os 4 tipos de distribuição de Frequência: Montar a sua Tabela de Distribuição de Frequência a partir dos dados coletados selecionando o tipo de distribuição desejada. Fazer a Distribuição de Frequência é…5 www.datascienceacademy.com.br Vamos apresentar os 4 tipos de distribuição de Frequência: Distribuição de Frequência Simples ou Absoluta - fi1 Distribuição de Frequência Relativa Simples - fri2 Distribuição de Frequência Acumulada - Fi Distribuição de Frequência Relativa Acumulada - Fri 3 4 www.datascienceacademy.com.br Distribuição de Frequência Simples ou Absoluta - fi5.1 São os valores que representam o número de dados de cada classe. A soma das frequências simples é igual ao número total dos dados. Fórmula: fi = n www.datascienceacademy.com.br Resposta: Distribuição de Frequência Simples é = 30 Colegio BlueSky - Turma C Notas fi fri Fi Fri 1.0 1 2.0 1 3.0 3 4.0 3 5.0 6 6.0 2 7.0 5 8.0 3 9.0 3 10.0 3 Total 30 fi = n fi = 30 www.datascienceacademy.com.br Permite visualizar os valores das razões entre as Frequências Simples e a Frequência Total. Distribuição de Frequência Relativa Simples - fri5.2 Fórmula: fi fi =fri Sempre = 1 ou 100% www.datascienceacademy.com.br Resposta: Distribuição de Frequência Relativa Simples Colegio BlueSky - Turma C Notas fi fri Fi Fri 1.0 1 1 / 30 3% 2.0 1 1 / 30 3% 3.0 3 3 / 30 10% 4.0 3 3 / 30 10% 5.0 6 6 / 30 20% 6.0 2 2 / 30 7% 7.0 5 5 / 30 17% 8.0 3 3 / 30 10% 9.0 3 3 / 30 10%10.0 3 3 / 30 10% Total 30 30 / 30 100% fi fi =fri fri = 1 30 www.datascienceacademy.com.br Permite visualizar o total das Frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe. Distribuição de Frequência Acumulada - Fi5.3 Fórmula: f1 + f2 + … + fk =Fk www.datascienceacademy.com.br Resposta: Distribuição de Frequência Acumulada Colegio BlueSky - Turma C Notas fi fri Fi Fri 1.0 1 1 / 30 3% 1 2.0 1 1 / 30 3% 2 3.0 3 3 / 30 10% 5 4.0 3 3 / 30 10% 8 5.0 6 6 / 30 20% 14 6.0 2 2 / 30 7% 16 7.0 5 5/ 30 17% 21 8.0 3 3 / 30 10% 24 9.0 3 3 / 30 10% 27 10.0 3 3 / 30 10% 30 Total 30 30 / 30 100% Fk = f1 + f2 + … + fk www.datascienceacademy.com.br Permite visualizar a frequência acumulada da classe, dividida pela frequência total da distribuição. Distribuição de Frequência Relativa Acumulada - Fri5.4 Fórmula: =Fri Fi fi www.datascienceacademy.com.br Resposta: Distribuição de Frequência Relativa Acumulada Fri = Fi fi Colegio BlueSky - Turma C Notas fi fri Fi Fri 1.0 1 1 / 30 3% 1 3% 2.0 1 1 / 30 3% 2 6% 3.0 3 3 / 30 10% 5 16% 4.0 3 3 / 30 10% 8 26% 5.0 6 6 / 30 20% 14 46% 6.0 2 2 / 30 7% 16 53% 7.0 5 5/ 30 17% 21 70% 8.0 3 3 / 30 10% 24 80% 9.0 3 3 / 30 10% 27 90% 10.0 3 3 / 30 10% 30 100% Total 30 30 / 30 100% Fri= 14 30 Obs: Posso demonstrar em % multiplicando por 100 www.datascienceacademy.com.br Estatística Descritiva Visualização de Dados www.datascienceacademy.com.br Nós já sabemos que Dados qualitativos descrevem características dos dados, tais como sexo, nível de educação ou cor dos olhos. Estes tipos de dados são tratados de forma diferente dos dados quantitativos. www.datascienceacademy.com.br Quais as principais ferramentas e/ou elementos usadas para visualização de dados qualitativos? www.datascienceacademy.com.br Tabela de Frequência Gráfico de Barras Gráfico de Pareto Gráfico de Pizza Gráfico de Linha Tabela de Contingência Ramos e Folhas Pontos de Dispersão Histograma Quais as principais ferramentas e/ou elementos usadas para visualização de dados qualitativos? www.datascienceacademy.com.br Gráfico de Barras Grades Frequência A 7 B 14 C 6 D 1 E 0 F 2 www.datascienceacademy.com.br 7 14 6 1 0 2 0 2 4 6 8 10 12 14 16 A B C D E F Fr e q u e n ci a Grades de Notas Frequência Grades Frequência A 7 B 14 C 6 D 1 E 0 F 2 www.datascienceacademy.com.br Gráfico de Pareto Razões de Atraso de Voo Frequência (fi) Frequência Relativa (fri) Frequencia Relativa Acumulada (Fri) Mau Tempo 44 0.489 0.489 Tráfego Aéreo 18 0.200 0.689 Problemas Mecanicos 14 0.156 0.844 Tripulação Reduzida 7 0.078 0.922 Abastecimento 5 0.056 0.978 Outros 2 0.022 1.000 Total 90 1.000 www.datascienceacademy.com.br Gráfico de Pareto Razões de Atraso de Voo Frequência (fi) Frequência Relativa (fri) Frequencia Relativa Acumulada (Fri) Mau Tempo 44 0.489 0.489 Tráfego Aéreo 18 0.200 0.689 Problemas Mecanicos 14 0.156 0.844 Tripulação Reduzida 7 0.078 0.922 Abastecimento 5 0.056 0.978 Outros 2 0.022 1.000 Total 90 1.000 www.datascienceacademy.com.br Gráfico de Pizza Empresa Número Computadores Vendidos HPTP 4228 Dello 3996 Acert 2076 Applex 1135 Tosser 1005 Outros 2837 Total 15277 www.datascienceacademy.com.br Gráfico de Pizza Empresa Número Computadores Vendidos HPTP 4228 Dello 3996 Acert 2076 Applex 1135 Tosser 1005 Outros 2837 Total 15277 HPTP 14% Dello 13% Acert 7% Applex 4%Tosser 3% Outros 9% Total 50% Número Computadores Vendidos HPTP Dello Acert Applex Tosser Outros Total www.datascienceacademy.com.br Gráfico de Linhas Ano Faturamento Vendas XPTO - Milhões de Reais 2004 8.5 2005 10.4 2006 12.5 2007 18.7 2008 11.4 2009 22.8 2010 21.4 2011 23.7 2012 24 2013 25 2014 28.6 2015 32.4 www.datascienceacademy.com.br Gráfico de Linhas Ano Faturamento Vendas XPTO - Milhões de Reais 2004 8.5 2005 10.4 2006 12.5 2007 18.7 2008 11.4 2009 22.8 2010 21.4 2011 23.7 2012 24 2013 25 2014 28.6 2015 32.4 1980 1990 2000 2010 2020 2030 2040 2050 2060 1 2 3 4 5 6 7 8 9 10 11 12 Faturamento de Vendas Ano Faturamento Vendas XPTO - Milhões de Reais www.datascienceacademy.com.br Tabela de Contingência Cliente Sexo Condição de Pagamento 1 Feminino Dinheiro 2 Masculino Cartão 3 Masculino Dinheiro 4 Masculino Dinheiro 5 Feminino Cartão 6 Feminino Cartão 7 Masculino Dinheiro 8 Feminino Cartão 9 Masculino Cartão 10 Feminino Dinheiro 11 Masculino Cartão 12 Feminino Cartão 13 Masculino Dinheiro 14 Feminino Cartão 15 Feminino Dinheiro www.datascienceacademy.com.br Tabela de Contingência Cliente Sexo Condição de Pagamento 1 Feminino Dinheiro 2 Masculino Cartão 3 Masculino Dinheiro 4 Masculino Dinheiro 5 Feminino Cartão 6 Feminino Cartão 7 Masculino Dinheiro 8 Feminino Cartão 9 Masculino Cartão 10 Feminino Dinheiro 11 Masculino Cartão 12 Feminino Cartão 13 Masculino Dinheiro 14 Feminino Cartão 15 Feminino Dinheiro Soma de Cliente Rótulos de Coluna Rótulos de Linha Cartão Dinheiro Total Geral Feminino 45 26 71 Masculino 22 27 49 Total Geral 67 53 120 www.datascienceacademy.com.br Gráfico de Dispersão Tamanho da TV LED Preço da TV R$ 46 2600 46 3980 32 1200 40 1480 26 970 32 1115 46 3400 46 5560 32 2400 40 1120 26 1130 32 1320 www.datascienceacademy.com.br Gráfico de Dispersão Tamanho da TV LED Preço da TV R$ 46 2600 46 3980 32 1200 40 1480 26 970 32 1115 46 3400 46 5560 32 2400 40 1120 26 1130 32 1320 0 1000 2000 3000 4000 5000 6000 0 5 10 15 20 25 30 35 40 45 50 Preço da TV R$ www.datascienceacademy.com.br Histograma Pontuação Campeonato Golf Frequência Frequência Relativa Frequência Relativa Acumulada 275-279 5 0.083 0.083 280-284 17 0.283 0.367 285-289 21 0.350 0.717 290-294 13 0.217 0.933 295-299 3 0.050 0.983 300-304 1 0.017 1.000 Total 60 1.000 www.datascienceacademy.com.br Histograma Pontuação Campeonato Golf Frequência Frequência Relativa Frequência Relativa Acumulada 275-279 5 0.083 0.083 280-284 17 0.283 0.367 285-289 21 0.350 0.717 290-294 13 0.217 0.933 295-299 3 0.050 0.983 300-304 1 0.017 1.000 Total 60 1.000 0 5 10 15 20 25 275-279 280-284 285-289 290-294 295-299 300-304 Fr e q u e n ci a Pontuação Histograma www.datascienceacademy.com.br Histograma Pontuação Campeonato Golf Frequência Frequência Relativa Frequência Relativa Acumulada 275-279 5 0.083 0.083 280-284 17 0.283 0.367 285-289 21 0.350 0.717 290-294 13 0.217 0.933 295-299 3 0.050 0.983 300-304 1 0.017 1.000 Total 60 1.000 0 5 10 15 20 25 275-279 280-284 285-289 290-294 295-299 300-304 Fr e q u e n ci a Pontuação Histograma www.datascienceacademy.com.br Histograma Exemplo www.datascienceacademy.com.br Histograma Considerando uma pesquisa realizada em 4 regiões do país para identificar o número de Taxoplasmose congênita (doença que pode ser fatal ou levar a cegueira, icterícia que é a pele amarelada, convulsões ou retardo mental) em crianças de 0 a 12 anos de idade. www.datascienceacademy.com.br Histograma www.datascienceacademy.com.br Histograma www.datascienceacademy.com.br Histograma www.datascienceacademy.com.br Histograma www.datascienceacademy.com.br O Gráfico Caule e Folha, divide os dados em duas partes: O caule (ramo): são os valores maiores e ficam à esquerda do traço vertical. Caule e Folha www.datascienceacademy.com.br As folhas são os menores valores, ficam à direita do traço vertical. Listando todas folhas à direita de cada caule, podemos graficamente descrever como os dados estão distribuídos. Caule e Folha www.datascienceacademy.com.br A beleza do Caule e folha é a simplicidade. Ele não requer um software para ser construído, mostra cada um dos valores e prove uma visão tipo histograma da distribuição dos dados. Caule e Folha www.datascienceacademy.com.br Caule e Folha Exemplo www.datascienceacademy.com.br Notas dos Exames 80 8678 80 81 82 92 90 79 83 84 95 85 88 80 78 84 79 80 83 79 87 84 80 Considerando essa tabela fictícia de notas de Exame, vamos montar o gráfico de Caule e Folha: www.datascienceacademy.com.br 1º Passo Ordenar os valores. Notas dos Exames 78 78 79 79 79 80 80 80 80 81 81 82 83 83 84 84 84 85 86 87 88 90 92 95 www.datascienceacademy.com.br 2º Passo Traçar a linha vertical www.datascienceacademy.com.br 3º Passo Colocar os valores das dezenas 7 8 9 Notas dos Exames 7 8 78 79 79 79 8 0 80 80 80 81 81 82 83 83 84 84 84 85 86 87 88 9 0 92 95 www.datascienceacademy.com.br 4º Passo Fazer a distribuição das unidades 7 8 9 8 8 9 9 9 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8 0 2 5 Notas dos Exames 78 78 79 79 79 80 80 80 80 81 81 82 83 83 84 84 84 85 86 87 88 90 92 95 www.datascienceacademy.com.br Gráfico Concluído 7 8 9 8 8 9 9 9 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8 0 2 5 Notas dos Exames 78 78 79 79 79 80 80 80 80 81 81 82 83 83 84 84 84 85 86 87 88 90 92 95 www.datascienceacademy.com.br Você como um Analista de Dados deve ter os conceitos de estatística em seu rol de conhecimentos e saber utilizar as ferramentas adequadas para realizar o trabalho de análise de Dados. www.datascienceacademy.com.br www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Medidas de Tendência Central e Dispersão www.datascienceacademy.com.br Os números governam o mundo Pitágoras www.datascienceacademy.com.br Média, Mediana, Desvio Padrão e Variância São as principais medidas de tendência central utilizadas em Análise Exploratória de Dados www.datascienceacademy.com.br Análise Exploratória de Dados Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Estatística DescritivaAltura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M 133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205 __________________________________________________________________ 15 Média = www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M 133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205 __________________________________________________________________ 15 Média = www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M 11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20 __________________________________________________________________ 15 Média = www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M 11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20 __________________________________________________________________ 15 Média = www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M Desvio = 169-133 = 36 www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M Desvio = 169-133 = 36 www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M Desvio = 169-133 = 36 36 ^ 2 = 1296 www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M Variância = Soma dos quadrados de todos os desvios / 15 www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M Std = Raíz quadrada da Variância Variância www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M Q1= www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 13512 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M 133 135 137 145 160 160 168 168 173 173 180 194 194 205 205 www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M www.datascienceacademy.com.br Altura Idade Count 15 15 mean 169 17 std 24.22 3.68 min 133 11 25% 152.5 14.5 50% 168 19 75% 187 19 max 205 22 Altura Idade Sexo 1 133 11 F 2 135 12 M 3 137 11 M 4 145 17 F 5 168 14 F 6 173 15 F 7 194 19 M 8 205 22 M 9 180 19 M 10 160 19 F 11 160 18 M 12 168 22 M 13 173 19 M 14 194 19 F 15 205 20 M Mode = 160 e 19 www.datascienceacademy.com.br Sem dúvida, médias são as formas mais simples de identificar tendências em um conjunto de dados. Entretanto, médias podem trazer armadilhas que levam a conclusões distorcidas. www.datascienceacademy.com.br O que usar? Vantagens Desvantagens Média Relativamente fácil de calcular Fácil de compreender seu significado Pode ser muito afetada por valores extremos Mediana Não é afetada por valores extremos Requer mais esforço para ser determinada que a Média Moda Pode ser usada com dados descritivos Pode não existir em um conjunto de dados Pode não ser única (pode existir mais de uma moda) www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Medidas de Forma www.datascienceacademy.com.br Você quer ficar o resto da sua vida vendendo água com açúcar ou você quer uma chance de mudar o mundo? Steve Jobs www.datascienceacademy.com.br Medidas de Forma As medidas de assimetria (skewness) e curtose (kurtosis) caracterizam a forma da distribuição de elementos da população amostrados em torno da média. www.datascienceacademy.com.br Medidas de Assimetria www.datascienceacademy.com.br Medidas de Assimetria Distribuição Simétrica Distribuição Assimétrica Positiva ou à direita Distribuição Assimétrica Negativa ou à esquerda www.datascienceacademy.com.br Medidas de Curtose www.datascienceacademy.com.br Medidas de Curtose Mesocúrtica www.datascienceacademy.com.br Medidas de Curtose Platicúrtica www.datascienceacademy.com.br Medidas de Curtose Leptocúrtica www.datascienceacademy.com.br Coeficiente de Curtose Se k = 0,263 – curva mesocúrtica Se k > 0,263 – curva platicúrtica Se k < 0,263 – curva leptocúrtica www.datascienceacademy.com.br Coeficiente de Curtose Se k = 0,263 – curva mesocúrtica Se k > 0,263 – curva platicúrtica Se k < 0,263 – curva leptocúrtica www.datascienceacademy.com.br Coeficiente de Curtose Se k = 0,263 – curva mesocúrtica Se k > 0,263 – curva platicúrtica Se k < 0,263 – curva leptocúrtica www.datascienceacademy.com.br Coeficiente de Curtose Se k = 0,263 – curva mesocúrtica Se k > 0,263 – curva platicúrtica Se k < 0,263 – curva leptocúrtica www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Aquilo a que chamamos acaso não é, não pode deixar de ser, senão a causa ignorada de um efeito conhecido. Voltaire www.datascienceacademy.com.br Introdução à Probabilidade Blaise Pascal Pierre de Fermat Carl Friedrich Gauss Lenis Poisson www.datascienceacademy.com.br Introdução à Probabilidade A probabilidade é uma medida matemática do acaso www.datascienceacademy.com.br Introdução à Probabilidade Probabilidade é um valor numérico que indica a chance, ou probabilidade, de um evento específico ocorrer. Este valor numérico vai estar entre 0 e 1 . Se um evento não possui chance de ocorrer, sua probabilidade é 0 (ou 0%) . Se temos certeza sobre a ocorrência do evento, sua probabilidade é 1 (ou 100%). www.datascienceacademy.com.br Introdução à Probabilidade Evento – um ou mais resultados de um experimento. O resultado e/ou resultados são um subconjunto do espaço da amostra. www.datascienceacademy.com.br Introdução à Probabilidade Probabilidade Clássica : é usada quando nós sabemos o número de possíveis resultados do evento de interesse e podemos calcular a probabilidade do evento com a seguinte fórmula: P(A) = Número de possíveis resultados do evento A Número total de possíveis resultados dentro do espaço da amostra Onde: P(A) é a probabilidade de um evento ocorrer. www.datascienceacademy.com.br Introdução à Probabilidade A Probabilidade Empírica, envolve conduzirmos um experimento, para observarmos a frequência com que um evento ocorre. Para calcularmos a probabilidade empírica, usamos a fórmula: P(A) = Frequência em que o evento A ocorre Número total de observações www.datascienceacademy.com.br Introdução à Probabilidade Dados ou experimentos não estão disponíveis para calcular a probabilidade. Usamos Probabilidade Subjetiva, quando: www.datascienceacademy.com.br Introdução à Probabilidade Regra1ª Se P(A) = 1, então podemos garantir que o evento A ocorrerá. www.datascienceacademy.com.br Introdução à Probabilidade Regra2ª Se P(A) = 0, então podemos garantir que o evento A NÃO ocorrerá. www.datascienceacademy.com.br Introdução à Probabilidade Regra3ª A probabilidade de qualquer evento sempre será entre 0 e 1. Probabilidades nunca podem ser negativas ou maior que 1. www.datascienceacademy.com.br Introdução à Probabilidade Regra4ª A soma de todas as probabilidades para um evento simples, em um espaço de amostra, será igual a 1. www.datascienceacademy.com.br Introdução à Probabilidade O complemento do evento A é definido como todos os resultados em um espaço de amostra, que não fazem parte do evento A. Ou seja: P(A) = 1 – P(A’), onde P(A’) é o complemento do evento A. Regra5ª www.datascienceacademy.com.br Introdução à Probabilidade Tabela de Contingência www.datascienceacademy.com.br Introdução à Probabilidade As Tabelas de Contingência são os meios de organizar as informações correspondentes aos dados classificados segundo dois critérios. www.datascienceacademy.com.br Introdução à Probabilidade As Tabelas de Contingência permitem representar os dados quer sejam eles qualitativos ou quantitativos. www.datascienceacademy.com.br Introdução à Probabilidade Nas Tabelas de Contingência podemos ter os dados das linhas representados por um critério e os dados das colunas representados por outro critério totalmente diferente. www.datascienceacademy.com.br Introdução à Probabilidade Nós usamos Tabela de Contingência para comparar 2 variáveis. www.datascienceacademy.com.br Introdução à Probabilidade As Tabelas de Contingência, são muito utilizadas com probabilidades. www.datascienceacademy.com.br Introdução à Probabilidade Exemplo www.datascienceacademy.com.br Introdução à Probabilidade Sexo Grau de Instrução Total 1o Grau 2o Grau 3o Grau Incompleto 3o Grau Completo Pós- Graduação Mestrado Doutorado Masculino (M) 200 250 650 740 150 40 15 2045 Feminino (F) 310 560 800 900 270 80 35 2955 Total 510 810 1450 1640420 120 50 5000 Tabela de Contingência www.datascienceacademy.com.br Introdução à Probabilidade Dessa Tabela de Contingência nós podemos tirar as seguintes conclusões: www.datascienceacademy.com.br Introdução à Probabilidade 1ª Conclusão: O número de homens que concluíram o mestrado é de 40. Sexo Grau de Instrução Total 1o Grau 2o Grau 3o Grau Incompleto 3o Grau Completo Pós- Graduação Mestrado Doutorado Masculino (M) 200 250 650 740 150 40 15 2045 Feminino (F) 310 560 800 900 270 80 35 2955 www.datascienceacademy.com.br Introdução à Probabilidade 2ª Conclusão: A probabilidade de Homens que concluem o doutorado é de apenas 1%. Sexo Grau de Instrução Total 1o Grau 2o Grau 3o Grau Incompleto 3o Grau Completo Pós- Graduação Mestrado Doutorado Masculino (M) 200 250 650 740 150 40 15 2045 Feminino (F) 310 560 800 900 270 80 35 2955 www.datascienceacademy.com.br Introdução à Probabilidade 3ª Conclusão: O número de mulheres com curso superior completo é de 900. Sexo Grau de Instrução Total 1o Grau 2o Grau 3o Grau Incompleto 3o Grau Completo Pós- Graduação Mestrado Doutorado Masculino (M) 200 250 650 740 150 40 15 2045 Feminino (F) 310 560 800 900 270 80 35 2955 www.datascienceacademy.com.br Introdução à Probabilidade 4ª Conclusão: o percentual de mulheres que concluem o 2º grau é de 69%, enquanto que o percentual de homens que concluem o 2º grau é de somente 31%. Sexo Grau de Instrução Total 1o Grau 2o Grau 3o Grau Incompleto 3o Grau Completo Pós- Graduação Mestrado Doutorado Masculino (M) 200 250 650 740 150 40 15 2045 Feminino (F) 310 560 800 900 270 80 35 2955 www.datascienceacademy.com.br Introdução à Probabilidade Ou seja, para essa amostra de estudantes, um Analista de dados pode tirar n conclusões e utilizá-las para realizar diversos cálculos e estruturar sua pesquisa para alcançar os seus objetivos finais. www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br A Matemática apresenta invenções tão sutis que poderão servir não só para satisfazer os curiosos, como também para auxiliar as artes e poupar trabalho aos homens. Descartes www.datascienceacademy.com.br Introdução à Probabilidade Árvore de Decisão www.datascienceacademy.com.br Árvore de Decisão é um instrumento de apoio à tomada de decisão que consiste em uma representação gráfica das alternativas disponíveis, geradas a partir de uma decisão inicial. www.datascienceacademy.com.br Árvore de Decisão é um instrumento de apoio à tomada de decisão que consiste em uma representação gráfica das alternativas disponíveis, geradas a partir de uma decisão inicial. Analista de Dados? Está Estudando Estatística? Está Pensando em Estudar? Vai Perder uma Grande Oportunidade Excelente Salário Conseguirá uma Colocação no Mercado Parabéns!!! www.datascienceacademy.com.br Introdução à Probabilidade Uma das grandes vantagens da Árvore de Decisão é a possibilidade de transformação/decomposição de um problema complexo em diversos subproblemas mais simples. www.datascienceacademy.com.br Introdução à Probabilidade Para efetuar a representação gráfica da Árvore de Decisão são geralmente usadas linhas para identificar a decisão (por exemplo "sim" ou "não") e nós para identificar as questões sobre as quais se deve decidir. www.datascienceacademy.com.br Introdução à Probabilidade Cada um dos ramos formado por linhas e nós termina numa espécie de folha que identifica a consequência mais provável da sequência de decisões tomadas. www.datascienceacademy.com.br Introdução à Probabilidade Além da gestão, Árvores de Decisão são também muito utilizadas em outras áreas, com especial destaque para a criação de algorítmos de computação e análise de dados. www.datascienceacademy.com.br Introdução à Probabilidade Exemplo www.datascienceacademy.com.br Introdução à Probabilidade www.datascienceacademy.com.br Introdução à Probabilidade Árvores de Decisão são similares a regras Se-então. Que é uma estrutura muito usada na implementação de sistemas de computação e em problemas de classificação. www.datascienceacademy.com.br Introdução à Probabilidade Árvores de Decisão são similares a regras Se-então. Que é uma estrutura muito usada na implementação de sistemas de computação e em problemas de classificação. www.datascienceacademy.com.br Introdução à Probabilidade Árvores de Decisão tomam como entrada uma situação descrita por um conjunto de atributos e retorna uma decisão, que é o valor previsto para o valor de entrada. www.datascienceacademy.com.br Introdução à Probabilidade Árvores de Decisão também são muito usadas em aprendizado de máquina (Machine Learning), onde computadores são programados para tomar decisão baseados em respostas aos eventos. www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Uma verdade matemática não é simples nem complicada por si mesma. É uma verdade. Emile Lemoine www.datascienceacademy.com.br Introdução à Probabilidade Análise Combinatória www.datascienceacademy.com.br Introdução à Probabilidade As principais ferramentas da Análise Combinatória são: Permutação Arranjo Combinação www.datascienceacademy.com.br Introdução à Probabilidade Qual delas utilizar para resolver um problema específico? www.datascienceacademy.com.br Introdução à Probabilidade Permutação www.datascienceacademy.com.br Introdução à Probabilidade Uma permutação de n elementos distintos é um agrupamento ordenado desses elementos. www.datascienceacademy.com.br Introdução à Probabilidade Fórmula Permutação= Pn = n! www.datascienceacademy.com.br Introdução à Probabilidade Fórmula Permutação – Quando Usar? www.datascienceacademy.com.br Introdução à Probabilidade Você deve usar a Fórmula Permutação quando você quiser contar quantas possibilidades existem de se organizar um número de objetos de forma distinta. www.datascienceacademy.com.br Introdução à Probabilidade Exemplo www.datascienceacademy.com.br Introdução à Probabilidade Qual o número de anagramas da palavra FORÇA? www.datascienceacademy.com.br Introdução à Probabilidade O número de anagramas da palavra FORÇA é uma permutação de 5 elementos, calculada através de: 5! = 5 x 4 x 3 x 2 x 1 = 120. www.datascienceacademy.com.br Introdução à Probabilidade O número de anagramas da palavra FORÇA é uma permutação de 5 elementos, calculada através de: 5! = 5 x 4 x 3 x 2 x 1 = 120. Uma vez que, para a primeira posição você pode colocar 5 letras. Para a segunda, restaram 4, para a terceira, 3 e assim por diante. www.datascienceacademy.com.br Introdução à Probabilidade Qual o número de filas que podem ser formadas com 15 pessoas? www.datascienceacademy.com.br Introdução à Probabilidade O número de filas que podem ser formadas com 15 pessoas é 15! (15 fatorial), calculada através de: 15! = 15 x 14 x 13 x 12 x 11x...1 Pois, para o primeiro lugar da fila temos 15 possibilidades, para o segundo 14 e assim por diante... www.datascienceacademy.com.br Introdução à Probabilidade Arranjo www.datascienceacademy.com.br Introdução à Probabilidade Um arranjo de n elementos dispostos p a p, com p menor ou igual a n, é uma escolha de p entre esses n objetos na qual a ordem importa. www.datascienceacademy.com.br Introdução à Probabilidade Fórmula Arranjo = www.datascienceacademy.com.br Introdução à Probabilidade Fórmula Arranjo – Quando Usar? www.datascienceacademy.com.br Introdução à Probabilidade Devemos usar o arranjo quando o que importa é a ordem dos elementos. www.datascienceacademy.com.br Introdução à Probabilidade Exemplo www.datascienceacademy.com.br Introdução à Probabilidade Em uma competição de 20 jogadores, quantas são as possibilidades de se formar um pódio com os três primeiros lugares? www.datascienceacademy.com.br Introdução à Probabilidade Note que, neste problema,queremos dispor 20 jogadores em 3 lugares, onde a ordem importa, afinal o pódio formado por Marcelo, por Josias e por Damião não é o mesmo formado por Damião, por Marcelo e por Josias. www.datascienceacademy.com.br Introdução à Probabilidade Outro exemplo é o número de possibilidades de se formar uma foto com n pessoas. www.datascienceacademy.com.br Introdução à Probabilidade Perceba que as permutações nada mais são do que casos particulares de arranjos onde n = p. www.datascienceacademy.com.br Introdução à Probabilidade Combinação www.datascienceacademy.com.br Introdução à Probabilidade As Combinações de n elementos tomados p a p são escolhas não ordenadas desses elementos. www.datascienceacademy.com.br Introdução à Probabilidade Fórmula da Combinação = www.datascienceacademy.com.br Introdução à Probabilidade Fórmula da Combinação – Quando Usar? www.datascienceacademy.com.br Introdução à Probabilidade Devemos usar a combinação quando o importante do resultado deva ser a natureza, ou seja, os elementos devem ser diferentes. www.datascienceacademy.com.br Introdução à Probabilidade Exemplo www.datascienceacademy.com.br Introdução à Probabilidade Como formar uma comissão de 3 pessoas escolhidas entre 10 pessoas? www.datascienceacademy.com.br Introdução à Probabilidade Diferentemente do pódio do exemplo anterior, uma comissão formada por Mauro, por Joana e por Paula é a mesma comissão formada por Joana, por Paula por Mauro. www.datascienceacademy.com.br Introdução à Probabilidade Se desejarmos saber quantas duplas podemos fazer com 7 jogadores de vôlei, usaremos a combinação, uma vez que, o importante é a natureza, ou seja os jogadores devem ser diferentes, pois a dupla Marcelo e Tedy é a mesma que Tedy e Marcelo. www.datascienceacademy.com.br Introdução à Probabilidade Trabalhar como um Analista de dados, requer tomar decisões probabilísticas, avaliar riscos e manipular números. www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Distribuição de Probabilidade www.datascienceacademy.com.br É claro que meus filhos terão computadores, mas antes terão livros. Bill Gates www.datascienceacademy.com.br Em estatística, uma Distribuição de Probabilidade descreve a chance que uma variável (discreta ou contínua) pode assumir ao longo de um espaço de valores. www.datascienceacademy.com.br Variáveis Aleatórias www.datascienceacademy.com.br Variáveis Aleatórias ContínuaDiscreta www.datascienceacademy.com.br Distribuição de Probabilidade Tipos de Distribuição de Probabilidade Distribuição Discreta Binomial Poisson Bernoulli Geométrica Hipergeométrica Distribuição Contínua Normal Uniforme Exponencial Gama tStudent www.datascienceacademy.com.br Distribuição de Probabilidade Discreta Distribuição Binomial www.datascienceacademy.com.br Distribuição de Probabilidade Discreta A Distribuição Binomial é utilizada para descrever cenários em que os resultados de uma variável aleatória podem ser agrupados em duas categorias. www.datascienceacademy.com.br Distribuição de Probabilidade Discreta No geral, as duas categorias de uma distribuição binomial são classificadas como: Sucesso Falha www.datascienceacademy.com.br Portanto, a probabilidade de sucesso podemos chamar de p. E, a probabilidade de falha vamos chamar de q. Distribuição de Probabilidade Discreta www.datascienceacademy.com.br Ou seja: p = 1 – q Onde: p = probabilidade de sucesso q = probabilidade de fracasso Distribuição de Probabilidade Discreta www.datascienceacademy.com.br Distribuição Binomial São realizadas n repetições no experimento, onde n é uma constante. Só existem dois resultados possíveis em cadas repetição, Sucesso e Falha. A probabilidade de sucesso e a de falha permanencem constantes em todas as repetições. Todas as repetições são independentes. Os resultados não são influenciados por resultados externos. www.datascienceacademy.com.br Distribuição Binomial Os parâmetros da Distribuição Binominal são n e p. A Média de uma Distribuição Binomial, representa a média de longo prazo de sucessos esperados, baseado no número de observações. Fórmula: Média = = n . P Onde: n = número de tentativas p = probabilidade de sucesso www.datascienceacademy.com.br Distribuição Binomial A Variância de uma Distribuição Binomial, representa a variação que existe no número de sucessos (p) sobre um número (n) de observações. Fórmula: Variância = = (n.p).(1-p) Onde: n = número de tentativas p = probabilidade de sucesso 2 www.datascienceacademy.com.br Distribuição Binomial Exemplo www.datascienceacademy.com.br Distribuição Binomial Numa fábrica de HD (Discos Rígidos) de computador, um engenheiro extrai uma amostra de HD para cada 15 HD’s aleatoriamente fabricados. Sabendo que 85% dos HD’s são aceitáveis. Qual a probabilidade de que 10 HD’s extraídos sejam aceitáveis? www.datascienceacademy.com.br Distribuição Binomial p = 0,85% (probabilidade de sucesso) q = 0,15% (probabilidade de fracasso) x = 10 n = 15 (amostra extraída) p= 1 – q 0,85 = 1 – q q = 0,15 www.datascienceacademy.com.br Distribuição Binomial Fórmula da Função binomial P (x) = 4,5% www.datascienceacademy.com.br Distribuição Binomial E = 10 x 0.27 E = 2,70 www.datascienceacademy.com.br Distribuição de Probabilidade Discreta Distribuição Poisson www.datascienceacademy.com.br A Distribuição Poisson é utilizada para descrever cenários onde existe a probabilidade de ocorrência de um intervalo contínuo. Distribuição Poisson www.datascienceacademy.com.br Distribuição Poisson O número de ocorrências dependem do tamanho do intervalo. As ocorrências não interferem sobre as ocorrências de intervalos externos. A probabilidade de duas ou mais ocorrências acontecerem num mesmo intervalo de tempo é muito pequena. www.datascienceacademy.com.br Distribuição Poisson O único parâmetro da Distribuição Poisson é chamado λ (lambda), que representa a taxa de eventos por unidade. www.datascienceacademy.com.br Distribuição Poisson www.datascienceacademy.com.br Distribuição Poisson Exemplo www.datascienceacademy.com.br Distribuição Poisson Um consultório médico recebe 5 pacientes por hora. Qual a probabilidade de receber 2 pacientes numa hora aleatória? www.datascienceacademy.com.br Distribuição Poisson X = 2 λ = 5 www.datascienceacademy.com.br Distribuição Poisson X = 2 λ = 5 P= 8,42% www.datascienceacademy.com.br Distribuição Hipergeométrica Distribuição de Probabilidade Discreta www.datascienceacademy.com.br Distribuição Hipergeométrica Um dos pontos chave das Distribuições Binomial e Poisson é que os eventos são independentes uns dos outros. www.datascienceacademy.com.br Distribuição Hipergeométrica Cada amostra de cada experimento é um conjunto novo de dados. www.datascienceacademy.com.br Distribuição Hipergeométrica Desta forma, a probabilidade de sucesso ou de número de ocorrências, se mantém constante. www.datascienceacademy.com.br A Distribuição Hipergeométrica é uma distribuição de probabilidade discreta que descreve o número de sucesso numa sequência de n extrações de uma população finita, ou seja, sem reposição. www.datascienceacademy.com.br A Distribuição Hipergeométrica é usada quando as amostras são colhidas de uma população finita sem ser substituída. www.datascienceacademy.com.br Quando a amostragem é sem substituição, a probabilidade de sucesso muda durante o processo de amostragem, isso viola os requisitos para uma distribuição de probabilidade binomial. Então, nesse caso use a Distribuição Hipergeométrica. www.datascienceacademy.com.br nN xRxnRN C CC xP × = --)( onde: N = Tamanho da população R = O número de sucessos da população n = Tamanho da Amostra x = Número de sucessos da amostra Fórmula da Distribuição Hipergeométrica www.datascienceacademy.com.brDistribuição Hipergeométrica Exemplo www.datascienceacademy.com.br Considerando um comércio onde 5 de 50 contas estão inadimplentes. Se um auditor seleciona aleatoriamente 10 contas sem substituição, qual é a probabilidade de que pelo menos uma conta possa ser inadimplente? Distribuição Hipergeométrica www.datascienceacademy.com.br Precisamos encontrar: P(x ≥ 1) = 1 – P(x = 0) Distribuição Hipergeométrica www.datascienceacademy.com.br Usamos: N = 50 = Tamanho da população R = 5 = O número de sucessos da população n = 10 = Tamanho da Amostra x = 0 = Número de sucessos da amostra Considerando um comércio onde 5 de 50 contas estão inadimplentes. Se um auditor seleciona aleatoriamente 10 contas sem substituição, qual é a probabilidade de que pelo menos uma conta possa ser inadimplente? Distribuição Hipergeométrica www.datascienceacademy.com.br Fórmula: 0.31 (10)!10)!(50 50! (0)!0)!(5 5! (10)!10)!(45 45! = - - × - = × = × = × = -- -- 1050 051045 1050 05010550)0( )( C CC C CC P C CC xP nN xRxnRN Sendo: P(0) = 0.31, P(x ≥ 1) = 1 – P(x = 0) = 1 – 0.31 = 0.69 Distribuição Hipergeométrica www.datascienceacademy.com.br Sendo: P(0) = 0.31, P(x ≥ 1) = 1 – P(x = 0) = 1 – 0.31 = 0.69 Assim, a probabilidade de que pelo menos uma conta inadimplente será encontrada numa amostra de dez contas é de 69%. Distribuição Hipergeométrica www.datascienceacademy.com.br Assim como as outras distribuições, a Distribuição Hipergeométrica também possui média e desvio padrão. Distribuição Hipergeométrica www.datascienceacademy.com.br Fórmula para Média da Distribuição Hipergeométrica onde: N = Tamanho da população R = O número de sucessos da população n = Tamanho da Amostra N nR =m www.datascienceacademy.com.br Fórmula para Desvio Padrão da Distribuição Hipergeométrica onde: N = Tamanho da população R = O número de sucessos da população n = Tamanho da Amostra 1 )( 2 - -- = N nN N RNnR s www.datascienceacademy.com.br Exemplo I Distribuição Hipergeométrica www.datascienceacademy.com.br Para o exemplo da conta inadimplente: A média da Distribuição Hipergeométrica é 1.0 50 (10)(5) === N nR m Distribuição Hipergeométrica www.datascienceacademy.com.br 1.0 50 (10)(5) === N nR m A média é de 1,0: 10% da população é inadimplente (5 de 50) então, nós esperamos que 10% da amostra seja inadimplente (1 de 10). Distribuição Hipergeométrica www.datascienceacademy.com.br Para o exemplo da conta inadimplente: O Desvio Padrão da Distribuição Hipergeométrica é 0.8571.9035)(0.9487)(00.81630.9 150 1050 (50) 5)(10)(5)(50 2 === - -- = - -- = 1 )( 2 N nN N RNnR s σ = 0,8571 representa a variação que esperamos ver no número de contas inadimplentes encontrados em uma amostra de dez contas. www.datascienceacademy.com.br Exemplo II Distribuição Hipergeométrica www.datascienceacademy.com.br Imagine uma rede de supermercados que possuem 22 funcionários, sendo que 8 possuem idade superior a 55 anos (vamos nos referir aos funcionários com mais de 55 anos como “funcionários antigos” para diferenciar do outro grupo, que chamaremos de “funcionários novos”) Distribuição Hipergeométrica www.datascienceacademy.com.br Devido a uma recente crise econômica, o supermercado decide demitir 7 funcionários, destes, 5 são funcionários antigos. Distribuição Hipergeométrica www.datascienceacademy.com.br Se os funcionários foram demitidos randomicamente, qual a probabilidade de eles serem funcionários antigos? Distribuição Hipergeométrica www.datascienceacademy.com.br Esta informação seria útil para advogados tentando identificar se houve ou não discriminação na escolha dos funcionários a serem demitidos. Distribuição Hipergeométrica www.datascienceacademy.com.br Vamos definir como sucesso, um funcionário antigo ser selecionando randomicamente para demissão. Distribuição Hipergeométrica www.datascienceacademy.com.br Este é um exemplo claro de uma amostra de uma população finita, cuja variável não pode ser reposta, pois uma vez que um funcionário foi selecionado para demissão, ele não poderá ser selecionado novamente. Distribuição Hipergeométrica www.datascienceacademy.com.br Consequentemente, a probabilidade de funcionários antigos serem selecionados para demissão, muda a cada seleção. Distribuição Hipergeométrica www.datascienceacademy.com.br Evento A = randomicamente selecionar funcionários antigos para demissão: P(A) = 8 / 22 P(A) = 0.364 Distribuição Hipergeométrica www.datascienceacademy.com.br Entretanto, a probabilidade não é constante neste processo. Distribuição Hipergeométrica www.datascienceacademy.com.br Vamos supor que o primeiro funcionário selecionado para demissão foi um funcionário antigo. Distribuição Hipergeométrica www.datascienceacademy.com.br Qual a probabilidade que o próximo selecionado também seja funcionário antigo? Distribuição Hipergeométrica www.datascienceacademy.com.br Perceba que o número de funcionários antigos diminuiu de 8 para 7, pois um já foi selecionado. Desta forma: P(A) = 7 / 21 = 0.333 Distribuição Hipergeométrica www.datascienceacademy.com.br Perceba que a Probabilidade de Sucesso em nosso exemplo muda, durante o processo de amostragem. Distribuição Hipergeométrica www.datascienceacademy.com.br Isso viola uma das regras da Distribuição Binomial e por isso ela não poderia ser usada neste caso. Distribuição Hipergeométrica www.datascienceacademy.com.br E qual a regra de Distribuição que devemos usar nesse caso? Distribuição Hipergeométrica www.datascienceacademy.com.br Muito bem!!! Usamos a regra de Distribuição Hipergeométrica. Distribuição Hipergeométrica www.datascienceacademy.com.br Distribuição de Probabilidade Continua www.datascienceacademy.com.br Distribuição de Probabilidade Continua Distribuição Normal www.datascienceacademy.com.br Distribuição Normal www.datascienceacademy.com.br A Distribuição Normal é útil quando os dados tendem a estar próximos ao centro da distribuição (próximos da média) e quando valores extremos (outliers) são muito raros. www.datascienceacademy.com.br Distribuição de Probabilidade Continua Distribuição Uniforme www.datascienceacademy.com.br A Distribuição Uniforme é usada para descrever os dados quando todos os valores têm a mesma chance de ocorrer. www.datascienceacademy.com.br Distribuição de Probabilidade Continua Distribuição Exponencial www.datascienceacademy.com.br A Distribuição Exponencial é usada para descrever os dados quando valores mais baixos tendem a dominar a distribuição e quando valores muito altos não ocorrem com frequência . www.datascienceacademy.com.br Distribuição de Probabilidade Continua Distribuição t de Student www.datascienceacademy.com.br A Distribuição t de Student é uma das principais distribuições de probabilidade, com inúmeras aplicações em inferência estatística. www.datascienceacademy.com.br Resumindo www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Quando achamos a matemática e a física teórica muito difíceis, voltamo-nos para o misticismo. Stephen Hawking www.datascienceacademy.com.br Teorema do Limite Central www.datascienceacademy.com.br Teorema do Limite Central Teorema do Limite Central – é fundamental para a estatística, uma vez que diversos procedimentos estatísticos comuns requerem que os dados sejam aproximadamente normais e o Teorema do Limite Central permite aplicar esses procedimentos úteis a população que são fortemente não- normais. www.datascienceacademy.com.br Esse teorema possibilita medir o quanto sua média amostral irá variar, sem ter que pegar outra média amostral para fazer a comparação. Ou seja, permite-nos conduzir alguns procedimentos de inferência sem ter qualquer conhecimento de distribuição da população. Teorema do Limite Central www.datascienceacademy.com.brEsse teorema basicamente diz que sua média amostral tem uma distribuição normal, independente da aparência da distribuição dos dados originais. Teorema do Limite Central www.datascienceacademy.com.br O formato da Distribuição de Frequência está relacionado a concentração de valores no intervalo de variação da variável. Teorema do Limite Central www.datascienceacademy.com.br Formatos de Distribuição de Frequência O formato da Distribuição de Frequência está relacionado a concentração de valores no intervalo de variação da variável. Mudanças de uma medida de variação provocam alterações no aspecto visual do gráfico de Distribuição de Frequencia . O formato de uma distribuição de frequência está relacionado aos conceitos de Simetria e Curtose. www.datascienceacademy.com.br Formatos de Distribuição de Frequência Simetria indica que o formato de distribuição é o mesmo à esquerda e a direita do eixo de um gráfico. www.datascienceacademy.com.br Numa distribuição simétrica a média é o ponto de simetria. Dessa forma, os valores do intervalo serão os mesmos à direita e à esquerda. média www.datascienceacademy.com.br Numa distribuição Unimodal a Simetria implica que a média, mediana e moda são coincidentes, ou estejam muito próximas. Média=moda=mediana www.datascienceacademy.com.br Muitos procedimentos pressupõem que uma Distribuição Normal é uma Distribuição Simétrica. www.datascienceacademy.com.br Formatos de Distribuição de Frequência Assimetria indica variação no formato de distribuição. Assimetria Positiva - Implica em uma concentração maior de valores menores, e o gráfico possuirá uma cauda mais longa à direita. Distribuição Assimétrica Positiva : www.datascienceacademy.com.br Formatos de Distribuição de Frequência Assimetria indica variação no formato de distribuição. Distribuição Assimétrica Negativa Assimetria Negativa - implica em uma concentração de valores maiores, e o gráfico possuirá uma cauda maior à esquerda. www.datascienceacademy.com.br Curtose vem da palavra grega, Kurtos, que significa Curvatura. Esse termo está relacionado com o grau de concentração das observações no centro e nas caudas de distribuição dos gráficos. Ou seja, o grau de achatamento da curva. www.datascienceacademy.com.br Classificação da Curtose Mesocúrtica: quando a concentração das observações ocorre da mesma forma que na Distribuição normal. Leptocúrtica: Ocorre quando há alta concentração de valores no centro e na cauda Platicúrtica: Ocorre quando a concentração no centro é baixa, tornando a distribuição mais achatada que a distribuição normal. www.datascienceacademy.com.br Teorema do Limite Central Distribuição Normal www.datascienceacademy.com.br Distribuição Normal Os valores de grandes conjuntos de dados, normalmente se localizam ao redor da média ou da mediana. Desta forma, um histograma dos dados, mostraria uma curva simétrica bem definida (em forma de sino). www.datascienceacademy.com.br Distribuição Normal Em uma distribuição normal de dados, simétrica, nós podemos esperar que 68%, 95% e 99.7% dos valores estarão em, respectivamente, 1, 2 e 3 desvios padrões acima e abaixo da média. www.datascienceacademy.com.br Distribuição Normal Ou seja, em uma curva simétrica dos dados, praticamente todos os dados estarão em até 3 desvios padrões do centro dos dados (média). www.datascienceacademy.com.br Distribuição Normal Perceba que este conceito somente se aplica, quando os dados criam um histograma simétrico. www.datascienceacademy.com.br A Distribuição Normal também é utilizada para ajudar a medir a precisão de muitas estatísticas, incluindo a média, por meio da utilização de um importante resultado em estatística como o Teorema do Limite Central. Distribuição Normal www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Amostragem www.datascienceacademy.com.br A Matemática não mente. Mente quem faz mau uso dela Albert Einstein www.datascienceacademy.com.br Populações Finitas x Infinitas www.datascienceacademy.com.br Amostragem www.datascienceacademy.com.br Principais Técnicas de Amostragem www.datascienceacademy.com.br Amostragem Probabilística ou Aleatória www.datascienceacademy.com.br Principais Técnicas de Amostragem Probabilística • Amostragem Aleatória Simples • Amostragem Aleatória Simples sem reposição • Amostragem Aleatória Simples com reposição www.datascienceacademy.com.br Amostragem Sistemática www.datascienceacademy.com.br Amostragem Estratificada www.datascienceacademy.com.br Amostragem Por Conglomerados www.datascienceacademy.com.br Resumindo www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br Devemos investigar e aceitar os resultados. Se não resistirem a estes testes, até as palavras de Buda devem ser rejeitadas. Dalai Lama www.datascienceacademy.com.br Teste de Hipótese www.datascienceacademy.com.br Teste de Hipótese Um Teste de Hipótese Estatística é um procedimento de decisão que nos possibilita decidir entre Ho (hipótese nula) ou Ha (hipótese alternativa), com base nas informações contidas na amostra www.datascienceacademy.com.br Teste de Hipótese Ho = é a hipótese que assumimos como verdade para construção do teste Ha = é a hipótese que consideramos caso a hipótese nula não tenha evidência. Erro Tipo I = é a probabilidade de rejeitarmos a hipótese nula quando ela é efetivamente verdadeira Erro Tipo II = é a probabilidade de rejeitarmos a hipótese alternativa quando ela é efetivamente verdadeira. www.datascienceacademy.com.br Formular as hipóteses nula e alternativa. Coletar uma amostra de tamanho n e calcular a média da amostra. Traçar a média da amostra no eixo x da distribuição da amostra. Escolher um nível de significância com base na gravidade do erro tipo I. Calcular a estatística, os valores críticos e a região crítica. Se a média da amostra estiver na região branca do gráfico NÃO rejeitamos a hipótese nula. Se a média da amostra estiver em uma das caudas nós rejeitamos a hipótese nula. Procedimento para o Teste de Hipótese www.datascienceacademy.com.br Teste de Hipótese Teste de Hipótese Unilateral www.datascienceacademy.com.br Teste de Hipótese O teste Unilateral ou Unicaudal é usado quando a hipótese alternativa é expressa como: < ou > www.datascienceacademy.com.br O teste Unilateral ou Unicaudal é usado quando a hipótese alternativa é expressa como < ou >. H0: μ = 1.8 HA: μ > 1.8 H0: μ =1.8 HA: μ < 1.8 Teste Cauda Superior: nós assumimos que μ = 1.8 a menos que a média da amostra seja maior que the 1.8 Teste Cauda Inferior: nós assumimos que μ = 1.8 a menos que a média da amostra seja menor que 1.8 Rejeitar H0 Rejeitar H0 Não rejeitar H0 Não rejeitar H0 0H 1.8 scale x escala Rejeitar H0 Rejeitar H0 Não rejeitar H0 0H Não rejeitar H0 1.8 scale x escala www.datascienceacademy.com.br Se a média estiver dentro da região branca do gráfico, não rejeitamos a hipótese nula, caso contrário, a rejeitamos. Rejeitar H0 Rejeitar H0 Não rejeitar H0 Não rejeitar H0 0H 1.8 scale x escala Teste Unilateral Direito www.datascienceacademy.com.br Se a média estiver dentro da região branca do gráfico, não rejeitamos a hipótese nula, caso contrário, a rejeitamos. Rejeitar H0 Rejeitar H0 Não rejeitar H0 Não rejeitar H0 0H 1.8 scale x escala Teste Unilateral Direito: (Superior) H0: μ = valor numérico HA: μ > valor numérico Teste Unilateral Direito www.datascienceacademy.com.br Se a média estiver dentro da região branca do gráfico, não rejeitamos a hipótese nula, caso contrário, a rejeitamos. Rejeitar H0 Rejeitar H0 Não rejeitar H0 0H Não rejeitar H0 1.8 scale x escala Teste Unilateral Esquerdo: (Inferior) H0: μ = valor numérico HA: μ < valor numérico Teste Unilateral Esquerdowww.datascienceacademy.com.br Teste de Hipótese Exemplo www.datascienceacademy.com.br Teste de Hipótese Uma escola possui um grupo de alunos (população) considerados obesos. A distribuição de probabilidade do peso dos alunos dessa escola entre 12 e 17 anos é normal com uma média de 80 kgs e desvio padrão de 10 kgs. O diretor da escola propõe uma campanha de tratamento com acompanhamento médico para combater a obesidade. Esse tratamento será composto por dietas, exercícios físicos e mudança de hábito alimentar. O médico afirma que o resultado do tratamento será apresentado em 4 meses. E que os alunos terão seus pesos diminuídos nesse período. www.datascienceacademy.com.br Teste de Hipótese Portanto, as hipóteses que deverão ser testadas são: H0: μ = 80 HA: μ < 80 Onde: μ = média dos pesos dos alunos após os 4 meses. www.datascienceacademy.com.br Teste de Hipótese Teste de Hipótese Bilateral www.datascienceacademy.com.br O teste Bilateral é usado sempre que a hipótese alternativa é expressa como ≠ de: H0: μ = 1.8 HA: μ ≠ 1.8 Nós assumimos que μ = 1.8 a menos que a média da amostra seja ≠ que 1.8 Rejeitar H0 Rejeitar H0 Rejeitar H0Não Rejeitar H0 Rejeitar H0 0H Não Rejeitar H0 1.8 scale x escala www.datascienceacademy.com.br A curva acima representa a distribuição da amostragem da média de utilização de banda larga. Assume-se que a média da população é 1.8 GB, de acordo com a hipótese nula H0 : = 1.8. Rejeitar H0 Rejeitar H0 Rejeitar H0Não Rejeitar H0 Rejeitar H0 0H Não Rejeitar H0 1.8 scale x escala www.datascienceacademy.com.br Por existirem duas regiões de rejeição no gráfico (regiões em amarelo), este é chamado teste de hipótese bilateral ou bicaudal. Rejeitar H0 Rejeitar H0 Rejeitar H0Não Rejeitar H0 Rejeitar H0 0H Não Rejeitar H0 1.8 scale x escala www.datascienceacademy.com.br Como a hipótese nula é expressa como ≠ ela pode ser maior ou menor que, por isso o teste é bilateral. Rejeitar H0 Rejeitar H0 Rejeitar H0Não Rejeitar H0 Rejeitar H0 0H Não Rejeitar H0 1.8 scale x escala www.datascienceacademy.com.br Teste Bilateral: H0 : μ = Valor numérico. Valor numérico.HA : μ ≠ www.datascienceacademy.com.br Teste de Hipótese Exemplo www.datascienceacademy.com.br Uma fábrica de biscoitos empacota as caixas com peso de 500 gramas. O peso é monitorado periodicamente. O departamento de qualidade estabeleceu que o peso deve ser mantido em 500 gramas. Qual a condição para que o departamento de qualidade interrompa a produção dos biscoitos? www.datascienceacademy.com.br Portanto, as hipóteses que deverão ser testadas são: H0: μ = 500 HA: μ ≠ 500 A condição requerida para a empresa continuar empacontando os biscoitos. www.datascienceacademy.com.br Teste de Hipótese Erros Tipo I e Tipo II www.datascienceacademy.com.br O propósito do teste de hipótese é verificar a validade de uma afirmação sobre um parâmetro da população, baseado em amostragem. www.datascienceacademy.com.br Como estamos tomando amostra como base, estamos expostos ao risco de conclusões erradas sobre a população, por conta de erros de amostragem. www.datascienceacademy.com.br A hipótese nula pode ser verdadeira, caso tenhamos coletado uma amostra que não seja representativa da população. Ou talvez, a amostra tenha sido muito pequena. www.datascienceacademy.com.br Vimos que para testar a H0, é preciso definir uma regra de decisão com o objetivo de estabelecer uma zona de rejeição da hipótese, ou seja, definir um nível de significância, , sendo os mais consensuais os alfas 0.10, 0.05 e 0.01. Grau de Confiança Nível de Significância 90% 0,10 95% 0,05 99% 0,01 www.datascienceacademy.com.br Se o valor do parâmetro da população, defendido pela H0, cair na zona de rejeição, então esse valor é muito pouco provável de ser o valor verdadeiro da população e a H0 será rejeitada em favor da HA. Rejeitar H0 Rejeitar H0 Rejeitar H0Não Rejeitar H0 Rejeitar H0 0H Não Rejeitar H0 n scale x escala www.datascienceacademy.com.br Pode acontecer, que apesar de rejeitada com base em dados de uma amostra, a H0 de fato seja verdadeira. Nesse caso, estaríamos cometendo um erro de decisão. Esse erro é chamado de Erro Tipo I, cuja probabilidade de ocorrência depende do alfa escolhido. www.datascienceacademy.com.br Quando o valor defendido pela H0 cair fora da zona de rejeição, então consideramos que não há evidência para rejeitar H0 em prejuízo da HA. Mas aqui, também podemos estar cometendo um erro se a HA, apesar de descartada pelos dados em mãos, for de fato verdadeira. Esse erro é chamado Erro Tipo II. www.datascienceacademy.com.br Portanto, Condição A Hipótese Nula é Verdadeira A Hipótese Nula é Falsa D E C I S Ã O Decidimos rejeitar a hipótese nula. Erro Tipo I (Rejeição de uma hipótese nula verdadeira) Decisão correta Não rejeitamos a hipótese nula. Decisão correta Erro Tipo II (Não rejeição de uma hipótese nula falsa) www.datascienceacademy.com.br Teste de Hipótese Exemplo www.datascienceacademy.com.br A eficácia de certa vacina após um ano é de 25% (isto é, o efeito imunológico se prolonga por mais de 1 ano em apenas 25% das pessoas que a tomam). Desenvolve-se uma nova vacina, mais cara e deseja-se saber se esta é, de fato, melhor. www.datascienceacademy.com.br A eficácia de certa vacina após um ano é de 25% (isto é, o efeito imunológico se prolonga por mais de 1 ano em apenas 25% das pessoas que a tomam). Desenvolve-se uma nova vacina, mais cara e deseja-se saber se esta é, de fato, melhor. Que hipóteses devem ser formuladas? Que erros podemos encontrar? www.datascienceacademy.com.br Resposta: Hipótese Nula H0 : p = 0,25 Hipótese alternativa HA : p > 0,25 Erro Tipo I : aprovar a vacina quando, na realidade, ela não tem nenhum efeito superior ao da vacina em uso. Erro Tipo II : rejeitar a nova vacina quando ela é, de fato, melhor que a vacina em uso. www.datascienceacademy.com.br A probabilidade de se cometer um Erro Tipo I depende dos valores dos parâmetros da população e é designada por (alfa - nível de significância). Dizemos então que o nível de significância alfa de um teste, é a probabilidade máxima com que desejamos correr o risco de um Erro Tipo I. O valor alfa é tipicamente predeterminado e escolhas comuns são = 0.05 e = 0.01 www.datascienceacademy.com.br A probabilidade de se cometer um Erro Tipo II é designada por . www.datascienceacademy.com.br Obrigado Muito Obrigada por Participar! www.datascienceacademy.com.br A estatística mostra que este ano aumentou em 60% o roubo nos bancos brasileiros. Não diz de que lado. Millôr Fernandes www.datascienceacademy.com.br Intervalo de Confiança é uma amplitude (ou um intervalo) de valores que tem a probabilidade de conter o valor verdadeiro da população. Desculpe , Não podemos confiar em você www.datascienceacademy.com.br Observe que na definição de intervalo de confiança, está associado uma probabilidade. A esta probabilidade chamamos de: Intervalo de Confiança www.datascienceacademy.com.br Observe que na definição de intervalo de confiança, está associado uma probabilidade. A esta probabilidade chamamos de: www.datascienceacademy.com.br Essas probabilidades podem vir a partir de escolhas comuns do grau de confiança que se deseja alcançar, dentre os mais comuns temos: Grau de Confiança Nível de Significância Valor Crítico Z 90% 0,10 1,645 95% 0,05 1,96 99% 0,01 2,575 Intervalo de Confiança www.datascienceacademy.com.br Descrição dos termos: Considerando: Probabilidade {c1 <= <= c2} = 1 - Onde: O intervalo (c1, c2) é chamado de intervalo de confiança. = média da população. é o nível de significância. 100 (1 - ) é nível de confiança. 1 - é o coeficiente de confiança. www.datascienceacademy.com.br Um Intervalo de Confiança funciona como um
Compartilhar