Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE IMD – INSTITUTO METRÓPOLE DIGITAL Disciplina: IMD0033 – PROBABILIDADE – Período Suplementar Professora Ismenia Blavatsky Professor Tetsu Sakamoto ________________________________________________________________________________ LISTA DE EXERCÍCIOS 10 – PERÍODO 2020-5 1. Objetivo Mostrar um esquema direto para elementos a serem considerados nas associaço� es entre varia�veis, calcular medidas de associaça�o/ correlaça�o entre varia�veis e propor exercí�cios para treinar. 2. Resumo da teoria 1) ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUANTITATIVAS • Objetivo: Em geral, identificar o quanto o aumento (ou redução) em uma unidade de medida de uma variável afeta o aumento (ou redução) em uma unidade de medida da outra variável. • Instrumento visual: Gráfico de dispersão com sugestão de reta de regressão linear. • Instrumento de mensuração: Coeficiente de Correlação. Existem vários1, sendo o Coeficiente de Correlação de Pearson o mais conhecido: Ou também você pode utilizar a relação: onde: 1 Coeficiente de Correlação de Pearson, Coeficiente de Correlação de Spearman, Coeficiente de Correlação de Kendall, entre outros. • Regras de interpretação: Em geral, dado conforme abaixo: Ou seja: 1. Coeficiente de correlação próximo de 1, relação linear positiva. Ou seja, aumento no valor de uma variável quando a outra também aumenta. 2. Coeficiente de correlação próximo de –1, correlação linear negativa ou inversa. Ou seja, quando o valor de uma variável aumenta o da outra diminui. 3. Correlação próximo de zero indica que não há relação linear entre as duas variáveis. • Exemplo: Tempo de estudo Notas nas provas2 Pensemos em uma situação hipotética. Um professor percebe que alguns de seus alunos não estão apresentando bom desempenho nas provas e, percebendo que estes não estavam dedicando tempo suficiente aos estudos, decide fazer uma pequena experiência com a turma. Ele então pede que os alunos informem o tempo que cada um dedicou em casa ao estudo do conteúdo cobrado e monta a Tabela 1 adiante. Ele explica aos alunos que se existe uma relação entre as horas de estudo com as notas da prova, isso poderia facilmente ser observado em um gráfico. Utilizando o eixo X para as horas de estudo e o eixo Y para a nota na prova, marca no gráfico a nota e o tempo de estudo de cada aluno. Visualmente parece haver alguma relação do tempo de estudo e a nota da prova, pois quanto maior o tempo de estudo, maior tende a ser a nota do aluno. Mas como confirmar e quantificar essa relação? 2 Adaptado de https://operdata.com.br/blog/coeficientes-de-correlacao/ Além de calcular o coeficiente de correlação, existem testes estatísticos que permitem avaliar as hipóteses de que o coeficiente é igual a zero (hipótese nula) e de que ele é diferente de zero (hipótese alternativa). O professor então decide utilizar o coeficiente de correlação de Pearson e chegou ao valor de r = 0,903 Ora, se o coeficiente de correlação de Pearson sustenta resultados entre –1 e 1, sendo que quanto mais próximo de –1, maior a correlação negativa entre as variáveis, e quanto mais próximo de 1, maior a correlação positiva, podemos dizer que nesse caso existe uma relação positiva entre horas de estudo e a nota da prova, como era de se esperar. Após apresentar evidências de que quanto mais um aluno estude em casa, maior tende a ser sua nota na prova, o professor espera que os alunos se dediquem mais aos estudos! Tabela 1 – Dados hipotéticos usados no exemplo Aluno Horas de Estudo Nota 1 20 9,5 2 12 2,5 3 14 3,6 4 15 6,7 5 18 5,2 6 9 1 7 5 0 8 4 1,5 9 8 2 10 13 3 11 14 3,5 12 15 4,5 13 19 8,5 14 18 7,5 15 12 5 16 11 4 17 10 3 18 15 5 19 17 6,5 20 20 10 Faça você! Use a fórmula dada para o Coeficiente de Correlação de Pearson e os dados acima e confira se o valor calculado é realmente 0,903. 2) ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUALITATIVAS • Objetivo: Em geral, identificar se existem associações entre níveis de duas variáveis qualitativas. • Instrumento visual: Tabela de dupla entrada (também chamada de tabela de contingência) e/ou Gráfico das quantidades ou proporções de uma classe em relação a outra. • Instrumento de mensuração: Odds Ratio, Teste de Qui-Quadrado, Teste de Independência ou Homogeneidade, Teste de Kruskal-Wallis, entre outros. Neste curso É SUFICIENTE saber aplicar a propriedade da independência dada por: P(A B) = P(A) P(B), se e somente se A e B forem independentes A e B. • Regras de interpretação: Se as variáveis são independentes, então a ocorrência de uma não influencia na ocorrência da outra. Outra maneira de expressar a independência para variáveis qualitativas diz que, os níveis de uma variável não exercem influência sobre os níveis de outra variável se forem independentes. • Exemplo: Identifique se as variáveis X e Y abaixo são independentes. Por que? P(X = 1, Y = 1) = 0 e P(X = 1) P(Y = 1) = (1/5) (1/5) = 1/25, ou seja, X e Y são dependentes. 3) ASSOCIAÇÃO ENTRE UMA VARIÁVEL QUALITATIVA E OUTRA QUANTITATIVA • Objetivo: Em geral, identificar se existem diferenças entre grupos. • Instrumento visual: Tabela de médias, variâncias, desvios, modas, medianas, etc; para cada grupo da variável qualitativa e/ou Gráfico do tipo boxplot categorizado pelas categorias da variável qualitativa. • Instrumento de mensuração: Testes de hipóteses para igualdade de médias, variâncias, desvios, modas, medianas, etc.; Estes NÃO fazem parte do programa deste curso. • Regras de interpretação: Para comparações visuais, quando a média de um grupo está em posição diferente da média de outro grupo, diz-se que existe associação entre a variável quantitativa e a variável qualitativa consideradas, sugerindo também diferenças entre os grupos. Essas diferenças podem ser estatisticamente significativas (ou não) e isso é verificado através de testes de hipóteses. • Exemplo: Diferença entre pesos de embalagem produzidos por máquinas diferentes em uma linha de produção. Várias máquinas empacotadoras em uma linha de montagem devem proceder com o lacre após a balança identificar 75g. Veja se existem diferenças entre as máquinas de uma das filiais da empresa. O gráfico sugere que existem diferenças entre as máquinas da filial considerada. As máquinas A e B apresentam resultados menos variáveis quando comparadas às máquinas C e D. Embora a mediana da máquina C se aproxime da mediana da máquina B, seus resultados apresentam variabilidade maior, indicando uma possível tendência ao processo de descalibramento da máquina. Já a máquina D apresenta mediana superior às demais máquinas e grande variabilidade nos resultados. 3. Questões 1) Acesse os dados “fralda e cerveja” e identifique se as variáveis: O cliente comprou fralda? (0=não;1=sim) e O cliente comprou cerveja? (0=não;1=sim) são independentes. 2) Acesse os dados “Taxa de fertilidade x PIB per capita”, faça um gráfico de dispersão e calcule a correlação entre as variáveis. Você acha que estas variáveis estão correlacionadas? Qual é a correlação calculada entre elas? Qual a direção da correlação? O que isso significa? Gabarito: 1) O fato de comprar cerveja depende do fato de comprar fralda. 2) Correlação negativa calculada entre as variáveis – 0,43, indicando que quanto maior o PIB per capita menor a taxa de fertilidade dos países considerados.