Prévia do material em texto
Engenharias Probabilidade e Estatística 4º semestre Profª Mª Camila Fogaça de Oliveira TA 2 Métodos tabulares e métodos gráficos Resumo Unidade de Ensino: 2 Competência da Unidade de Ensino: Conhecer os fundamentos estatísticos básicos necessários a formação do profissional da área de exatas. Resumo: Nesta unidade iremos compreender as medidas separatrizes e sua utilização em estatística; construir e interpretar o boxplot; utilizar as tabelas de frequência e os diagramas de dispersão para melhor interpretação dos dados estatísticos; utilizar o coeficiente de correlação linear e a regressão linear. Palavras-chave: Tabelas; gráficos; dispersão; correlação; regressão. Título da teleaula: Métodos tabulares e métodos gráficos Teleaula nº: 2 Você já se deparou com revistas especializadas em saúde que nos mostram uma porcentagem da população com um certo tipo de doença? Você já ficou tendencioso a não consumir algum tipo de alimento ou a consumir devido a uma dessas pesquisas? Essas pesquisas tem muito a dizer sobre nossa rotina, sobre nosso estilo de vida e nossa expectativa de vida. Convite ao estudo VA Caminho de Aprendizagem vídeos/SRA000128VIF0101KL121115 Probabilidade e Estatistica 02 - Libras.mp4 Conhecimentos matemáticos: Porcentagem, interpretação de gráficos e tabelas, função. Conhecimentos estatísticos: Amostra e mediana Capacidade de analisar e interpretar situações. Conhecimentos prévios Quando se fala em saúde, pode-se considerar o sistema musculoesquelético que é muito importante para o ser humano. Além de nos ajudar em atividades atléticas, é responsável por movimentos simples, como levantar de uma cadeira ou pegar um objeto em uma prateleira. Essa preocupação com a massa muscular no envelhecimento levou um educador físico a fazer uma pesquisa com seus clientes. Pensando a aula: situação geradora de aprendizagem As informações levantadas pelo educador físico foram a idade e a quantidade de massa muscular. Para estudar essa relação, o educador físico selecionou 18 mulheres, com idade entre 40 e 79 anos, e coletou informações sobre a idade e a massa muscular. Será preciso elaborar o relatório que conterá: A tabela de idade dos clientes e a massa muscular medida; Diagrama de frequência de idades, o gráfico boxplot; Pensando a aula: situação geradora de aprendizagem O diagrama de dispersão com suas respectivas interpretações; O coeficiente de regressão e a reta de regressão linear. Todos os resultados apresentados auxiliarão o educador físico a tratar esse grupo de clientes a fim de terem menos perda de massa muscular ao longo do envelhecimento. Pensando a aula: situação geradora de aprendizagem Engenharias Probabilidade e Estatística 4º semestre Profª Mª Camila Fogaça de Oliveira O educador físico pede para que você faça as análises e apresente um parecer a ele. Situação-Problema 1 Como construir o boxplot das idades das mulheres que estão sendo estudadas? Medidas Separatrizes As medidas separatrizes começam pela mediana, que divide a sequência ordenada em dois grupos, cada um deles contendo 50% dos valores da sequência. Além da mediana, as outras medidas separatrizes são: quartis, quintis, decis e percentis. Problematizando a Situação-Problema 1 Essas medidas são denominadas de separatrizes, pois separam a distribuição em partes percentualmente iguais. Quartis: Divide o conjunto de dados ordenados em 4 partes iguais, com 25% do conjunto de dados. Problematizando a Situação-Problema 1 Quintis: Divide o conjunto de dados ordenados em 5 partes iguais, com 20% do conjunto de dados. Decis: Divide o conjunto de dados ordenados em 10 partes iguais, com 10% do conjunto de dados. Percentis: Divide o conjunto de dados ordenados em 100 partes iguais, com 1% do conjunto de dados. Problematizando a Situação-Problema 1 Boxplot A partir das medidas separatrizes, constrói-se também um gráfico chamado gráfico de caixas (em inglês, boxplot), que ilustra os principais aspectos da distribuição, tomando por base essas medidas robustas. Problematizando a Situação-Problema 1 1º Ordenar os dados Resolvendo a Situação-Problema 1 Idade (x) Massa muscular (y) 43 100 45 116 45 97 49 105 53 100 56 87 56 80 58 76 64 91 65 84 67 68 68 78 68 78 71 82 73 73 73 73 76 65 78 77 Calcular os valores dos quartis. Considerando a variável idade, temos: Dizemos que o 1º quartil está na posição 4,75, ou seja, posição 5. Analisando a tabela, a idade que ocupa a posição 5 é a idade 53 anos. Resolvendo a Situação-Problema 1 Idade (x) 43 45 45 49 53 56 56 58 64 65 67 68 68 71 73 73 76 78 2º Calcular os valores dos quartis. Considerando a variável idade, temos: Dizemos que o 2º quartil está na posição 9,5, ou seja, posição 10. Analisando a tabela, a idade que ocupa a posição 10 é a idade 65 anos. Resolvendo a Situação-Problema 1 3º Idade (x) 43 45 45 49 53 56 56 58 64 65 67 68 68 71 73 73 76 78 Calcular os valores dos quartis. Considerando a variável idade, temos: Dizemos que o 3º quartil está na posição 14,25, ou seja, posição 14. Analisando a tabela, a idade que ocupa a posição 14 é a idade 71 anos. Resolvendo a Situação-Problema 1 4º Idade (x) 43 45 45 49 53 56 56 58 64 65 67 68 68 71 73 73 76 78 Calcular os valores mínimo, máximo e intervalo interquartil. Valor mínimo = 43 Valor máximo = 78 Calculando o intervalo interquartílico: IQ = Q3 – Q1 = 71 – 53 = 18 Resolvendo a Situação-Problema 1 5º Idade (x) 43 45 45 49 53 56 56 58 64 65 67 68 68 71 73 73 76 78 Gráfico boxplot Conclui-se que: A mediana é 65 anos; A mediana está direcionada para o lado superior da caixa, então metade da mulheres entrevistadas tem mais de 65 anos; 50% das idades estudadas estão entre 53 e 71 anos. Resolvendo a Situação-Problema 1 6º Engenharias Probabilidade e Estatística 4º semestre Profª Mª Camila Fogaça de Oliveira Os dados levantados pela pesquisa do educador físico foram dispostos em uma tabela e mostra as idades das clientes e a sua respectiva massa muscular. Situação-Problema 2 Idade (x) Massa muscular (y) 43 100 45 116 45 97 49 105 53 100 56 87 56 80 58 76 64 91 65 84 67 68 68 78 68 78 71 82 73 73 73 73 76 65 78 77 Situação-Problema 2 Como construir o diagrama de dispersão? O que é uma tabela de frequência? Indica a frequência observada (relativa ou absoluta). Mostra a frequência com que cada observação aparece nos dados. Frequência Simples ou Absoluta (fi) É o valor que representa o número de dados de uma classe. Frequência Relativa (fri) É a porcentagem entre a frequência simples e a frequência total. Problematizando a Situação-Problema 2 Problematizando a Situação-Problema 2 O diagrama de dispersão é um gráfico em que pontos no espaço cartesiano XY são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados. O que é o diagrama de dispersão? Permite avaliar se existe ou não alguma relação entre as duas variáveis de estudo; Indica o tipo de relação entre as duas variáveis; Indica a intensidade da relação (forte, fraca ou moderada); Indica a natureza da relação (linear, exponencial, ...). Problematizando a Situação-Problema 2 Como o diagrama de dispersão pode auxiliar na interpretação da pesquisa? Para construirmos uma tabela de frequência, precisamos organizar as idades de 5 em 5 anos e contar quantas idades estão nessa faixa etária. Resolvendo a Situação-Problema 2 Resolvendo a Situação-Problema 2 Para o diagrama de dispersão, utilizou-se as idades das mulheres no eixo x e as massas musculares no eixo y. Resolvendo a Situação-Problema 2 Diagrama de dispersão relação linear decrescente Engenharias Probabilidadee Estatística 4º semestre Profª Mª Camila Fogaça de Oliveira Situação-Problema 3 Como a idade influencia na massa muscular das clientes da amostra estudada? Qual a contribuição da análise de correlação? Quantas variáveis podem ser analisadas numa análise de correlação? Situação-Problema 3 Busca a verificação do grau de relacionamento entre as variáveis aleatórias. Podem ser analisadas duas ou mais variáveis. Estatística Bivariada análise de duas a duas variáveis. Apesar do diagrama de dispersão nos fornecer uma ideia do tipo e extensão do relacionamento entre duas variáveis x e y, há um número que mede essa relação, chamado de coeficiente de correlação. Situação-Problema 3 Coeficiente de Correlação Linear Coeficiente de Correlação Linear de Pearson Problematizando a Situação-Problema 3 Diagrama de dispersão para a correlação Problematizando a Situação-Problema 3 Coeficiente de Correlação Linear Calcular o coeficiente de correlação linear entre x e y, em que: y = massa muscular x = idade (n=18) Resolvendo a Situação-Problema 3 Cliente s Idade (x) Massa muscular (y) 𝒙𝒊 ∙ 𝒚𝒊 𝒙𝒊𝟐 𝒚𝒊𝟐 1 43 100 4300 1849 10000 2 45 116 5220 2025 13456 3 45 97 4365 2025 9409 4 49 105 5145 2401 11025 5 53 100 5300 2809 10000 6 56 87 4872 3136 7569 7 56 80 4480 3136 6400 8 58 76 4408 3364 5776 9 64 91 5824 4096 8281 10 65 84 5460 4225 7056 11 67 68 4556 4489 4624 12 68 78 5304 4624 6084 13 68 78 5304 4624 6084 14 71 82 5822 5041 6724 15 73 73 5329 5329 5329 16 73 73 5329 5329 5329 17 76 65 4940 5776 4225 18 78 77 6006 6084 5929 Total 1108 1530 91964 70362 133300 Aplicando a fórmula do coeficiente de Pearson: 𝑟 = 18 ∙ 91964 − 1108 ∙ 1530 18 ∙ 70362 − (1108)2 ∙ 18 ∙ 133300 − 1530 2 𝑟 = 1655352 − 1695240 38852 ∙ 58500 𝑟 = −39888 47674,33 𝑟 ≅ −0,84 Resolvendo a Situação-Problema 3 Engenharias Probabilidade e Estatística 4º semestre Profª Mª Camila Fogaça de Oliveira Situação-Problema 4 O que será preciso para o relatório? Será necessário mostrar a reta de regressão linear simples entre a massa muscular (variável dependente - y) e a idade das mulheres (variável independente - x). O que é o coeficiente de determinação? Problematizando a Situação-Problema 4 É o valor “𝑟² “ que informa se a reta de regressão está bem ajustada aos dados. 𝑟2 = 𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑡𝑜𝑡𝑎𝑙 Regressão Linear Problematizando a Situação-Problema 4 O objetivo da regressão linear e fazer a análise estatística, verificando a relação funcional de uma variável dependente com uma ou mais variáveis independentes. A regressão propõe uma função que tenta explicar a variação da variável dependente pelas variáveis independentes. Ajuste de curvas pelo método dos mínimos quadrados Como obter essa função? Problematizando a Situação-Problema 4 A reta de regressão é dada pela seguinte fórmula: y = ax + b Já os coeficientes são obtidos da seguinte forma: Em suma, A correlação mede a força ou grau de relacionamento entre duas variáveis; A regressão dá a equação que descreve esse relacionamento em termos matemáticos; Os dados para análise de regressão e correlação provém de observações de variáveis emparelhadas. Problematizando a Situação-Problema 4 Resolvendo a Situação-Problema 4 Ajustar uma reta de regressão para a relação entre as variáveis: y = massa muscular x = idade Cliente s Idade (x) Massa muscular (y) 𝒙𝒊 ∙ 𝒚𝒊 𝒙𝒊𝟐 𝒚𝒊𝟐 1 43 100 4300 1849 10000 2 45 116 5220 2025 13456 3 45 97 4365 2025 9409 4 49 105 5145 2401 11025 5 53 100 5300 2809 10000 6 56 87 4872 3136 7569 7 56 80 4480 3136 6400 8 58 76 4408 3364 5776 9 64 91 5824 4096 8281 10 65 84 5460 4225 7056 11 67 68 4556 4489 4624 12 68 78 5304 4624 6084 13 68 78 5304 4624 6084 14 71 82 5822 5041 6724 15 73 73 5329 5329 5329 16 73 73 5329 5329 5329 17 76 65 4940 5776 4225 18 78 77 6006 6084 5929 Total 1108 1530 91964 70362 133300 Na situação anterior obtivemos para o coeficiente de correlação, o valor de: 𝑟 = −0,84 Vimos, também, que basta elevar o coeficiente de correlação ao quadrado e obtém-se o coeficiente de determinação: 𝑟2 = (−0,84)2= 0,71 Indicando que 71% da variabilidade total da massa muscular é explicada pela idade. Os 29% restantes são devidos a outros fatores. Resolvendo a Situação-Problema 4 Para a obtenção da equação da reta de regressão devemos encontrar o valor do coeficiente angular “a”: 𝑎 = 18 ∙ 91964 − (1108 ∙ 1530) 18 ∙ 70362 − 1108 2 𝑎 = 1655352 − 1695240 38852 𝑎 = −39888 38852 𝑎 ≅ −1,03 Resolvendo a Situação-Problema 4 Para a obtenção da equação da reta de regressão devemos encontrar o valor do coeficiente linear “b”: 𝑏 = 70362 ∙ 1530 − 91964 ∙ 1108 18 ∙ 70362 − 1108 2 𝑏 = 107653860 − 101896112 38852 𝑏 = 5757748 38852 𝑏 ≅ 148,20 Resolvendo a Situação-Problema 4 Substituindo os valores dos coeficientes encontrados teremos: a = - 1,03 b = 148,20 𝑦(𝑥) = 𝑎𝑥 + 𝑏 𝑦(𝑥) = −1,03 ∙ 𝑥 + 148,20 Resolvendo a Situação-Problema 4 Para estimar a massa muscular de mulheres com 50 anos, basta substituir a idade de 50 anos na função encontrada: 𝑦 𝑥 = −1,03 ∙ 𝑥 + 148,20 𝑦(50) = −1,03 ∙ 50 + 148,20 𝑦(50) = −51,5 + 148,20 𝑦(50) = 96,70 Resolvendo a Situação-Problema 4 Engenharias Probabilidade e Estatística 4º semestre Profª Mª Camila Fogaça de Oliveira Os dados a seguir representam o tempo (em minutos) que 45 operadores de máquina demoraram para fazer o setup de uma máquina. Provocando novas situações Ordenar os dados Número de classes 45 valores → 45 ≅ 6,7 7 classes Resolvendo a Situação-Problema 3,9 4,0 4,4 5,0 5,4 5,5 5,6 5,7 5,7 6,0 6,3 6,4 6,4 6,4 6,5 6,7 6,9 7,0 7,0 7,1 7,1 7,2 7,4 7,4 7,6 7,6 7,7 7,9 7,9 7,9 8,2 8,2 8,3 8,3 8,5 8,7 9,0 9,7 9,8 9,9 10,4 12,4 13,0 15,7 16,7 1º 2º 3º Amplitude das classes Maior valor → 16,7 Menor valor → 3,9 Amplitude → 16,7−3,9 7 = 12,8 7 ≅ 2 Resolvendo a Situação-Problema 4º Classes e contagem de valores Resolvendo a Situação-Problema Tempo (min) Nº de operadores % de operadores 3 ⊣ 5 4 8,9% 5 ⊣ 7 15 33,3% 7 ⊣ 9 18 40% 9 ⊣ 11 4 8,9% 11 ⊣ 13 2 4,4% 13 ⊣ 15 0 0% 15 ⊣ 17 2 4,4% Total 45 100% Durante 5 horas, foi medido o crescimento de uma bactéria em um laboratório de Biologia. A tabela a seguir mostra os valores das horas (x) e de crescimento (y). Calcule o coeficiente de determinação, a equação de regressão linear e interprete os valores encontrados. Provocando novas situações Resolvendo a Situação-Problema Resolvendo a Situação-Problema Sendo 𝑟 = 1, o coeficiente de determinação (𝑟2) também será 1. Resolvendo a Situação-Problema Para a reta de regressão linear, calculamos os valores de índices a e b: VE Caminho de Aprendizagem vídeos/SRE000128VIF0101KL121115 Probabilidade e Estatistica 02 - Libras.mp4