Baixe o app para aproveitar ainda mais
Prévia do material em texto
Núcleo Comum - ACE Métodos Quantitativos Prof. Me. Marcelo Silva de Jesus TA4 Estatística Inferencial (parte II) ResumoUnidade de Ensino: 4 Competência da Unidade de Ensino: Compreender a relação entre duas variáveis. Resumo: Nessa unidade você estudará a relação entre duas variáveis, de modo a ter a possibilidade de prever resultados futuros ou inferir valores não amostrados de uma população. Palavras-chave: correlação entre variáveis quantitativas; teste de significância; regressão linear; estudando resíduos Título da teleaula: Estatística inferencial (parte I) Teleaula nº: 4 Muitas das pesquisas e investigações que realizamos têm o objetivo de verificar a existência de relação entre duas variáveis. A relação entre duas variáveis é forte ou fraca? A relação é direta ou inversa? Como medimos a relação entre duas Variáveis? Convite ao estudo Fonte: https://goo.gl/qlUNFE. Acessado em 10/03/2017. VA Caminho de Aprendizagem Conhecimentos conceituais: Função afim. Conhecimentos Procedimentais: Operações aritméticas básicas; Construção de gráficos. Conhecimentos prévios Uma função afim é uma função 𝒇:𝑹 → 𝑹 cuja lei de formação é 𝒇 𝒙 = 𝒂𝒙 + 𝒃, em que 𝒂 ∈ 𝑹, não nulo, é denominado coeficiente angular e 𝒃 ∈ 𝑹 é denominado coeficiente linear. A representação gráfica de uma função afim sempre é uma reta Conhecimentos prévios Função afim Planilha eletrônica Excel: 1. Inserir os pares ordenados (x, y). 2.Inserir gráfico de dispersão. Conhecimentos prévios Gráfico de dispersão Imagine que você é um funcionário da empresa M e que foi incumbido de realizar uma pesquisa para determinar o perfil dos 30 mil funcionários. Foi perguntado aos funcionários da empresa M qual era a avaliação deles em relação às condições de trabalho e à remuneração. Pensando a aula: situação geradora de aprendizagem Será que essas variáveis estão relacionadas? Quanto maior a remuneração, maior a satisfação do funcionário? Cápsula 1 “Iniciando o estudo” Imagine que você é funcionário da empresa M e que necessita avaliar a relação existente entre a satisfação em relação às condições de trabalho e a satisfação em relação à remuneração. Será que, quanto maior é a satisfação em relação à remuneração, mais satisfeitos ficam os funcionários em relação às condições de trabalho? Fonte: https://goo.gl/qlUNFE. Acessado em 10/03/2017. Situação-Problema 1 Para tanto, considere a seguinte amostra de funcionários da empresa M Situação-Problema 1 Amostra de funcionários da empresa M Situação-Problema 1 A tabela a seguir representa a produção mensal de aço de uma siderúrgica nos últimos 4 meses, expressa em milhares de toneladas. Problematizando a Situação-problema 1 Se denominarmos X a variável mês e Y a variável produção, também podemos escrever as informações anteriores da forma (X, Y). Problematizando a Situação-problema 1 Representação dos pontos no plano cartesiano Problematizando a Situação-problema 1 Uma vez aceita a hipótese de relação de dependência entre duas variáveis, surgem duas perguntas básicas: 1ª) Essa relação é forte ou fraca? 2ª) De que forma podemos mensurar essa relação? Correlação: diz-se que duas variáveis estão correlacionadas quando existe uma relação de dependência entre elas. Problematizando a Situação-Problema 1 Correlação linear: Duas variáveis estão correlacionadas linearmente quando a relação entre elas pode ser representada graficamente por meio de uma reta. Problematizando a Situação-Problema 1 Se r > 0, a correlação entre X e Y é positiva, e quanto mais próximo r estiver de + 1, mais fortemente as variáveis estão correlacionadas. Se r < 0, a correlação entre X e Y é negativa, e quanto mais próximo r estiver de - 1, mais fortemente as variáveis estão correlacionadas. Se r = 0, não há correlação entre X e Y Problematizando a Situação-Problema 1 Classificação da relação entre as variáveis a partir de r Utilizando a fórmula: 𝑟 = 𝜌 𝑋, 𝑌 = 𝑆𝑄(𝑥, 𝑦) 𝑆𝑄 𝑥 . 𝑆𝑄(𝑦) , Calcule o coeficiente de correlação para as variáveis X e Y e classifique as variáveis quanto à correlação. Problematizando a Situação-Problema 1 Resolução: 𝑆𝑄 𝑥 = (12+22 + 32 + 42) − 1 + 2 + 3 + 4 2 4 𝑆𝑄 𝑥 = (1 + 4 + 9 + 16) − (10)2 4 𝑆𝑄 𝑥 = 30 − 100 4 = 30 − 25 𝑆𝑄 𝑥 = 5 Problematizando a Situação-Problema 1 Resolução: 𝑆𝑄 𝑦 = (92+122 + 152 + 212) − 9 + 12 + 15 + 21 2 4 𝑆𝑄 𝑦 = (81 + 144 + 225 + 441) − (57)2 4 𝑆𝑄 𝑦 = 891 − 3249 4 𝑆𝑄 𝑦 = 891 − 812,25 𝑆𝑄 𝑦 = 78,75 Resolução: 𝑆𝑄 𝑥𝑦 =? 1ª parte: 1 × 9 + 2 × 12 + 3 × 15 + 4 × 21 = 162 2ª parte: (1 + 2 + 3 + 4) × (9 + 12 + 15 + 21) 4 = 570 4 = 142,5 3ª parte: 162 − 142,5 = 19,5 Resolução: 𝑟 = 𝑆𝑄(𝑥𝑦) 𝑆𝑄 𝑥 . 𝑆𝑄(𝑦) 𝑟 = 19,5 5 × 78,75 = 19,5 393,75 = 19,5 19,84 𝑟 ≅ 0,98 Problematizando a Situação-Problema 1 Utilizando uma calculadora científica Resolvendo a situação-problema 1 Calculadora científica 1º + + 2º + + 3º Inserir os pares ordenados. Ex.:(2, 3 ) + + + 4º + Resolvendo a situação-problema 1 Shift Shift Mode 3 Mode 3 1 2 , 3 M+ 2 1 r Medindo o grau de associação de H e G. Resolvendo a Situação-Problema 1 Utilizando uma planilha eletrônica Planilha eletrônica Excel: 1. Inserir os pares ordenados (x, y). 2.Inserir gráfico de dispersão. 3. Adicionar linha de tendência. 4. Exibir valor de R-quadrado no gráfico Resolvendo a situação-problema 1 𝑟 ≅ 0,707 Portanto, as variáveis H e G estão correlacionadas positivamente e, além disso, essa correlação é forte. Resolvendo a Situação-Problema 1 Cápsula 2 “Participando da aula” Verificamos anteriormente que o coeficiente de correlação para a amostra apresentada é 𝑟 ≅ 0,707, e afirmamos que nesse caso a correlação é forte. A fim de sustentarmos essa afirmação, precisamos testá-la. Para isso, que procedimentos devemos adotar? Fonte: https://goo.gl/qlUNFE. Acessado em 10/03/2017. Situação-problema 2 Conhecendo-se o valor de r, podemos testar a significância. Passo 1 (elaborar as hipóteses) 𝐻0: 𝜌 ≥ 0 (não há correlação negativa significante) 𝐻1: 𝜌 < 0 (correlação negativa significante) 𝐻0: 𝜌 ≤ 0 (não há correlação positiva significante) 𝐻1: 𝜌 > 0 (correlação positiva significante) Problematizando a Situação-problema 2 Passo 2 (determinar a estatística de teste) 𝑡𝑐 = 𝑟 1 − 𝑟2 𝑛 − 2 Com 𝑣 = 𝑛 − 2 graus de liberdade Passo 3 (fixar o nível de significância) 𝛼 até 5% Problematizando a Situação-problema 2 Passo 4 (calcular a estatística a partir da amostra) Passo 5 (tomar uma decisão) Problematizando a Situação-problema 2 Para testar a significância de r, executamos os seguintes passos: Passo 1 (elaborar as hipóteses) 𝐻0: 𝜌 ≤ 0 (não há correlação positiva significante) 𝐻1: 𝜌 > 0 (correlação positiva significante) Passo 2 (determinar a estatística de teste) 𝑡𝑐 = 𝑟 1 − 𝑟2 𝑛 − 2 Resolvendo a Situação-problema 2 Com 𝑣 = 𝑛 − 2 graus de liberdade. Passo 3 (fixar o nível de significância) Suponha 𝛼 = 5% Passo 4 (calcular a estatística a partir da amostra) Rejeitaremos a hipótese 𝐻0 caso o valor 𝑡𝑐 obtido a partir da amostra seja muito maior que 𝜌 = 0 ou, ainda, quando 𝑡𝑐 pertencer à região crítica 𝑅𝐶 = {𝑇 ∈ 𝑅|𝑇 ≥ 𝑡}, em que t é obtido na tabela T.Resolvendo a Situação-problema 2 Observando a tabela na linha 𝑣 = 20 − 2 = 18 e na coluna correspondente à probabilidade 5%, temos 𝑡 = 1,734. Logo, 𝑅𝐶 = 𝑇 ∈ 𝑅 𝑇 ≥ 1,734 . Obtivemos 𝑟 ≅ 0,707 a partir de uma amostra de tamanho n = 20, logo, calculamos: Resolvendo a Situação-problema 2 𝑅𝐶 = {𝑇 ∈ 𝑅|𝑇 ≥ 𝑡} 𝑡𝑐 = 𝑟 1 − 𝑟2 𝑛 − 2 = 0,707 1 − (0,707)2 20 − 2 = = 0,707 0,5 18 = ≅ 4,24 ∈ 𝑅𝐶 Resolvendo a Situação-problema 2 𝑅𝐶 = 𝑇 ∈ 𝑅 𝑇 ≥ 1,734 Passo 5 (tomar uma decisão) Como 𝑡𝑐 ∈ 𝑅𝐶, decidimos rejeitar 𝐻0, isto é, há indícios suficientes que nos permitem considerar a correlação entre G e H positivamente significante. Resolvendo a Situação-problema 2 𝑅𝐶 = 𝑇 ∈ 𝑅 𝑇 ≥ 1,734 Cápsula 3 “Participando da aula” Imagine que você seja um funcionário da empresa M e que foi incumbido de descrever o perfil dos funcionários. A partir da tabela a seguir, é possível estabelecer uma relação matemática entre a satisfação em relação à remuneração e a satisfação em relação às condições de trabalho? Situação-Problema 3 Um funcionário que avalie sua satisfação em relação à remuneração com a pontuação 9 avaliará com qual pontuação a satisfação em relação às condições de trabalho? Situação-Problema 3 De 0 (insatisfeito) a 10 (muito satisfeito), qual é a sua satisfação em relação as condições de trabalho? De 0 (insatisfeito) a 10 (muito satisfeito), qual é a sua satisfação em relação a sua remuneração? Situação-Problema 3 A linha reta representada na figura abaixo, que é a reta de melhor ajuste, é denominada reta de regressão. O papel desempenhado por essa reta é o de representar geometricamente a associação entre as variáveis X e Y. Problematizando a Situação-Problema 3 Uma linha reta é descrita matematicamente por uma equação do tipo 𝑦 = 𝑎. 𝑥 + 𝑏, em que 𝑎 e 𝑏 são números desconhecidos a serem determinados. Os coeficientes 𝑎 e 𝑏 podem ser calculados pelas seguintes fórmulas: 𝑎 = 𝑟 𝐷𝑝(𝑌) 𝐷𝑝(𝑋) e 𝑏 = ത𝑦 − 𝑎. ҧ𝑥 Problematizando a Situação-Problema 3 Existem fórmulas alternativas e equivalentes para calcular os coeficientes de regressão. São elas: ො𝑎 = 𝑛σ𝑥𝑦 − (σ𝑥)(σ𝑦) 𝑛σ𝑥2 − (σ𝑥)2 = 𝑆𝑄(𝑥𝑦) 𝑆𝑄(𝑥) ; 𝑏 = ത𝑦 − ො𝑎. ො𝑥 = σ𝑦 𝑛 − ො𝑎 σ𝑥 𝑛 Problematizando a Situação-Problema 3 O coeficiente de correlação linear entre as variáveis G: satisfação em relação às condições de trabalho e H: satisfação em relação à remuneração é 𝑟 = 0,707. Com um nível de significância de 95%, foi atestada a significância dessa correlação. Logo, faz sentido determinarmos a equação da reta de regressão: Resolvendo a Situação-Problema 3 Utilizando uma calculadora científica Utilizando uma planilha eletrônica Resolvendo a situação-problema 3 Calculadora científica 1º + + 2º + + 3º Inserir os pares ordenados. Ex.:(2, 3) + + + + 4º + Resolvendo a situação-problema 3 Shift Shift Mode 3 𝑦 = 𝐵𝑥 + 𝐴 Mode 3 1 2 , 3 M+ 2 1 A 2 B Resolvendo a situação-problema 3 Planilha eletrônica Excel: 1. Inserir os pares ordenados (x, y). 2.Inserir gráfico de dispersão. 3. Adicionar linha de tendência. 4. Exibir equação no gráfico. Resolvendo a situação-problema 3 Cápsula 4 “Participando da aula” É possível estabelecer um intervalo de confiança para a estimativa 𝑔0 = 10, obtida a partir de ℎ0 = 9? Quanto da variação de G é explicado pela variação de H e quanto é devido ao acaso e às características próprias de cada funcionário? Fonte: https://goo.gl/qlUNFE. Acessado em 10/03/2017. Situação-Problema 4 O coeficiente de determinação (ou de explicação) é uma medida que tem por finalidade mensurar em termos percentuais, o quanto da variação de uma variável Y é devido à variação de X, supondo que essas variáveis sejam correlacionadas. Problematizando a Situação-Problema 4 Existe uma relação estreita entre o coeficiente de correlação r e o coeficiente de determinação. Essa relação é expressa por: Problematizando a Situação-Problema 4 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎çã𝑜 = 𝑟2 Duas variáveis X e Y estão negativamente correlacionadas de modo que 𝑟 = −0,9. Quanto da variação de Y pode ser explicado por sua correlação e variação de X? Problematizando a Situação-Problema 4 Exemplo Resolução: 𝑟 = −0,9 Coeficiente de determinação: Problematizando a Situação-Problema 4 Logo, 81% da variação de Y se deve à variação de X e que 19% se deve ao acaso Em estatística, sempre que é realizada uma estimativa pontual, como é o caso da previsão para 𝑦 feita por meio da reta de regressão em que 𝑦 = 𝑎𝑥 + 𝑏, é natural pensarmos em construir um intervalo de confiança para a estimativa. Alguns autores também o denominam intervalo de previsão. Problematizando a Situação-Problema 4 IC= 𝑦 − 𝐸; 𝑦 + 𝐸 Dada a regressão linear 𝑦 = 10,5𝑥 + 4 suponha que ao nível de confiança de 95%, a margem de erro de previsão para 𝑦 seja 𝐸 = 2. Determine o intervalo de confiança para o valor 𝑦 correspondente a 𝑥 = 15. Problematizando a Situação-Problema 4 Exemplo Resolução: 1º Substituir 𝑥 = 15 na função 𝑦 = 10,5𝑥 + 4: 𝑦 = 10,5.15 + 4 𝑦 = 157,5 + 4 𝑦 = 161,5 𝑦 − 𝐸; 𝑦 + 𝐸 = 161,5 − 2; 161,5 + 2 = 𝐼𝐶 = 159,5; 163,5 Problematizando a Situação-Problema 4 O coeficiente de correlação dessas variáveis foi estimado em 𝑟 ≅ 0,707. Desse modo, apenas 50% da variação de G se deve à variação de H, e os outros 50% devem-se ao acaso. 𝑟2 = 0,7072 ≅ 0,5 = 50% Resolvendo a Situação-Problema 4 Supondo: Nível de confiança de 𝛾 = 95% Intervalo de predição para 𝑔0 = 10 Margem de erro 𝐸 ≅ 4,903 Resolvendo a Situação-Problema 4 O intervalo de previsão para 𝑔0 = 10 com 95% de confiança é: 𝐼𝐶 𝑔0 = 10; 95% = = 10 − 𝐸; 10 + 𝐸 = = 10 − 4,903; 10 + 4,903 = = [5,097; 14,903] Resolvendo a Situação-Problema 4 Cápsula 5 “Participando da aula” Luciane, uma profissional de marketing responsável pelo setor de vendas de uma determinada empresa, está preocupada com a relação entre o gasto em propagandas e a quantidade de produtos vendidos nos últimos meses. Para entender melhor essa relação ela construiu a seguinte tabela com as informações dos últimos 5 meses. Provocando Novas Situações Quanto da variação da quantidade de unidades vendidas é explicado pela variação do gasto com propaganda e quanto é devido ao acaso? Provocando Novas Situações Resolução: 𝑟 ≅ 0,954 𝑟2 = 0,954 2 = 0,910 = 91% Desse modo, 91% da variação da quantidade de unidades vendidas pode ser explicada pela variação do gasto com propaganda, e os 9% restantes devem-se ao acaso. Provocando Novas Situações VE Caminho de Aprendizagem
Compartilhar