Baixe o app para aproveitar ainda mais
Prévia do material em texto
23/08/2019 1 Métodos Quantitativos Estatística inferencial (parte II) Valdeci da Silva Araújo • Unidade de Ensino: 4 • Competência da Unidade: Compreender a relação entre duas variáveis. • Resumo: Nessa unidade você estudará a relação entre duas variáveis, de modo a ter a possibilidade de prever resultados futuros ou inferir valores não amostrados de uma população. • Palavras-chave: correlação entre variáveis quantitativas; teste de significância; regressão linear; estudando resíduos • Título da Teleaula: Estatística inferencial (parte II) • Teleaula nº: 4 Muitas das pesquisas e investigações que realizamos têm o objetivo de verificar a existência de relação entre duas variáveis. • A relação entre duas variáveis é forte ou fraca? • A relação é direta ou inversa? • Como medimos a relação entre duas variáveis? Contextualizando a teleaula www.shutterstock.com Imagine que você é um funcionário da empresa M e que foi incumbido de realizar uma pesquisa para determinar o perfil dos 30 mil funcionários. Foi perguntado aos funcionários da empresa M qual era a avaliação deles em relação às condições de trabalho e à remuneração. Será que essas variáveis estão relacionadas? Quanto maior a remuneração, maior a satisfação do funcionário? Conhecimentos conceituais: • Função afim. Conhecimentos procedimentais: • Operações aritméticas básicas; • Construção de gráficos. Conhecimentos prévios Conceitos Correlação entre variáveis quantitativas 23/08/2019 2 Considere a seguinte amostra de funcionários da empresa M. H: satisfação em relação a remuneração e G: satisfação em relação às condições de trabalho. Uma vez aceita a hipótese de relação de dependência entre duas variáveis, surgem duas perguntas básicas: 1ª) Essa relação é forte ou fraca? 2ª) De que forma podemos mensurar essa relação? Correlação: diz-se que duas variáveis estão correlacionadas quando existe uma relação de dependência entre elas. Correlação linear: duas variáveis estão correlacionadas linearmente quando a relação entre elas pode ser representada geometricamente por meio de uma reta. Classificação da relação entre as variáveis a partir de r Se r > 0, a correlação entre X e Y é positiva, e quanto mais próximo r estiver de + 1, mais fortemente as variáveis estão correlacionadas. Se r < 0, a correlação entre X e Y é negativa, e quanto mais próximo r estiver de - 1, mais fortemente as variáveis estão correlacionadas. Se r = 0, não há correlação entre X e Y Utilizando a fórmula: Calcule o coeficiente de correlação para as variáveis X e Y e classifique as variáveis quanto à correlação. Resolução da SP Correlação entre variáveis 23/08/2019 3 Imagine que você é funcionário da empresa M e que necessita avaliar a relação existente entre a satisfação em relação às condições de trabalho e a satisfação em relação à remuneração. Será que, quanto maior é a satisfação em relação à remuneração, mais satisfeitos ficam os funcionários em relação às condições de trabalho? www.shutterstock.com Diagrama de dispersão para G e H Conceitos Teste de significância Conhecendo-se o valor de r, podemos testar a significância. Passo 1 (elaborar as hipóteses) H0 : � ≥ 0 (não há correlação negativa significante) H1 : � < 0 (correlação negativa significante) H0 : � ≤ 0 (não há correlação positiva significante) H1 : � > 0 (correlação positiva significante) 23/08/2019 4 Passo 2 (determinar a estatística de teste) Com � = � − 2 graus de liberdade Passo 3 (fixar o nível de significância) � até 5% Passo 4 (calcular a estatística a partir da amostra) Passo 5 (tomar uma decisão) Resolução da SP Testar significâncias O coeficiente de correlação para a amostra apresentada é � ≅ 0,707, e afirmamos que nesse caso a correlação é forte. A fim de sustentarmos essa afirmação, precisamos testá-la. Para isso, que procedimentos devemos adotar? www.shutterstock.com Observando a tabela na linha � = 20 − 2 = 18 e na coluna correspondente à probabilidade 5%, temos � = 1,734. Logo, � = { ∈ �| ≥ 1,734} . Obtivemos � ≅ 0,707 a partir de uma amostra de tamanho n = 20, logo, calculamos: � = { ∈ �| ≥ �} 23/08/2019 5 Passo 5 (tomar uma decisão) Como tc ∈ � , decidimos rejeitar H0 , isto é, há indícios suficientes que nos permitem considerar a correlação entre G e H positivamente significante. Interação Exercício Considere o conjunto de dados bivariados (X, Y), em que, por amostragem, coletou-se: (5, 3), (14, 11), (15, 14), (5, 3), (9, 11), (13, 14), (7, 4) Considerando os dados, qual é o valor aproximado de Cov(X, Y). Fórmula: (5, 3), (14, 11), (15, 14), (5, 3), (9, 11), (13, 14), (7, 4) Temos x ≅ 9,71 e y ≅ 8,57 . Logo Resolução: Conceitos Regressão linear A linha reta representada na figura abaixo, que é a reta de melhor ajuste, é denominada reta de regressão. O papel desempenhado por essa reta é o de representar geometricamente a associação entre as variáveis X e Y. 23/08/2019 6 Uma linha reta é descrita matematicamente por uma equação do tipo � = . � + � , em que e � são números desconhecidos a serem determinados. Os coeficientes e � podem ser calculados pelas seguintes fórmulas: Existem fórmulas alternativas e equivalentes para calcular os coeficientes de regressão. São elas: Resolução da SP Regressão linear Imagine que você seja um funcionário da empresa M e que foi incumbido de descrever o perfil dos funcionários. A partir da tabela a seguir, é possível estabelecer uma relação matemática entre a satisfação em relação à remuneração e a satisfação em relação às condições de trabalho? Um funcionário que avalie sua satisfação em relação à remuneração com a pontuação 9 avaliará com qual pontuação a satisfação em relação às condições de trabalho? • H: satisfação em relação a remuneração • G: satisfação em relação às condições de trabalho. O coeficiente de correlação linear entre as variáveis G, satisfação em relação às condições de trabalho e H, satisfação em relação à remuneração é � = 0,707. Com um nível de significância de 95%, foi atestada a significância dessa correlação. Logo, faz sentido determinarmos a equação da reta de regressão: • Temos que: Logo: 23/08/2019 7 Portanto, a equação da reta de regressão é: • Para estimarmos qual pontuação em relação à condição de trabalho será atribuída por um funcionário que avaliar sua remuneração com a pontuação 9, substituímos h = 9 na equação anterior, ou seja: O resultado foi arredondado, visto que a nota que deveria ser atribuída na pesquisa era um valor entre 0 e 10. Por fim, concluímos que um funcionário que atribua nota 9 a sua remuneração avaliará as condições de trabalho com a nota 10. Conceitos Estudando resíduos O coeficiente de determinação (ou de explicação) é uma medida que tem por finalidade mensurar em termos percentuais, o quanto da variação de uma variável Y é devido à variação de X, supondo que essas variáveis sejam correlacionadas. Existe uma relação estreita entre o coeficiente de correlação r e o coeficiente de determinação. Essa relação é expressa por: 23/08/2019 8 Duas variáveis X e Y estão negativamente correlacionadas de modo que � = − 0,9. Quanto da variação de Y pode ser explicado por sua correlação e variação de X? Resolução: � = − 0,9 Coeficiente de determinação: r² = (− 0,9)² = 0,81 = 81%. Em estatística, sempre que é realizada uma estimativa pontual, como é o caso da previsão para � feita por meio da reta de regressão em que � = � + �, é natural pensarmos em construir um intervalo de confiança para a estimativa. Algunsautores também o denominam intervalo de previsão Dada a regressão linear � = 10,5� + 4 suponha que ao nível de confiança de 95%, a margem de erro de previsão para � seja � = 2. Determine o intervalo de confiança para o valor � correspondente a � = 15. Resolução: 1º Substituir � = 15 na função � = 10,5� + 4: Resolução da SP Resíduos 23/08/2019 9 É possível estabelecer um intervalo de confiança para a estimativa , obtida a partir de ℎ0 = 9? Quanto da variação de G é explicado pela variação de H e quanto é devido ao acaso e às características próprias de cada funcionário? www.shutterstock.com O coeficiente de correlação dessas variáveis foi estimado em � ≅ 0,707. Desse modo, apenas 50% da variação de G se deve à variação de H, e os outros 50% devem-se ao acaso. Supondo um nível de confiança de � = 95%, para determinar um intervalo de predição para e precisamos calcular o erro padrão de estimativas Se e a margem de erro E. Temos: Além disso, consultando a tabela T para v = 20 – 2 = 18 graus de liberdade e na coluna correspondente a 2,5%, temos: Logo: 23/08/2019 10 Interação Exercício Considere o conjunto de dados bivariados (X, Y) em que, por amostragem, coletou-se: (5, 3), (14, 11), (15, 14), (5, 3), (9, 11), (13, 14), (7, 4) Considerando os dados, qual é o valor aproximado do coeficiente de correlação entre X e Y. Fórmula: Resolução: Conceitos Recapitulando Correlações entre variáveis quantitativas; Teste de significância; Estudando resíduos; Regressão Linear. www.shutterstock.com
Compartilhar