Baixe o app para aproveitar ainda mais
Prévia do material em texto
20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 1/28 introdução Introdução Como foi visto, por meio de medidas resumo é possível tirar conclusões sobre um conjunto de dados, de números, e transformar todos esses números em informações. Dessa forma, é possível ver o todo de forma simpli�cada, rápida e objetiva. As medidas de posições que estudamos até o momento trazem muita informação sobre o conjunto de dados a serem analisados, mas também podem levar a erros no caso de falta de atenção. Nesse momento, você me pergunta: Professora, mas se pode levar a erro, por que eu iria utilizá-las? Simples, porque, de agora em diante, você aprenderá a identi�car os erros e a colocar con�abilidade nas informações adquiridas por meio dos dados. ESTATÍSTICAESTATÍSTICA MEDIDAS DE DISPERSÃO E ANÁLISEMEDIDAS DE DISPERSÃO E ANÁLISE BIDIMENSIONALBIDIMENSIONAL Autor: Me. Viviane de Jesus Leite R e v i s o r : R e b e c c a M a n e s c o Pa i x ã o I N I C I A R 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 2/28 Então, neste capítulo, vamos estudar as medidas de dispersão e um pouquinho de análise bidimensional, para que suas análises �quem mais robustas. Vamos lá? 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 3/28 As medidas de dispersão servem para que você realize uma análise mais profunda do conjunto de dados. Observe que, às vezes, não se pode tirar conclusões realistas de um conjunto de dados tomando como base apenas as medidas de posição centrais estudadas – média, moda e mediana. Imagine que você tem dois bombons para duas pessoas, você e eu. Caso eu coma os dois bombons sozinha, em média, cada um comeu um bombom. Você concorda? Como assim? Não compreendi, professora! Vamos lá! Digamos que você deseja tirar conclusões de um conjunto de dados e, para isso, lança mão de algumas das medidas de posição, ou medidas de tendência central. Será que com apenas algumas dessas medidas você conseguirá representar o conjunto de dados de modo que possa tirar conclusões realistas? Pense comigo: Há quatro salas (A, B, C e D) e cada uma contém 5 pessoas. As idades das pessoas que estão na sala A são: 10 10 10 10 10 As idades das pessoas que estão na sala B são: 8 9 10 11 12 As idades das pessoas que estão na sala C são: 1 1 10 18 20 E as idades das pessoas que estão na sala D são: 2 5 10 11 22 Pelo cálculo da média, vamos relembrar: Considere as variáveis em estudo e o número de elementos, ou seja, o número de variáveis presente. Medidas de Dispersão e AnáliseMedidas de Dispersão e Análise BidimensionalBidimensional = (1)x − Σxi n xi n 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 4/28 Então, na sala A, temos como média de idade das pessoas , sendo que a mediana, valor que �ca na posição central, também será 10 anos. Na sala B, temos como média da idade , sendo que a mediana será 10 anos. Já na sala C, temos como média , sendo que a mediana será 10 anos. E por �m, na sala D, a média das idades das pessoas é , sendo que a mediana será 10 anos. Então, agora re�ita sobre isso. As medidas de posição central, média e mediana representam bem as pessoas das salas? Se você tivesse que comprar uma roupa ou um presente para essas pessoas com base na idade delas e tomasse a média para comprar, em todas as salas, você se sairia bem? Desse modo, é por isso a necessidade de se estudar as medidas de dispersão, que medem a dispersão dos dados em torno da média. Ou seja, a medida de dispersão serve para complementar a informação adquirida por meio das medidas de posição e perceber o quanto os dados estão dispersos em torno da média, para mais ou para menos. As medidas de dispersão mais conhecidas são a amplitude total, o desvio médio, a variância, o desvio-padrão e o coe�ciente de variação. Contudo, existem outras medidas de dispersão que não estudaremos neste momento. Amplitude total A amplitude total (AT) é a diferença entre os limites superior e inferior, conforme Batista e Santos (2007). Como assim? Limite superior e limite inferior? Sim, o limite superior é o maior valor do conjunto de dados; e o limite inferior é o menor valor do conjunto de dados. Assim, a amplitude total é a diferença entre o maior valor e o menor valor do conjunto de dados a ser analisado. Simples assim, um subtraído do outro. Observe que quanto menor o resultado, menor é a variação entre os dados analisados. No nosso exemplo, observe que na sala A, em que as pessoas têm 10, 10, 10, 10 e 10 anos, a amplitude total é igual a 0 ano. A amplitude total das idades das pessoas que estão na sala A é: 10 10 10 10 10 AT = 10 - 10 = 0 ano A amplitude total das idades das pessoas que estão na sala B é: 8 9 10 11 12 AT = 12 - 8 = 4 anos A amplitude total das idades das pessoas que estão na sala C é: 1 1 10 18 20 = = = 10 anosx − 10+10+10+10+10 5 50 5 = = = 10 anosx − 8+9+10+11+12 5 50 5 = = = 10anosx − 1+1+10+18+20 5 50 5 = = = 10 anosx − 2+5+10+11+22 5 50 5 AT = Limite superior − Limite inferior (2) 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 5/28 AT = 20 - 1 = 19 anos E a amplitude total das idades das pessoas que estão na sala D é: 2 5 10 11 22 AT = 22 - 2 = 20 anos Segundo Costa Neto (1977), a amplitude total traz consigo uma quantidade relativamente pequena de informação quanto à dispersão dos dados. Então, exceto para as aplicações de controle de qualidade, essa medida de dispersão não é muito utilizada. Desvio médio absoluto O desvio médio absoluto (DM) é a média dos desvios médios absolutos dos valores em relação à média, de acordo com Batista e Santos (2007). Você deve estar pensando: não entendi nada. Calma, vou explicar. Vamos lá! Na matemática, quase sempre que se utiliza o termo “absoluto” é para dizer que você precisará utilizar módulo (lembra daquelas duas barrinhas em pé?). Aqui, elas vão servir para que o resultado do seu cálculo seja sempre positivo. E desvio ou erro, aqui, é para dizer que você precisa subtrair. Agora que você recordou alguns itens utilizados na matemática, vamos re�etir sobre o que a de�nição diz? Você precisa calcular a média de uma certa subtração que estará em módulo. Vamos ver como isso funciona? Você lembra que é a média, é o valor da variável do seu conjunto de dados e é o número de dados que seu conjunto tem? Então, agora é só calcular. Vamos ver isso no exemplo que utilizamos. O desvio médio absoluto das idades das pessoas que estão na sala A é: 10 10 10 10 10 Como calculamos anteriormente, , então, vamos ao desvio médio: O desvio médio absoluto das idades das pessoas que estão na sala B é: | | DM = (3) Σ xi − ∣∣∣ x− ∣ ∣∣ n x − xi n = 10 anosx − DM = = = 0 ano |10 − 10| + |10 − 10| + |10 − 10| + |10 − 10| + |10 − 10| 5 0 5 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 6/28 8 9 10 11 12 Com , vamos calcular o desvio médio: O desvio médio absoluto das idades das pessoas que estão na sala C é: 1 1 10 18 20 Novamente com , o desvio médio: E o desvio médio absoluto das idades das pessoas que estão na sala D é: 2 5 10 11 22 Novamente com , o cálculo do desvio médio é: Você conseguiu observar que quanto maior a variação dos valores, maior o valor do desvio médio absoluto? Então vamos para a próxima medida de dispersão! Variância Segundo Costa Neto (1977), a variância de um conjunto de dados é a média dos quadrados das diferenças dos valores em relação à sua média. Vamos fazer uma observação: Sempreque seu espaço amostral for a população, você irá utilizar o sigma ao quadrado para representar a variância. E sempre que seu espaço amostral for apenas uma porção da população, ou seja, amostra, você utilizará um para representar a variância amostral. Isso foi convencionado, então sempre que se deparar com o sigma , já saberá que se trata da população, e sempre que encontrar um , saberá que se trata da amostra. O mesmo vale para a média: vai representar a população e a média amostral. Então, você me pergunta: mas, professora, como eu saberei o que usar? Simples: se é você que está realizando a análise, conhece os seus dados, então saberá se é amostra ou população. Se você está respondendo a alguma questão, em alguma prova, a questão precisa fornecer essa informação. Ela dirá se é população ou amostra em algum momento do texto, ou dará dados, ou pelos símbolos utilizados você saberá do que se trata. Se falar de variância ou desvio-padrão, e apresentar um , você já saberá que se trata de amostra, da mesma forma se der a média com . Assim, para calcular a variância, você utilizará as seguintes fórmulas: = 10 anosx − DM = = = = 1, 2ano |8 − 10| + |9 − 10| + |10 − 10| + |11 − 10| + |12 − 10| 5 2 + 1 + 0 + 1 + 2 5 6 5 = 10 anosx − DM = = = = 7, 2 a |1 − 10| + |1 − 10| + |10 − 10| + |18 − 10| + |20 − 10| 5 9 + 9 + 0 + 8 + 10 5 36 5 = 10 anosx − DM = = = = 5, 2 a |2 − 10| + |5 − 10| + |10 − 10| + |11 − 10| + |22 − 10| 5 8 + 5 + 0 + 1 + 12 5 26 5 ( )σ2 S2 (σ) S μ x − S x − 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 7/28 Variância para população: ou Variância para amostra: ~~~~ou Vale lembrar que: N é o número de elementos da população; são as variáveis estudadas; é a média populacional; o número de elementos da amostra; e a média amostral. Ainda usando o exemplo das pessoas nas salas, temos: A variância das idades das pessoas que estão na sala A é: \(\underset{\scriptscriptstyle-}{x}=~10 \text{anos}\] A variância das idades das pessoas que estão na sala B é: Com Já a variância das idades das pessoas que estão na sala C é: Novamente com E por �m, a variância das idades das pessoas que estão na sala D é: Novamente com Observe que a variância eleva os dados e a média ao expoente de grau 2, ou seja, eleva tudo ao quadrado. O que isso signi�ca na prática? A unidade da variância é diferente da unidade utilizada nos dados e diferente da unidade da média. Vamos a um exemplo! Digamos que você resolve correr e anota diariamente a distância que corre, em metros. Assim, a medida de seus dados e a média deles estão em metro ( ), um comprimento linear. No entanto, a variância está em , = Σσ2 1 N ( − μ)xi 2 = {Σ − } (4)σ2 1 N x2i (Σ )xi 2 n = ΣS2 1 n−1 ( − )xi x − 2 = {Σ − } (5)S2 1 n−1 x2i (Σ )xi 2 n xi μ n x − = = = 0S2 + + + +(10 − 10)2 (10 − 10)2 (10 − 10)2 (10 − 10)2 (10 − 10)2 5 − 1 0 4 ano2 = 10anosx − = = = = 2S2 + + + +(8 − 10)2 (9 − 10)2 (10 − 10)2 (11 − 10)2 (12 − 10)2 5 − 1 4 + 1 + 0 + 1 + 4 4 10 4 = 10anosx − = = =S2 + + + +(1 − 10)2 (1 − 10)2 (10 − 10)2 (18 − 10)2 (20 − 10)2 5 − 1 81 + 81 + 0 + 64 + 100 4 32 4 = 10anosx − = = =S2 + + + +(2 − 10)2 (5 − 10)2 (10 − 10)2 (11 − 10)2 (22 − 10)2 5 − 1 64 + 25 + 0 + 1 + 144 4 234 4 m m2 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 8/28 ou seja, é área. Então, ao analisar, você corre o risco de analisar informações em unidades diferentes. Compreende? Por exemplo, se a unidade dos seus dados fosse , a média também estaria em , mas a variância seria . Olhe o problema! Para resolver isso, temos o desvio-padrão. Desvio-Padrão O desvio-padrão nada mais é que a raiz quadrada da variância. Como assim? É apenas isso! O desvio-padrão da população é igual a: E a variância para população é: ou Assim, o desvio-padrão é: E o desvio-padrão amostral é igual a: A variância para amostra é: ou Assim, o desvio-padrão amostral é: Dessa forma, a representação da dispersão dos dados em torno da média voltará a ter a mesma unidade que a média e que os dados em si. Ainda seguindo o nosso exemplo: , pois O desvio-padrão das idades das pessoas que estão na sala B é 1,58 ano, uma vez que: , então Já o desvio-padrão das idades das pessoas que estão na sala C é 9,03 anos, já que a variância é: , logo E por �m, o desvio-padrão das idades das pessoas que estão na sala D é 7,65 anos, dado que a variância foi de: , assim g g g2 σ = (6)σ2 −−√ = Σσ2 1 N ( − μ)xi 2 = {Σ − }σ2 1 N x2i (Σ )xi 2 n σ = Σ 1 N ( − μ)xi 2 − −−−−−−−−−− √ S = (7)S2 −−√ = ΣS2 1 n−1 ( − )xi x − 2 = {Σ − }S2 1 n−1 x 2 i (Σ )xi 2 n S = Σ 1 n − 1 ( − )xi x − 2− −−−−−−−−−−−−− √ = 0S2 ano2 S = = 0ano0 −−√ = 2, 5S2 anos2 S = = 1, 58ano2, 5 − −− √ = 81, 5S2 anos2 S = = 9, 03anos81, 5 − −−− √ = 58, 5 S2 anos2 S = = 7, 65anos58, 5 − −−− √ 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 9/28 Você conseguiu observar que, ainda que a média seja a mesma para as idades das pessoas das quatro salas (A, B, C e D), o desvio-padrão, ou seja, o quanto a idade dos indivíduos pode variar, muda de sala para sala. Quanto maior a “distância” entre as idades, maior o desvio-padrão. Caro(a) aluno(a), observe que, ou utilizamos o módulo no desvio médio absoluto, ou elevamos ao quadrado na variância e, consequentemente, no desvio-padrão, de modo que os resultados nunca poderão ser negativos. Pode até ser 0, mas nunca negativo. Se você calculou tudo e ao �nal encontrou um resultado negativo, sinto informar, há alguma coisa errada no processo dos seus cálculos. Coeficiente de variação O coe�ciente de variação traz uma ideia de porcentagem (%) da precisão dos dados analisados. Quanto menor o valor do coe�ciente de variação, menor será a variação existente entre os dados relativos à média, conforme Batista e Santos (2007). Assim, sua fórmula se dá da seguinte maneira: Vale lembrar que: e Média e desvio padrão da idade das pessoas que estão na sala A: A idade das pessoas que estão na sala A são: 10 10 10 10 10. Então a Média da idade das pessoas que estão na sala A é 10. E o desvio padrão da idade das pessoas que estão na sala A é 0. 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 A 10 10 Pessoas Idades Desvio Padrão Média Idade 10 10 10 B C D E CV = × 100 (8) S x − S = desvio − padrão = médiax − 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 10/28 Seguindo o exemplo das salas: O coe�ciente de variação das idades das pessoas que estão na sala A é: Já o coe�ciente de variação das idades das pessoas que estão na sala B é: Para as idades das pessoas que estão na sala C, o coe�ciente de variação é: E por �m, para as idades das pessoas que estão na sala D, o coe�ciente de variação é: Observe que sempre que a média tender a 0, não faz sentido calcular o coe�ciente de variação, pois, nesse caso, o coe�ciente de variação tenderá ao in�nito. Lembra quando vimos limite em Cálculo? Então, é disso que falamos. CV = × 100 = 0% 0 10 CV = × 100 = 15, 8% 1, 58 10 CV = × 100 = 90, 3% 9, 03 10 CV = × 100 = 76, 5% 7, 65 10 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 11/28 Até agora trabalhamos com a análise estatística em uma única variável de um conjunto de dados. Contudo, existe a possibilidade de você analisar ao mesmo tempo duas ou mais variáveis de um conjunto de dados. Nessa situação, você poderá veri�car se existe uma relação entre elas ou uma dependência. Por exemplo, ao analisar as idades das pessoas que estão nas salas A, B, C e D, você também irá veri�carpeso e altura dessas pessoas. Considere que, em cada espaço amostral S, que são salas (A, B, C e D), você irá veri�car o peso (X) de cada indivíduo e a altura (Y) de cada indivíduo. Lembre-se de que você já sabe a idade deles. Veremos, então, como saber se existe uma relação entre duas dessas três variáveis e qual a importância dessa relação para os seus dados. Desse modo, estudaremos a covariância, a regressão linear simples e a correlação linear simples. Tabela 2.1 - Idade, peso e altura das pessoas da sala A Fonte: Elaborada pela autora. Análise BidimensionalAnálise Bidimensional Pessoas presentes na sala A Idade em anos Peso em kg Altura em cm 10 25,0 129 10 25,9 130 10 27,2 131 10 30,3 129 10 31,9 130 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 12/28 Tabela 2.2 - Idade, peso e altura das pessoas da sala B Fonte: Elaborada pela autora. Tabela 2.3 - Idade, peso e altura das pessoas da sala C Fonte: Elaborada pela autora. Tabela 2.4 - Idade, peso e altura das pessoas da sala D Fonte: Elaborada pela autora. Pessoas presentes na sala B Idade em anos Peso em kg Altura em cm 8 22,4 123 9 24,0 127 10 24,7 130 11 28,5 136 12 29,7 136 Pessoas presentes na sala C Idade em anos Peso em kg Altura em cm 1 9,2 76 1 10,5 80 10 25,5 130 18 55,2 169 20 60,0 172 Pessoas presentes na sala D Idade em anos Peso em kg Altura em cm 2 12,2 89 5 17,1 112 10 27,5 135 11 35,0 140 22 52,1 159 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 13/28 Covariância Por meio da covariância, podemos medir o grau de dispersão e de associação linear de um conjunto de dados com duas ou mais variáveis. Onde: = variável x; = variável y; = i-ésima variável x; = i-ésima variável y; = média das variáveis x; = média das variáveis y; = número de elementos que relacionam a variável x à y. Seguindo os exemplos das salas A, B, C e D, vamos, inicialmente, realizar os cálculos com as salas A e B. O primeiro passo para desenvolver os cálculos é determinar o valor da média. Sabemos que o valor da média das idades é 10 anos, então . Calculando a média dos pesos e das alturas dos indivíduos da sala A, tem-se que: quilos e Em seguida, subtraímos da média cada elemento da sua respectiva variável e multiplicamos pelo equivalente da outra variável. Logo após, somamos tudo isso. É trabalhoso, mas com calma chegamos ao resultado. O importante é entender o que está sendo feito! Para a sala A, primeiro veremos a covariância entre peso e altura: Com esse resultado, iremos dividir pelo número de elementos, nesse caso, indivíduos na sala A: , então . Observe que, na sala A, todos têm 10 anos, logo a média também será 10. Caso você subtraia o valor de cada elemento da média, �caria 10 - 10 = 0. Dessa forma, ao realizar esse mesmo procedimento para ou , o resultado será 0, pois multiplicamos o zero das idades pelas outras variáveis. Que tal experimentar essa curiosidade calculando? Vamos realizar o mesmo processo para a sala B? Co = (9)vxy Σ [ ( − )]( − )xi x − yi y − n x y xi yi x − y − n = 10x − idade = 28, 06y −peso = 129, 8centímetrosz −altura (129 − 129, 8) + (25, 9 − 28, 06) (130 − 129, 8)(25 − 28, 06) + (27, 2 − 28, 06) (131 − 129, 8) + (30, 3 − 28, 06) (129 − 129, 8) + (31, 9 − 28, 06) = −(130 − 129, 8) Co =vpeso x altura −0,040 5 Co = −0, 008vpeso x altura Covidade x peso Covidade x altura 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 14/28 Primeiro passo: calcular a média das variáveis. , quilos e centímetros. Segundo passo: subtrair da média cada elemento da sua respectiva variável e multiplicar pelo equivalente da outra variável. Em seguida, somar tudo isso. Vamos começar com a covariância entre idade e peso: Agora, vamos dividir pelo número de elementos: , então . Vamos realizar o mesmo procedimento para idade x altura: , então . E para covariância de peso x altura: , então \(Co{{v}_{Idade~x~peso~}}= 13,87\]. Regressão linear simples A regressão linear simples é estudada ao analisar duas variáveis que oscilam linearmente. Busca-se observar se uma variável é dependente e a outra variável é independente. Nesse caso, você poderá estimar o quanto a variável dependente está oscilando em função da variação da variável independente, de acordo com Batista e Santos (2007). Observe que se você analisar os pesos e as idades das pessoas das salas, essas duas variáveis têm uma relação, mas a idade é independente, enquanto o peso é dependente. = 10anosx − idade = 25, 85y −peso = 130, 4z −altura (22, 3 − 25, 8) + (23, 9 − 25, 8) + (24, 7 − 25, 8)(8 − 10) (9 − 10) (10 − 10) + (28, 5 − 25, 8) + = 19, 29(11 − 10) (12 − 10)(29, 7 − 25, 8) Co =vIdade x peso 19,29 5 Co = 3, 85vIdade x peso (123 − 130, 4) + (127 − 130, 4) + (130 − 130, 4)(8 − 10) (9 − 10) (10 − 10) + (136 − 130, 4) + (136 − 130, 4) = (11 − 10) (12 − 10) 35 Co =vIdade x peso 35 5 Co = 7vIdade x peso (123 − 130, 4) + (127 − 130, 4) + (130 − 130, 4)(22, 3 − 25, 8) (23, 9 − 25, 8) (24, 7 − 25, 8) + (28, 5 − 25, 8) (136 − 130, 4) + (136 − 130, 4) = 69, 38(29, 7 − 25, 8) = Co =vIdade x peso 69,38 5 Figura 2.1 - Grá�co de regressão linear entre peso e idade Fonte: Elaborada pela autora. 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 15/28 Desse modo, tem-se a seguinte fórmula para a reta de ajuste: Em que: é o coe�ciente linear; é o coe�ciente angular ou coe�ciente de regressão linear simples; = i-ésima variável x. Assim: ou Considere a parcela de ${{x}_{{}}}$relacionada à variável independente. Observe que, ao seguirmos nosso exemplo, no caso da regressão, não fará sentido calcular entre as variáveis peso e altura, pois ambas são variáveis dependentes. Então, realizaremos os cálculos entre idade e peso, e entre idade e altura, pois a idade é uma variável independente. Começaremos pela sala A. Novamente, você lembra que a média tem o mesmo valor que todas as variáveis? Desse modo, ao utilizarmos a fórmula , nessa parcela da fórmula em que se subtrai a variável da média, o resultado será zero, , logo o resultado geral será zero. Mas se , isso quer dizer que não há angulação. Você lembra que é o coe�ciente angular? Então: , logo , em que é o coe�ciente linear. = + (10)ŷ i â b̂xi â b̂ xi = − (11)â ŷ b̂ x − = b̂ Σ( − ) ( − )xi x − yi y − Σ( − )xi x − 2 = (12)b̂ Σ −xiyi Σ Σxi yi n Σ −x2i (Σ )xi 2 n = b̂ Σ( − ) ( − )xi x − yi y − Σ( − )xi x − 2 ( − ) ( − )xi x − yi y − = 0b̂ b̂ = +ŷ i â b̂xi = + 0ŷ i â xi =ŷ i â â Figura 2.2 - Grá�co da regressão linear peso x idade da turma A Fonte: Elaborada pela autora. 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 16/28 Agora, vamos para a sala B? Primeiramente, iremos calcular a regressão para idade e peso. Lembra-se de que na covariância você já calculou este trecho ? Utilizaremos ele para fazer o cálculo. Temos que , então vamos descobrir o valor de . Nesse momento, você vai elevar cada diferença ao quadrado e depois somar. Agora, iremos calcular a reta de regressão para idade e altura pelo cálculo utilizado na covariância: . Temos que . Assim, . Σ( − ) ( − )xi x − yi y − Σ( − ) ( − ) = 19, 29para idade × pesoxi x − yi y − 19,29 Σ( − )xi x − 2 Σ( − )xi x − 2 Σ = + + + + = 10( − )xi x − 2 (8 − 10)2 (9 − 10)2 (10 − 10)2 (11 − 10)2 (12 − 10)2 Σ = 10( − )xi x − 2 = = 1, 92b̂ 19, 29 10 Figura 2.3 - Grá�co da regressão linear peso x idade da turma B Fonte: Elaborada pela autora. Σ( − ) ( − ) = 35xi x − yi y − Σ = 10( − )xi x − 2 = = 3, 5b̂ 35 10 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller17/28 Observe que enquanto a sala A apresentou uma reta, sem inclinação, na sala B, ao comparar idade x peso com idade x altura, a idade x peso apresentou uma inclinação bem mais suave que a inclinação de idade x altura. Correlação linear simples Na correlação linear simples, você analisará duas variáveis que oscilam linearmente, sendo que, nesse caso, as duas são dependentes, de acordo com Batista e Santos (2007). No caso do nosso exemplo, veremos o peso e a altura das pessoas nas salas. Ao estudar a correlação linear, deve-se observar sempre o seu coe�ciente de correlação linear. Figura A: Correlação linear positiva, negativa, correlação não linear e sem correlação. Figura 2.4 - Grá�co da regressão linear altura x idade da turma B Fonte: Elaborada pela autora. Figura 2.5 - Correlação linear positiva Fonte: Elaborada pela autora. 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 18/28 Coeficiente de correlação linear No coe�ciente de correlação linear, se você observar que à medida que uma variável aumenta, a outra aumenta, ou à medida que uma diminui, a outra diminui, isso é sinal de que o coe�ciente de correlação linear é positivo. Mas, caso você observe que à medida que uma variável aumenta, a outra diminui, e vice-versa, o coe�ciente de correlação linear, nesse caso, será negativo, conforme Batista e Santos (2007). Assim, o coe�ciente de correlação linear simples ($r$) é calculado da seguinte forma: Figura 2.6 - Correlação linear negativa Fonte: Elaborada pela autora. Figura 2.7 - Correlação não linear Fonte: Elaborada pela autora. Figura 2.8 - Sem correlação Fonte: Elaborada pela autora. 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 19/28 ou Onde: = i-ésima variável x; = i-ésima variável y; = média das variáveis x; = média das variáveis y; = número de elementos que relacionam a variável x à y. Observe que varia sempre de -1 a 1, assim, . Ou seja, deve estar entre -1 e 1. = -1 irá caracterizar uma correlação linear simples negativa perfeita. = 1 irá caracterizar uma correlação linear simples positiva perfeita. = 0 indica que não haverá correlação linear simples entre as variáveis. E mais ainda: Se , ou seja, está entre -1 e 0, quer dizer que à medida que uma variável aumenta, a outra diminui, e vice-versa. Se , ou seja, está entre 0 e 1, quer dizer que à medida que uma variável aumenta, a outra também aumenta; ou à medida que uma variável diminui, a outra também diminui. Agora, vamos usar nosso exemplo para a sala A e para a sala B. Iniciaremos pela sala A. A fórmula para o coe�ciente de correlação é a seguinte: Vamos separar por parcela? Inicialmente, já calculamos as seguintes parcelas: Falta, então, apenas esta parte da fórmula: [ ]. Como a idade é nossa variável independente, iremos calcular o coe�ciente de correlação para peso e altura. r = Σ( − ) ( − )xi x − yi y − Σ Σ( − )xi x − 2 ( − )yi y − 2 √ r = (13) Σ −xiyi Σ Σxi yi n [Σ − ][Σ − ]x2 i (Σ )xi 2 n y2 i (Σ )yi 2 n √ xi yi x − y − n r −1 ≤ r ≤ 1 r r r r −1 ≤ r ≤ 0 r 0 ≤ r ≤ 1 r r = (14) Σ( − ) ( − )xi x − yi y − Σ Σ( − )xi x − 2 ( − )yi y − 2 − −−−−−−−−−−−−−−−−−− √ Σ( − )( − ) = −0, 040xi x − yi y − (129 − 129, 8) + (25, 9 − 28, 06) (130 − 129, 8) + (27, 2 − 28, 06) (131 − 129, 8)(25 − 28, 06) + (30, 3 − 28, 06) (129 − 129, 8) + (31, 9 − 28, 06) = −0, 040(130 − 129, 8) Σ(x − )x − 2 Σ(y − )y − 2 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 20/28 Aplicando na fórmula, temos: Agora, vamos calcular o coe�ciente de correlação para a sala B: Falta calcular esta parte da fórmula: [ ]. Como a idade é nossa variável independente, iremos calcular o coe�ciente de correlação para peso e altura. Aplicando na fórmula, temos: Σ =(x − )x − 2 (25 − 28, 06)2 + +(25, 9 − 28, 06)2 (27, 2 − 28, 06)2 + +(30, 3 − 28, 06)2 (31, 9 − 28, 06)2 Σ = 34, 53(x − )x − 2 Σ + +(y − )y − 2 =(129 − 129, 8)2 (130 − 129, 8)2 (131 − 129, 8)2 + +(129 − 129, 8)2 (130 − 129, 8)2 Σ = 2, 8(y − )y − 2 r = = −0, 004 − 0, 040 34, 53 x 2, 8 − −−−−−−−−√ Σ( − )( − ) = 69, 38xi x − yi y − (123 − 130, 4) + (127 − 130, 4) + (130 − 130, 4)(22, 3 − 25, 8) (23, 9 − 25, 8) (24, 7 − 25, 8) + (28, 5 − 25, 8) (136 − 130, 4) + (136 − 130, 4) = 69, 38(29, 7 − 25, 8) = Σ(x − )x − 2 Σ(y − )y − 2 Σ =(x − )x − 2 (22, 35 − 25, 85)2 + +(23, 95 − 25, 85)2 (24, 72 − 25, 85)2 + $ + $(28, 52 − 25, 85)2 (29, 71 − 25, 85)2 Σ = 39, 16(x − )x − 2 Σ(y − )y − 2 =(123 − 130, 4)2 + + +(127 − 130, 4)2 (130 − 130, 4)2 (136 − 130, 4)2 + (136 − 130, 4)2 Σ = 129, 2(y − )y − 2 r = = 0, 97 69, 38 39, 16 x 129, 2 − −−−−−−−−−− √ 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 21/28 Foi possível observar que, na sala A, com os dados apresentados com - 0,004, que a correlação entre as variáveis é bem pequena, praticamente nula, pois o valor de está bem próximo de 0, e à medida que uma variável cresce, a outra diminui. Já na sala B, com os dados apresentados com 0,97, a correlação entre as variáveis é muito forte, quase perfeita, uma vez que esta é perfeita quando é igual a 1. Pode-se observar também que a correlação é positiva, ou seja, à medida que uma variável cresce, a outra irá crescer também, ou vice-versa. AT = Limite superior - Limite inferior Tabela 2.5 - Idade, peso e altura das pessoas da sala A Fonte: Elaborada pela autora. r DM = Σ xi − ∣∣∣ x− ∣ ∣∣ n = ΣS2 1 n − 1 ( − )xi x − 2 S = S2 −−√ CV = × 100 S x − Pessoas presentes na sala A Idade em anos Peso em kg Altura em cm 10 25,0 129 10 25,9 130 10 27,2 131 10 30,3 129 10 31,9 130 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 22/28 Tabela 2.6 - Idade, peso e altura das pessoas da sala B Fonte: Elaborada pela autora. Tabela 2.7 - Idade, peso e altura das pessoas da sala C Fonte: Elaborada pela autora. Tabela 2.8 - Idade, peso e altura das pessoas da sala D Fonte: Elaborada pela autora. Pessoas presentes na sala B Idade em anos Peso em kg Altura em cm 8 22,4 123 9 24,0 127 10 24,7 130 11 28,5 136 12 29,7 136 Pessoas presentes na sala C Idade em anos Peso em kg Altura em cm 1 9,2 76 1 10,5 80 10 25,5 130 18 55,2 169 20 60,0 172 Pessoas presentes na sala D Idade em anos Peso em kg Altura em cm 2 12,2 89 5 17,1 112 10 27,5 135 11 35,0 140 22 52,1 159 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 23/28 praticarVamos Praticar 1) Como primeira atividade, realize os cálculos de amplitude total, desvio médio, variância, desvio-padrão e coe�ciente de variação para o peso das pessoas de cada sala (A, B, C e D). Dados: Amplitude total: A = 6,9 B = 7,36 C = 50,8 D = 39,9 Desvio médio: A = 2,43 B = 2,59 C = 20,42 D = 11,82 Variância: A = 8,63 B = 9,63 C = 586,57 D = 249,05 Desvio-padrão: A = 2,94 B = 3,10 C = 24,21 D = 15,78 Coe�ciente de variação: A = 10,48% B = 11,98% C = 75,50% D=54,87% Escreva sua resposta aqui... praticarVamos Praticar Para a segunda atividade, você irá realizar os cálculos de amplitude total, desvio médio, variância, desvio-padrão e coe�ciente de variação para a altura das pessoas de cada sala (A, B, C e D). Dados: Amplitude total: A=2 B=13 C=96 D=70 Desvio médio: A=0,64 B=4,48 C=37,92 D=21,2 Variância: A=0,7 B=32,3 C=2148,8 D=731,5 Desvio-padrão: A=0,83 B=5,68 C=46,35 D=27,04 Coe�ciente de variação: A=0,64% B=4,36% C=36,96% D=21,29% Escreva sua respostaaqui... 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 24/28 praticarVamos Praticar Na terceira atividade, você irá realizar os cálculos de covariância, regressão linear simples, coe�ciente de correlação e, posteriormente, fará uma análise com os dados apresentados para a sala C. Dados: Covariância: idade 172,86, peso 333,6, altura 877,78. Regressão linear simples: idade x peso 2,65 e idade x altura 5,11. Coe�ciente de correlação: 0,977. Escreva sua resposta aqui... praticarVamos Praticar Por �m, na quarta atividade, você irá realizar os cálculos de covariância, regressão linear simples, coe�ciente de correlação e, posteriormente, fará uma análise com os dados apresentados para a sala D. Dados: Covariância: idade 95,44, peso 155,2 e altura 324,66. Regressão linear simples: idade x peso 2,04 e idade x altura 3,31. Coe�ciente de correlação: 0,95. Escreva sua resposta aqui... 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 25/28 indicações Material Complementar L I V R O Estatística Básica Sônia Vieira Editora: Cengage Learning ISBN: 978-85-221-2631-6 Comentário: Leia no capítulo 4 - A questão da variabilidade: o índice 4.1 - Mínimo,máximo e amplitude, página 50 e índice 4.4 - Desvio padrão, página 58. Já no capítulo 5 - Relação entre duas variáveis, leia o índice 5.1 Correlação, página 66 e índice 5.3 Regressão e Correlação linear simples, página 75. Neste capítulos você poderá se aprofundar um pouco mais sobre o tema. Caso encontre di�culdades e precise relembrar alguns tópicos de outra unidade, o capítulo 3 - Medidas de tendência central, da página 36 à 45 te ajudará a relembrar. Leve em consideração que esta indicação não limita nem esgota a sua busca por materiais que te levem ao aprofundamento do tema. Você pode e deve buscar outras bibliogra�as para auxiliar seus estudos. 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 26/28 conclusão Conclusão Nesta unidade, aprendemos sobre medidas de posição, amplitude total, desvio médio, variância, desvio- padrão e coe�ciente de variação. Vimos como são importantes para uma análise mais aprimorada dos dados e como sem elas os dados podem nos enganar com informações corretas, mas incompletas. Evoluímos para a análise bidimensional e abordamos a covariância, a regressão linear simples com sua reta de ajuste e a correlação linear simples com seu coe�ciente de correlação. Vimos quando empregar cada uma dessas metodologias e como analisar seus resultados. Este material não é limitador de seus estudos, dessa forma, você pode e deve pesquisar mais, buscar outras fontes e se aprofundar no assunto. Busque, por exemplo, diariamente, em jornais ou mídias sociais, informações que se passam por certas, tendenciando os leitores, mas que estão incompletas. Você, agora, com esta unidade, já é capaz de identi�car e buscar uma leitura mais profunda dos dados estatísticos. referências Referências Bibliográ�cas BATISTA, L. B.; SANTOS, K. B. Estatística e Bioestatística. Rio de Janeiro: Lauro Boechat Batista, 2007. BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. São Paulo: Saraiva, 2002. COSTA, G. G. O. Curso de estatística inferencial e probabilidade: teoria e prática. São Paulo: Atlas, 2012. COSTA NETO, P. L. O. Estatística. São Paulo: Edgard Blücher, 1977. 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 27/28 20/02/2020 Ead.br https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 28/28
Compartilhar