Baixe o app para aproveitar ainda mais
Prévia do material em texto
-Dispersão -Correlação Professora Marina S. Almeida 3 – 4 – 5 – 6 – 7 1 – 3 - 5 – 7 – 9 5 – 5 – 5 – 5 - 5 Amostras com médias iguais podem apresentar dispersões diferentes. Temperaturas máximas em duas cidades: 28 – 29 – 29 – 29 – 30 16 – 26 – 29 – 29 - 45 Medidas de dispersão dão uma ideia da homogeneidade dos dados. A soma dos desvios em relação à média é igual a zero. Para evitar valores negativos, poderíamos usar o módulo ou elevar os desvios ao quadrado. Optaram por elevar os desvios ao quadrado, deste modo a ordem em que a subtração era realizada não interferia no resultado. Observou-se que a soma dos desvios ao quadrado atingia um valor mínimo quando esses desvios eram calculados em relação à média. 3 – 4 – 5 – 8 – 10 Vamos fazer um teste? Por ser um valor mínimo, a soma dos desvios ao quadrado (quando calculados em relação à média) poderia ser usado para caracterizar a amostra. A divisão desse valor por (n-1) resulta na variância da amostra. A divisão desse valor por n resulta na variância da população. Medidas de dispersão ou variabilidade dão informações sobre o comportamento global da amostra ou da população. As principais medidas da variabilidade ou dispersão dos dados em relação ao centro (média) da amostra são a VARIÂNCIA e o DESVIO PADRÃO 3 – 4 – 5 – 6 – 7 1 3 5 7 9 5 – 5- 5 - 5 - 5 Curva pode ser determinada pelos valores da média e do desvio padrão: 68,27% dos valores de uma DN encontram-se dentro da faixa de um desvio padrão, tanto para mais quanto para menos em relação à média. O desvio padrão dá uma projeção da quantidade de dados que estão perto da média. Medida de dispersão relativa É o desvio padrão da amostra dividido pela média: Conhecendo-se as médias e os desvios padrão das alturas de duas amostras de indivíduos, sendo a primeira composta por recém-nascidos e a segunda por adolescentes, o que essas amostras tem em comum? Ambas as amostras apresentam coeficiente de variabilidade bastante parecidos. Após a retirada dos outliers que podem ser desprezados por alguma justificativa razoável, deve-se verificar se há independência entre os dados da amostra. Se houver correlação entre os dados da amostra, os valores não podem ser considerados independentes. Geralmente não há independência dos dados quando há uma curva de aprendizado regendo o processo. Representação gráfica permite retirar informações sobre a forma, direção e grau de associação entre as variáveis Há alguma correlação entre as variáveis somente se a nuvem de pontos apresentar alguma tendência de alinhamento. A análise de correlação pode ser feita por meio de diagramas de dispersão. É a forma mais simples de verificar se os dados são independentes entre si. Diagramas de dispersão: Medida do grau de intensidade com que as variáveis se associam linearmente é dado pelo coeficiente de correlação amostral de Pearson -1< r < 1 Quanto maior for o módulo de r, mais linear será a relação entre os dados. Se não houver associação linear entre as medidas, r=0. Diagramas de dispersão: r=0,71 r=0,47 r=-0,99 r=-0,72 r=0,99 r=-0,47 Existe forte associação entre os valores observados Coeficiente de correlação r=0 O coeficiente de correlação mede apenas o grau de associação linear. Não mede outros tipos de associação, como a associação quadrática acima. Se a representação gráfica não mostrar evidência de associação linear, não tem sentido calcular o coeficiente de correlação. Uma representação gráfica dos dados pode revelar informações sobre padrões e relações existentes e escondidas nos dados, informação esta que não é visível a partir dos dados originais ou de tabelas.
Compartilhar