Buscar

testes-de-hipOteses-bioestatIstica (2)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 23 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

23
TESTES DE HIPÓTESES
	Vamos imaginar que haja uma hipótese a respeito de alguma característica populacional, que será considerada válida até que tenhamos uma forte evidência em contrário. Esta hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada. Somente haverá a rejeição se o resultado da amostra for claramente improvável de ocorrer, no caso de a hipótese ser verdadeira.
TESTES PARAMÉTRICOS
HIPÓTESES:
	HIPÓTESE NULA (H0): corresponde a um valor afirmado para o parâmetro (uma igualdade). 
	HIPÓTESE ALTERNATIVA (H1): corresponde a uma negação da afirmação feita na hipótese nula (uma desigualdade). 
TIPOS DE ERROS:
	TIPO I: rejeitar a hipótese nula se ela for verdadeira.
	TIPO II: aceitar a hipótese nula se ela for falsa.
	As probabilidades destes erros são designadas, respectivamente, por e .
NÍVEL DE SIGNIFICÂNCIA (): É o padrão definido para rejeição da hipótese nula. Ele define a partir de que momento a diferença entre o valor suposto e o encontrado na amostra é muito grande para ser devida ao acaso, ou seja, é significativa. 
REGIÃO CRÍTICA: Região que conduz à rejeição da hipótese nula, onde a diferença entre o valor encontrado e o suposto é considerada significativa. Ela tem o mesmo sentido da hipótese alternativa e a sua área corresponde ao nível de significância adotado.
ESTATÍSTICA DE TESTE: Valor calculado a partir da amostra que será usado no processo decisório.
DECISÃO: Se a estatística de teste cair dentro da região crítica, rejeita-se a hipótese nula; caso contrário, aceita-se a hipótese nula.
CONCLUSÃO: O que significa, na linguagem do problema, ter aceito ou rejeitado a hipótese nula.
TESTE PARA UMA MÉDIA POPULACIONAL
 DISTRIBUIÇÃO t DE STUDENT: Usado quando o desvio-padrão populacional () é desconhecido, devendo ser estimado pelo desvio-padrão amostral (S).
OBSERVAÇÃO: Caso conhecêssemos o desvio-padrão populacional (situação bastante rara), usaríamos a distribuição normal.
HIPÓTESES: contra uma das alternativas
 ou ou , onde é um valor suposto para o parâmetro.
REGIÃO CRÍTICA: Construída numa distribuição t com n-1 graus de liberdade.
ESTATÍSTICA DE TESTE: , com 
EXEMPLO 1: Admita que o nível médio de alumínio no plasma de bebês é de 4,13 g/l. Acredita-se que, para bebês que recebem antiácidos com alumínio, o nível de alumínio no plasma seja diferente daquele observado na população em geral. Para testar isto, selecionou-se uma amostra de 10 bebês que receberam os antiácidos, encontrando-se um nível médio de 9,2 g/l, com desvio-padrão de 6,5 g/l. Usando 5% de significância, é possível concluir que o nível médio de alumínio no plasma seja diferente do original? 
 			 	
 
Para 5% de significância e 10-1=9 graus de liberdade, os valores críticos em uma distribuição t são de –2,26 e +2,26 (teste bilateral).
Decisão: Como o valor calculado para a estatística de teste está dentro da região crítica, rejeita-se H0. Assim, podemos concluir, com 5% de significância, que o nível médio de alumínio no plasma de bebês que recebem antiácidos com alumínio seja diferente daquele observado na população em geral. 
OBSERVAÇÃO: Existe uma outra maneira de tomar a decisão em um teste de hipóteses. Ela consiste em obter a probabilidade de se encontrar uma diferença tão grande quanto à que foi encontrada (ou maior) por acaso. Esta probabilidade (geralmente fornecida pelos programas de computador) pode ser chamada de nível crítico amostral ou significância do valor encontrado ou valor “p”. Se este valor for menor que o nível de significância adotado pelo pesquisador, então a probabilidade de cometer um erro rejeitando a hipótese nula é muito pequena, indicando que ela deve ser rejeitada. Por outro lado, se o valor “p” for maior que o nível de significância adotado, a probabilidade de cometer um erro rejeitando a hipótese nula é grande e, portanto, ela não deve ser rejeitada.
	No exemplo, o valor “p” encontrado para o resultado amostral (média de 9,2) é de 0,036 ou 3,6%. Como “p”<5%, que é o nível de significância adotado pelo pesquisador, devemos rejeitar a hipótese nula, o que obviamente é a mesma decisão que havíamos tomado no exemplo.
EXEMPLO 2: Sabe-se que o índice de massa corpórea para uma população de homens de meia idade é igual a 24,0 kg/m2. Acredita-se que, entre homens de meia idade que tenham diabetes, o índice seja maior que na população em geral. Para testar esta suspeita, investigou-se uma amostra de 28 homens de meia idade, que possuem diabetes, obtendo um índice médio de 25,0 kg/m2, com desvio-padrão de 2,7 kg/m2. Usando 1% de significância, pode-se concluir que a suspeita seja válida?
A partir dos dados amostrais obtemos como estatística de teste: t=1,96, com valor p=0,030 ou 3,0%.
Decisão: Como o valor p é maior que o nível de significância, aceita-se a hipótese nula. Assim, não podemos concluir, com 1% de significância, que entre homens de meia idade que tenham diabetes, o índice de massa corpórea seja maior que na população em geral.
TESTES PARA DIFERENÇA ENTRE DUAS MÉDIAS POPULACIONAIS
 AMOSTRAS INDEPENDENTES:
	Objetivo: Comparar duas populações com relação a uma variável quantitativa.
	Neste caso, é necessário que tenhamos duas amostras independentes, uma de cada população, não necessariamente de tamanhos iguais.
	Existem três situações para realizar o teste:
1 e 2 conhecidos;
1 e 2 desconhecidos, mas podemos admitir que são semelhantes;
1 e 2 desconhecidos e diferentes.
Iremos trabalhar com a segunda situação, que é a mais comum.
HIPÓTESES: contra uma das alternativas
 ou ou , onde é um valor suposto para a diferença.
OBSERVAÇÃO: Em geral, o valor testado é o zero. Assim, as hipóteses podem ser escritas da seguinte forma:
 contra uma das alternativas
 ou ou 
REGIÃO CRÍTICA: Construída numa distribuição t com n1+n2-2 graus de liberdade.
ESTATÍSTICA DE TESTE: , com 
Este “S” que calculamos é uma estimativa combinada do desvio-padrão comum as duas populações.
EXEMPLO 3: Foi feito um estudo com o objetivo de investigar o efeito do consumo de lactose na absorção de energia de carboidratos entre bebês prematuros. Para isto, investigou-se uma amostra de 8 bebês alimentados com o leite materno de suas mães, obtendo-se uma absorção de energia média de 87,38%, com desvio-padrão de 4,56%. Observou-se uma outra amostra de 10 bebês, que receberam uma fórmula contendo somente metade da quantidade de lactose, encontrando-se média de 90,14%, com desvio-padrão de 4,58%. Pode-se concluir que a redução na quantidade de lactose provoque alguma alteração na absorção de energia de carboidratos, com 5% de significância?
 			 		
			
	 valor p=0,221 ou 22,1%
Decisão: Como o valor p é maior que o nível de significância, aceita-se a hipótese nula. Logo, não se pode concluir, com 5% de significância, que a redução na quantidade de lactose provoque alguma alteração na absorção de energia de carboidratos.
EXEMPLO 4: Desejamos comparar o salário de profissionais de duas categorias, com o objetivo de verificar se existe diferença na remuneração média. Para uma amostra de 25 profissionais da categoria A, a média foi de 8,5 salários mínimos, com desvio-padrão de 1,2 salários mínimos. Para 35 profissionais da categoria B, a média foi de 7,8 salários mínimos, com desvio-padrão de 1,6 salários mínimos. O que se pode concluir, com 5% de significância?
 	
Usando os dados das duas amostras, o valor da estatística de teste é t=1,84, com valor p=0,069 ou 6,9%
Decisão: Como o valor p é maior que o nível de significância, aceita-se H0. Assim, não podemos concluir, com 5% de significância, que exista diferença na remuneração média das duas categorias.
 AMOSTRAS RELACIONADAS:
	Objetivo: Comparar uma população exposta a duas condições, com relação a uma variável quantitativa.
	Neste caso, trabalhamos com uma amostra de pares de valores.
	O procedimento do teste consisteem criar uma nova variável “d” que corresponde à diferença entre os valores de cada par e, então, fazer um teste para uma média.
HIPÓTESES: contra uma das alternativas
 ou ou , onde é um valor suposto para a diferença.
REGIÃO CRÍTICA: Construída numa distribuição t com n-1 graus de liberdade.
ESTATÍSTICA DE TESTE: , com e 
EXEMPLO 5: Os representantes de um produto auxiliar em dieta de emagrecimento afirmam que, com o produto, as pessoas perdem, em média, 8 kg por mês. Um pesquisador, suspeitando que há exagero nesta afirmação, fez a seguinte experiência: selecionou 10 adultos e pesou-os, anotando o peso. Estes adultos se submeteram à dieta com o produto durante um mês, tendo seu peso anotado novamente. Foram obtidos os dados a seguir. Há evidências, ao nível de 5% de significância, de que a afirmação dos representantes é exagerada?
	Antes
	100
	89
	74
	85
	93
	98
	103
	97
	89
	78
	
	Depois
	90
	84
	69
	80
	87
	88
	90
	92
	80
	70
	
	d
	10
	5
	5
	5
	6
	10
	13
	5
	9
	8
	76
	
(d-)2
	5,76
	6,76
	6,76
	6,76
	2,56
	5,76
	29,16
	6,76
	1,96
	0,16
	72,4
 		
 e 
	valor p=0,332 ou 33,2%
Decisão: Como o valor p é maior que o nível de significância, aceita-se H0. Assim, não há evidências, com 5% de significância, de que a afirmação dos representantes é exagerada. 
EXEMPLO 6: Foi feito um estudo para investigar se o farelo de aveia auxilia a baixar os níveis séricos de colesterol em homens com alto nível de colesterol. Uma amostra de homens com altos níveis de colesterol submeteu-se inicialmente a uma dieta a base de flocos de milho. Após duas semanas de dieta, foram anotados os níveis de colesterol LDL de cada indivíduo. Depois disto, os homens foram submetidos a uma dieta a base de farelo de aveia, por duas semanas, tendo novamente medido o nível de colesterol LDL. Usando 5% de significância, é possível concluir que a dieta com farelo de aveia reduz o nível de colesterol?
	FM
	4,61
	6,42
	5,40
	4,54
	4,24
	3,98
	3,82
	5,01
	4,34
	3,80
	4,56
	5,35
	3,89
	2,25
	FA
	3,84
	5,57
	5,85
	4,80
	4,14
	3,68
	2,96
	4,41
	3,72
	3,49
	3,84
	5,26
	3,73
	1,84
Usando os dados amostrais, o valor da estatística de teste é t=3,32, com valor p=0,003 ou 0,3%. 
Decisão: Como o valor p é menor que o nível de significância, rejeita-se a hipótese nula. Assim, podemos concluir, com 5% de significância, que a dieta com farelo de aveia auxilia a reduzir o nível de colesterol LDL.
 
ANÁLISE DE VARIÂNCIA
ANÁLISE DE VARIÂNCIA DE UM FATOR OU CRITÉRIO
	Constitui uma extensão do teste para diferença entre duas médias, ou seja, permite testar a existência de diferença significativa nas médias de k populações.
CONDIÇÕES PARA USAR O TESTE:
a variável que está sendo observada é quantitativa;
as amostras são independentes;
as populações sob amostragem podem ser satisfatoriamente aproximadas por distribuições normais;
as populações têm todas a mesma variância.
FUNDAMENTOS DO TESTE:
	Seja X a variável que está sendo observada. O método consiste em analisar a variação desta variável, ou seja,
variação total em torno de sua média, considerando todas as k amostras reunidas.
	A variação total da variável X pode ser dividida em duas componentes:
onde: 	X: valores observados da variável
	: média dos valores da i-ésima amostra
	: média geral dos valores
	Iremos comparar a variação entre os grupos (tratamentos) com a variação dentro dos grupos. Se esta razão for pequena, isto indica que não há diferença significativa entre os grupos. Se a razão for grande, isto indica que há diferença significativa entre os grupos.
HIPÓTESES: 
H1: existe pelo menos uma média diferente.
ESTATÍSTICA DE TESTE:
	Para obtermos o valor calculado da estatística de teste, normalmente elaboramos o Quadro de Análise de Variância (ANOVA).
	Fonte de Variação
	Graus de liberdade
	Somas de Quadrados 
	Quadrados Médios
	Estatística de Teste
	Tratamento
(entre grupos)
	
	
	
	
	Erro
(dentro dos grupos)
	
	
	
	
	Total
	
	
	
	
k: número de amostras
n: número total de elementos na k amostras 
REGIÃO CRÍTICA:
	É construída numa distribuição F com (k-1) graus de liberdade no numerador e (n-k) graus de liberdade no denominador. Esta região crítica é sempre unilateral à direita, pois devemos rejeitar a hipótese nula se a razão da variação entre grupos com a variação dentro dos grupos for grande.
EXEMPLO 9: Foi feito um estudo, no período de um ano, para acompanhar três grupos de homens com excesso de peso. O primeiro grupo diminuiu sua ingestão de calorias pela dieta, mas não participou de um programa de exercícios físicos. O segundo grupo fez exercícios regularmente, mas não alterou seus hábitos alimentares. O terceiro grupo não mudou sua dieta nem seu nível de atividade física. No final de um ano, a diferença total no peso do corpo foi medida para cada indivíduo. Ao nível de 5% de significância, há evidência de alguma diferença na variação média do peso do corpo entre as populações?
Os dados do estudo foram:
primeiro grupo de 42 homens, média de 7,2 kg, com desvio-padrão de 3,7 kg;
segundo grupo de 47 homens, média de 4,0 kg, com desvio-padrão de 3,9 kg;
terceiro grupo de 42 homens, média de - 0,6 kg, com desvio-padrão de 3,7 kg.
H1: existe pelo menos uma média diferente.
Usando os dados amostrais, foi possível construir o quadro de Análise de Variância:
	Fonte de Variação
	Graus de liberdade
	Somas de Quadrados
	Quadrados Médios
	Estatística de Teste
	Tratamento
	2
	1292,40
	646,20
	45,38
	Erro
	128
	1822,72
	14,24
	
	Total
	130
	3115,12
	
	
O valor p da estatística de teste é 0,000.
Decisão: Como o valor p é menor que o nível de significância, rejeita-se H0. Assim, pode-se concluir, com 5% de significância, que exista alguma diferença significativa entre as populações.
COMPARAÇÕES MÚLTIPLAS OU PROCEDIMENTOS A POSTERIORI
	Quando rejeitamos H0 numa Análise de Variância, devemos concluir que existe pelo menos uma diferença entre os grupos. Entretanto, tal procedimento não indica entre quais grupos há diferença significativa.
	Com o objetivo de detectar onde se encontram as diferenças, foram desenvolvidos vários procedimentos de comparações múltiplas, entre eles Bonferroni, Tuckey, Duncan e Scheffé.
MÉTODO DE SCHEFFÉ:
	Segundo este método, devem ser consideradas diferentes entre si as médias e tais que:
onde Fcritico é o valor tabelado para o nível de significância adotado, com (k-1) e (n-k) graus de liberdade.
No exemplo anterior, devemos comparar os grupos dois a dois:
Comparação do grupo 1 com o grupo 2:
Como 3,2<3,94, não se pode concluir que exista diferença significativa na variação total de peso entre os grupos 1 e 2. 
Comparação do grupo 1 com o 3:
Como 7,8>4,16, pode-se concluir que exista diferença significativa entre os grupos 1 e 3. 
Comparação do grupo 2 com o grupo 3:
Como 4,6>3,94, pode-se concluir que exista diferença significativa entre os grupos 2 e 3. 
Com base nestas comparações, o que se pode concluir é que o grupo 3 (aquele que não alterou a dieta nem o nível de atividade física) é o que difere dos demais. Por outro lado, não há diferença significativa na variação total de peso entre o grupo que apenas alterou a dieta e aquele que apenas alterou o nível de atividade física. 
 
TESTES NÃO PARAMÉTRICOS
	Nestes testes, não procuramos descobrir fatos acerca de um valor numérico para a população (parâmetro), mas a respeito de características mais gerais sobre esta população.
TESTE QUI-QUADRADO DE INDEPENDÊNCIA
	Objetivo: verificar se existe associação entre duas variáveis qualitativas.
HIPÓTESES:
H0: não existe associação entre as variáveis.
H1: existe associação.
	Os dados devem ser colocados em uma tabela de dupla entrada, também chamada de tabelade contingência. Nas linhas, são colocadas as categorias da primeira variável e, nas colunas, as categorias da segunda variável.
	O teste consiste em comparar as freqüências observadas com aquelas que seriam esperadas, caso não houvesse qualquer associação entre as variáveis.
ESTATÍSTICA DE TESTE: , onde:
fo: freqüências observadas
fe: freqüências esperadas
REGIÃO CRÍTICA: Construída numa distribuição Qui-Quadrado com graus de liberdade, onde L: número de linhas da tabela e C: número de colunas da tabela. A região crítica deste teste é sempre unilateral à direita, pois devemos rejeitar a hipótese nula e concluir que existe associação entre as variáveis se a diferença entre as freqüências observadas e esperadas for grande.
EXEMPLO 10: Foi feito um estudo entre adultos de uma comunidade, com o objetivo de verificar se o hábito de fumar está associado ao gênero. Foram obtidos os dados a seguir. Usando 5% de significância, é possível concluir que as variáveis estão associadas?
	 Fumo
Gênero
	
Sim
	
Não
	
Total
	Masculino
	70
	130
	200
	Feminino
	80
	220
	300
	Total
	150
	350
	500
H0: não existe associação entre o hábito de fumar e o gênero.
H1: existe associação entre o hábito de fumar e o gênero.
Para calcularmos a estatística de teste, precisamos das freqüências observadas, que são as que constam na tabela, e das freqüências esperadas, que são obtidas da seguinte maneira:
Assim, a primeira freqüência esperada será: 
A segunda freqüência esperada será: 
A terceira freqüência esperada será: 
A quarta freqüência esperada será: 
Estes dados podem ser colocados na tabela, entre parênteses:
	Fumo
Gênero
	
Sim
	
Não
	
Total
	Masculino
	70 (60)
	130 (140)
	200
	Feminino
	80 (90)
	220 (210)
	300
	Total
	150
	350
	500
 valor p=0,046 ou 4,6%
Decisão: Como o valor p é menor que o nível de significância, rejeita-se H0. Assim, é possível afirmar, com 5% de significância, que o hábito de fumar está associado ao gênero.
EXEMPLO 11: Foi feito um estudo entre eleitores de uma comunidade, com o objetivo de verificar se a preferência por partido político estava associada ao nível de escolaridade. Foram obtidos os dados a seguir. O que se pode afirmar, com 1% de significância?
	 Preferência
Escolaridade
	
Partido A
	
Partido B
	
Total
	Fundamental
	50 
	80
	130
	Médio
	30
	25
	55
	Nível Superior
	15
	40
	55
	Total
	95
	145
	240
H0: não existe associação entre a escolaridade e a preferência política.
H1: existe associação entre a escolaridade e a preferência política.
Usando os dados amostrais, obtemos como estatística de teste: 2=8,69, com valor p=0,013 ou 1,3%.
Decisão: Como o valor p é maior que o nível de significância, aceita-se H0. Assim, não é possível afirmar, com 1% de significância, que a preferência política está associada à escolaridade.
TESTE EXATO DE FISHER
	Objetivo: verificar se existe associação entre duas variáveis qualitativas.
	Como se pode ver, o Teste Exato de Fisher tem o mesmo objetivo do Teste Qui-Quadrado de Independência. Ele deve ser usado quando alguma das freqüências esperadas foi inferior a 5. Neste caso, devido a quebra de pressupostos teóricos, o Teste Qui-Quadrado não é indicado. 
	As hipóteses do Teste de Fisher são formuladas da mesma maneira que no Teste Qui-Quadrado. A grande diferença entre eles reside no fato de que, enquanto o Qui-Quadrado calcula uma estatística de teste com base em freqüências observadas e esperadas, o Teste de Fisher calcula a probabilidade exata de se obter um resultado tão ou mais extremo do que aquele encontrado na amostra (o valor “p”, que já foi citado).
	A decisão é tomada da seguinte maneira: se o valor “p” for menor ou igual ao nível de significância adotado pelo pesquisador, rejeita-se a hipótese nula e conclui-se que existe associação entre as variáveis. Caso contrário, aceita-se a hipótese nula e não se pode concluir que existe associação entre as variáveis.
TESTE DE MANN-WHITNEY
Objetivo: Comparar duas populações com relação a uma variável expressa em escala qualitativa ordinal.
HIPÓTESES:
H0: não existe diferença entre as populações com relação à variável estudada.
H1: existe diferença.
Observação: O teste de Mann-Whitney também pode ser utilizado com hipóteses unilaterais. Trabalharemos aqui com a situação mais comum, que envolve testes bilaterais.
Veremos o procedimento direto em um exemplo: 
EXEMPLO 12: Foi feito um experimento que consistia em avaliar o nível de hostilidade (numa escala de 20 a 60) em determinada situação para duas amostras de crianças. A primeira amostra assistia a todos os tipos de programa na TV, enquanto que a segunda assistia apenas a programas educativos. Os dados obtidos estão apresentados a seguir. Usando 5% de significância, pode-se concluir que há diferença significativa entre as duas populações?
	Amostra 1
	Amostra 2
	23
	32
	41
	43
	36
	39
	28
	35
	39
	47
	25
	51
	38
	27
	40
	38
	
	42
	
	49
HIPÓTESES:
H0: não existe diferença no nível de hostilidade.
H1: existe diferença.
ESTATÍSTICA DE TESTE:
Primeiro passo: ordenar os valores, do menor ao maior, atribuindo postos conforme a ordem ocupada na seqüência geral. Se houver empates, o posto será a média dos postos que teriam sido atribuídos caso não houvesse empates.
	Amostra 1
	Postos
	Amostra 2
	Postos
	23
	1
	32
	5
	41
	13
	43
	15
	36
	7
	39
	10,5
	28
	4
	35
	6
	39
	10,5
	47
	16
	25
	2
	51
	18
	38
	8,5
	27
	3
	40
	12
	38
	8,5
	
	
	42
	14
	
	
	49
	17
Segundo passo: Somar os postos de cada amostra: P1=58 e P2=113
Terceiro passo: Calcular:
 e 
A estatística de teste U será o menor dos dois valores. Neste caso, U=22.
REGIÃO CRÍTICA: Em uma tabela correspondente, é obtido o valor crítico para U. Alternativamente, podemos obter o valor p que, neste caso, é 0,122.
DECISÃO: Como o valor p é maior que o nível de significância, aceitamos H0. Não podemos concluir, com 5% de significância, que haja diferença significativa entre as duas populações.
EXEMPLO 13: Duas amostras de funcionários (uma do sexo masculino e outra do sexo feminino) foram observadas quanto ao nível de satisfação no emprego (avaliado numa escala de 0 a 50). Usando 5% de significância, existe diferença entre homens e mulheres quanto à satisfação?
	Homens
	Mulheres
	25
	23
	38
	27
	44
	21
	37
	18
	39
	30
	28
	22
	36
	17
	45
	20
	43
	15
	30
	16
 
H0: não existe diferença no nível de satisfação.
H1: existe diferença.
Usando os dados amostrais, a estatística de teste é U=6,5, com valor p=0,000.
DECISÃO: Como o valor p é menor que o nível de significância, rejeitamos H0. Podemos concluir, com 5% de significância, que haja diferença significativa entre homens e mulheres quanto ao nível de satisfação.
TESTE DE KRUSKAL-WALLIS
Objetivo: Comparar k populações com relação a uma variável expressa em escala qualitativa ordinal.
Este teste também é conhecido como Análise de Variância não paramétrica.
HIPÓTESES: 
H0: não existe diferença entre as populações.
H1: existe pelo menos uma diferença entre as populações.
EXEMPLO 14: Deseja-se comparar trabalhadores de três categorias profissionais, com relação ao nível de stress, avaliado numa escala de 0 a 100. Para tanto, foram obtidos os dados a seguir. Usando 5% de significância, é possível concluir que exista alguma diferença no nível de stress entre as categorias profissionais? 
	Categoria A
	
	Categoria B
	
	Categoria C
	
	63
	
	33
	
	25
	
	20
	
	42
	
	31
	
	43
	
	27
	
	6
	
	58
	
	28
	
	14
	
	57
	
	51
	
	18
	
	71
	
	64
	
	13
	
	45
	
	12
	
	
	
	
	
	30
	
	
	
H0: não existe diferença entre as categorias quantoao nível de stress.
H1: existe pelo menos uma diferença entre as categorias.
Estatística de Teste:
Primeiro passo: ordenar os valores, do menor ao maior, atribuindo postos conforme a ordem ocupada na seqüência geral. Se houver empates, o posto será a média dos postos que teriam sido atribuídos caso não houvesse empates.
	Categoria A
	Postos
	Categoria B
	Postos
	Categoria C
	Postos
	63
	19
	33
	12
	25
	7
	20
	6
	42
	13
	31
	11
	43
	14
	27
	8
	6
	1
	58
	18
	28
	9
	14
	4
	57
	17
	51
	16
	18
	5
	71
	21
	64
	20
	13
	3
	45
	15
	12
	2
	
	
	
	
	30
	10
	
	
Segundo passo: Somar os postos de cada amostra: P1=110, P2=90 e P3=31.
Terceiro passo: Calcular o valor da estatística de teste:
, onde:
n: número total de dados, considerando as k amostras.
ni: número de dados da i-ésima amostra
Pi: soma dos postos da i-ésima amostra
REGIÃO CRÍTICA: É obtida numa distribuição Qui-Quadrado com k-1 graus de liberdade, sendo unilateral à direita. Neste caso, para 5% de significância e 3-1=2 graus de liberdade, o valor crítico é 5,99. Alternativamente, podemos tomar a decisão a partir do valor p que, neste caso, é 0,000. 
DECISÃO: Como o valor p é menor que o nível de significância, rejeita-se H0. Podemos concluir, com 5% de significância, que existe alguma diferença entre as categorias quanto ao nível de stress.
ANÁLISE DE CORRELAÇÃO
	Objetivo: Verificar a existência de relação entre duas variáveis expressas, no mínimo, em escala ordinal, avaliando como é a relação em termos de sentido (direta ou inversa) e de intensidade (forte ou fraca).
	Esta análise geralmente é feita através do cálculo de uma medida (Coeficiente de Correlação) que assume valores no intervalo de [-1:+1].
	O coeficiente de correlação fornece informações através do seu sinal e do seu valor numérico.
	Se o coeficiente é positivo, existe uma relação direta entre as variáveis, ou seja, quando uma variável aumenta, a outra também tende a aumentar.
	Se o coeficiente é negativo, existe uma relação inversa entre as variáveis, ou seja, quando uma variável aumenta, a outra tende a diminuir.
	Quanto mais próximo de 0 estiver o coeficiente, mais fraca é a relação. Quanto mais próximo de –1 ou de +1, mais forte é a relação.
COEFICIENTE DE CORRELAÇÃO POR POSTOS DE SPEARMAN:
	Deve ser usado quando as duas (ou uma das) variáveis forem qualitativas ordinais.
EXEMPLO 1: Um pesquisador está interessado em avaliar o nível de depressão, expresso numa escala de 0 a 150, e o nível de satisfação com o corpo, numa escala de 0 a 100, para mulheres de 30 a 40 anos. Obteve os dados a seguir, para uma amostra de mulheres.
	Mulher
	Depressão
	Posto
	Satisfação
	Posto
	D
	D2
	A
	82
	2
	92
	12
	-10
	100
	B
	98
	6
	62
	7
	-1
	1
	C
	87
	5
	81
	9
	-4
	16
	D
	40
	1
	88
	11
	-10
	100
	E
	116
	10
	37
	1
	9
	81
	F
	113
	9
	46
	4
	5
	25
	G
	111
	8
	54
	5
	3
	9
	H
	83
	3
	86
	10
	-7
	49
	I
	85
	4
	65
	8
	-4
	16
	J
	126
	12
	39
	2
	10
	100
	K
	106
	7
	56
	6
	1
	1
	L
	117
	11
	42
	3
	8
	64
	
	
	
	
	
	
	562
Cálculo do coeficiente:
Primeiro passo: atribuir postos a cada uma das variáveis (em vermelho, na grade acima)
Segundo passo: calcular a diferença (D) entre os postos de cada par, elevar estas diferenças ao quadrado e somar estes quadrados (em azul, na grade acima).
Terceiro passo: calcular:
Isto significa que, para esta amostra, existe uma relação inversa e forte entre as variáveis, ou seja, quanto maior o nível de depressão, menor tende a ser a satisfação com o corpo.
Será que este resultado pode ser generalizado para a população, ou seja, será que existe uma correlação significativa entre as variáveis ou este resultado pode ter acontecido por acaso?
Para responder isto, devemos testar a significância do valor encontrado, através de um teste de hipóteses. Neste caso, a hipótese nula afirma que não existe relação entre as variáveis, enquanto a hipótese alternativa afirma que existe relação. Em geral, os programas que calculam o coeficiente de correlação já fornecem o respectivo valor p, para a tomada de decisão.
No exemplo citado, o valor p é 0,000, indicando que, de fato, existe uma relação entre as variáveis na população.
COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON
É usado quando as duas variáveis são quantitativas.
EXEMPLO 2: Uma amostra de famílias de uma comunidade foi investigada quanto à renda mensal, em unidades monetárias, e quanto ao número de filhos.
	Família
	Renda (X)
	Número de filhos (Y)
	X2
	Y2
	XY
	A
	15
	4
	225
	16
	60
	B
	25
	2
	625
	4
	50
	C
	30
	3
	900
	9
	90
	D
	17
	5
	289
	25
	85
	E
	43
	2
	1849
	4
	86
	F
	18
	5
	324
	25
	90
	G
	54
	1
	2916
	1
	54
	H
	60
	1
	3600
	1
	60
	Soma
	262
	23
	10728
	85
	575
Cálculo do coeficiente: para procedermos os cálculos, iremos simbolizar os valores da primeira variável por X e os da segunda variável por Y.
Primeiro passo: elevar cada valor de X e cada valor de Y ao quadrado, multiplicar cada valor de X pelo correspondente valor de Y (estes dados foram colocados na grade, em vermelho). Obter a soma de cada uma das colunas da grade.
Segundo passo: Calcular:
	Isto significa que, para esta amostra, existe uma forte correlação inversa entre as variáveis, ou seja, quanto maior a renda, menor tende a ser o número de filhos e vice-versa. Para este coeficiente, o valor p é 0,003, significando que esta relação pode ser generalizada para a população de famílias da comunidade.
EXERCÍCIO: Um pesquisador investigou uma amostra de executivos de empresas multinacionais, observando as seguintes variáveis: salário (em reais), tempo de serviço na empresa (em anos), nível de satisfação no emprego (numa escala de 0 a 100) e nível de stress (numa escala de 0 a 100). Entre outras análises, ele estudou a relação entre algumas destas variáveis, obtendo os seguintes valores para os coeficientes de correlação: 
salário e tempo de serviço: r=0,68
nível de satisfação no emprego e nível de stress: r=-0,81
nível de satisfação no emprego e salário : r=0,53
Para cada dupla de variáveis, identifique qual coeficiente foi calculado e interprete o resultado.
Coeficiente de Pearson. Para esta amostra, há uma relação direta e de média intensidade entre as variáveis, indicando que, à medida em que aumenta o tempo de serviço, há uma tendência de aumento no salário.
Coeficiente de Spearman. Para esta amostra, há uma relação inversa e de forte intensidade entre as variáveis, indicando que, à medida em que aumenta o nível de satisfação no emprego, há uma tendência de redução no nível de stress.
Coeficiente de Spearman. Para esta amostra, há uma relação direta e de média intensidade entre as variáveis, indicando que, à medida em que aumenta o salário, há uma tendência de aumento no nível de satisfação no emprego.
ANÁLISE DE REGRESSÃO
	Assim como a análise de correlação, a análise de regressão é uma técnica usada para investigar a natureza da relação entre variáveis.
	Quando trabalhamos com duas variáveis apenas, usamos a Análise de Regressão Simples. Quando trabalhamos com várias variáveis, usamos a Análise de Regressão Múltipla.
	O objetivo é criar um modelo que possa explicar o comportamento de uma variável, chamada variável dependente ou resposta (Y), usando uma ou mais variáveis independentes ou explicativas (X).
	Através deste modelo, podemos usar os valores de uma variável para prever os valores da outra variável.
	Quando as variáveis em questão são quantitativas, o modelo mais utilizado é o linear, ou seja, supõe-se uma relação linear entre as variáveis.
EXEMPLO: Admita que uma amostra de funcionários de uma empresa tenha sido investigada quanto ao tempo de serviço, em anos, e quanto ao salário mensal, em salários mínimos. Os dados obtidos encontram-sea seguir. 
	Funcionário
	Tempo de serviço
	Salário
	A
	12
	15
	B
	10
	13
	C
	8
	10
	D
	3
	5
	E
	5
	7
	F
	14
	14
	G
	4
	6
	H
	7
	7
	I
	6
	8
	J
	7
	8
Neste caso, iremos tentar explicar o salário em função do tempo de serviço. Portanto, o salário é a variável dependente (Y) e o tempo de serviço é a variável independente (X). Trabalharemos com uma Regressão Simples.
	A seguir iremos mostrar o comportamento das duas variáveis através de um gráfico.
Distribuição dos funcionários quanto ao tempo de serviço e ao salário
	Como podemos observar, é razoável supor uma relação linear direta entre as variáveis. Vamos usar o Excel para ajustar um modelo linear para estes dados (usando a rotina “Dados”, “Análise de Dados”, “Regressão”).
	Abaixo, inserimos a “saída” desta análise:
	RESUMO DOS RESULTADOS
	
	
	
	
	
	
	
	
	
	
	Estatística de regressão
	
	
	
	
	R múltiplo
	0,954634606
	
	
	
	
	R-Quadrado
	0,911327231
	
	
	
	
	R-quadrado ajustado
	0,900243135
	
	
	
	
	Erro padrão
	1,11468703
	
	
	
	
	Observações
	10
	
	
	
	
	
	
	
	
	
	
	ANOVA
	
	
	
	
	
	
	gl
	SQ
	MQ
	F
	F de significação
	Regressão
	1
	102,1597826
	102,1598
	82,21935
	1,75403E-05
	Resíduo
	8
	9,940217391
	1,242527
	
	
	Total
	9
	112,1
	
	
	
	
	
	
	
	
	
	
	Coeficientes
	Erro padrão
	Stat t
	valor-P
	
	Interseção
	1,989130435
	0,87995939
	2,26048
	0,053682
	
	Variável X 1
	0,961956522
	0,106088525
	9,067489
	1,75E-05
	
	As principais informações fornecidas são:
Estatística de Regressão:
R Múltiplo: 0,95. Este é o coeficiente de correlação linear de Pearson. O Excel usa a nomenclatura de R Múltiplo, pois a rotina que ele usa é a mesma para regressão simples ou múltipla. Este valor indica que, para a amostra usada, existe uma relação direta e de forte intensidade entre o tempo de serviço e o salário.
R Quadrado: 0,91. É o quadrado do coeficiente de correlação, chamado de COEFICIENTE DE DETERMINAÇÃO. Este coeficiente indica qual o percentual da variação de Y que é explicada pela variável X. Neste caso, 91% das variações salariais são explicadas pela variação do tempo de serviço. Este resultado indica a qualidade do modelo ajustado.
ANOVA:
Neste quadro, é mostrada uma Análise de Variância que, neste caso, não está sendo usada para testar a diferença entre as médias de k populações. Esta análise está testando a significância do modelo ajustado, ou seja, ela é usada para testar se a regressão linear está conseguindo explicar de forma significativa o salário. No exemplo, a estatística de teste F foi de 82,22, com valor p=0,000. Concluímos que, de fato, o salário dos funcionários pode ser explicado pelo tempo de serviço.
No último quadro, nós temos as informações necessárias para ajustar o modelo. Olhando para a coluna dos coeficientes, escrevemos o seguinte modelo:
Através deste modelo, podemos dizer que o salário (Y) é composto de uma parcela fixa de 1,99 salários mínimos, que seria uma estimativa do salário inicial de um funcionário. A esta parcela, é acrescido 0,96 multiplicado por X, ou seja, a cada ano de trabalho, o salário do funcionário aumenta, em média, 0,96 salários mínimos (que pode ser entendido como uma estimativa de adicional por tempo de serviço).
Para um funcionário que tenha, por exemplo, 9 anos de serviço, o seu salário é estimado da seguinte maneira: 
 salários mínimos.
É importante destacar que esta é uma estimativa. Não podemos imaginar que ele terá exatamente este salário, mas um valor próximo disto. Poderíamos estabelecer margens de erro em torno desta estimativa, mas o Excel não nos dá todas as informações para fazermos isto. O que podemos dizer é que as margens de erro dependem do erro-padrão fornecido no primeiro quadro. O valor 1,11 significa que os valores ajustados pelo modelo se afastam, em média, 1,11 salários mínimos dos salários observados para estes funcionários.
O último quadro apresentado na “saída” ainda fornece uma série de informações, tais como a estatística de teste e o valor p para cada um dos coeficientes. Testar a significância da intersecção não tem muito sentido prático. O importante é testar a significância dos coeficientes das variáveis Xs. No caso da regressão simples, este teste já foi feito indiretamente, quando testamos a significância do modelo ajustado. 
Vamos agora refazer o exemplo, incluindo uma segunda independente na análise, que é a escolaridade do funcionário, em anos de estudo. Os dados são:
 
	Funcionário
	Tempo de serviço (X1)
	Escolaridade (X2)
	Salário (Y)
	A
	12
	15
	15
	B
	10
	15
	13
	C
	8
	11
	10
	D
	3
	8
	5
	E
	5
	10
	7
	F
	14
	11
	14
	G
	4
	10
	6
	H
	7
	8
	7
	I
	6
	11
	8
	J
	7
	10
	8
Vamos fazer agora uma regressão múltipla, uma vez que usaremos duas variáveis independentes (o tempo de serviço e a escolaridade) para explicar o salário dos funcionários.
Usamos a mesma rotina citada antes, obtendo os resultados a seguir:
	RESUMO DOS RESULTADOS
	
	
	
	
	
	
	
	
	
	
	Estatística de regressão
	
	
	
	
	R múltiplo
	0,9957366
	
	
	
	
	R-Quadrado
	0,99149138
	
	
	
	
	R-quadrado ajustado
	0,98906034
	
	
	
	
	Erro padrão
	0,36913346
	
	
	
	
	Observações
	10
	
	
	
	
	
	
	
	
	
	
	ANOVA
	
	
	
	
	
	
	gl
	SQ
	MQ
	F
	F de significação
	Regressão
	2
	111,1461834
	55,57309
	407,8474
	5,68208E-08
	Resíduo
	7
	0,953816568
	0,13626
	
	
	Total
	9
	112,1
	
	
	
	
	
	
	
	
	
	
	Coeficientes
	Erro padrão
	Stat t
	valor-P
	
	Interseção
	-2,0663314
	0,578182819
	-3,57384
	0,00905
	
	Variável X 1
	0,7185503
	0,04617989
	15,55981
	1,09E-06
	
	Variável X 2
	0,54177515
	0,066712866
	8,120999
	8,28E-05
	
	As principais informações fornecidas são:
Estatística de Regressão:
R Múltiplo: 0,996. Agora nós temos um coeficiente de correlação múltiplo, que mede a correlação de Y com o conjunto de variáveis explicativas. Este valor indica que, para a amostra usada, existe uma relação quase perfeita do salário com o tempo de serviço e a escolaridade.
R Quadrado: 0,99. Indica que 99% das variações salariais são explicadas pela variação do tempo de serviço e da escolaridade.
ANOVA:
Neste quadro, vemos que a estatística de teste F foi de 407,85, com valor p=0,000. Concluímos que, de fato, o salário dos funcionários pode ser explicado pelo conjunto de variáveis: tempo de serviço e escolaridade.
No último quadro, nós temos as informações necessárias para ajustar o modelo. Olhando para a coluna dos coeficientes, escrevemos o seguinte modelo:
Nesta situação, o que interessa é entender o significado dos coeficientes das variáveis independentes. O coeficiente da variável X1 significa que, mantidas as demais variáveis constantes (no caso, a escolaridade), um aumento de um ano de serviço na empresa provoca um aumento médio de 0,72 salários mínimos no salário do funcionário. O coeficiente da variável X2 significa que, mantidas as demais variáveis constantes (no caso, o tempo de serviço), um aumento de um ano na escolaridade provoca um aumento médio de 0,54 salários mínimos no salário do funcionário. 
Voltamos à situação do funcionário que tenha 9 anos de serviço. Vamos imaginar que ele tenha 11 anos de escolaridade. O seu salário é estimado, agora, da seguinte maneira: 
 salários mínimos.
Ainda observando o último quadro apresentado na “saída”, podemos testar a significância do coeficiente de cada uma das variáveis independentes. Isto significa testar se cada uma das variáveis independentes contribui de forma significativa para a explicação da variação salarial.
Na linha da variável X1, observamos que a estatística de teste do coeficiente é 15,56, com valor p=0,000. Isto indica que o tempo de serviço contribui de formasignificativa para a explicação do salário. Na linha da variável X2, observamos que a estatística de teste do coeficiente é 8,12, com valor p=0,000. Isto indica que a escolaridade contribui de forma significativa para a explicação do salário.
Se alguma das variáveis independentes não fosse significativa, ela deveria ser excluída do modelo. Deveríamos refazer a análise, retirando a variável não significativa.
REGRESSÃO LOGÍSTICA
	Quando fizemos a Análise de Regressão, através de um modelo linear, admitimos que a variável resposta (Y) era quantitativa. Assim, estimamos o valor médio da resposta (do salário, no exemplo) que correspondia a um determinado conjunto de valores das variáveis explicativas (do tempo de serviço e da escolaridade).
	Existem muitas situações em que a variável resposta é dicotômica. Como exemplos podemos citar a presença de uma doença (sim ou não) ou a sua evolução (cura ou óbito). Neste caso, usamos o valor 1 para representar um “sucesso” (ou aquele resultado em que estamos interessados) e o valor 0 para representar um fracasso.
	A média da variável Y indica a proporção de vezes que ocorre um sucesso (p).Se, na regressão linear, estimávamos o valor médio da variável quantitativa, agora estimamos o valor médio de p, ou seja, a probabilidade de ocorrer o sucesso para um indivíduo, a partir dos valores para as variáveis explicativas associadas. Isto é feito através da Regressão Logística.
	Como exemplo, vamos considerar a seguinte situação: para uma amostra de 223 bebês com baixo peso ao nascer, 76 foram diagnosticados com displasia broncopulmonar (um tipo crônico de doença pulmonar). 
	Vamos considerar a variável Y que assume o valor 1 se a criança tem a doença e 0 se a criança não tem a doença.
	Inicialmente, podemos estimar a probabilidade de que um bebê com baixo peso ao nascer desenvolva a doença da seguinte maneira:
, ou seja, estimamos que a probabilidade de um bebê desenvolver a doença seja de 34,1%.
	Podem existir certos fatores que afetem esta probabilidade, normalmente chamados de fatores de risco. A idade gestacional pode ser um fator de risco para o desenvolvimento da doença, assim como a presença de doenças maternas durante a gestação.
	Se, para cada bebê, forem analisadas estes possíveis fatores de risco (que podem ser quantitativos ou não), podemos usar um software estatístico para ajustar um modelo chamado de Função Logística. Esta função relaciona a probabilidade p do bebê desenvolver a doença com as diversas variáveis explicativas. 
	Como a função logística estima uma probabilidade, os seus resultados são sempre números entre 0 e 1.
	Uma vez ajustado o modelo, substituem-se os valores das variáveis explicativas, estimando-se a probabilidade de que um bebê desenvolva a displasia broncopulmonar.

Outros materiais