Prévia do material em texto
87
BIOESTATÍSTICA
Unidade II
5 DISTRIBUIÇÕES TEÓRICAS DE PROBABILIDADE
Como já falamos, o objetivo maior da bioestatística é a tomada de decisões. Assim, trataremos
agora exatamente das técnicas disponíveis para isso. Iniciaremos com uma revisão de conceitos de
probabilidade para entendermos melhor como eles são utilizados em bioestatística, pois podem nos
apresentar proporções interessantes a respeito de amostras.
A inferência estatística é o momento em que podemos determinar os parâmetros de nossas
variáveis e, consequentemente, chegar a conclusões a respeito da população em estudo por
meio da amostra.
As técnicas que apresentaremos são os testes de hipóteses para amostras pequenas e grandes,
incluindo o teste t de Student e o teste qui‑quadrado.
Esses testes nos permitem levantar hipóteses a respeito de nossa pesquisa, da amostra e da média
fazendo comparações que nos permitem validar ou não essas hipóteses.
Apresentaremos ainda o teste para correlação entre duas variáveis por meio da determinação
do coeficiente de correlação do gráfico gerado pelos dados e da equação de regressão, que nos dará
previsão de resultados para novos valores das variáveis.
5.1 Introdução à probabilidade
A Teoria da Probabilidade estuda as possibilidades da ocorrência de um experimento aleatório, ou
seja, eventos que, mesmo quando repetidos inúmeras vezes, nas mesmas condições, podem apresentar
resultados diferentes.
5.1.1 Experimento aleatório
Os experimentos aleatórios têm como características repetirem‑se várias vezes na mesma
condição. O conjunto de todos os resultados possíveis é conhecido e, mesmo assim, não se pode
prever qual é o resultado.
Um dos elementos de um experimento aleatório é o espaço amostral ou universo (U), que é o
conjunto de todos os resultados possíveis de um experimento aleatório.
Cada experimento corresponde, em geral, a vários resultados possíveis.
88
Unidade II
Exemplos:
1. Quando lançamos uma moeda, há dois resultados possíveis: cara ou coroa. Portanto, o espaço
amostral é U = {cara, coroa}.
2. Quando jogamos um dado, há seis resultados possíveis: 1, 2, 3, 4, 5 ou 6, portanto, o espaço
amostral é U = {1, 2, 3, 4, 5, 6}.
3. Quando utilizamos um baralho de 52 cartas, nosso espaço amostral são as 52 cartas, que podem
ser de quatro naipes diferentes: copas, espadas, ouros e paus, conforme a figura a seguir. Cada naipe
tem nove cartas numeradas de 2 a 10, o número 1 é representado pela carta Às (A) e há ainda três cartas
representadas pelas figuras de um valete, uma dama e um rei.
Figura 43 – Naipes do baralho
4. Se lançarmos duas moedas sucessivamente, teremos o espaço amostral: U = {(Ca, Ca), (Ca, Co), (Co,
Ca), (Co, Co)}, como podemos verificar na figura a seguir:
1ª moeda 2ª moeda
Cara, cara
Cara, coroa
Coroa, cara
Coroa, coroa
Resultados possíveis
Figura 44 – Diagrama das possibilidades do lançamento de duas moedas sucessivamente
5.2 Distribuição normal de probabilidade
A distribuição normal de probabilidade é uma das mais empregadas entre as distribuições teóricas
de variável aleatória contínua.
O aspecto gráfico de uma distribuição normal é a curva normal ou de Gauss como demonstra a
figura a seguir:
89
BIOESTATÍSTICA
f(x)
Média x
Figura 45 – Curva de Gauss
A variável x pode assumir qualquer valor real.
Curva de Gauss é uma curva em forma de sino assintótica em relação ao eixo x e simétrica em
relação à média. Portanto, a probabilidade de ocorrer valor maior que a média é igual à probabilidade de
ocorrer valor menor do que a média.
Escrevemos:
P(x> X ) = P(x< X ) = 5.
A distribuição normal reduzida, ou padronizada, que admite média 0 e desvio padrão 1, é
indicada pela letra Z. Para reduzirmos os valores que desejamos para a curva padronizada, devemos
utilizar a fórmula:
Para amostras:
x X
z
s
−
=
Para população:
x
z
−µ
=
σ
A utilização da fórmula nos dá a associação das probabilidades à distribuição normal reduzida, que
se apresenta na tabela de distribuição normal:
90
Unidade II
Tabela 28 – Tabela de distribuição normal reduzida. Áreas sob a curva
normal padrão. Para os valores negativos de z, as áreas são obtidas
por simetria
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,10 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,20 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,30 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,40 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,50 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,60 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,70 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,80 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,90 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,00 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,10 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,20 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,30 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,40 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,50 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,60 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,70 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327
1,80 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,90 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2,00 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,10 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,20 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,30 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,40 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,50 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,60 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,70 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,80 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,90 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3,00 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,10 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,20 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,30 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,40 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,50 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,60 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,70 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,80 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,90 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
4,00 0,49997 0,49997 0,49997 0,49997 0,49997 0,49997 0,49998 0,49998 0,49998 0,49998
91
BIOESTATÍSTICA
Observação
Esta tabela foi criada no Microsoft Excel, com a função DIST.NORMP.N.
Exemplos:
1. Admitindo que a distribuição de QI dos funcionários do Hospital e Maternidade Baruch de Toulouse
seja normal, com média 100 pontos e desviopadrão 10 pontos, qual a probabilidade de um funcionário,
tomado ao acaso, apresentar QI superior a 120 pontos?
Para que possamos utilizar a tabela de distribuição Z, devemos transformar o nosso valor de QI em
Z, temos X = 100, s=10 e desejamos saber P(X)>120.
x X
z
s
−
= = 120 100
z
10
−
= = 20
z
10
= = 2
Portanto, queremos saber: P(X)>120, que se transforma em P(Z)>2.
Então, temos: P(x)>120 = P(Z)>2.
Vamos, então, fazer o esboço da curva normal:
–5 –4 –3 –2 –1 0 1 2 3 4 5
Figura 46 – Esboço curva normal para z>2
Como queremos apenas a parte do gráfico que está em amarelo, devemos retirar o intervalo de 0 a
1 da área do gráfico, então:
P(Z) >2 = P(Z>0) – P(0<Z<2)
Vemos que P(Z>0) é igual a 0,5 ou 50% e P(0<Z<2). Agora, devemos procurar, na tabela de distribuição
normal reduzida, a intersecção da linha onde se encontra o nº 2,0 e a coluna 0,00, pois o número é 2,00,
obtendo o valor 0,4772.
92
Unidade II
Substituindo os valores, temos:
P(Z) >2 = 0,5 – 0,4772
P(Z) >2 = 0,0228 x 100
P(Z) >2 = 2,28 %
Então, concluímos que a probabilidade de um funcionário, tomado ao acaso, apresentar QI superior
a 120 pontos é de 2,28%.
Observação
A Fórmula no Excel, nesse caso, é:
=0,5‑(DIST.NORMP.N(2;1)‑0,5)=2,28% (não esqueça de formatar o
número da célula em que está a fórmula para porcentagem).
2. Admitindo‑se o exemplo anterior, qual a probabilidade de um desses funcionários, tomado ao
acaso, apresentar QI entre 80 e 115 pontos?
Temos X = 100, s=10 e desejamos saber P(80<X<115)
x X
z
s
−
= = 80 100
z
10
−
= = 20
z
10
−
= = ‑2
115 100
z
10
−
= = 15
z
10
= = 1,5
Então, temos: P(80<X<115) = P(‑2<Z<1,5).
Vamos, então, fazer o esboço da curva normal:
2 0 1,5
Figura 47 – Esboço de curva normal para ‑2<Z<1,5
93
BIOESTATÍSTICA
Para obtermos a área total do gráfico que está em amarelo, devemos juntar a área de ‑2 até 0 e
de 0 até 1,5.
P(‑2<Z<1,5) = P(‑2<Z<0) + P(0<Z<1,5)
Procurando na tabela, temos:
P(‑2<Z<1,5) = P(‑2<Z<0) + P(0<Z<1,5)
P(‑2<Z<1,5) = 0,4772 + 0,4332
P(‑2<Z<1,5) = 0,9104 x 100
P(‑2<Z<1,5) = 91,04%
Então, concluímos que a probabilidade de um dos funcionários apresentar QI entre 80 e 115 pontos
é de 91,04%.
Portanto, podemos concluir que, com base em grandes amostras, podemos estimar média,
variância e desvio padrão, e com base na distribuição normal, podemos definir critérios de
normalidade e não normalidade.
Observação
A fórmula no Excel, nesse caso, é:
=0,5‑DIST.NORMP.N(‑2;1)+DIST.NORMP.N(1,5;1)‑0,5 =91,04%
Lembrete
Quando desejamos saber a probabilidade da ocorrência de uma
variável, resultado de uma pesquisa, devemos recorrer à distribuição
normal de probabilidade.
Saiba mais
Você pode achar mais exemplos com o tema saúde e distribuição normal
de probabilidades no livro:
PAGANO, M.; GAUVREAU, K. Bioestatística. 2. ed. São Paulo: Thomson
Learning, 2006.
94
Unidade II
6 INTRODUÇÃO AO TESTE DE HIPÓTESES
Quando se faz pesquisa, tem‑se por objetivo responder a perguntas que devem ser transformadas
em hipóteses ou em uma hipótese, uma pressuposição a respeito de determinado problema.
6.1 Conceito de hipótese
Quando formulamos uma hipótese, desejamos comprová‑la por meio de uma amostra, e ela não será
de valor se não pudermos generalizá‑la. Para generalizar uma pesquisa, ou responder a uma hipótese,
existe, em estatística, um mecanismo chamado teste de hipóteses.
Assim, testar uma hipótese nada mais é do que generalizar um pressuposto e, assim, chegar a
uma conclusão.
Testar uma hipótese pode ser, então, aceitar ou rejeitar uma afirmação sobre um determinado
parâmetro. Essa afirmação é chamada de hipótese e denominada teste de hipóteses.
Existem dois tipos de hipóteses em um teste de hipóteses: a hipótese nula, chamada comumente
de H0, e a hipótese alternativa, que comumente chamamos de H1. Então, temos:
• Hipótese nula (H0): a hipótese a ser testada.
• Hipótese alternativa (H1): a hipótese a ser considerada como uma alternativa à hipótese nula.
A hipótese nula, em um teste de hipóteses relacionado com a média de uma população μ, deve
sempre especificar um único valor para aquele parâmetro.
Portanto, no caso da hipótese nula H0:
H0: μ = μ0
A hipótese alternativa deve refletir o propósito do teste de hipóteses em questão. Existem três
possibilidades para a escolha da hipótese alternativa:
• Teste bilateral: se estivermos preocupados em decidir se a média de uma população é diferente
de um valor especificado:
H1: μ ≠ μ0
• Teste unilateral à esquerda: se quisermos comprovar que a média de uma população é menor
que um valor especificado. Neste caso, expressamos a hipótese alternativa como:
H1: μ<μ0
95
BIOESTATÍSTICA
• Teste unilateral a direita: se estivermos preocupados em decidir se a média de uma população
é maior que um valor especificado.
H1: μ>μ0
Exemplo:
1. O gestor da Maternidade Athena de Toulouse percebeu que na maioria dos casos de nascimento
de crianças com baixo peso, as mães utilizavam algum tipo de droga ilícita, portanto, questionou‑se:
a probabilidade de baixo peso ao nascer é maior quando a mãe faz uso contínuo de drogas ilícitas
durante a gestação?
Resolução:
Para responder à pergunta, será necessário comparar o peso ao nascer de filhos de dois grupos de
mães: as que usaram drogas ilícitas durante a gestação e as que não usaram drogas ilícitas durante a
gestação, o que gerou as seguintes hipóteses:
• H0: a probabilidade de ter filhos com baixo peso ao nascer é a mesma para mães que usaram ou
não drogas ilícitas durante a gestação.
• H1: a probabilidade de ter filhos com baixo peso ao nascer é maior para mães que usaram drogas
ilícitas durante a gestação.
Lembrete
Hipótese nula (H0): a hipótese a ser testada.
Hipótese alternativa (H1): a hipótese a ser considerada como uma
alternativa à hipótese nula.
6.2 Aplicação do teste
Após a definição das duas hipóteses, nula e alternativa, é necessário realizar cálculos que nos
permitam determinar qual das duas é verdadeira, ou qual das hipóteses vamos rejeitar e qual
vamos aceitar.
Devemos, então, escolher uma amostra aleatória da população e fazer uma comparação com a
hipótese nula. Se os dados da amostra forem consistentes com ela, não rejeitamos a hipótese nula; caso
não sejam consistentes, rejeitamos a hipótese nula e assumimos que a hipótese alternativa é verdadeira.
Por convenção, testa‑se sempre H0. Dessa forma, aceitar H0 implica comprovar a igualdade e rejeitar
H0 implica comprovar a diferença entre os grupos testados.
96
Unidade II
6.3 Nível de significância
Para confirmar ou rejeitar alguma hipótese, devemos estabelecer o valor da probabilidade tolerável de
incorrer no erro de rejeitar H0, quando H0 é verdadeira. Esse valor é conhecido como nível de significância
do teste e é designado pela letra grega α.
É comum adotar um nível de significância de 5%, porém ainda pode ser de 10% ou de 1%. Isto é,
respectivamente: α = 0,05, α =0,10 ou α = 0,01.
Quando o nível de significância é de 5%, significa que há uma confiança de 95% de que a decisão
tomada foi acertada.
Lembrete
Sempre que desejamos confirmar ou rejeitar hipóteses, devemos
determinar o nível de significância.
Observação
Nível de significância do teste é a probabilidade de cometer um erro,
como rejeitar H0 quando H0 é verdadeira.
6.4 Teste para amostras com a média de uma população
Uma amostra é considerada pequena quando apresenta n<30 e grande quando apresenta n>30.
6.4.1 Amostras grandes (n>30)
Devemos, em primeiro lugar, escrever as hipóteses nula e alternativa e, depois, definir o nível de
confiança, calcular o valor da estatística do teste, rejeitar ou não H0 e concluir.
A estatística do teste
Devemos, em primeiro lugar, determinar a média aritmética da amostra com a fórmula:
X
X
n
∑
=
Depois, vamos determinar o desvio em relação à média, com a fórmula:
S
X
n
σ =
97
BIOESTATÍSTICA
Onde:
Xσ = desvio em relação à média;
S = desvio padrão amostral;
n = raizquadrada do tamanho da amostra.
Depois devemos determinar o valor relativo ao nível de significância α escolhida, chamado zα que
se encontra na tabela a seguir:
Tabela 29 – Valores críticos de zα
a 0,10 0,05 0,025 0,01 0,005
zα Z0,10 Z0,05 Z0,025 Z0,01 Z0,005
Valores críticos de zα 1,28 1,645 1,96 2,33 2,575
Então, determinamos o valor de z, que chamaremos de zcalc utilizando os valores da pesquisa, por
meio da fórmula:
Zcalc = X
S
n
−µ
Onde:
Zcalc = estatística do teste;
X = média amostral;
μ = média da população;
S = desvio padrão amostral;
n = nº de elementos da amostra.
Uma vez determinado zcalc, devemos decidir por H0 ou H1 por meio do teste da média das amostras,
conforme figura a seguir:
98
Unidade II
H0:µ1 = µ2 contra uma das alternativas
H1:µ1 ≠ µ2 (bilateral) ou
H1:µ1>µ2 (unilateral superior) ou
H1:µ1<µ2 (unilateral inferior) ou
Unilateral
à direita
Unilateral
à esquerda
Figura 48 – Teste de hipóteses
A decisão é feita por meio da área da calda da curva de Gauss, como mostra a figura a seguir:
Rejeite
H0
Rejeite
H0
α/2 α
‑Zα/2 ‑ZαZα/2 Zα0 00
α/2 α
Não
rejeite
H0
Não rejeite H0 Não rejeite H0
Bilateral Unilateral à esquerda
µ1 ≠ µ2
Região crítica
bilateral: rejeita‑se
H0 se
Zcalc<Zα/2 ou
Zcalc>Z(1–α/2)
µ1<µ2
Região crítica
unilateral à esquerda:
rejeita‑se H0 se
Zcalc<Zα
µ1>µ2
Região crítica
unilateral à direita:
rejeita‑se H0 se
Zcalc>Z(1–α)
Unilateral à direita
Z ZZ
Rejeite
H0
Rejeite
H0
Figura 49 – Como aceitar ou rejeitar H0 na curva normal
Exemplos:
1. O gestor do Hospital Baruch Toulouse verificou que o valor das refeições, em 2014, no restaurante
terceirizado que serve funcionários e clientes, teve como preço médio das refeições R$ 28,44. Fez, então,
uma pesquisa em 40 restaurantes aleatoriamente escolhidos na cidade, e foi obtida a média de R$ 31,75
e desvio padrão R$ 7,35. Os dados fornecidos proporcionam evidência suficiente para concluir que o
preço médio pesquisado nos restaurantes da cidade é maior em relação ao restaurante que serve o
hospital? Utilize nível de significância de 1%.
Resolução:
Devemos, em primeiro lugar, escrever as hipóteses:
• H0: μ = 28,44 (o preço médio não aumentou).
• H1: μ>28,44 (o preço médio aumentou).
99
BIOESTATÍSTICA
Agora, vamos utilizar a tabela anterior para determinar za:
Nível de significância 1%: α = 0,01
Z0,01 = 2,33 (valor da tabela anterior)
Cálculo do valor de zcalc:
Dados: X = 31,75, µ = 28,44, s = 7,35, n = 40
Zcalc =
X
S
n
−µ
Zcalc =
31,75 28,44
7,35
40
−
Zcalc = 2,85
Decisão por H0 ou H1:
Temos: Zα = 2,33 e Zcalc = 2,85. De acordo com o gráfico a seguir, devemos rejeitar H0 em favor de
H1, pois Zcalc > Zα %, portanto, rejeita‑se H0, como mostra a figura:
Não rejeite H0 Rejeite H0
Z
Área de 0,01
2,330
Figura 50 – Área da cauda, rejeição de Ho
Concluímos, então, que os dados fornecidos proporcionam evidência suficiente para concluir que
o preço médio pesquisado nos restaurantes da cidade é maior em relação ao restaurante que serve o
hospital, podendo, assim, o gestor manter os mesmos comerciantes da terceirização.
6.4.2 Teste t de Student para amostras pequenas (n < 30)
Para uma população de amostra normalmente distribuída, pode‑se realizar um teste de hipóteses
com a hipótese nula (H0: μ = μ0), empregando a fórmula, agora para t, e utilizando a tabela da distribuição t
para obter o valor crítico.
100
Unidade II
Tabela 30 – Tabela de distribuição t de Student
Probabilidade unicaudal de t de Student
Área na cauda superior
/ 0,8 0,9 0,95 0,98 0,99 0,995 0,998 /
gl 0,250 0,1 0,050 0,025 0,01 0,005 0,0025 0,001 0,0005
1 1,00 3,08 6,31 12,71 31,82 63,66 127,32 318,31 636,62
2 0,82 1,89 2,92 4,30 6,96 9,92 14,09 22,33 31,60
3 0,76 1,64 2,35 3,18 4,54 5,84 7,45 10,21 12,92
4 0,74 1,53 2,13 2,78 3,75 4,60 5,60 7,17 8,61
5 0,73 1,48 2,02 2,57 3,36 4,03 4,77 5,89 6,87
6 0,72 1,44 1,94 2,45 3,14 3,71 4,32 5,21 5,96
7 0,71 1,41 1,89 2,36 3,00 3,50 4,03 4,79 5,41
8 0,71 1,40 1,86 2,31 2,90 3,36 3,83 4,50 5,04
9 0,70 1,38 1,83 2,26 2,82 3,25 3,69 4,30 4,78
10 0,70 1,37 1,81 2,23 2,76 3,17 3,58 4,14 4,59
11 0,70 1,36 1,80 2,20 2,72 3,11 3,50 4,02 4,44
12 0,70 1,36 1,78 2,18 2,68 3,05 3,43 3,93 4,32
13 0,69 1,35 1,77 2,16 2,65 3,01 3,37 3,85 4,22
14 0,69 1,35 1,76 2,14 2,62 2,98 3,33 3,79 4,14
15 0,69 1,34 1,75 2,13 2,60 2,95 3,29 3,73 4,07
16 0,69 1,34 1,75 2,12 2,58 2,92 3,25 3,69 4,01
17 0,69 1,33 1,74 2,11 2,57 2,90 3,22 3,65 3,97
18 0,69 1,33 1,73 2,10 2,55 2,88 3,20 3,61 3,92
19 0,69 1,33 1,73 2,09 2,54 2,86 3,17 3,58 3,88
20 0,69 1,33 1,72 2,09 2,53 2,85 3,15 3,55 3,85
21 0,69 1,32 1,72 2,08 2,52 2,83 3,14 3,53 3,82
22 0,69 1,32 1,72 2,07 2,51 2,82 3,12 3,50 3,79
23 0,69 1,32 1,71 2,07 2,50 2,81 3,10 3,48 3,77
24 0,68 1,32 1,71 2,06 2,49 2,80 3,09 3,47 3,75
25 0,68 1,32 1,71 2,06 2,49 2,79 3,08 3,45 3,73
26 0,68 1,31 1,71 2,06 2,48 2,78 3,07 3,43 3,71
27 0,68 1,31 1,70 2,05 2,47 2,77 3,06 3,42 3,69
28 0,68 1,31 1,70 2,05 2,47 2,76 3,05 3,41 3,67
29 0,68 1,31 1,70 2,05 2,46 2,76 3,04 3,40 3,66
30 0,68 1,31 1,70 2,04 2,46 2,75 3,03 3,39 3,65
Observação
A tabela foi criada no Excel com o comando =INV.T($N$4;M5)*(‑1).
101
BIOESTATÍSTICA
Em primeiro lugar, devemos escrever as hipóteses nula (H0) e a alternativa (H1); definimos, então,
o nível de significância α e determinamos os valores críticos: para teste bilateral é ±tα/2, para teste
unilateral à esquerda é ‑tα e para teste unilateral à direita é tα.
Para utilizarmos a tabela de distribuição t de Student, precisamos calcular os graus de liberdade (GL).
Cálculo de GL (graus de liberdade):
GL = (número de linhas ‑1) x (número de colunas ‑1)
Simplificando, temos:
gl = (l‑1) . (c‑1)
A decisão é feita por meio da área da calda da curva de Gauss, como mostra a figura a seguir:
Rejeite
H0
Rejeite
H0
α/2 α
‑tα/2 ‑tαtα/2 tα0 00
α/2 α
Não
rejeite
H0
Não rejeite H0 Não rejeite H0
Bilateral Unilateral à esquerda
µ ≠ 0
Para teste bilateral:
±tα/2
µ<0
Para teste unilateral à
esquerda –tα
µ>0
Para teste unilateral à
direita tα
Unilateral à direita
t tt
Rejeite
H0
Rejeite
H0
Figura 51 – Como aceitar ou rejeitar Ho na curva normal
A estatística do teste é dada pela fórmula:
t = X 0
S
n
−µ
Onde:
t = estatística do teste;
X = média amostral;
µ0 = média da população;
S = desvio padrão amostral;
n = nº de elementos da amostra.
102
Unidade II
Se o valor da estatística de teste cair na região de rejeição, deve‑se rejeitar H0; caso contrário, não
rejeitar H0 e fazer a conclusão.
Exemplo:
1. A média de gastos com plano de saúde de todas as famílias de certa região é de R$ 1.123,00
em um determinado ano. Nesse mesmo ano, coletando‑se uma amostra aleatória de 15 famílias de
classe média alta, obteve‑se média de R$ 1.344,27 e desvio padrão de R$ 231,00. Com um nível de
significância de 5%, os dados indicam que famílias da classe média alta gastam, em média, com plano
de saúde, mais do que a média da região? Assuma que a distribuição de gastos com planos de saúde das
famílias de classe média seja normalmente distribuída.
Resolução:
Hipóteses:
• Ho: µ = 1123 (a média não é maior que a média da região);
• H1: µ >1123 (a média é maior que a média da região).
Nível de confiança: 5%, α = 0,05, Gl = n‑1
Gl = 15‑1=14
tα = 1,76, como mostra a figura a seguir:
Figura 52 – Como achar o valor na tabela
103
BIOESTATÍSTICA
A tabela completa (tabela de distribuição t de Student) foi mencionada anteriormente.
Estatística do teste:
Dados: µ0 = 1123; n = 15; X = 1344,27; s = 231
t = X 0
S
n
−µ
t =
1 .344,27 1123
231
15
−
t =
221,27
231
3,87
t =
221,27
59,69
t = 3,710
Temos: t = 3,710 e tα = 1,761.
Se temos t > tα, o valor está dentro da região de rejeição; portanto, rejeita‑se H0, como
mostra a figura:
Não rejeite H0
Curva t com
GL = 14
Rejeite H0
t
0,05
1,7610
Figura 53 – Área da cauda, rejeição de Ho
Então, podemos concluir que famílias da classe média alta gastam,em média, com plano de saúde
mais do que a média da região.
Lembrete
Temos maneiras diferentes para tratar o teste para amostras com média
da população, com relação a amostras pequenas e amostras grandes.
104
Unidade II
6.4.3 Teste de hipóteses para média de duas populações
É utilizado para comparação de duas médias de populações para decidir se existe alguma diferença
entre elas. A condição para a aplicação desse teste é termos amostras grandes (n>30). As médias das
amostras são calculadas e comparadas.
A conclusão é dada a partir da comparação. As amostras não são iguais se houver uma diferença
significativa entre elas.
O procedimento é o mesmo dos outros testes. Primeiro devemos determinar a hipótese nula:
H0: μ1 = μ2 (as médias são iguais)
Depois, retiramos uma amostra de cada uma das populações e calculamos as médias.
A diferença observada ( X
1 – X
2) é, agora, a estatística do teste.
Considerando que a distribuição da amostragem é aproximadamente normal, se a hipótese nula
H0: μ1 = μ2 é verdadeira, então a média da distribuição das diferenças das médias das amostras deve
ser zero. Para localizar a estatística de teste na distribuição, necessitamos calcular o desvio padrão da
distribuição, que é dado pela fórmula:
σ
2 2
1 2
1 2
1 2
X – X
n n
σ σ
= +
Onde:
σx1– x2 = desvio padrão da diferença das médias das populações;
σ 12= variância da população 1;
σ 22 = variância da população 2;
n1 = nº de elementos da amostra 1;
n2 = nº de elementos da amostra 2.
Como normalmente os valores das variâncias das populações não são conhecidos, podemos utilizar
as variâncias das amostras com os estimadores ou estimativas das variâncias das populações para
calcular uma estimativa do desvio padrão, com a fórmula:
S
2 2
1 2
1 2
1 2
S S
X – X
n n
= +
105
BIOESTATÍSTICA
Onde:
S x1– x2 = desvio padrão da diferença das médias das amostras;
S1
2 = variância da amostra 1;
S2
2= variância da amostra 2;
n1 = nº de elementos da amostra 1;
n2 = nº de elementos da amostra 2.
A localização da estatística da amostra X
1 – X
2 relativa à média da distribuição pode ser encontrada
calculando‑se o valor de z:
Z=
( )1 2
1 2 S
X – X
X – X
Onde:
z = estatística do teste;
X
1 = média da amostra 1;
X
2 = média da amostra 2;
S X 1 – X 2 = desvio padrão da diferença das médias das amostras.
Se a estatística do teste cair na região de rejeição, então rejeite H0; caso contrário, não rejeite H0.
A figura a seguir mostra as regiões de rejeição para os valores de z.
Rejeite
H0
Rejeite
H0
α/2 α
‑Zα/2 ‑ZαZα/2 Zα0 00
α/2 α
Não
rejeite
H0
Não rejeite H0 Não rejeite H0
Bilateral Unilateral à esquerda Unilateral à direita
Z ZZ
Rejeite
H0
Rejeite
H0
Figura 54 – Regiões de rejeição de comparação das médias de duas amostras
106
Unidade II
Exemplo:
1. O gestor do Hospital Baruch de Toulouse deseja verificar se existe diferença entre os salários dos
enfermeiros que atuam nos hospitais da capital e dos hospitais do interior por meio de um teste de
hipóteses. Para isso, selecionou aleatoriamente 30 enfermeiros do hospital da capital e, com base em
seus salários anuais, determinou‑se a média de seus salários como sendo de R$ 46.720,00 com desvio
padrão de R$ 14.700,00. O mesmo procedimento foi adotado para uma amostra de 35 enfermeiros dos
hospitais do interior, obtendo‑se média de R$ 51.910,00 e desvio padrão de R$ 16.200,00. Ele optou por
utilizar nível de significância de 5%.
Resolução:
Devemos, em primeiro lugar, escrever as hipóteses:
• H0: μ1 = μ2 (as médias de salários são iguais, bilateral);
• H1: μ1 = μ2 (as médias de salários são diferentes).
Os valores críticos de z com nível de significância de 5% α = 0,05 são:
± zα/2 = ± z0,05/2 = ± z0,025 = ± 1,96
Como mostra a figura:
Rejeite H0 Rejeite H0Não rejeite H0
α/2 = 0,025α/2 = 0,025
–1,96 0 1,96
Z
Figura 55 – Valores críticos de rejeição
Estatística do teste:
Dados: s2
1
2
2= 14.700,00; s = 16.200; n = 30; n = 351 2
S
2 2
1 2
1 2
1 2
S S
X – X
n n
= +
S
2 2
1 2
1 4.700 1 6.200
X – X
30 35
= +
107
BIOESTATÍSTICA
S= 3.834,23
Z= ( )1 2
1 2
X – X
SX – X
Z= 46.720 – 51.910
3.843,23
Z=‑1,35
Pela figura anterior, percebemos que o valor de z= ‑1,35 não está na área não rejeite H0.
Portanto, com base nos dados da amostra, o gestor do hospital tem evidências suficientes para
concluir que existe diferença entre as médias salariais dos enfermeiros que atuam nos hospitais da
capital e dos hospitais do interior.
Lembrete
Para fazer o teste de hipóteses, a pergunta de que está fazendo a
pesquisa é transformada em duas hipóteses, ou seja, duas afirmativas que
se contradizem. As hipóteses, em geral, são chamadas de H0 e H1; a primeira
é chamada de hipótese de nulidade e a segunda, de hipótese alternativa.
Saiba mais
O meio de se generalizar os resultados de uma pesquisa e poder responder
às perguntas para toda uma população são as inferências estatísticas.
Você pode saber mais sobre teste de hipóteses em:
SIEGEL, S.; CASTELLAN JR., N. J. Estatística não paramétrica para as
ciências do comportamento. São Paulo: Artmed Bookman, 2006.
7 TESTE DE HIPÓTESES QUI‑QUADRADO
7.1 Teste de associação qui‑quadrado clássico
É utilizado para testar a significância entre duas variáveis qualitativas, ou comparar duas ou
mais amostras, quando os resultados da variável de resposta estão dispostos em categorias. O teste
qui‑quadrado clássico é utilizado quando o número total de dados é maior do que 40.
108
Unidade II
Se a amostra for 20 < n < 40, o teste de x² só pode ser aplicado se nenhuma frequência esperada
for menor do que 1.
As variáveis devem ser qualitativas nominais. Para as variáveis qualitativas ordinais, se aplica o teste
de x² para tendências.
A distribuição de qui‑quadrado, ou x², corresponde à distribuição de probabilidade da soma dos
quadrados de n variáveis aleatórias independentes, distribuídas normalmente e padronizadas (média 0
e desvio padrão 1). Ou seja:
X2 = X1
2 + X2
2 ....... Xn
2
A distribuição x2 está associada ao teste x2. O teste x2 é utilizado para comparar os valores observados
e os esperados.
Exemplo:
1. Uma experiência genética pode gerar a hipótese de que a próxima geração de plantas exibirá determinado
conjunto de cores. Comparando os resultados observados com os esperados, você poderá decidir se a
hipótese original é válida.
O cálculo do teste x² é utilizado para comparar valores observados e valores esperados, isto é, mede a
distância entre as frequências observadas e as frequências que são esperadas na suposição das variáveis
serem independentes (H0 verdadeira).
A estatística do teste é calculada com a aplicação das fórmulas:
(total da linha) x (total da coluna)
(total geral)
E=
Onde:
E = representa a frequência esperada
X S
O E
Ei
r
i i
i
2
1
2
=
=
( - )
Onde:
x² = valor do qui‑quadrado;
O = representa as frequências observadas;
E = representa as frequências esperadas.
109
BIOESTATÍSTICA
Graus de liberdade (GL):
GL = (número de linhas ‑1) . (número de colunas ‑1), ou
gl = (l‑1) . (c‑1).
O nível de significância (α) para qui‑quadrado encontra‑se na tabela a seguir (valores de x², segundo
os graus de liberdade e o valor de α):
Tabela 31 – Valores de x², segundo os graus de liberdade e o valor de
α
Graus de
liberdade
a
10% 5% 1%
1 2,7055 3,8415 6,6349
2 4,6052 5,9915 9,2103
3 6,2514 7,8147 11,3449
4 7,7794 9,4877 13,2767
5 9,2364 11,0705 15,0863
6 10,6446 12,5916 16,8119
7 12,0170 14,0671 18,4753
8 13,3616 15,5073 20,0902
9 14,6837 16,9190 21,6660
10 15,9872 18,3070 23,2093
11 17,2750 19,6751 24,7250
12 18,5493 21,0261 26,2170
13 19,8119 22,3620 27,6882
14 21,0641 23,6848 29,1412
15 22,3071 24,9958 30,5779
16 23,5418 26,2962 31,9999
17 24,7690 27,5871 33,4087
18 25,9894 28,8693 34,8053
19 27,2036 30,1435 36,1909
20 28,4120 31,4104 37,5662
2129,6151 32,6706 38,9322
22 30,8133 33,9244 40,2894
23 32,0069 35,1725 41,6384
24 33,1962 36,4150 42,9798
25 34,3816 37,6525 44,3141
26 35,5632 38,8851 45,6417
27 36,7412 40,1133 46,9629
28 37,9159 41,3371 48,2782
29 39,0875 42,5570 49,5879
30 40,2560 43,7730 50,8922
110
Unidade II
Observação
A tabela foi criada no Excel, utilizando o comando =INV.QUI(0,1;A3).
Aplica‑se, então, a seguinte regra:
• se x2 ≤ xt → H0 deve ser aceita;
• se x2 ≥ xt → H0 deve ser rejeitada.
Onde:
xt = valor da tabela.
Exemplo:
Foi feita uma pesquisa com uma amostra de 95 funcionários do Hospital e Maternidade Baruch de
Toulouse, com a intenção de investigar o impacto da utilização dos cursos promovidos pelo método
de ensino a distância nas gerações x e y desses funcionários. Uma das questões da pesquisa era:
“O curso promovido pelo método de ensino a distância é mais adequado do que o presencial?” As opções
de respostas foram formuladas em escala Likert, contemplando cinco categorias, com cinco graus de
importância em 1, 2, 3, 4 e 5, sendo:
1: não concordo totalmente;
2: não concordo parcialmente;
3: indiferente;
4: concordo parcialmente;
5: concordo totalmente.
O gestor do hospital não achou que a opção 3 seja boa para essa resposta, então, decidiu testar com
o teste qui‑quadrado essa opção, utilizando nível de confiança de 5%.
Resolução:
O resultado da pesquisa está exposto na tabela a seguir:
111
BIOESTATÍSTICA
Tabela 32 – Dados da pesquisa do Hospital Baruch
de Toulouse sobre os cursos a distância
Alternativas Geração X Geração Y Total
1: Não concordo totalmente 3 8 11
2: Não concordo parcialmente 2 16 18
3: Indiferente 0 6 6
4: Concordo parcialmente 8 31 39
5: Concordo totalmente 4 17 21
Total 17 78 95
Hipóteses:
• H0: a opção de resposta “3: Indiferente” deve ser considerada válida como qualquer outra resposta;
• H1: a opção de resposta “3: Indiferente” não deve ser considerada válida como qualquer outra resposta.
Estatística do teste:
Cálculo das frequências esperadas:
(total da linha) x (total da coluna)
(total geral)
E=
A tabela a seguir apresenta o cálculo das frequências esperadas:
O curso promovido pelo método de ensino a distância é mais adequado que o presencial?
Tabela 33 – Tabela das respostas esperadas
Respostas Geração X Geração Y
1: Não concordo totalmente (11 . 17) / 95 = 1,968421053 (11 . 78) / 95 = 9,031578947
2: Não concordo parcialmente (18 . 17) / 95 = 3,221052632 (18 . 78) / 95 = 14,77894737
3: Indiferente (6 . 17) / 95 = 1,073684211 (6 . 78) / 95 = 4,926315789
4: Concordo parcialmente (39 . 17) / 95 = 6,978947368 (39 . 78) / 95 = 32,02105263
5: Concordo totalmente (21 . 17) / 95 = 3,757894737 (21 . 78) / 95 = 17,24210526
Cálculo das parcelas do qui‑quadrado:
X
O E
Ei
r
i i
i
2
1
2
�
�
�
�
( )
A tabela a seguir apresenta as parcelas do qui‑quadrado:
112
Unidade II
O curso promovido pelo método de ensino a distância é mais adequado que o presencial?
Tabela 34 – Tabela das parcelas do qui‑quadrado para a soma
Respostas Geração X Geração Y
1: Não concordo totalmente (3 ‑ 1,968421053)2/1,968421053 =
0,540613566
(8 ‑ 9,031578947)2/9,031578947 =
0,117826034
2: Não concordo parcialmente (2 ‑ 3,221052632)2/3,221052632 =
0,462882697
(16 ‑ 14,77894737)2/14,77894737 =
0,10088469
3: Indiferente (0 ‑ 1,073684211)2/1,073684211 =
1,073684211
(6 ‑ 4,926315789)2/4,926315789 =
0,234008097
4: Concordo parcialmente (8 ‑ 6,978947368)2/6,978947368 =
0,149384774
(31 ‑ 32,02105263)2/32,02105263 =
0,03255822
5: Concordo totalmente (4 ‑ 3,757894737)2/3,757894737 =
0,015597818
(17 ‑ 17,24210526)2/17,24210526 =
0,003399524
Total 2,242163066 0,488676566
x2 = 0,540613566 + 0,462882697 + 1,073684211+0,149384774+ 0,015597818 + 0,117826034 +
0,10088469 + 0,234008097 + 0,03255822 + 0,003399524
x2 = 2,730839631
ou utilizamos os totais:
x2 = 2,242163066 + 0,488676566
x2 = 2,730839631
Graus de liberdade:
gl = (5–1) . (2‑1)
gl = 4 . 1
gl = 4
A figura a seguir é uma tabela parcial da tabela dos valores de x², segundo os graus de liberdade e o
valor de α, apresentada anteriormente, com os valores de x², segundo os graus de liberdade e o valor de α:
Figura 56 – Tabela parcial x²
113
BIOESTATÍSTICA
Análise:
• se x2 ≤ xt → H0 deve ser aceita;
• se x2 ≥ xt → H0 deve ser rejeitada.
Onde:
xt = valor da tabela.
O valor encontrado para x² = 2,73
O valor encontrado na tabela é xt = 9,49 (a = 5%)
Decisão:
• se x2≤xt → H0 deve ser aceita;
• se x2≥xt → H0 deve ser rejeitada.
Portanto, o valor do x2 = 2,73 é menor que o valor crítico da tabela, com 4 graus de liberdade e ao
nível de 5% de significância, que é de 9,49. Nesse caso, não se rejeita H0.
Então, o gestor do Hospital Baruch de Toulouse pode considerar as respostas com a opção “3: Indiferente”,
que deve ser válida como qualquer outra resposta.
Lembrete
O teste qui‑quadrado clássico é utilizado quando o número total de
dados é maior do que 40.
8 CORRELAÇÃO E REGRESSÃO
Correlação é uma medida estatística que testa a relação entre duas variáveis. Talvez seja uma das
medidas mais importantes, pois variáveis próximas podem ser correlacionadas para que possamos fazer
previsões a seu respeito.
Exemplo: existe relação entre o fumo e doenças cardíacas?
Para sabermos se as variáveis fumo e a variável doenças cardíacas estão relacionadas, fazemos a
correlação entre elas.
114
Unidade II
8.1 Diagrama de dispersão
É a representação gráfica da relação entre duas variáveis.
Cada unidade da amostra fornece dois valores numéricos. Uma se refere à variável x e a outra à variável
y, portanto, fazemos um gráfico, chamado diagrama de dispersão, que relaciona as duas variáveis.
Para fazer esse gráfico, diferentemente dos gráficos estatísticos, devemos considerar os dois eixos do
sistema de coordenadas cartesianas, e os valores das variáveis x e y serão as coordenadas dos pontos do
gráfico, formando o par ordenado (x, y).
Assim, podemos responder se existe relação entre as variáveis, qual é o tipo de relação e em que grau
as variáveis estão correlacionadas.
Portanto, o diagrama de dispersão permite visualizar a relação entre duas variáveis.
Se as variáveis crescem no mesmo sentido, a correlação é dita positiva; se variam em sentidos
opostos, existe correlação negativa entre as variáveis.
Observação
O gráfico que devemos utilizar no Microsoft Excel para correlação é
chamado de dispersão, pois é o único que utiliza os dois eixos do sistema
de coordenadas cartesianas.
Quando a imagem é uma reta ascendente, dizemos que a correlação é linear positiva, isto é, os
pontos do diagrama têm como “imagem” uma reta ascendente, como mostra o gráfico da figura a seguir:
Figura 57 – Correlação linear positiva
Quando a imagem da reta for descendente, dizemos que a correlação é linear negativa, ou seja, os
pontos têm como “imagem” uma reta descendente, como mostra o gráfico da figura a seguir:
115
BIOESTATÍSTICA
Figura 58 – Correlação linear negativa
A correlação não é linear se os pontos têm como “imagem” uma curva, como o gráfico da
figura a seguir:
Figura 59 – Correlação não linear
Não existe correlação entre as variáveis quando os pontos se apresentam dispersos, não oferecendo
uma “imagem” definida, como mostra o gráfico da figura a seguir:
Figura 60 – Correlação nula
116
Unidade II
8.2 Coeficiente de correlação de Pearson (R)
É uma medida para analisar o grau de correlação linear entre duas variáveis numéricas, sendo
representada pela letra r e definida pela fórmula:
r
n xiyi xi yi
n xi xi n yi yi
�
� � � � �
� � ��
��
�
��
� � � ��
��
�
�
� ��
�� ��
.
. .2 2 2 2
��
Onde:
n= nº de observações.
Os valores limites de R são ‑1 e +1, isto é, o valor de r pertence ao intervalo numérico [‑1,1].
Assim, a correlação pode ser:
• perfeita e positiva: se a correlação entre duas variáveis for r = +1;
• perfeita e negativa: se a correlação entre duas variáveis for r = ‑1.
Não há correlação entre as variáveis, se r = 0.Para que haja correlação entre as variáveis é necessário que 0,6≤|r|≤1, ou seja, o valor de r deve estar
entre 0,6, inclusive, e 1.
Se 0,3<|r|<0,6, há correlação relativamente fraca entre as variáveis.
Se 0<|r|<0,3, a correlação é muito fraca, e praticamente nada se pode concluir sobre a relação entre
as variáveis em estudo.
Lembrete
Correlação entre variáveis depende do resultado do coeficiente de correlação.
Exemplo:
1. O gestor do Hospital Baruch de Toulouse deseja avaliar o curso que está proporcionando a seus
colaboradores no sistema de educação a distância. Para os alunos estudarem, existem questionários que
valem nota. Os colaboradores acessam a plataforma, podem estudar e fazer os questionários. Após essa
etapa, o colaborador obtém a nota relativa aos seus erros ou acertos. Ao final do curso, o colaborador
faz a sua prova. O gestor deseja saber se existe correlação entre a nota dos questionários e a nota da
prova; para tanto, colheu uma amostra, por amostragem aleatória simples, de 10 colaboradores e obteve
os resultados da tabela a seguir:
117
BIOESTATÍSTICA
Tabela 35 – Dados das médias dos questionários e provas: notas de
uma amostra de 10 colaboradores que fizeram o curso em EaD
Colaborador Média quest. Nota da prova
1 9,5 8,0
2 9,2 7,5
3 9,2 8,5
4 10,0 9,0
5 9,5 8,0
6 9,2 8,0
7 9,9 9,0
8 8,4 5,1
9 9,1 7,8
10 9,1 7,0
Total 93,2 77,9
Resolução:
Temos que verificar se existe correlação entre a média das notas dos questionários e a nota da prova.
r
n xiyi xi yi
n xi xi n yi yi
�
� � � � �
� � ��
��
�
��
� � � ��
��
�
�
� ��
�� ��
.
. .2 2 2 2
��
Vamos então calcular a correlação dos dados que estão dispostos na tabela já com as colunas
acrescidas para a fórmula, como na tabela a seguir, na qual acrescentamos uma coluna para o cálculo
de xiyi, uma coluna para o cálculo do xi² e outra para o cálculo de yi², pois iremos utilizar na fórmula os
seus somatórios.
Tabela 36 – Cálculo dos somatórios para a fórmula: notas de uma
amostra de 10 colaboradores que fizeram o curso em EaD
Colaborador Média
quest.
Nota da
prova Xi.Yi Xi2 Yi2
1 9,5 8,0 76,0 90,3 64,0
2 9,2 7,5 69,0 84,6 56,3
3 9,2 8,5 78,2 84,6 72,3
4 10,0 9,0 90,0 100,0 81,0
5 9,6 8,0 76,8 92,2 64,0
6 9,2 8,0 73,6 84,6 64,0
7 9,9 9,0 89,1 98,0 81,0
8 8,4 5,1 42,8 70,6 26,0
9 9,1 7,8 71,0 82,8 60,8
10 9,1 7,0 63,7 82,8 49,0
Total 93,2 77,9 730,2 870,2 618,4
118
Unidade II
Devemos agora utilizar os dados dessa tabela. Substituímos então os valores na fórmula, para o
cálculo de r:
r
n xiyi xi yi
n xi xi n yi yi
�
� � � � � �
� � � ��
��
�
��
� � � � ��
��
�
�
� ��
�� ��2 2 2 2
��
r �
� � � ��� �
� � � ��
�
�
�
� � �
10 730 2 93 2 77 9
10 870 5 93 2 10 618 4 77 92
, , ,
, , , ,�� ��
�
�
�
2
r �
�
�� �� �� �
7 302 7 260 28
8 705 8 686 24 6 184 6 068 41
. . ,
. . , . . ,
r �
� ��� �
4172
18 76 115 59
,
, ,
r =
4172
2 168 4684
,
. ,
r =
4172
46 57
,
,
r = 0,8958
Portanto, podemos dizer que existe correlação entre a média dos questionários e a nota da prova
dos colaboradores, pois r = 0,89, o que significa uma correlação linear positiva altamente significativa
entre as variáveis.
Observação
Para o Excel, devemos utilizar a função CORREL (intervalo de dados da
primeira variável; intervalo de dados da segunda variável). No exemplo, a
fórmula é: =CORREL(B2:B11;C2:C11) = 0,897.
O gráfico da figura a seguir apresenta os dados da correlação:
119
BIOESTATÍSTICA
Figura 61 – Correlação entre as notas de questionário e nota da prova
No Microsoft Excel, basta selecionarmos os valores das colunas B e C, sem os totais, e escolher inserir
dispersão, como mostra a figura a seguir:
Figura 62 – Dados, nota de questionário e prova
Portanto, devemos selecionar as células B2 até C11 e escolher “inserir” e “gráfico de dispersão somente
com marcadores”. Assim, vamos obter o gráfico da figura a seguir, chamado de diagrama de dispersão:
Figura 63 – Diagrama de dispersão relativo às notas de questionários e provas
120
Unidade II
Quando olhamos para o conjunto dos pontos obtidos no gráfico, podemos perceber que formam
uma elipse em diagonal. Quanto mais fina for a elipse, mais ela se aproximará de uma reta. Então,
podemos dizer que a correlação de forma elíptica tem como “imagem” uma reta, e, por isso, é chamada
de correlação linear. Quanto maior a dispersão dos dados, menor será o grau de correlação entre eles e
vice‑versa. Veja o gráfico da figura a seguir:
Figura 64 – Diagrama de dispersão com a linha de tendência
Lembrete
O valor resultante (r) da aplicação da fórmula de correlação linear nos
indica se existe ou não correlação entre as variáveis.
Observação
Para determinarmos a reta da correlação no Excel, basta, com o gráfico
selecionado, clicar em “Ferramentas do Gráfico”, “Layout”, “Linha de
Tendência” e escolher a “Linha de Tendência Linear”.
8.3 Coeficiente de determinação (R²)
Determina a proporção em que uma variável é explicada em relação a outra. Quando há relação
entre as variáveis x e y, se o valor de x aumenta, o valor de y também aumentará; quanto maior for o
coeficiente de determinação, maior será a força da relação entre as variáveis.
O coeficiente de determinação é dado por r², isto é, o valor de R (correlação) elevado a 2; portanto,
ele será um valor entre 0 e 1, sendo que, mesmo que a correlação seja negativa, ele nunca o será, pois
está elevado a 2 (0<R²<1). Se o resultado for 1, é uma correlação linear perfeita, o que significa que
todas as variações de y estão diretamente relacionadas às variações de x.
121
BIOESTATÍSTICA
No exemplo, temos r = 0,90, R² = 0,7921, então podemos dizer que 79% da variação de y pode ser
explicada pela relação linear entre x e y, e os outros 21%, não.
8.4 Regressão linear simples
Se existe correlação entre as variáveis, então pode‑se prever resultados futuros. Para isso, podemos,
já que a correlação é linear, determinar a equação que dá origem à reta de regressão.
Como ela é uma correlação linear, a nossa reta será uma função linear, ou seja, uma função de 1º grau,
que tem a forma:
Y = Ax + B
Onde:
Y = variável dependente;
X = variável independente;
A = coeficiente de x. Se A for positivo, a inclinação da reta será positiva; se A for negativo, a
inclinação da reta será negativa;
B = termo independente.
Para determinarmos A, a fórmula será:
A
n xy x y
n x x
�
�
� � �
���
�� 2 2
Para determinarmos B, a fórmula será:
B = y – ax
Onde:
y
y
n
e x
x
n
� �� �
Todos os elementos da fórmula já foram encontrados na tabela apresentada na figura a seguir:
122
Unidade II
Figura 65 – Dados para determinação da equação linear da reta de correlação
Vamos, então, calcular o valor de A:
A
n xy x y
n x x
�
�
� � �
���
�� 2 2
A �
� � �
� �
10 730 2 93 2 77 9
10 870 5 93 22
, , ,
, ,
A �
�
�
7 302 7 260 28
8 705 8 686 24
. . ,
. . ,
A =
4172
18 76
,
,
A = 2,22
Vamos determinar B:
y
y
n
� � �� 77 9
10
7 79
,
,
x
x
n
� � �� 93 2
10
9 32
,
,
B = y – ax
B = 7,79 – (2,2) × (9,32)
123
BIOESTATÍSTICA
B = 7,79 – 20,504
B = – 12,714
Portanto, a nossa equação de regressão será:
Y = Ax + B,
Onde:
A= 2,22 e B= ‑12,714.
Então, a equação de regressão é:
Y= 2,22x – 12,714
A equação de regressão nos permite tirar conclusões a respeito de valores que não temos na tabela.
Exemplo:
1. O gestor do hospital deseja saber que nota o colaborador poderia tirar na prova, caso tivesse
média 6,0 nos questionários.
Resolução:
Devemos então substituir a variável x (média dos questionários) pelo valor 6,0 na equação de
regressão para determinar qual é o provável valor de y (nota da prova).
Assim, temos:
Y= 2,22x – 12,714
Y = 2,22 . (6,0) – 12,714
Y = 13,32 – 12,714
Y= 0,6
Y ≅ 1,0
Portanto, se o colaborador tirar nota 6,0 na média dos questionários, provavelmente ele iria muito
mal na prova, tendo como nota prevista 1,0. Isso ocorreu porque as notas dos questionários e das provas
foram relativamente altas.
124
Unidade II
ObservaçãoO Excel faz automaticamente a equação de regressão, assim como o
coeficiente de determinação. Sempre temos algumas variações pequenas
de resultados, por conta dos arredondamentos.
Saiba mais
Você pode obter mais informações sobre a utilização do Excel em
estatística na obra:
LEVINE, D. M. et al. Estatística: teoria e aplicações – usando Microsoft
Excel em português. Tradução de Teresa Cristina Padilha de Souza. Rio de
Janeiro: LTC, 2013.
Para obter a equação e o coeficiente de determinação no Excel, basta pedir para fazer o gráfico
como exposto. Com o gráfico selecionado, clicamos em “Ferramentas do Gráfico”, “Layout”, “Linha de
Tendência”, mais “Opções de Linha de Tendência”, escolher “Linear”, marcar as opções “Exibir Equação no
gráfico” e “Exibir valor de R‑quadrado no gráfico” e, por fim, “Fechar”, como na figura a seguir:
Figura 66 – Formatando linha de tendência no Excel
125
BIOESTATÍSTICA
Então, o gráfico da figura a seguir apresenta a reta de correlação, a equação da reta e o coeficiente
de determinação:
Figura 67 – Gráfico da correlação com a equação de regressão e coeficiente de determinação
Portanto, podemos, por meio do gráfico e da equação, prever valores de Y, atribuindo valores a X.
Utilize de forma correta e coerente os seus conhecimentos e procure sempre se informar, caso tenha
alguma dúvida, e atualizá‑los.
Resumo
A Teoria da Probabilidade estuda as possibilidades da ocorrência de um
experimento aleatório, ou seja, eventos que, mesmo quando repetidos inúmeras
vezes nas mesmas condições, podem apresentar resultados diferentes.
Distribuições teóricas de probabilidade para as variáveis discretas
são utilizadas para especificar todos os resultados possíveis da variável
aleatória e a probabilidade de sua ocorrência. Quando desejamos saber a
probabilidade da ocorrência de uma variável, resultado de uma pesquisa,
devemos recorrer à distribuição normal de probabilidade.
Os testes de hipóteses são utilizados, em bioestatística, para
generalizar uma pesquisa. Um teste de hipóteses admite duas hipóteses:
a hipótese nula (H0), a ser testada, e a hipótese alternativa (H1), a ser
considerada como uma alternativa à hipótese nula.
O teste t de Student é utilizado para amostras pequenas, menores do
que 30. O teste de hipóteses para média de duas populações é utilizado para
comparação entre elas para decidir se existe alguma diferença. A condição
126
Unidade II
para a aplicação desse teste é termos amostras grandes (n>30). As médias
das amostras são calculadas e comparadas.
O valor da probabilidade permite decidir, com base nos dados, se há
evidência suficiente para rejeitar a hipótese de nulidade.
A distribuição de qui‑quadrado, ou x², corresponde à distribuição
de probabilidade da soma dos quadrados de n variáveis aleatórias
independentes, distribuídas normalmente e padronizadas (média 0 e
desvio padrão 1). O cálculo do teste x² é utilizado para comparar valores
observados e valores esperados, isto é, mede a distância entre as frequências
observadas e as frequências esperadas, na suposição das variáveis serem
independentes (H0 verdadeira).
Correlação é uma medida estatística que testa a relação entre
duas variáveis. Talvez seja uma das medidas mais importantes, pois
variáveis próximas podem ser correlacionadas para que possamos fazer
previsões a seu respeito.
O diagrama de dispersão permite visualizar a relação entre duas variáveis.
Se as variáveis crescem no mesmo sentido, a correlação é dita positiva; se
variam em sentidos opostos, existe correlação negativa entre as variáveis.
A equação de regressão nos permite prever dados a respeito das
variáveis, quando estão correlacionadas.
O Microsoft Excel é um programa que apresenta todas as funções
estatísticas. Porém, devemos tomar cuidado, pois essas funções são apenas
para dados não agrupados. Para dados agrupados, devemos inserir as
fórmulas para que a resposta seja correta. Com relação a gráficos estatísticos,
apresenta uma infinidade de modelos. Temos que prestar atenção que o
modelo de gráfico para correlação deve ser o de dispersão.
A bioestatística nos permite, então, determinar uma série de dados
para que possamos chegar a conclusões a respeito de qualquer pesquisa
que desejamos fazer. Devemos apenas seguir a metodologia estatística de
coleta, organização, tabulação e interpretação dos dados.
127
BIOESTATÍSTICA
Exercícios
Questão 1. A Teoria da Probabilidade estuda as possibilidades da ocorrência de um experimento
aleatório, ou seja, eventos que, mesmo quando repetidos inúmeras vezes nas mesmas condições, podem
apresentar resultados diferentes. Analise as afirmativas a seguir:
I – Probabilidade é um número que varia de ‑1 a +1.
II – O conceito básico de probabilidade refere a uma relação entre o número de casos favoráveis
sobre o número de casos possíveis.
III – Quando jogamos um dado (honesto), a probabilidade de sair o número 6 é igual a 1/6.
IV – Quanto mais próximo de 1, ou 100%, for o resultado de uma probabilidade, mais difícil a
ocorrência do evento.
A partir das afirmativas, assinale a alternativa correta:
A) Apenas a afirmação II está correta.
B) Apenas as afirmações I e IV estão corretas.
C) Apenas a afirmação III está correta.
D) Apenas as afirmações II e III estão corretas.
E) Todas as afirmações estão corretas.
Resposta correta: alternativa D.
Análise das alternativas
A) Alternativa incorreta.
Justificativa: a afirmativa II está correta, mas a afirmativa III também está correta.
B) Alternativa incorreta.
Justificativa: a afirmativa I está incorreta, pois por definição probabilidade é um número que varia de
0 a 1. A afirmativa IV também está incorreta, pois quanto mais próximo o resultado de uma probabilidade
estiver de 1, mais fácil será a ocorrência de um evento.
128
Unidade II
C) Alternativa incorreta.
Justificativa: não há apenas a afirmativa III correta, pois a afirmativa II também é correta.
D) Alternativa correta.
Justificativa: a afirmativa II traz o conceito básico de probabilidade e ao aplicá‑lo temos o resultado
correto apresentado na afirmativa III: números de casos favoráveis 1 (existe apenas um número 6 no
dado) e número de casos favoráveis 6 (existem 6 faces no dado numerados de 1 a 6). Portanto, a
probabilidade é igual a 1/6.
E) Alternativa incorreta.
Justificativa: as afirmativas corretas são apenas a II e a III.
Questão 2. Quando desejamos fazer uma pesquisa, temos por objetivo responder a perguntas
que devem ser transformadas em hipóteses – pressuposições a respeito de determinado problema.
Por serem hipóteses, suposições, devemos comprová‑las. Dessa forma, existe na área de estatística os testes
de hipóteses. Analise as afirmações a seguir:
I – A hipótese nula (H0) é a hipótese a ser testada e a hipótese alternativa (H1) é a hipótese a ser
considerada como uma alternativa à hipótese nula.
II – O teste bilateral é utilizado para esclarecer se a média de uma população é diferente de um valor
previamente especificado.
III – O teste unilateral à esquerda é utilizado para esclarecer se a média de uma população é maior
que um valor previamente especificado.
IV – O teste unilateral à direita é utilizado para esclarecer se a média de uma população é menor que
um valor especificado.
A partir das afirmativas, assinale a alternativa correta:
A) Apenas a afirmativa I está correta.
B) Apenas as afirmativas I e II estão corretas.
C) Apenas a afirmativa III está correta.
D) Apenas as afirmativas III e IV estão corretas.
E) Todas as afirmativas estão corretas.
Resolução desta questão na plataforma.
129
REFERÊNCIAS
Textuais
ARANGO, H. G. Bioestatística teórica e computacional. 3. ed. Rio de Janeiro: Guanabara‑Koogan, 2009.
BARBETTA, A. P. Estatística aplicada às ciências sociais. 6. ed. Florianópolis: UFSC, 2006.
BERQUO, E. S.; SOUZA, J. M. P.; GOTLIEB, S. L. D. Bioestatística. São Paulo: EPU, 1981.
CALIXTO, T. Ensino médio e o desafio da educação. A Tribuna, Santos, p. A7, 17ago. 2014.
CENTRAL de questionários de saúde. Survey Monkey, Califórnia, 1999‑2015. Disponível em: <https://
pt.surveymonkey.com/mp/healthcare‑surveys/>. Acesso em: 26 jan. 2019.
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002.
COSTA NETO, P. L. D. O.; BEKMAN, O. R. Análise estatística da decisão. 2. ed. São Paulo: Edgard Blucher, 2009.
CRESPO, A. A. Estatística fácil. 10. ed. São Paulo: Saraiva, 1993.
CURI, A. Z.; MENEZES‑FILHO, N. A. A relação entre o desempenho escolar e os salários no Brasil. In:
ENCONTRO NACIONAL DE ECONOMIA, 33, 2005, Natal. Trabalhos. Natal: Anpec, 2005.
FEGER, J. E.; NODARI, L. D. T.; LAZZAROTTI, F. Método da correlação de variáveis para a previsão da
demanda turística: uma aplicação visando o planejamento do desenvolvimento turístico em uma
região sul brasileira. Caderno Virtual de Turismo, Rio de Janeiro, v. 11, n. 3, p. 294‑307, dez. 2011.
Disponível em: <http://www.ivt.coppe.ufrj.br/caderno/index.php?journal=caderno&page=article&op=
view&path%5B%5D=580&path%5B%5D=298>. Acesso em: 10 jan. 2019.
FONSECA, J. S.; MARTINS, G. A. Curso de estatística. São Paulo: Atlas, 1996.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Normas de apresentação tabular. 3. ed.
Rio de Janeiro: IBGE, 1993. Disponível em: <http://biblioteca.ibge.gov.br/visualizacao/livros/liv23907.
pdf>. Acesso em: 6 maio 2019.
JULIÃO, L. Transporte coletivo em Santos é regular, dizem entrevistados. A Tribuna, Santos, p. A7, fev. 2019.
LEVINE, D. M. et al. Estatística: teoria e aplicações – usando Microsoft Excel em português. Tradução de
Teresa Cristina Padilha de Souza. Rio de Janeiro: LTC, 2013.
MENESES, A.; MARIANO, F. Noções de estatística para concursos. Rio de Janeiro: Elsevier, 2010.
MORETTIN, L. G. Estatística básica: inferência. São Paulo: Pearson Makron Books, 2000. v. 2.
130
NA BAIXADA, Ensino Médio preocupa. A Tribuna, Santos, p. A3, 10 jan. 2019.
PAGANO, M.; GAUVREAU, K. Bioestatística. 2. ed. São Paulo: Thomson Learning, 2006.
PEDROSO, D. Região registra alta em roubos, mas homicídios têm queda. A Tribuna, Santos, p.
A6, 26 jan. 2019.
PEIXE sobe, mas público desce. A Tribuna, Santos, p. B1, 3 mar. 2014.
QUEIRÓS, S. Erro do Ipea não esconde situação preocupante. A Tribuna, Santos, p. A6, 6 dez. 2018.
SABESP registra nova queda nos reservatórios de água. A Tribuna, Santos, p. C5, 5 dez. 2018.
SANTOS, M. Homem, 43 anos, casado e investidor de imóvel em Santos. A Tribuna, Santos, p. C1, 16 dez. 2018.
SIEGEL, S.; CASTELLAN JR., N. J. Estatística não paramétrica para as ciências do comportamento. São
Paulo: Artmed Bookman, 2006.
SILVA, I. A. A arte de enfermeiro: Escola de Enfermagem Dr. Angelo da Fonseca. Coimbra: Imprensa da
Universidade de Coimbra, 2008.
THADEU, S. Metade dos jovens não usa preservativo em relação. A Tribuna, Santos, p. A7, 27 jan. 2019.
___. Região “cresceu” para quem viaja entre cidades. A Tribuna, Santos, p. A3, 17 jan. 2019.
TRIOLA, M. F. Introdução à estatística. 7. ed. Rio de Janeiro: LTC, 1999.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Campus, 1998.
___. Estatística básica. São Paulo: Cengage Learning, 2012.
___. Introdução à bioestatística. 4. ed. Rio de Janeiro: Elsevier, 2008.
___; HOFFMANN, R. Estatística experimental. São Paulo: Atlas, 1999.
___; WADA, R. Estatística: introdução ilustrada. 2. ed. São Paulo: Atlas, 1998.
131
132
Informações:
www.sepi.unip.br ou 0800 010 9000