Buscar

bioestatistica NP2.rtfd

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

bioestatistica NP2.rtfd/72516.jpg
__MACOSX/bioestatistica NP2.rtfd/._72516.jpg
bioestatistica NP2.rtfd/72518.jpg
__MACOSX/bioestatistica NP2.rtfd/._72518.jpg
bioestatistica NP2.rtfd/72519.jpg
__MACOSX/bioestatistica NP2.rtfd/._72519.jpg
bioestatistica NP2.rtfd/72526.jpg
__MACOSX/bioestatistica NP2.rtfd/._72526.jpg
bioestatistica NP2.rtfd/72528.jpg
__MACOSX/bioestatistica NP2.rtfd/._72528.jpg
bioestatistica NP2.rtfd/72529.jpg
__MACOSX/bioestatistica NP2.rtfd/._72529.jpg
bioestatistica NP2.rtfd/72710.jpg
__MACOSX/bioestatistica NP2.rtfd/._72710.jpg
bioestatistica NP2.rtfd/72721.jpg
__MACOSX/bioestatistica NP2.rtfd/._72721.jpg
bioestatistica NP2.rtfd/72727.jpg
__MACOSX/bioestatistica NP2.rtfd/._72727.jpg
bioestatistica NP2.rtfd/72729.jpg
__MACOSX/bioestatistica NP2.rtfd/._72729.jpg
bioestatistica NP2.rtfd/72735.jpg
__MACOSX/bioestatistica NP2.rtfd/._72735.jpg
bioestatistica NP2.rtfd/72736.jpg
__MACOSX/bioestatistica NP2.rtfd/._72736.jpg
bioestatistica NP2.rtfd/TXT.rtf
Medidas de posição
A análise inicial dos dados, além de construir tabelas e gráficos, consiste também no cálculo de valores, ou estatísticas, que ajudam na produção de uma visão geral dos dados. Nesta seção, serão apresentadas as medidas de posição, também chamadas medidas de tendência central, que procuram definir um valor que represente os dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda. Quando usamos um só valor, obtemos uma redução drástica dos dados. Usualmente, emprega-se uma das seguintes medidas de posição (ou localização) central: média, mediana ou moda.
A moda é definida como a realização mais frequente do conjunto de valores observados. Por exemplo, considere a variável número de filhos de funcionários de uma determinada empresa, apresentada no módulo anterior. Vemos que a moda é 2, correspondente à realização com maior frequência, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos valores pode ser bimodal, trimodal, etc.
72516.jpg ¬
A mediana é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente. Assim, se as cinco observações de uma variável forem 3, 4, 7, 8 e 8, a mediana é o valor 7, correspondendo à terceira observação. Quando o número de observações for par, usa-se como mediana a média aritmética das duas observações centrais. Acrescentando-se o valor 9 à série acima, a mediana será (7 + 8)/2 = 7,5.
Usando os dados da tabela acima, já encontramos que a moda da variável número de filhos é 2. Para a mediana, constatamos que esta também é 2, a média aritmética entre a décima e a décima primeira observações:
0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 5
mediana = (2 + 2)/2 = 2
Finalmente, a média aritmética é a soma das observações dividida pelo número delas. Assim, a média aritmética de 3, 4, 7, 8 e 8 é (3 + 4 + 7 + 8 + 8)/5 = 6.
Para os dados da variável número de filhos, tem-se que a média aritmética será:
[(4 x 0) + (5 x 1) + (7 x 2) + (3 x 3) + (5 x 1)]/20 = 33/20 = 1,65
Medidas de dispersão
O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, suponhamos que cinco grupos de alunos submeteram-se a um teste, obtendo-se as seguintes notas:
grupo A: 3, 4, 5, 6, 7
grupo B: 1, 3, 5, 7, 9
grupo C: 5, 5, 5, 5, 5
grupo D: 3, 5, 5, 7
grupo E: 3, 5, 5, 6, 6
A identificação de cada uma destas séries por sua média (5, em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, então, a conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de observações e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido.
Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio básico é analisar os desvios das observações em relação à média dessas observações.
Para o grupo A acima os desvios são: –2, –1, 0, 1, 2. É fácil ver que, para qualquer conjunto de dados, a soma dos desvios é igual a zero. Nestas condições, a soma dos desvios �não é uma boa medida de dispersão para o conjunto A. Duas opções são: (a) considerar o total dos desvios em valor absoluto; (b) considerar o total dos quadrados dos desvios. Para o grupo A teríamos, respectivamente, 6 e 10, conforme tabela abaixo:
72518.jpg ¬
Existem diversas formas de quantificar a variabilidade ou dispersão de um conjunto de dados. Todas estas formas usam uma medida de posição como referência e “medem” a proximidade ou afastamento dos dados com relação à medida de posição usada. De todas as medidas de variabilidade existentes, as mais conhecidas e usadas são a variância (S2) e o desvio padrão (S). A variância amostral é definida pela soma dos quadrados dos desvios dividida por N - 1, já o desvio padrão é a raiz quadrada da variância. Assim, para o exemplo acima, tem-se:
S2 = 10/(5 - 1) = 10/4 = 2,5
S = Raiz(2,5) = 1,58
Quantis
Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados, pois:
(a) são afetados, de forma exagerada, por valores extremos;
(b) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados.
Para contornar esses fatos, outras medidas têm de ser consideradas.
Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p ou p-quantil, indicada por q(p), onde p é uma proporção qualquer, 0 < p < 1, tal que 100p% das observações sejam menores do que q(p).
Abaixo estão indicados alguns quantis e seus nomes particulares.
q(0,25) = q1: 1o Quartil = 25o Percentil
q(0,50) = q2: Mediana = 2o Quartil = 50o Percentil
q(0,75) = q3: 3o Quartil = 75o Percentil
q(0,40): 4o Decil
q(0,95): 95o Percentil
Primeiro quartil
O primeiro quartil é a observação que divide o conjunto de dados ordenados em duas partes, 25% dos dados com valores menores a este quartil e 75% com valores superiores.
Terceiro quartil
O terceiro quartil é a observação que divide o conjunto de dados ordenados em duas partes, 75% dos dados com valores menores a este quartil e 25% com valores superiores.
Amplitude e amplitude interquartílica
A diferença entre o maior valor e o menor valor de um conjunto de dados é chamada de amplitude. Já a variação entre o terceiro quartil e o primeiro quartil é conhecido como amplitude interquartílica.
Construindo um Box Plot
Para construir este diagrama, consideremos um retângulo onde estão representados a mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais
remoto que não exceda o limite superior = q3 + (1,5)amplitude interquartílica. De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que o limite inferior = q1 – (1,5)amplitude interquartílica. Os valores compreendidos entre esses dois limites são chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores (ou extremos) e representadas por asteriscos ou pontos. Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos.
O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a dispersão pela amplitude interquartílica. As posições relativas de q1, q2, q3 dão uma noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos.
72519.jpg ¬
A Distribuição Normal
A distribuição normal (geralmente conhecida como curva em formato de sino) é uma distribuição simétrica específica na qual o pico está localizado no centro da distribuição e cujas frequências diminuem quanto mais distante do centro estamos. Um exemplo de uma distribuição normal é apresentada abaixo:
72526.jpg ¬
Note que a curva normal apresenta algumas propriedades interessantes:
- Como a distribuição é simétrica, moda, média e mediana coincidem no mesmo ponto;
- Se considerarmos uma das metades de uma distribuição normal, 34,13% dos casos estão localizados à direita da média, ou seja entre a média e um desvio padrão; 13,59% dos casos estão contidos entre um desvio padrão e dois desvios padrões à direita da média. Como a distribuição normal é simétrica, as mesmas porcentagens são encontradas à esquerda da média.
72528.jpg ¬
Assim:
- Cerca de dois terços dos casos estão contidos entre -1 desvio padrão e +1 desvio padrão da média (aproximadamente 68% dos dados);
- Cerca de 95% dos casos estão contidos entre -2 desvios padrões e +2 desvios padrões da média;
- Quase 100% dos casos estão contidos entre -3 desvios padrões e +3 desvios padrões da média.
As propriedades da distribuição normal podem também ser avaliadas conforme as caracteríticas de box plots, conforme ilustrado na figura abaixo:
72529.jpg ¬
Visto a que a distância interna da caixa compreende a amplitude interquartílica, temos que os 50% centrais da distribuição estão localizados dentro da caixa. A distância compreendida entre os limites inferiores e superiores do box plot correspondem a aproximadamente 99,3% da distribuição.
A distribuição normal com média 0 e desvio padrão 1 é chamada distribuição normal padrão.
Um resultado teórico permite converter/reduzir qualquer distribuição normal para uma normal padrão, este resultado é comumente chamado padronização. Outro resultado teórico permite usar a distribuição normal padrão desde que o tamanho de amostra seja suficientemente grande, independente da distribuição original dos dados.
Correlação Linear
Medidas de associação são análises que visam quantificar o grau de relacionamento entre duas (ou mais) variáveis. Se duas variáveis apresentam um certo relacionamento, elas podem estar correlacionadas. Isso significa que ambas as variáveis variam sistematicamente, ou seja, a mudança em uma variável está associada a uma mudança na outra. Por exemplo, com o consumo de álcool, a quantidade de álcool na corrente sanguínea aumenta, assim podemos observar que essas variáveis variam sistematicamente.
O coeficiente de correlação de Pearson (r) é uma medida específica de correlação. Este coeficiente quantifica o grau de relacionamento linear entre duas variáveis numéricas. Gráficos de dispersão podem ser construídos para se avaliar o grau de relacionamento entre as variáveis.
Correlação, casualidade e associação
Se duas variáveis estão correlacionadas, pode haver um relacionamento de causa e efeito, mas correlação não necessariamente implica em casualidade. A correlação entre duas variáveis só garante que há associação entre essas duas variáveis, não que uma seja a causa do efeito da outra. Para exemplificar essa situação, imagine um gráfico de dispersão em que fossem distribuídas duas variáveis, respectivemente, número de óbitos por ano (y) e número de hospitais na cidade (x). Se o gráfico mostrasse uma uma clara evidência de associação entre as duas variáveis, por exemplo, cidades com mais hospitais apresentando um maior número de óbitos e cidades com menos hospitais mostrando um número menor de óbitos, simplesmente poderíamos concluir que as duas variáveis estão variando sistematicamente: quando uma aumenta, a outra também aumentaria. Uma relação de casualidade não necessariamente existiria entre essas duas variáveis. Se existisse, faria sentido propor a uma cidade diminuir o número de hospitais para reduzir o número de óbitos? Essa associação poderia ser devido a um efeito de terceira variável: população. Cidades com mais pessoas possuem mais de tudo do que cidades com menos pessoas: mais assaltos, mais assassinatos, mas doentes; logo, mais pessoas tendem a morrer em cidades mais populosas do que em cidades menos populosas.
Em pesquisas, procura-se verificar se existe relação entre duas ou mais variáveis para verificar se as alterações sofridas por uma das variáveis são acompanhadas por alterações nas outras. Por exemplo, peso versus idade, consumo versus renda, altura versus peso de um indivíduo. O termo correlação significa relação em dois sentidos e é usado em estatística para designar a força que mantém unidos dois conjuntos de valores.
A figura a seguir ilustra uma correlação perfeita entre duas variáveis, quando a temperatura de um mesmo objeto foi medida simultaneamente nas escalas Celsius e Fahrenheit. Em uma correlação perfeita, todos os pontos coincidem com uma linha reta. Isso quer dizer que, sabendo o valor da temperatura de um objeto em uma escala, é possível descobrir o valor exato da temperatura deste mesmo corpo na outra escala.
72710.jpg ¬
Correlação nula - quando o gráfico de dispersão não permite o ajustamento de nenhuma reta, o que significa que r = 0. Diz-se, então, que não existe nenhuma relação entre as variáveis da distribuição bidimensional.
Correlação negativa - quando a tendência de distribuição dos dados, obtida a partir do gráfico de dispersão, tem declive negativo. A correlação é negativa quando r varia entre -1 e 0 e será tanto mais forte quanto r se aproximar de -1.
Correlação positiva - quando a tendência de distribuição dos dados, obtida a partir do gráfico de dispersão, tem declive positivo. A correlação é positiva quando r varia entre 0 e 1 e será tanto mais forte quanto r se aproximar de 1.
Exemplo:
Para estudar a poluição de um rio, um cientista mediu a concentração de um determinado composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X). O que é possível concluir acerca dos dados obtidos?
 X    Y
0,91    0,10
1,33    1,10
4,19    3,40
2,68    2,10
1,86    2,60
1,17    1,00
Para responder a essa pergunta, represente os dados por meio de um gráfico de dispersão no papel milimetrado e avalie o comportamento das variáveis. Identifique (pela análise visual) se existe uma correlação aparente. O que podemos concluir?
Resolução:
Primeira providência: Listar as hipóteses:
Hipótese Nula: H0 = não há correlação --> r = 0
Hipótese Alternativa: Ha = há correlação --> r ≠ 0, pode ser forte, pode ser fraca, pode ser positiva ou pode ser negativa, mas há certa correlação entre as variáveis.
Segunda providência: Realizar o gráfico de dispersão.
72721.jpg ¬
A partir da análise gráfica, evidenciamos que pode haver uma correlação positiva entre as variáveis: enquanto uma aumenta, a outra também aumenta. Como fora solicitado apenas se haveria a evidência de uma correlação aparente pela análise visual, poderíamos dizer que sim. Entretanto, para comprovar, precisaríamos testar prosseguindo com cálculos.
Terceira providência:
Obter os valores dos desvios em X e dos desvios em Y:
72727.jpg ¬
Quarta providência:
A partir dos valores dos desvios em X e dos desvios em Y, calcular a covariância:
72729.jpg ¬
Quinta providência:
A partir dos valores da covariância e dos desvios padrão, calcular o coeficiente de correlação:
72735.jpg ¬
72736.jpg ¬
Sexta providência:
Comparar o valor calculado com o valor de tabela para o coeficiente de correlação.
1) Verificar o nível de significância α adotado: como não há menção alguma, assumamos um α = 5% (assim, α = 0,05) e bicaudal.
2) Determinar o valor crítico na tabela do coeficiente de correlação:
O valor crítico para o coeficiente de correlação será o valor correspondente à casela do cruzamento das informações p bicaudal 0,05 com N – 2 graus de liberdade, que no caso são 4 (6 – 2 = 4). Assim, procurar o valor correspondente a 4 graus de liberdade e p = 0,05 bicaudal na tabela do coeficiente de correlação de Pearson:
r = 0,811
Sétima providência:
Interpretar os valores.
Portanto, para um valor de p = 0,05 em um r com 4 graus de liberdade, esperaríamos um valor de 0,811.
Como rcalculado = 0,886 e rtabela = 0,811, concluímos que:
rcalculado > rtabela
Portanto:
pcalculado < 0,05
Para o valor calculado de r = 0,886, que é MAIOR do que 0,811, podemos concluir que nosso p < 0,05. Se nos basearmos nas informações da tabela, podemos ainda aferir que nosso p < 0,02, pois o valor calculado de r = 0,886 é ainda MAIOR do que 0,882 (valor necessário de r para se obter um p = 0,02 bicaudal).
Se p < 0,02 e α = 0,05, logo p < α, portanto podemos rejeitar a hipótese nula.
Oitava (e última) providência: Reportar por extenso
Houve uma correlação positiva significativa entre a concentração do composto orgânico e a precipitação pluviométrica na semana anterior (r(4) = 0,886, p(bicaudal) < 0,01), em outras palavras, quanto maior foi o índice pluviométrico da semana anterior, maior foi a concentração do composto orgânico encontrado no rio.
 
__MACOSX/bioestatistica NP2.rtfd/._TXT.rtf

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais