Buscar

Introdução à Bioestatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

O que é Estatística
Estatística é uma ferramenta, que envolve a organização, interpretação e apresentação de informações e dados. Estamos o tempo todo rodeados de informação, mas é tanta coisa que na maioria das vezes não temos nem a capacidade de notar sua existência, quanto mais para usar isso a nosso favor. A estatística nos ajuda a organizar todos esses dados, para que os padrões fiquem claros e então possamos tirar conclusões e tomar decisões.
Bioestatística
A Bioestatística é a aplicação da estatística na biologia, pode ser considerada como um ramo especializado da informática médica (aplicação das comunicações e da informática à saúde), complementada pela Bioinformática (aplicação da tecnologia dos computadores à gestão e análise de dados biológicos).
A principal vantagem do pensamento estatístico envolvido na biologia é que não só resolve, mas também compreende uma complexa metodologia para dar resposta às hipóteses, além de agilizar a questão da organização do sistema de investigação, desde o projeto geral, a amostra, o controle da qualidade de informação e a prestação dos resultados.
As origens da Bioestatística de uma maneira mais elementar se remontam no século XIX e têm como precursora a enfermeira inglesa Florence Nightingale, que durante o desenvolvimento da guerra da Criméia se preocupou em observar o fenômeno que indicava que aconteciam muito mais baixas no hospital do que numa batalha, então, começou a coletar informações e deduziu que essa situação ocorria devido às péssimas condições de higiene que predominavam nos hospitais. Esta conclusão permitiu trabalhar a importância e a necessidade da higiene nos postos de saúde. Hoje praticamente não é um tema a ser discutido, mas certamente uma necessidade imperiosa e impossível de ignorar.
Entre os benefícios mais destacados desta disciplina podemos citar: o desenvolvimento de novos remédios, a compreensão de doenças crônicas como o câncer e a AIDS, etc.
No entanto, na atualidade, a aplicação da Bioestatística é fundamental e necessária em áreas como a saúde pública, entre as quais podemos incluir a epidemiologia, saúde ambiental, nutrição e saneamento, genética populacional, medicina, ecologia e bioensaios.
A importância da bioestatística para a sociedade
Não é exagero, os dados apresentados pela bioestatística podem nos ajudar a mantermos vivos.
Ainda nos anos 40, o trabalho sobre quantificação e aleatorização do estatístico inglês Austin Bradford Hill permitiu o estudo do uso da estreptomicina no combate à tuberculose. 
	Através de seus conhecimentos estatísticos, Bradford também foi o primeiro estudioso a relacionar o tabagismo ao desenvolvimento do câncer de pulmão.
	As pesquisas em ciências biomédicas permitem que os diagnósticos sejam realizados precocemente, nos apresentam a possibilidade de prevenir doenças e viabilizam o desenvolvimento de tratamentos cada vez mais modernos e eficientes. A bioestatística permite esses estudos, e as informações fornecidas têm o poder de salvar vidas.
Bioestatística e Epidemiologia
	A epidemiologia é a ciência médica no âmbito populacional, ao contrário da medicina clínica, que avalia cada paciente individualmente. Por se tratar do estudo da sociedade, onde, geralmente, é inviável coletar os dados de toda a população, a epidemiologia faz uso constante da bioestatística.
	O grande objetivo da epidemiologia é otimizar as ações de proteção e promoção da saúde de uma comunidade, traçando os fatores de risco, controlando a transmissão de doenças e evitando epidemias, através da coleta e análise de dados estatísticos.
	Por exemplo: os dados coletados sobre os indivíduos diagnosticados com o vírus do HIV podem ajudar a traçar o perfil do grupo de risco. Com esses dados em mãos, o governo pode segmentar campanhas de prevenção mais assertivas.
	Em outro exemplo, a coleta de dados sobre o índice de cólera em uma determinada região, relacionada às informações sobre as condições de moradia dessa população, pode nos dizer como controlar e erradicar a doença.
Variáveis
	Ao estudar uma população, as características que definem esta população são constantes, pois são comuns a todos os seus membros. Já as informações que variam para cada indivíduo, que serão coletadas e analisadas, são chamadas de variáveis.
	Saber classificar e diferenciar os tipos de variáveis é muito importante para o planejamento da pesquisa, na montagem do banco de dados, na análise os resultados, e mesmo na discussão e apresentação do trabalho final. A principal forma de se classificar uma variável é se ela é quantitativa ou qualitativa.
	Variáveis quantitativas são aquelas que assumem valores numéricos, e podem ser discretas ou contínuas:
	As Quantitativas Discretas são aquelas que só podem assumir valores inteiros, não existindo valores decimais (“com vírgula”) ou fracionados. Elas são geralmente o resultado de uma contagem, e não costumam ter uma unidade de medida. Como, por exemplo, “número de filhos” ou “número de respostas”.
	Já as Quantitativas Contínuas podem assumir qualquer valor real, e apresentam unidade de medida, como por exemplo peso (grama), altura (metro) ou temperatura (graus Celsius).
As variáveis Qualitativas são expressadas por categorias, e podem ser ordinais ou nominais:
	As Ordinais são aquelas em que existe uma ordem entre as categorias, como por exemplo “grau de escolaridade” ou os estágios de uma doença.
	As Nominais são as que não tem ordem entre suas categorias, como o “Sexo” ou a “Tipagem sanguínea”, por exemplo.
	Além disso, as variáveis qualitativas também podem ser classificadas de outra forma, como dicotômicas ou categóricas.
Dicotômicas são as que apresentam apenas duas categorias, e geralmente são uma variação de Sim ou Não a uma pergunta.
	
Categóricas são as que apresentam mais que duas categorias 
	Apesar de serem conceitos bem simples e diretos, algumas situações costumam gerar confusão.
Algumas variáveis podem mudar sua classificação a depender de como você esteja trabalhando com elas. Vou usar “Idade” como exemplo:
- Se você coloca no questionário a opção de “faixas etárias”, como crianças (até 11 anos), Adolescente (até 18 anos), Adulto (até 59 anos) e idoso, você vai ter uma variável qualitativa ordinal;
- Porém se pedir para que escrevam quantos anos tem, então é uma variável quantitativa discreta, pois não vai estar trabalhando com nenhum valor entre um ano e outro;
- Ou ainda, se pedir que escrevam a suas datas de nascimento, então é possível tratar como uma variável quantitativa discreta.
	Perceba que tudo depende de como você coleta e trabalha a variável.
	
Outra questão que costuma gerar confusão é quando as categorias de uma variável qualitativa são nomeadas com números, como quando se estadia doenças, ou na escala visual analógica de dor.
	Neste exemplo, apesar de se pedir para que o indivíduo classifique sua dor como de 0 a 10, essa variável não é quantitativa. Dor é um fenômeno emocional e sensorial subjetivo, cada um sente de uma forma diferente. O número aqui não é uma contagem, nem uma medida, mas sim uma categoria que engloba diferentes percepções subjetivas de intensidade.
	Algumas variáveis mudam de classificação de acordo como ela será trabalhada:
Faixa etária ( cada uma pertence a uma categoria )
Idade ( não está trabalhando com um valor entre um e outro )
Data de nascimento ( o valor após a virgula não faz tanta diferença)
frequência
	Frequência é um dos conceitos mais importantes na análise estatística, significa a quantidade de vezes que algo ocorreu ou foi observado.
	Por exemplo, se em um grupo de bolas coloridas existem 3 bolas azuis, então a frequência de bolas azuis neste grupo é três.
	Frequências são usadas para organizar o analisar dados. Se está trabalhando com uma variável dividida em categorias, você pode verificar e comparar a frequência de cada categoria. Ou, se for uma variável numérica, você pode dividir faixas de resultadose verificar a frequência de cada faixa (e com isso obter a sua distribuição).
	Existem dois tipos principais de frequência, a absoluta e a relativa.
	A absoluta pode ser simbolizada pela letra “f” minúscula ou pela letra “n”. Ela é o próprio número da frequência, o valor bruto.
	A relativa pode ser chamada pelas letras “fr” ou pelo símbolo de porcentagem (%). Ela é a relação entre esse valor absoluto com o tamanho do grupo, e é obtida dividindo o “n” pela quantidade total do grupo ou de observações (que é o mesmo que obter sua porcentagem).
	Então, voltando ao exemplo da caixa com bolas coloridas, se é composto por um total de 12 bolas, e 3 são azuis, então a frequência absoluta de bolas azuis é 3, e a sua frequência relativa é 25%. E o mesmo pode ser calculado para as outras cores de bolas.
	É importante saber quando direcionar sua análise em um ou no outro, para focar sua atenção e a do leitor ao que mais importa.
Valores absolutos servem para chamar atenção ao total, ao seu tamanho, sua grandeza. 	Enquanto os relativos mostram a sua importância dentro do grupo, se representa uma grande parcela ou pequena.
	Porém é sempre importante observar e relatar as duas, absoluta e relativa, porque analisar apenas uma pode levar a grandes erros de interpretação.
	Por exemplo, se, ao estudar uma população, percebe-se que existem 27 pessoas com hipertensão arterial. Então, isso é muito? É pouco? É preciso ver a frequência relativa!
Se o tamanho dessa população for de 30 indivíduos, então parece que existem muitos hipertensos, cerca de 90%.
 
	
	Mas se forem 27 dentro de um grupo de 3.000 indivíduos, então já é uma frequência bem pequena, apenas 0,9%.
	Ou ainda, caso esteja sendo estudando o número de casos de dengue em diferentes bairros de uma cidade, e percebe-se que de um ano para o outro ouve um aumento de 50% no número de casos em um bairro, parece que é uma situação alarmante! Mas, será?
Se no ano anterior ouve, digamos, apenas 2 casos, um aumento de 50% significa que o aumento absoluto foi de apenas 1 caso, ou seja, passou de 2 para 3. O que epidemiologicamente não chega a chamar atenção, considerando a população de um bairro.
	Existe ainda outra forma de frequência, a frequência acumulada, que é quando se soma as frequências a medida que se progride, as frequências “vão se acumulando”. Note que ela só pode ser usada quando existem uma ordem, seja com variáveis numéricas, ou com categorias ordinais. Pode servir para se encontrar percentis de interesse, por exemplo.
	A análise de variáveis qualitativas envolve basicamente comparar as frequências de cada categoria de diferentes formas.
	Porém quando se trabalha com variáveis quantitativas a coisa fica um pouco mais complicada. Neste caso o que se faz é dividir faixas de valores e observar a frequência de cada faixa, para ver em quais faixas os resultados estão mais ou menos concentrados. Isso se chama descrever a distribuição dos resultados, e a forma clássica de descrever uma distribuição é com um tipo de gráfico chamado histograma.
	O histograma é um gráfico de barras, em que cada barra indica a frequência de uma faixa de valores. Com ele é fácil verificar em quais faixas da há maior ou menor frequência de valores.
	Porém um histograma traz muita informação, muito mais do que se usualmente precisa. Ao analisar um único grupo parece ser simples, mas imagine quando se quer comparar vários grupos. A visualização acaba ficando poluída e gera muita complicação.
	Por isso na análise de variáveis quantitativas se usa medidas que traduzem sua distribuição, simplificam sua visualização e facilitam as comparações. Elas são chamadas de medidas de posição e dispersão, como a média, a mediana, a moda ou o desvio padrão.
Posição e Dispersão
	Quando se analisa variáveis quantitativas, é preciso descrever a distribuição da variável. Isto é, dividir faixas de valores e, pela frequência de cada faixa, observar onde os resultados estão concentrados e dispersos
	A forma clássica de se descrever uma distribuição é usando um tipo de gráfico chamado histograma. Porém analisar cada faixa de valores, mesmo com um histograma, dá muito trabalho, e quando se quer comparar vários grupos a coisa fica bem mais complicada.
	Por isso se usa medidas que descrevem a distribuição de forma simples, facilitando a análise. Elas são chamadas medidas de Posição e Dispersão.
	
	Medidas de posição, também chamadas de medias de tendência central, indicam uma posição que centraliza a distribuição. As mais utilizadas são a Média, a Mediana, e a Moda.
	Cada media tem característica e funções próprias, e algumas inclusive só podem ser usadas em situações específicas.
	A Média é soma de todos os resultados dividida pela sua quantidade. Ela representa um ponto de equilíbrio dos valores, e, quando usada corretamente, mostra onde os resultados estão concentrados.
	
	A Mediana é o valor que divide o grupo em duas metades. Quer dizer que metade dos resultados vão ser menores que a mediana, e a outra metade vai ser maior.
	A Moda é o resultado, ou faixa de resultados, que tem maior frequência. A distribuição pode ter mais de uma moda, ou nenhuma.
 
 	Amplitude é a diferença entre o maior e o menor valor do grupo. Se o grupo é muito disperso, a amplitude deve ser grande, se o grupo é muito concentrado, ela vai ser pequena. Outra forma de representar a amplitude é mostrando quais são esses valores (o maior e o menor), indicando então quais são os limites do grupo.
	A Variância é uma medida que indica o quão disperso é o grupo em relação à sua média. Porém ela não costuma ser utilizada, porque quando calculada, sua unidade é o quadrado da unidade original, e ter uma medida que varia exponencialmente complica a análise. 
	A solução para isso é tirar a sua raiz quadrada, e a raiz quadrada da variância é o Desvio padrão.
	
O Desvio Padrão é o indicador de dispersão usado junto com a média. Quanto maior o desvio padrão, mas disperso é o grupo, e vice-versa.
	A mediana pode ser usada em qualquer situação, mas sua maior utilidade é quando a distribuição é assimétrica, e pode ser acompanhada da amplitude ou os limites do grupo. Ela separa o grupo ao meio, então 50% dos resultados são menores que ela, e os outros 50% são maiores. Quer dizer que se a mediana for mais próxima de um dos limites, essa faixa está mais concentrada que a oposta. 
	A moda é um bom indicador quando o grupo tem uma distribuição assimétrica, e principalmente quando tem vários picos de frequência, pois as outras medidas não conseguem representá-los. Além disso, a moda também pode ser utilizada com variáveis qualitativas, indicando a categoria, ou categorias, de maior frequência.
	A média deve sempre ser acompanhada do desvio padrão, e eles só podem ser usados quando o grupo segue um tipo específico, porém muito comum, de distribuição, chamada de Distribuição normal. Esse tipo de distribuição é caracterizado por uma curva simétrica, que tem seu traçado definido pela média e o desvio padrão. Por isso, quando o grupo segue uma distribuição normal esta é a melhor forma de representá-lo.
	A média indica a posição do pico da curva, enquanto o desvio padrão indica o quão dispersa é em relação à média, de forma que cerca de 68% dos resultados vão estar a 1 desvio padrão de distância da média, para mais ou para menos.
	A distribuição normal tem um papel muito importante na estatística, é preciso compreender bem do que se trata. 
Distribuição Normal
	A distribuição de um grupo de dados quantitativos é forma como ele se apresenta ao se dividir faixas de valores e observar a frequência de cada faixa.
	Embora existam inúmeras formas de distribuição possíveis, algumas tem mais importância. A principal delas é a distribuição normal, também conhecida como distribuição Gaussiana, ou paramétrica.
	Uma distribuiçãonormal tem forma de uma curva simétrica, parecida com um sino, e é definida por apenas duas medidas, a média e o desvio padrão. A média é a posição do centro da curva, e o desvio padrão o ponto em que ela deixa de ser côncava e se torna convexa. 
 
	Ou seja, a média posiciona o centro da curva, e o desvio padrão determina o quão dispersa ou concentrada ela é.
	A distribuição normal é importante por várias razões, entre elas, por causa do teorema do limite central e outras equações, e também porque ao estudar diversos fenômenos naturais é observado que esse tipo de distribuição é incrivelmente comum. Então ela tem uma grande importância tanto matemática como prática.
Por exemplo, vamos estudar a altura de um grupo de milhares de pessoas do mesmo sexo, da mesma idade, e etnia.
Ao colocar os resultados em um histograma, percebemos que existe uma faixa de altura mais comum, e a medida que se distancia dessa faixa mais comum a frequência é cada vez menor. Ou seja, existem muitos indivíduos próximos de uma altura média, e poucos com alturas extremas (muito baixos ou muito altos). Se traçarmos a curva de densidade desse histograma, sua forma vai ser a típica curva simétrica em forma de sino da distribuição normal.
A curva de densidade é usada para determinar a probabilidade de se obter um resultado dentro de qualquer faixa de valores. Essa probabilidade é dada pela área dentro da curva limitada pela faixa desejada. No caso da distribuição normal, a faixa a 1 desvio padrão de distância da média sempre tem probabilidade de cerca de 68%. Então se selecionarmos aleatoriamente um indivíduo desse grupo, a probabilidade de ser alguém entre 1,65m e 1,75m é de 68%.
E isso é o que torna a distribuição normal tão importante para a estatística.
Quando se sabe que o grupo segue essa distribuição, é possível calcular a probabilidade, ou a frequência relativa, de QUALQUER faixa de resultados.
Só é preciso duas medidas, a média e o desvio padrão. Sempre que um grupo segue uma distribuição normal, a média e o desvio padrão são a melhor forma de representá-lo.
Isso é muito explorado na estatística inferencial, pois melhora e simplifica diversas formas de calcular probabilidades.
	Mas antes de fazer qualquer coisa, é importante garantir que a variável realmente segue uma distribuição normal. Embora algumas vezes o histograma ou a curva de densidade possam fazer parecer que o grupo tenha uma distribuição normal, não é seguro se basear apenas neles.
	Pode se calcular a simetria e a curtose (achatamento) da curva, para ver se estão em faixas aceitáveis, e também podem ser usados gráficos Q-Q ou P-P. Outra forma, mais objetiva, é usando testes de hipótese específicos para isso, alguns dos mais usados são os testes de Shapiro-Wilk, de Lilliefor, ou de D’Agustino.
	Se o grupo seguir uma distribuição normal, pode-se usar a média e o desvio padrão, e fazer quais quer testes ou cálculos paramétricos. Caso não siga, ainda é possível realizar testes não paramétricos e descrever o grupo com a mediana e separatrizes, como quartis
Quartis e Separatrizes
	Separatrizes dividem um grupo de resultados em faixas com a mesma quantidade de valores.
	O quartil é um tipo de separatriz, que divide o grupo em quatro. Então se tivermos um grupo de 20 resultados, cada quartil vai ter 5.  Os limites de cada quartil são chamados de Q1, Q2, Q3 e Q4. E assim temos quatro faixas com a mesma frequência.
Tente visualizar dessa forma, os resultados são colocados em ordem, do menor para o maior, em uma reta, que vai de 0 a 100%. Nesta reta, 0% representa o menor valor, porque nenhum outro é menor que ele, e 100% o maior, porque todos os outros são menores que ele (similar à frequência acumulada).
Para dividir o grupo em quatro partes com a mesma quantidade, cada parte deve ter 25% dos valores. Os limites vão estar em 25%, que é o Q1, em 50% que é o Q2, em 75%, que é o Q3, e 100% que é o Q4.
Dessa mesma forma, poderia se dividir o grupo em quintis, 5 grupos, cada um com 20% da frequência total, ou decis, 10 grupos, cada um com 10% dos valores.
Outra forma de separatriz são os percentis, que dividem o grupo em sua respectiva faixa. Por exemplo, o percentil de 80% é o valor que é maior que 80% e menor que 20% dos resultados.
 
Então pode-se dizer que o Q1 é o mesmo que o percentil de 25%, e assim por diante.
O percentil 50%, que é o Q2, divide o grupo em duas metades, uma menor que ele e outra maior. Se isso te soa familiar, é porque você está lembrando da mediana. E é isso mesmo, o percentil 50%, o Q2 e a mediana são a mesma coisa.
Os cálculos para encontrar os quartis ou percentis na verdade não são muito complicados. 
Porem existem formas diferentes de se fazer a conta, que dão resultados diferentes, e não existe um consenso entre os estatísticos sobre a melhor forma....
Percentis podem ser usados para encontrar percentuais de interesse.
Se quiser saber o percentual de alunos que tirou nota abaixo de 7,0 pontos em uma prova, é só procurar o percentil correspondente a essa nota. 
Ou, se for para separar do resto os 10% que tiraram as maiores notas, é só procurar o percentil de 90%.
As separatrizes podem ser usadas de várias formas. O mais comum, é usar os quartis para descrever a distribuição de um grupo. Isso é feito com um gráfico chamado box plot, ou gráfico de caixas.
Cada parte desse gráfico representa um quartil. O traço inferior, sai do Q1 e vai até o menor valor. A divisória no meio é a mediana. E o traço superior sai do Q3 e vai até o maior valor.
Cada faixa do gráfico tem a mesma quantidade de resultados, ¼ do total em cada. Isso quer dizer que em uma faixa menor, eles vão estar mais concentrados, e em faixas maiores vão estar mais dispersos.
A faixa entre o Q1 e Q3 se chama intervalo interquartílico, para saber seu valor, basta calcular a diferença entre Q1 e Q3.
O box plot é um gráfico muito usado quando o grupo não segue uma distribuição normal, porque representa bem qualquer tipo de distribuição.
Erros Aleatórios e Sistemáticos
Sempre que se tenta medir qualquer coisa, existe um erro, seja usando um termômetro, uma balança, um questionário, lendo um prontuário, executando um exame físico, ou apenas observando.
Mas não quer dizer que “houve um engano” ou que “algo deu errado”. Na estatística o erro significa a diferença entre o valor real e o resultado, e essa diferença sempre vai existir, seja grande ou pequena.
Porém o tamanho dessa diferença é desconhecido, por que não se conhece o valor real do que está sendo medido (se fosse conhecido não seria necessário medir). Então esse erro pode ou não comprometer seus resultados e interpretações. E por isso é fundamental entender suas causas e características, para o planejamento da pesquisa e interpretação dos resultados.
Existem basicamente dois tipos de erros, o erro aleatório e o erro sistemático. 
Os erros aleatórios interferem em cada medida individualmente (de forma aleatória). Quer dizer que a cada nova medida o resultado é deslocado em uma direção e com intensidade diferentes, então o resultado vai variar em torno do valor real.
Já os erros sistemáticos fazem com que todos os resultados sejam deslocados em conjunto, gerando um tendenciosidade (viés). Agora a variação dos resultados não ocorre ao redor do valor real.
Erros aleatórios são causados por fatores que não podem ser eliminados, talvez controlados, mas nunca eliminados. São fatores de causa desconhecida, que mudam constantemente ou que são probabilísticos por natureza. É como jogar um dado, uma moeda, ou selecionar uma amostra aleatória de uma população. 
Apesar de não ser possível eliminar suas casas, é possível minimizar sua interferência ao usar um equipamento mais preciso ou uma amostra maior. Além disso, seu tamanho pode ser estimado através de medidas de precisão, como o intervalo de confiançaou uma margem de erro, que estimam uma probabilidade do valor real estar em uma determinada faixa ao redor do resultado.
Erros sistemáticos costumam tem uma causa identificável: um problema no equipamento, interferência do ambiente ou amostra não aleatória. É como jogar um dado viciado, que tende a cair mais para um lado do que para os demais, causando uma tendenciosidade.
São muitas vezes causados por fatores relacionados ao próprio método usado, e podem ser evitados. Pode-se verificar se os equipamentos estão em boas condições, controlar variáveis ambientais, cegar um ensaio clínico, ou mesmo garantir que a amostra vai ser selecionada de forma aleatória.
Mas note que nem sempre é possível eliminar sua causa, pois pode fazer parte da própria natureza do experimento. Imagine um estudo sobre os efeitos de uma técnica cirúrgica, não há como cegar o cirurgião, ele precisa saber qual procedimento irá realizar, e também não há como ter um grupo placebo.
Quando os resultados estão sobre o efeito de tendenciosidade (vieses) não há como estimar o tamanho do erro com medidas de precisão, pois os resultados não estão variando em tordo do valor real. Logo, o tamanho do erro é completamente desconhecido! Em algumas situações isso pode não ter muita importância, em outras pode comprometer toda a validade da pesquisa. Mas não há nada em específico que diga o tamanho do problema, é uma questão de interpretação (sua e de quem for ler e avaliar seu trabalho).
Terminar a pesquisa e só então perceber que seus dados estão sobre efeito de vieses, ou que tem uma margem de erro enorme, é uma situação muito complicada.
 Não dá para superestimar a importância fazer um bom planejamento.
	Uma fonte bastante comum de erros, tanto aleatórios como sistemáticos, costuma ser no uso amostras de população. O tamanho da amostra, e os métodos de seleção, costumam causar vários problemas em pesquisas.
Amostras e Erro Amostral
Sempre que se faz uma pesquisa científica é preciso definir a população que vai ser estudada. Porém, frequentemente não é possível ter acesso a todos os seus membros. Por isso, é muito comum o uso se amostras, que são um “pedaço” da população selecionado para representá-la.
Uma população é um grupo de indivíduos (pessoas, animais, ou objetos) que compartilham uma característica em comum. A “característica” que define a população pode ser algo simples (“moradores do bairro X”, “fumantes residentes na cidade Y”, “ratos da espécie Z”, ...), ou mais complexo, com vários critérios de inclusão e exclusão.
Pode ser inclusive um espaço geográfico (por exemplo, ao analisar a atmosfera de uma cidade ou o solo de uma fazenda). Mas também pode ter uma definição mais abstrata, como ao estudar os resultados de um dado, em que a população pode ser definida como “infinitas jogadas”. Perceba que o que importa é definir a população de acordo com o objetivo da pesquisa.
Na área da saúde, o mais comum é estudar um grupo de pessoas ou animais. Mas frequentemente não possível, ou prático, coletar dados de TODOS os seus membros. Pode ser que não se tenha recursos suficientes, seus indivíduos podem não cooperar, o acesso a eles pode ser difícil, ou a população pode ser simplesmente grande demais (imagine estudar todos os animais de uma determinada espécie do planeta... não da neh...). 
Nestes casos, o que se faz é escolher um subgrupo desta população para representá-la, e este subgrupo é o que chamamos de amostra.
O uso de amostras facilita bastante a pesquisa, pois se trabalha com uma quantidade menor de indivíduos enquanto economiza tempo e material. Porém é preciso ter atenção a um problema chamado erro amostral.
Todo resultado de uma amostra é apenas uma estimativa da população. O erro amostral é a diferença entre o valor real da população e o estimado pela amostra. Como não se conhece o valor real (do contrário não seria preciso todo esse trabalho), o tamanho do erro é desconhecido. 
Então para que a amostra seja uma boa representante de sua população, é preciso ter controle sobre o erro amostral.
Essa diferença existe porque nem todos os indivíduos da população fazem parte da amostra, então, como consequência, os valores são diferentes. Existem inúmeras possíveis combinações que podem compor a amostra de uma mesma população, e cada uma vai apresentar um resultado diferente, porque são formadas por indivíduos diferentes.
A variação desses possíveis resultados forma a distribuição amostral, que pode ser representada por uma curva de probabilidades.
 Pode ser da sua média ou frequência, e tem como centro o seu valor real na população.
Mas cuidado para não se confundir. Não estou falando da distribuição de uma variável quantitativa, que é a frequência de cada faixa de valores, e que pode ser representada por uma curva de frequências.
Estou falando das possíveis médias ou frequências que podem ser obtidas por diferentes amostras dessa população, e a probabilidade de se retirar uma amostra aleatória em diversas faixas. Isso é a distribuição amostral, que pode ser ilustrada em uma curva de probabilidades.
E, segundo o teorema do limite central, a distribuição amostral sempre segue uma distribuição normal, independente da distribuição da variável na população de origem (para isso a amostra só precisa não ser muito pequena, em geral um tamanho maior do que vinte já serve).
Mas qual é a importância disso? Veja, conhecendo a distribuição do erro, é possível calcular a probabilidade de obter um resultado em qualquer faixa. Então pode se estabelecer um intervalo de confiança (IC) e determinar a precisão da estimativa. Apesar de não se conhecer o tamanho exato do erro, é possível estimá-lo.
Na realidade, como não se conhece a população, também não se conhece sua distribuição amostral. Então o que se faz é usar a amostra para estimar sua própria precisão.
O IC é uma faixa ao redor da estimativa em que espera que o valor real esteja, geralmente com uma probabilidade de 95%. 
Uma estimativa precisa deve ter um IC pequeno, e o tamanho do intervalo pode ser controlado pelo tamanho da amostra. Quanto maior a amostra, menor o IC. Uma amostra muito pequena vai ter um IC muito grande, enquanto que uma amostra muito grande, apesar de ser precisa, vai acabar gerando os mesmos problemas de se estudar a população inteira. A amostra precisa ter um tamanho adequado, que diminua os custos da pesquisa e garanta a precisão necessária.
Porém, tudo isso só é válido partindo do pressuposto de que a amostra foi selecionada de forma aleatória. O que nem sempre é feito, e nem sempre é possível. Quando a seleção não é aleatória, o erro se torna sistemático, sendo vulnerável a tendenciosidade e vieses, e todo o trabalho pode perder o significado. Para garantir que a amostra seja representativa, é preciso, também, encontrar o melhor método de seleção para o estudo.
O cálculo do tamanho amostral e os métodos de seleção fazem parte do processo chamado de amostragem.
Amostragem: Seleção e Cálculo Amostral
	O resultado de uma amostra é uma estimativa dessa característica na população. Para que essas estimativas sejam confiáveis, e a amostra seja uma boa representante de sua população, é preciso ter controle sobre os parâmetros que influenciam no erro amostral.
	A amostragem é o processo de se obter uma amostra, e para garantir sua representatividade, deve envolver a definição do seu tamanho e a forma de seleção adequadas.
	O tamanho amostral controla a variação aleatória, o que determina a precisão da estimativa. Porém a precisão estimada só é válida caso a seleção não seja tendenciosa, o que só pode ser garantido com um método aleatório.
	Não existe um tamanho exato e certo para qualquer amostra, e também não existe forma de seleção que seja perfeita para qualquer situação. Tudo isso vai depender da natureza da sua pesquisa e como você pretende analisar os resultados.
CÁLCULO AMOSTRAL:
Uma amostramuito grande vai ter muita precisão, mas vai apresentar os mesmos problemas de se estudar a população inteira (e é por causa desses problemas que se usa a amostra). Mas uma amostra muito pequena, apesar de dar menos trabalho e gastar menos recursos, é pouco confiável.
É preciso encontrar um tamanho que facilite a pesquisa e que lhe dê tanta precisão quanto necessária. E para isso é feito um cálculo que envolve diversos parâmetros que influenciam em sua precisão.
Porém, usando uma calculadora é preciso entender os parâmetros que vão ser necessários para a conta. Então vou tentar explicar alguns deles aqui:
- Frequência ou Desvio Padrão estimados:
Se a variável for qualitativa, a precisão vai depender de sua frequência. Quanto mais próxima de 50%, maior será a variação amostral, necessitando uma amostra maior para garantir a precisão.
Obviamente a frequência na população não é conhecida, pois é para isso que estamos tendo todo esse trabalho. O que se faz é estimar um valor próximo do esperado para fazer a conta. Para isso você pode se basear na literatura ou estudar uma amostra piloto. Se não tiver a menor idéia, o recomendado é usar 50% para a conta, pois vai gerar a maior amostra possível, que é mais confiável.
Se a variável for quantitativa, a regra é a mesma, só que agora a variação vai depender do seu desvio padrão. Mas vai seguir a mesma história, você tem que estimar um valor para usar na conta.
Erro máximo desejado:
Qual é a precisão que você deseja? Qual o erro máximo que você aceita?
Pode ser que para responder à questão de sua pesquisa você não precise de um resultado extremamente preciso. Pense em qual seria a margem máxima do intervalo de confiança que você aceitaria no resultado.
- Nível de significância:
	O nível de significância é a probabilidade estimada do valor real estar fora da margem do erro máximo que foi escolhida. Um número muito usado aqui é 5%.
- Número de grupos / amostras:
	Se desejar apenas descrever um grupo, ou compará-lo a um valor fixo, então irá precisar de apenas uma amostra.
	Mas caso o objetivo seja comparar dois grupos, então serão necessárias duas amostras. Isso quer dizer que os resultados vão estar sujeitos a dois erros amostrais, e, para compensar, o tamanho da amostra deve ser maior.
	Neste caso o erro máximo desejado é substituído pela diferença a ser detectada, que é exatamente o que diz, o tamanho da diferença que você quer que as amostras sejam capazes de encontrar.
	Para ser capaz de encontrar diferenças pequenas é preciso uma amostra maior, mais precisa, e vice-versa. Para evitar detectar diferenças irrelevantes, escolha um valor que tenha importância para o que você está avaliando.
	- Ao usar testes de hipótese:
É muito comum o uso de testes de hipótese quando se usa amostras para fazer comparações, para se ter uma avaliação mais objetiva. Explicando de forma simplificada, testes de hipótese estatística são usados para verificar se a diferença ou correlação observados nas amostras realmente existem entre suas populações de origem.
O nível de significância nesse caso passa a ter outro sentido, que é a probabilidade de se cometer o chamado erro tipo I: “encontrar uma diferença ou correlação que na realidade não existe”
O poder desejado para o teste, é probabilidade de detectar uma diferença ou correlação quando realmente existir uma. Geralmente se usa valores por volta de 70 a 90%.
Esses testes trabalham com as probabilidades das distribuições do erro, que podem ser desenhadas em um gráfico como curvas. O teste pode buscar uma diferença ou correlação quaisquer entre os grupos, usando os intervalos das duas extremidades da curva, que são chamadas de caudas. E por isso esse tipo de análise é chamada de bicaudal.
Ou, pode buscar apenas se um grupo é maior ou se é menor que o outro, e ser chamado de monocaudal.
Testes monocaudais precisam de uma amostra menor para detectar uma mesma diferença ou correlação. Mas o preço disso é que o significado da sua resposta é ainda mais limitado. Ao invés de encontrar qualquer diferença, ele diz apenas se um grupo é maior, ou então se é menor que o outro.
A depender do caso, outros parâmetros podem ser necessários, como o tamanho da população, ou a proporção entre os grupos, por exemplo. Mas o raciocínio é basicamente o mesmo, controlar a variação do erro para obter a precisão desejada.
E para finalizar essa parte, note uma coisa. Tudo isso leva em consideração apenas uma única variável e comparação. Quer dizer que essa amostra vai ser adequada para analisar esta variável, e não necessariamente as outras. Então escolha bem qual a variável que vai usar, se concentre no foco da pesquisa.
MÉTODOS DE SELEÇÃO
O ideal seria que todas as amostras fossem aleatórias, mas isso nem sempre é possível.
 A seleção é dita aleatória quando todos os membros da população têm a mesma probabilidade de serem escolhidos. E para fazer isso é preciso ter uma lista de todos os membros desse grupo.
Agora imagine um trabalho sobre as condições de saúde de moradores de rua, ou de usuários de drogas injetáveis.
 Dificilmente vai existir uma lista com todos os membros dessas populações. Muitos vão inclusive ser indigentes e outros não vão querer se revelar para você. Mas ainda assim, é importante planejar bem o método de seleção, principalmente porque pode facilitar o trabalho e ajudar a encontrar membros para compor sua amostra.
- Seleção aleatória simples:
Com uma lista de todo o grupo, pode se usar programas de computador ou mesmo dados simples para selecionar quem entra ou não, e isso garante cada indivíduo tem igual probabilidade de ser selecionado.
 Esse tipo de seleção é muito simples efetivo para minimizar vieses.
Um erro comum é se basear em fatores que podem parecer aleatórios, mas não são, como datas de internamento, dia de nascimento, hora do atendimento, número do prontuário, tabelas com valores aleatórios pré-definidos. 
De uma forma geral, se o número que vai decidir quem entra na amostra, ou a que grupo o sujeito vai pertencer, já existia antes do ato da seleção, então ela não é aleatória.
- Seleção sistemática:
         
A amostra sistemática envolve usar algum método organizado que facilite a seleção. Como colocar todos os indivíduos em ordem e escolher um intervalo regular, cabendo randomizar apenas o primeiro elemento.
Por exemplo, você pode sortear apenas uma das 3 primeiras casas de uma rua, e incluir todas as casas que caem em um intervalo de 3 em 3 iniciando pela sorteada.
	Esse tipo de seleção facilita bastante o trabalho, mas pode ser vulnerável tendenciosidade por características que variam periodicamente no sistema.
- Seleção estratificada:
	Se a população for notadamente dividida em diferentes classes ou categorias, é interessante que a proporção entre esses estratos se mantenha na amostra.
         
	Para isso são feitas amostragens separadas para cada estrato, o que vai acabar precisando de mais indivíduos, vai dar mais trabalho e vai aumentar os custos da pesquisa. Mas se isso for possível é muito bom, pois garante uma melhor representatividade e pode inclusive permitir que posteriormente se faça alguma comparação entre esses subgrupos.
- Seleção por agrupamentos:
Uma forma bastante custo-efetivo é não selecionar indivíduo por indivíduo, mas sim por agrupamentos. Um exemplo comum é, ao invés de usar uma lista de cada habitante da cidade, selecionar por ruas, e incluir todos os moradores das ruas selecionadas.
Isso deixa os membros da amostra mais próximos uns dos outros e facilita o deslocamento entre eles. Mas a depender do caso, cada agrupamento, ou rua, pode ter características distintas, o que pode facilitar um resultado tendencioso.
- Seleção por conveniência:
É provavelmente o tipo de seleção mais usada, porque é muito simples e fácil. Trata-se de buscar os membros da população que estão próximos do pesquisador.
Você pode ir até um local público e com boa movimentaçãopara convidar quem está a seu alcance. Ou ainda, pode divulgar o questionário em redes sociais pela internet.
Obviamente esse tipo de seleção não tem como ser aleatória, pois as únicas pessoas com alguma chance de entrar na amostra são as que estiverem no mesmo local que o pesquisador e no mesmo período de tempo.
Então é impossível garantir que esse tipo de amostra vai representar bem a população, por isso esse método é mais adequado para estudos piloto. Mas em algumas situações essa pode ser a única forma disponível, então vale a pena considerar se a questão da sua pesquisa poderia ser respondida com um nível de evidência menor.
Além disso, é sempre interessante discutir na publicação os motivos pelos quais as pessoas nesse local poderiam ser diferentes do resto, em relação à variável estudada.
- Seleção por bola de neve:
Esse tipo de seleção também não é nada aleatório, mas é particularmente útil para populações de difícil acesso, como moradores de rua por exemplo, em que não se dispõe de uma lista com endereço ou meio de contato de cada um.
Ao encontrar algum membro do grupo, você pode pedir que ele chame outros para você, ou que te indique onde encontrá-los. Cada um destes pode te indicar mais outros, e assim sua amostra vai crescendo. Daí vem o nome.
Então, apesar de não ser aleatório, é possível encontrar mais membros para a amostra, o que já ajuda bastante, considerando que o maior problema era não saber como ou onde encontrá-los.
Quando se publica os resultados da pesquisa, é fundamental relatar todos os parâmetros da seleção da amostra e também do cálculo amostral, com todos os valores usados. Não fazer isso é um erro primário, e bastante comum. Não é possível interpretar bem os resultados sem essas informações. Sempre informem todos os parâmetros da amostragem em suas publicações.

Continue navegando