Buscar

Bioestatística (1)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Bioestatística 
Sumário
Unidade 01	3
Estatística e bioestatística	3
Conceitos básicos	4
Planejamento de pesquisas	9
Unidade 02	15
Amostra e procedimentos de amostragem	15
Amostra	17
Amostragem	18
Distribuição de dados	23
Unidade 03	27
Métodos estatísticos descritivo	27
Tabelas	27
Tipos de gráficos	31
Medidas de tendência central	34
Medidas de dispersão	35
Amplitude, mínimo e máximo	36
Quartil	37
Desvio padrão	38
Coeficiente de variação	39
unidade 04	40
Estatística inferencial.	40
Probabilidade	40
Tipos de distribuições	44
Testes estatístico	47
Unidade 01
Estatística e bioestatística
A crescente demanda de informação quantitativa que é requerida em todas as áreas da ciência faz com a estatística tenha um papel fundamental no auxílio de metodologia de planejamento de pesquisa e técnicas de análise de dados. Considerada como uma ciência, a estatística não é matemática e nem uma forma de aplicação da matemática e, sim, uma ciência com seus métodos de lidar com dados, que permite tirar conclusões.
A palavra ou termo “estatística” é usada em vários sentidos, pode-se referir não apenas a tabulação e manipulação simples de informações numéricas, mas também como relatórios contendo números e análises de previsões, como um conjunto de técnicas usadas para analisar os dados.
Vários autores procuram definir a estatística com definições desde as mais simples até as mais complexas. Martins e Donaire (1990, p. 17) definem a estatística de uma maneira simples, como “um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. Os fenômenos coletivos, são os que se referem à população, universo e compreende um grande número de elementos, pessoas, animais ou objetos. Entretanto, quando cientistas e pesquisadores das disciplinas científicas relacionadas às áreas da saúde (medicina, enfermagem, ou fisioterapia, por exemplo) estudam problemas específicos dessas áreas e envolvem soluções com base nos métodos e técnicas da estatística, denomina-se como área de estudo de bioestatística.
Dessa forma, a bioestatística é considerada um ramo bem amplo da estatística. Em outras palavras, de forma mais simples, segundo Vieira (1980), a bioestatística é a estatística aplicada às ciências médicas e biológicas.
Estatística descritiva (descrição e exploração dos dados):
Os dados coletados são organizados/sumarizados para evidenciar informações relevantes em termos dos objetivos da pesquisa. Quando se procede uma análise de dados busca-se alguma forma de regularidade ou padrão das observações.
Inferência estatística:
O ato de generalizar ou deduzir os resultados para o todo, através da tomada de decisões baseada em dados coletados para uma amostra. Envolve-se, assim, a estimação de parâmetros (característica dos elementos da população). Outra forma de inferência estatística é a categoria dos testes estatísticos de hipóteses ou testes de significância.
Crescimento da estatística;
As técnicas estatísticas, então, são usadas na investigação do efeito de novos remédios, na avaliação de metodologias de ensino e aprendizagem, controle de poluição e dos eventos do meio ambiente, análise do comportamento dos consumidores, estudos governamentais de longevidade da população, e dentre outras várias situações que cabem o seu suporte. Outro fator é que a nossa capacidade de lidar com os dados aumentou com o advento da tecnologia e computadores cada vez mais poderoso, além de um aumento no interesse por informação, por parte da população. Assuntos ligados à estatística são apresentados e veiculados de várias formas na internet, mídias sociais, redes sociais e assim por diante.
Conceitos básicos
População;
Uma população estatística é composta de pelo menos uma característica comum entre pessoas, seres vivos ou objetos, é o conjunto de todas as características comuns que interessam ao pesquisador. Definida por um conjunto de elementos de todas as observações possíveis (FREUN, SIMON, 2000), e pode ser compreendida de duas formas:
População finita: consiste em um numero finito de elementos ou observações
População infinita: consiste em um numero infinito de elementos ou observações.
Amostra; 
Consiste em uma parte de observações da população, ou seja, é uma parte representativa da mesma, que possui as mesmas características do restante.
· Amostragem probabilística ou aleatória: é um procedimento de seleção dos indivíduos baseado em um sorteio (aleatório). Nesta técnica, todos os indivíduos da população têm a mesma probabilidade ou chance de ser selecionado. A partir dessa técnica de seleção, decorrem outras técnicas, tais como amostragem aleatória com e sem reposição, amostragem estratificada, amostragem sistemática, amostragem por conglomerado etc. Estas são usadas dependendo da necessidade do estudo ou do plano amostral.
Amostragem estratificada; é uma amostra aleatória que usa a estratificação, ou seja, dividir a população em grupos.
Amostragem sistemática; é definida a partir de um fator que se repete.
Amostragem por conglomerado; precisa da proximidade física.
· Amostragem não probabilística: é um procedimento de seleção que não é aleatório, sendo que o pesquisador pode escolher os indivíduos que irão compor a amostra.
O outro levantamento é o chamado levantamento censitário. O levantamento censitário ou levantamento de inventário abrange todos os elementos da população. No Brasil, a coleta de dados de toda população é chamada de censo, sendo de responsabilidade do IBGE. 
Atualmente, um novo tipo de levantamento passou ser usado nas pesquisas, principalmente nas quantitativas. São elas:
· Survey: As características são observadas por meio de questionário (ou entrevista), sem interferência do pesquisador.
· Pesquisa experimental: O pesquisador exerce controle sobre o método que será aplicado.
Parâmetros;
Um parâmetro é a descrição numérica de uma característica da população inteira. Se refere quando necessitamos usar a amostra obtida para produzir características específicas do estudo. 
De acordo com Bussab e morettin: 
Estatística: é uma característica da amostra, pode entendida como uma medida em função das observações da amostra. Exemplo: Cálculo da média amostral.
Parâmetro: é uma medida usada para descrever uma característica da população, pode ser entendida como uma medida em função das observações da população. Exemplo: Cálculo da média populacional (e variância populacional), que resulta em um valor chamado de parâmetro.
Estimativa: é uma medida usada para descrever uma característica da amostra. Exemplo: cálculo da média amostral (), que resulta em um valor chamado de estimativa.
Calculamos as estatísticas usando os valores que conseguimos por meio das amostras, depois usamos essas medidas (estatísticas, no plural) para estimar o parâmetro da população. Partimos de um valor conhecido que é a estatística, para um valor que é o desconhecido que é o parâmetro.
Variáveis;
O conceito de variáveis tem muitos significados diferentes, dependendo da área. Nas áreas médica e biológica é costume realizar estudos experimentais, então, coleta-se dados de pessoas, animais, fenômenos físicos e químicos. Assim, dos dados denominam-se as variáveis do estudo.
As variáveis podem ser entendidas como características observadas ou medidas de cada elemento da população. Uma variável observada (ou medida) num elemento da população deve gerar um e apenas um resultado. Algumas variáveis parecem ser intuitivas e facilmente respeitadas, como, por exemplo, idade, gênero, estatura, número de filhos e estado civil. No entanto, outras variáveis parecem ser não tão intuitivas como, por exemplo, formas de lazer, esportes praticados, motivos da escolha para cursar determinada faculdade, preferências musicais etc. Nestes casos, há diferentes formas de transformá-la em uma ou mais variáveis.
As variáveis podem ser classificadas quanto ao tipo de mensuração, sendo qualitativa ou quantitativa. 
· Qualitativa: Quando os resultados possíveis de uma variável são atributos ou qualidades
Dentre as variáveisqualitativas, podemos ainda fazer uma distinção entre dois tipos: nominal ou ordinal. Na variável qualitativa nominal não existe nenhuma ordenação nos possíveis resultados que a variável possa assumir, enquanto na variável ordinal, existe uma ordem, segundo a natureza da variável.
O nível nominal de mensuração envolve o ato de nomear ou rotular a resposta dos indivíduos, ao passo que, quando o pesquisador vai além desse nível de mensuração, ele procura ordenar seus sujeitos em função do grau que apresentam de uma determinada característica no nível ordinal de mensuração. Alguns exemplos de variáveis nominais são:
· Gênero: masculino, feminino;
· Estado civil: solteiro, casado, divorciado, viúvo;
· Prática de exercícios físicos: sim, não;
· Esporte praticado: futebol, basquetebol, voleibol, natação etc.
Em uma pesquisa, quando se trabalha de questionário para coletar os dados, é comum associar variáveis a uma numeração, a fim de facilitar a contagem, como, por exemplo: (1) futebol, (2) basquetebol, (3) voleibol e assim por diante. 
Em relação às variáveis ordinais, temos:
· Classe econômica: baixa, média, alta;
· Nível de satisfação: muito satisfeito, pouco satisfeito, insatisfeito;
· Grau de concordância: discordo plenamente, discordo, indiferente, concordo, concordo plenamente;
· Nível de escolaridade: ensino fundamental, ensino médio, ensino superior;
No caso da variável ordinal, aparece a informação sobre a ordenação das categorias, mas não indica a magnitude das diferenças entre elas. A percepção é da ordem das categorias, bem como a indicação da distância exata entre elas. Os resultados possíveis dessas variáveis são números de uma determinada escala.
· Quantitativa: quando os resultados possíveis de uma variável são números resultantes de uma escala de contagem ou mensuração. As variáveis quantitativas podem ser classificadas em variáveis discreta ou contínua. 
As variáveis quantitativas discretas assumem os resultados possíveis por meio de contagem (identificada por número inteiro). Nas variáveis quantitativas contínuas, os resultados possíveis assumem um conjunto finito ou enumerável de números e os valores formam um intervalo de números reais (identificada geralmente por números decimais).
Desse modo, seguem os exemplos de variáveis quantitativas discretas:
· Número de filhos: 0, 1, 2, 3, 4...
· Tempo (em dia) de internação: 1, 2, 3, 4, 5.
· Número de abortos: 0, 1, 2, 3...
· Número de cigarros fumados por dia: 0, 1, 2, 3, 4, 5...
 Agora veremos exemplos de variáveis quantitativas contínuas:
· Peso do indivíduo: 0 < peso ≥ 200 kg
· Estatura: 0 < estatura ≥ 2,50m
· Índice de massa corpórea (IMC): 0 < IMC ≥ 100
· Frequência cardíaca: 0 < frequência cardíaca ≥ 130 bpm
As variáveis quantitativas são mais informativas que as qualitativas. Dizer que um funcionário trabalha há 30 anos em uma empresa é mais informativo que dizer que ele trabalha há muito tempo, ou dizer que uma pessoa tem 17 anos ou tem 65 anos é mais informativo que dizer que ela é adolescente ou que é da 3ª idade. Além disso, com as variáveis quantitativas, é possível calcular medidas estatísticas tais como: média, mediana, moda, variância, desvio padrão, entre outros cálculos.
Planejamento de pesquisas
Nas pesquisas científicas, geralmente é preciso coletar dados que possam fornecer informações capazes de responder os questionamentos da pesquisa. Para que os resultados da pesquisa tenham confiabilidade, tanto fase coleta dos dados, quanto na análise, devem ser feitas de forma criteriosa e objetiva.
Esses cuidados tornam-se fundamentais na etapa do planejamento da pesquisa. O planejamento consiste em seguir as fases do trabalho de pesquisa denominada trabalho estatístico. As fases do trabalho estatístico consistem na forma de organização dos caminhos em que o pesquisador percorrerá para atingir os objetivos da pesquisa.
Recomenda-se que a metodologia do trabalho estatístico seja aplicada em estudos com a necessidade de coleta de dados. Como exemplo: estudos experimentais que tenham objetivos de descrever, comparar e analisar dados. Em contrapartida, os estudos teóricos não são aplicados as fases do trabalho estatístico.
Planos de pesquisas, analises e tratamentos de dados;
Tem como objetivo explicar as características populacionais, o entendimento das informações significa estabelecer formas sistemáticas e apropriadas de coletar, apresentar e analisar os dados. Essas formas sistemáticas dependem de estratégias de planejamento do estudo ou experimento tais como; condições de seleção de indivíduos, critérios de inclusão, consentimento de participação, tamanho de amostras adequadas para garantir a confiabilidade e precisão do estudo, definição dos tratamentos dos dados e análises estatísticas.
Há vários tipos de tratamento de dados utilizados nas pesquisas entre eles são; o estudo de caso e controle, estudo de coorte, estudo crossover e estudo com medidas repetidas. 
· Estudo de caso controle: tem o proposito de comparar um grupo de pessoas, com uma determinada doença, com outro grupo de pessoas com a característica semelhante, onde depende da eficácia do estudo.
· Estudo de coorte: os indivíduos são selecionados conforme a sua exposição, ou contato com a doença, a partir dai as informações são coletadas e observadas ao longo de um tempo afim de verificar a exposição da doença.
· Estudo de crossover: é realizado uma amostragem aleatória dos indivíduos e distribuídas em grupos de tratamento, onde o próprio paciente é responsável pelo o seu próprio controle.
· Estudo de medidas repetidas: as informações de um indivíduo são consideradas as unidades experimental ou observacional, repetidas no estudo. Esse estudo permite aumentar o número da amostra.
As analises estatísticas utilizadas nas pesquisas no âmbito de testes e estatísticas em geral, tem o objetivo de fazer comparações nos dados oriundos nos planejamentos dos tratamentos, a aplicação de testes estatísticos envolve métodos de comparação de dados das amostras.
Os conjuntos de testes paramétricos e não paramétricos, são de grandes destaques; 
· Os testes paramétricos: utilizam os parâmetros, media ou variância, e consideram os dados das amostras coletadas no tratamento, se as amostras são dependentes ou independentes a variável de estudo é numérica, o tamanho da amostra precisa ser suficientemente grande e os dados devem possuir distribuição normal para a aplicação desses testes.
· Os testes não paramétricos: não dependem dos parâmetros ou são livres de distribuição e consideram as amostras coletadas nos tratamentos, se as amostras são independentes ou dependentes as variáveis de estudos podem ser numéricas, nominal ou ordinal, o tamanho amostral é pequeno ou não é confirmado a posição de normalidade para aplicação desses testes.
Definição do problema;
A definição do problema de pesquisa refere-se ao questionamento que a pesquisa pretende, para buscar respostas. Para formular o problema, precisa-se pensar no tema de pesquisa e procurar um questionamento proposto na investigação. O início do planejamento de uma pesquisa é a definição do tema de estudo. Antes de definir a temática de estudo, é importante pesquisar as informações disponíveis sobre o tema da pesquisa. O interesse é consultar, na literatura da área do tema, para verificar o que vem sendo publicado na área científica.
 Formulação dos objetivos
A formulação dos objetivos é uma maneira de delimitar os caminhos da pesquisa. Sugere-se, então, fazer a reunião de materiais do que já foi publicado sobre o assunto, obter relatórios sobre atividades semelhantes, uma vez que o pesquisador provavelmente não será o pioneiro sobre o tema da pesquisa, logo, não deverá partir do “nada” e, sempre que possível, procurar analisar a referência de trabalhos anteriores para não cometer erros de pesquisa.
Os objetivos de uma pesquisa devem ser elaborados de forma bastante clara e principalmente delimitar objetivos. alguns destes objetivos podem ser traduzidos como objetivos específicos, exemplo:
· Conhecer o tempode serviço do profissional.
· Conhecer o grau de instrução/formação do profissional.
· Verificar o interesse do profissional em participar de programas de treinamento, tais como cursos de extensão, aperfeiçoamento e especialização.
Após a formulação dos objetivos da pesquisa, o próximo passo é a elaboração de procedimentos metodológicos e uma das maneiras de fazê-la é se baseando nas etapas do trabalho estatístico.
Fases de um trabalho estatístico
O trabalho estatístico é uma maneira de organizar as fases de construção da pesquisa científica. O trabalho estatístico é constituído por fases que se iniciam pela coleta de dados e vai até a conclusão da pesquisa. Cada fase mostra um procedimento que envolve a transformação de dados em informação estatística relevantes na pesquisa. São elas:
1. Coleta: A escolha da fonte de obtenção dos dados está diretamente relacionada ao tipo do problema, objetivos do trabalho, escala de atuação e disponibilidade de tempo e recursos. A coleta de dados pode ser direta ou indireta, sendo na coleta direta, dados são obtidos diretamente da fonte primária, como os levantamentos de campo através de questionários e, na coleta indireta, os dados são “inferidos” a partir de elementos conseguidos na coleta direta, por meio do conhecimento de fenômenos ou comportamentos relacionados com o propósito do estudo.
2. Tratamento: É um procedimento de apuração ou sumarização dos dados que consiste na contagem das variáveis. Pode-se dizer que este trabalho é a tabulação dos dados que chegam para o pesquisador de forma desorganizada, tornando impossível a tarefa de apreender todo o seu significado pela simples leitura.
3. Apresentação: Apresentação das informações em forma de tabelas ou gráficos, facilitando a visualização do fenômeno e comparação dos dados. Quando é realizado um levantamento de dados sobre um fenômeno ou variável, obtemos como resultado uma série estatística que precisa ser disposta em tabelas ou gráficos.
4. Analise: É a penúltima fase do trabalho estatístico e a mais importante e delicada, uma vez que consiste em analisar os dados estatísticos e está ligada essencialmente ao cálculo de medidas estatísticas, com a finalidade principal de descrever o fenômeno de estudo.
5. Conclusão: É a última fase do trabalho estatístico e nela o interesse maior é tirar conclusões que auxilie o pesquisador na resolução do problema de pesquisa.
Elaboração do questionário de pesquisa;
O planejamento de pesquisa também envolve a condução de procedimentos metodológicos e construção de um questionário, que são etapas longas e devem ser executada com muita cautela. Um aspecto fundamental, nesta fase da pesquisa, é o planejamento do uso das respostas dos diversos itens do questionário para responder às indagações da pesquisa. O questionário precisa ser feito de forma a facilitar a análise dos dados. Tendo os objetivos da pesquisa definidos e a população ou amostra a ser estuda, por exemplo. Alguns aspectos da construção do questionário devem ser levantados, como:
1. Separar as características a serem levantadas: em uma pesquisa sobre saúde do paciente, por exemplo, as características a serem levantadas são: gênero, diabetes, pressão arterial, estilo de vida (alimentação, exercícios, atividade profissional, horas de sono etc.), doenças anteriores, histórico familiar, idade, entre outros.
2. Fazer uma revisão bibliográfica: é necessário para verificar a forma de mensuração das variáveis ou de algumas características. Como exemplo: grau de concordância (como medir concordância?), classe socioeconômica (como medir? Pelo IBGE? Por outra escala?).
3. Estabelecer uma maneira de mensuração das variáveis a serem levantadas: a unidade de medida deve acompanhar as respostas, no caso das variáveis qualitativas. Sugere-se a construção de uma lista completa das alternativas, inclusive, quando necessário, as categorias “outras” e “não tem opinião”.
4. Elaborar uma ou mais questões para cada característica a ser observada: algumas questões mesmo bem formuladas, às vezes, são respondidas de maneira imprecisa.
5. Verificar se a forma da questão não está induzindo algumas respostas ou se a resposta não é óbvia: existem questões que podem induzir o respondente a dar uma determinada opinião, como por exemplo, “suponho que a causa do seu desemprego seja a recessão econômica”.
6. Instruções e definições da pesquisa: o pesquisador não deve ter dúvidas dos objetivos, termos e unidades que devem ser usados na pesquisa.
7. Planejamento da tabulação das questões: as questões devem ser pensadas em como será o formato de tabulação dos dados.
8. Realizar o pré-teste ou pesquisa piloto: após o término da formulação do questionário, antes de ser utilizado na pesquisa é necessário fazer um pré-teste ou pesquisa piloto. O pré-teste corresponde a uma experimentação do questionário, com propósito de verificar se as questões foram formuladas de maneira clara e se não há nenhum problema com o entendimento das questões por parte dos respondentes.
Análise dos resultados da pesquisa;
Na fase da análise de dados, o pesquisador pode determinar as características dos participantes do estudo por meio de cálculos (quantidade, proporção, porcentagem etc.), calcular as medidas estatísticas, tais como: média, mediana, moda, variância, desvio padrão, entre outras medidas e verificar hipóteses estatísticas (aplicação de testes estatísticos).
Para finalizar a pesquisa, deve ser feito um relatório informando todos os passos percorridos, ou seja, todas as fases do trabalho, indicando objetivo, metodologia da pesquisa, as fases do trabalho estatístico, dificuldades e limitações da pesquisa, além de apontar os resultados obtidos, sejam positivos ou negativos.
Unidade 02
Amostra e procedimentos de amostragem
Medidas de precisão e rigor 
A precisão de uma medida está relacionada com o erro, que passa a ser insignificante ou reduzido. Uma medida e chamada de rigorosa quando a avaliação e realizada com extremo cuidado, procurando manter controlados os erros que podem ocorrer com a medida. As áreas da ciência que utilizam estudos experimentais dependem essencialmente de medidas de precisão e rigor para seus estudos.
Quando se realiza os cálculos estatísticos de frequência ou de medidas, o valor resultante pode ser próximo ou distante da grande maioria dos dados e sua representação numérica nem sempre e parecida como, por exemplo, cálculo de medida estatística da média aritmética de uma série de número inteiros, que pode resultar em um número de representação fracionária, decimal, finito e infinito.
Exemplo: o conjunto de números (18,25,31,41,26,38,19), que resulta na média aritmética de 28,285714....
Os números do conjunto de dados são números inteiros e o resultado do cálculo da média aritmética e um número decimal e infinito. Por questões de prática, é muito comum representar o número (28,285714) em apenas 28, resultando em um arredondamento de algarismo em unidades, ou 28,3 em décimo, ou 28,29 arredondamentos em centésimos.
Todos esses resultados de arredondamento estão corretos, mas algumas são mais precisas que os outros. Tudo depende do grau de precisão e rigor exigido no estudo. Ainda há de considerar que em estatística, os resultados de números originários de arredondamentos têm uma interpretação e sentido dependendo do contexto de aplicação. O arredondamento dos números, se baseia no princípio de que o máximo erro pode ocorrer em um dado resultado.
As principais regras de arredondamento de acordo com a resolução 866/66 do IBGE, tem-se as seguintes regras:
Considerando um número fracionário, que deve ser arredondado na posição p.
· O algarismo na posição p+1 é menor que 5 (posição p não é alterada).
1 decimal: 7,429= 7,4
2 decimais: 5,324= 5,32
· O algarismo na posição p+1 maior que 5 (posição p aumenta 1 unidade).
1 decimal: 3,18= 3,2
2 decimais: 11,2986= 11,30
· O algarismo na posição p+1 é igual a 5 e, após a posição p+1, pelo menos um algarismo é diferente de zero e posição p aumenta de uma unidade.
1 decimal:20,1501 = 20,2
2 decimais: 7,4254 = 7,43
· O algarismo na posição p+1 e este é igual a 5 e este é o último algarismo ou se, após a posição p+1, todos os algarismos forem iguais a zero, a posição p aumenta de uma unidade somente se for um número ímpar.
1 decimal: 3,35 => 3,4
2 decimais: 7,6500 => 7,6
Essas são as regras de arredondamento numérico mais comum e aplicável em qualquer contexto. No entanto, existem regras de arredondamento mais específicas e que exigem um pouco mais manipulação matemática.
Amostra
Um dos principais objetivos da maioria dos estudos, analises e pesquisas estatísticas é fazer generalizações seguras, com base nas amostras sobre a população da qual se extraiu uma amostra para o estudo ou experimento. A expressão segura se refere às amostras e quando e sob quais condições elas permitem generalizações.
Planejamento amostral;
o planejamento amostral é muito importante em uma pesquisa, principalmente se o desejo for trabalhar com amostra probabilidade ou aleatória.
A amostra aleatória é obtida por meio do procedimento de seleção de amostragem aleatória. Existem muitas maneiras de extrair uma amostra de uma população, exigindo um planejamento amostral, que deve ter um plano amostral ou delineamento amostral, definido com o objetivo de obter uma amostra de uma determinada população. O plano amostral, então deve conter uma descrição do tipo de amostragem, visto que, amostragem é um procedimento de seleção dos indivíduos da população que irão compor a amostra de estudo.
Amostragem 
 Amostragem aleatória simples
A população é o conjunto de elementos de todas as observações possíveis e é subdividida em dois grupos: população finita e população infinita.
População finita; consiste um número finito ou limitado de elementos na população.
População infinita; consiste em um numero infinito ou ilimitado de elementos na população.
Uma amostra aleatória de uma população finita se baseia; 
n: quantas amostras de tamanho n podem ser extraídas de uma população finita.
N: o tamanho da população finita.
Tem-se um exemplo aplicado no caso de amostragem aleatória:
Quantas amostras diferentes de tamanho n podem ser extraídas de uma população finita de tamanho N, se n= 2 e N= 12?
Tem-se que:
N= 12: tamanho da população.
n= 2: tamanho da amostra
Assim, substituindo em:
Portanto, 66 combinações de amostras diferentes que são possíveis de retirar de forma aleatória.
Seguindo o exemplo, os autores FREUND e SIMON (2000) afirmam que uma população finita de tamanho N é aleatória, se for escolhida de forma que cada uma das amostras possíveis tem a mesma chance ou probabilidade de ser escolhida, sendo denominada amostra aleatória. Em outras palavras, expressa na forma do exemplo;
Suponha uma população de 5 indivíduos com os elementos identificados por: a, b, c, d, e. Quantas amostras de tamanho n=3 obtém-se dessa população?
Portanto, 10 combinações de amostras possíveis de tamanho n=3, partindo de uma população de 5 elementos.
As combinações são:
(a,b,c),(a,b,d), (a,b,e), (a,c,d),(a,c,e),(a,d,e), (b,c,d), (b,c,e), (b,d,e), (c,d,e)
Amostragem com reposição 
Quando os indivíduos selecionados irão fazer parte da amostra e decorrem da seleção. Desta forma, realiza-se o sorteio e seleciona-se um número associado a um indivíduo. Em seguida, considera-se esse mesmo indivíduo novamente no sorteio, sendo selecionado de maneira denominada “sucessivas vezes”.
Amostragem sem reposição 
Quando um indivíduo é selecionado e não poderá fazer parte novamente do sorteio. Realiza-se, então, o sorteio e seleciona-se um número associado a um indivíduo. Em seguida, este indivíduo não pode ser selecionado mais de uma vez, ou seja, ele apenas irá compor à amostra uma única vez.
Neste caso, usa-se o procedimento de amostragem aleatória sem reposição, recorrendo a um aplicativo ou programa para gerar números aleatórios. Os números secionados correspondem a numeração da drogaria na listagem de 1 até 247.
Nas populações infinitas não se tem o valor exato do total da população e, em alguns casos, tem-se um valor estimado da população.
Amostragem estratificada
A amostragem estratificada é uma amostragem aleatória que usa uma estratificação. O procedimento trata de estratificar ou dividir a população em um número determinado de subpopulações, chamadas de estratos, e, em seguida, extrair uma amostra de cada estrato. Os indivíduos que compões cada estrato são selecionados por meio de um sorteio, ou amostragem aleatória, sendo chamada de amostragem aleatória estratificada.
A estratificação tem o objetivo de formar estratos, de modo que a estratificação tenha relação com a pesquisa, para que assegure a homogeneidade (uniformidade) da amostra. A alocação dos indivíduos na amostra pode ser por alocação proporcional e isto significa que os tamanhos das amostras em cada estrato são proporcionais aos tamanhos dos estratos. Freund e Simon (2000) resumem que em uma população de tamanho N em k estratos, de tamanho N1, N2... Nk, retira-se uma amostra de tamanho n1 do primeiro estrato, uma amostra de tamanho n2 do segundo e assim por diante. Então, considera-se que a alocação é proporcional. Vejamos:
Amostragem sistemática 
Existem casos em que amostragem sistemática é a mais prática de extrair uma amostra e consiste em selecionar cada k ordem em um indivíduo. Essa amostragem inicialmente introduz um elemento aleatório na unidade de partida. Em alguns casos, a amostragem sistemática representa uma maneira melhor de amostragem, em comparação à amostragem aleatória, sendo que as amostras se dispersam de forma uniforme sobre a população. Entretanto, os elementos de uma população devem ser dispostos em forma sequencial ao longo de um período.
Amostragem por conglomerados 
Esse tipo de amostragem é chamado de amostragem por conglomerado, quando a população total é subdividida em várias partes pequenas e algumas dessas subdivisões ou conglomerado são selecionadas aleatoriamente, de forma a compor a amostra global. Nesta amostragem, ocorre em cada subdivisões de conglomerados, os procedimentos de amostragem aleatória simples. No caso dos conglomerados, se as subdivisões forem geográficas, a amostragem é chamada de amostragem por área.
Alguns estudiosos alegam que as estimativas dos resultados obtidos nesse tipo de amostragem não são muito confiáveis quanto a amostragem aleatória simples, mas o custo unitário do procedimento é mais vantajoso.
Amostragem por quotas
A amostragem por quotas é um processo conveniente e mais barato, e às vezes necessário, mas não apresenta uma característica de amostragem aleatória simples. Na ausência de qualquer controle da amostra ou da exigência de aleatoriedade, tendem a selecionar exatamente os indivíduos necessários para compor as quotas da pesquisa.
As amostras obtidas por esse procedimento são amostras de julgamento e as inferências baseadas nessas amostras não são baseadas na teoria formal da estatística. Mesmo assim, muitos institutos de pesquisas atestam e usam esse método de amostragem por ser mais rápido e de custo menor.
Distribuição de dados 
Nos anos mais recentes, os dados estatísticos cresceram de forma muito rápida e apareceram as dificuldades em manter as atualizações e condensações, sendo um deles o problema de condensar as grandes massas de dados de maneira a tornar mais simples a sua utilização. O advento do computador, então, permitiu fazer atualizações constantes nos dados e aplicar técnicas de tratamentos de dados.
O método mais comum de resumir dados consiste em apresentar na forma de tabelas de gráficos.
Apresentação dos valores numéricos 
A organização e apresentação dos dados é a primeira etapa e o entendimento do problema. Considere a situação: o tempo gasto para uma medicação começar a fazer efeito foi medido em alguns pacientes. Daí surge um questionamento: “como fazer para torna os dados resultantes mais simples e aplicáveis?”.
Distribuição de frequência ou contagem 
Para ter uma boa visualização de um grande conjunto de dados, é preciso agrupar os dadosem um determinado número de classe, intervalos ou categorias.
Os dados podem ser agrupados em distribuição numérica ou quantitativa, como no caso da tabela 1. Caso os dados estejam agrupados em distribuição não-numérica, é denominada distribuição por categoria ou qualitativa. Este tipo de distribuição é ilustrado na tabela 2, que mostra as principais reclamações dos pacientes do hospital.
A distribuição de frequência apresenta os dados em um formato compacto, contribuindo para uma boa visualização global, e contêm informações adequadas em muitos casos, mas usualmente não se pode determinar sem tratar os dados originais. A construção de uma tabela ou gráfico de distribuição de frequência consiste nas seguintes etapas:
1. Escolha das classes (intervalos ou categorias);
2. Enquadramento dos dados nessas classes;
3. Contagem dos números de elementos em cada classe.
No caso de distribuições de frequências numéricas, consiste em decidir quantas classes a utilizar e de qual valor se inicia e finaliza. Existem várias regras para dividir as classes, mas geralmente, na prática, as escolhas são arbitrárias. Em muitas situações, raramente utiliza-se menos de seis ou mais quinze classes. O número exato vai depender da quantidade de observações na amostra ou população. Cada elemento (observação ou medida) deve se enquadrar em uma classe.
Precisa ser incluído o valor maior e o valor menor e nenhum valor pode estar no intervalo entre classes sucessivas, ou seja, as classes não devem se sobrepor umas das outras e não podem ter valores comuns. Além disso, sempre que possível, as classes devem ter amplitude iguais.
Classes do tipo “menos do que” ou “menos”, “mais do que” e “ou mais” são chamadas de classes abertas, usadas para reduzir o número de classes quando alguns valores são muito menores ou muito maiores do que os restantes. De modo geral, recomenda-se evitar as classes abertas, pois impossibilita o cálculo de determinados valores como média e totais. Exemplo: construa uma distribuição de frequência da quantidade de cirurgias realizadas em um hospital no período de trinta dias, sendo as frequências: 12, 8, 11, 13, 10, 10, 7, 8, 9, 9, 9, 6, 12, 8, 8, 7, 9, 10, 10, 15, 6, 10, 9, 11, 11, 10, 9, 5, 6, 17.
A construção de uma tabela ou gráfico de distribuição de frequência nesse caso seguem as etapas:
1. Escolha das classes (intervalos ou categorias). A ideia inicial é identificar o valor mínimo e o valor máximo. Assim, valor mínimo é 5 e o máximo 17. Esses valores são chamados de limites de classes.
A amplitude é calculada pela diferença entre o valor máximo e valor mínimo: 
Aamplitude= valormaximo – valor mínimo 
2. Enquadramento dos dados nessas classes. Nesta etapa, verifica-se se os números dispostos em cada uma das classes não podem sobrepor uma ou outra classe. Nesse caso, os números não estão sobrepostos nas classes e em cada classe tem mais ou menos a mesma quantidade.
3. A contagem dos números de elementos em cada classe é realizada e a apresentação é dada da seguinte forma:
As classes da distribuição de frequência também podem ser construídas considerando as escalas de medidas. As escalas de medidas baseiam-se nos tipos de variáveis que compreendem as classes das distribuições. Deste modo, quatro escalas de medidas podem ser utilizadas: escala nominal, escala ordinal, escala intervalar e escala razão. Todas essas escalas dependem da classificação do tipo de variáveis, sendo variáveis qualitativas (nominal e ordinal) e quantitativas (discreta e contínua).
· Escala nominal: Em uma escala nominal uma medida ou variável pode ser igual ou diferente das outras, sendo utilizada para categorizar os indivíduos de uma amostra ou população. Exemplo: a variável sexo dos indivíduos pode ser categorizada em: “masculino” e “feminino” ou respectivamente as categorias “1” e “2”. Nesse caso, não se pode realizada operações matemáticas com as categorias.
· Escala ordinal: É uma escala de ordenação, ou seja, uma medida ou variável é maior ou menor do que a outra. Exemplo: a classe econômica pode ser ordenada em: “baixa”, “média” e “alta”. Elas podem ser transformadas em “1-baixa”, “2-média” e “3-alta”. Essas transformações não alteram a estrutura de uma escala ordinal.
· Escala intervalar: é uma escala que assume um valor numérico dentro de um intervalo. Para esta escala, pode-se realizar as operações matemáticas e cálculo de medidas estatísticas. 
· Escala razão: Quando se tem duas medidas, em escalas de duas iguais, uma maior e a outra menor e duas diferentes, uma é quantas vezes a outra. Essa escala é específica para uma transformação e manipulações de cálculos. Exemplo: a variável y é dada em função da variável x da forma:
Unidade 03
Métodos estatísticos descritivo 
O estilo de visualizar os dados e importante para a sua melhor compreensão e as tabelas e gráficos são forma de apresentar as informações. Utilizar alguns desse recursos favorece a interpretação, deixando mais intuitiva. Mesmo havendo grande importância na apresentação dos dados, muitos estudantes desconhecem a forma correta de fazê-la. Para isto é necessário entender como as tabelas e gráficos devem ser feitos, de forma a trazer uma grande relevância aos dados e chamar a atenção de quem está observando, a correta apresentação das tabelas e gráficos, além de ajudar como apresentar os dados, pode te orientar na interpretação de outros dados.
Tabelas
Após a coleta de dados, sendo estes registros em ficha, cadernos ou meio eletrônico, estás informações podem ser apresentados em textos. Contudo, ao apresentar os resultados como tabelas ou gráficos, a leitura dos resultados se torna mais intuitiva e menos cansativa. A escolha entre qual desses recursos utilizar para apresentar os dados está relacionado as características dos resultados e ao objetivo com qual se propõe, porém, sempre que possível, deve-se optar pelo uso de tabelas, visto que será possível apresentar os resultados em gráficos deve ser levado em consideração.
Além de coletar as informações, a estatística tem como o objetivo resumir o resultado dos dados coletados das variáveis observadas. Para resumir estás informações, é possível utilizar de alguns recursos, sendo estas tabelas ou gráficos. Estes recursos fornecem informações a respeito das variáveis observadas no estudo. 
Segundo a norma ABNT 6022, diz que a tabela é uma forma não discursiva de apresentar informações das quais o dado numérico se destaca como informação central. Assim, a tabela é uma forma de destacar os números e essa seria a melhor maneira de apresentar em grupos, sendo de fácil visualização, e por isso, sendo melhor forma de apresentar os dados em grupos menores. As tabelas devem ser colocadas em textos na ordem em que aparecem e o mais próximo possível do trecho a que se referem. 
A norma técnica do IBGE orienta que todas as tabelas devem possuir um título, cabeçalho e coluna e deve ser delimitada por traços horizontais. Cada um desses elementos deve trazer informações relevantes sobre os dados apresentados. Esses elementos são;
· Título: apresenta o que contém na tabela, deve ser inserido no topo e necessita indicar dados numéricos, temporal natureza ou local. Além disso o título deve ser breve e claro.
· Corpo da tabela: é o local onde estão os dados e os termos necessários a sua compreensão, dispostos em linhas e colunas.
· Cabeçalho: complementa o título e traz as informações sobre o conteúdo das colunas. Deve estar separado por um traço do restante da tabela.
Além dos elementos obrigatórios, a tabela pode conter elementos complementares que, como sugere o nome, complementam as informações relevantes ao entendimento dos dados, podendo ser fontes ou notas. Estes dados devem ser inseridos somente se forem trazer informações relevantes as que estão contidas na tabela.
· Fonte: apresenta o autor dos dados, oi seja, quem forneceu os dados estatísticos, exemplo; Ibope, ministério da saúde e etc.
· Natas: trazem esclarecimento geral sobre a natureza dos dados com informações complementares para compreender.A tabela também pode trazer outras informações agrupadas e estás podem ser apresentadas em tabelas agrupadas, de duas maneiras. A primeira maneira de apresentar em tabelas agrupadas é relacionando os valores, já a segunda é por intervalos de classes. 
Agrupar os dados em intervalos facilita a visualização da tabela, deixando mais intuitiva. Antes de construir a tabela, devemos buscar maneiras de agrupar o intervalo das observações. Nas normas de apresentação tubular do IBGE, não há uma definição de como se deve agrupar as observações e, e com isso não e existe uma regra clara quanto a isso, porém alguns autores trazem sugestões da melhor maneira a de fazê-lo
Categorizar por classe pode ser por intervalos de valores ou podem ser classificados pela intensidade como “baixo” “médio” “alto” “moderado” “intenso”. A tabela de frequência de indivíduos positivos para a categoria por OPG, também traz as informações agrupadas por classes. 
A coluna de frequência, mostra a quantidade de indivíduos positivos de acordo com a classe e na coluna de frequência relativa, é a proporção dos casos em cada categoria de OPG. A coluna de frequência relativa cumulada apresenta a porcentagem das linhas, que são iguais ou menores aquele determinado valor. 
As tabelas exigem obrigatórios e permite a utilização dos elementos complementares, pois devem ser autoexplicativas e, para que isso seja possível, nenhuma informação deve ser omitida. Ao optar pela apresentação dos dados em tabelas, pode-se ou não seguir as normas de apresentação tubular do IBGE, porém ao utilizar estás informações é possível melhorar a clareza dos resultados.
Gráficos
É mais pratico para apresentar a distribuição dos dados em forma de gráfico, ao invés das tabelas, pois ajudam a visualizar a distribuição das variáveis e eventos observados. É claro que apresentar esta informação em tabela traz muito mais informações que o gráfico, pois seria possível ver a quantidade de casos exatos em cada dia, porém, a depender do objetivo o gráfico, pode ser mais intuitivo e ilustrativo se os dados foram apresentados desta forma. 
Para a confecção do gráfico, há consenso entre os estudiosos sobre os elementos que são obrigatórios. Sendo eles: título, escala e legenda.
· Título: Pode ser colocado acima ou abaixo do gráfico.
· Escalas: Devem crescer da esquerda para a direita e de baixo para cima.
· Legendas: Devem trazer explicação sobre os conteúdos do gráfico e devem ser colocados à direita do gráfico, de preferência. Além disto, deve-se apresentar o significado de cada cor ou símbolo que estejam presente nos seus dados.
Outro elemento possível é o nome dos eixos X e Y que, apesar de não ser considerado obrigatório por alguns autores, é extremamente importante para melhorar o entendimento do gráfico. Lembre-se que o gráfico, assim com a tabela, deve ser auto explicativo, por isso toda informação é importante.
Tipos de gráficos
Gráficos em barra; 
Costuma ser usado para a apresentação da distribuição das variáveis qualitativas. Este tipo de gráfico mostra a frequência relativa da tabela “Frequência indivíduos positivos categoria por OPG”. No eixo (x), podemos ver a categoria do resultado encontrado, demostrando o nível da infecção, e, no eixo (y), são apresentadas as frequências relativas. A frequência relativa é possível observar conforme a altura da barra.  O gráfico de barras deve ser utilizado com variáveis agrupadas e/ou quando se quer saber a quantidade de cidades afetadas por algum agravo. Desta forma, é possível apresentar todos os resultados simultâneos por meio do gráfico.
Histograma;
Apesar do histograma ser semelhante ao gráfico de barras, há algumas diferenças, como a proximidade das barras. Os gráficos juntos são feitos para enfatizar o fato de que os dados são contínuos, enquanto no gráfico de barras isso não é observado. O gráfico de barras é utilizado quando os dados são discretos, ou seja, a informação observada forma um conjunto finito de dados ou enumerável, onde o gráfico não utiliza dados adjacentes. Já o histograma é utilizado para dados contínuos, isto é, onde os dados incluem todos os valores do intervalo da alteração da variável medida.
Polígono; 
O polígono pode ser utilizado para a construção em qualquer uma das distribuições discutidas até agora. Os polígonos são construídos de maneira semelhante ao histograma, com a diferença de que, no polígono, ao invés de barras, são utilizados pontos médios onde seria o extremo superior de cada barra em um histograma. Os pontos são colocados a uma altura proporcional ao eixo y e, então, conectados por linhas. É por isto que alguns o chamam de gráficos de linhas. O polígono é útil pra visualizar de maneira simétrica a distribuição dos dados coletados. Sua vantagem é que os dados são apresentados de forma simétrica e simultânea.
É possível, também, associar mais de um gráfico. Combinados, eles ajudam a compreender mais de uma variável que pode ou não estar relacionada. Nesta combinação, é possível apresentar duas informações em apenas um gráfico, assim facilita a compreensão e permite comparar os dois gráficos.
Na escolha do gráfico, deve-se levar sempre conta qual apresentará melhor os dados disponíveis, de forma mais intuitiva e facilitada. Sempre faça testes para escolher qual o melhor gráfico ou a melhor combinação deles irá transmitir a informação com a maior exatidão possível.
Medidas de tendência central
As medidas de tendência central são medidas que, mediante apenas um só número, trazem as características dos dados. Portanto, em um único número são expressos valores que representa o conjunto de dados. As medidas de tendência central mais conhecidas são a média, ou média aritmética de um conjunto de dados. Nesta seção, iremos examinar três classes distintas dessas medidas, que são: média, mediana e moda.
Media; 
A média aritmética, ou simplesmente média, é a mais conhecida das medidas centrais. A média pode ser interpretada como o valor que todos os outros dados teriam se fossem iguais entre eles. A média ainda pode ser interpretada como o ponto de equilíbrio entre valores discrepantes de um conjunto de dados. A partir de dados brutos sobre valores numéricos, o cálculo da média é bastante direto. Somamos os valores da variável sobre todas as unidades e depois dividimos pelo número de unidades.
A média, embora seja uma informação preliminar sobre um conjunto de dados, apresenta uma limitação, visto que ela pode ser influenciada pelos valores extremos que acabam por modificar seu resultado. A média dever ser utilizada com cautela, uma vez que é uma medida extremamente sensível aos valores atípicos.
Mediana; 
A mediana é outra medida de tendência central, simbolizada. É o valor que ocupa a posição central e divide o conjunto dos dados ordenados ao meio. A diferença principal entre a média e mediana é que, durante o cálculo da média, todos os valores são considerados para o cálculo, mas isso não ocorre na mediana. Valores extremos nas amostras (valores muito altos ou muito baixo) de uma mesma variável geral distorções grandes na média e essa variação não ocorre na mediana, que é mais robusta e não está sujeita a essas oscilações dos valores. A mediana corresponde ao número central da amostra. Ela divide a amostra em duas partes, sendo um grupo com números menores ou iguais à mediana e outra com maiores ou iguais à mediana. A mediana é dada pelo número na posição central dos valores. Quando os valores dos dados totalizam número ímpares, a posição da mediana é dada por um único valor na posição central, sendo este o valor da mediana.
Primeiro, deve-se ordenar os números, colocando-os em ordem crescente. Nesta amostra, o número de observações é ímpar e a mediana é o número central 19 porque é o valor que está no centro do conjunto, após a ordenação. Porém, quando número de observações é par, dois valores ocuparam a posição central, com isso a mediana é a média desses dois valores.
Moda; 
A moda de um conjunto de dados é o valor que ocorre com mais frequência. A moda difere damédia e mediana, pois pode ocorrer em conjunto de dados onde não ocorra a moda ou em conjunto de dados que ela apareça mais de uma vez, sendo bimodal, no caso da ocorrência de duas, e assim sucessivamente. Quando a moda aparecer apenas uma, como no exemplo anterior, dizemos que o conjunto é unimodal. É importante comentar que a moda precisa de grandes números de observações para que seu valor possa ter uma credibilidade. Se todos os valores no conjunto ocorrem com a mesma frequência não ocorre moda.
Medidas de dispersão
A medida de tendência central não descreve adequadamente os dados observados, pois apenas descrevem os valores que ocupam ou estão próximos do centro da distribuição da amostra. Assim, não consegue caracterizar a variabilidade dos dados em torno da média. Para isto, existem as medidas de dispersão ou variação, que permitem quantificar as oscilações dos valores em relação àqueles que ocupam o centro da distribuição dos dados. 
Média, mediana e moda são medidas descritivas, contudo, não são capazes de apresentar as informações corretas que descrevam os dados. Assim, sempre que você apresentar as medidas de tendência central para descrever seus dados, deve-se também fornecer a medida de dispersão. Assim como as medidas de tendência central as medidas de dispersão, existem muitas que podem ser utilizadas.
Para ajudar a compreender, imagine uma casa com 5 moradores com idade de 20 anos cada. Assim, a média, mediana e moda seria 20 anos. Em outra residência, também com 5 moradores, mas, entre eles, 3 filhos, sendo dois com 2 anos de idade e um com 20 anos e um casal, onde um com 39 anos e com 37 anos de idade, a média de idade seria 20 anos e seria amodal.
Amplitude, mínimo e máximo 
 
Os valores mínimo e máximo são importantes para saber os extremos do conjunto de dados que se tem. O mínimo é o número de menor valor e o máximo é o número de maior valor de um conjunto de dados. A amplitude, por sua vez, é apenas a diferença entre o maior e menor valor em um conjunto de dados. Pode-se utilizar duas formas de amplitude sendo elas frequentemente utilizadas.
Exemplo: (12, 14, 18, 18, 19, 20, 27, 29, 58, 13)
Aqui, o valor mínimo é 12, o valor máximo é 58 e a amplitude 46 (52-12).
A amplitude é uma medida instável, pois utiliza apenas dois valores e qualquer mudança nesses valores pode alterar de maneira drástica a amplitude. Alguns estudo não fornecem a amplitude e apresentam apenas os valores mínimos e máximos para descrever a amostra. Não há erro em trazer apenas o mínimo e máximo. Dependendo da amostra, isso pode ser mais útil que a amplitude.
Exemplo; 
Quartil
A mediana divide os dados da amostra em duas partes, com as mesmas observações, ou em duas metades, sendo assim, não é possível descrever a amplitude da distribuição de dados. Os quartis ajudam a compreender a distribuição dos dados e os dividem em quatro partes iguais, sendo três observados; o primeiro quartil (Q1), o segundo quartil (Q2) (que é a mediana) e o terceiro quartil (Q3). O primeiro quartil ou percentil é o valor que deixa 25% dos outros valores abaixo do dele, e o segundo quartil deixa metade dos valores abaixo e metade dos valores acima do seu. O segundo quartil corresponde à mediana e o terceiro quartil deixa 75% dos valores abaixo dele. Assim, com os quartis é possível conhecer melhor a distribuição dos dados pois é possível conhecer os valões que antecedem a mediana e os valores que vem após a mediana.
Primeiramente, devemos organizar os dados de maneira crescente (12, 13, 14, 15, 18, 19, 20, 27, 29, 58) e devemos encontrar a mediana, sendo, neste caso, 18,5. Assim, o primeiro quartil é a mediana dos números que ficaram à esquerda do segundo quartil, sendo os números 12, 13, 14, 18, onde o quartil 1 é 13,5. O terceiro quartil é a mediana dos números que ficaram à direita do quartil 2, sendo os números 20, 27, 29, 58, onde o quartil é 28. Onde Q1: 13,5, Q2: 18,5, Q3:28
O box plot é um gráfico utilizado para resumir as medidas de tendência central como a dispersão. É uma maneira gráfica de representar os dados contidos na amostra. O gráfico box plot traz todas as informações como representação gráfica.
O box plot pode ser interpretado da seguinte maneira: a linha inferior é o mínimo valor, a linha superior é o valor máximo, base da caixa representa Q1, a parte superior representa Q3 e a linha no meio da caixa representa Q2 ou a mediana. O box plot é bastante útil, pois ele evidencia valores extremos para considerar o valor máximo. 
Desvio padrão 
A variância (S²), é uma medida de variabilidade menos intuitiva. Ela é uma serie de n valores e mede o desvio médio dos valores individuais em relação à média. É o quadrado da diferença entre os valores e média sobre o número observado:
 
 
 
O desvio-padrão é a medida de variação mais útil e mais utilizada na quase totalidade na bioestatística. Serão raros os casos em que não é possível ver desvio de padrão, quando a média é apresentada. O valor do desvio-padrão reflete a variabilidade das observações em relação à média e, com isso, a dimensão do desvio-padrão está diretamente relacionada com a dispersão dos valores em relação à média. Quanto maior for o desvio-padrão, maior será a variabilidade dos dados. Quanto menor a desvio-padrão, menor é a variação dos dados em relação à média. O desvio-padrão é apresentado na mesma unidade em que a variável é apresentada. Essa característica facilita a entender o desvio-padrão.
Como o desvio-padrão é a raiz quadrada da variância, agora podemos calcular o desvio-padrão =  desvio padrão é 13,6 (s).
 O desvio-padrão, além de constituir-se no resumo de informações que relaciona a dispersão dos valores, ele é uma estimativa de dispersão na população ou amostra estudada. A média e a mediana apresentam somente o valor central e o desvio-padrão apresentam a dispersão da amostra.
Coeficiente de variação 
O desvio-padrão é uma medida absoluta de dispersão e a magnitude dos valores pode causar influência na média, podendo ocasionar desvios em relação à média. Para que seja possível comparar a variabilidade das distribuições, é necessário utilizar uma medida relativa. Essa medida relativa é independente da grandeza dos valores e, assim, o coeficiente de variação é dado pela razão do desvio-padrão e a média, multiplicado por 100. O Coeficiente de variação é dado pela seguinte formula:
O coeficiente de variação é uma avaliação da instabilidade relativa. Pode-se arbitrar, de forma subjetiva, que o coeficiente de variação é baixo quando menor do que 10%, médio, quando o coeficiente de variação atinge 10-30% e alto quando é maior que 30%. O coeficiente de variação mede a instabilidade dos dados. O coeficiente de variação é bastante utilizado quando que se quer observar a mesma variável em diferentes momentos. Como exemplo, podemos pensar no conjunto utilizando dois grupos:
grupo 1 (1;2;6;6) =3,75 S = 2,63 CV (%) = 70%
grupo 2 (2;5;3;5). =3,75 S = 1,50 CV (%) = 40%
unidade 04
Estatística inferencial.
Probabilidade
Alguns elementos relacionados à bioestatística fazem parte do nosso cotidiano. A probabilidade, por definição, é um ramo da matemática no qual é possível calcular a chance que ocorra determinado evento, com o uso da probabilidade. Podemos, então, representar a probabilidade pela seguinte formula:
A probabilidade, na bioestatística e, principalmente, na área da saúde, estima a frequência relativa sobre os eventos que foram obtidos de uma série de dados. Ao estimar a probabilidade de ocorrer determinado evento, a probabilidade é dada como frequência relativa, como podemos observar na tabela sobre “Frequência de pacientes infectados com protozoários intestinais”, onde podemos observar a frequência relativa dos infectados por algum protozoário intestinal e a frequência acumulada.
As probabilidades podem ser escritas como frações, números decimais (entre zero e 1) ou percentagens. Os números decimais podem ser arredondados, quando necessário, para duas ou três casas decimais.
Observe a tabela onde apresenta a “Frequênciade pacientes infectados por Schistosoma mansoni e protozoários intestinais” em que, nessa localidade, a probabilidade de estar infectados por Schistosoma mansoni é de 0,465 ou 46,4%. Agora, vamos calcular a probabilidade de uma pessoa estar alguma infecção por protozoários intestinais, que é de ou 44,5%.
Eventos independentes;
Para termos um evento independente, precisamos saber se um evento é capaz de influenciar outro. Para sabermos se um evento é independente ou não, podemos utilizar a seguinte equação: 
 logo 
Assim, para calcularmos se os eventos são intendentes, primeiro calcule a probabilidade do evento B, P(B). Então, calcule a probabilidade de B, dado A, P(B|A). Se os valores forem iguais, os eventos são independentes. Se P(B) ≠ P(B|A), então A e B são eventos dependentes.
Regra da multiplicação; 
Nós podemos utilizar uma regra para identificar que dois eventos podem ocorrer em sequência, que chamamos de regra da multiplicação, dada pela equação: Podemos também podemos calcular as probabilidades que envolvem ambas as doenças. 
Qual a probabilidade (chance) de escolher uma pessoa aleatória com parasitose intestinal (A) e com S. mansoni (B)? Com isto, temos a seguinte formula  
Assim, podemos determinar, também, a probabilidade de uma pessoa não estar com nenhuma doença com:
Ou 
Neste caso, a probabilidade de ocorrer (A) ou (B) pode ser dado na probabilidade de ocorrer P(A) + P(B) – P(AB). Nesta condição, é retirado a probabilidade de P(AB), visto que ele é contado duas vezes. Assim, temos a seguinte equação:  porém, quando os eventos são mutuamente exclusivos a P(A) ou P(B) é dado pela adição de P(A) + P(B), que é dado pela seguinte equação:
Com isto, temos a probabilidade de 
Probabilidade condicional;
A probabilidade condicional é baseada em “qual a chance um evento ocorre sendo que outro evento já tenha ocorrido”. Vamos imaginar que a probabilidade de chover na cidade de São Paulo é diferente da probabilidade de no deserto do Saara. A probabilidade de chover depende da primeira condição.
A probabilidade condicional é definida por Vieira (2011, p. 170) como: “a probabilidade de ocorrer determinado evento sob uma dada condição.” Farber e Larson (2015, p. 141) definem a probabilidade condicional como: “a probabilidade de um evento ocorrer, dado que outro evento já tenha ocorrido.” Em outras palavras, qual a probabilidade de um evento ocorrer sendo uma determinada condição. A probabilidade condicional pode ser expressa pela seguinte formula ,  onde podemos ler da seguinte maneira: qual a probabilidade de B, dado A.
Outro exemplo que podemos utilizar sobre a probabilidade condicional é pensando se a probabilidade de estar com alguma parasitose intestinal é igual a probabilidade de estar infectado por S. mansoni. Para descobrir isto, pensaremos o seguinte: Em ambos os exemplos temos um universo amostra de 256 pacientes e, em ambos os casos, a probabilidade de estar infectado por S. mansoni é de 0,445 e a probabilidade de estar infectado por protozoários é de 0,465. Agora, podemos ver a relação entre as duas estimativas:
Assim, podemos afirmar que a probabilidade de ter parasitose intestinal é um pouco maior que a probabilidade de estar infectado por S. mansoni, ou podemos dizer que a probabilidade de estar infetado por parasitose intestinal 1,04 vezes maior que a probabilidade de estar infectado por S. mansoni.
Tipos de distribuições 
Para conferir as informações de distribuição de probabilidade, é importante conhece-la, para saber como os dados são distribuídos. Isto ajudará você a saber como explorar esta informação. Os dados podem ter algumas distribuições, sendo distribuição normal ou paramétrica ou distribuição não normal ou não paramétrica. Além disso, a distribuição normal pode ser simétrica e assimétrica.
Distribuição normal;
Distribuição normal uniforme (ou retangular): quando tem apenas um valor em toda a distribuição. Um exemplo onde podemos encontrar uma distribuição uniforme é quando vamos a uma sala de aula. Nela, todos os alunos têm a mesma idade ou elas são praticamente iguais. O gráfico de distribuição uniforme nos permite identificar isso. No gráfico abaixo, observamos como a linha é uniforme.
A distribuição uniforme é considerada simétrica quando a média e mediana são valores iguais. Neste caso, ambos são 9.
Distribuição normal assimétrica: quando, no gráfico de frequência, ocorre uma cauda, o que permite que ela se alongue para um dos lados. A distribuição assimétrica pode ser positiva ou negativa:
Positiva: quando sua cauda se alonga para a direita 
Negativa: quando sua cauda se alonga para a esquerda.
O que determina um gráfico ter uma distribuição normal assimétrica é que a média e mediana são valores diferentes entre si.
· Distribuição normal simétrica: Quando uma linha vertical pode ser desenhada pelo meio do gráfico da distribuição e as metades resultantes são imagens espelhadas. Em termos práticos, um espelhamento aproximado pode caracterizar uma distribuição simétrica.
Distribuição normal simétrica, gaussiana ou paramétrica; 
A curva normal também é conhecida como curva de Gauss, e é amplamente utilizada em todas as áreas do conhecimento porque o conceito de normalidade ocorre naturalmente em praticamente todas as medições naturais. Para os dados, quando seguem uma distribuição normal, são necessárias algumas características como: que seja uma variável continua e esta variável não deve ser dicotômica; que a proporção dos dados para toda a população não estejam disponíveis, fazendo a necessidade de ter um modelo estatístico cujo será uma amostra que represente toda esta população (VIEIRA, 2011). 
 Na bioestatística, as variáveis quantitativas contínuas, que seguem um padrão em suas distribuições de frequências, podem ser vistas como distribuições de probabilidade e suas aplicações têm enorme utilidade cientifica e prática. A curva normal é caracterizada por dois parâmetros, sendo ela a média e o desvio-padrão. Dessa forma é possível imaginar a existência de infinitas curvas normais, tendo em conta variações, tanto da média como na variância comumente, encontradas em variáveis continuas (SAMPAIO, 2015).
Curva normal reduzida;
É também conhecida como distribuição normal reduzida, distribuição normal padronizada, escore padrão ou, ainda, estatística Z. O uso da curva normal reduzida surgiu em decorrência da possibilidade de existência de uma série infinita de curvas normais, representando a distribuição normal de probabilidade, onde cada uma é definida pelos valores que a média e o desvio-padrão podem assumir para cada caso em particular. Essa particularidade faz surgir a distribuição de referência, aqui denominada distribuição normal padronizada, cuja característica fundamental é assumir que a média é igual a zero e o desvio-padrão é igual a 1. Como resultado dessa transformação aplicada a cada valor de x, temos o surgimento de uma nova variável, que é denominada Z. Essa variável mede quanto um determinado valor de x afasta da média, em unidades de desvio-padrão. 
O cálculo da estatística Z, ou escore padrão, ou curva normal reduzida, é dado pela expressão: 
Z: afastamento dos valores de x em relação à média em número de desvio padrão;
X: valor de qualquer variável aleatória.
: média da distribuição.
: desvio-padrão da distribuição.
Exemplo:  Suponhamos que, em uma distribuição de glicose plasmática em jejum, de homens com idade entre 30 e 39 anos, encontrou-se uma média () de 100mg/dl e um desvio-padrão () de 15mg/dl. Qual a proporção de pessoas com glicose plasmática entre 100mg/dl e 120mg/dl?
Agora, podemos encontrar, na tabela da curva normal, para o intervalo z=0 e z=1,33, que é igual a 0,4082 ou 40,82%.
Testes estatístico 
Os testes estatísticos trazem uma análise inferencial sobre determinado evento. Assim, ele retira o viés subjetivo do analisador e, qualquer um que analisar o conjunto de dados, poderá obter a mesma resposta, desde que se tenha a mesma pergunta.
Intervalo de confiança;
Um problema comum nas análises estatísticasé estimar parâmetros que possam auxiliar na caracterização de uma variável. Os intervalos de confiança constituem uma série de métodos que permitem obter conclusões acerca de uma população, a partir de uma amostra representativa. O intervalo de confiança é um meio de expressar a precisão estatística de maneira útil, sob o ponto de vista estatístico. É comum pensar que o intervalo de confiança é a probabilidade e que o verdadeiro parâmetro que estamos buscando esteja dentro desse intervalo. Os intervalos de confiança são úteis porque definem um limite superior e inferior, que são consistentes com os dados do nosso estudo, porém, não nos informam de nenhuma probabilidade de se achar onde está o verdadeiro parâmetro que buscamos. 
Uma das utilidades dos intervalos de confiança é dar uma ideia da amplitude da dispersão ou da variabilidade das estimativas obtidas pelas amostras. Um intervalo de confiança muito grande implica na suspeição de que o resultado obtido é de baixa acurácia ou de pouca credibilidade. Já intervalos de confiança cujas amplitudes de variação são pequenas possuem maior acurácia e credibilidade. Ao estimarmos o parâmetro, podemos estar utilizando uma daquelas amostras dentre as 5% que geram estimativas intervalares, com erro amostrais acima do desejável. Um intervalo de confiança de 95% de segurança somente é válido quando todos os integrantes da amostra são independentes uns dos outros. Quando este princípio é violado, provoca o erro amostral, que compromete a utilização do intervalo de confiança para inferências dos parâmetros populacionais (SAMPAIO, 2015).
Na curva normal, é sabido que 95% dos valores se encontram entre a média ±1,96, vezes o desvio-padrão: µ±1,96σ=0,95.
· Desvio padrão de uma população conhecida:
·  Desvio padrão de uma população desconhecida:
· x̅ é a média da amostra;
· σ é o desvio padrão da população;
· n é o tamanho da amostra;
· Ζ* representa o valor apropriado da distribuição normal padrão para o seu nível de confiança desejado.
Níveis de confiança:
 90%= 1,645
 95%= 1,96
 99%= 2,575
Teste de hipótese; 
Hipóteses são ferramentas científicas que direcionam qualquer procedimento investigativo da natureza. Uma hipótese é uma presunção antecipada da relação de duas ou mais variáveis.  Na aplicação de uma hipótese há, como pressupostos básicos sobre o conhecimento teórico dos problemas levantados e suas reflexões críticas, eventuais respostas às indagações formuladas. Uma hipótese pode ser considerada também uma condição ou princípio de que ela supõe, a fim de sua causa lógica e verificar sua validade. É uma tentativa de análise geral formada sobre o fenômeno na observação.
As hipóteses não devem ser indefinidas e nem conter erros semânticos especificados. Devem possibilitar sua confirmação e ter reprodutibilidade confiável.
Do ponto de vista estatístico, as hipóteses são de duas naturezas: nula ou alternativa. Uma hipótese nula, simbolizada por H0, é aquela que deseja testar à prova. Uma hipótese está associada a variações entre proporções. Outra hipótese nula que estabelece igualdade de médias pode ser aplicável a três procedimentos cirúrgicos para tratamento de uma mesma patologia. A hipótese de nulidade (H0) seria a de que não há diferença entre os três tipos de intervenção, ou, analogamente, que os três procedimentos cirúrgicos possibilitam o mesmo tempo de recuperação. Se a hipótese é nula após a aplicação de testes estatísticos compatíveis com a estrutura dos dados, se revela inaceitável e a hipótese alternativa (H0, ou HA) é aceita. Vê-se que a hipótese alternativa surge quando a hipótese de nulidade é rejeitada.
 A literatura estatística qualifica os erros decorrentes das hipóteses em dois tipos: erro tipo I, também chamado de alfa, (α), ou, quando a hipótese nula é rejeitada, mas, no entanto, ela é verdadeira. A probabilidade de se cometer esse erro é denominado α. Obviamente, deseja-se um valor pequeno para a, comumente da ordem de 0,01 (1%) ou 0,05 (5%). α é também conhecido como nível de significância. Por exemplo, α=0,05 significa que a hipótese nula é rejeitada em apenas cinco chances dentre cem, quando deveria ser aceita. Ou seja, temos 95% de confiança de que a formulação da hipótese de nulidade está correta. Em outras palavras você pode dizer que esta pode estar errada apenas em 5% das vezes ao rejeitar a hipótese nula. O outro erro é o tipo II, também chamado de β, que ocorre quando a hipótese nula a despeito de ser falsa é aceita como verdadeira. A probabilidade de se cometer esse erro é conhecido como erro tipo II ou β (SAMPAIO, 2015). Os testes de hipóteses estão resumidos na tabela abaixo:
Para a tomada de decisão, envolvendo a aplicação dos testes de hipóteses nas pesquisas médicas e biomédicas, os seguintes passos devem ser adotados:
· Estabelecer hipótese nula (H0);
· Estabelecer a hipótese alternativa (H1);
· Escolher o nível de significância (α) - comumente adota-se α =0,01; 0,05. O valor de a é critério a ser definido pelo pesquisador;
· Selecionar a técnica estatística adequada e mais compatível com a estrutura dos dados. (testes t, Z, Anova, etc.);
· Estabelecer a região crítica (testes unilateral e bilateral);
· Calcular a estatística do teste definido em d.
Valor p (“p- value”)
O valor p é uma medida que quantifica a evidência que dispomos contra a hipótese nula. Quanto menor o valor p, maior é a evidência contra a hipótese nula. O valor p é amplamente conhecido e a literatura cientifica é farta em citá-lo. Na estatística, o valor p, ou "p-value", é conhecido como nível descritivo e está diretamente associado aos testes de hipóteses. Nas pesquisas cientificas, as hipóteses são elaboradas pelo pesquisador tendo como perspectiva a obtenção de respostas plausíveis e razoáveis para fenômeno que se quer esclarecer. Deseja-se testar a hipótese nula contra uma hipótese alternativa obtida de um conjunto de dados ou observações. A hipótese alternativa é aquela que esperamos ser verdadeira. Se a hipótese nula é falsa é, portanto, rejeitada. Não podemos provar que a hipótese alternativa é verdadeira, porém podemos demonstrar que ela é mais plausível do que a hipótese nula, fornecida pelos dados. Esta demonstração é, usualmente, expressa em termos de probabilidade ("p-value") que quantifica a força da evidência contra a hipótese nula e a favor da hipótese alternativa.
 A prática mais difundida nos artigos científicos é arbitrar valores de p iguais ou menores do que 0,05 ou 0,01, previamente fixados pelos pesquisadores e conhecidos como valores de α. Como regra geral, ao se usar um valor fixo de α, tem-se duas opções conclusivas: se p ≤α = rejeita-se a H0; se p>α= aceita-se a H0.
2

Outros materiais