Introdução à Bioestatística

•

FAEL

Milena Pelicer

01/06/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.330 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Bioestatística
Introdução
Os estudantes que irão estudar estatística pela primeira vez, geralmente, imaginam que ela está apenas associada a números, porcentagens, construção de tabelas e gráficos ou dados de uma pesquisa. Entretanto, a estatística constitui, de fato, uma metodologia que pode estar presente em diversas etapas de uma pesquisa, desde o seu planejamento até a interpretação de seus resultados.
No nosso cotidiano, todos temos um pouco de cientistas ou pesquisadores, mesmo que de maneira inconsciente. Em muitas situações diárias, emitimos palpites com relação a um todo ou acontecimentos futuros, com base em situações vivenciadas ou experiências do passado.
Como os exemplos temos: quando vamos ao supermercado ou feiras, experimentamos uma uva para decidirmos se devemos ou não comprar uma porção daquele lote disponível nas prateleiras, quando as cozinheiras verificam se o prato que está preparando tem ou não a quantidade adequada de sal, provando um pouco do tempero, quando votamos em algum candidato que promete resolver os problemas de nossa cidade, baseando-nos na simpatia ou confiança que colocamos no perfil do candidato, ou quando tomamos algum remédio para reduzir os incômodos de um resfriado, pensando na eficácia do medicamento. Em qualquer uma destas situações, pode-se observar algum conceito ou aplicação de técnicas de estatística.
1.1 Estatística e bioestatística
A crescente demanda de informação quantitativa que é requerida em todas as áreas da ciência faz com a estatística tenha um papel fundamental no auxílio de metodologia de planejamento de pesquisa e técnicas de análise de dados. Considerada como uma ciência, a estatística não é matemática e nem uma forma de aplicação da matemática e, sim, uma ciência com seus métodos de lidar com dados, que permite tirar conclusões.
A palavra ou termo “estatística” é usada em vários sentidos, pode-se referir não apenas a tabulação e manipulação simples de informações numéricas, mas também como relatórios contendo números e análises de previsões, como um conjunto de técnicas usadas para analisar os dados (FREUND, SIMON, 2000).
Vários autores procuram definir a estatística com definições desde as mais simples até as mais complexas. Martins e Donaire (1990, p. 17) definem a estatística de uma maneira simples, como “um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos”.
Entende-se aqui, como fenômenos coletivos, os que se referem à população, universo e compreende um grande número de elementos, pessoas, animais ou objetos. Entretanto, quando cientistas e pesquisadores das disciplinas científicas relacionadas às áreas da saúde (medicina, enfermagem, ou fisioterapia, por exemplo) estudam problemas específicos dessas áreas e envolvem soluções com base nos métodos e técnicas da estatística, denomina-se como área de estudo de bioestatística.
Dessa forma, a bioestatística é considerada um ramo bem amplo da estatística. Em outras palavras, de forma mais simples, segundo Vieira (1980), a bioestatística é a estatística aplicada às ciências médicas e biológicas. Assim, para fins didáticos, iremos referir sempre aos métodos e técnicas de organizar dos dados, analisar e tomar decisão em ambientes de incertezas com ferramentas da estatística, no contexto que envolve problemas e soluções nas áreas da saúde.
Ressalta-se que é muito comum referir a expressão “dados” em estatística, como sendo números, medidas ou valores, ou seja, informação estatística não tradada. Após o tratamento os dados são chamados de informação estatística.
· Estatística descritiva (descrição e exploração dos dados)
Os dados coletados são organizados/ sumarizados para evidenciar informações relevantes em termos dos objetivos da pesquisa. Quando se procede uma analise de dados busca-se alguma forma de regularidade ou padrão das observações.
· Interferência estatística
O ato de generalizar ou deduzir os resultados para todo, através da tomada de decisões baseada em dados coletados para uma amostra. Envolve-se, assim, a estimação de parâmetros (características dos elementos da população). Outra forma de interferência estatística é a categoria dos testes estatísticos de hipótese ou testes de significância.
Além dessas duas funções, a estatística conta com o auxílio da fundamentação teórica de seus métodos e técnicas da probabilidade, que é uma teoria baseada na matemática utilizada no estudo de fenômenos de incerteza, principalmente de caráter aleatório. Ela tem suas origens ligadas jogos de azar ou jogos que se referem a ações de lançar um dado, lançar uma moeda, girar uma roleta ou escolher cartas de um baralho, com característica de incertezas de ocorrência de determinados eventos, permitindo prever o número de vezes que pode ocorrer sucessos ou fracassos.
1.2 Crescimento da Estatística
O desenvolvimento da estatística ficou mais acentuada nos últimos 50 anos e os estudiosos apontam diversas razões para isso. Uma delas é a crescente demanda das áreas científicas, por, cada vez mais, utilizar os dados na tomada de decisões. As técnicas estatísticas, então, são usadas na investigação do efeito de novos remédios, na avaliação de metodologias de ensino e aprendizagem, controle de poluição e dos eventos do meio ambiente, análise do comportamento dos consumidores, estudos governamentais de longevidade da população, e dentre outras várias situações que cabem o seu suporte.
Outro fator é que a nossa capacidade de lidar com os dados aumentou com o advento da tecnologia e computadores cada vez mais poderoso, além de um aumento no interesse por informação, por parte da população. Assuntos ligados à estatística são apresentados e veiculados de várias formas na internet, mídias sociais, redes sociais e assim por diante.
Em relação a este último fator, no entanto, há uma preocupação por parte dos estudiosos sobre de que forma o público, sendo cidadão, consegue avaliar criticamente as informações estatísticas, uma vez que não se pode avaliar de maneira crítica uma informação quando não se tem o conhecimento relativo aos conceitos. Assim, em que contextos essas informações aparecem? E estão sendo informadas de maneira adequada?
Desta forma, convido você, aluno, a uma discussão dos principais conceitos de estatística que estão presentes em muitas situações do nosso cotidiano.
1.3 Aplicação da Estatística
Como vimos, a bioestatística é aplicação da estatística na área médica e biológica, sendo essencial o planejamento, coleta, avaliação e interpretação dos dados obtidos nessas áreas por meio de métodos e técnicas, que são fundamentais para áreas como epidemiologia, ecologia, psicologia, medicina etc. A maior parte dos estudos, nessas áreas, são baseados em evidências, novos padrões e exigências, que vem marcando as práticas médicas.
Em muitos estudos na área de ciências médicas, o auxílio da bioestatística é fundamental saber a frequência do aparecimento das doenças ou para desenvolver novos tipos de tratamento, por exemplo. Na indústria farmacêutica, por sua vez, estatística pode ser usada para planejamento, desde o estudo de implantação da fábrica até a necessidade de produção de produtos e equipamentos, testes com a eficácia dos produtos, controle quantidade e qualidade, estudos de produtividade etc.
2 Conceitos Básicos
Para que possamos entender melhor de estatística e, assim, fazemos uma leitura mais adequada dos dados e seus métodos, um passo importante consiste na definição e entendimento dos principais conceitos de estatística. Vejamos a seguir:
2.1 População
Definida por um conjunto de elementos de todas as observações possíveis (FREUN, SIMON, 2000), e pode ser compreendida de duas formas:
· População finita; consiste em um numero finito de elementos ou observações
· População infinita; consiste em um numero infinito de elementos ou observações
2.2 Amostra
Consiste em uma parte de observações da população (FREUN, SIMON, 2000), ou seja, é uma parte representativa da mesma, que possui as mesmas características do restante.
· Amostragem probabilísticaou aleatória: é um procedimento de seleção dos indivíduos baseado em um sorteio (aleatório). Nesta técnica, todos os indivíduos da população têm a mesma probabilidade ou chance de ser selecionado. A partir dessa técnica de seleção, decorrem outras técnicas, tais como amostragem aleatória com e sem reposição, amostragem estratificada, amostragem sistemática, amostragem por conglomerado etc. Estas são usadas dependendo da necessidade do estudo ou do plano amostral.
· Amostragem não probabilística: é um procedimento de seleção que não é aleatório, sendo que o pesquisador pode escolher os indivíduos que irão compor a amostra.
O outro levantamento é o chamado levantamento censitário. O levantamento censitário ou levantamento de inventário abrange todos os elementos da população. No Brasil, a coleta de dados de toda população é chamada de censo, sendo de responsabilidade do Instituto Brasileiro de Geografia e Estatística (IBGE), um órgão ligado ao governo federal (MARTINS, DONAIRE, 1990).
Atualmente, um novo tipo de levantamento passou ser usado nas pesquisas, principalmente nas quantitativas. São elas:
Survey
As características são observadas por meio de questionário (ou entrevista), sem interferência do pesquisador.
Pesquisa experimental
O pesquisador exerce controle sobre o método que será aplicado.
2.3 Parâmetros
Se refere quando necessitamos usar a amostra obtida para produzir características específicas do estudo. Assim, de acordo com Bussab e Morettin (2002):
Estatística: é uma característica da amostra, pode entendida como uma medida em função das observações da amostra. Exemplo: Cálculo da média amostral .
Parâmetro: é uma medida usada para descrever uma característica da população, pode se entendida como uma medida em função das observações da população. Exemplo: Cálculo da média populacional e variância populacional , que resulta em um valor chamado de parâmetro.
Estimativa: é uma medida usada para descrever uma característica da amostra. Exemplo: cálculo da média amostral , que resulta em um valor chamado de estimativa.
2.4 Variáveis
O conceito de variáveis tem muitos significados diferentes, dependendo da área. Nas áreas médica e biológica é costume realizar estudos experimentais, então, coleta-se dados de pessoas, animais, fenômenos físicos e químicos. Assim, dos dados denominam-se as variáveis do estudo (VEIRA, 1989).
As variáveis podem ser entendidas como características observadas ou medidas de cada elemento da população. Uma variável observada (ou medida) num elemento da população deve gerar um e apenas um resultado. Algumas variáveis parecem ser intuitivas e facilmente respeitadas, como, por exemplo, idade, gênero, estatura, número de filhos e estado civil. No entanto, outras variáveis parecem ser não tão intuitivas como, por exemplo, formas de lazer, esportes praticados, motivos da escolha para cursar determinada faculdade, preferências musicais etc. Nestes casos, há diferentes formas de transformá-la em uma ou mais variáveis.
As variáveis podem ser classificadas quanto ao tipo de mensuração, sendo qualitativa ou quantitativa. Quando os resultados possíveis de uma variável são atributos ou qualidades, a variável é dita qualitativa, enquanto, quando os resultados possíveis de uma variável são números resultantes de uma escala de contagem ou mensuração é denominada variável é quantitativa.
Dentre as variáveis qualitativas, podemos ainda fazer uma distinção entre dois tipos: nominal ou ordinal. Na variável qualitativa nominal não existe nenhuma ordenação nos possíveis resultados que a variável possa assumir, enquanto na variável ordinal, existe uma ordem, segundo a natureza da variável.
Assim, o nível nominal de mensuração envolve o ato de nomear ou rotular a resposta dos indivíduos, ao passo que, quando o pesquisador vai além desse nível de mensuração, ele procura ordenar seus sujeitos em função do grau que apresentam de uma determinada característica no nível ordinal de mensuração.
Alguns exemplos de variáveis nominais são:
· Gênero: masculino, feminino;
· Estado civil: solteiro, casado, divorciado, viúvo;
· Prática de exercícios físicos: sim, não;
· Esporte praticado: futebol, basquetebol, voleibol, natação etc.
Em uma pesquisa, quando se trabalha de questionário para coletar os dados, é comum associar variáveis a uma numeração, a fim de facilitar a contagem, como, por exemplo: (1) futebol, (2) basquetebol, (3) voleibol e assim por diante. Outra possibilidade, é definir a variável em “esportes que pratica”, tendo como possíveis respostas todas as combinações de modalidades de esportes, porém, a análise destas respostas seria difícil, dado o grande número de possíveis alternativas.
Em relação às variáveis ordinais, temos:
· Classe econômica: baixa, média, alta;
· Nível de satisfação: muito satisfeito, pouco satisfeito, insatisfeito;
· Grau de concordância: discordo plenamente, discordo, indiferente, concordo, concordo plenamente;
· Nível de escolaridade: ensino fundamental, ensino médio, ensino superior.
No caso da variável ordinal, aparece a informação sobre a ordenação das categorias, mas não indica a magnitude das diferenças entre elas. A percepção é da ordem das categorias, bem como a indicação da distância exata entre elas. Os resultados possíveis dessas variáveis são números de uma determinada escala. Sendo assim, as escalas quantitativas implicam unidades constantes de medida, as quais comportam intervalos iguais entre os vários pontos da escala.
Da mesma forma, as variáveis quantitativas podem ser classificadas em variáveis discreta ou contínua. As variáveis quantitativas discretas assumem os resultados possíveis por meio de contagem (identificada por número inteiro). Nas variáveis quantitativas contínuas, os resultados possíveis assumem um conjunto finito ou enumerável de números e os valores formam um intervalo de números reais (identificada geralmente por números decimais).
Desse modo, seguem os exemplos de variáveis quantitativas discretas:
· Número de filhos: 0, 1, 2, 3, 4...
· Tempo (em dias) de internação: 1, 2, 3, 4, 5...
· Número de abortos: 0, 1, 2, 3...
· Número de cigarros fumados por dia: 0, 1, 2, 3, 4, 5...
Agora veremos exemplos de variáveis quantitativas contínuas:
· Peso do indivíduo: 0 < peso ≥ 200 kg
· Estatura: 0 < estatura ≥ 2,50m
· Índice de massa corpórea (IMC): 0 < IMC ≥ 100
· Frequência cardíaca: 0 < frequência cardíaca ≥ 130 bpm
As variáveis quantitativas são mais informativas que as qualitativas. Dizer que um funcionário trabalha há 30 anos em uma empresa é mais informativo que dizer que ele trabalha há muito tempo, ou dizer que uma pessoa tem 17 anos ou tem 65 anos é mais informativo que dizer que ela é adolescente ou que é da 3ª idade. Além disso, com as variáveis quantitativas, é possível calcular medidas estatísticas tais como: média, mediana, moda, variância, desvio padrão, entre outros cálculos.
3 Planejamento de pesquisas
Nas pesquisas científicas, geralmente é preciso coletar dados que possam fornecer informações capazes de responder os questionamentos da pesquisa. Para que os resultados da pesquisa tenham confiabilidade, tanto fase coleta dos dados, quanto na análise, devem ser feitas de forma criteriosa e objetiva.
Esses cuidados tornam-se fundamentais na etapa do planejamento da pesquisa. O planejamento consiste em seguir as fases do trabalho de pesquisa denominada trabalho estatístico. As fases do trabalho estatístico consistem na forma de organização dos caminhos em que o pesquisador percorrerá para atingir os objetivos da pesquisa.
3.1 Definição do problema
A definição do problema de pesquisa refere-se ao questionamento que a pesquisa pretende, para buscar respostas. Para formular o problema, precisa-se pensar no tema de pesquisa e procurar um questionamento proposto na investigação. Como exemplo temos: “quais os fatores que estão envolvidos no déficit de aprendizagem dos alunos da turma “A” em relação a turma “B” de uma determinada escola?”.
O início do planejamento de uma pesquisa é a definição do tema de estudo. Antes de definira temática de estudo, é importante pesquisar as informações disponíveis sobre o tema da pesquisa. O interesse é consultar, na literatura da área do tema, para verificar o que vem sendo publicado na área científica.
3.2 Formulação dos objetivos
Após a investigação do problema, que merece ser tratado na pesquisa, é preciso definir os objetivos do estudo. A formulação dos objetivos é uma maneira de delimitar os caminhos da pesquisa. Sugere-se, então, fazer a reunião de materiais do que já foi publicado sobre o assunto, obter relatórios sobre atividades semelhantes, checar mapas da região geográfica, uma vez que o pesquisador provavelmente não será o pioneiro sobre o tema da pesquisa, logo, não deverá partir do “nada” e, sempre que possível, procurar analisar a referência de trabalhos anteriores para não cometer erros de pesquisa.
Os objetivos de uma pesquisa devem ser elaborados de forma bastante clara e principalmente delimitar objetivos. Como exemplo de objetivo temos: “Objetivo geral da pesquisa: conhecer o perfil de trabalho dos profissionais da área de saúde pública do estado de S. Paulo, no ano de 2017, para orientar políticas de recursos humanos.”
Para dar sequência nessa pesquisa, precisa-se, então, especificar melhor o que se pretende conhecer da população dos profissionais da área de saúde pública do estado de S. Paulo. Neste caso, alguns destes objetivos podem ser traduzidos como objetivos específicos, exemplo:
· Conhecer o tempo de serviço do profissional.
· Conhecer o grau de instrução/formação do profissional.
· Verificar o interesse do profissional em participar de programas de treinamento, tais como cursos de extensão, aperfeiçoamento e especialização.
· Avaliar o grau de satisfação com o trabalho.
Após a formulação dos objetivos da pesquisa, o próximo passo é a elaboração de procedimentos metodológicos e uma das maneiras de fazê-la é se baseando nas etapas do trabalho estatístico.
3.3 Fases de um trabalho estatístico
O trabalho estatístico é uma maneira de organizar as fases de construção da pesquisa científica. O trabalho estatístico é constituído por fases que se iniciam pela coleta de dados e vai até a conclusão da pesquisa.
A seguir, são apresentadas as fases do trabalho estatístico resumidas em um desenho esquemático.
#PraCegoVer: A imagem mostra um desenho esquemático com as fases do trabalho estatístico sendo a primeira a coleta, a segunda o tratamento, a terceira apresentação, quarta a análise e a quinta conclusão. Vemos retângulos em azul claro, ligados por setas em azul escuro, formando uma cadeia de fases.
Cada fase mostra um procedimento que envolve a transformação de dados em informação estatística relevantes na pesquisa. São elas:
· Coleta; A escolha da fonte de obtenção dos dados está diretamente relacionada ao tipo do problema, objetivos do trabalho, escala de atuação e disponibilidade de tempo e recursos. A coleta de dados pode ser direta ou indireta, sendo na coleta direta, dados são obtidos diretamente da fonte primária, como os levantamentos de campo através de questionários e, na coleta indireta, os dados são “inferidos” a partir de elementos conseguidos na coleta direta, por meio do conhecimento de fenômenos ou comportamentos relacionados com o propósito do estudo.
· Tratamento; É um procedimento de apuração ou sumarização dos dados que consiste na contagem das variáveis. Pode-se dizer que este trabalho é a tabulação dos dados que chegam para o pesquisador de forma desorganizada, tornando impossível a tarefa de apreender todo o seu significado pela simples leitura.
· Apresentação; Apresentação das informações em forma de tabelas ou gráficos, facilitando a visualização do fenômeno e comparação dos dados. Quando é realizado um levantamento de dados sobre um fenômeno ou variável, obtemos como resultado uma série estatística que precisa ser disposta em tabelas ou gráficos.
· Analise; É a penúltima fase do trabalho estatístico e a mais importante e delicada, uma vez que consiste em analisar os dados estatísticos e está ligada essencialmente ao cálculo de medidas estatísticas, com a finalidade principal de descrever o fenômeno de estudo.
· Conclusão; É a última fase do trabalho estatístico e nela o interesse maior é tirar conclusões que auxilie o pesquisador na resolução do problema de pesquisa.
3.4 Elaboração do questionário de pesquisa
O planejamento de pesquisa também envolve a condução de procedimentos metodológicos e construção de um questionário, que são etapas longas e devem ser executada com muita cautela. Um aspecto fundamental, nesta fase da pesquisa, é o planejamento do uso das respostas dos diversos itens do questionário para responder às indagações da pesquisa.
O questionário precisa ser feito de forma a facilitar a análise dos dados. Tendo os objetivos da pesquisa definidos e a população ou amostra a ser estuda, por exemplo. Alguns aspectos da construção do questionário devem ser levantados, como:
· Separar as características a serem levantadas; em uma pesquisa sobre saúde do paciente, por exemplo, as características a serem levantadas são: gênero, diabetes, pressão arterial, estilo de vida, doenças anteriores, histórico familiar, idade, entre outros.
· Fazer uma revisão bibliográfica; é necessário para verificar a forma de mensuração das variáveis ou de algumas características. Como exemplo: grau de concordância, classe socioeconômica.
· Estabelecer uma maneira de mensuração das variáveis a serem levantadas: a unidade de medida deve acompanhar as respostas, no caso das variáveis qualitativas. Sugere-se a construção de uma lista completa das alternativas, inclusive, quando necessário, as categorias “outras” e “ não tem opinião”.
· Elaborar uma ou mais questões para cada característica a ser observada: algumas questões mesmo bem formuladas, às vezes, são respondidas de maneira imprecisa. Ao perguntar a idade do indivíduo, há uma tendencia dos respondentes arredondarem a idade. Assim, sabendo dessa possibilidade, pode-se formular uma ou duas formas de perguntar, por exemplo, “qual é a sua idade?”, “data de nascimento” ou, “qual é o ano do seu nascimento”. Logo, resultara em respostas mais confiáveis.
· Verificar se a questão esta formulada de forma clara e objetiva: deve considerar os aspectos de linguagem compreensível para todos os indivíduos da população ou amostra. As questões devem ser expressas de maneira mais simples e clara possível, uma vez que uma questão mal formulada pode conduzir a resultados inconclusivos e desperdício de tempo e dinheiro da pesquisa.
· Verificar se a forma da questão não esta induzindo algumas respostas ou se a resposta não é óbvia: existem questões que podem induzir o respondente a dar uma determinada opinião, como por exemplo, “suponho que a causa do seu desemprego seja a recessão econômica”. Nesse caso, a grande maioria dos respondentes pode dizer que sim, sendo dado a resposta pronta para ele. O ideal seria “ qual a causa do seu desemprego”.
· Verificar se a forma da questão não esta induzindo algumas respostas ou se a resposta não é obvia: existem questões que podem induzir o respondente a dar uma determinada opinião, como por exemplo, “ suponho que a causa do seu desemprego seja recessão econômica”. Nesse caso, a grande maioria dos respondentes pode dizer que sim, sendo dado a resposta pronta para ele. O ideal seria “ qual a causa do seu desemprego”.
· Evitar certos tipos de questões; existem questões que não precisam ser formuladas, pois pode deixar o respondente suscetível a não responder ou desistir de participar da pesquisa ou, ainda, dar informações que não correspondem a veracidade dos fatos.
Como por exemplo, uma pesquisa sobre a saúde da mulher questionou se as mulheres casadas viviam ou não com os legítimos maridos e se tomam banho com eles. Esse questionamento leva os respondentes a dar uma resposta de aceitação geral, nesse caso todas as mulheres responderam que sim. Nenhuma demonstrou em sua resposta algo diferente e é possível que a resposta não corresponda aos fatos.
· Ordem da questão e o tamanhodo questionário: a disposição das questões dentro do questionário deve obedecer a uma ordenação, ou seja, questões mais simples e genéricas até as questões mais pessoais, seguindo uma sequencia logica e aumentando o grau de profundidade. Além disto, as questões não devem passar rapidamente de um assunto para o outro.
O pesquisador deve ter em mente que não pode formular um questionário com muitas questões porque, além de ser estressante, o tempo disponível para o respondente pode não ser satisfatório. Isto poderá acarretar respostas que não correspondem com a realidade. Caso seja necessária uma pesquisa extensa, é preferível dividir em etapas para não cansar o respondente.
· Instruções e definições da pesquisa: o pesquisador não deve ter duvidas dos objetos, termos e unidades que devem ser usados na pesquisa. Exemplo: em uma pesquisa sobre habitação, faz-se a pergunta “quantos cômodos têm sua casa?”. O termo “cômodo” inclui todas as dependências da casa, inclusive a lavanderia e outros quartos fora da residência. O pesquisador deve ter em mente que pode surgir duvidas de interpretação do conceito usado. Além de estar ciente disso, se ele precisar de uma outra pessoa na aplicação do questionário, é necessário esclarecer as definições dos termos encontrados nas questões.
· Planejamento da tubulação das questões: as questões devem ser pensadas em como será o formato de tabulação dos dados. Assim, as questões devem ser formuladas para que sejam fáceis de categorizar e tabular as questões após a coleta de dados, denominando tratamento dos dados. Na fase do tratamento de dados, o pesquisador transforma os dados brutos (formato que o respondente o questionário) em dados cadastrados e digitados, em um arquivo ou software. Recomenda-se evitar muitas questões abertas no questionário, substitua por questões fechadas para possibilitar uma apuração mais rápida.
· Realizar o pré-teste ou pesquisa piloto: após o termino da formulação do questionário, antes de ser utilizado na pesquisa é necessário fazer um pré-teste ou pesquisa piloto. O pré-teste corresponde a uma experimentação do questionário, com proposito de verificar se as questões foram formuladas de maneira clara e se não há nenhum problema com o entendimento das questões por parte dos respondentes.
O questionário deve ser aplicado com alguns indivíduos com características similares aos indivíduos da população. Somente com a aplicação teste do questionário é que é possível detectar algumas falhas que tenham passado despercebidas em sua elaboração, tais como: interpretação das questões por parte dos respondentes, ambiguidade de algumas questões, resposta que não havia sido prevista etc. Também é uma maneira de analisar de forma crítica os dados da pesquisa. Além disto, o pré-teste também pode ser usado para estimar o tempo de aplicação do questionário efetivo.
Ao trabalharmos com questionário devemos estar cientes que este deve ser completo e abranger características necessárias para atingir os objetivos da pesquisa. Assim, não deve conter questões que fujam destes objetivos, pois, quanto mais longo o questionário, menor tende a ser a qualidade e a confiabilidade das respostas. Após a realização do pré-teste, o questionário poderá ser aplicado com os indivíduos participantes da pesquisa.
3.5 Análise dos resultados da pesquisa
É importante relembrar que, para chegar na fase do trabalho estatístico de análise dos resultados, é necessário realizar a coleta de dados, fazer o tratamento dos dados com a cadastramento e digitação e, em seguida, apresentar os dados em forma de tabela e gráfico. A partir daí, realiza-se a fase de análise de dados.
Na fase da análise de dados, o pesquisador pode determinar as características dos participantes do estudo por meio de cálculos (quantidade, proporção, porcentagem etc.), calcular as medidas estatísticas, tais como: média, mediana, moda, variância, desvio padrão, entre outras medidas e verificar hipóteses estatísticas (aplicação de testes estatísticos).
Para finalizar a pesquisa, deve ser feito um relatório informando todos os passos percorridos, ou seja, todas as fases do trabalho, indicando objetivo, metodologia da pesquisa, as fases do trabalho estatístico, dificuldades e limitações da pesquisa, além de apontar os resultados obtidos, sejam positivos ou negativos.
Introdução
Neste tópico, trataremos da importância de medidas de precisão, amostra, procedimentos de amostragem e, por fim, distribuição de frequência dos dados. Porém, antes de iniciarmos, é preciso iniciar uma discussão sobre ou números ou medidas no aspecto do seu rigor e precisão, mostrando o quanto uma medida pode envolver erros, se não tiver cuidado com os dados, principalmente na fase de sua coleta.
Quando se deseja realizar uma pesquisa, é necessário o planejamento amostral, sendo decidido antes da fase do trabalho estatístico de coleta de dados, especialmente se a opção for em trabalhar com amostra aleatória, que remete à escolha de procedimentos de amostragem probabilística ou aleatória. Destacam-se os procedimentos: amostragem aleatória simples, amostragem estratificada, amostragem sistemática, amostragem por conglomerado e amostragem por quotas.
Na fase da apresentação dos dados, na forma de tabela ou gráfico, exige-se uma organização dos dados em forma de distribuição de frequência ou contagem dos dados. Estes tópicos tratam de elementos metodológicos que complementam o planejamento e organização das informações de uma pesquisa científica.
2 Medidas de precisão e rigor
A precisão de uma medida está relacionada com o erro, que passar a ser insignificante ou reduzido. Uma medida é chamada de rigorosa quando a avaliação é realizada com extremo cuidado, procurando manter controlados os erros que podem ocorrem com a medida. As áreas da ciência que utilizam estudos experimentais dependem essencialmente de medidas de precisão e rigor para seus cálculos.
Quando se realiza os cálculos estatísticos de frequências ou de medidas, o valor resultante pode ser próximo ou distante da grande maioria dos dados e sua representação numérica nem sempre é parecida como, por exemplo, o cálculo da medida estatística da média aritmética de uma série de números inteiros, que pode resultar em um número de representação fracionária, decimal, finito e infinito.
Exemplo: O conjunto de números (18 25 31 41 26 38 19), que resulta na média aritmética de 28,285714...
Os números do conjunto de dados são números inteiros e o resultado do cálculo da média aritmética é um número decimal e infinito. Por questões práticas. é muito comum representar o número “28,285714...” em apenas 28, resultando em arredondamento do algarismo em unidades, ou 28,3, em décimos, ou 28, 29, arredondamentos em centésimos.
Todos esses resultados de arredondamento estão corretos, mas alguns são mais precisos que os outros. Tudo depende do grau de precisão e rigor exigido no estudo. Ainda, há de considerar que, em estatística, os resultados de números originários de arredondamentos têm uma interpretação e sentido dependendo do contexto de aplicação. O arredondamento dos números, então, se baseia no princípio de que o máximo erro pode ocorrer em um dado resultado.
Assim, as principais regras de arredondamento de acordo com a resolução 886/66 do IBGE. De acordo com os autores FREUND, SIMON (2000) e MARTINS, DONAIRE (1990), têm-se as seguintes regras:
Considerando um número fracionário, que deve ser arredondado na posição p.
O algarismo na posição p+1 é menor que 5 (posição p não é alterada).
1 decimal: 7,429 =7,4
2 decimais: 5,324 = 5,32
O algarismo na posição p+1 é maior que 5 (posição p aumenta uma unidade).
1 decimal: 3,18 = 3,2
2 decimais: 11,2986 = 11,30
O algarismo na posição p+1 é igual a 5 e, após a posição p+1, pelo menos um algarismo é diferente de zero e posição p aumenta de uma unidade.
1 decimal: 20,1501 = 20,2
2 decimais: 7,4254 = 7,43
O algarismo na posição p+1 e este é igual a 5 e este é o último algarismo ou se, após a posição p+1, todos os algarismos forem iguais a zero, a posição p aumentade uma unidade somente se for um número ímpar.
1 decimal: 3,35 => 3,4
2 decimais: 7,6500 => 7,6
Essas são as regras de arredondamento numérico mais comum e aplicável em qualquer contexto. No entanto, existem regras de arredondamento mais específicas e que exigem um pouco mais manipulação matemática.
3 Amostra
Um dos principais objetivos da maioria dos estudos, análises e pesquisas estatísticas é fazer generalizações seguras, com base nas amostras sobre a população da qual se extraiu uma amostra para o estudo ou experimento. A expressão “segura” se refere às amostras e quando e sob quais condições elas permitem generalizações.
Vejamos um exemplo: se desejarmos estimar a média de gastos de uma pessoa, temos como uma amostra das despesas realizadas por um determinado período de tempo. Entretanto, alguns fatores como classe social, profissão etc. são variáveis que devem ser consideradas. Assim, não é uma tarefa muito fácil delinear uma amostra. A maior parte dos métodos de escolha de amostra se baseiam em amostras aleatórias, sendo originadas por meio de um sorteio. As amostras aleatórias permitem generalizações ou validações das populações. Assim, o processo de seleção de amostras é o de amostragem.
3.1 Planejamento amostral
O planejamento amostral é muito importante em uma pesquisa, principalmente se o desejo for trabalhar com amostra probabilística ou aleatória (BUSSAB, MORETTIN, 2002) e (VIEIRA, 1980).
A amostra aleatória é obtida por meio do procedimento de seleção de amostragem aleatória. Existem muitas maneiras de extrair uma amostra de uma população, exigindo um planejamento amostral, que deve ter um plano amostral ou delineamento amostral, definido com o objetivo de obter uma amostra de uma determinada população. O plano amostral, então, deve conter uma descrição do tipo de amostragem, visto que, amostragem é um procedimento de seleção dos indivíduos da população que irão compor a amostra de estudo.
4 Amostragem
A seguir, veremos os tipos de amostragem, detalhando uma a uma para melhor compreendimento.
4.1 Amostragem aleatória simples
Para entender o procedimento de seleção de amostragem aleatória, é necessário relembrar o conceito de população e amostra.
A população é o conjunto de elementos de todas as observações possíveis e é subdividida em dois grupos: população finita e população infinita.
População finita: consiste um numero finito ou limitado de elementos na população como, por exemplo, o número total de indivíduos submetidos a um teste de aptidão ou o numero total de medicamentos fabricados por uma indústria farmacêutica. Ambos os exemplos envolvem uma quantidade finita de elementos na população.
População infinita: consiste em um numero infinito ou limitados de elementos na população como, por exemplo, quando lançamos um dado um numero infinito de vezes e não há limite para o fim dos lançamentos ou quando queremos estabelecer o número exato de indivíduos com AIDS, onde entende-se que não é possível saber o numero exato de pessoas com a condição.
Assim, uma amostra aleatória de uma população finita baseia-se em:
quantas amostras de tamanho n podem ser extraídas de uma população finita
o tamanho da população finita
Vale lembra da regra de matemática de combinação de n objetos tomados em r, ou seja, recorremos a ideia do problema matemático de combinação:
Lê-se “combinação de N” por n, N fatorial sob n fatorial vezes N menos n fatorial.
Assim, tem-se um exemplo aplicado no caso de amostragem aleatória:
Quantas amostras diferentes de tamanho n podem ser extraídas de uma população finita de tamanho N, se n= 2 e N= 12?
Tem-se que:
N= 12: tamanho da população.
n= 2: tamanho da amostra
Assim, substituindo em:
Tem-se:
Portanto, 66 combinações de amostras diferentes que são possíveis de retirar de forma aleatória.
Seguindo o exemplo, os autores FREUND e SIMON (2000) afirmam que uma população finita de tamanho N é aleatória, se for escolhida de forma que cada uma das amostras possíveis tem a mesma chance ou probabilidade de de ser escolhida, sendo denominada amostra aleatória. Em outras palavras, expressa na forma do exemplo:
Suponha uma população de 5 indivíduos com os elementos identificados por: a, b, c, d, e. Quantas amostras de tamanho n=3 obtém-se dessa população?
Substituindo:
Então:
Portanto, 10 combinações de amostras possíveis de tamanho n=3, partindo de uma população de 5 elementos.
As combinações são:
(a,b,c),(a,b,d), (a,b,e), (a,c,d),(a,c,e),(a,d,e), (b,c,d), (b,c,e), (b,d,e), (c,d,e)
Cada uma dessas amostras tem a chance ou probabilidade de ser escolhida de , ou seja, de , denominando amostra aleatória.
Nos casos práticos a população finita geralmente é muito grande, e as combinações obtidas também são suficientemente grandes, como exemplo ilustrativo:
Suponha uma população de 1.000 indivíduos em que desejamos saber as possíveis combinações obtidas.
Considerando o tamanho amostral n=50, o número de combinações possíveis de amostra torna-se suficientemente grande. Sendo assim, é possível obter um cálculo, mas com auxílio de calculadora ou planilha de softwares em computadores ou tabelas de números aleatórios. Entretanto, o propósito da amostragem aleatória não será calcular todas as combinações possíveis, partindo de um tamanho populacional N tomados em tamanho amostral n e, sim, obter uma amostra aleatória a partir de um procedimento de amostragem aleatória.
O procedimento, então, consiste em enumerar os indivíduos a população (1, 2,....N), começando de 1 até o tamanho da populacional. Em seguida, realiza-se um sorteio, podendo utilizar a tabela de números aleatórios ou alguns aplicativo ou software que possibilita a geração de número aleatórios.
Neste caso, o procedimento de amostragem pode ser realizado com ou sem reposição (FREUND, SIMON, 2000), como seguem:
Amostragem com reposição: Quando os indivíduos selecionados irão fazer parte da amostra e decorrem da seleção. Desta forma, realiza-se o sorteio e seleciona-se um número associado a um indivíduo. Em seguida, considera-se esse mesmo indivíduo novamente no sorteio, sendo selecionado de maneira denominada “sucessivas vezes”.
Amostragem sem reposição: Quando um indivíduo é selecionado e não poderá fazer parte novamente do sorteio. Realiza-se, então, o sorteio e seleciona-se um número associado a um indivíduo. Em seguida, este indivíduo não pode ser selecionado mais de uma vez, ou seja, ele apenas irá compor à amostra uma única vez.
Como um exemplo, suponha a extração de uma amostra de n=12 da população de 247 drogarias, com objetivo de verificar as vendas dos principais fármacos e laboratórios de distribuição.
Neste caso, usa-se o procedimento de amostragem aleatória sem reposição, recorrendo a um aplicativo ou programa para gerar números aleatórios. Os números secionados correspondem a numeração da drogaria na listagem de 1 até 247.
Deste modo, os casos sorteados que compõem a amostra de 12 elementos são: 159, 98, 63, 68, 208, 85, 34, 71, 241,129, 48 e 05. Assim, as drogarias associadas a estes números constituem a amostra aleatória do estudo.
Esse tipo de amostragem exige a numeração de todos os N elementos da população, de maneira que seja necessário atribuir um número de 1 a N para cada elemento da população.
No caso de amostragem aleatória com reposição, usando o mesmo exemplo, a população de drogaria é numerada de 1 até 247 e realiza-se um sorteio aleatório por meio de aplicativo ou software, sendo os seguintes números selecionados: 240, 50, 48, 11, 120, 120, 27, 66, 120, 22, 13, 02. As drogarias associadas a estes números, então, constituem a amostra aleatória do estudo, mas, neste caso, nota-se que o número “120” foi selecionado três vezes.
Nas populações infinitas não se tem o valor exato do total da população e, em alguns casos, tem-se um valor estimado da população. A seguir, veremos as técnicas de amostragem aleatória, tais como: amostragem estratificada, amostragem sistemática e amostragem por conglomerado (BLAIR, TAYLOR, 2013) e (FREUND, SIMON, 2000), notando que a amostragem por quotas não tem fundamentaçãoem inferência estatística e princípio de amostragem aleatória.
4.2 Amostragem estratificada
A amostragem estratificada é uma amostragem aleatória que usa uma estratificação. O procedimento trata de estratificar ou dividir a população em um número determinado de subpopulações, chamadas de estratos, e, em seguida, extrair uma amostra de cada estrato. Os indivíduos que compões cada estrato são selecionados por meio de um sorteio, ou amostragem aleatória, sendo chamada de amostragem aleatória estratificada.
A estratificação tem o objetivo de formar estratos, de modo que a estratificação tenha relação com a pesquisa, para que assegure a homogeneidade (uniformidade) da amostra. A alocação dos indivíduos na amostra pode ser por alocação proporcional e isto significa que os tamanhos das amostras em cada estrato são proporcionais aos tamanhos dos estratos.
Freund e Simon (2000) resumem que em uma população de tamanho N em k estratos, de tamanho N1, N2,...,Nk, retira-se uma amostra de tamanho n1 do primeiro estrato, uma amostra de tamanho n2 do segundo e assim por diante. Então, considera-se que a alocação é proporcional. Vejamos:
O tamanho da amostra para alocação proporcional:
Em que:
i = 1,2,...,k.
: tamanho da amostra
Vejamos um exemplo: suponha a extração de uma amostra estratificada de tamanho n= 60 de uma população de tamanho N= 4.000 e três estratos de tamanhos: = 2.000, = 1.200 e = 800. Na alocação proporcional, o tamanho da amostra a ser extraída de cada estrato deve ser:
Assim, substituindo na fórmula de alocação proporcional:
Tem-se:
A alocação foi proporcional, de acordo com as quantidades, sendo, respectivamente 30, 18 e 12 casos.
Existem outras formas de alocação que consideram alocação proporcional, mas que levam em conta a variabilidade da amostra dentro dos estratos, chamada de alocação ótima. Ressalta-se que a estratificação não é restrita a uma única variável de classificação ou característica.
Exemplo: uma pesquisa realizada no sistema educacional de um estado tem o objetivo de conhecer a atitude dos alunos em relação a saúde bucal. A amostragem pode ser estratificada em relação as unidades escolares, sexo e série escolar.
Complementando, na amostragem estratificada, o custo da extração de amostras aleatórias dos estratos individuais é elevado quanto uma amostra aleatória simples.
4.3 Amostragem sistemática
Existem casos em que amostragem sistemática é a mais prática de extrair uma amostra e consiste em selecionar cada k ordem um indivíduo. Essa amostragem inicialmente introduz um elemento aleatório na unidade de partida. Vejamos no exemplo: partindo de uma listagem de nome, a cada 12º selecionam os casos para compor a amostra.
Em alguns casos, a amostragem sistemática representa uma maneira melhor de amostragem, em comparação à amostragem aleatória, sendo que as amostras se dispersam de forma uniforme sobre a população. Entretanto, os elementos de uma população devem ser dispostos em forma sequencial ao longo de um período.
Vale atentar para o fato de que, na amostragem sistemática, pode ser possível encontrar a presença de periodicidades ocultas que disfarçam os erros de amostragem no final dos resultados. Por exemplo: a inspeção realizada em uma linha de produção de medicamentos, a cada 40ª lote produzido por determinada máquina. Os resultados seriam enganosos em virtude de uma falha regular no equipamento. Neste caso, a amostragem sistemática é enganosa devido a falha do equipamento.
De modo geral, esse tipo de amostragem é relevante no planejamento amostral, quando se tem uma listagem de indivíduos suficientemente grande, a fim de seguir o procedimento de amostragem de cada k a k ordem.
4.4 Amostragem por conglomerados
Esse tipo de amostragem é chamado de amostragem por conglomerado, quando a população total é subdividida em várias partes pequenas e algumas dessas subdivisões ou conglomerado são selecionadas aleatoriamente, de forma a compor a amostra global.
Um exemplo para uma situação de amostragem por conglomerado: a prefeitura de uma cidade deseja pesquisar os casos existentes de uma determinada doença, mas para realizar um procedimento de amostragem aleatória simples em todas as regiões da cidade o custo é muito elevado.
Deste modo, divide-se a área total do município em diversas áreas menores e, em seguida, em bairros e, depois, em quarteirões, consistindo em uma amostra aleatória de casas. Consequentemente, aplica-se o questionário nas famílias das casas selecionadas.
Nesta amostragem, ocorre em cada subdivisões de conglomerados, os procedimentos de amostragem aleatória simples. No caso dos conglomerados, se as subdivisões forem geográficas, a amostragem é chamada de amostragem por área. Exemplo: no caso de uma empresa, que deseja realizar uma pesquisa sobre a qualidade de vida de seus funcionários, pode-se obter uma amostra realizando uma amostragem por conglomerado, entrevistando alguns funcionários de vários departamento ou setores, escolhidos forma aleatória.
Alguns estudiosos alegam que as estimativas dos resultados obtidos nesse tipo de amostragem não são muito confiáveis quanto a amostragem aleatória simples, mas o custo unitário do procedimento é mais vantajoso (MARTINS, DONAIRE, 1990) e (VIEIRA, 1980).
Na prática, dependendo da situação de estudo, aplicam-se vários métodos de amostragem como, por exemplo: quando o governo quer estudar a atitude dos professores da escola básica em relação aos programas de educação. Inicialmente, pode-se estratificar as regiões do país por estados ou subdivisões geográficas. Para extrair uma amostra de cada estrato, pode-se aplicar amostragem por conglomerado, subdividindo cada estrato em várias partes geográficas menores, como distritos escolares ou divisão de ensino, e, em seguida, usar o procedimento de amostragem aleatória ou sistemática para selecionar os professores nas escolas.
4.5 Amostragem por quotas
A amostragem por quotas é um processo conveniente e mais barato, e às vezes necessário, mas não apresenta uma característica de amostragem aleatória simples. Na ausência de qualquer controle da amostra ou da exigência de aleatoriedade, tendem a selecionar exatamente os indivíduos necessários para compor as quotas da pesquisa.
As amostras obtidas por esse procedimento são amostras de julgamento e as inferências baseadas nessas amostras não são baseadas na teoria formal da estatística. Mesmo assim, muitos institutos de pesquisas atestam e usam esse método de amostragem por ser mais rápido e de custo menor.
5 Distribuição de dados
Nos anos mais recentes, os dados estatísticos cresceram de forma muito rápida e apareceram as dificuldades em manter as atualizações e condensações, sendo um deles o problema de condensar as grandes massas de dados de maneira a tornar mais simples a sua utilização. O advento do computador, então, permitiu fazer atualizações constantes nos dados e aplicar técnicas de tratamentos de dados.
O método mais comum de resumir dados consiste em apresentar na forma de tabelas de gráficos.
5.1 Apresentação dos valores numéricos
A organização e apresentação dos dados é a primeira etapa é o entendimento do problema. Considere a situação: o tempo gasto para uma medicação começar a fazer efeito foi medido em alguns pacientes. Daí surge um questionamento: “como fazer para torna os dados resultantes mais simples e aplicáveis?”.
5.2 Distribuição de frequência ou contagem
Para ter uma boa visualização de um grande conjunto de dados, é preciso agrupar os dados em um determinado número de classe, intervalos ou categorias. Suponha a seguinte situação: uma pesquisa das bases de um hospital com propósito de acompanhar o plano de saúde de empresas que utilizam serviços do hospital.
Os dados podem ser agrupados em distribuição numérica ou quantitativa, como no caso da tabela 1. Caso os dados estejam agrupados em distribuição não-numérica, é denominada distribuição por categoria ou qualitativa.
Este tipo de distribuição é ilustrado na tabela 2, que mostra as principais reclamações dos pacientes do hospital.
A distribuiçãode frequência apresenta os dados em um formato compacto, contribuindo para uma boa visualização global, e contêm informações adequadas em muitos casos, mas usualmente não se pode determinar sem tratar os dados originais.
A construção de uma tabela ou gráfico de distribuição de frequência consiste nas seguintes etapas:
1. Etapa: escolha das classes (intervalos ou categorias)
2. Etapa: enquadramento dos dados nessas classes
3. Etapa: contagem dos números de elementos em cada classe
No caso de distribuições de frequências numéricas, consiste em decidir quantas classes a utilizar e de qual valor se inicia e finaliza. Existem várias regras para dividir as classes, mas geralmente, na prática, as escolhas são arbitrárias.
Em muitas situações, raramente utiliza-se menos de seis ou mais quinze classes. O número exato vai depender da quantidade de observações na amostra ou população. Cada elemento (observação ou medida) deve se enquadrar em uma classe.
Precisa ser incluído o valor menor e o valor menor e nenhum valor pode estar no intervalo entre classes sucessivas, ou seja, as classes não devem se sobrepor umas das outras e não podem ter valores comuns. Além disso, sempre que possível, as classes devem ter amplitude iguais.
Classes do tipo “menos do que” ou “menos”, “mais do que” e “ou mais” são chamadas de classes abertas, usadas para reduzir o número de classes quando alguns valores são muito menores ou muito maiores do que os restantes.
De modo geral, recomenda-se evitar as classes abertas, pois impossibilita o cálculo de determinados valores como média e totais. Exemplo: construa uma distribuição de frequência da quantidade de cirurgias realizadas em um hospital no período de trinta dias, sendo as frequências: 12, 8, 11, 13, 10, 10, 7, 8, 9, 9, 9, 6, 12, 8, 8, 7, 9, 10, 10, 15, 6, 10, 9, 11, 11, 10, 9, 5, 6, 17.
A construção de uma tabela ou gráfico de distribuição de frequência nesse caso seguem as etapas:
1. Etapa: escolhas das classes (intervalos ou categorias). A ideia inicial é identificar o valor mínimo e o valor máximo. Assim, valor mínimo é 5 e máximo 17. Esses valores são chamados de limites de classes.
A amplitude é calculada pela diferença entre o valor máximo e valor mínimo:
O valor resultante é: 17-5=12. Esse valor mostra o intervalo dos dados.
Recomenda-se que não ultrapasse mais de 15 classes. Existem vários métodos de divisão de classes, mas essas regras não devem ser mais relevantes do que o bom senso do pesquisador (aqui discute-se apenas as formas de apresentar a distribuição de frequência). No exemplo visto, pode-se dividir o intervalo dos dados em: 5-7; 8-10; 11-13; 14-16; maior ou igual a 17.
2. Etapa: enquadramento dos dados nessas classes. Nesta etapa, verifica-se se os números dispostos em cada uma das classes não podem sobrepor uma ou putra classe. Nesse caso, os números não estão sobrepostos nas classes e em cada classe tem mais ou menos a mesma quantidade.
3. Etapa: a contagem dos números de elementos em cada classe é realizada e a apresentação é dada da seguinte forma:
Observa-se que as classes foram subdividas em cinco classes e em cada classe foi realizada a contagem da quantidade de vezes que aparece os números no intervalo das classes. Para as distribuições categóricas, não precisa se preocupar com os detalhes numéricos e os limites de classes. Por outro lado, é necessário ter cuidado com as ambiguidades no momento de criar as categorias, a maneira de criar e classificar as categorias. Exemplo: construa uma distribuição de frequência das modalidades esportivas, sendo modalidades: basquete, corrida, natação, vôlei, futebol, natação, judô, corrida, natação, futebol, vôlei, futebol, futebol, corrida, vôlei, futebol, corrida, basquete, futebol, futebol.
A construção de uma tabela ou gráfico de distribuição de frequência nesse caso seguem as etapas:
1ª etapa
Escolha das classes (intervalos ou categorias). Como as modalidades esportivas são categorias, não tem intervalos. As modalidades são: basquete, futebol, natação, corrida, judô, vôlei.
2ª etapa
Enquadramento dos dados nessas classes. Nessa etapa é importante verificar se as categorias dispostas em cada classe não irão sobrepor uma ou outra classe. Nesse caso, cada classe é uma modalidade esportiva.
3ª etapa
Contagem da quantidade de vezes em que aparece cada modalidade esportiva, conforme a tabela abaixo:
As classes da distribuição de frequência também podem ser construídas considerando as escalas de medidas. As escalas de medidas baseiam-se nos tipos de variáveis que compreendem as classes das distribuições.
Deste modo, quatro escalas de medidas podem ser utilizadas: escala nominal, escala ordinal, escala intervalar e escala razão. Todas essas escalas dependem da classificação do tipo de variáveis, sendo variáveis qualitativas (nominal e ordinal) e quantitativas (discreta e contínua).
· Escala nominal: em uma escala nominal uma medida ou variável pode ser igual ou diferente das outras, sendo utilizada para categorizar os indivíduos de uma amostra ou população. Exemplo: a variável sexo dos indivíduos pode ser categorizada em: “masculino” e “feminino” ou respectivamente as categorias “1” e “2”. nesse caso, não se pode realizar operações matemáticas com as categorias.
· Escala ordinal: é uma escala de ordenação, ou seja, uma medida ou variável é maior ou menor do que a outra. Exemplo: a classe econômica pode ser ordenada em: “baixa”, “media” e “alta”. Elas podem ser transformadas em “1-baixa”, “2-media” e “3-alta”. Essas transformações não alteram a estrutura de uma escala ordinal.
· Escala intervalar: é uma escala que assume um valor numérico dentro de um intervalo. Para esta escala, pode-se realizar as operações matemáticas e cálculos de medida estatísticas.
· Escala razão: quando se tem duas medidas, em escalas de duas iguais, uma maior e a outra menor e duas diferentes, uma é quantas vezes a outra. Essa escala é especifica para uma transformação e manipulações de cálculos. Exemplo: a variável y é dada em função da variável x da forma:
1 Tabelas e gráficos
O estilo de visualizar os dados é importante para sua melhor compreensão e as tabelas e gráficos são formas de se apresentar as informações. Por isto, optar por utilizar alguns desse recursos favorece a interpretação, deixando-a mais intuitiva. Mesmo havendo grande importância na apresentação dos dados, muitos estudantes desconhecem a forma correta de fazê-la. Para isto, é necessário entender como as tabelas e gráficos devem ser feitos, de forma a trazer uma grande relevância aos dados e chamar a atenção de quem está observando-os. A correta apresentação das tabelas e gráficos, além de ajudar como apresentar os dados, pode te orientar na interpretação de outros dados.
1.1 Tabelas
Após a coleta de dados, sendo estes registrados em ficha, cadernos ou meio eletrônico, estas informações podem ser apresentadas em textos. Contudo, ao apresentar os resultados como tabelas ou gráficos, a leitura dos resultados se torna mais intuitiva e menos cansativa. A escolha entre qual desses recursos utilizar para apresentar os dados está relacionado às características dos resultados e ao objetivo com qual se propõe, porém, sempre que possível, deve-se optar pelo uso de tabelas, visto que será possível apresentar os valores mais precisos. Entretanto, existem algumas exceções, onde apresentar os resultados em gráficos deve ser levado em consideração.
Imagine apresentar a taxa de incidência da dengue durante 20 anos no Brasil. Provavelmente, com essa informação apresentada em tabela, seria difícil observar os anos endêmicos e epidêmicos. Assim, observar esta mesma informação em gráfico, enfatizando os picos da doença, tornaria mais fácil a leitura por qualquer pessoa. Pense sempre qual a melhor maneira de apresentar os dados que você tem, pois isso ajuda na hora da escolha.
Além de coletar as informações, a estatística tem como o objetivo resumir o resultado dos dados coletados das variáveis observadas. Para resumir estas informações, é possível utilizar de alguns recursos,sendo estes tabelas ou gráficos. Estes recursos fornecem informações a respeito das variáveis observadas no estudo. No dia a dia, nos deparamos com diversas tabelas, sendo algo corriqueiro no cotidiano de cada um. Segundo Sergio & Weber (2016, p. 30), a tabela pode ser definida como:
Segundo a norma ABNT 6022 (2018, p. 3) a tabela é uma “forma não discursiva de apresentar informações das quais o dado numérico se destaca como informação central.” Assim, a tabela é uma forma de destacar os números e essa seria a melhor maneira de apresentar em grupos, sendo de fácil visualização e, por isso, sendo melhor apresentar os dados em grupos menores. As tabelas devem ser colocadas em texto na ordem em que aparecem e o mais próximo possível do trecho a que se referem. Nesta mesma norma, a ABNT define que as tabelas devem ser padronizadas conforme norma do Instituto Brasileiro de Geografia e Estatística (IBGE).
A norma técnica do IBGE orienta que todas as tabelas devem possuir um título, cabeçalho e coluna e deve ser delimitada por traços horizontais. Cada um desses elementos deve trazer informações relevantes sobe os dados apresentados. Vejamos seus elementos:
· Titulo: apresenta o que contem na tabela, deve ser inserido no topo e necessita indicar dados numéricos, temporal natureza ou local. Além disso o titulo deve ser breve e claro.
· Corpo da tabela: é o local onde estão os dados e os termos necessários à sua compreensão, dispostos em linhas e colunas.
· Cabeçalho: complementa o titulo e traz as informações sobre o conteúdo das colunas. Deve ser estar separado por um traço do restante da tabela.
Além dos elementos obrigatórios, a tabela pode conter elementos complementares que, como sugere o nome, complementam as informações relevantes ao entendimento dos dados, podendo ser fontes ou notas. Estes dados devem ser inseridos somente se forem trazer informações relevantes às informações que estão contidas na tabela.
· Fonte apresenta o autor dos dados, ou seja, quem forneceu os dados estatísticos, exemplo: Ibope, Ministério da Saúde etc.
· Notas trazem esclarecimento geral sobre a natureza dos dados com informações complementares para ajudar a compreender. Devem ser colocadas preferencialmente no rodapé (IBGE, 1993). A tabela “Custos dos censos demográficos 2000 e 2010 (em R$)”, que temos abaixo, traz estas informações. Veja que a nota esclarece aspectos importante sobre o evento observado, informando de que maneira os custos anuais foram corrigidos.
A tabela acima traz um resumo dos dados do censo demográfico de 2010, compara a informação com o censo demográfico de 2000 e trazer o resumo de alguns resultados do censo, apresentando as mudanças dessas variáveis nos dois tempos. Essa tabela também é conhecida como tabela de categoria, onde cada linha representa uma categoria. Nesta categoria podem ser incluídas variáveis, observadas no censo demográfico, igual vimos acima, como pode ser a intensidade da dor que mulheres sentem na hora do parto natural, por exemplo, sendo a dor classificada em “nenhuma ou pouca”, “leve”, “moderada” ou “forte”.
A tabela também pode trazer outras informações agrupadas e estas podem ser apresentada em tabelas agrupadas, de duas maneiras. A primeira maneira de apresentar em tabelas agrupadas é relacionando os valores, já a segunda é por intervalos de classes. Vamos utilizar um dado hipotético sobre um lote de 100 suínos enviado ao abate, onde o peso observado entre eles varia de 74Kg à 115 Kg. Assim, a “Frequência da distribuição do peso de suínos ao abate” apresenta a quantidade de suínos agrupadas por peso. Nesse caso, seria melhor agrupar o número de valores agrupando em intervalos.
Agrupar os dados em intervalos facilita a visualização da tabela, deixando-a mais intuitiva. Antes de construir a tabela, devemos buscar maneiras de agrupar o intervalo das observações. Nas normas de apresentação tabular do IBGE, não há uma definição de como se deve agrupar as observações e, com isso, não existe uma regra clara quanto a isso, porém, alguns autores trazem sugestões da melhor maneira fazê-lo. Sugere-se, então, que não tenha menos que seis intervalos e que não seja superior a 15 intervalos. Outra sugestão é que, sempre que possível, os intervalos de classe devem ser em múltiplos de 10 unidades (TAYLOR; BLAIR, 2013). Na tabela “Classe do peso dos suínos no abate”, optamos por agrupar em seis classes, onde esses intervalos são chamados de intervalos de classes.
Categorizar por classe pode ser por intervalos de valores ou podem ser classificadas pela intensidade como “baixo”, “médio” e “alto” ou “leve”, “moderado” e “intenso”. A tabela “Frequência indivíduos positivos categoria por OPG” também traz as informações agrupas por classes. Nela, vemos o resultado de indivíduos positivos para esquistossomose pelo exame de fezes de Kato-Katz em indivíduos de arpa endêmica no Brasil. Nesse estudo, os casos são agrupados conforme OPG (ovos por gramas de fezes). A tabela “Frequência indivíduos positivos categoria por OPG” traz a distribuição da frequência de quatro maneiras.
Na coluna de frequência, mostra a quantidade de indivíduos positivos de acordo com a classe e na coluna de frequência relativa, é a proporção dos casos em cada categoria de OPG. Por estas duas colunas, é possível observar que a categoria com o maior número de valor está na categoria de baixo, com 32 de indivíduos. A coluna de frequência relativa cumulada apresenta a porcentagem das linhas, que são iguais ou menores àquele determinado valor. A frequência relativa cumulada da categoria moderada indica que 92% dos pacientes foram categorizados com infecção menor ou moderada (<399 OPG).
As tabelas exigem elementos obrigatórios e permite a utilização dos elementos complementares, pois devem ser autoexplicativas e, para que isso seja possível, nenhuma informação deve ser omitida. Ao optarpela apresentação dos dados em tabelas, pode-se ou não seguir as Normas de Apresentação Tabular do IBGE, porém ao utilizar estas informações é possível melhorar a clareza dos resultados.
1.2 Gráficos
Normalmente, é mais prático apresentar a distribuição dos dados em forma de gráfico, ao invés das tabelas, pois ajudam a visualizar a distribuição das variáveis e eventos observados. Além do exemplo já dado, na taxa de incidência do Dengue, o gráfico pode trazer a informação de maneira mais ilustrada que a tabela. Vamos utilizar o exemplo dos casos do COVID-19 nos Estados Unidos. Essa informação está contida na Gráfico “Número de casos do COVID-19 nos EUA”, logo abaixo. Nele é possível observar o crescimento exponencial dos casos do COVID-19 nos Estados Unidos (EUA) desde o primeiro caso, confirmado em 22 de janeiro de 2020 até o dia 13 de março de 2020 e esta informação é demonstrada de maneira clara e objetiva. Se a mesma informação fosse apresentada em tabela poderia ser cansativo e, talvez, não seria tão simples observar o crescimento exponencial dos casos. Como na “Número de casos do COVID-19 nos EUA” apresenta os dados diários, seria necessária uma tabela com 53 linhas, onde cada linha representaria um dia. É claro que apresentar esta informação em tabela traz muito mais informações que o gráfico, pois seria possível ver a quantidade de casos exatos em cada dia, porém, a depender do objetivo o gráfico, pode ser mais intuitivo e ilustrativo se os dados foram apresentados desta forma. Imagine mostrar a mesma informação após 6 meses ou 1 ano. Assim, seria apenas um aglomerado de números e datas. Nesse gráfico pode ser visto o crescimento exponencial dos casos, sendo possível perceber esta informação de forma clara e objetivo.
A escolha de apresentação dos resultados por meio de gráficos ou tabelas do seu objetivo. A seguir, vamos entender qual gráfico é melhor utilizar, conforme os dados disponíveis. Os tipos de gráficos podem alterar conforme o formato das variáveis ou o objetivo da apresentação dos dados.
Para a confecção do gráfico, há consenso entre os estudiosos sobre os elementos que são obrigatórios. Sendo eles: título, escala e legenda.· Titulo: pode ser colocado acima ou abaixo do gráfico.
· Escalas: devem crescer da esquerda para a direita e de baixo pra cima.
· Legendas: devem trazer explicações sobre os conteúdos do gráfico e devem ser colocados á direita do gráfico, de preferência. Além disto, deve-se apresentar o significado de cada cor ou símbolo que estejam presentes nos seus dados.
Outro elemento possível é o nome dos eixos X e Y que, apesar de não ser considerado obrigatório por alguns autores (TAYLOR; BLAIR, 2013; VIEIRA, 2011), é extremamente importante para melhorar o entendimento do gráfico. Lembre-se que o gráfico, assim com a tabela, deve ser auto explicativo, por isso toda informação é importante.
O mesmo dado pode ser apresentado em gráficos diferentes, por isso, na próxima seção, vamos conhecer alguns tipos de gráficos que irão ajudar você preparar eles e a interpretar os gráficos.
2. Tipos de Gráficos
Vimos anteriormente que gráficos podem ser uma das opções para a apresentação de dados, pois trazem a informação de maneira clara e intuitiva. A seguir, conheceremos os tipos de gráficos que podem ser utilizados.
2.1 Gráficos em barra
Costuma ser usado para a apresentação da distribuição das variáveis qualitativas. Este tipo de gráfico mostra a frequência relativa da tabela “Frequência indivíduos positivos categoria por OPG”. No eixo (x), podemos ver a categoria do resultado encontrado, demostrando o nível da infecção, e, no eixo (y), são apresentadas as frequências relativas. A frequência relativa é possível observar conforme a altura da barra. O gráfico “Frequência indivíduos positivos com esquistossomose categorizado por OPG” tem o formato em barras, onde é representada a quantidade de indivíduos positivos por esquistossomose e a intensidade da carga parasitária.
O gráfico de barras deve ser utilizado com variáveis agrupadas e/ou quando se quer saber a quantidade de cidades afetadas por algum agravo. Desta forma, é possível apresentar todos os resultados simultâneos por meio do gráfico (VIEIRA, 2011).
2.2 Histograma
Apesar do histograma ser semelhante ao gráfico de barras, há algumas diferenças, como a proximidade das barras. Os gráficos juntos são feitos para enfatizar o fato de que os dados são contínuos, enquanto no gráfico de barras isso não é observado. O gráfico de barras é utilizado quando os dados são discretos, ou seja, a informação observada forma um conjunto finito de dados ou enumerável, onde o gráfico não utiliza dados adjacentes. Já o histograma é utilizado para dados contínuos, isto é, onde os dados incluem todos os valores do intervalo da alteração da variável medida.
Observe o gráfico “Nota dos alunos em matemática na escola”. As categorias “notas” da variável é uma variável contínua e estão representadas no eixo horizontal. O número de alunos, por sua vez, está no eixo vertical. A altura de cada barra representa a frequência absoluta de casos (pode também ser a frequência relativa) em cada uma das categorias da variável “tempo”, chamadas também de intervalos de classe.
2.3 Polígono
O polígono pode ser utilizado para a construção em qualquer uma das distribuições discutidas até agora. Os polígonos são construídos de maneira semelhante ao histograma, com a diferença de que, no polígono, ao invés de barras, são utilizados pontos médios onde seria o extremo superior de cada barra em um histograma. Os pontos são colocados a uma altura proporcional ao eixo y e, então, conectados por linhas. É por isto que alguns o chamam de gráficos de linhas. O polígono é útil pra visualizar de maneira simétrica a distribuição dos dados coletados. Sua vantagem é que os dados são apresentados de forma simétrica e simultânea. No gráfico “Taxa de incidência de leishmaniose por ano”, vemos este exemplo.

É possível, também, associar mais de um gráfico. Combinados, eles ajudam a compreender mais de uma variável que pode ou não estar relacionada. O gráfico sobre “Casos anuais de LTA por municípios e taxa de Incidência anuais”, por exemplo, traz a distribuição temporal da taxa de incidência da LTA no estado de Minas Gerais no período de 2007 a 2015. A taxa de incidência é a linha cinza (gráfico de polígono) e o número de municípios no estado com casos de LTA confirmados por ano, as colunas pretas (gráficos de barra). Nesta combinação, é possível apresentar duas informações em apenas um gráfico, assim facilita a compreensão e permite comparar os dois gráficos.
3 Medidas de tendência central
As medidas de tendência central são medidas que, mediante apenas um só número, trazem as características dos dados. Portanto, em um único número são expressos valores que representa o conjunto de dados. As medidas de tendência central mais conhecidas são a média, ou média aritmética de um conjunto de dados. Nesta seção, iremos examinar três classes distintas dessas medidas, que são: média, mediana e moda.
3.1 Média
A média aritmética, ou simplesmente média, é a mais conhecida das medidas centrais. A média pode ser interpretada como o valor que todos os outros dados teriam se fossem iguais entre eles. A média ainda pode ser interpretada como o ponto de equilíbrio entre valores discrepantes de um conjunto de dados.
A partir de dados brutos sobre valores numéricos, o cálculo da média é bastante direto. Somamos os valores da variável sobre todas as unidades e depois dividimos pelo número de unidades.
A média, embora seja uma informação preliminar sobre um conjunto de dados, apresenta uma limitação, visto que ela pode ser influenciada pelos valores extremos que acabam por modificar seu resultado. A média dever ser utilizada com cautela, uma vez que é uma medida extremamente sensível aos valores atípicos. Para poder confirmar essa afirmativa, pode-se considerar como exemplo:
Podemos observar claramente que o ultimo individuo, com 58 anos, é um valor atípico e, ao acrescenta-lo, a média foi alterada em 4,3 anos de idade. Neste caso, a percepção sobre a existência de valores atípicos é importante para corrigir ou minimizar possíveis erros.
3.2 Mediana
A mediana é outra medida de tendência central, simbolizada por . É o valor que ocupa a posição central e divide o conjunto dos dados ordenados ao meio. A diferença principal entre a média e mediana é que, durante o cálculo da média, todos os valores são considerados para o cálculo, mas isso não ocorre na mediana. Valores extremos nas amostras (valores muito altos ou muito baixo) de uma mesma variável geral distorções grandes na média e essa variação não ocorre na mediana, que é mais robusta e não está sujeita a essas oscilações dos valores.
A mediana corresponde ao número central da amostra. Ela divide a amostra em duas partes, sendo um grupo com números menores ou iguais à mediana e outra com maiores ou iguais à mediana. A mediana é dada pelo número na posição central dos valores. Quando os valores dos dados totalizam número ímpares, a posição da mediana é dada por um único valor na posição central, sendo este o valor da mediana. Vamos observar a idade de indivíduos que possuem doença celíaca, nesse exemplo (amostra 1): (12, 18, 19, 20, 14, 27, 29, 18, 58)
Primeiro, deve-se ordenar os números, colocando-os em ordem crescente. Nesta amostra, o número de observações é ímpar e a mediana é o número central 19 porque é o valor que está no centro do conjunto, após a ordenação. Porém, quando número de observações é par, dois valores ocuparam a posição central, com isso a mediana é a média desses dois valores.
3.3 Moda
A moda de um conjunto de dados é o valor que ocorre com mais frequência. Por exemplo, sendo (12, 14, 18, 18, 19, 20, 27, 29, 58, 13) a amostra de idade dos indivíduos, a moda é 18, uma vez que é o número que aparece com mais frequência.
A moda difere da média e mediana, pois pode ocorrer em conjunto de dados onde não ocorra a moda ou em conjunto de dados que ela apareça mais de uma vez, sendo bimodal, no caso da ocorrência de duas, e assim sucessivamente. Quando a moda aparecer apenas uma, como no exemplo anterior, dizemos que o conjunto é unimodal. É importante comentar quea moda precisa de grandes números de observações para que seu valor possa ter uma credibilidade. Se todos os valores no conjunto ocorrem com a mesma frequência não ocorre moda.
4 Medidas de dispersão
A medida de tendência central não descreve adequadamente os dados observados, pois apenas descrevem os valores que ocupam ou estão próximos do centro da distribuição da amostra. Assim, não consegue caracterizar a variabilidade dos dados em torno da média. Para isto, existem as medidas de dispersão ou variação, que permitem quantificar as oscilações dos valores em relação àqueles que ocupam o centro da distribuição dos dados.
Para ajudar a compreender, imagine uma casa com 5 moradores com idade de 20 anos cada. Assim, a média, mediana e moda seria 20 anos. Em outra residência, também com 5 moradores, mas, entre eles, 3 filhos, sendo dois com 2 anos de idade e um com 20 anos e um casal, onde um com 39 anos e com 37 anos de idade, a média de idade seria 20 anos e seria amodal.
Média, mediana e moda são medidas descritivas, contudo, não são capazes de apresentar as informações corretas que descrevam os dados. Assim, sempre que você apresentar as medidas de tendência central para descrever seus dados, deve-se também fornecer a medida de dispersão.
Assim como as medidas de tendência central as medidas de dispersão, existem muitas que podem ser utilizadas. Nas próximas seções iremos ver algumas medidas de dispersão das mais utilizadas.
5 Amplitude, mínimo e máximo
Os valores mínimo e máximo são importantes para saber os extremos do conjunto de dados que se tem. O mínimo é o número de menor valor e o máximo é o número de maior valor de um conjunto de dados. A amplitude, por sua vez, é apenas a diferença entre o maior e menor valor em um conjunto de dados. Pode-se utilizar duas formas de amplitude sendo elas frequentemente utilizadas. Vamos utilizar o exemplo da idade das pessoas:
(12, 14, 18, 18, 19, 20, 27, 29, 58, 13)
Aqui, o valor mínimo é 12, o valor máximo é 58 e a amplitude 46 (52-12).
A amplitude é uma medida instável, pois utiliza apenas dois valores e qualquer mudança nesses valores pode alterar de maneira drástica a amplitude. Alguns estudo não fornecem a amplitude e apresentam apenas os valores mínimos e máximos para descrever a amostra. Não há erro em trazer apenas o mínimo e máximo. Dependendo da amostra, isso pode ser mais útil que a amplitude.
Por exemplo, um abatedouro de suínos em que a amplitude utilizada foi de 54kg pode não ser uma informação útil, porém ao serem informados os valores de mínimo, de 63Kg e máximo, de 117kg, as informações são mais úteis.
6 Quartil
A mediana divide os dados da amostra em duas partes, com as mesmas observações, ou em duas metades, sendo assim, não é possível descrever a amplitude do da distribuição de dados. Os quartis ajudam a compreender a distribuição dos dados e os dividem em quatro partes iguais. São 3, portanto, três: o primeiro quartil (Q1), o segundo quartil (Q2) (que é a mediana) e o terceiro quartil (Q3). O primeiro quartil ou percentil é o valor que deixa 25% dos outros valores abaixo do dele e o segundo quartil deixa metade dos valores abaixo e metade dos valores acima do seu. O segundo quartil corresponde à mediana e o terceiro quartil deixa 75% dos valores abaixo dele. Assim, com os quartis é possível conhecer melhor a distribuição dos dados pois é possível conhecer os valões que antecedem a mediana e os valores que vem após a mediana.
Para obter os quartis, vamos continuar utilizando os dados os dados de idade dos exemples anteriores: (12, 18, 19, 20, 14, 27, 29, 18, 58, 13)
Primeiramente, devemos organizar os dados de maneira crescente (12, 13, 14, 15, 18, 19, 20, 27, 29, 58) e devemos encontrar a mediana, sendo, neste caso, 18,5.
Assim, o primeiro quartil é a mediana dos números que ficaram à esquerda do segundo quartil, sendo os números 12, 13, 14, 18, onde o quartil 1 é 13,5. O terceiro quartil é a mediana dos números que ficaram à direita do quartil 2, sendo os números 20, 27, 29, 58, onde o quartil é 28.
Podemos resumir os interquartis (IQT) como: Q1=13,5; Q3 = 28.
Já vimos que o quartil é útil para conhecer a distribuição das amostras, porém como devemos interpretar esses dados?
O box plot é um gráfico utilizado para resumir as medidas de tendência central como a dispersão. É uma maneira gráfica de representar os dados contidos na amostra. Como já mencionado, os dados obtidos em qualquer pesquisa podem ser apresentados em tabelas ou gráfico. O gráfico box plot traz todas as informações como representação gráfica.
O box plot pode ser interpretado da seguinte maneira: a linha inferior é o mínimo valor, a linha superior é o valor máximo, base da caixa representa Q1, a parte superior representa Q3 e a linha no meio da caixa representa Q2 ou a mediana. O box plot é bastante útil, pois ele evidencia valores extremos para considerar o valor máximo. Utilizando os mesmos dados do exemplo anterior, temos um indivíduo com valor extremo (outlier), que tem 58 anos. O box plot evidencia esse indivíduo, conforme podemos ver no gráfico abaixo.
· Q1: 25% dos participantes da pesquisa apresenta idade igual ou inferior a 13,5 anos.
· Q2: 75% dos participantes da pesquisa apresenta idade igual ou inferior a 28 anos.
8 Desvio-padrão
O desvio-padrão, além de constituir-se no resumo de informações que relaciona a dispersão dos valores, é obtido pela raiz quadrada da variância. Assim, precisamos entender o que é variância e como calcular ela.
A variância (S²), é uma medida de variabilidade menos intuitiva. Ela é uma serie de n valores e mede o desvio médio dos valores individuais em relação à média. É o quadrado da diferença entre os valores e média sobre o número observado:
Antes de calcular a variância, devemos calcular o desvio da média. O desvio da média é a diferença em cada valor em relação à média e é dado pela seguinte formula: .
Se o valor do desvio for maior que a média, seu desvio é positivo, porém, se o valor é menor que a média, seu desvio é negativo. Ainda, se for igual a média, o desvio é nulo. A soma do desvio da média é sempre 0 e, para confirmar essa informação, vamos utilizar a amostra de idades vista anteriormente na tabela “Estatística da idade de pessoas coletada”, onde vamos calcular o desvio da média e a variância da amostra.
A tabela 6 traz uma maneira de apresentar o desvio da média e a variância de cada observação. Deve-se ter em mente que, apresentar os dados conforme a tabela 4, pode ser inviável a depender do tamanho da amostra (n). Imagine um conjunto de dados, onde tem um n da amostra e pode ser 100, 1.000, 10.000 ou até mais indivíduos. Estas informações podem não serem úteis a apresentar para cada unidade, visto que teremos uma tabela com o número de linhas igual ao de indivíduos (n). Outra maneira de calcular a variância é utilizando a fórmula:
Utilizando esta equação para calcular a variância, teremos a seguinte equação:
Assim, a variância da amostra é 183,7
O desvio-padrão é a medida de variação mais útil e mais utilizada na quase totalidade na bioestatística. Serão raros os casos em que não é possível ver desvio de padrão, quando a média é apresentada. O valor do desvio-padrão reflete a variabilidade das observações em relação à média e, com isso, a dimensão do desvio-padrão está diretamente relacionada com a dispersão dos valores em relação à média. Quanto maior for o desvio-padrão, maior será a variabilidade dos dados. Quanto menor a desvio-padrão, menor é a variação dos dados em relação à média. O desvio-padrão é apresentado na mesma unidade em que a variável é apresentada. Essa característica facilita a entender o desvio-padrão. No exemplo utilizado na amostra de idades (amostra 2), o desvio padrão também deve ser apresentado em anos.
Como o desvio-padrão é a raiz quadrada da variância, agora podemos calcular o desvio-padrão =
Desvio-padrão= 13,6 (S)
O desvio-padrão, além de constituir-se no resumo de informações que relaciona a dispersão dos valores, ele é uma estimativa de dispersão na população ou amostra