Prévia do material em texto
Natureza dos Dados Capítulo 2 – Epidemiologia e Bioestatística Professor Diego Sampaio Amariz História da Estatística • Pelo que foi dito acima, pode parecer que a Estatística surgiu com a sociedade contemporânea. Mas isso não é verdade, desde que o ser humano começou a formar grandes comunidades, originando as primeiras civilizações, surgiu a necessidade, por parte dos governos destas comunidades, de uma coleta e organização de dados sobre sua população. • Dados relacionados a força de trabalho disponível, ao recrutamento para as guerras, produção de alimentos e principalmente para o recolhimento de impostos. • A estatística, deste a antiguidade, é tão fundamental para a existência do Estado, que o próprio significado original da palavra, “Estudo do Estado”, demonstrava que não é possível governar sem conhecer dados relativos à população, economia, recursos naturais. É o conhecimento provindo destes levantamentos que torna possível elaborar as ações e políticas de governo. História da Estatística História da Estatística • A história registra grandes levantamentos estatísticos, principalmente relativos a levantamento de populações. • Um dos mais conhecidos, foi registrado na Bíblia, ordenado pelo imperador Augusto Cesar, que estabeleceu que todas as pessoas que viviam no domínio do império deviam se registrar, para que fosse feita uma contagem da população. • Para isso deviam se deslocar até a cidade de origem. • Foi então que São José e a Virgem Maria saíram de Nazareth, na Galileia, para Belém, na Judeia, para responder ao censo. • E enquanto estavam na cidade, Jesus Cristo nasceu. História da Estatística História da Estatística • Em períodos mais recentes, podemos agrupar a evolução da ciência estatística em quatro grandes fases. Método estatístico • Mas, o que é método? • Praticamente todos os fenômenos naturais, relacionais e comportamentais que envolvem o ser humano possuem componentes aleatórios. • Por exemplo, o comportamento de consumo dos consumidores das classe C e D do Brasil, possui vários componentes: renda média, faixa etária, emprego, inflação, entre outros. • O estudo destes fenômenos exige um método matemático, e a estatística é este método. Método estatístico • A estatística é uma parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. • Os fenômenos aleatórios se destacam porque eles se repetem e estão associados a uma variabilidade. • Observa-se que na repetição de um fenômeno aleatório, que os resultados se distribuem com certa regularidade, geralmente acentuada em termos de frequência. • O método estatístico está fundamentado na representação e explicação sistemática das observações quantitativas do fenômeno que se deseja estudar e sua representação analítica através de gráficos e tabelas. Etapas do método estatístico Conceitos fundamentais e definições da estatística • A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população ou de uma amostra, definida como: • População: conjunto de elementos que tem pelo menos uma característica em comum. • Esta característica deve delimitar corretamente quais são os elementos da população que podem ser animados ou inanimados. • Amostra: subconjunto de elementos de uma população. Este subconjunto deve ter dimensão menor que o da população e seus elementos devem ser representativos da população. • A seleção dos elementos que irão compor a amostra pode ser feita de várias maneiras e irá depender do conhecimento que se tem da população e da quantidade de recursos disponíveis. • A estatística inferencial é a área que trata e apresenta a metodologia de amostragem. Conceitos fundamentais e definições da estatística. Tipos de Amostra. • Os erros de amostragem vistos anteriormente podem ser controlados, selecionando aleatoriamente a amostra e podem se tornar insignificantes aumentando o número de observações. • Existe uma variedade de técnicas de amostragem; em todas elas o objetivo é sempre minimizar os erros de amostragem e os erros tendenciosos. As amostras resultantes das técnicas básicas de amostragem são classificadas em três categorias: • Amostra de conveniência: aquela resultante quando apenas as observações de interesse, convenientes, são feitas. Este tipo de amostra não é muito científico (não aceitável em pesquisas) e resulta em erro tendencioso e tendência a não resposta. Probabilidade não é aplicável neste caso para a medição das estatísticas. O uso deste tipo de amostra ocorre em empresas que querem saber a opinião de seus próprios funcionários para poder decidir a respeito de algum novo produto. Desta forma, o custo é reduzido, mas há o risco da pesquisa não se aplicar a uma população maior. Conceitos fundamentais e definições da estatística. Tipos de Amostra. • Amostra de julgamento: aquela resultante quando determinados itens são escolhidos como importante para observação. Por exemplo, na pesquisa de variações da inflação, existe uma relação de itens que são verificados. Em geral, índices do governo adotam este tipo de amostra, que não usa estudo probabilístico. • Amostra aleatória ou probabilística ou científica: aquela resultante quando todo item observável são estudados. Este tipo de amostra é qualificada usando-se conceitos de probabilidade. Conceitos fundamentais e definições da estatística • Dados Finito: Apresenta um número limitado de observações, que é passível de contagem. É um dado numérico que tem fim. Exemplo: 1,75% • Dados Infinito: Apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos. É um dado numérico que não tem fim. Exemplo: 3,14159265358979323846… Conceitos fundamentais e definições da estatística • Amostragem: Amostragem é o processo de selecionar um subconjunto de uma população para fazer inferências sobre a população inteira. É uma técnica muito utilizada por pesquisadores, pois permite obter informações úteis sem precisar pesquisar toda a população. • A amostragem é um método conveniente, econômico e racionaliza recursos. Um exemplo de aplicação é a pesquisa de intenções de voto em um período eleitoral, quando é impossível entrevistar todos os eleitores. Conceitos fundamentais e definições da estatística. Noções Gerais de Amostragem. • Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem. • Censo: É a coleta exaustiva de informações das "N" unidades populacionais. • Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, no qual deve seguir um método criterioso e adequado (tipos de amostragem). Conceitos fundamentais e definições da estatística. Noções Gerais de Amostragem. • Amostragem Probabilística: É uma amostragem científica, com fundamentos na curva normal e consequentemente no cálculo de probabilidades. Para uma população de tamanho N a probabilidade de participação de cada elemento na amostra é 1/N. Esta amostragem pode ser: Equiprovável, Estratificada e Por Conglomerados. • Amostragem Equiprovável ou Acidentalmente Simples: É quando os componentes da amostra são selecionados diretamente de um universo estudado, independente de seu tamanho ou • Existem algumas restrições à sua aplicação, no caso de universos com grande variabilidade ou contido em vasta área territorial, principalmente relativo aos custos da pesquisa. Conceitos fundamentais e definições da estatística. Técnicas de Amostragem para Amostras Aleatórias • A seguir, estudar-se-á técnicas de amostragem para este tipo de amostra. • a) amostra aleatória sequencial: consiste em usar um único número aleatório da tabela como semente para selecionar todos os outros. Por exemplo, escolhendo-se o número 5 como semente, selecionar os itens 5, 15, 25, 35 e assim por diante. O intervalo entre os números é uma função do tamanho dapopulação; se esta fosse formada por 1000 itens, então nossa amostra poderia ser: 5, 105, 205, etc. Embora esta seja uma técnica rápida, amostragem tendenciosa pode existir, sendo a escolha da semente muito importante. Conceitos fundamentais e definições da estatística. Técnicas de Amostragem para Amostras Aleatórias • b) amostra aleatória estratificada: consiste em dividir a população em categorias que devem ser repetidas também na amostra. Tal procedimento é usado quando diferentes grupos ou classes devem ser representados, seja por diversidade, seja para comparação com outros grupos. Como exemplo, considere um grupo de 1000 pessoas, classificadas por país de origem ou idade. Qual destas classificações adotar depende do objetivo do estudo. Conceitos fundamentais e definições da estatística. Técnicas de Amostragem para Amostras Aleatórias • c) amostra aleatória “grupal” (cluster): consiste em dividir a população em grupos, assim como a amostra estratificada, chamados “clusters”. Números aleatórios são usados não para selecionar itens individuais da população, mas para selecionar grupos por meio da técnica de amostragem aleatória simples. Cada item dentro de um grupo selecionado é então incluído no grupo da amostra. Assim, reduziu-se o tempo e o custo de amostragem. Como exemplo, tem-se: um cabo eleitoral gastará menos tempo visitando cada apartamento de alguns poucos prédios do que visitando umas poucas famílias de cada apartamento/casa em uma cidade. Amostras escolhidas desta forma podem conduzir a erros tendenciosos. Conceitos fundamentais e definições da estatística • Em se tratando de conjuntos-subconjuntos, estes podem ser: • Finitos: possuem um número limitado de elementos. • Infinitos: possuem um número ilimitado de elementos. • Segundo Medronho (2003), elemento significa cada uma das unidades observadas no estudo. • Após a determinação dos elementos pergunta-se: o que fazer com estes? • Pode-se medi-los, observá-los, contá-los surgindo um conjunto de respostas que receberá a denominação de variável. • Variável: é a característica que vai ser observada, medida ou contada nos elementos da população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Conceitos fundamentais e definições da estatística • Não basta identificar a variável a ser trabalhada, é necessário fazer-se distinção entre os tipos de variáveis: • Variável qualitativa: é uma variável que assume como possíveis valores, atributos ou qualidades. Também são denominadas variáveis categórica. É uma variável não numérica • Variável quantitativa: é uma variável que assume como possíveis valores, números. É uma variável numérica • Cada uma dessas variáveis pode ser subclassificada em: • Variável qualitativa nominal: é uma variável que assume como possíveis valores, atributos ou qualidades e estes não apresentam uma ordem natural de ocorrência. Exemplo 01: meios de informação utilizados pelos alunos da disciplina Inferência Estatística do curso de Estatística da UEM: televisão, revista, internet, jornal. • Variável qualitativa ordinal: é uma variável que assume como possíveis valores atributos ou qualidades e estes apresentam uma ordem natural de ocorrência. • Exemplo 02: estado civil dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM: solteiro, casado, separado. Conceitos fundamentais e definições da estatística • Variável quantitativa discreta: é uma variável que assume como possíveis valores números, em geral inteiros, formando um conjunto finito ou enumerável. • Exemplo 03: número de reprovas, por disciplina, dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM: 0, 1, 2, ..... • Variável quantitativa contínua: é uma variável que assume como possíveis valores números, em intervalos da reta real e, em geral, resultantes de mensurações. • Exemplo 04: peso (quilogramas) dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM: 58, 59, 63..... Séries Estatísticas É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, local ou espécie. Podem ser: 1. Série Temporal ou Cronológica; 2. Série Geográfica ou Histórica; 3. Série Específica (Categórica); 1. Série Temporal ou Cronológica Identifica-se pelo caráter variável do fator cronológico. O local e a espécie são elementos fixos. Ex.: Nível pluviométrico por mês em Recife Período Nível (mm) Janeiro/2008 142 Fevereiro/2008 274 Total Bimestral 416 Fonte: Embrapa 2. Série Geográfica ou Histórica Apresenta como fator variável o fator geográfico. Também chamada de espacial, territorial ou de localização. Período Número Caracas 1,42 São Paulo 2,50 Recife 2,10 Média de habitantes por m2 nas capitais Caracas, São Paulo e Recife em 2008 Fonte: IBGE 3. Série Específica (Categórica) O caráter variável é apenas o fato ou a espécie. Time Número Sport 37 Náutico 21 Santa Cruz 24 Total 82 Número de títulos pernambucanos conquistados pelos principais times de Pernambuco Fonte: FPF Estatísticas e Parâmetros Estatística: Resume uma característica de uma amostra. É uma estimativa do parâmetro correspondente. Parâmetro: Resume uma característica da população. Cálculo do tamanho amostral Onde: n é o número de indivíduos na amostra. Zα/2 é o valor crítico que corresponde ao grau de confiança desejado. S é o desvio padrão populacional da variável estudada (no exemplo, RENDA). E é a margem de erro. 2 2 E SZ n Cálculo do tamanho amostral Um economista deseja estimar a renda média para o primeiro ano de trabalho de um bacharel em direito. Quantos valores de renda devem ser tomados, se o economista deseja ter 95% de confiança em que a média amostral esteja a menos de R$500,00 da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para tais rendas, s = R$6250,00. Cálculo do tamanho amostral para diferença entre duas proporções. ),( )²12( )21(2111 Pf pp pppp n Onde: p1 é a proporção do grupo 1 p2 é a proporção do grupo 2 f(α,P) é o nível de significância que é tabelado, onde α é o nível de significância e P é o poder. Cálculo do tamanho amostral para diferença entre duas proporções. 3569,7 )²30,040,0( )40,01(40,030,0130,0 n Exemplo: Suponha-se que se quer encontrar o tamanho amostral para detectar a diferença de 30% para 40% entre dois grupos, com poder de 0,80 e um a de 0,05. Variável Característica que pode ser observada (ou mensurada) nos elementos da população, devendo ter pelo menos um resultado para cada elemento observado. Variável Qualitativa Nominal Ordinal Quantitativa Discreta Contínua Tipos de Variáveis 1. Qualitativa: O resultado da variável é um atributo ou uma qualidade. 1.1. Qualitativa Ordinal: representam com uma ordenação natural. Ex.: Classe social: A- alta, C- média, D- baixa Escolaridade: 1- Primária, 2- Secundária, 3- Superior 1.2. Qualitativa Nominal: não existe ordenação dentre as categorias Ex.: sexo, cor dos olhos, fumante/não fumante, doente/sadio Variável 2. Quantitativa: O resultado é um número numa escala pré-determinada. 2.1 Discreta: Os resultados possíveis são números inteiros. Ex.: números de alunos. 2.2 Contínua: O resultado está em um intervalo dos números reais. Ex.: atraso de transmissão de bytes por uma rede de internet. Como identificar um tipo de Variável? A maneira mais fácil de identificar se os dados são numéricos é verificar se eles possuem unidades ligadas a eles. Exemplo: g, mm, número de ulceras de pressão, número de mortes e assim por diante. Se não, podem ser ordinais, se os valores podem ser colocados em ordem, ou nominais