Buscar

BIOESTATÍSTICA MÉDICA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Júlia Souza
Bioestatística Médica
Introdução à Bioestatística
Amostragem
Descrição e Apresentação de dados
Organização dos Dados
Medidas de Tendências Centrais
Representação Gráfica
Software para Cálculos Estatísticos
Medidas de Dispersão
Critérios de Causalidade
Análise de Correlação e Regressão
Estatística Referencial
Estatística Inferencial
Inferência sobre 2 Medidas
Inferência sobre 2 Proporções
Testes Bioestatísticos
1
Júlia Souza
Introdução à Bioestatística
➔ É a aplicação da estatística ao campo biológico e médico, sendo essencial ao planejamento,
coleta, avaliação e interpretação de todos os dados obtidos em pesquisa em tais campos
➔ Fundamental à epidemiologia, à ecologia, à psicologia social e à medicina baseada em evidência
Surgimento da bioestatística
➔ Durante a guerra da crimeia se preocupou em observar o fenômeno que indicava que
aconteciam muito mais baixas no hospital do que numa batalha, então, começou a coletar
informações e deduziu que essa situação ocorria devido às péssimas condições de higiene que
predominavam nos hospitais
Diagrama de rosa
➔ É um dos diagramas mais influentes da história, pois mudou a atitude do exército britânico para
assistência médica, consequentemente influenciando também os hospitais civis.
Porque estudar a bioestatística?
➔ Para decidir se eles podem acreditar ou não os resultados apresentados na literatura
➔ Para aplicar os resultados de estudo aos cuidados com o paciente
➔ Interpretar as estatísticas vitais
● Ex: plataforma do dataSUS
➔ Para entender os problemas epidemiológicos
● Ajudam a sociedade nas decisões em relação a implementação das políticas públicas de saúde
➔ Para interpretar informações sobre drogas e equipamentos
➔ Para usar técnicas diagnósticas
➔ Para avaliar diretrizes (Guidelines)
➔ Para participar ou dirigir projetos de investigação
População
➔ Conjunto de indivíduos ou objetos que apresentam em comum determinadas características
definidas para o estudo.
● Ex: População de pacientes internados em um dado hospital.
➔ Uma população pode ser finita e pequena, sendo fácil de conhecer todos os seus elementos, ou
finita e incontável ou mesmo infinita.
➔ Nestes dois últimos casos, para conhecer uma população, a estatística lança mão de um recurso
que é coletar uma amostra desta população e caracterizar alguma variável da população a partir
dos resultados obtidos a partir da amostra, ou seja, tirar conclusões sobre a população a partir
de resultados obtidos em amostras (inferência estatística).
➔ Geralmente é representada por N.
➔ Corresponde ao conjunto de todos os elementos relativos a um determinado fenômeno que
possuem pelo menos uma característica em comum, a população é o conjunto Universo.
➔ Em outras palavras, é o conjunto de todos os indivíduos ou objetos que fazem ou que podem
fazer parte de um estudo ou pesquisa.
2
Júlia Souza
Amostragem
➔ Amostra: é qualquer parte de elementos selecionados de uma população estatística.
➔ Amostragem: é a de determinação de uma amostra a ser pesquisada: Uma parte do grupo
➔ Censo: envolve o exame de todos os elementos de um dado grupo: Grupo todo
Utilização das amostras
➔ IBGE: PNAD – Pesquisa Nacional por Amostragem Domiciliar
➔ Indústria Farmacêutica: Eficácia de novas drogas
➔ Atividades de exames médicos: sangue; biópsias; etc..
Situações em que são recomendadas o uso do CENSO
➔ Quando a população for pequena:
● Ex.: Uma empresa que tem 100 colaboradores no Nordeste...
➔ Quando os dados a respeito da população forem facilmente obtíveis:
● Ex.: Uma empresa deseja traçar o perfil de gastos com serviços médicos hospitalares de seus
colaboradores, existentes em um sistema informatizado...
➔ Se os requisitos do problema em estudo impõem a obtenção de dados específicos de cada
elemento da população:
● Ex.: Uma empresa de Plano de Saúde deseja saber, junto aos seus 550 clientes, o grau de
potencial de risco com uma determinada doença que possui altos custos de atendimento...
➔ Por imposição Legal
● Ex.: Existência de legislação que impõe a realização de determinado procedimento...
Vantagens de Amostrar
➔ Economiza mão-de-obra, dinheiro e tempo
➔ Possibilita rapidez na obtenção dos resultados e maior precisão dos dados
➔ É a única opção quando o estudo resulta em distribuição ou contaminação dos elementos
pesquisados
VANTAGENS DA AMOSTRA VANTAGENS DO CENSO
1. Pode ser mais atualizada
2. Menor custo
3. Maior controle de coordenação
a) Menor chance de erro
4. Maior uniformidade na coleta de dados
a) Maior comparação entre os mesmos
5. Em populações infinitas, torna-se
impossível fazer o censo
1. Em populações pequenas o custo e o
tempo de amostragem é o mesmo do
censo
2. Se o tamanho da amostra é grande, em
relação ao da população, vale a pena fazer
o censo
3. Quando se necessita de precisão total, o
censo é o único método aceitável.
3
Júlia Souza
Premissas básicas da amostragem
➔ Há similaridade suficiente entre os elementos de uma população; poucos elementos
representam adequadamente toda a população
➔ A discrepância entre os valores das variáveis da população (parâmetro) e os valores dessas
variáveis obtidos na amostra (estatística) é minimizada
➔ Exemplo:
● Pessoas adultas devem apresentar, em exames de leucograma, entre 4500-11000 leucócitos
por 10ml. Uma amostra de sangue de pacientes do hospital Y, durante uma semana de
exames, observou-se valores médios 7.300ml
Qualidades de uma boa amostra
➔ Precisão: exatidão dos resultados obtidos na amostra em relação aos resultados que seriam
obtidos de toda a população. Quanto menor mais precisa a amostra
➔ Eficiência: Sob condições específicas, trazer resultados mais confiáveis do que outro, ou se, para
um dado custo, produzir resultados de maior precisão, ou se, ainda, resultados com a mesma
precisão forem obtidos a menor custo
➔ Correção: Refere-se ao grau de ausência de vieses não amostrais na amostra. São oriundos de
influÊncias, conhecidas ou não, que fazem com que os resultados pendem mais numa direção
Passos para seleção da amostra
Conceitos sobre amostragem
➔ População de pesquisa: é o agregado de todos os casos que se enquadram num conjunto de
especificações previamente estabelecidas
➔ Elemento de pesquisa (unidade de pesquisa): é a unidade sobre a qual se procura obter os
dados. Pode ser: pessoas, lojas, indústrias, instituições etc
➔ Unidade amostral: é a unidade básica que contém os elementos da população.
Planos de amostragem
➔ Definir os Objetivos da Pesquisa
➔ População a ser Amostrada - Parâmetros a ser Estimados (Objetivos)
➔ Definição da Unidade Amostral - Seleção dos Elementos que farão parte da amostra
➔ Forma de seleção dos elementos da população
➔ Tamanho da Amostra
4
Júlia Souza
Designação apropriada de população de pesquisa
➔ Definição das especificações dos elementos de pesquisa
➔ Definição da unidade amostral
➔ Abrangência geográfica da pesquisa
➔ Período de tempo
Exercícios
1. Quais os itens de serviços médico-hospitalares apresentam maior discrepância em termos de
gastos da Empresa X sedada em Fortaleza, com seus colaboradores, durante os últimos 6
meses
a) Qual o elemento de pesquisa? Os colaboradores da empresa X
b) Qual a unidade amostral? Prontuários médicos da empresa X, em Fortaleza
c) Qual a abrangência? Fortaleza
d) Qual o período de tempo? 6 meses
2. Uma empresa Z de curitiba, que tem 100 colaboradores no Nordeste, desejar verificar se os
prontuários médicos dos mesmos, nos últimos 3 meses de 20077, junto à empresa terceirizada
contratada estão conforme as normas estabelecidas
a) Qual o elemento de pesquisa: Colaboradores da empresa Z
b) Qual a unidade amostral: Empresa Z, prontuários médicos
c) Qual a abrangência: Curitiba
d) Qual o período de tempo: Últimos 3 meses
Tipos de Amostras e Amostragens
➔ Não Probabilísticas: Não há chance conhecida de que um elemento qualquer da população
venha a fazer parte da amostra
➔ Probabilísticas: Cada elemento da população tem umachance conhecida e diferente de zero de
ser selecionado para compor a amostra
O que deve ser levado em conta durante o processo de escolha da amostragem ?
➔ O problema e o objetivo e o tipo da pesquisa
➔ A acessibilidade e a disponibilidades aos elementos da população
➔ A representatividade desejada ou necessária e a oportunidade apresentada de fatos ou eventos
➔ A disponibilidade de tempo, de recursos financeiros e humanos
Amostragem não Probabilística
➔ Quando não se conhece a probabilidade de um elemento a população pertencer à amostra
➔ Ex.: quando somos obrigados a colher amostra na parte da população que temos menos acesso
Razões para o uso dessa amostragem
➔ Quando não existir outra alternativa viável (a população toda não está disponível para sorteio)
➔ É tecnicamente superior na teoria, mas na prática, ocorrem problemas em sua aplicação
➔ A obtenção de uma amostra de dados que reflita precisamente a população não seja o
propósito principal da pesquisa: não há intenção de generalizar os dados obtidos
➔ Não disponibilidade de tempo e recursos financeiros, materiais e humanos necessários para
realização de uma pesquisa com amostragem probabilística
➔ Os dados sobre a população (número, listagens, etc) não são ou não estão disponíveis
5
Júlia Souza
Amostragem não probabilística → Por Conveniência
➔ Os entrevistados são escolhidos por conveniência do pesquisador (se encontram no lugar certo
no momento certo)
➔ É a menos confiável, mais barato e mais simples
➔ Utiliza-se para testar ou para obter ideias sobre determinado assunto de interesse
➔ Prestam-se muito bem aos objetivos da pesquisa exploratória
➔ Exemplo: uso de estudantes, grupos de igrejas, membros de organizações sociais…
Amostragem não probabilística → Intencional
➔ São selecionados com base no julgamento do pesquisador, que usando sua experiência, escolhe
os elementos a serem incluídas na amostra
➔ Exemplo: teste de mercado para determinar potencial de um novo produto..
Amostragem não probabilística → Por Quotas
➔ Um dos métodos mais usados em levantamentos de mercado e em prévias eleitorais
➔ Abrange 3 fases:
1. Classificação da população em termos de propriedades relevantes para o estudo
2. Determina a proporção da população para cada característica, com base na constituição
conhecida, presumida ou estimada da população
3. Fixação de quotas para cada entrevistador a quem tocará a responsabilidade de selecionar
entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção
e cada classe tal como determinada da segunda fase
Amostragem Probabilística
➔ Todos os elementos da população a probabilidade conhecida e ≠ de zero pertencerem à amostra
➔ Ex: 50 funcionários em uma atividade de treinamento, e você deve selecionar dez funcionários
➔ A realização deste tipo de amostragem só é possível se a população for finita e totalmente
acessível
Probabilística simples (aleatória simples) - AAS
➔ Cada elemento da população tem uma chance conhecida, diferente de zero, idêntica à dos
outros elementos, de ser selecionado para compor a amostra
Uma amostra tamanho N → Retirada de uma população de tamanho N → Toda amostra possível
de tamanho N tenha a mesma probabilidade de ser selecionada → Cada elemento da população
terá a mesma probabilidade de pertencer à amostra.
Para selecionar uma amostra aleatória simples precisamos ter uma lista completa de unidades
amostrais.
6
Júlia Souza
Probabilística Aleatória Estratificadas - AAE
➔ Consiste na divisão da população em subgrupos internamente homogêneos e, externamente
heterogêneos, com respeito às variáveis em estudo.
➔ Escolhidos os diversos estratos → Seleção de uma AAS em casa estrato de forma independentes
➔ Caso particular de AAS → A proporcionalidade do tamanho de cada estrato da população é
mantida na amostra
Probabilística Aleatória por Conglomerados (cluster) - AAC
➔ Divisão da população em subgrupos internamente heterogêneos.
➔ Ex.: Uma amostra de eleitores pode ser obtida pelo sorteio de um número de domicílios,
trabalhadores por uma amostra de empresas ou estudantes por uma amostra de escolas.
➔ A unidade amostral contém mais de um elemento da população
Probabilística Amostragem Sistemática
➔ Requer uma listagem dos itens da população, se não a amostragem pode dar uma amostra
realmente aleatória, escolhendo-se cada k-ésimo item da lista, onde:
K =
𝑁
𝑛
N = Tamanho da população
n = Tamanho da amostra
7
Júlia Souza
Análise e Descrição de Dados
Análise Descritiva ou Exploratória de Dados
➔ Conjunto de Técnicas estatísticas e gráficas que permite explorar grandes massas de dados para
uma primeira aproximação à realidade estudada, na procura de algum padrão ou
comportamento relevante que esteja presente no conjunto de dados
➔ Os dados podem ser organizados:
1. Em tabelas → quando é importante a apresentação dos valores
2. Em gráficos ou mapas → apresentação de distribuições, tendências ou relacionamentos
entre variáveis
3. Resumidos com o uso de estatísticas
➔ Variável: é a característica de interesse que se pode medir e que apresenta distintos valores
➔ Cada medida, ítem de formulário ou pergunta corresponde a uma variável
➔ Ex.: Idade, sexo, pressão arterial são variáveis que podem ser medidas ou observadas
Variáveis Qualitativas ou Categóricas
➔ Variáveis Nominais: não existe ordenação dentre as categorias
● Ex: Sexo, cor dos olhos, fumante/não fumante
➔ Variáveis Ordinais: existe uma ordenação entre as categorias
● Ex: escolaridade, estágio da doença, mês de observação, número de leitos, número de casos,
número de procedimentos
Variáveis Quantitativas
➔ Variáveis Discretas: Características mensuráveis que podem assumir apenas um número finito
ou infinito contável de valores e, assim, somente fazem sentido valores inteiros
● Ex: número de filhos, número de bactérias/L de leite, número de cigarros fumados por dia
➔ Variáveis Contínuas: assumem valores em uma escala contínua. Usualmente devem ser medidas
através de um instrumento
● Ex: Peso (balança), altura (régua), tempo (relógio), pressão arterial, idade
➔ Escalas Intervalares e de razão
● O valor nulo não corresponde à ausência da característica medida, A escala possui um zero
arbitrário → Ex: temperatura
8
Júlia Souza
Análise Univariada
➔ Consiste na exploração da informação existente em cada variável separadamente, através da
síntese de cada variável
● Tabelas
● Gráficos
● Mapas
● Medidas de resumo ou Estatísticas
Apresentação Tabular
➔ Se faz mediante a tabelas ou quadros (apresentam as bordas laterais fechando o conteúdo
tabulado
➔ Qualquer tipo de variável pode ser tabulada, porém há uma diferenciação na construção de
tabelas dos diferentes tipos de variáveis
Normas para elaboração de Tabelas
➔ Toda tabela deve ser auto-explicativa
➔ Normas do IBGE para apresentação de tabelas
● As tabelas devem ser fechadas no alto e embaixo por linhas horizontais
● Não são fechadas à direita e nem à esquerda por linhas verticais.
● É facultativo o emprego de traços verticais para separação de colunas no corpo da tabela
● Os totais e subtotais são destacados (negrito, itálicos..)
● O título deve conter a descrição básica do conteúdo local e época em que foram coletados os
dados
● Deverá ser mantida a uniformidade quanto ao número de casas decimais
➔ Ex.: Tabulação de uma variável nominal
➔ Ex.: Representação de uma variável nominal
9
Júlia Souza
➔ Diferentes formas de histograma:
➔ Histogramas com classes de tamanhos diferentes
Organização dos Dados
Medidas de resumo ou estatísticas
➔ Síntese numérica: medidas de resumo
● Além das tabelas de frequências, as variáveis podem ser resumidas em medidas que
informam o “centro dos dados” e a variabilidade dos mesmos em relação a este “centro”
➔ Medidas de Posição ou de Tendência Central - média, mediana, moda
➔ Medidas de Dispersão ou de Variabilidade - amplitude, distância, desvio médio, variância, desvio
padrão e coeficiente de variação
10
JúliaSouza
Organização dos Dados
➔ A quantidade de dados em geral é grande e torna-se difícil, por simples inspeção, obter
informações sobre aspectos importantes dos dados
➔ É importante obter uma estatística descritiva dos dados: resumos em forma de tabelas, gráficos
e indicadores numéricos de centro e variabilidade
Principais aspectos ao descrever um conjunto de dados
➔ Métodos de Estatística descritiva são aplicáveis as seguintes situações:
● Para o censo, a estatística descritiva destes dados podem ser apresentados em relatórios que
podem ser apresentados ao público, podem ser partes de dados para ações governamentais
● Para dados amostrais, a estatística descritiva serve como ponto de partida para estudos
posteriores, tal que inferências sobre a população possam ser feitas
Resumo e descrição do padrão geral dos dados
➔ Apresentação de tabelas e gráficos
● Observação das características importantes nas formas dos gráficos, tais como simetria ou
assimetria
● Explorar nos gráficos a presença de observação não usuais, ou seja, observações que
parecem estar distantes dos valores onde ocorrem a maior parte dos dados
Cálculo de medidas numéricas
➔ Um valor indicando o centro dos dados (média, mediana, moda..)
➔ Uma medida da variação nos dados
Tabelas e Gráficos
Definições
➔ n: número total de observações
➔ Frequência absoluta (f): é o número de vezes que um dado valor foi observado
➔ Frequência relativa (fr): é o quociente entre a frequência absoluta e o número total de
observações
fr = (f % = f.100)
𝑓
𝑛 
11
Júlia Souza
Tabelas e Gráficos para dados Categóricos
➔ Tabela Resumo: Apresenta os resultados (frequências) em cada categoria
● Ex.: Carteira de Investimentos
➔ Gráfico de Pizza/Setor: O setor representa a frequência ou porcentagem de cada categoria
➔ Gráfico de Barras: Representa a frequência ou porcentagem de cada categoria
Tabelas e Gráficos para Dados Numéricos
12
Júlia Souza
➔ Disposição Ordenada:
● Em ordem crescente, do menor valor para o maior valor
● Fornece alguns sinais de variação dentro do intervalo
● Pode ajudar a identificar pontos extremos (distantes da maioria)
● Se o conjunto de dados é muito grande, a disposição ordenada e pouco utilizada
➔ Diagrama de Pontos: O número de pontos sobre o valor representa a frequência deste.
➔ Distribuição de Frequência: uma lista ou uma tabela contendo a frequência de cada dado dentro
de uma categoria, ou de um determinado valor ou de um intervalo.
● Frequência Acumulada (fA): soma de todas frequências menores ou iguais ao valor analisado
● Frequência acumulada relativa (fAr): soma de todas frequências relativas até o valor...
Organização dos Dados em Intervalos de Classes
➔ Classe: intervalo no qual é agrupado um conjunto de valores dos dados
➔ Amplitude dos dados: maior valor - menor valor
➔ Cada e qualquer dado deve pertencer a uma das classes
➔ O limite inferior da primeira classe deve ser menor ou igual ao menor dos dados
➔ O limite superior da última classe deve ser maior que o maior dos dados
➔ Os limites do intervalo da classe devem ser de fácil leitura
Histograma
➔ Um gráfico de barras com dados representados por
uma distribuição de frequência
➔ Os pontos médios das classes são representados no
eixo horizontal
➔ No eixo vertical pode-se representar a frequência (f), a
frequência relativa (fr) ou a porcentagem
➔ As barras são utilizadas para representar o número de
observações (ou a fr ou a porcentagem) dentro de
cada classe
13
Júlia Souza
Medidas de Tendências Centrais
➔ Em uma turma de uma escola de Medicina, um aluno registrou o batimento cardíaco por minuto
de seus colegas, obtendo os seguintes dados
Observe que nesta tabela, muitos valores aparecem repetidas
vezes. Mais ainda, os dados encontram-se dispostos de modo
aleatório, complicando uma análise mais detalhada de seus
elementos
Assim, somos levados a produzir um tipo especial de tabela, a fim
de facilitar o entendimento e a análise dos seus dados. A esse
tipo de tabela chamaremos de distribuição de frequências
“A frequência de um valor será o número de vezes que esse valor
aparece na amostra”
Desse modo, podemos expressar os dados de acordo com a seguinte distribuição de frequências:
Medidas Estatísticas
14
Júlia Souza
Representação Gráfica
Gráfico de Colunas
Gráfico de Barras
Gráfico de Linhas
Gráfico em Setores
15
Júlia Souza
Gráfico de Hastes ou Bastões
Gráfico em Escada
Histograma
16
Júlia Souza
Softwares para Cálculos Estatísticos
STATA
➔ O STATA é um pacote de Software estatístico completo e integrado que fornece tudo o que você
precisa para análise de dados, gerenciamento de dados gráficos
➔ Ferramentas Estatísticas do STATA
● Tabulações básicas e resumos
● Análise de caso-controle
● ARIMA
● ANOVA e MANOVA
● Regressão linear
● Smoothers de séries temporais
● Modelos lineares generalizados (GLM)
● Análise de cluster
● Contrastes e comparações
● Análise de potência
● Modelagem de escolha
● Seleção de amostra
● Modelos multinível
● Modelos de sobrevivência com fragilidade
● Regressões de dados de painel dinâmico (DPD)
● MEV (Modelagem de equações estruturais)
● Resultados binários
● ARCO
● Múltipla imputação
● Análise de classe latente (LCA)
● Efeitos do tratamento
● Dados de pesquisa
● Análise bayesiana
● Modelos de mistura finita (FMM)
EPI-INFO
➔ É uma série de programas desenvolvidos pelo CDC
➔ Possuem recursos para auxiliar na coleta, análise e visualização de dados. Esse programa é
muito útil e difundido entre os profissionais de saúde pública.
➔ É um software de domínio público e pode ser acessado para download no site do CDC.
SPSS
Programa “R”
➔ R é uma linguagem de programação multiparadigma (com ênfase em programação funcional),
dinâmica, fracamente tipada, voltada à manipulação, análise e visualização de dados.
17
Júlia Souza
Medidas de Dispersão
Percentis
➔ Os percentis são medidas que dividem a amostra (por ordem crescente dos dados) em 100
partes, cada uma com uma porcentagem de dados aproximadamente igual a mediana
representa o percentil 50
➔ O primeiro percentil determina 1% menor dos dados; e o 98 percentil determina os 98%
menores dos dados
Quartis
➔ Representados por Q1, Q2 e Q3 (primeiro, segundo e terceiro quartil), são medidas de posição
que dividem a série de dados em quatro partes de igual número de observações
➔ Correspondem aos 25,50 e 75 percentis
➔ Considerando um conjunto de valores ordenados, o primeiro quartil é precedido por 3n/4
observações do conjunto
➔ O segundo quartil coincide com a mediana (Q2 = md), dividindo, portanto, a série em duas
partes iguais
➔ Se tivermos um grupo de 20 resultados, cada quartil vai ter 5
Quintis
➔ São medidas de posição que dividem a série de dados ordenados em cinco partes de igual
número de observações
➔ Correspondem aos 20, 40, 60, 80 percentis
Medidas de Dispersão
Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de
dados.
São insuficientes para representar adequadamente conjunto de dados, pois nada revela sobre sua
variabilidade
A necessidade de uma medida de variação nos permite comparar conjuntos diferentes de valores
➔ As amostras A,B e C apresentam um maior número de observações mais distantes da média,
enquanto nas amostras D, E e F ocorre um maior número de observações concentradas em
torno da média
➔ Torna-se interessante que haja uma definição a qual use todas as observações e que seja um
pequeno valor quando as observações e que seja um pequeno valor quando as observações se
aproximam da média e grande quando estas são espaçadas.
Ex.:
Amostra A → 5,6,8,10,12,14,15
Amostra B → 105,106,108,110,112,114,115
A dispersão (Y7-Y1) é igual nas duas amostra e, portanto, independe do tamanho dos números
18
Júlia Souza
➔ O critério geralmente utilizado é aquele que mede a concentração dos dados em torno da
média, e algumas medidas são as mais usadas
Amplitude
➔ Diferença entre o menor e o maior valor
● Ex1.: -10, 0, 10,20, 30 = 30 - (-10) = 40
● Ex2.: 8, 9, 10, 11, 12 = 12 - 8 = 4
Variância
➔ A medida que contempla os aspectos apresentados e que é mais utilizada é a variância.
➔ A Variância é representada por dois símbolos
● Variância Populacional: É a média dos quadrados dos desvios do conjunto de dados
● Igual a variância populacional, porém, dividido por n-1
A unidade da variância é portanto o quadrado dos dados originais.
Desvio Padrão
➔ Mede a dispersão de uma distribuição de dados. Quanto mais dispersa for uma distribuição de
dados, maior será seu desvio-padrão
● Sendo a variância uma medida que expressa um desvio quadrático médio, esta pode causar
alguns problemas de interpretação. Para evitar, isto, costuma-se usar o desvio padrão, que é
definido como a raiz quadrada positiva da variância
Coeficiente de Variação
➔ Quando se analise a mesma variável em duas amostras, pode-se comparar os desvios padrão
observados e verificar onde a verificação é maior.
● Exemplo: se em uma delas a espessura da semente tem desvio padrão igual a 1.29mm e na
outra, s = 0,51mm, conclui-se que a variação é maior na primeira amostra
● Para comparar variabilidades, neste caso, deve-se usar o coeficiente de variação (CV), que é
uma medida de dispersão independente da unidade da mensuração da variável
● Haverá um coeficiente de variação para cada unidade de mensuração
● Geralmente expresso em porcentagem
● Vantajosa para comparação de distribuições cujas unidades podem ser diferentes
19
Júlia Souza
Critérios de Causalidade
Formas de Causalidade
Causa Necessária e Suficiente
➔ Aquela que está presente sempre que algo ocorre, e não está presente quando não acontece
➔ É portanto, necessária para que o efeito ocorra, e somente ela é suficiente para tal
➔ Ex.: A trissomia do cromossomo 21 é a causa necessária e suficiente para que a Síndrome de
Down ocorra.
Causa Necessária Não Suficiente
➔ É aquela que se estiver ausente, o efeito não ocorre, mas se estiver presente, não implica que o
efeito necessariamente ocorra.
➔ Ex.: Tuberculose
● A presença da bactéria causadora (Mycobacterium Tuberculosis) no pulmão não é suficiente
para que a doença ocorra, pois fatores imunológicos podem impedir a instalação ou
manifestação da doença
Fator de Risco
➔ É um fator cuja presença aumenta a chance de algo ocorrer, mas não pode ser implicado como
causa.
➔ Somente uma investigação detalhada e precisa decidirá se um fator de risco será considerado
uma causa ou não.
➔ Ex.: O fumo aumenta significativamente o risco de várias formas de câncer, mas não é provado
ser a causa.
➔ Da mesma forma temos o fator de proteção, que é um fator que quando está minimamente
presente numa população reduz de forma significativa o risco da doença
Causa X Associação
➔ A existência de uma associação não implica em relação causal
Postulados de Henle-Koch
➔ Fruto da revolução microbiológica
➔ Predomínio de doenças infecciosas e da explicação unicausal para doenças
● O agente deve estar presente em todos os casos da doença em questão (causa necessária)
● O agente não deve ocorrer de forma casual em outra doença (especificidade do efeito)
● Isolado do corpo e crescido em cultura, o agente inoculado em susceptíveis deve causar
doença (causa suficiente)
● Nada sobre a especificidade da causa
20
Júlia Souza
➔ Críticas:
● Existe o estado de portador
● Certos fatores podem ter múltiplos efeitos
● Difícil crescer em cultura certos agentes
● Evidências empíricas da multicausalidade
● Impróprio para doenças crônicas
Causa de Causalidade - Critérios de Hill
➔ Força de Associação: quanto mais forte uma associação, maior será a possibilidade de se tratar
de uma relação causal
➔ Consistência ou replicação: se o mesmo resultado é obtido em diferentes circunstâncias, a
hipótese causal seria fortalecida → Associações não causais podem ser consistentes e depende
o contexto do estudo (pop; métodos)
➔ Gradiente Biológico: curva dose-resposta → pode somente de outras variáveis e nem sempre
ela de fato existe
➔ Temporalidade: a causa deve sempre preceder o efeito → consensual
➔ Especificidade: causa levando a um só efeito e o efeito ter apenas uma causa → quase inútil
➔ Coerência: ausência de conflitos entre os achados e o conhecimento sobre a história natural da
doença → conservador
➔ Evidência experimental: estudos experimentais são de difícil realização em populações humanas
➔ Analogia: efeitos de exposições análogas existem? → serve mais para quebrar a resistência a um
novo conhecimento
➔ Plausibilidade: existe plausibilidade biológica para o efeito existir? → depende do conhecimento
acumulado até o momento
Modelos de Causalidade
➔ São maneiras de pensar a realidade e expressam nossa imaginação sobre com o mundo deve
funcionar
Modelo de causas suficientes e componentes (Rothman)
➔ Implicações:
● Multicausalidade: cada mecanismo causal envolve a ação conjunta de várias causas
componentes
● Força de associação: depende da prevalência das causas componentes
● Períodos de indução: para cada causa componente e não específico para a doença
● Controle de doenças: pode se basear em causas componentes isoladas
21
Júlia Souza
Método Científico
Raciocínio Epidemiológico
➔ Suspeita em relação a uma possível influência de um fator na ocorrência de uma doença
➔ Formulação de uma hipótese específica
➔ Teste da Hipótese através de estudos epidemiológicos que incluem grupos adequados para a
comparação
22
Júlia Souza
Regressão e Correlação
➔ As observações frequentemente estão misturadas com variações acidentais ou aleatórias
➔ É conveniente supor que cada observação é formada por duas partes:
● Previsível = controlada → Incorpora o conhecimento sobre o fenômeno, e é usualmente
expressa por uma função matemática com parâmetros desconhecidos
● Não previsível = aleatória → deve obedecer algum modelo de probabilidade
Observação = previsível + aleatório
yi = 𝛉 + ei
yi → Observação i
𝛉→ Efeito fixo, comum a todos os indivíduos
ei → “erro” da observação i, ou efeito residual ou aleatório
Exemplo.: considerando que o peso médio da população é de 𝛉 = 62 Kg, então o peso de cada
pessoa yi pode ser descrita pelo seguinte modelo
yi = 62 + ei
Cada ei determinará o peso de cada pessoa, em função de diversos fatores como: altura, sexo, idade
ei = f
A medida que relacionamos o peso com outras variáveis, ganhamos informação e diminuímos o erro
Regressão Linear
➔ Em uma análise de regressão linear consideramos apenas as variáveis que possuem uma relação
linear entre si
➔ Uma análise de regressão linear múltipla pode associar K variáveis independentes (X) para
“explicar” uma única variável dependentes (Y)
Y = 𝜷0 + 𝜷1X1 + 𝜷2X2 + … 𝜷kXk + e
➔ Uma análise de regressão linear simples associa uma única variável independente (X) com uma
variável dependente (Y)
Y = 𝜷0 + 𝜷1X + e
Interpretar os Parâmetros
➔ 𝜷0 → representa o ponto onde a reta corta o eixo Y (na maioria das vezes não possui
interpretação prática)
➔ 𝜷1→ representa a variabilidade em Y causada pelo aumento de uma unidade em X.
23
Júlia Souza
Estimação dos Parâmetros
Yˆi = βˆ 0+βˆ1X i
➔ Yˆ i é o valor estimado de Yi , através das estimativas de β0 e β1, que chamaremos de βˆ 0eβˆ1
➔ Para cada valor de Yi , temos um valor Yˆ i estimado pela equação de regressão
Yi = Yˆi +ei
➔ Portanto, o erro (ou desvio) de cada observação em relação ao modelo adotado será:
● ei = Yi −Yˆ i
● ei = Yi − (β0 + β1Xi)
➔ Devemos então adotar um modelo cujos parâmetros β0 e β1, tornem essa diferença a menor
possível.
➔ Isso equivale a minimizar a soma de quadrados dos resíduos (SQR), ou do erro
Exercício.: A tabela a seguir relaciona as distâncias percorridas por carros (km) e seus consumos
de combustível (litros), em uma amostra de 10 carros novos.
DISTÂNCIA 20 00 60 00 15 00 45 00 35 00 80 00 70 00 73 28 00 85 00
CONSUMO 1.335 451 663 46 2.92 6.15 4.11 5 2.95 6.54
A. Faça um diagrama de dispersão
B. Traçe um modelo linear aproximado
C. Estime osparâmetros βˆ 0eβˆ 1
D. Interprete o resultado. Pode-se concluir que para percursos mais longos há maior
consumo de combustível?
E. Faça uma predição do consumo de combustível para uma distância de 50 km.
24
Júlia Souza
Correlação
➔ Estuda o grau de relacionamento entre as variáveis X e Y , ou seja, uma medida de variabilidade
entre elas.
➔ É considerada como uma medida de influência mútua entre variáveis, por isso não é necessário
especificar quem influencia e quem é influenciado.
Coeficiente de Determinação - r2
➔ É o quadrado do coeficiente de correlação, por consequência 0 ≤ r 2 ≤1
➔ O r2 dá a porcentagem de variação em Y que pode ser explicada pela variável independente X
➔ Quanto mais próximo de 1, maior é a explicação da variável Y pela variável X .
25
Júlia Souza
Inferência Estatística
➔ Processo de obtenção de conclusões confiáveis sobre uma população geral, baseando-se em
uma amostragem de dados.
Teste de Hipóteses
➔ Como na maioria das vezes, os dados provêm de amostras, a decisão final a respeito de uma
hipótese científica está associada a uma probabilidade de erro
➔ Examina duas hipóteses opostas sobre uma população:
● Hipótese nula → é a declaração de “nenhum efeito” do que está sendo testado
● Hipótese alternativa → é a declaração que você quer ser capaz de concluir como verdadeira
➔ O erro de decisão não pode ser evitado, mas sua probabilidade pode ser controlada ou
mensurada, obtendo-se assim uma medida de validade das conclusões obtidas
➔ Bilateral ou Não Direcional
● É apropriada para determinar se o conteúdo a ser analisado está dentro ou fora de uma
média
● Ex.: Um pesquisador possui resultados para uma amostra de estudantes que fizeram um
exame nacional em uma escola secundária e deseja saber se as notas nessa escola são
diferentes da média nacional de 850.
➔ Unilateral ou Hipótese Direcional
● Pode ser usada quando está especificamente levantando a hipótese de que o conteúdo
analisado está acima da média.
● Ex.: Um pesquisador tem resultados de exames para uma amostra de alunos que fizeram um
curso de formação para um exame nacional e quer saber se os alunos formados obtiveram
pontuação acima da média nacional de 850.
Conceitos
➔ Distribuição amostral de uma estatística: Mostra os resultados esperados, visto que as
condições de tamanho da amostra estatística usada e o valor do parâmetro são estabelecidos.
➔ Erro padrão de uma distribuição amostral: Corresponde ao desvio-padrão de uma distribuição
empiricamente obtida. Ele nos dá uma indicação sobre a dispersão da distribuição e quanto
maior a amostra, menor o erro padrão da amostra.
➔ Probabilidade de confiança: É quando podemos estimar a probabilidade de que uma medida
populacional realmente recaia dentro do intervalo de valores, centrados na estatística amostral.
➔ Valores críticos: São os valores da estatística tabelada, para os diversos significância
determinados níveis de mediante o áreas de emprego das tabelas de distribuições ( Z, t , F ) e
de outras tabelas estatísticas não paramétricas.
➔ Nível de significância: É a máxima probabilidade de rejeitar H0 sendo verdadeira. Esta
probabilidade (alfa) é especificada antes da extração da amostra de modo que os resultados
não influenciam na escolha. Na prática usamos 1% ou 5%.
➔ Erros:
● Tipo I: Quando a hipótese H0 é rejeitada e é verdadeira.
● Tipo II: É o erro cometido quando aceitamos uma hipótese nula falsa
26
Júlia Souza
Lista de Exercícios
Questão 1
A tabela abaixo apresenta incorreções, do ponto de vista da apresentação tabular. Analise os erros e
refaça corretamente a tabela.
Questão 2
O Centro de Saúde da área A, em 1999, fez uma pesquisa de campo, para conhecer a situação
sanitária dos poços artesianos da área. Foram percorridos, então, os 100 domicílios com poços da
área A. Dos 100 domicílios, 30 estavam na zona rural e os demais eram urbanos. Quanto à situação
dos poços artesianos, 20 domicílios apresentavam poços contaminados e os demais apresentavam
poços não contaminados. Sabendo-se que apenas cinco domicílios urbanos apresentaram poços
contaminados, construa uma tabela completa para apresentar esses resultados
Questão 3
Um levantamento foi realizado com o objetivo de estimar a prevalência de verminose entre
escolares. Foram observadas 500 crianças, das quais 280 eram do sexo masculino e, entre elas, 196
apresentaram sinais de verminose. Entre as meninas, 50% apresentavam sinais de verminose.
Construa a distribuição de frequência com esses dados No total (500), qual a proporção de
estudantes com sinais de verminose? Comente os resultados encontrados
Questão 4
No hospital X em 1999 apresentou um movimento de 10.000 internações em 3 clínicas (Pediátrica,
Ortopédica e Cirúrgica). A Clínica Cirúrgica contribuiu com 50% dessas internações. Na Pediátrica
foram internadas 4000 crianças, das quais 2.500 eram do sexo masculino. Na ortopédica houve o
mesmo número de pacientes em casa sexo. Os pacientes do sexo feminino eram 4.000. Construa
uma tabela completa com esses dados informados pelo Serviço de Arquivamento Médico e
Estatístico (SAME) do hospital.
Questão 5
Apresente os dados da tabela em um gráfico apropriado.
Tabela 1: Distribuição de crianças segundo nível de retinol sérico. Cansanção, Bahia, 1992.
27
Júlia Souza
Questão 6
Apresente os dados da tabela em:
A) Um histograma
B) Um polígono de frequências.
Questão 7
Calcule a percentagem de homens e mulheres que trabalham num banco, sabendo-se que nesse
banco há 45 homens e 15 mulheres.
Questão 8
Determine a percentagem de notas negativas, em Cálculo, de uma turma de 22 alunos, sabendo que
7 tiraram notas negativas. (apresente o resultado com 1 casa decimal).
Questão 9
Em certa eleição municipal foram obtidos os seguintes resultados:
O número de votos obtido pelo candidato vencedor foi:
A) 178
B) 182
C) 184
D) 188
E) 191
28

Continue navegando