Prévia do material em texto
1
2
SUMÁRIO
1 ESTATÍSTICA: HISTÓRICO .............................................................. 5
2 ESTATÍSTICA: DEFINIÇÕES E CONCEITOS .................................. 6
2.1 Ferramentas e aplicações da estatística ..................................... 7
3 ESTATÍSTICA VITAL E BIOESTATÍSTICA ....................................... 8
3.1 Dados .......................................................................................... 9
3.2 Processos Estatísticos de Abordagem ...................................... 12
3.3 Dados Estatísticos ..................................................................... 13
3.4 Dados ou Variáveis Estatísticas ................................................ 15
3.5 Fases do Experimento (ou método) Estatístico ......................... 16
3.6 Coleta de Dados ........................................................................ 18
4 CRÍTICA DOS DADOS .................................................................... 20
5 APURAÇÃO OU PROCESSAMENTO DOS DADOS
(APRESENTAÇÃO DOS DADOS) ................................................................... 21
6 EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS (TABELAS E
GRÁFICOS) ..................................................................................................... 21
7 ANÁLISE E INTERPRETAÇÃO DOS DADOS ................................. 22
7.1 Estatística Descritiva ................................................................. 23
7.2 Distribuições de Frequência ...................................................... 23
8 REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE
FREQUÊNCIA .................................................................................................. 26
8.1 Diagrama de Setores (Gráfico de Pizza) ................................... 27
8.2 Diagrama de Coluna/Barras ...................................................... 29
8.3 Diagrama de Linhas Simples/Em Faixa ..................................... 30
8.4 Diagrama de Linhas Simples ..................................................... 30
8.5 Diagrama de Linhas em Faixa ................................................... 31
9 MEDIDAS ESTATÍSTICAS .............................................................. 32
3
9.1 Medidas de Tendência Central .................................................. 33
9.2 Os quartis .................................................................................. 42
9.3 Os Percentis .............................................................................. 43
10 MEDIDAS DE DISPERSÃO.......................................................... 44
10.1 Amplitude Total ...................................................................... 45
10.2 Variância ................................................................................ 46
10.3 Desvio-padrão ........................................................................ 46
11 PROBABILIDADE ......................................................................... 49
11.1 Experimento Aleatório ............................................................ 50
11.2 Espaço Amostral .................................................................... 51
11.3 Eventos .................................................................................. 52
12 REGRAS DE PROBABILIDADE ................................................... 55
12.1 Propriedades da Probabilidade .............................................. 55
12.2 Teorema da Probabilidade Total ............................................ 56
12.3 Probabilidade Condicional e Regra Da Multiplicação ............... 60
12.4 Independência de Eventos ..................................................... 61
12.5 Distribuição de Probabilidade ................................................. 61
12.6 Distribuições Contínuas de Probabilidade ............................... 62
13 INFERÊNCIA ESTATÍSTICA ........................................................ 63
14 TEORIA ELEMENTAR DA AMOSTRAGEM ................................. 63
15 TEORIA DA ESTIMAÇÃO ............................................................ 64
15.1 Estimação por ponto .............................................................. 64
15.2 Intervalo de confiança para a média quando a variância é
conhecida 66
16 TESTES DE SIGNIFICÂNCIA ...................................................... 66
16.1 Hipótese Estatística ............................................................... 67
16.2 Passos para a Construção de um Teste de Hipóteses .......... 68
4
17 INTERVALO DE CONFIANÇA ..................................................... 69
17.1 Intervalo de confiança para média ......................................... 69
17.2 Intervalo de confiança ............................................................ 70
17.3 Amostragem ........................................................................... 70
17.4 Plano de Amostragem ............................................................ 70
17.5 Tipos de Amostragem ............................................................ 71
17.6 Tamanho da Amostra ............................................................. 72
18 REGRESSÃO ............................................................................... 73
18.1 Correlação .............................................................................. 73
18.2 Análise de Regressão ............................................................ 74
19 ORGANIZAÇÃO DA PESQUISA .................................................. 74
19.1 Estudo Descritivo ................................................................... 75
19.2 Estudo Caso-Controle ............................................................ 75
19.3 Estudos Tipo Coorte .............................................................. 75
19.4 Ensaios Clínicos Aleatorizados .............................................. 75
20 REGRESSÃO ............................................................................... 76
20.1 Correlação .............................................................................. 76
20.2 Análise de Regressão ............................................................ 76
21 ORGANIZAÇÃO DA PESQUISA .................................................. 77
21.1 Estudo Descritivo ................................................................... 77
21.2 Estudo Caso-Controle ............................................................ 78
21.3 Estudos Tipo Coorte .............................................................. 78
21.4 Ensaios Clínicos Aleatorizados .............................................. 78
BIBLIOGRAFIA ...................................................................................... 79
5
1 ESTATÍSTICA: HISTÓRICO
Fonte: grupoescolar.com
A origem da palavra Estatística está associada à palavra latina status
(Estado). Há indícios de que 3000 anos A.C. já se faziam censos na Babilônia,
China e Egito e até mesmo o 4º livro do Velho Testamento faz referência à uma
instrução dada a Moisés, para que fizesse um levantamento dos homens de
Israel que estivessem aptos para guerrear.
Usualmente, estas informações eram utilizadas para a taxação de
impostos ou para o alistamento militar. O Imperador César Augusto, por
exemplo, ordenou que se fizesse o Censo de todo o Império Romano. A palavra
CENSO é derivada da palavra CENSERE, que em Latim significa TAXAR.
Em 1085, Guilherme, O Conquistador, solicitou um levantamento
estatístico da Inglaterra, que deveria conter informações sobre terras,
proprietários, uso da terra, empregados e animais. Os resultados deste censo
foram publicados em 1086 no livro intitulado “Domesday Book” e serviram de
base para o cálculo de impostos.
Contudo, mesmo que a prática de coletar dados sobre colheitas,
composição da população humana ou de animais, impostos, etc.,As tentativas são independentes; isto é, o resultado de uma tentativa
particular não é afetado pelos resultados das outras tentativas.
Assim, a probabilidade de obtermos exatamente X sucessos em n
tentativas é a distribuição binomial:
12.6 Distribuições Contínuas de Probabilidade
De modo geral, podemos dizer que as variáveis aleatórias cujos valores
resultam de algum processo de mensuração são variáveis aleatórias contínuas.
Distribuição Normal: A distribuição normal é uma distribuição em forma de
sino que é usado muito extensivamente em aplicações estatísticas em campos
bem variados. Sua densidade de probabilidade (f.d.p.) é dada por:
Distribuição Normal Padrão: Caracterizada pela média igual a zero e desvio
padrão igual a 1.
63
13 INFERÊNCIA ESTATÍSTICA
Consiste em um conjunto de procedimentos por meio dos quais as
informações obtidas com base em dados amostrais são utilizadas para o
estabelecimento de conclusões e a tomada de decisões sobre a população da
qual a amostra foi extraída. Os problemas básicos da inferência estatística são:
o chamado teste de hipótese e a estimação. O problema de estimação
apresenta-se em todas as situações, seja no cotidiano ou em qualquer ciência.
A estimativa pode ser de uma média de uma medida de variabilidade ou de uma
proporção.
Distribuição Amostral É a distribuição que descreve o padrão de
variação dos valores de uma estatística, para diferentes amostras extraídas da
população de interesse, é denominada distribuição amostral.
Amostra Aleatória As observações X1, X2, ..., Xn constituem uma
amostra aleatória de tamanho n da população, se cada observação resulta de
seleções independentes dos elementos da população e se cada tem a mesma
distribuição da população da qual foi extraída.
14 TEORIA ELEMENTAR DA AMOSTRAGEM
A essa teoria é um estudo das relações existentes entre uma população
e as amostras dela extraídas. É útil em:
estimação de parâmetros populacionais;
determinação das causas de diferenças observadas entre
amostras.
Constitui o que chamamos de estatística indutiva ou inferência estatística
que consiste em inferir conclusões importantes sobre uma população a partir da
análise de resultados observados em amostras aleatórias. Como toda conclusão
deduzida a partir da amostragem é acompanhada de um grau de incerteza ou
risco, o problema fundamental da inferência estatística é medir este grau de
incerteza ou risco das generalizações.
64
Parâmetro: medida numérica que descreve uma população. Genericamente
representado por θ.
Exemplos: média (µ ), variância ( 2 σ ).
Estatística ou estimador: medida numérica que descreve uma amostra.
Genericamente representado por θ ˆ.
Exemplos: média ( x ), variância ( 2 S ). Estimativa: valor numérico de um
estimador. Erro amostral: erro que ocorre pelo uso da amostra. Denotado por ε
e definido por: ε =θ −θ ˆ.
15 TEORIA DA ESTIMAÇÃO
Um dos métodos para realizar inferências a respeito dos parâmetros é a
estimação, que determina estimativas dos parâmetros populacionais. Consiste
em utilizar dados amostrais para estimar (ou prever) os valores de parâmetros
populacionais desconhecidos, tais como média, desvio padrão, proporções, etc.
Existem dois tipos de estimação de um parâmetro populacional:
estimação por ponto e a estimação por intervalo.
15.1 Estimação por ponto
É a estimativa de um parâmetro populacional dada por um único número.
A partir das observações, usando o estimador, procura-se encontrar um
valor numérico único (estimativa) que esteja bastante próximo do verdadeiro
valor do parâmetro.
Este procedimento não permite julgar a magnitude do erro que podemos
estar cometendo, mas a distribuição por amostragem dos estimadores torna
possível o estudo das qualidades do estimador.
Na estimativa pontual, raramente os estimadores estatísticos coincidem
com os valores populacionais. Assim, é importante delimitar a faixa de valores
onde o parâmetro populacional deve ser procurado. Isso ocorre através das
estimativas intervalares.
Estimadores pontuais dos principais parâmetros populacionais:
65
Estimação por intervalo: Essa estimativa consiste em uma amplitude
(ou um intervalo) de valores, no qual se admite esteja o parâmetro populacional.
Procura determinar um intervalo que contenha o valor do parâmetro
populacional, com certa margem de segurança. Este procedimento permite
julgar a magnitude do erro que podemos estar cometendo.
Intervalo de Confiança: Quando se constrói um intervalo de confiança
são determinados dois limites entre os quais se espera estar o parâmetro da
população, de acordo com um risco conhecido de erro (ou nível de confiança).
As informações sobre a precisão de uma estimativa de intervalo são
transmitidas pela sua extensão. Se o nível de confiança for alto e o intervalo
resultante, bastante restrito, o conhecimento do valor do parâmetro será
razoavelmente preciso. Um intervalo de confiança muito amplo passa a ideia de
que há muita incerteza com relação ao valor que estamos estimando.
Com base na amostra, uma maneira de expressar a precisão da
estimação é calcular os limites de um intervalo, o Intervalo de Confiança (IC),
tais que (1 – α) seja a probabilidade de que o verdadeiro valor do parâmetro
esteja contido nele.
Portanto:
α = grau de desconfiança, nível de incerteza ou nível de significância.
1-α = coeficiente de confiança ou nível de confiabilidade;
Os valores de α mais utilizados são:
α = 0,10 →(1 – α) = 0,90 ou 90%
α = 0,05 →(1 – α) = 0,95 ou 95%
α = 0,01 →(1 – α) = 0,99 ou 99%
Estima-se que o verdadeiro valor do parâmetro estará contido em (1 – α).
Algumas estimativas intervalares incluem e outras não incluem o verdadeiro
valor do parâmetro da população. Ao se retirar uma amostra e calcular um
intervalo de confiança não se sabe, na verdade, se o parâmetro da população
se encontra naquele intervalo calculado. O importante é saber que se está
utilizando um método com (1 – α) de probabilidade de sucesso.
66
15.2 Intervalo de confiança para a média quando a variância é conhecida
Utiliza-se quando por quantidade de medidas ou por conhecimento
histórico do processo de medida, o valor do desvio padrão está perfeitamente
estabelecido de modo que o mesmo pode ser considerado como desvio padrão
da população.
Para grandes amostras, utiliza-se a seguinte fórmula:
Para populações finitas, utiliza-se a seguinte fórmula:
Intervalo de confiança para a proporção (grandes amostras)
Para populações finitas o IC será:
16 TESTES DE SIGNIFICÂNCIA
Testes de significância (também conhecidos como Testes de Hipóteses)
correspondem a uma regra decisória que nos permite rejeitar ou não rejeitar uma
hipótese estatística com base nos resultados de uma amostra.
67
Obs.: essas hipóteses são, em geral, sobre parâmetros populacionais e a
realização do teste se baseia na distribuição amostral dos respectivos
estimadores.
Exemplos: Foi discutido em aula: Parâmetro vs estimador.
16.1 Hipótese Estatística
É uma suposição quanto ao valor de um parâmetro populacional, ou uma
afirmação quanto à natureza da população.
Exemplos: discutido em aula
O teste de hipóteses
Consiste na comparação de duas hipóteses, chamadas Hipótese nula e
Hipótese alternativa.
Hipótese nula (H0):
Hipótese sobre a qual o teste é montado.
Na maior parte dos casos é a hipótese de que "não há diferença".
Em geral não é a hipótese que se deseja comprovar.
Hipótese alternativa (HA):
Conclusões possíveis de um Teste de hipóteses:
Rejeita a Hipótese nula (em favor da Hipótese alternativa considerada).
OU
Não rejeita a Hipótese nula (em relação à Hipótese alternativa).
Planejamento amostral:
A comparação de duas hipóteses é feita baseada em evidências experimentais(amostras), sujeitas a erros amostrais e/ou erros não-amostrais.
Erros amostrais: Erros previstos no planejamento amostral, oriundos de flutuações
amostrais - podem ser controlados e medidos.
68
Erros não-amostrais: quaisquer erros que não estejam previstos no planejamento
amostral – não problema, informações de pesquisa, etc.
Erros na conclusão do teste de hipóteses:
Por causa das flutuações amostrais, ao comparar duas hipóteses e tomar uma decisão,
pode-se tomar a decisão errada.
Dois tipos de erro:
Erro Tipo I (α): Rejeitar a hipótese nula quando na realidade ela é verdadeira.
Erro Tipo II (β): Não rejeitar a hipótese nula quando na realidade ela é falsa.
Como é possível rejeitar uma hipótese que é verdadeira?
O teste de hipóteses se baseia numa situação experimental (amostra), sujeita
a flutuações na amostra. Devido a essas flutuações, pode-se ter uma amostra que
não represente bem a população, levando a uma conclusão que não corresponde à
realidade.
16.2 Passos para a Construção de um Teste de Hipóteses
Passo 1. Fixe qual a hipótese H0 a ser testada e qual a hipótese alternativa HA;
Passo 2. Use a teoria estatística e as informações disponíveis para decidir qual
estatística (estimador) será usada para testar a hipótese H0. Obter as propriedades
dessa estatística (distribuição, média, desvio padrão).
Passo 3. Fixe a probabilidade α de cometer o erro tipo I e use este valor para
construir a região crítica (regra de decisão). Lembre-se esta região é construída para
a estatística definida no passo 2, usando os valores do parâmetro hipotetizado por
H0;
Passo 4. Use as observações da amostra para calcular o valor da estatística de teste;
Passo 5. Se o valor da estatística calculado com os dados da amostra não pertencer
à região crítica, não rejeite H0; caso contrário, rejeite H0.
69
17 INTERVALO DE CONFIANÇA
Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro
de interesse de uma população. Em vez de estimar o parâmetro por um único
valor, é dado um intervalo de estimativas prováveis. O quanto estas estimativas
são prováveis será determinado pelo coeficiente de confiança ,
para .
Intervalos de confiança são usados para indicar a confiabilidade de uma
estimativa. Por exemplo, um IC pode ser usado para descrever o quanto os
resultados de uma pesquisa são confiáveis. Sendo todas as estimativas iguais,
uma pesquisa que resulte num IC pequeno é mais confiável do que uma que
resulte num IC maior.
17.1 Intervalo de confiança para média
Quando queremos estimar a média de uma população através de uma
amostra temos dois casos distintos a considerar: quando a variância da
população é conhecida e quando ela é desconhecida.
70
17.2 Intervalo de confiança
É um tipo de estimativa por intervalo de um parâmetro
populacional desconhecido. É um intervalo observado (calculado a partir de
observações) que pode variar de amostra para amostra e que com dada
frequência (nível de confiança) inclui o parâmetro de interesse real não
observável.
Como os dados observados são amostras aleatórias da população, o
intervalo de confiança construído a partir dos dados também é
aleatório. Entretanto, o intervalo de confiança calculado a partir de uma amostra
particular não inclui necessariamente o valor real do parâmetro.
Quando se tem 99% de confiança de que o valor real do parâmetro está
no intervalo de confiança, significa que 99% dos intervalos de confiança
observados têm o valor real do parâmetro. Tomando–se qualquer amostra
particular, o parâmetro populacional desconhecido pode ou não pode estar no
intervalo de confiança observado.
17.3 Amostragem
É o processo de retirada de informações dos "n" elementos amostrais,
na qual deve seguir um método adequado (tipos de amostragem).
17.4 Plano de Amostragem
1º) Definir os Objetivos da Pesquisa
2º) População a ser amostrada
População (N)
Amostragem
Amostra (n)
71
Parâmetros a ser estimados (Objetivos)
3º) Definição da Unidade Amostral
Seleção dos Elementos que farão parte da amostra
4º) Forma de seleção dos elementos da população
- Tipo de Amostragem
a) Estratificada
b) Aleatória Simples
c) Sistemática
d) Por Conglomerados
5º) Tamanho da Amostra
Exemplo: Moradores de uma Cidade (população alvo)
Objetivo: Tipo de Residência
Própria.....................um piso
Alugada....................dois pisos.
Emprestada...............três ou mais pisos
Unidade Amostral: Domicílios (residências)
Elementos da População: Família por domicílio
Tipo de Amostragem: Aleatória simples
Estratificada
Sistemática
17.5 Tipos de Amostragem
Amostragem Simples ou Ocasional
É o processo mais elementar e frequentemente utilizado. Todos os
elementos da população têm igual probabilidade de serem escolhidos. Para uma
população finita o processo deve ser sem reposição.
Todos os elementos da população devem ser numerados. Para realizar o
sorteio dos elementos da população devemos usar a Tabela de Números
Aleatórios.
72
Amostragem Sistemática
Trata-se de uma variação da Amostragem Aleatória Ocasional,
conveniente quando a população está naturalmente ordenada, como fichas em um
fichário, lista telefônica, etc.
Exemplo: N = 5000, n = 50, r = N / n = 10 (P. A. de razão 5)
Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x =
3), o número sorteado refere-se ao 1º elemento da amostra, logo os elementos da
amostra serão:
3 13 23 33 43 ......
Para determinar qualquer elemento da amostra podemos usar a fórmula
do termo geral de uma P.A.
an = a1 + (n – 1). r
Amostragem Estratificada
É um processo de amostragem usado quando nos depararmos com
populações heterogêneas, na qual pode-se distinguir subpopulações mais ou
menos homogêneas, denominados estratos.
Após a determinação dos estratos, seleciona-se uma amostra aleatória de
cada uma subpopulação (estrato).
As diversas subamostras retiradas das subpopulações devem ser
proporcionais aos respectivos números de elementos dos estratos, e guardarem
a proporcionalidade em relação à variabilidade de cada estrato, obtendo-se uma
estratificação ótima.
Tipos de variáveis que podem ser usadas em estratificação: idade, classes
sociais, sexo, profissão, salário, procedência, etc.
17.6 Tamanho da Amostra
Os pesquisadores de todo o mundo, na realização de pesquisas
científicas, qualquer setor da atividade humana, utilizam as técnicas de
amostragem no planejamento de seus trabalhos. Na teoria da amostragem, são
consideradas duas dimensões:
1ª) Dimensionamento da Amostra;
73
2ª) Composição da Amostra.
Procedimentos para determinar o tamanho da amostra
1º) Analisar o questionário, ou roteiro da entrevista e escolher uma variável
que julgue mais importante para o estudo. Se possível mais do que uma;
2º) Verificar o nível de mensuração da variável: nominal, ordinal ou
intervalar;
3º) Considerar o tamanho da população: infinita ou finita
18 REGRESSÃO
18.1 Correlação
Coeficiente de Correlação
O coeficiente de correlação (r) representa a relação entre duas ou mais
variáveis. O valor de r está sempre entre –1 e +1. Quando r = 0 não há correlação
entre as variáveis. Temos correlação positiva quando r > 0 e correlação negativa
quando rNíveis de correlação
Valor Correlação
R = 0 nula
0 0 e correlação negativa
quando r1982.
LAPPONI, J. C. Estatística Usando Excel. São Paulo: Editora Lapponi, 2000.
LEVIN, J. Estatística Aplicada a Ciências Humanas, 2a edição. São Paulo:
Editora Harper & Row do Brasil Ltda, 1978.
STEVENSON, W. J. Estatística Aplicada à Administração. São Paulo: Editora
Harper & Row do Brasil Ltda, 1981.
TRIOLA, M. F. Introdução à Estatística. Rio de Janeiro: Livros Técnicos e
Científicos Editora S.A., 7a ed. 1999.
GRIFFITHS, D. Use a Cabeça. Estatística, Editora Alta Books, Rio de Janeiro,
2009.
JR, P.J.R. Intervalos de confiança. Disponível em
https://uspdigital.usp.br/apolo/apoObterAtividade?cod_oferecimentoatv=16754.
Acesso em 27 set. 2018.
WERKEMA M. C. C., AGUIAR S. Série Ferramentas da Qualidade: Análise de
Regressão: Como Entender o Relacionamento entre as Variáveis de um
Processo.Volume 7, Minas Gerais: Editora Líttera Maciel Ltda, 1996.
HAZZAN S. Fundamentos de Matemática Elementar: Combinatória,
Probabilidade, volume 5, 6ª edição. São Paulo: Editora Atual Editora Ltda 1996.
UFRN. Bioestatística. Disponível em
http://sedis.ufrn.br/bibliotecadigital/site/pdf/biologia/Bioestatistica_LIVRO_WEB.
pdf. Acesso em 25 set. 2018.
TRIOLA, M.F, Introdução à Estatística, Livros Técnicos e Científicos, 7ª ed,,
Rio de Janeiro, 1999.fosse
conhecida pelos egípcios, hebreus, caldeus e gregos, e se atribuam a Aristóteles
cento e oitenta descrições de Estados, apenas no século XVII a Estatística
6
passou a ser considerada disciplina autônoma, tendo como objetivo básico a
descrição dos BENS do Estado.
As primeiras aplicações da estatística estavam voltadas para as
necessidades de Estado, na formulação de políticas públicas, fornecendo
dados demográficos e econômicos à administração pública.
No século XVIII, Godofredo Achenwall batizou esses estudos como uma
nova ciência com o nome de Estatística. Surgiram tabelas mais complexas,
representações gráficas e cálculo de probabilidade. Formou-se a ferramenta que
através da observação de partes (amostras) chega-se a conclusões sobre um
todo (população).
A abrangência da estatística aumentou no começo do século XIX para
incluir a acumulação e análise de dados de maneira geral.
2 ESTATÍSTICA: DEFINIÇÕES E CONCEITOS
Fonte: posgraduando.com
A Estatística é considerada por alguns autores como Ciência no sentido
do estudo de uma população. É considerada como método quando utilizada
como instrumento por outra Ciência.
A palavra estatística frequentemente está associada à imagem de
aglomeração de números, dispostos em uma imensa variedade de tabelas e
gráficos, representando informações tão diversas como nascimentos, mortes,
taxas, populações, rendimentos, débitos, créditos, etc. Isto é devido ao uso
comum da palavra estatística como sinônimo de dados, como, por exemplo,
7
quando falamos das estatísticas de uma eleição, estatísticas da saúde,
estatísticas de acidente de trânsito ou as estatísticas de acidentes de trabalho.
No sentido moderno da palavra, estatística lida com o desenvolvimento e
aplicação de métodos para coletar, organizar, analisar e interpretar dados de tal
modo que a segurança das conclusões baseada nos dados pode ser avaliada
objetivamente por meio de proposições probabilísticas.
O propósito da estatística não é exclusivo de qualquer ciência isolada. Ao
contrário, a estatística fornece um conjunto de métodos úteis em toda área
científica onde haja a necessidade de se coletar, organizar, analisar e interpretar
dados. Estes métodos podem ser usados tão eficazmente em engenharia, como
em biologia ciências sociais ou em física.
2.1 Ferramentas e aplicações da estatística
Estatística pode ser pensada como a ciência de aprendizagem a partir de
dados. Em linhas gerais, ela fornece métodos que auxiliam o processo de
tomada de decisão a partir de dados.
Durante sua aplicação, a estatística:
Coleta, organiza, sintetiza e faz a apresentação de dados;
Faz o levantamento de dados e mede a variação que pode ocorrer nestes;
Produz a estimativa dos parâmetros da população e se preocupa com a
determinação da precisão das estimativas;
Aplica os testes de hipótese em relação aos parâmetros;
Realiza a análise da relação entre duas ou mais variáveis.
Algumas ciências utilizam a estatística aplicada largamente, e possuem
uma terminologia especializada, por exemplo:
Bioestatística Controle de qualidade
Contabilometria Controle de qualidade
Estatística comercial Controle de qualidade
Estatística populacional Estatística engenharia
Geoestatística Estatística social
8
Pesquisa operacional
3 ESTATÍSTICA VITAL E BIOESTATÍSTICA
Fonte: br.depositphotos.com
A ciência não é apenas a descrição de fatos, organização de dados,
enunciação de leis, apresentação de novas descobertas.
O método científico, exige organização de dados, análise, tomadas de
decisões em condições de incerteza. E nos dá suporte técnico através da
estatística (ferramenta do método científico).
Estatística Vital é instrumento de mensuração dos níveis de saúde,
servindo para planejamento, programação e avaliação dos serviços de saúde. A
estatística vital e a Bioestatística é a estatística aplicada às ciências médicas e
biológicas. São fundamentais à epidemiologia, à ecologia, à psicologia social e
à medicina baseada em evidência, entre outras.
A necessidade da criação e uso desses termos se deve por
particularidades dessa área como: Familiarização com o jargão próprio da área.
Alguns termos d vocabulário comum têm significado técnico e científico
específico quando usado em bioestatística.
9
Por meio da atuação e uso da Bioestatística é possível a análise e
ponderação sobre os dados relacionados à saúde, os quais a partir disso podem
ser usados para:
Estruturar a organização e
ações para a assistência em
saúde.
Comprovar a eficácia de novas
drogas/vacinas.
Desenvolver pesquisas. Analisar dados obtidos de
experimentos.
Comprovar a eficácia de
tratamentos.
Identificar, planificar e executar
ações de saúde pública.
Como a bioestatística e a estatística vital são uma terminologia da
estatística, elas adotam as etapas e os métodos da própria estatística.
Como a Estatística é a ciência que trata da coleta, do processamento e
da disposição dos dados, sua primeira etapa está relacionada aos dados.
3.1 Dados
Coleta de dados
Fonte: emaze.com
10
Diversos problemas podem ocorrer durante o processo de coleta de
dados, os quais podem comprometer seriamente as soluções propostas no final
do processo, ou seja, a qualidade da solução do problema de gestão está
diretamente relacionada com a qualidade dos dados obtidos. Podemos evitar
que alguns problemas ocorram observando fatos como:
Não se deve coletar dados sem que antes se tenha definido claramente o
problema ou situação a ser enfrentada, bem como os objetivos com relação aos
mesmos:
Os sistemas de medição (instrumento, operadores, método, meio)
que serão utilizados devem ser avaliados e ter capacidade de
medição.
Os cálculos e leituras devem ser feitos com muita atenção para evitar
distorções.
Devem ser utilizados métodos adequados para coleta de dados de
acordo com o problema estudado.
Após a definição do problema a ser estudado e o estabelecimento do
planejamento da pesquisa (forma pela qual os dados serão coletados;
cronograma das atividades, custos envolvidos; exame das informações
disponíveis; delineamento da amostra etc.), o passo seguinte é a coleta de
dados, que consiste na busca ou compilação dos dados das variáveis,
componentes do fenômeno a ser estudado.
A coleta de dados pode ser direta ou indireta.
Coleta direta: Quando os dados são obtidos na fonte originária. Os valores
assim compilados são chamados de dados primários, como, por exemplo,
nascimentos, casamentos e óbitos, todos registrados no Cartório de Registro
Civil; opiniões obtidas em pesquisas de opinião pública, ou ainda, quando os
dados são coletados pelo próprio pesquisador.
A coleta direta pode ser classificada relativamente ao fator tempo em:
Contínua: Quando feita continuamente, como por exemplo,
nascimentos e óbitos, frequência dos alunos às aulas;
Periódica: Quando é feita em intervalos constantes de tempo,
como os censos (de 10 em 10 anos);
11
Ocasional: Quando é feita sem época preestabelecida.
Coleta indireta: Quando os dados obtidos provêm da coleta direta. Os valores
assim compilados são denominados de dados secundários, como, por exemplo,
o cálculo do tempo de vida média, obtido pela pesquisa, nas tabelas
demográficas publicadas pela Fundação Instituto Brasileiro de Geografia e
Estatística – IBGE constitui-se em uma coleta indireta.
Objetivando o estudo quantitativo e qualitativo dos dados (ou
informações), obtidos nos vários campos da atividade científica, a Estatística
manipula dois conjuntos de dados fundamentais: a "população" e a "amostra".
População
População (ou Universo) é o conjunto dos seres, objetos ou informações
que interessam ao estudo de um fenômeno coletivo segundo alguma (s)
característica(s). É, portanto, um conjunto definido de informações relativas a
qualquer área de interesse, podendo, quanto ao número de elementos, ser: finita
(tamanho N) ou infinita.
Na maioria das vezes não é conveniente, ou mesmo possível, realizar o
levantamento dos dados referentes a todos os elementos de uma população.
Portanto, analisamos parte da população, isto é, uma amostra.
Amostra
É um subconjunto não vazio ou parte da população. Duas considerações
devem ser feitas sobre o estudo amostral dos fenômenos:
Uma diz respeito aos cuidados que se deve tomar para assegurar que a
amostra seja representativa da população. Para atender a essa exigência, deve-
se selecionar os elementos de forma aleatória, de modo que todo e qualquer
elemento da população tenha a mesma chance de participar da amostra.
A outra diz respeito à precisão dos dados coletados, buscando
minimizar os erros que poderiam induzir a conclusões equivocadas.
O número de elementos de uma amostra é chamado de tamanho da
amostra, e denotado por n.
12
Algumas definições
Parâmetro
Uma característica numérica estabelecida para
toda uma população é denominada parâmetro.
São valores, geralmente desconhecidos (e que,
portanto, têm de ser estimados), que
representam certas características da
população.
Estimador
É uma característica baseada em observações
amostrais e usada para indicar o valor de um
parâmetro populacional desconhecido.
Estimativa O valor numérico assumido pelo estimador
numa determinada amostra é denominada
estimativa.
Exemplo: No fenômeno coletivo eleição para reitor da UFPB, a população é o
conjunto de todos os eleitores habilitados na Universidade. Um parâmetro é a
proporção de votos do candidato A. Uma amostra pode ser um grupo de 300
eleitores selecionados em toda a UFPB. Um estimador é a proporção de votos
do candidato A obtida na amostra. O valor resultante do estimador, a proporção
amostral, é a estimativa.
3.2 Processos Estatísticos de Abordagem
Quando solicitados a estudar um fenômeno coletivo podemos optar entre os
seguintes processos estatísticos:
Censo: Avaliação direta de um parâmetro, utilizando-se todos os
componentes da população. Entre as principais características de um Censo,
podemos destacar: admite erro processual zero e tem confiabilidade 100%, caro,
lento e quase sempre desatualizado. Nem sempre é viável.
Amostragem (inferência): Avaliação indireta de um parâmetro, com
base em um estimador através do cálculo das probabilidades. Entre as
principais características, podemos destacar: admite erro processual
13
positivo e tem confiabilidade menor que 100%, é barata, rápida e
atualizada. É sempre viável.
3.3 Dados Estatísticos
Fonte: indaiabira.mg.gov.br
Normalmente, no trabalho estatístico, o pesquisador se vê obrigado a lidar
com grande quantidade de valores numéricos resultantes de um censo ou de
uma amostragem. Estes valores numéricos são chamados dados estatísticos.
A Estatística ensina métodos racionais para a obtenção de informações a
respeito de um fenômeno coletivo, além de obter conclusões válidas para o
fenômeno e também permitir tomada de decisões, através dos dados estatísticos
observados.
Desta forma, a estatística pode ser dividida em duas áreas: Estatística
Descritiva e Estatística Inferencial.
Estatística Descritiva: É a parte da Estatística que tem por objetivo descrever
os dados observados. A Estatística Descritiva, na sua função de descrição dos
dados, tem as seguintes atribuições:
A obtenção dos dados estatísticos: ou coleta dos dados é normalmente
feita através de um questionário ou de observação direta de uma
população ou amostra.
14
A organização dos dados: consiste na ordenação e crítica quanto à
correção dos valores observados, falhas humanas, omissões, abandono
de dados duvidosos, etc.
A redução dos dados: envolve o entendimento e a compreensão de
grande quantidade de dados através de simples leitura de seus valores
individuais.
A representação dos dados: compreende de técnicas para uma melhor
visualização dos dados estatísticos, facilitando sua compreensão. Por
exemplo, os gráficos, quando bem representativos, tornam-se
importantes instrumentos de trabalho.
A obtenção de algumas informações que auxiliam a descrição do
fenômeno observado.
Estatística Inferencial (ou indutiva): é a parte da Estatística que tem por
objetivo obter e generalizar conclusões para a população a partir de uma
amostra. Complementando o processo descritivo, a Estatística Indutiva estuda
parâmetros a partir do uso de estimadores usando o cálculo das probabilidades,
elemento este que viabiliza a Inferência Estatística.
Fonte: ceciliatomasmpel5mico.blogspot.com
15
3.4 Dados ou Variáveis Estatísticas
As informações ou dados característicos dos fenômenos ou populações são
denominados variáveis estatísticas ou simplesmente variáveis. Conforme suas
características particulares podem ser classificadas da seguinte forma:
Quantitativas: São aquelas que podem ser expressas em termos
numéricos. Em geral são as resultantes de medições, enumerações ou
contagens. São subdivididas em contínuas e discretas:
Contínuas: São aquelas que podem assumir qualquer valor num
certo intervalo de medida, podendo ser associados ao conjunto dos
números reais, ou seja, é um conjunto não enumerável. Entre outras,
enquadram-se nesta categoria as medidas de tempo, comprimento,
espessura, área, volume, peso, velocidade, dosagem de hemoglobina
no sangue, concentração de flúor na água oferecida à população, etc.
Discretas: Quando só podem assumir determinados valores num
certo intervalo, ou seja, é um conjunto finito ou enumerável. Em geral,
representam números inteiros resultantes de processo de contagem,
como o número de alunos por sala, de créditos por disciplinas, de
pacientes atendidos diariamente num hospital, etc.
De modo geral, as medições dão origem a variáveis contínuas e as
contagens ou enumerações, a variáveis discretas. Designamos estas variáveis
por letras latinas, em geral, as últimas: X, Y, Z.
Qualitativas: Nem sempre os elementos de uma população são
exclusivamente contáveis. Muitas vezes, eles podem ser qualificados também
segundo algumas de suas características típicas.
Nesses casos, as variáveis podem ser agrupadas em nominais ou ordinais
(por postos):
Nominais: Quando puderem ser reunidas em categorias ou espécies
com idênticos atributos. Aqui se incluem os agrupamentos por sexo,
área de estudo, desempenho, cor, raça, nacionalidade e religião.
16
Ordinais: Quando os elementos forem reunidos segundo a ordem em
que aparecem dispostos numa lista ou rol. São típicas desta forma de
agrupamento, variáveis como classe social, grau de instrução, entre
outras. Em geral, uma mesma população pode ser caracterizada por
mais de um tipo de variável. Assim, os inscritos num vestibular, por
exemplo, podem ser contados, medidos ou pesados, podem ser
agrupados segundo o sexo ou área de estudo e podem ainda ser
classificados segundo as notas obtidas nas provas prestadas.
Fonte: youtube.com
3.5 Fases do Experimento (ou método) Estatístico
Fonte: slideplayer.com.br
17
Num estudo estatístico, normalmente, segue-se um conjunto de passos
que designamos por fases do método (ou experimento) estatístico.
Essas fases variam entre cinco e sete, pois alguns autores mesclam duas
ou três fases, em apenas uma, para um melhor entendimento.
Em linhas gerais, podemos distinguir no método estatístico as seguintes
etapas:
Definição do Problema
Saber exatamente o que se pretende pesquisar, ou seja, definir
corretamente o problema. Essa primeira fase consiste na formulação correta do
problema a ser estudado.
PlanejamentoÉ o trabalho inicial de coordenação no qual define-se a população a ser
estudada estatisticamente, formulando-se o trabalho de pesquisa através da
elaboração de questionário, entrevistas, etc.
A organização do plano geral implica em obter respostas para uma série
tradicional de perguntas, antes mesmo do exame das informações disponíveis
sobre o assunto, perguntas que procuram justificar a necessidade efetiva da
pesquisa, a saber:
Quem", "o que", "sempre", "por que", "para que", "para quando".
Por exemplo: O Governo do Estado tem a necessidade de obter
informações acerca do desempenho em Biologia dos estudantes matriculados
na rede pública de ensino.
O primeiro trabalho da equipe encarregada da pesquisa será,
evidentemente, o de obter respostas para aquelas perguntas. Seriam então:
Ainda na fase do planejamento, temos:
* Quem deseja as informações?
* O que devemos perguntar no questionário?
* A pesquisa será periódica ou ocasional? Será executada
sempre?
* Por que desejam as informações?
* Quando deverá estar concluída a pesquisa?
* Qual a época oportuna para a aplicação dos
questionários?
* Para que desejam as informações?
18
O Exame das Informações Disponíveis
Trabalho inicial de coleta de trabalhos ou publicações sobre o assunto,
obtendo-se relatórios sobre atividades semelhantes ou correlatas;
A Definição do Universo
Isto é, saber qual o conjunto a ser pesquisado, distribuindo, classificando
ou agrupando os elementos desse conjunto em subpopulações, para permitir um
trabalho mais fácil, mais lógico, mais racional;
O tipo de levantamento, Censo ou Amostragem
Deverá ser decidido com a devida antecedência e a necessária análise
das vantagens e desvantagens de um e de outro, em virtude do custo financeiro
e do prazo determinado para a conclusão do trabalho.
3.6 Coleta de Dados
Fonte: researchgate.net
Após cuidadoso planejamento e a devida determinação das
características mensuráveis do fenômeno coletivamente típico que se quer
pesquisar, damos início à coleta dos dados numéricos necessários à sua
descrição. A coleta dos dados poderá ser feita de diversas formas.
19
A ideal é aquela que maximiza os recursos disponíveis, dados os objetivos
e a precisão previamente estipulados. No seu planejamento, deve-se considerar
o tipo de dado a ser coletado, o local onde este se manifestará, a frequência de
sua ocorrência, e outras particularidades julgadas importantes. Quando os dados
se referirem ou estiverem em poder de pessoas, sua coleta poderá ser realizada
mediante respostas a questionários previamente elaborados.
Esses questionários podem ser enviados aos entrevistados para
devolução posterior ou podem ser aplicados pelos próprios pesquisadores ou
por entrevistadores externos ou contratados. Os dados ou informações
representativas dos fenômenos ou problema em estudo podem ser obtidos de
duas formas: por via direta ou por via indireta.
Por Via Direta: Quando feita sobre elementos informativos de registro
obrigatório (Exemplo: fichas no serviço de ambulatório, nascimentos,
casamentos, óbitos, matrículas de alunos etc.) ou, ainda, quando os dados são
coletados pelo próprio pesquisador através de entrevistas ou questionários. A
coleta direta de dados, com relação ao fator tempo, pode ser classificada em:
Contínua: Também denominada registro, é feita continuamente,
tal como a de nascimentos e óbitos, etc. Também são do tipo
contínuo o registro de certas doenças, como câncer,
hanseníase, tuberculose e também algumas doenças
infecciosas agudas com finalidade de controle.
Periódica: Quando feita em intervalos constantes de tempo,
como os censos (de 10 em 10 anos), os balanços de uma
farmácia, etc.;
Ocasional: Quando feita extemporaneamente, a fim de atender
a uma conjuntura ou a uma emergência, como no caso de
epidemias que assolam ou dizimam seres humanos.
Por Via Indireta: Quando é inferida de elementos conhecidos (coleta
direta) e/ou conhecimento de outros fenômenos relacionados com o fenômeno
estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil,
que é feita através de dados colhidos via coleta direta.
20
4 CRÍTICA DOS DADOS
Fonte: pt.slideshare.net
Os dados colhidos por qualquer via ou forma e não previamente
organizados são chamados de dados brutos. Esses dados brutos, antes de
serem submetidos ao processamento estatístico propriamente dito, devem ser
"criticados", visando eliminar valores impróprios e erros grosseiros que possam
interferir nos resultados finais do estudo.
A crítica é externa quando visa às causas dos erros por parte do
informante, por distração ou má interpretação das perguntas que lhe foram feitas;
é interna quando se observa o material constituído pelos dados coletados. É o
caso, por exemplo, da verificação de somas de valores anotados.
21
5 APURAÇÃO OU PROCESSAMENTO DOS DADOS (APRESENTAÇÃO
DOS DADOS)
Fonte: blog.maxieduca.com.br
Uma vez assegurado que os dados brutos são consistentes, devemos
submetê-los ao processamento adequado aos fins pretendidos. A apuração ou
processamento dos dados pode ser manual, eletromecânica ou eletrônica. Os
processos e métodos estatísticos aos quais os conjuntos de dados podem ser
submetidos serão nosso objeto de estudo nas seções seguintes.
6 EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS (TABELAS E
GRÁFICOS)
Fonte: pt.dreamstime.com
22
Por mais diversa que seja a finalidade que se tenha em vista, os dados
devem ser apresentados sob forma adequada (tabelas ou gráficos), tornando
mais fácil o exame daquilo que está sendo objeto de tratamento estatístico. No
caso particular da estatística descritiva, o objetivo do estudo se limita, na maioria
dos casos, à simples apresentação dos dados, assim entendida a exposição
organizada e resumida das informações coletadas através de tabelas ou
quadros, bem como dos gráficos resultantes.
7 ANÁLISE E INTERPRETAÇÃO DOS DADOS
Fonte: pt.slideshare.net
Consiste em tirar conclusões que auxiliem o pesquisador a resolver seu
problema, descrevendo o fenômeno através do cálculo de medidas estatísticas.
O objetivo último da Estatística é tirar conclusões sobre o todo
(população) a partir de informações fornecidas por parte representativa do todo
(amostra). Realizadas as fases anteriores (Estatística Descritiva), fazemos uma
análise dos resultados obtidos, através dos métodos da Estatística Inferencial,
que tem por base a indução ou inferência, e tiramos desses resultados
conclusões e previsões.
23
7.1 Estatística Descritiva
A Estatística Descritiva é a parte da estatística que se ocupa com a coleta,
crítica, ordenação e apresentação das informações fundamentais à
caracterização e descrição do fenômeno que se deseja estudar e interpretar.
Aqui se trabalhará com alguma característica notável do objeto de estudo, a qual
terá de ser coletada de alguma forma e em algum lugar. Na coleta das
informações deve-se considerar, preferencialmente, toda a população; caso a
obtenção de dados sobre toda a população (censo) seja difícil ou até mesmo
impossível (dado o grande número de elementos ou a sua dispersão no tempo
ou no espaço), o estudo poderá ser feito com base numa amostra representativa.
7.2 Distribuições de Frequência
Os dados numéricos, após coletados, são colocados em série e
apresentados em tabelas ou quadros. Quando se estuda uma variável
(qualitativa ou quantitativa), o maior interesse do pesquisador é conhecer a
distribuição dessa variável através das possíveis realizações (valores) da
mesma.
Iremos, pois, ver uma maneira de se dispor um conjunto de valores, de
modo a se ter uma boa ideia global sobre esses valores, ou seja, de sua
distribuição. Uma distribuição de frequências pode ser apresentadanas
seguintes maneiras:
Distribuição de Frequências por Valores (variável qualitativa ou
quantitativa discreta): É construída considerando-se todos os
diferentes valores ou categorias, levando em consideração suas
respectivas repetições.
Distribuição de Frequências por Intervalos ou Classes (variável
quantitativa): Constroem-se classes de valores, levando em
consideração o número de valores que pertencem a cada classe e
quando a variabilidade dos dados é grande. A construção de tabelas
24
de frequências para variáveis contínuas necessita de certos
cuidados.
Exemplo:
A Tabela 1 apresenta a distribuição de frequência da variável
PROCEDÊNCIA, a partir dos dados do Quadro 1.
Tabela 1 – Frequências e percentuais dos 46 estudantes de
EV, segundo a região de procedência. João Pessoa, 1997.
Procedência Nº Estudantes ( Fi ) Percentual ( fi %)
Capital 20 43,5
Interior 16 34,8
Outra Região 10 21,7
Total 46 100
Quadro 1 – Informações sobre sexo, curso, idade (anos),
procedência, renda familiar, número de disciplinas matriculado
(a), peso (kg) e altura (cm) de 46 alunos matriculados na
disciplina Estatística Vital (EV).
ID
SEXO
CURSO
IDADE
(Anos)
PROCEDÊNCIA
RENDA
FAMILIAR
NO. DISCIP.
MATRIC.
PESO
(kg)
ALTURA
(cm)
1 Fem Física 19 Interior Média 6 47 156
2 Masc Matem. 18 Capital Média 6 75 167
3 Fem Matem. 18 Outra Região Média 6 61 169
4 Fem Matem. 18 Capital Média 6 56 163
5 Masc Matem. 18 Capital Média 6 80 178
6 Fem Matem. 20 Interior Média 6 44 158
7 Fem Matem. 20 Interior Média 6 52 158
8 Masc Matem. 19 Capital Média 6 67 174
9 Fem Matem. 19 Outra Região Média 3 48 167
10 Masc Matem. 18 Capital Média 6 83 180
11 Fem Matem. 18 Capital Média 6 53 163
12 Masc Matem. 21 Outra Região Média 5 66,5 175
13 Masc Matem. 18 Interior Média 6 78 180
25
14 Fem Matem. 18 Interior Não Info. 6 46 158
15 Fem Matem. 18 Capital Média 6 54 160
16 Fem Matem. 19 Capital Média 6 56 162
17 Fem Matem. 19 Capital Média 7 53 160
18 Fem Matem. 18 Capital Média 6 57 164
19 Fem Física 23 Outra Região Média 6 53 160
20 Masc Matem. 18 Interior Média 6 76 180
21 Masc Matem. 21 Outra Região Média 6 65 171
22 Masc Matem. 19 Capital Média 6 78,5 180
23 Masc Matem. 19 Outra Região Média 6 104 183
24 Fem Matem. 17 Interior Média 6 47,5 155
25 Masc Matem. 18 Interior Baixa 6 67,5 175
26 Masc Matem. 19 Outra Região Média 6 61 160
27 Masc Matem. 17 Interior Não Info. 6 68 169
28 Masc Matem. 21 Interior Média 5 75 178
29 Fem Matem. 18 Interior Média 5 58 154
30 Masc Matem. 21 Outra Região Média 6 65 165
31 Masc Matem. 21 Capital Média 6 67 178
32 Fem Matem. 18 Capital Alta 6 47 167
33 Masc Matem. 21 Capital Média 5 69 179
34 Fem Matem. 19 Outra Região Média 6 68 170
35 Masc Matem. 18 Capital Média 6 53 166
36 Fem Matem. 17 Capital Média 6 51 153
37 Fem Matem. 19 Capital Média 6 63 168
38 Masc Matem. 19 Capital Média 6 60 166
39 Masc Matem
.
1
8
Capital Média 6 72 174
40 Masc Matem
.
2
1
Interior Média 5 54 163
41 Masc Matem
.
1
8
Interior Baixa 6 60 165
42 Masc Matem
.
1
9
Interior Média 6 75 181
43 Fem Matem
.
1
8
Capital Média 6 52 160
44 Masc Matem
.
1
8
Outra Região Média 6 100 175
45 Masc Matem
.
2
2
Interior Média 6 80 179
46 Masc Matem 2 Interior Média 6 50 166
26
. 1
Exemplo 2: A tabela 2 apresenta distribuição de frequência da variável “Nº de
disciplina matriculado (a) ”, a partir dos dados do Quadro 1 (dados agrupados
sem intervalos).
Tabela 2: Frequências e percentuais do número de disciplinas matriculadas dos
46 estudantes de EV. João Pessoa, 1997.
Nº Disciplinas
Matriculadas (Xi)
Nº Estudantes (Fi) Percentual (fi %)
3 1 2,2
5 5 10,9
6 39 84,8
7 1 2,2
Total 46 100,0
8 REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQUÊNCIA
Fonte: infoescola.com Fonte: vemqueteexplico.blogspot.com
27
O gráfico estatístico é uma forma de apresentação dos dados
estatísticos, cujo objetivo é produzir, no investigador ou no público em geral, uma
impressão rápida e viva do fenômeno em estudo.
Para tornarmos possível uma representação gráfica, estabelecemos uma
correspondência entre os termos da série estatística (tabela) e determinada
figura geométrica, de tal modo que cada elemento da série seja representado
por uma figura proporcional.
A representação gráfica de um fenômeno deve obedecer aos seguintes
requisitos primordiais:
Simplicidade – Indispensável devido à necessidade de levar a
uma rápida apreensão do sentido geral do fenômeno apresentado
a fim de não nos perdermos na observação de minúcias de
importância secundária.
Clareza – O gráfico deve possibilitar uma correta interpretação dos
valores representativos do fenômeno em estudo.
Veracidade – Indispensável qualquer comentário, posto que, se
não representa uma realidade, perde o gráfico sua finalidade.
Os principais tipos de gráficos estatísticos para as distribuições de
frequências são os diagramas, que são gráficos geométricos de, no máximo
duas dimensões. Para sua construção, em geral, fazemos uso só do sistema
cartesiano. Dentre os principais tipos de diagramas, destacamos:
8.1 Diagrama de Setores (Gráfico de Pizza)
Funcionam dividindo seus dados em categorias ou grupos distintos. O
gráfico consiste de um círculo dividido em fatias de pizza, cada qual
representando um grupo.
O tamanho de cada fatia é proporcional a quantidade de algo em cada
grupo em comparação com os outros.
28
Fonte: portalaction.com.br
Fonte: portalaction.com.br
Quanto maior a fatia, maior a popularidade relativa daquele grupo. A
quantidade de algo em cada grupo é chamada de frequência.
Dividem seu conjunto inteiro de dados em grupos distintos. Isto é, se você
somar a frequência de cada fatia, obterá 100%.
Os gráficos de setores podem ser úteis se você deseja
comparar proporções básicas. Geralmente é fácil dizer à primeira
vista quais grupos têm uma frequência alta em comparação aos
outros. No entanto, essa forma gráfica é pouco útil se todas as fatias
tiverem tamanhos semelhantes, pois se torna difícil visualizar
diferenças sutis entre os tamanhos das fatias.
29
8.2 Diagrama de Coluna/Barras
Permitem comparar tamanhos relativos, mas a vantagem de usar essa
forma gráfica é que ela permite um maior grau de precisão.
Fonte: guiadoexcel.com.br
Fonte: portalaction.com.br
São ideais em situações em que as categorias têm praticamente o mesmo
tamanho, pois é possível identificar com muito mais precisão qual a categoria
tem a frequência mais alta. Torna-se mais fácil enxergar as pequenas diferenças.
Cada coluna/barra representa uma determinada categoria, e o seu
comprimento indica o valor. Todas as colunas/barras têm a mesma largura, o
que facilita sua comparação, e quanto mais longa maior o valor.
30
8.3 Diagrama de Linhas Simples/Em Faixa
O diagrama de linhas simples é útil na representação de tabelas ou séries
que evoluem ao longo do tempo (séries temporais), possibilitando a identificação
de tendências. O diagrama de linhas em faixa é usado para comparar a evolução
de duas variáveis e, ao mesmo tempo, a evolução de cada uma delas
isoladamente.
8.4 Diagrama de Linhas Simples
Fonte: pt.wikipedia.org
O “gráfico de colunas” apresenta as categorias no eixo horizontal
e a frequência ou porcentagem no eixo vertical. No “gráfico de
barras” os eixos são invertidos. As categorias são mostradas no
eixo vertical e a frequência no eixo horizontal. Portanto, as colunas
são dispostas no sentido vertical e as barras no sentido horizontal.
O gráfico de colunas tende a ser mais comum, mas gráficos de
barras são úteis se os nomes desuas categorias forem muito
longos, pois dão mais espaço para mostrar o nome de cada
categoria.
31
8.5 Diagrama de Linhas em Faixa
Fonte: vemqueteexplico.blogspot.com
Perceba que todas essas formas gráficas estão associadas as variáveis
qualitativas, ou seja, aquelas que expressam categorias. No caso das variáveis
quantitativas discretas também podemos fazer uso de formas gráficas como
diagrama de colunas/barras. No entanto, para representar as variáveis contínuas
necessitamos de formas gráficas especificas como o histograma ou o polígono
de frequências.
Histograma
Fonte: citisystems.com.br
32
Histogramas são como gráficos de colunas, mas com duas importantes
diferenças. A primeira é que a área de cada coluna é proporcional à frequência,
e a segunda é que não há espaço vazio entre as colunas no gráfico.
É a representação gráfica de uma distribuição de frequências de variável
quantitativa contínua (dados agrupados em intervalos) por meio de retângulos
justapostos, entrado nos pontos médios das classes e cujas áreas são
proporcionais às frequências das classes.
Polígonos de frequência
Fonte: alexandreprofessor.blogspot.com
É outra forma de representar graficamente uma distribuição de
frequências de variável quantitativa contínua (dados agrupados em intervalos).
Corresponde a uma linha poligonal traçada a partir do ponto médio de
cada retângulo do histograma, cuja área total é igual à do histograma. Pode
referir-se às frequências absolutas ou às frequências relativas, conforme a
escala utilizada no eixo vertical.
9 MEDIDAS ESTATÍSTICAS
Vimos anteriormente a sintetização dos dados sob a forma de tabelas,
gráficos e distribuições de frequências. Agora vamos tratar dos cálculos de
33
medidas que possibilitem representar um conjunto de dados (valores de uma
variável quantitativa, isto é, informações numéricas), relativos à observação de
determinado fenômeno de forma reduzida.
Os dados quantitativos, apresentados em tabelas e gráficos, constituem
a informação básica do problema. É conveniente apresentar medidas que
mostrem a informação de maneira resumida. Um conjunto de dados pode se
reduzir a uma ou a algumas medidas numéricas que resumem todo o conjunto.
Duas características importantes dos dados, que as medidas numéricas podem
evidenciar são: o valor central do conjunto e a dispersão dos números.
Estes índices estatísticos são as MEDIDAS DE POSIÇÃO e, dentre as
mais importantes, citamos as “Medidas de Tendência Central”, que recebem tal
denominação pelo fato dos dados observados tenderem, em geral, a se
concentrar em torno de valores centrais.
Dentre as medidas de tendência central, destacamos:
Média aritmética ou Média;
Moda;
Mediana.
As outras medidas de posição são as “Separatrizes”, que englobam:
Mediana;
Quartis;
Decis.
Percentis.
9.1 Medidas de Tendência Central
São medidas que tendem para o centro da distribuição e tem a capacidade
de representá-la como um todo. Dão o valor do ponto em torno do qual os dados
se distribuem.
As principais são: Média Aritmética, Mediana, Moda.
Média Aritmética (ou simplesmente MÉDIA)
Esta é a mais importante medida de locação e que é mais comumente
usada para descrever um conjunto de observações. A média aritmética simples
Pode ser difícil identificar
padrões e tendências em
uma grande quantidade de
números, e achar a média é
geralmente o primeiro passo
para conseguir enxergar o
cenário mais geral. Com a
média à sua disposição, é
possível rapidamente achar
os valores mais
representativos dos seus
dados e tirar importantes
conclusões.
34
de um conjunto de n observações é o quociente entre a soma dos dados e a
quantidade dessas observações.
É denotada por
Em linguagem matemática, a média amostral se expressa de forma seguinte:
Exemplo: Calcule a média da variável X: 3, 5, 8, 12, 7, 12, 15, 18, 20, 20.
Diante da pergunta “Como interpretar a média? ”, as respostas mais
comuns são:
“Representa a posição da maioria” ou “É o valor que está no meio da
amostra”. Ambas estão erradas.
Quem representa a posição da (s) maioria (s) locais é a moda, e quem
está no meio do rol é a mediana.
O gráfico abaixo demonstra o que é a média:
35
Fonte: home.ufam.edu.br
Média Aritmética Ponderada
Em algumas situações os números que queremos sintetizar têm graus de
importância diferentes, usa-se então a média aritmética ponderada.
A média aritmética ponderada de um conjunto de n observações é o
quociente da divisão pela soma dos pesos da soma das observações
multiplicadas por seu respectivo peso.
Com intervalos de Classe
Neste caso, convencionamos que todos os valores incluídos em um
determinado intervalo de classe coincidem com o seu ponto médio, e
determinamos a média aritmética ponderada, por meio da fórmula:
Onde é ponto médio da classe.
Exemplo: Consideremos a distribuição relativa a 34 famílias de 4 filhos, seja X
o número de filhos do sexo masculino:
36
Nº de
meninos
0 2 0
1 6 6
2 10 20
3 12 36
4 4 16
Σ = 34 Σ = 78
Temos, então:
Logo:
Isto é:
Nota: sendo X uma variável discreta, como interpretar o resultado obtido,
2 meninos e 3 décimos de menino?
O valor médio 2,3 meninos sugerem, neste caso que o maior número de famílias
tem 2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve
superioridade numérica em relação ao número de meninos.
Exemplo: Suponha que tenhamos feito uma coleta de dados relativos às
estaturas de 40 alunos, que compõem uma amostra dos alunos de um colégio
A, resultando a seguinte tabela de valores.
i Estaturas (cm)
01 150 |---- 154 04 152 608
02 154 |---- 158 09 156 1404
03 158 |---- 162 11 160 1760
04 162 |---- 166 08 164 1312
05 166 |---- 170 05 168 840
06 170 |---- 174 03 172 516
37
Σ = 40 Σ = 6440
Temos, neste caso:
Logo:
Mediana
A mediana de um conjunto de n observações é o valor “do meio” do conjunto,
quando os dados estão ordenados. Se n é ímpar esse valor é único; se n é par, a
mediana é a média aritmética simples dos dois valores centrais.
Exemplo: Determinar a mediana do conjunto X: 2, 20, 12, 23, 20, 8, 12.
Ordenando os termos: 2, 8, 12, 12, 20, 20, 23.
A mediana será o número 12, pois ele divide o conjunto em duas
partes iguais. Portanto, Md = 12.
Exemplo: Determinar a mediana da série X: 7, 21, 13, 15, 10, 8, 9, 13.
Ordenando os termos: 7, 8,9, 10, 13, 13, 15, 21. A mediana será:
Com intervalos de Classe
Neste caso, o problema consiste em determinar o ponto do intervalo em que
está compreendida a mediana.
Para tanto, temos inicialmente que determinar a classe na qual se
encontra a mediana – classe mediana: É o valor que divide as observações em
duas partes, onde 50% dos dados ficam acima dele e o restante abaixo. Tal
classe será, evidentemente, aquela corresponde à frequência acumulado
imediatamente superior a .
38
Na prática seguimos os seguintes passos:
Determinamos as frequências acumuladas.
Calculamos
Marcamos a classe correspondente à frequência acumulada imediatamente
superior a – classe mediana – e, em seguida, empregamos a fórmula:
Onde:
LI é o limite inferior da classe mediana
é a frequência acumulada da classe anterior à classe mediana
é a frequência simples da classe mediana
é a amplitude da classe mediana
Exemplo: Tomemos a distribuição relativa à tabela do nº de meninos,
completando-a com a coluna correspondente à frequência acumulada:
Nº de
meninos
0 2 2
1 6 8
2 10 18
3 12 30
4 4 34
Σ = 34
Sendo:
A menor frequência acumuladaque supera este valor é 18, que corresponde ao
valor 2 da variável, sendo este o valor mediano.
Logo:
Md = 2 meninos
39
Exemplo: Tomemos a distribuição relativa à tabela da estatura dos alunos,
completando-a com a coluna correspondente à frequência acumulada:
i Estaturas (cm)
1 150 |---- 154 4 4
2 154 |---- 158 9 13
3 158 |---- 162 11 24
4 162 |---- 166 8 32
5 166 |---- 170 5 37
6 170 |---- 174 3 40
Σ = 40
Classe Mediana
Temos:
Como há 24 valores incluídos nas três primeiras classes da distribuição e
como pretendemos determinar o valor que ocupa o 20º lugar, a partir do início
da série, vemos que este deve estar localizado na terceira classe ), supondo
que as frequências dessas classes estejam uniformemente distribuídas.
Como há 11 elementos nessa classe e sendo o intervalo de classe igual a
4, devemos tomar do limite inferior, a distância:
e a mediana será dada por:
Logo: Md = 160,5 cm.
40
Moda (Mo)
É o valor de maior freqüência em um conjunto de dados. Ela é denotada
por Mo.
Exemplo: Determinar a moda dos conjuntos de dados:
X: 2, 8, 3, 5, 4, 5, 3, 5, 5, 1.
O elemento de maior frequência é 5. Portanto, Mo = 5.
É uma sequência unimodal, pois só temos uma moda. X: 6, 10, 5, 6, 10,
2.
Este conjunto de dados apresenta o elemento 6 e 10 como elementos de
maior frequência.
Portanto, Mo = 6 e Mo = 10. Por isso é chamada de bimodal.
Quando não houver elementos que se destaquem pela maior frequência,
dizemos que a série é amodal.
Exemplo:
X: 3, 3, 3, 4, 4, 4.
Não há moda, pois, os elementos têm a mesma frequência.
Com intervalos de Classe
A classe que apresenta a maior frequência é denominada classe modal.
Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante
que está compreendido entre os limites da classe modal.
Para determinação da moda, Czuber criou a seguinte expressão
denominada fórmula de Czuber e, na qual:
LI é o limite inferior da classe modal
h é a amplitude da classe modal
41
Onde:
é a frequência simples da classe modal
é a frequência simples da classe anterior à classe modal
é a frequência simples da classe posterior à classe modal
Exemplo: Tomemos a distribuição relativa à tabela da estatura dos alunos:
Classe modal
Temos:
A classe modal é:
D1 = 11 – 9 D1 = 2
D2 = 11 – 8 D2 = 3
E como:
Temos:
Logo:
i Estaturas (cm)
1 150 |---- 154 4
2 154 |---- 158 9
3 158 |---- 162 11
4 162 |---- 166 8
5 166 |---- 170 5
6 170 |---- 174 3
Σ = 40
42
9.2 Os quartis
Denominamos quartis os valores de uma série que a dividem em quatro
partes iguais.
Há, portanto, três quartis:
O primeiro quartil (Q1) que é o valor que está situado de tal
modo na série que uma quarta parte (25%) dos dados é
menor e as três quartas partes restantes (75%) maiores do
que ele;
O segundo quartil (Q2) que é, evidentemente, coincidente
com a mediana (Q2 = Md);
O terceiro quartil (Q3), que é o valor situado de tal sorte que
as três quartas partes (75%) dos termos são menores e uma
quarta parte (25%), maior que ele.
Quando os dados são agrupados para determinar os quartis, usamos a
mesma técnica do cálculo da mediana, bastando substituir, na fórmula da
mediana,
Sendo k o número de ordem do quartil.
Assim, temos:
Exemplo: Tomemos a distribuição relativa à tabela da estatura dos alunos.
Estaturas (cm)
1 150 |---- 154 4 4
2 154 |---- 158 9
13
3 158 |---- 162 11 24
4 162 |---- 166 8 32
5 166 |---- 170 5 37
43
6 170 |---- 174 3 40
Σ = 40
2: Q1 / 4: Q2
Primeiro quartil Terceiro quartil
Temos: Temos:
9.3 Os Percentis
Denominamos percentis aos noventa e nove valores que separam uma
série em 100 partes iguais.
O cálculo de um percentil segue a mesma técnica do cálculo da mediana,
porém, a fórmula:
Sendo k o número de ordem do percentil.
Assim, para o k-ésimo percentil, temos:
Exemplo: Considerando a distribuição relativa à tabela da estatura dos alunos,
temos para oitavo percentil
44
Logo:
Então:
10 MEDIDAS DE DISPERSÃO
Fonte: brasilescola.uol.com.br
Raramente uma única medida é suficiente para descrever de modo
satisfatório um conjunto de dados.
As medidas de posição fazem um excelente trabalho fornecendo um valor
típico para o conjunto de dados analisados, mas elas não informam a história
completa. É possível saber onde está o centro dos dados, mas, muitas vezes, a
média, a mediana e a moda sozinhas, não são informações suficientes, em
situações em que se está resumindo um conjunto de dados.
O quadro a seguir apresenta as notas de 5 avaliações aplicadas em uma
turma com 4 alunos. O professor deseja premiar o melhor aluno com uma bolsa
de estudo. A questão é, qual deles escolher? Cada aluno tem a mesma média
de pontos X Antônio X João X José X Pedro 5, mas há diferenças nítidas entre cada
conjunto de dados. É necessária uma forma de medir essas diferenças.
45
Alunos Notas Média
Antônio 5 5 5 5 5 5
João 6 4 5 4 6 5
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5
Observando-os detalhadamente, nota-se que em cada grupo, os valores
se distribuem diferentemente em relação à média. Necessitando-se assim, de
uma medida estatística complementar para melhor caracterizar cada conjunto
apresentado.
Podemos diferenciar cada conjunto de dados observando a forma em que
os pontos se dispersam em relação a uma medida de posição. As pontuações
de cada aluno são distribuídas de forma diferente, e, se medirmos como os
pontos estão dispersos, o professor poderá tomar uma decisão mais embasada.
As medidas estatísticas responsáveis pela variação ou dispersão dos
valores de um conjunto de dados são as medidas de dispersão ou de
variabilidade, onde se destacam a amplitude total, a variância, o desvio
padrão e o coeficiente de variação.
Em princípio, entre dois ou mais conjuntos de dados, o mais disperso (ou
menos homogêneo) é aquele que tem a maior medida de dispersão.
10.1 Amplitude Total
A amplitude nos diz quantos números os dados abrangem, como se
estivéssemos medindo sua largura. Para calculá-la tomamos o maior número do
conjunto de dados (chamado de limite superior – LS) e, em seguida, subtraímos
do menor (chamado de limite inferior – LI):
Exemplo: Com base no exemplo anterior, a amplitude de cada aluno é
AT = LS – LI
46
Solução:
* ATAntônio = 5 – 5 = 0 * ATJosé = 10 – 0 = 10
* ATJoão = 6 – 4 = 2 * ATPedro = 10 – 0 = 10
A amplitude:
Só descreve a largura dos dados e não como eles são
dispersos entre os limites.
Pode medir até que ponto os valores estão dispersos, mas é
difícil ter uma ideia real de como os dados são distribuídos.
É uma excelente forma rápida de ter uma ideia de como os valores são
distribuídos, mas é um pouco limitada.
10.2 Variância
É a soma dos quadrados dos desvios em relação à média. Com ela
estabeleceremos uma medida de variabilidade para um conjunto de dados. É
denotada por S2 no caso amostral ou σ2 no caso populacional.
Para Dados Brutos:
Para Dados Agrupados em Intervalos de Classe:
Variância Populacional
10.3 Desvio-padrão
É a raiz quadrada positiva da variância, representado por S ou DP no caso
amostral ou σ no caso da população.
As notas de José e
Pedro têm mesma
amplitude, mas os
valores são distribuídos
de forma diferente. Será
que a amplitude
realmente mede bem a
dispersão dos dados?47
Exemplo: Calcule a variância e o desvio padrão da série abaixo,
representativa de uma população.
2 3 6 2,72 8,17
3 5 15 0,42 2,11
4 8 32 0,12 0,98
5 4 20 1,82 7,29
20 73 - 18,55
Primeiro, calculamos a média
Como estamos trabalhando com uma população a variância é dada por:
O desvio padrão será:
0,9275 = 0,963
Coeficiente de Variação de Pearson
Por vezes é conveniente exprimir a variabilidade em termos relativos, isto
porque, por exemplo, um desvio padrão de 10 pode ser insignificante se a
observação típica é 10.000, mas altamente significativo para uma observação
típica de 100.
Toma-se então uma medida relativa da variabilidade, comparando o
desvio padrão com a média. Esta medida é o Coeficiente de Variação.
48
Já vimos que o desvio padrão tem a mesma unidade de medida que os
dados, de modo que o coeficiente de variação é adimensional.
A grande utilidade do coeficiente de variação é permitir a comparação da
variabilidade de diferentes conjuntos de dados.
Se: CV 15% Baixa dispersão – Homogênea, estável, regular.
15% CV 30% Média dispersão.
CV 30% Alta dispersão – Heterogênea.
Exemplo: Dois grupos de 50 alunos de Estatística foram submetidos a
uma avaliação de probabilidade e o resultado foram os seguintes.
Como pode-se observar o grupo B apresentou um nível de dispersão
menor do que o grupo A, para confirmar a análise iremos utilizar o Coeficiente de
Variação de Pearson conforme a tabela acima.
Grupo Média das notas Desvio-padrão CV
A 6 2
B 6,2 1,5
49
11 PROBABILIDADE
Fonte: conteudo.icmc.usp.br
A teoria das probabilidades é o fundamento para a inferência estatística.
O conceito de probabilidade faz parte do dia-a-dia dos trabalhadores das áreas
das ciências exatas, ciências da saúde, ciências biológicas, ecologia,
engenharia, etc., uma vez que seu conceito é frequentemente usado na
comunicação diária. Por exemplo, podemos dizer que uma espécie tem 30% de
chance de ser extinta. Um laboratório está 90% seguro de que um medicamento
proporcione a cura de uma doença.
O conceito de probabilidade é fundamental para o estudo de situações
onde os resultados são variáveis, mesmo quando mantidas inalteradas as
condições de sua realização.
Não é possível fazer inferências estatísticas sem utilizar alguns resultados
da teoria das probabilidades. Esta teoria, embora intimamente associada à
estatística, tem suas características próprias.
Ela procura quantificar as incertezas existentes em determinada situação,
ora usando um número, ora uma função matemática.
Definimos probabilidade clássica como:
50
Suponha o lançamento de um dado. Qual a probabilidade da face superior
ser 6? O nº de resultados favoráveis é 1, uma vez que existe somente um 6. O
nº total de resultados possíveis são 6 (1, 2, 3, 4, 5, 6). Então a probabilidade é 1/6.
Outra definição de probabilidade é da frequência relativa de ocorrência de
um evento em um grande nº de repetições.
Utilizando o caso do dado, calculamos a probabilidade de aparecer 6
lançando o dado um grande número de vezes e então observando a proporção de
vezes que o número 6 apareceu, esta proporção nos dará a probabilidade do nº da
face superior ser 6.
11.1 Experimento Aleatório
Em quase tudo, em maior ou menor grau, vislumbramos o acaso. Assim,
da afirmação “é provável que meu time ganhe a partida hoje” pode resultar:
Que, apesar do favoritismo, ele perca;
Que, como pensamos, ele ganhe;
Que empate.
Como vimos, o resultado final depende do acaso. Fenômenos como esse
são chamados de fenômenos aleatórios ou experimentos aleatórios.
Experimentos ou fenômenos aleatórios são aqueles que, mesmo
repetidos várias vezes sob condições semelhantes, apresentam resultados
imprevisíveis
51
11.2 Espaço Amostral
Fonte alfaconnection.pro.br
A cada experimento correspondem, em geral, vários resultados possíveis.
Assim, ao lançarmos uma moeda, há dois resultados possíveis: ocorrer cara ou
ocorrer coroa. Já ao lançarmos um dado há seis resultados possíveis: 1, 2, 3, 4,
5 ou 6.
Ao conjunto desses resultados possíveis damos o nome de espaço
amostral ou conjunto universo, representados por .
Os dois experimentos citados anteriormente têm os seguintes espaços
amostrais:
-Lançamento de uma moeda: = {Cara, Coroa};
-Lançamento de um dado: = {1, 2, 3, 4, 5, 6}.
Do mesmo modo, como em dois lançamentos sucessivos de uma moeda
podemos obter cara nos dois lançamentos, ou cara no primeiro e coroa no
segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois
lançamentos, o espaço amostral é:
= {(Cara, Cara), (Cara, Coroa), (Coroa, Cara), (Coroa, Coroa)}.
Cada um dos elementos de que corresponde a um resultado recebe o
nome de ponto amostral. Assim:
{(Cara, Cara)} (Cara, Cara) é um ponto amostral de .
52
11.3 Eventos
Fonte: alfaconnection.pro.br
Chamamos de eventos a qualquer subconjunto do espaço amostral de
um experimento aleatório.
Operações com Eventos
Interseção
O evento interseção de dois eventos A e B equivale à ocorrência de
ambos. Ela contém todos os pontos do espaço amostral comum a A e a B.
Denota-se por A B (ou às vezes, por AB). A interseção é ilustrada pela área
hachurada do diagrama abaixo.
Exemplo: Seja A o conjunto de alunos de uma instituição que frequentam
o curso secundário, e B o conjunto dos que frequentam um curso facultativo de
53
interpretação musical. A interseção A B é o conjunto dos alunos que fazem o
curso secundário e frequentam o curso facultativo.
Exclusão
Dois eventos A e B dizem-se mutuamente exclusivos ou mutuamente
excludentes quando a ocorrência de um deles impossibilita a ocorrência do outro.
Os eventos não têm nenhum elemento em comum. Exprime-se isto escrevendo
A B = . O diagrama a seguir ilustra esta situação.
Exemplo: Na jogada de um dado, seja A o evento “aparecer número par” e B o
evento “aparecer número ímpar”. A e B são mutuamente excludentes; A B = ;
nenhum número pode ser par e ímpar ao mesmo tempo.
União
O evento união de A e B equivale à ocorrência de A, ou de B, ou de ambos.
Contém os elementos do espaço amostral que estão em pelo menos um dos dois
conjuntos. Denota-se por A B. A área hachurada do diagrama ilustra a situação.
54
A
Nota-se que à interseção está associada à conjunção e, enquanto que à
união está associada à conjunção ou.
Exemplo: Se A é o conjunto dos alunos de um estabelecimento que
frequentam o curso de ciências contábeis e B é o conjunto de aluno do mesmo
estabelecimento que fazem administração de empresas, então A B é o conjunto
dos alunos que fazem pelo menos um daqueles dois cursos.
Negação (Complementar)
A negação do evento denotada por A é chamada de evento complementar de
A. É ilustrada na parte hachurada.
Exemplo: Se, na jogada de um dado, o evento E1 consiste no
aparecimento das faces 1, ou 2, ou 5, ou 6. Então: e
Exemplo: Sejam A, B e C eventos arbitrários. Exprimir, em notação de
conjuntos, os eventos: (a) apenas A ocorre, (b) todos os três ocorrem, (c) ao
menos dois ocorrem.
Solução:
a) Se só A ocorre, então B não ocorre, C não ocorre. O evento é representado
por A ˉB Cˉ . É ocorrência simultânea, ou interseção, de A, Bˉ , Cˉ .
Ilustração a seguir.
55
b) A B C.
c) (A B Cˉ) (A Bˉ Cˉ) (Aˉ B C) (A B C). Isto é,
ocorrem A, B, Cˉ , ou A Bˉ C, ou Aˉ , B, C ou A, B, C. É uma união
de interseções.
12 REGRAS DE PROBABILIDADE
Independente do ponto de vista de probabilidade(clássico ou
frequentaste) as regras para o cálculo de probabilidade são as mesmas. Antes
das regras precisamos de algumas definições. Eventos A1, A2, A3,... são ditos
mutuamente exclusivos se, quando um ocorre os outros não ocorrem. Eles são
ditos exaustivos se exaurem todas as possibilidades. No caso do lançamento de
um dado, os enventos A1,A2,A3,...A6 de que o dado mostre 1,2,3,4,5, e 6 são
mutuamente exclusivos e exaustivos.
Podemos escrever PA B como a probabilidade de que os eventos A
ou B ou ambos ocorram, a isto denominamos união de eventos, neste caso união
de A e B.
Escrevemos PA B como a probabilidade da ocorrência conjunta de A
e B, e denominamos de interseção dos eventos A e B.
12.1 Propriedades da Probabilidade
Sendo A um evento qualquer.
Sendo A e B dois eventos quaisquer, temos:
Se então
56
Exemplo: Sejam os eventos
A: O dado mostra 1, 3 ou 5
B: O dado mostra 3
Então:
A B: O dado mostra 1, 3 ou 5
A B: O dado mostra 3
A regra de adição de probabilidade afirma que:
Se A e B são mutuamente exclusivos não podem ocorrer conjuntamente,
assim P(A B) = 0. Então para eventos mutuamente exclusivos:
Se, em adição, A e B são exaustivos, .
Nós denotamos por A o complementar de A. A representa a não corrência
de A. Porque A ocorre ou não (isto é, A ocorre), A e A são mutuamente exclusivos
e exaustivos.
Então:
12.2 Teorema da Probabilidade Total
Inicialmente, consideremos n eventos B1, B2, ..., Bn. Diremos que eles
formam uma partição do espaço amostral , quando:
1)
2) ;
3)
Isto é, os eventos B1, B2, ..., Bn são dois a dois mutuamente exclusivos e
exaustivos (sua união é ).
57
B1 B2 B
B8
4
B3
B7
B9
B5 B6 B10
B
11
Ilustração para n = 11:
Seja um espaço amostral, A um evento qualquer de e B1, B2, ..., Bn
uma partição de .
É válida a seguinte relação:
A = (B1 A) (B2 A) (B3 A) ... (Bn A).
A figura ilustra o fato para n = 5
B
2
B
B1
B3 B5
A
B2
B4
58
Nesse caso:
A = (B1 A) (B2 A) (B3 A) ... (B5 A).
Notemos que (B1 A) (B2 A) ... (Bn A) são dois a dois
mutuamente exclusivos, portanto:
P(A) = P(B1 A) + P(B2 A) + ... + P(Bn A).
Exemplo: Na tabela abaixo temos dados referentes a alunos matriculados
em quatro cursos de uma universidade em dado ano.
Tabela: Distribuição de alunos segundo sexo e escolha de curso.
Vamos indicar por M o evento que ocorre quando, escolhendo-se ao
acaso um aluno do conjunto desses quatro cursos, ele for estudante de
Matemática Pura. A, E, C, H e F têm significados análogos. Dessa maneira,
vemos que , ao passo que
Dados os eventos A e H, podemos considerar dois novos eventos:
A H, chamado a reunião de A e H, quando pelo menos um dos eventos
ocorre;
A H, chamado a intersecção de A e H, quando A e H ocorrem
simultaneamente
É fácil ver que , pois o aluno escolhido terá de estar,
ao mesmo tempo, matriculado no curso de matemática Aplicada e ser homem.
Vemos que e ; suponha que nosso
cálculo para
exo otal Curso
Matemática Pura
(M) Matemática Aplicada
(A) Estatística (E)
Computação (C)
Total
0
0
10
0
81
0
5 5
0
Mulheres
(F)
Homens
(H)
59
P(A H) fosse:
P(A H) = P(A) + P(H)
P(A H)
200 200 200
Se assim o fizéssemos, estaríamos contando duas vezes os alunos que
são homens e estão matriculados no curso de Matemática Aplicada, como
destacado na Tabela. Portanto a resposta correta é:
P(A H) = P(A) + P(H) - P(A H)
P(A H) =
200 200 200 200
No entanto, considerando-se os eventos A e C, vemos que
e . Neste caso, os eventos A
e C são disjuntos ou mutuamente exclusivos, pois se A ocorre, então C não
ocorre e vice-versa.
Exemplo: Uma urna contém 100 bolinhas numeradas, de 1 a 100. Uma
bolinha é escolhida e observa-se seu número. Admitindo probabilidades iguais a
1 para todos os eventos elementares, qual a probabilidade de? 100
a) Observarmos um múltiplo de 6 e de 8 simultaneamente?
b) Observarmos um múltiplo de 6 ou de 8?
c) Observarmos um número não múltiplo de 5?
Solução:
Temos = {1, 2, 3, ..., 99, 100}
Um múltiplo de 6 e 8 simultaneamente terá que ser múltiplo de 24;
portanto, o evento que nos interessa é: A = {24, 48, 72, 96}.
60
b) Sejam os eventos:
B: o número é múltiplo de 6. C: o número é múltiplo de 8.
O evento que nos interessa é , então:
B = {6, 12, 18, 24, 30, 36, 42, 48, 54, 60, 66, 72, 78, 84, 90, 96 }
e
C = {8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96}
e
Portanto :
Ora, B C nada mais é do que o evento A (do item a).
Logo, P(B C) = 1
25
Segue-se então que: P(B C) = 4 +3 – 1 = 6
25 25 25 25
d) Seja D o evento, o número é múltiplo de 5. Temos:
D = {5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95,
100}
P(D) = 20 = 1
100 5
O evento que nos interessa é . Logo,
12.3 Probabilidade Condicional e Regra Da Multiplicação
Às vezes, nós restringimos nossa obtenção ao subconjunto de todos os
eventos possíveis. Por exemplo, suponha que ao lançarmos um dado, os casos
1, 2 e 3 não sejam levados em consideração; considere o evento B o dado
mostrar 4, 5 ou 6. Considere o evento A de que o dado mostre 6. A probabilidade
61
P( A B) P( A) P(B)
de A é agora 1/3 porque o número total de resultados é 3 e não 6. A probabilidade
condicional é definida como segue: A probabilidade de um evento A dado que
outro evento B ocorreu, é denotada e é definido por
12.4 Independência de Eventos
Dizemos que dois eventos A e B são independentes, se as probabilidades
condicionais P(A | B) = P(A) e P(B | A) = P(B). Isto equivale, a partir da regra da
multiplicação, escrever a ocorrência simultânea de A e B como sendo:
12.5 Distribuição de Probabilidade
Variáveis Aleatórias e Distribuições de Probabilidade
A variável X é dita variável aleatória se para todo n.º real a existe uma
probabilidade que X assuma os valores menores ou iguais que a, ou
seja, é a variável que associa um número real ao resultado de um experimento
aleatório.
Distribuições Discretas de Probabilidade
Algumas variáveis aleatórias adaptam-se muito bem a uma série de
problemas práticos. Um estudo dessas variáveis é de grande importância para a
construção de modelos probabilísticos para situações reais e a consequente
estimação de seus parâmetros. Para algumas destas distribuições, existem
tabelas que facilitam o cálculo das probabilidades em função dos seus
parâmetros. Existem dois modelos discretos mais importantes: a distribuição
binomial e a distribuição de Poisson.
62
Distribuição Binomial: Uma das mais comuns em estatística. Deriva de um
processo conhecido como teste de Bernoulli em que cada tentativa tem duas
possibilidades excludentes de ocorrência chamada de sucesso e falha (ex.
moeda).
O Processo de Bernoulli: Uma sequência de testes de Bernoulli forma um
Processo de Bernoulli, sob as seguintes condições:
a) Cada tentativa resulta em um de dois resultados mutuamente
excludentes. Um dos resultados possíveis é chamado (arbitrariamente)
de sucesso e o outro de falha;
b) A probabilidade de sucessos denotada p, permanece constante em todas
as tentativas. A probabilidade da falha, 1 - p, é denotada por q.
c)