Buscar

Introdução à estatística básica

Prévia do material em texto

Introdução à estatística: conceitos iniciais; Análise exploratória: distribuição de frequências.
Estatística
É a ciência que se preocupa com: 
(i) Organização; 
(ii) Descrição (Estatística descritiva)
(iii) Análises; 
(iv) Interpretações. (Estatística Indutiva ou Estatística Inferencial)
O que é estatística?
fornece métodos que ajudam o processo de tomada de decisão na presença de incerteza.
Dados- Gráficos - Análise - Decisões 
Porque usar estatística?
1. Por que a natureza apresenta VARIABILIDADE: 
- Variações de indivíduo para indivíduo; 
- Variações no mesmo indivíduo;
“A Estatística estuda como controlar, minimizar e observar a variabilidade INEVITÁVEL de todas as medidas e observações”. 
2. Tomada de decisões;
3. Comparação de resultados; Previsões de curto, médio e longo prazo.
4. Sem métodos estatísticos...sem validade!
Tipos de pesquisa
Levantamento: Características de interesse de uma população são levantadas (observadas ou medidas), mas sem manipulação. 
- Pode apenas indicar a existência de associações/correlações.
- Trabalha mais com a parte descritiva, quase 90%.
- Não se pode estabelecer causa e efeito, mas sim associações que nos levem àqueles casos.
- Quanto mais estruturado, mais confiável e eficiente.
Experimento: Grupos de indivíduos, de plantas, ou animais, ou objetos, são manipulados, em condições controladas, para se avaliar os efeitos de diferentes tratamentos. 
- Pode provar relações de causa e efeito.
- Traz afirmações/conclusão.
- Pode provar relações de causa e efeito.
- Muitas pesquisas começam com levantamento e depois vão para o experimento.
Raciocínio estatístico
Amostra de uma população - Dados (Estatística inferencial/probabilidade) (Estatística Descritiva)
Conceitos
População é o conjunto de indivíduos ou objetos sobre os quais desejamos desenvolver algum estudo e que têm alguma característica em comum. 
Amostra é todo subconjunto de elementos retirados da população para obter a informação desejada.
Importante que tenha qualidade, que realmente caracteriza a população. 
Variável é a característica dos elementos da amostra que nos interessa averiguar estatisticamente.
Subdivisões da Estatística
Amostragem: técnicas para obter uma amostra representativa, suficiente e que possa ser generalizada para a população. 
Análise exploratória de dados: técnicas para resumir, organizar e interpretar os dados, de uma amostra ou da população, para obter informações. 
Inferência estatística: técnicas para generalizar estatisticamente os resultados de uma amostra para a população. 
Probabilidade: técnicas que permitem calcular a confiabilidade das conclusões de Inferência Estatística.
Tipos de variáveis
Variáveis de interesses podem ser classificadas em:
Qualitativas - quando resultar de uma classificação por tipos ou atributos. 
- Podem ser subdivididas em: Nominal; Ordinal.
Exploração por tabelas (frequências e percentuais) e gráficos.
Quantitativas - quando seus valores forem expressos em números. 
Podem ser subdivididas em: Discretas; contínuas
Exploração por Tabelas (frequências e percentuais), Gráficos e Medidas de síntese: média, moda mediana.
Variáveis qualitativas nominais 
- Manobras obstétricas: retro pulsão, extensão, tração, rotação e versão; 
- Raça de suínos – Ladrasse, Large White, Duroc, Pietrain; Formato dos tetos – cilíndrico, afunilado, arredondado. 
Variáveis qualitativas ordinais 
- Luxação na paleta de cães – Grau I, II, III e IV; 
- Escore de condição corporal de ovinos – muito magra, magra, médio (ideal), gordo e obeso; Ordem de parto – primíparas, secundíparas, pluríparas. (dependendo da ordem de parto pode haver alterações, por exemplo)
Variáveis quantitativas discretas 
- Assumem apenas valores pertencentes a um conjunto enumerável;
- São obtidos mediante alguma forma de contagem;
- Número de tetos em porcas;
- Tamanho da leitegada (quantos animais nasceram);
- Número de ovos.
 Distribuição de frequências: 
xi (número de leitões) f i (absoluta) f r (relativa)
Gráfico- Frequência x Número de leitões
Variáveis quantitativas contínuas
- São aquelas, teoricamente, que podem assumir qualquer valor em um certo intervalo de variação. 
- Resultam, em geral, de uma medição, sendo frequentemente dados em alguma unidade. Rendimento de carcaça (%) 
- Temperatura retal (°C) 
- Dosagem de ureia (mg/dl)
- Distribuição de frequências: Uma representação satisfatória dos dados só é conseguida pelo agrupamento em classes que englobam diversos valores da variável;
- “Agrupamento de classes de frequências” corresponde a uma diminuição proposital da precisão com que os dados foram computados; 
Regra Prática: Não se recomenda o agrupamento de classes quando o número de valores é pequeno (n<25).
- Alguns problemas práticos a resolver:
·  Qual o número de classes a construir?
·  Qual o tamanho ou amplitude dessas classes?
·  Quais os seus limites?
- Agrupamento de classes de frequências
Utilizando a notação:
n = número de dados;
k = número de classes;
h = amplitude das classes, quando supostas todas iguais.
Adiantando que a Amplitude de um conjunto de dados é
diferença entre o maior e o menor dos valores
(H = Xmax – Xmin) e uma vez fixado k=1+3,3log(n), temos: h = H / k
Medidas estatísticas associadas a variáveis quantitativas
Medidas de posição ou tendência central:
- Mostram o valor representativo em torno do qual os dados se distribuem.
- São utilizadas para sintetizar em um único número o conjunto de dados observados. Principais medidas de posição:
 • Média aritmética;
 • Mediana; 
 • Moda.
Média (aritmética) 
- A notação internacional recomenda símbolos específicos para a média:
Mediana 
- É a quantidade que ocupa a posição central de uma série (n) de observações, quando estão ordenadas segundo suas grandezas, crescente ou decrescente. Se não for ímpar, esse valor é único.
- Se n é par, Md é a média dos dois valores
Exemplo: 0,2 0,2 0,7 0,8 -> Md=0,6
 0,2 0,2 0,6 0,7 0,8 0,9 -> Md=0,65; X= 0,57
 0,2 0,2 0,6 0,7 0,8 4,5 -> Md=0,65; X= 1,17
Medidas de Dispersão (ou de Variabilidade), 
vem complementar a medida de posição
- A informação fornecida pelas medidas de posição em geral necessita de ser complementadas pelas medidas de dispersão.
- As medidas de dispersão servem para indicar o “quanto os dados se apresentam dispersos em torno da região central”. 
- Portanto caracterizam o grau de variação existente em um conjunto de valores. Medidas de dispersão: 
· Amplitude 
· Variância 
· Desvio-padrão 
· Coeficiente de variação
Probabilidade
Introdução à probabilidade
- O termo experimento significa fazer ou observar alguma coisa sob certas condições, resultando em algum estado final de acontecimentos ou resultados.
- Na prática, os experimentos não são precisamente repetíveis, mesmo sob condições supostamente idênticas. Este é o caso quando há fatores afetando os resultados, mas não há conhecimento desses fatores ou como controlá-los, ou quando há fatores supostamente sob controle, mas na realidade não estão.
- Experimento aleatório trata-se de um experimento cujos resultados não podem ser previstos com certeza.
- Em muitas dessas situações, poderemos estabelecer modelos para quantificar as incertezas dos resultados.
Probabilidade e frequência relativa
- Probabilidade de um evento é a proporção de vezes que o evento é esperado ocorrer, quando o experimento é repetido sob idênticas condições.
- Em geral, quando um experimento é repetido n vezes, define-se como frequência relativa de um evento E em n ensaios a razão:
A razão fn (E) flutua quando o número n de repetições do experimento muda. Entretanto, desde que as condições experimentais não mudem, a fn (E), quando n aumenta (n infinito), tende a se estabilizar em um valor numérico único, o qual é chamado de probabilidade do evento E.
Algumas propriedades
Evento complementar
Probabilidade condicional e independência dos eventos
Probabilidade Condicional e Diagrama de Venn
Probabilidade Total
Probabilidade CondicionalTeorema de Bayes
Exercício
Suponha que o frigorífico para qual você trabalhe receba animais de cinco fazendas, sendo 10% da fazenda A, 25% da fazenda B, 40% da fazenda C, 15% da fazenda D e 10% da fazenda E. A secretaria da agricultura notificou-lhe que, em uma blitz nas respectivas fazendas foram encontradas incidências de 
tuberculose de 20%, 15%, 5%, 5% e 5% para as fazendas A, B, C, D, e E respectivamente. Após o abate as carcaças são resfriadas sem identificação das fazendas. Qual a probabilidade de uma carcaça amostrada ao acaso, com sinais de Tuberculose, tenha sido obtida da fazenda C?
Variáveis aleatórias
Exemplo: Experimento genético com flores de ervilhas
WW=flor branca 
WR ou RW=flor rosa e 
RR=flor vermelha 
 S= {WW, WR, RW, RR} 
- Quantificar os resultados e associar a cada ponto amostral o número de alelos R: 
0 ao ponto WW, 
1 aos pontos WR e RW, e 
2 ao ponto RR
Definição 1: A função que associa a cada ponto do espaço amostral um número real é chamada variável aleatória (v.a.)
v.a. X = "número de alelos R" temos que: 
 X(WW) = 0, X(WR) = X(RW) = 1, e X(RR) = 2.
 O domínio da v.a. X é o conjunto 
D(X) = {WW, WR, RW, RR} = S 
e a imagem, o conjunto dos números inteiros I(X) = {0, 1, 2}.
Definição 2. Chamamos de variável aleatória discreta toda função definida no espaço amostral S (ou) que assume valores num conjunto enumerável de pontos do conjunto real.
 Exemplo. Em um piquete existem dois bezerros Gir (G) e três Nelore (N). Sorteamos, sem reposição, dois desses animais para serem submetidos a um tratamento com carrapaticida. Neste caso, o espaço amostral é S = {GG, GN, NG, NN}. Utilizando o diagrama de árvore poderemos calcular as probabilidades de ocorrência de cada resultado:
Definição 3. Chamamos de Função de Probabilidade (f.p.) da v.a. discreta X, que assume os valores x1, x2, ..., xn, a função P(xi) que associa a cada valor xi da variável aleatória X, sua probabilidade de ocorrência, isto é, P(xi) = P (X = xi) = p
Valor esperado de uma variável aleatória discreta
Definição 4. Dada uma v.a. discreta X, assumindo o0s valores x1, x2...., xn, com as respectivas possibilidades p1, p2, ..., pn. chamamos de valor médio ou esperança matemática da v.a. X, o valor numérico calculado através da fórmula.
chamamos de variância da v.a. X o valor calculado através da fórmula:
Distribuições de Probabilidade Variáveis aleatórias
Principais Modelos Discretos
- Algumas variáveis aleatórias aparecem com bastante frequência em situações práticas e justificam um estudo mais aprofundado;
- Nesses casos, a distribuição de probabilidade pode ser escrita de maneira mais compacta, ou seja: “existe uma modelo para atribuir as probabilidades”.
Distribuições de Bernoulli
Exemplos: (a) testa-se um antibiótico, a reação ou é positiva (S) ou é negativa (F);
(b) observa-se um nascimento, o recém-nascido ou é macho (F) ou é fêmea (S);
(c) um animal é escolhido, ao acaso, de um lote contendo 50 animais, o animal é doente (S) ou não (F);
(d) Insemina-se uma vaca, se ficar prenhe (S), se não (F).
Experimento Binomial
Consiste em n replicações, independentes de experimento de Bernoulli.
(a) experimento consiste numa sequência de n replicações idênticas;
(b) os resultados possíveis em cada replicação são sucesso ou fracasso;
(c) probabilidade de sucesso, denotada por p, não muda de replicação para replicação;
(d) as replicações são independentes.
Modelo Binomial
Exercício – Distribuição Binomial
Num estudo de germinação de sementes são observados os números de sementes germinadas por recipiente contendo, cada um, 10 sementes. Supondo que a probabilidade de cada semente germinar seja igual a 0,95,
– Calcular a probabilidade de geminarem:
(a) exatamente 9 sementes e (b) 9 ou mais sementes;
– Calcular o número médio esperado de sementes germinadas;
– Calcular a variância esperada do número de sementes germinadas por recipiente.
Distribuição de Poisson
Consideremos as seguintes variáveis aleatórias:
X1: o número de mutações num lócus por geração;
X2: o número de glóbulos vermelhos observados em cada quadrado de um hemocitômetro;
X3: o número de bactérias em um litro de água não purificada;
X4: o número de clientes que chegam a uma loja agropecuária em uma hora.
onde xi=x, x= 0, 1, 2, 3, ...
Experimentos consistem em observar a ocorrência de eventos discretos em um intervalo; Intervalo contínuo: unidade de tempo, de área, de volume, ...
Características de um experimento de Poisson:
· Probabilidade de uma ocorrência é a mesma para intervalos de tempo (ou espaço) de igual comprimento;
· Ocorrência ou não num dado intervalo (ou espaço) é independente de ocorrência ou não em outro intervalo.
Função de Probabilidade para o Modelo de Poisson
Uma variável aleatória X segue a Distribuição de Poisson, com parâmetro > 0 se sua Função de Probabilidade ou Função Discreta de Probabilidade é dada por:
em que: λ = usualmente referido como taxa de ocorrência (ou número médio de ocorrências);
e= 2,718281828459
- Exemplo. Modelo Poisson
Supondo que o número médio de bactérias por litro de água purificada é 2, qual é a probabilidade que 5 ou mais bactérias sejam encontradas em uma amostra de 3 litros de água?
Sendo λ = 2.3 = 6, o número médio de bactérias em 3 litros de água.
Distribuição de Poisson como aproximação da distribuição binomial
Quando n é grande e p é pequeno, podemos usar a distribuição de Poisson com λ = 𝑛. 𝑝. Ex. Sabendo-se que a probabilidade de um animal ter reação negativa a certa vacina é de 0,001, determinar a probabilidade de que, de 2000 animais injetados, mais do que três tenham reação negativa.
λ = 2000.0,001 = 2
Ex. Sabendo-se que a probabilidade de um animal ter reação negativa a certa vacina é de 0,001, determinar a probabilidade de que, de 2000 animais injetados, mais do que três tenham reação negativa.
𝑃 𝑋 > 3 = 1 − 𝑃 𝑋 ≤ 3 = 1 − 0,8572 = 0,1428
Aproximação Poisson à Binomial
Algumas vezes para se calcular a probabilidade usando a distribuição binomial, ocorre que n é muito grande e p é muito pequeno, de modo que q é próximo de 1.
A aproximação é boa, se n.p =  ≤ 7
Valor esperado e variância para o Modelo Poisson
Variáveis Aleatórias Contínuas
Variável aleatória (v.a.) que pode assumir todos os valores em um intervalo.
Medidas de altura, temperatura, peso, produção de leite, pressão arterial, etc., são todas deste tipo.
A distribuição de probabilidade de uma v. a. contínua:
A função densidade de probabilidade, f(x), a qual descreve a distribuição de probabilidade para uma v.a. aleatória contínua, têm as propriedades:
a) a área total sob a curva é igual a 1;
b) P (a  X  b) = área sob a curva entre os pontos a e b;
c) f(x)  0 (não negativa)
d) P (X = xi) = 0
“Com variáveis aleatórias contínuas, a probabilidade que X = xi é sempre zero [P (X = xi) = 0]. Assim, é somente relevante falar a respeito da probabilidade que X encontra-se em um intervalo”.
P (a  X  b) = P (a < X  b) = P (a  X < b) = P (a < X < b)
P (a  X  b) é o resultado da integral de f(x) no intervalo [a, b], que coincide com a área da região sob a curva de f(x), o eixo das abcissas e os limites de integração. Mas, felizmente, áreas de distribuições importantes estão tabuladas e disponíveis para consulta.
Dada uma v.a. X contínua, interessa saber qual a f(x). Alguns modelos são frequentemente usados para representar a função densidade de probabilidade (f.d.p.) de v.a. contínuas. O mais utilizado é o Modelo Normal.
A distribuição Normal é a mais importante distribuição contínua de probabilidade pois fenômenos biológicos aleatórios comportam-se de forma próxima a essa distribuição.
Distribuição Normal
Cálculo de probabilidades
Distribuição Normal Padrão
Análise passo a passo:
- Faça um esboço da distribuição normal e indique a média da variável aleatória x- Assinale a área correspondente à probabilidade que se deseja obter - Converta os valores da área sombreada de x para z, conforme mencionado via cálculo de z:
- Cheque os valores de z em relação à média 0 e desvio = 1 - Use a tabela apropriada para achar as áreas correspondentes a cada valor de z.
Aproximação Normal à Binomial
- A distribuição normal pode ser recomendada para aproximar probabilidades binomiais, mesmo para n tão pequeno quanto 15, contanto que p seja próximo de 0,5. - Quando p é muito pequeno e n é grande, a distribuição de Poisson é mais apropriada. - Como uma norma prática, n pode ser assumido como “suficientemente” grande para se usar a distribuição normal, quando [np(1-p)]  3, sendo que a aproximação melhora com o crescimento de n.

Continue navegando