Buscar

Introdução à Estatística

Prévia do material em texto

Estatística
Semana 1 – Introdução a Estatística
A estatística emprega métodos para a coleta, organização, descrição, análise e interpretação de dados para a tomada de decisões em ambientes de incertezas e variações.
Origem da aplicação: recenseamento, realizado pelos governos para conhecer seus habitantes, sua condição socioeconômica, sua cultura, religião, etc.
Na antiguidade: registro do número de habitantes, de nascimentos, de óbitos, estimação das riquezas, cobrança de impostos e realização de outras pesquisas quantitativas.
Na idade média: coleta de informações com finalidades tributárias ou bélicas.
Atualmente: informações numéricas são necessárias para cidadãos e organizações de qualquer natureza, e de qualquer parte do mundo globalizado.
Aplicações:
· Índices econômicos
· Pesquisas de intenção de votos
· gráficos e medias publicados na mídia; etc.
Estatísticas: no plural indica qualquer coleção de dados numéricos, reunidos com a finalidade de fornecer informações acerca de uma atividade qualquer.
Estatística: no singular é um método para coleta, classificação, apresentação, análise e interpretação de dados quantitativos. – Tomada de decisões
Importância da estatística: métodos estatísticos são fundamentais para o trabalho de professores, pesquisadores, engenheiros, cientistas sociais, economistas, entre outros.
Áreas da estatística
1. Probabilidade – consiste no estudo da aleatoriedade e da incerteza, utiliza métodos de quantificação das chances associadas aos diversos resultados.
· Observa-se a frequência de ocorrência do evento
· Divide-se o numero de vezes em que o fato de interesse ocorreu pelo número de observações realizadas, obtendo-se uma estimativa da probabilidade P(x) de ocorrência desse evento.
2. Descritiva e amostragem – Conceitos e métodos para coleta, organização, apresentação, análise e síntese de dados obtidos em uma população ou amostra. Usualmente apresenta dados consolidados e informações referentes ao fenômeno utilizando gráficos e tabelas. Tem por objetivo calcular medidas que permitam descrever este fenômeno.
3. Estatística inferencial ou indutiva: Processo de estimar informações sobre uma população a partir de resultados observados numa amostra.
1. Seleção da amostra
2. Determinação do parâmetro de interesse
3. Estabelecimento das hipóteses
4. Seleção das estatísticas de teste
5. Obtenção dos valores
6. Análise dos resultados obtidos 
7. Tomada de decisão
A estatística indutiva realiza a análise e interpretação dos dados tendo em vista a tomada de decisões relacionadas com uma determinada população de interesse.
Fases do método estatístico
1. Definição do problema
· Compreensão do contexto em análise
· Identificação dos principais parâmetros de interesse
· Formulação correta do problema
2. Planejamento da pesquisa
· Quais dados devem ser obtidos?
· Como estes dados serão obtidos?
· Qual tipo de levantamento será realizado? Censitário ou amostral?
· Qual o cronograma de atividades?
· Quais os custos de realização desta pesquisa?
3. Coleta dos dados
· Atividade essencialmente operacional
· Compreende a obtenção efetiva dos dados
· Dados primários – coletados pelo próprio pesquisador, são obtidos diretamente na fonte de origem (coleta direita)
· Métodos de coleta: Observação, levantamento, entrevista pessoal, telefone e questionário
· Dados secundários: coletados por outra organização, já publicados anteriormente
4. Apuração dos dados (transformação dos dados)
· Tabulação – dispor os resultados em uma tabela
· Contagem
· Agrupamento
5. Apresentação dos dados
· Tabelas
· Gráficos
6. Análise e interpretação dos resultados obtidos
· Realizar cálculos de medidas (Ex: média)
· Interpretar os resultados (alto, baixo, bom, ruim, etc)
· Tirar conclusões
Semana 2 
Tabelas 
· Corpo: conjunto de linhas e colunas que contêm informações sobre a variável em estudo
· Cabeçalho (linha com rótulos) parte superior da tabela que especifica o conteúdo das colunas
· Coluna indicadora (rótulo) parte da tabela que especifica o conteúdo das linhas
· Linha
· Casa ou célula: espaço destinado a um só número
· Título: : conjunto de informações, as mais completas possíveis, respondendo às perguntas: O quê? Quando? Onde? localizado no topo da tabela
· Fonte: –indicação da entidade responsável pelo fornecimento dos dados ou pela sua
Série estatística: distribuição de dados estatísticos
· Cronológica: variação do tempo (quando)
· Geográfica: variação do local (onde)
· Específica: variação do fenômeno em observação (o que)
Gráficos – simplicidade: destituído de detalhes e traços desnecessários; clareza: possuir uma correta interpretação dos valores representativos do fenômeno em estudo; veracidade: expressar a verdade sobre o fenômeno em estudo.
· Possibilita rápida visualização dos valores ou frequências
· Visualização da concentração e dispersão dos valores
· Viabiliza conclusões sobre a evolução do fenômeno ou das suas relações
· Devem ser simples, claros e verídicos
Probabilidade: medida da informação sobre a ocorrência de um evento
Estatística: baseia-se no estudo dos fenômenos probabilísticos
Consiste no estudo da aleatoriedade e da incerteza
Utiliza métodos de quantificação das chances associadas aos diversos resultados
Fenômeno determinístico: O resultado é sempre o mesmo
Fenômeno probabilístico: O resultado é incerto e variável
· Experimento aleatório: Fenômenos aleatórios podem conduzir a diferentes resultados. Mesmo com condições iniciais iguais, o resultado é imprevisível.
Características: Os possíveis resultados são conhecidos (possibilidades). O resultado final não é conhecido. Cada experimento pode ser repetido indefinidamente sob as mesmas condições. Quando o experimento for repetido um grande número de vezes e houver regularidade na explicação desse fenômeno, é a possível estruturar um modelo matemático probabilístico.
P=M/N onde P: probabilidade M: número de sucessos N: número de possibilidades
Espaço amostral – é o conjunto de todos os possíveis resultados do experimento
conjunto - uma coleção definida de objetos ou itens
Eventos aleatórios: Qualquer subconjunto de um espaço amostral. Resultado possível em experimentos aleatório e que não é previsível.
Semana 3 Teoremas da probabilidade
Teoria da contagem: Para problemas complexos, recorre-se às combinações e arranjos para determinar o número de casos.
Combinação 
· N = número e elementos no conjunto amostral
· P = número de elementos escolhidos
· C = número de combinações possíveis
A ordem dos elementos não faz diferença
Cn,p = (n/p) = n!/ p!(n-p)!
Arranjos:
· R = número de elementos no conjunto amostral
· P = número de elementos escolhidos
· A = número de arranjos possíveis
A ordem dos elementos faz diferença
Ar,p = r!/(r-p)!
Probabilidade condicional
Teorema do produto
Eventos independentes: A informação sobre o evento B não altera a probabilidade de ocorrência de A
P (A/B) = P(A)
Teorema de Bayes
Variáveis aleatórias
P(X=k) = (5 / k) .0,4k . 0,65-k
Variáveis aleatórias discretas - admite um número finito de valores ou tem uma quantidade enumerável de valores. Ex: dado
Variáveis aleatórias continuas – pode tomar um número infinito de valores e esses valores podem ser associados a mensurações em uma escala contínua. Ex: altura de uma pessoa
Propriedades das distribuições de probabilidade
· Esperança matemática (média)
· Variância – grau de dispersão de probabilidade em torno da média.
· Desvio padrão = raiz quadrada da variância
Mediana – valor numérico que separa o conjunto pela metade (valor do meio)
Moda – valor numérico de maior frequência
Distribuição de Bernoulli
· Experimento aleatório
· Realizado repetidas vezes (tentativas)
· Mantidas as mesmas condições
· Resultado: Sucesso ou fracasso120
Distribuição Binomial
· N provas independentes
· Sucesso ou fracasso (Bernoulli)
· P(sucesso) = P (constante)
pk.qn-k
	Diferentes ordens
P(x=k)= (n/k).pk.qn-k
(n/k) = n!__ 
 k!(n-k)!
Média = n.p onde n = número de experimentos e p a probabilidade
Variancia = n.p.q onde q = 1 -p
Distribuição de Poisson
limBinomial= Poisson n →ꝏ
Hipóteses
· Eventos definidos em intervalos não sobrepostos são independentes
· λ é constante no intervalo estudado
Distribuição normal – teorema do limite central
· A soma de infinitas variáveis independentes segue uma distribuição normal
Semana 5 – Amostragem
Método Estatístico
· Coleta, organização, análise e interpretação de dados experimentais
· Seu objetivo fundamental é o estudo dos parâmetros de uma população
Conceitos:
· Pesquisas podem ser realizadas por meio do estudo dos elementos de uma amostra
· A amostra é extraída da população que se pretende analisar
· Amostragem é o processo de escolha da amostra
Método estatístico
· Definição do problema
· Planejamento da pesquisa
· Coleta dos dados
· Apuração dos dados
· Apresentação dos dados
· Análise e interpretação dos dados
Amostragem não probabilística
· Amostragem acidental: formada por elementos conforme estes vão aparecendo. Elementos são os possíveis de se obter. Encerra quando completa o número de elementos da amostra.
· Amostragem intencional: formada por elementos escolhidos por determinado critério. Grupo de elementos intencionalmente escolhidos para compor a amostra.
· Amostragem por quotas: Classificação da população de acordo com propriedades. Determinação da proporção da população para cada propriedade (quotas). Seleção não aleatória de elementos de cada quota identificada.
Amostragem probabilística
· Cada elementos da população possui probabilidade conhecida de ser escolhido
· Usualmente a probabilidade é a mesma entre os elementos
· População com n elementos
· P(participar) = 1/N
· Pode-se realizar inferências sobre a população a partir dos parâmetros estudados na amostra
· Resultados são generalizados
1 Amostragem aleatória simples: Seleção de amostras de tamanho k, dentre as n unidades da população. Amostragem realizada sem reposição. Número de amostras possíveis: (n/k) = n!/k!(n-k)!
Amostra pode ser escolhida por diversos métodos. Na prática é escolhida unidade por unidade
Amostragem aleatória estratificada: obtida separando-se as unidades da população em grupos não superpostos chamados estratos. Seleciona-se amostras aleatórias independentes simples de cada estrato. N → Nº de unidades da população n → Nº de unidades das amostras Na → Nº de unidades do estrato A na → Nº de amostras de A 
2 Amostragem sistemática
3 Amostragem por conglomerado
Semana 5
· Amostra – Subconjunto da população
· Amostragem – processo de extração de amostras representativas
· Riscos – margem de erro prevista numa investigação parcial considerando o universo
· População alvo – população sobre a qual serão propostas inferências a partir da amostra
Apresentação dos dados – Qualidade na decisão depende da habilidade em compreender as informações contidas nesses dados
Distribuição de frequência e histogramas: organização, apresentação e análise gráfica de uma série de dados, matéria prima das análises e interpretações estatísticas.
Dados brutos – dados originais, ainda não prontos para análise
Classificação dos dados – dados brutos organizados em ordem crescente ou decrescente
Frequência de uma observação – número de repetições dessa observação, ou seja, quantas vezes determinado fenômeno acontece
Distribuição de frequência sem intervalos de classe – Valores contados conforme repetição. Funciona com poucos valores
Distribuição de frequência com intervalos de classe – Agrupamento dos valores em vários intervalos de classe. Funciona quando existem muitos valores
Dados discretos – assume valores em pontos da reta real
Dados contínuos – A variável assume valores em intervalos da reta real
Amplitude – é a diferença entre o maior e o menor número do rol
Classes – Intervalos de variação da variável. Representadas simbolicamente por i, sendo i = 1, 2, 3, ... k. Por sua vez k é o número total de classes da distribuição
Frequência relativa – razão entre as frequências simples e o número total de dados fi = ni/n (porcentagem do total)
Ponto médio da classe – ponto que divide o intervalo de classe em duas partes iguais 
Frequência acumulada – total das frequências dos valores inferiores ao limite superior de uma classe (soma da frequência relativa)
Histogramas – Conjunto de retângulos justapostos, Bases se localizam sobre o eixo horizontal. Pontos médios coincidem com pontos médios dos intervalos de classe. Larguras dos retângulos iguais às amplitudes dos intervalos. Alturas dos retângulos devem ser proporcionais às frequências das classes
N =18
10 11 12 15 21 22 22 23 24 24 25 31 31 31 33 33 45 50
Amplitude = 40
K = √N = √18 = 4,24
H = A/K = 9,4
Semana 6 
Conceituar as principais medidas de posição central: moda, média e mediana
Realizar cálculos para obtenção das medidas de posição central
Medidas de posição
· Localizar a maior concentração de valores de uma distribuição
· Sintetizar o comportamento do conjunto do qual ele é originário
· Possibilitar comparações entre séries de dados
Média aritmética ponderada
Atribui-se um peso a cada valor da série
Média – Centro da distribuição. Vantagem: Reflete todos os valores. Desvantagem: é afetada por valores extremos
Moda –Valor que ocorre com maior frequência em um conjunto de dados
· Multimodal: conjunto de dados com amis de uma moda
· Amodal: conjunto em que não existe um valor predominante
Mediana Divide a distribuição ao meio. Vantagem: Menos sensível a valores extremos. Desvantagem: difícil determinar para grandes quantidades de dados
· Separatriz: divide o conjunto em duas partes iguais, com o mesmo número de elementos
· Centra da série estatística organizada
Medidas de dispersão
· Medem o grau de variabilidade (dispersão) dos valores observados em trono da média aritmética
· Caracterizam a representatividade da média e o nível de homogeneidade ou heterogeneidade dentro de cada grupo analisado.
Amplitude total
· Diferença entre o maior e o menor dos valores da série
· A = Xmax - Xmín
· Não considera a dispersão dos valores internos
· Utilização limitada enquanto medida de dispersão
Variância (S2)
· Leva em consideração os valores extremos e também os valores intermediários
· Relaciona os desvios em trono da média
· Media aritmética dos quadrados dos desvios
· Número em unidade quadrada
· Maior dificuldade de compreensão e menor utilidade na estatística descritiva
· Extremamente relevante na inferência estatística e em combinações de amostras
Desvio padrão
· Mais usado na comparação de diferenças entre conjuntos de dados
· Determina a dispersão dos valores relação à média
S = √S2
Coeficiente de Variação
· Medida relativa de dispersão
· Útil para a comparação em termos relativos do grau de concentração
CV = S/X onde x= média
Assimetria
· Referem-se à forma da curva de uma distribuição de frequência (histograma)
· Denomina-se assimetria o grau de afastamento de uma distribuição da unidade de simetria
Média = moda = mediana = curva simétrica
A assimetria pode ser assimétrica à direita (positiva) ou a esquerda (negativa)
Curtose
· Grau de achatamento ou afilamento de uma distribuição em comparação com uma curva normal
· Mesocúrtica: curva básica de referência (curva padrão ou curva normal)
· Platicúrtica: curva mais achatada (ou mais aberta) que a curva normal
· Leptocúrtica: curva mais afilada que a curva normal
Semana 7 – Estatística inferencial
· Processo de extrair informações sobre uma população a partir dos resultados observados numa amostra.
· Conhecer, de maneira aproximada, as características de uma grande população a partir das informações obtidas a partir de uma amostra.
· As conclusões são sempre acompanhadas de um grau de incerteza ou risco
· O processo de generalização da inferência estatística explicita este grau de incerteza ou risco
Definição: conjunto de técnicas e procedimentos que permitem ao pesquisador afirmar com um certo grau de confiabilidade afirmativas sobre as populações estabelecidas a partir dos resultados observados nas amostras.
· População: conjunto que inclui todas as observações possíveis
· Amostra: conjunto de dados que inclui uma parte significativa dessas observaçõesObjetivo dos estudos, análises ou pesquisas estatísticas: estabelecer generalizações seguras com base em resultados amostrais.
Estimativa de parâmetros populacionais
· Parâmetro: medida usada para descrever numericamente uma característica da população.
· Estimados: valor numérico sobre um determinado parâmetro obtido a partir de uma amostra. Também conhecido como estatística de um parâmetro populacional.
Distribuição amostral
· Em relação a uma determinada população, considere todas as possíveis amostras de tamanho n que podem ser extraídas desta população.
image1.png
image2.png

Continue navegando