Prévia do material em texto
Introdução · A matéria prima da estatística é variabilidade · Conceito: é um conjunto de métodos científicos para: · Coleta, organização, resumo e análise de dados · Obtenção de conclusões (suporte à tomada de decisão) · População: é o conjunto de todas as unidades (elementos) de interesse que têm pelo menos uma característica em comum · Pode ser finita ou infinita · Ex: pesquisas eleitorais no RS · Característica definidora – votar no RS · População – conjunto de todos os eleitores que votam no RS · Unidade – o eleitor · Amostra: é parte de uma população, convenientemente escolhida, que tem a finalidade de representá-la · Deve apresentar as mesmas características da população · Amostragem: é a metodologia de obtenção das amostras · Por que fazer amostragem? · População finita · Diminuir custo · Aumentar velocidade na caracterização (medidas que variam no tempo) · Minimizar perdas por medidas destrutivas · Quanto amostrar? · Quanto maior a variabilidade original dos dados, maior o n da amostragem · Quanto maior for requerida a precisão na estimação, maior n · Quanto menor o tempo disponível, menor o n · Quando maior o curso da amostragem, menor o n · Amostragem: · Probabilística: todos os elementos da população têm probabilidade conhecida e diferente de zero de participar da amostra · A realização deste tipo de amostragem só é possível ser a população for finita e totalmente acessível · Simples · Estratificada · Por conglomerados · Sistemática · Não probabilística: presença dos elementos na amostra deve-se a outros critérios, por exemplo, quando somos obrigados a colher a amostra na parte da população que temos acesso · Intencional · Por quota · A esmo · A amostragem probabilística é a mais recomendável porque garante a imparcialidade da amostra Variáveis · Qualitativas (categóricas) – descrevem qualidades (categorias ou classes) · Nominais – não há um sentido de ordem entre seus níveis · Ex: sexo, profissão, região geográfica · Ordinais – há um sentido de ordem entre seus níveis · Ex: faixas de idade, intensidade de cor, nível de instrução · Quantitativas (numéricas) – seus valores são números reais (observados) · Discretas – descrevem dados discretos ou de enumeração · Contínuas – descrevem dados contínuos ou de mensuração Inferência estatística: Distribuições amostrais e teorema central do limite · A ideia fundamental é dar informação sobre o todo com base no conhecimento da parte · Inferência é o conjunto de procedimentos estatísticos que têm por finalidade generalizar conclusões de uma amostra para uma população · Distribuição amostral é a distribuição de probabilidade de uma estatística · Variância – calcula os valores ao quadrado e diminui da média ao quadrado · Quantas possíveis amostras? · Sempre que eu tiver uma amostra de tamanho n, a variância das médias dessas amostras de tamanho n será a variância da minha população dividido pelo n · O desvio das médias é igual a população dividido por raiz de n · Teorema central do limite – se a população (x) de onde foi extraída a amostra aleatória não tiver distribuição normal, então a distribuição amostral da média se aproximará da normal à medida que o tamanho da amostra (n) cresce · Se a população (x) de onde foi extraída a amostra aleatória tiver distribuição normal, então a distribuição amostral da média será normal · As médias são iguais, mas a variância da média de x é n vezes menor Inferência estatística: estimação de parâmetros · Estimadores: média, variância e proporção (são variáveis aleatórias, logo, pode assumir diferentes valores) · Estimativa é um valor particular que o estimador assume · Processos de estimação · Estimação por ponto – é o processo através do qual obtemos um único ponto, ou seja, um único valor para estimar o parâmetro · Estimação por intervalo – é um processo que permite obter os limites de um intervalo onde, com uma determinada probabilidade (nível de confiança), podemos esperar que contenham o verdadeiro valor do parâmetro · As estimativas por intervalo são preferíveis àquelas por ponto porque indicam a precisão, estabelecendo limites que, com uma determinada probabilidade, devem conter o parâmetro · Logo, para se ter confiança de estimar o verdadeiro parâmetro populacional, gera-se um intervalo de possíveis valores, a partir do valor (estimativa pontual) encontrado na amostra · Quanto maior a amplitude do intervalo, maior a confiança (probabilidade) de estimar corretamente o verdadeiro parâmetro populacional, porém menor será a precisão da estimação · Esta probabilidade (1-a) é chamada nível de confiança, sendo a o nível de significância, ou seja, a probabilidade de o intervalo não conter o verdadeiro parâmetro populacional · Intervalo de confiança para a média de uma população · Duas situações – conhecemos o valor de sigma (ou n > 30) ou não conhecemos o valor de sigma (e n 30), a estimativa é considerada suficientemente próxima do parâmetro · Intervalo de confiança para a diferença entre médias de duas populações · Intervalo de confiança com variância image6.png image7.png image8.png image1.png image2.png image3.png image4.png image5.png