Baixe o app para aproveitar ainda mais
Prévia do material em texto
Mariana A. Michalichen AE2 Prof Aldy || 2020.1 Resumo estatística 1 Fontes e tipos de dados: Amostra X População: ● População: conjunto de pessoas, itens ou eventos. Possui pelo menos uma característica em comum. ● Amostra: subconjunto da população, quanto maior, mais precisa é. Variáveis: valores que assumem alguma característica na pesquisa. Elementos: componentes da amostra. Observação: algum dado extra em relação a cada elemento. Fontes de dados: ● Dados primários: originais, específicos e flexíveis. ○ Possuem amostras pequenas, alto custo e podem não representar a realidade. Algo muito específico. ● Dados secundários: já coletados e disponíveis. ○ Amostras grandes, baixo custo, mas podem estar desatualizados. ex: IBGE Tipos de dados: ● Corte transversal: vários elementos em um mesmo período de tempo (ex.: PIB 2020) ● Séries temporais: dados observados em diferentes instantes do tempo. (ex: PIB BR 2019,2020) ● Dados longitudinais: observação de vários elementos em diferentes períodos de tempo. (ex.: PIB América 2019, 2020) Tipos de variáveis: Variáveis qualitativas: não podem ser contados, características da variável ● Nominais: não podem ser contadas (ex.: região, CPF) ● Ordinal: podem ser ordenadas (ex.: grau de satisfação, mês, escolaridade) Variáveis quantitativas: ● Discreta: números inteiros, não há valor entre dois números consecutivos (ex.: nº de filhos) ● Continua: existem valores entre números consecutivos. (ex.: altura, nota da prova, lucro) Distribuição de frequências em variáveis qualitativas e quantitativas: Tabela de distribuição de frequências QUALITATIVAS: dividido em três colunas ● Variável ● Freq. absoluta (ɳi): ○ contagem em cada categoria. ○ Soma freq. absoluta = ɳ (tamanho da amostra) ● Freq. relativa (ƒi): ○ Proporção, porcentagem ○ Medida decimal ou % Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ○ Soma freq. relativas = 1 ou 100% ○ ƒi = ɳi / ɳ Tabela de distribuição de frequências QUANTITATIVAS: ● Primeiro caso:: há poucos resultados que se repetem.: ○ Mesmo procedimento das variáveis qualitativas (calcular ɳi e ƒi) ● Segundo caso: muitos resultados sem grande repetição: ○ Organização dos resultados em faixas: ■ Achar o valor de ɳ ■ O nº aprox. de faixas deve ser = √ɳ ○ Construindo faixas de tamanho igual: ■ Calcular amplitude: Ⲁ = (Max - Min) e dividir por .√ɳ Histograma: ● Gráfico de colunas, utilizado apenas para variáveis quantitativas; distribuição de frequência de variáveis contínuas ○ Respeitando a escala e faixas. ○ As faixas devem sempre estar uma grudada na outra. ● Eixo X: valores da variável ● Eixo Y: frequência - relativa (ƒi), absoluta (ɳi) ou densidade. ● Montando histograma: 1. Achar a amplitude e definir classe das faixas Gráfico de pizza: ● Funciona bem com váriaveis qualitativas, pois cada setor representa uma categoria. Medidas estatísticas: Medidas de posição: ● Média: ● Mediana: posição central de uma série de dados, não sendo afetada por valores extremos. ● Percentil: conjunto em ordem crescente; divide os dados em 100 partes iguais. ○ Calcula o valor que deixa X% abaixo dele. ○ Se P(x) não for inteiro, considerar o termo correspondente ao próx. nº inteiro. P(x)= ɳ*x% ■ Ex.: P(10)=N*0,10 caso P(10) inteiro; então: P(10)=[x(n*0,10)+ x(n*0,10)+1]/2 caso não: considerar o próximo número inteiro ● Quartil: divide os dados ordenados em 4 partes de 25% Mariana A. Michalichen AE2 Prof Aldy || 2020.1 Q1=n*0,25 Q3=n*0,75 Medidas de dispersão: ➔ Essas medidas indicam o quanto os valores variam em relação a média. ● Variância: (S^2): calcula a variação de X em relação a X ○ Propriedades da variância: ■ Var(X + a)= Var(X) ■ Var(aX)= Var(X) a2 ● Desvio padrão: (S) ● Coeficiente de variação: (CV) compara conjunto de dados com diferentes medidas. C1<C2, indica que C2 é mais amplo. Outliers e padronização: ● Regra empírica: utilizada em variáveis que possuem distribuição simétrica Mariana A. Michalichen AE2 Prof Aldy || 2020.1 Os 0,3% restantes, são considerados outliers. ● Z-SCORE: padronização a partir do desvio padrão de uma variável. ● Outliers: ○ valores extremos que podem identificar erro na coleta de dados ou valores muito raros. ○ Identificação de outliers: 1. Regra impírica (Score Z)- distribuição simétrica valores Z >3 ou Z - 3 2. Boxplot.- quando não há distribuição simétrica Q1 = 0,25 Q2 = 0,5 Q3= 0,75 Limite inferior: =Q1 - 1,5 * IIQ Limite superior: =Q3 + 1,5* IIQ IIQ = Q3-Q1 (intervalo interquartil) (no excel: mediana INCLUSIVA) Análise bidimensional: análise de duas variáveis ao mesmo tempo, explorando o nível de . associação entre elas. Quali X Quali: Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ● Tabela feita através de tabelas de freq. do excel. ● Análise vertical: ○ Observar os dados de acordo com a coluna que pertencem. ○ Dividir o dado de cada linha pelo total da coluna ○ Ler de tal modo: coluna e depois relacionar com a linha. ex.: “26,67% das mulheres possuem ensino superior” ● Análise horizontal: ○ Observar os dados de acordo o total da linha; dividindo cada coluna pelo total da linha. ○ Leitura: “x% do ensino superior são do gênero feminino” Quali X Quanti: 1. Separação em grupos - QUALI 2. Análise das medidas descritivas (média, variância e DP) - QUANTI 3. Comparação dos boxplots (permite analisar a variabilidade de uma maneira visual) ● Buscar a associação entre as variáveis: há associação quando: 1. A média dos grupos é bem diferente 2. O desvio padrão de cada grupo é menor que o desvio padrão total. 3. Boxplot diferentes (boxplots diferentes mostram associação) Obs: gráficos de barra não demonstram a associação entre variáveis. coluna = quali || linha = quanti Quanti X Quanti: ● Gráfico de dispersão: representação gráfica da relação entre 2 variáveis quanti. ○ Gráfico composto por pontos, como se fosse um gráfico ordenado. exemplo: ● Associação linear: mostra como 2 variáveis estão associadas. Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ○ Tipos: positiva (sinais iguais) ↳ ( - / - ) ou ( + / + ) negativa (sinais opostos na tendência de crescimento) ↳ ( - / - ) ou ( + / + ) nula (o valor de uma variável não interfere no crescimento da outra) ↳ não é possivel identificar padrão entre X e Y ● Medidas de associação: utilizadas, pois nem sempre é possível observar apenas através do gráfico. ○ Covariância:(Sxy) mostra se associação é positiva, negativa ou nula. ■ Calcula a variação de X de acordo com os valores de Y ■ Associação entre variáveis: cov( X, Y ) > 0 = positiva cov( X, Y ) < 0 = negativa cov( X, Y ) = 0 = nula ■ Não informa se a associação é forte ou fraca, pois ela depende da escala das variáveis! Se houver congelamento da variável Y e aumento proporcional na correlvariável X; portanto após um tempo as médias continuarão iguais e não haverá mudança na covariância.. ○ Correlação:( rxy) obtida a partir da padronização das variáveis. FORÇA ■ Obtém valores entre -1 e 1 ➔ mais próximo de 1 = + forte e positiva é a associação. ➔ mais próximo de -1 = + forte e negativa é a associação. ■ A força é medida a partir do quão próximo está dos extremos. ■ Quanto mais linear, mais associadas Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ■ Se houver congelamento da variável Y e aumento proporcional na variável X; portanto após um tempo as médias continuarão iguais e não haverámudança na correlação ● Linha de tendência: ○ Se as retas possuem associação linear, é possível ajustar uma reta a elas. ○ A reta que melhor se ajusta é aquela que minimiza a soma dos quadrados das distâncias de cada observação até a reta. ○ Equação da reta: é a equação da linha de tendência que a partir do X, permite com que encontremos o Y. Y = AX + B ● Coeficiente de determinação (R^2): ○ Valor entre 0 e 1. ○ Quanto mais próximo de 1, maior a correlação ○ R^2 é interpretado como a porcentagem da variabilidade de Y, que é explicada pela variável X. ❏ Quando dobra todos os valores o dp também dobra ❏ E quando você soma o dp para todos os valores o dp não muda ❏ Quando multiplicada por X todos os valores o dp e a média também multiplicam por X E quando você soma um valor fixo a todas as variáveis a média aumenta esse valor e o dp não muda Probabilidade: uma função de probabilidade determina todos os valores que uma variável aleatória X pode assumir e suas respectivas probabilidades ● f(x) = Função probabilidade → variáveis discretas ○ Tipos: Uniforme; Bernoulli; Binomial e Poisson ● f(x) = Função densidade de probabilidade (f.d.p.) → variáveis contínuas. ○ Tipos: Uniforme; Normal e Exponencial ● Propriedades da função probabilidade: Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ○ A soma de todas as probabilidades = 1 ○ Qualquer valor de f(x)>=0 Esperança e Variância ● Esperança: média ponderada da variável (valor esperado) ● Variância: ● Propriedades: 1. E( ax+b ) = a*E(x) + b 2. Var( ax+b ) = (a²)* Var(x) 3. DP( ax+b ) = a* DP(x) Função Probabilidade → variáveis discretas Ensaio de Bernoulli: ● Modelo de distribuição de probabilidade para variáveis discretas ● Usado quando: ○ Existem 2 possíveis resultados ■ Sucesso → resultado desejado ■ Fracasso → resultado não desejado ○ A variável não se repete, ou seja, acontece só uma vez ex.: lançar uma moeda e você esperar que caia cara (sucesso) Distribuição binomial: ● Usado quando: ○ Existem 2 possíveis resultados ■ Sucesso → resultado desejado ■ Fracasso → resultado não desejado ○ A variável se repete (acontece várias vezes) Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ex.: lançar uma moeda 3 vezes → gera uma árvore com número de possibilidades ● Calculando a distribuição binomial EXCEL: =DISTR.BINOM(VZS;TOTAL;PROBABIL;2) →Com essa fórmula é capaz de encontrar a probabilidade Y de sucessos ● Esperança e Variância na DIstribuição binominal: ○ E(y) = n*p ○ Var(y) = n*p*( 1-p) Distribuição de Poisson: ● Usa a taxa média da variável por um intervalo de espaço contínuo (tempo, distância,etc.) → μ ● Calculando a distribuição de poisson: No EXCEL: =DIST.POISSON(x;média;acumulativo) ● Esperança e Variância na Distribuição de Poisson: ○ E(x) = Var(x) = μ Função densidade de probabilidade (f.d.p) → variáveis contínuas ● A área embaixo de f(x) = 1 ● Para calcular a probabilidade de X estar entre os pontos A e B → calcular a integral de f(x) entre o pontos Exemplo: para X<1 ● Esperança e Variância: Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ○ E(x) = f ( x )dxμ = ∫ x ○ Var(x) = (x μ)² f (x)dx ∫ − * Distribuição Normal: ● É uma distribuição simétrica que utiliza média, variância (ou DP) como parâmetro ● A curva normal divide a partir da média em 50%/50% Distribuição Normal Padronizada: ● Média = 0 ● Variância = 1 ● Valores Z→ tabela que tem os valores padronizados Tabela Z ou Tabela normal: ● O valor encontrado na tabela corresponde a área do gráfico que vai de 0 até o Z procurado. ● Utilizando a tabela: 1. Calcular o valor Z correspondente ao termo X da variável z = σ x− μ 2. Desenhar a área que representa a probabilidade que deseja a. Z > 0→ quando for depois da média → 0,5 + valor da tabela b. Z < 0 → antes da média → 0,5 - valor da tabela c. a < Z < b → calcular o Z-score para ambos os números → i. Fazer o mesmo processo das letras a. e b. e subtrair uma da outra (ex. a - b) → [0,5+ valor tabela (z = a)] - [0,5+ valor da tabela (z=b)] 3. Consultar a tabela ● É possível calcular quando: ○ Z < 0 ○ Z > 0 ○ a < Z < b ● No excel: ○ Calculando a probabilidade a partir de valores: =DIST.NORM.N(P;MÉDIA;DP;VERDADEIRO) ex.1: P(x<40) = DIST.NORM.N(40; MÉDIA; DP; VERDADEIRO) → X < Y ex.2: P( X>40) =1- DIST.NORM.N(40; MÉDIA; DP; VERDADEIRO) → X > Y ex.3: P(20<X<50) = DIST.NORM.N(50; MÉDIA; DP; VERDADEIRO) - DIST.NORM.N(20; MÉDIA; DP; VERDADEIRO) → Y < X < W ○ Calculando valores a partir da probabilidade: =INV.NORM.N(%; MÉDIA; DP) =dist.t(x;g.l;verdadeiro) → Sempre colocar na função a probabilidade dos números serem menores Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ex: se quiser achar os 95% maiores, colocar o 5% na fórmula. Amostragem: Calcula uma estimativa dos valores das populações correspondentes ● Métodos de amostragem: ○ Não probabilísticos → não é possível estimar de maneira válida sobre a população ○ Probabilísticos → permitem inferências estatísticas(intervalo de confiança, margem de erro) válidas sobre a população ● Determinando o tamanho da amostra: ○ Parâmetro desejado a estimar? ○ Como selecionará a amostra? ○ Margem de erro desejada Nível de confiança do intervalo de confiança desejado → Para encontrar o N necessário, basta isolá-lo na fórmula do intervalo de confiança. ● Tamanho da Amostra para Média Populacional: - E → margem de erro desjada - Quando 𝝈 é desconhecido pode-se usar a Tabela- Z ( não precisa usar a distribuição t-student) ● Tamanho da amostra para Proporção Populacional ○ (1- a) → Nível de confiança ○ Quando p não é conhecido, pode-se adotar o valor de 0,5 → valor que maximiza o tamanho da amostra necessária. ● Métodos probabilístico → coleta amostras probabilísticas ○ Todos os elementos de uma população devem ter uma probabilidade positiva e conhecida de serem selecionados para a amostra. ○ Amostragem aleatória simples → todos os indivíduos têm a mesma probabilidade de serem selecionados ○ Amostragem aleatória estratificada → dividir a população em subgrupos (estrato) e aplicar a amostragem aleatória simples em cada estrato ○ Amostragem sistemática → selecionar um indivíduo aleatoriamente em uma população e depois selecionar para uma amostra cada enésimo indivíduo disponível Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ● Métodos não probabilísticos →não permitem realizar inferências estatísticas válidas sobre a população. ○ Amostragem por conveniência → selecionar uma amostra da população acessível. → não é uma amostra aleatória (probabilística) ○ Amostragem voluntária → quando os indivíduos da população se oferecem para participar da pesquisa ○ Amostragem por julgamento → alguns indivíduos são escolhidos intencionalmente com base em alguns critérios estabelecido pelo pesquisador. ● Grau de confiança e margem de erro: ○ Nível de confiança: a probabilidade da estimativa amostral diferir do valor real em no máximo uma quantidade fixa. Indica a extensão do risco ○ Erro amostral máximo aceitável: |x | E = − u Inferência: Parâmetro, estimador e estimativa: ● Parâmetro → é uma grandeza fixa que se refere a uma população. ex.: média populacional ● Estimador → fórmula que vai ser aplicada na amostra ex.: média amostral ● Estimativa → valor que os estimador assume para uma amostra ex.: o valor assumido para essa amostra a partir do estimador Propriedade dos estimadores: viesados ou nao ● Viciados → os dados estão deslocados média Não viciados → dados centralizados ● Precisos → dados mais próximos d Imprecisos →dados espalhados dp grande Intervalos de confiança: ● A partir da distribuição da média amostral, são calculados os intervalos de confiança para a média populacional. Teorema do Limite Central: → Quanto maior a amostra, mais a distribuição tende à distribuição normal. ● Conforme do tamanho da amostra aumenta, a distribuição amostral de sua média se aproxima cada vez mais de uma distribuição normal. ● É importante pois com a distribuição normal é possível usar a tabela -Z ● Geralmente com n>40 é possível aplicar o teorema e assumir que a distribuição é normal. Não é regra, mas normalmente funciona. ● Calculando o DP amostral: ● Calculando o TLC: 1. média da amostra → Mariana A. Michalichen AE2 Prof Aldy || 2020.1 2. Calcula a probabilidade: EXCEL: =NORMDIST(a; n; n; ) μ σ =dist.norm.n a. = → 1 - P =(.....;1) x ) ( > a x a) ( ≤ x a) ( ≤ b. → P =(.....;2) x ) ( < a x ) ( < a Margem de erro: ● Diferença máxima entre a média amostral e a média populacional, dentro de determinada probabilidade. ● Para encontrar o valor- Z na tabela deve-se sempre dividir a probabilidade por 2 antes de consultar a tabela. ● Retorno esperado e risco de carteira: ● Retorno esperado em carteiras: 50% de uma empresa e 50% de outra E(0,5*X + 0,5*Y) = 0,5*E(X + Y) ● Risco em carteiras: 50% de uma empresa e 50% de outra Var(0,5*X + 0,5*Y) = 0,25* Var(X + Y) ○ Caso geral: Var(aX + bY) = a²Var(X) + b²Var(Y) + 2ab*Cov(X;Y) ○ Usando correlação: Var(aX + bY) = a²Var(X) + b²Var(Y) + 2ab*DP(X)*DP(Y)*Corr(X;Y) Intervalos de confiança: mostra que ao coletar muitos intervalos de confiança, Y% deles conteriam o valor real da média populacional. ● Fórmula para calcular o intervalo de confiança para a média populacional com o DP conhecido. ● Margem de erro para probabilidade Y% = ● Calculando IC com DP desconhecido: ○ Melhor estimador para DP amostral: Obs: é preciso ajustar os valores de s e , pois costumam ser σ diferentes. ● Calculo do IC p/ média populacional com DP desconhecido: ○ TABELA Z = POPULACIONAL ○ TABELA T = AMOSTRA ○ →(margem de erro)E σ√n = Mariana A. Michalichen AE2 Prof Aldy || 2020.1 ● Usar a tabela T-Student, quando maior a amostra, mais a distribuição t-student será normal. ● Encontrando valores T no excel: = INV.T( (1- %)/2; G.L.) ● Encontrando valores Z no excel: = INV.NORMP.N( (1- %)/2) ● IC para proporção populacional: ○ indivíduos devem ser selecionados aleatoriamente ○ A população deve ser no mínimo 10X maior que a amostra ○ A proporção amostral deve possuir distribuição normal. Isso acontece quando: np >10 e n(1-p)>10 p = proporção amostral (1 - a) = nível de confiança Z(a/2) = valor Z p/ o nível de confiança especificado n = tamanho da amostra (raiz inteira) = erro padrão ● Quando não tiver P, usar 0,5 ■ O uso do P linh a(0,5), sempre gerará uma probabilidade menor que 0,25 ● Se não souber o sigma, usar um valor alto Mariana A. Michalichen AE2 Prof Aldy || 2020.1
Compartilhar