Baixe o app para aproveitar ainda mais
Prévia do material em texto
POLÍGRAFO DE ESTATÍSTICA PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 2 1. Estatística Descritiva: 1.1. Introdução e Conceitos: População: Conjunto de todos os elementos que possuem, pelo menos, uma característica em comum, cujo comportamento interessa analisar. Amostra: Subconjunto da população, selecionado de acordo com determinados critérios. Estatística Descritiva: O objetivo principal é descrever os fatos. Compreende a organização, resumo, apresentação, análise e cálculo de medidas ou coeficientes que possam descrever um conjunto observado. Estatística Inferencial: Consiste em obter e generalizar conclusões para a população, a partir de valores amostrais. Classificação das Variáveis: Nominais Ordinais Qualitativas Discretas Contínuas Quantitativas Variáveis 1.2. Distribuição de Frequências: É uma tabela na qual se encontram os possíveis valores de uma variável aleatória, agrupados em classes ou não, com as respectivas frequências observadas. Distribuição de frequências por ponto: Tabela... : Título Nº de filhos Nº de casais 0 14 1 18 2 9 3 6 4 3 Total 50 Fonte: ... PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 3 Distribuição de frequências por intervalo: Tabela... : Título Tempo (min) Nº de alunos 0 | 20 4 20 | 40 9 40 | 60 15 60 | 80 17 80 | 100 5 Total 50 Fonte: ... Elementos característicos de uma distribuição de frequências: - Frequência absoluta: fi: nº de observações de cada valor ou intervalo de valores. - Frequência relativa: n f =fr ii - Frequência acumulada: ∑ii f=F ∑ ii fr=Fr - Ponto médio: 2 ii i lsli x - Amplitude de um intervalo: ii lsh - ili - Tipos de intervalos: Aberto: 0 10 Fechado: 0 || 10 Aberto à direita e fechado à esquerda: 0 | 10 Aberto à esquerda e fechado à direita: 0 | 10 1.3. Representação Gráfica: Histograma de frequências: Consumo de água. em m³, de 75 contas da CORSAN 0.00 0.10 0.20 0.30 0.40 0 ----| 10 10 ----| 20 20 ----| 30 30 ----| 40 40 ----| 50 50 ----| 60 PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 4 Gráfico de Linhas: Evolução do preço do dólar comercial 0.0 0.5 1.0 1.5 2.0 2.5 12/98 02/99 04/99 06/99 08/99 Data Va lo r d o dó la r Gráfico de Setores (Pizza): Gráfico de Colunas: Conceito dos alunos de uma turma de Estatística 27% 35% 16% 22% A B C D PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 5 Número de cópias de jornal que circulam diariamente 72.047 58.247 30.000 25.467 23.848 18.343 8.941 6.551 6.281 5.697 0 10.000 20.000 30.000 40.000 50.000 60.000 70.000 80.000 Ja pã o EU A R ús si a Al em an ha Ín di a In gl at er ra Fr an ça Br as il Itá lia Po lô ni a País M ilh ar es d e ex em pl ar es 1.4. Medidas de Tendência Central 1.4.1 Média aritmética simples: A média aritmética simples, para uma população, é dada por Dados não agrupados Dados agrupados N x N 1i i N x.f k 1i ii onde xi: valores observados ou ponto médio fi: frequência absoluta N: tamanho da população k: nº de valores ou intervalos Para uma amostra, a média aritmética simples é calculada por Dados não agrupados Dados agrupados n x X n 1i i n x.f X k 1i ii PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 6 onde xi: valores observados ou ponto médio fi: frequência absoluta n: tamanho da amostra k : nº de valores ou intervalos Propriedades: 1. A média de um conjunto de números sempre pode ser calculada. 2. Para um dado conjunto de números, a média é única. 3. Somando-se ou subtraindo-se uma constante a cada valor de um conjunto, a média ficará, respectivamente, somada ou subtraída do valor da constante. Analogamente, multiplicando-se ou dividindo-se por uma constante cada valor de um conjunto, a média ficará multiplicada ou dividida, respectivamente, pela constante. 4. A soma dos desvios dos números de um conjunto em relação à média é zero, isto é, 0)μx( i . 5. A média é sensível a todos os valores de um conjunto. Assim, se um valor se modifica, a média também se modifica. 1.4.2 Mediana: É a medida que ocupa a posição central num conjunto de dados ordenados, isto é, 2 1NxMed OBS: Se N é par, a mediana é a média aritmética simples dos dois valores centrais. 1.4.3 Moda: A moda é a observação mais frequente. Caso não haja observação mais freqüente, a distribuição é amodal. Podemos ter um conjunto unimodal (com uma moda), bimodal (com duas modas) ou multimodal (com três ou mais modas). 1.5. Medidas de Variabilidade: 1.5.1. Amplitude Total: É a diferença entre o maior e o menor valor observado. 1.5.2. Variância: PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 7 A variância, para uma população, é dada por Dados não agrupados Dados agrupados N μx σ N 1i 2 i 2 N xf k 1i 2 ii 2 onde xi: valores observados ou ponto médio fi: frequência absoluta N: tamanho da população : média populacional k: nº de valores ou intervalos PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 8 Se o conjunto observado for uma amostra, então a variância é dada por Dados não agrupados Dados agrupados 1n Xx S n 1i 2 i 2 1n Xxf S k 1i 2 ii 2 onde xi: valores observados ou ponto médio fi: frequência absoluta n: tamanho da amostra X : média amostral k : nº de valores ou intervalos Fórmulas abreviadas: Dados não agrupados Dados agrupados População 2 N 1i 2 i 2 μ N x σ 2 k 1i 2 ii 2 μ N xf σ Amostra 1n Xnx S n 1i 22 i 2 1n Xnxf S k 1i 22 ii 2 1.5.3. Desvio padrão: População Amostra 2σσ 2SS Propriedades: 1. Para as distribuições normais, temos que: (a) 68,27% dos casos estão entre - e + . (b) 95,45% dos casos estão entre - 2 e + 2. (c) 99,73% dos casos estão entre - 3 e + 3. 2. Somando-se ou subtraindo-se uma constante a cada valor de um conjunto de dados, o desvio padrão não se altera. Multiplicando-se ou dividindo-se por uma constante cada valor de um conjunto, o desvio padrão tambémfica multiplicado ou dividido, respectivamente, pela constante. PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 9 1.5.4. Dispersão relativa e Coeficiente de Variação: A variação determinada por qualquer medida de dispersão é denominada dispersão absoluta. Entretanto, uma variação igual em duas distribuições com médias diferentes, pode ser inteiramente diferente. Para compararmos estes dois conjuntos, utilizamos a dispersão relativa, definida por: Média absoluta Dispersão relativa Dispersão Se a dispersão absoluta é o desvio padrão e a média é a aritmética, a dispersão relativa é denominada coeficiente de variação, e é dado por μ σ γ e pode ser expresso em percentagem. Para a amostra, o coeficiente é dado por X S g 2. Probabilidade: Experimentos Aleatórios: São experimentos cujos resultados variam de uma observação para a outra, mesmo quando mantidas as condições de experimentação. Características: 1. Cada experimento aleatório poderá ser repetido indefinidamente sob as mesmas condições. 2. Não se conhece um particular valor do experimento antes que este ocorra, porém, conhecemos todos os possíveis resultados. 3. Quando repetimos um experimento um grande número de vezes, surge uma regularidade. Espaço Amostral (S ou ): É o conjunto de todos os resultados possíveis de um experimento aleatório. O espaço amostral com um número finito ou infinito enumerável de valores é dito espaço discreto, e o espaço amostral com um número infinito não-enumerável de pontos é dito espaço contínuo. Eventos Aleatórios: São os resultados possíveis de cada experimento aleatório. Um evento é, portanto, um subconjunto do espaço amostral. Os eventos são denotados por letra maiúscula. Definição de Probabilidade: Seja A um evento de S. Então, a probabilidade de A ocorrer é dada por PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 10 n h =)A(P onde h: número de resultados favoráveis ao evento A n: número total de resultados. Propriedades da Probabilidade: Seja A um evento de S 1. 0P(A)1. 2. Se A é o complemento de A, então, 1=)A(P -P(A) 3. Se A e B são dois eventos quaisquer, então, )B(P+)A(P=)BA(P -P(A B) 4. Se A1, A2, ... , An são eventos mutuamente exclusivos, então, )A(P+...+)A(P+)A(P=)A...AA(P n21n21 Distribuição Normal: Seja X uma v.a.c. tal que E(X)= e Var(X)= 2 , onde x e σ >0. Então, X tem distribuição Normal com média e variância 2 , se sua função densidade de probabilidade é dada por: 22 2)x( e 2 1 )x(f Notação: X~N( ; σ) Distribuição Normal Padrão: Seja X uma v.a.c. tal que X~N( ; σ). Então, a v.a.c. σ μX =Z - tem distribuição Normal com média 0 (zero) e desvio padrão 1 (um), isto é, Z~N(0;1). A função densidade de Z é dada por: 2 z e π2 1 =)z(f 2 - PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 11 0 3. Amostragem: População N (Parâmetros) Amostra n (Estatísticas) Inferência Representatividade Amostragem: Processo de obtenção de amostras, geralmente com o objetivo de fazer inferência. A amostragem pode ser feita com ou sem reposição. Para amostragem com reposição, o número de amostras possíveis de tamanho n é dado por nN e, para amostragem sem reposição, por n NC . Algumas razões para o uso de amostras: 1. Minimização de custos, quando precisão absoluta não é necessária. 2. Economia de tempo, quando há necessidade de resultados mais rápidos do que seria possível com um censo. 3. Permite concentrar a atenção em casos individuais. 4. Na indústria, alguns testes são destrutivos e só podem ser feitos com uma amostra de produtos. 5. Em populações infinitas (exemplo: experimento agrícola para testar fertilizantes). 6. Onde os erros não relacionados à amostra são grandes, uma amostra pode dar melhores resultados que um censo. Os erros não amostrais são mais fáceis de controlar em operações de pequena escala. PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 12 Principais técnicas de amostragem: Amostragem Aleatória Simples: Todos os elementos da população têm mesma probabilidade de pertencer à amostra, isto é, 1/N. A amostragem pode ser feita com ou sem reposição. Principal limitação: Requer uma listagem dos itens da população. Amostragem Sistemática: Escolhe-se cada k-ésimo item de uma lista, onde k=N/n. Requer lista aleatória de itens da população. Deve-se observar se os itens da lista apresentam-se grupados ou com caráter periódico. Principal limitação: Requer uma listagem aleatória dos itens da população. Amostragem Estratificada: Divide-se a população em subgrupos (estratos) de itens similares, procedendo-se à amostragem em cada estrato. Se os subgrupos forem homogêneos, a variabilidade será menor, necessitando de um tamanho menor de amostra. Amostragem por Conglomerado: Dispõem-se os itens da população em subgrupos heterogêneos, representativos da população global. OBS: Freqüentemente, um plano de amostragem incorpora várias técnicas. 4. Estimação: Estimação é o processo que consiste em generalizar estatísticas amostrais para parâmetros populacionais desconhecidos. A estatística amostral utilizada para fins de estimação é chamada de estimador e o valor obtido para uma particular amostra é denominado estimativa. A estimação pode ser feita por ponto ou por intervalo. 4.1. Principais estimadores por ponto: Parâmetro Estimador X PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 13 2σ 2S σ S P Intervalos de Confiança Sejam ss σ e μ a média e o desvio padrão da distribuição amostral de uma estatística S. Então, se a distribuição amostral de S é aproximadamente Normal, temos que S está compreendido nos intervalos: 1. [ ss σ μ ] com probabilidade 0,6827 2. [ ss σ 2 μ ] com probabilidade 0,9545 3. [ ss σ 3 μ ] com probabilidade 0,9973 Os intervalos acima são intervalos de confiança para S. A probabilidade que um intervalo contenha o valor do parâmetro, denotada por 1-, é denominada grau de confiança. Portanto, é a probabilidade de erro na estimação por intervalo. 4.2.1. Intervalo de Confiança para a Média (população infinita ou amostragem com reposição): 1. Variância populacional conhecida: O intervalo de confiança para a média é dado por: [ n zX c . ] onde z n c . é o erro máximo absoluto de estimação da média cz : valor crítico de z, determinado pelo grau de confiança. 2. Variância populacional desconhecida: Neste caso, o intervalo de estimação é dado por: [ n/S.tX c ] onde n/S.tc é o erro estimado ct : valor crítico de t, de acordo com o grau de confiança e gl (graus de liberdade), onde gl=n-1. OBS: Se 30n , a distribuição é aproximadamente Normal. 4.2.2. Intervalo de Confiança para a Proporção:PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 14 Suponha que P é a proporção de “sucessos” em uma amostra com reposição (ou população infinita), de tamanho n 30, selecionada de uma população Binomial, na qual é a probabilidade de sucessos. Então, o intervalo de confiança para é dado por: n PPzP c )( . 1 onde n PPzc )( . 1 é o erro máximo absoluto de estimação da proporção cz : valor crítico de z, determinado pelo grau de confiança. PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 15 4.2.3. Cálculo do tamanho mínimo de amostra: Para estimar a média, população infinita ou amostragem com reposição: 2 x E .z n Para estimar a proporção, população infinita ou amostragem com reposição: 2 p 2 E )p1.(p.z n 5. TESTES DE HIPÓTESES Hipóteses Estatísticas: Ho: hipótese nula H1: hipótese alternativa Testes de Hipóteses: Regra que divide o espaço amostral em duas regiões: uma de rejeição e outra de não rejeição de Ho. A partição é, em geral, obtida utilizando-se uma estatística amostral. Erros associados ao teste de hipóteses: Decisão Ho Verdadeira Ho Falsa Rejeitar Ho Erro Tipo I ____ Não rejeitar Ho ______ Erro Tipo II Nível de significância: Probabilidade de rejeição de uma hipótese verdadeira Ho. É fixado antes da extração das amostras. Testes unilaterais: PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 16 Testes Bilaterais: ETAPAS DO TESTE DE HIPÓTESES Resumo das etapas aplicadas a qualquer teste de hipóteses: I. Determinar as hipóteses nula e alternativa apropriadas. II. Selecionar a estatística de teste que será utilizada. III. Especificar o nível de significância para o teste. IV. Usar o nível de significância para estabelecer uma regra de decisão que levará à rejeição ou não de H0. V. Coletar os dados amostrais e calcular a estatística de teste. VI. Comparar o valor da estatística do teste com o(s) valor (es) crítico(s) especificado(s) na regra de decisão para determinar se H0 deve ser rejeitado ou não; ou calcular o valor p, baseado na estatística de teste. Comparar o valor p com , para determinar se H0 deve ser rejeitado ou não. VII. Concluir, baseado na decisão tomada. NOTAS E COMENTÁRIOS 1. Muitas aplicações de teste de hipóteses têm um objetivo de tomada de decisão. A conclusão rejeitar H0 fornece o suporte estatístico para concluir que H1 é verdadeiro e tomar a decisão apropriada, seja ela qual for. A declaração “não rejeitar H0“ embora não conclusiva, freqüentemente força os gerentes a se comportarem como se H0 fosse verdadeiro. Nesse caso, os gerentes precisam estar cientes do fato de que tal comportamento pode resultar num erro do Tipo II. 2. O valor p, o nível de significância observado, é uma medida da plausibilidade dos resultados da amostra quando a hipótese nula é assumida como verdadeira. Quanto menor o valor p, menos provável é que os resultados da amostra venham de uma população onde a hipótese nula é verdadeira. A maioria dos softwares estatísticos fornece o valor p associado a um teste de hipóteses. O usuário pode então comparar o valor p ao nível de significância e tirar conclusão do teste de hipóteses sem se referir a uma tabela estatística. 1.1. Teste para a média: Hipóteses: H0: =0 PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 17 H1: 0 Estatística: 1. Para 2 conhecida: Χ σ oμΧ cΖ 2. Para 2 desconhecida: n S oμΧ ct 1.2. Teste para a proporção: Hipóteses: H0: =0 H1: 0 Estatística: n )π1(π oπΡ cΖ 1.3. Teste para a comparação de proporções: Hipóteses: H0:1 =2 H1:1 2 Estatística: pˆ1qˆ nn pˆ qˆpˆ n 1 n 1 ππΡΡ cΖ 21 21 21 212 XX1 ; 1.4. Teste para a comparação de médias: Hipóteses: H0:1 =2 H1:1 2 PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 18 Estatística: 1. Para variâncias populacionais conhecidas: 21 2 nn cZ 2 2 2 1 21 σσ μμXX 1 2. Para variâncias populacionais desconhecidas e equivalentes: 2nn S1nS1n n 1 n 1 μμΧΧ ct 21 2 22 2 11 21 2121 ; gl=n1+ n2-2 3. Para variâncias populacionais desconhecidas e diferentes: 2 2 2 1 2 1 2 121 n S + n S μ -μ - - ct XX ; 1 S 1 S SS 2 2 2 2 2 2 1 1 2 1 2 2 2 2 1 2 1 n n n n nn gl 4. Amostras Pareadas: gl1n ; μ ct n S D D D 1.5. Teste para a comparação de variâncias: Hipóteses: H0: 2 1 σ = 2 2 σ H1: 2 1 σ 2 2 σ Estatística: 1 S S cF 2 2 2 1 ; )1n,1n( 21 gl 1.6. Teste de independência: PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 19 Hipóteses: H0: Não há evidências de associação entre as duas variáveis H1: Há evidências de associação entre as duas variáveis Estatística: Qui-Quadrado: r i c j cr ij ijij E EO 1 1 )1)(1( 2 2 ~ )( Onde r: número de linhas e c: número de colunas. Obs: Se p<α, rejeitamos H0. 6. CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES Correlação Linear Simples: A correlação linear procura medir o grau da relação entre duas variáveis aleatórias quantitativas. Na população, a correlação é denotada por . Na amostra, a relação entre as variáveis pode ser quantificada pelo coeficiente de correlação linear de Pearson: )Yny)(Xnx( Y.X.ny.x r 2222 O coeficiente r varia de –1 a +1, dependendo do grau da relação entre as variáveis e da forma com que se relacionam (direta ou inversamente). Diagramas de Dispersão: 1. Para uma correlação linear perfeita e direta entre as variáveis (=1), temos X:var. independente Y:var.dependente PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 20 2. Para uma correlação linear perfeita e inversa entre as variáveis (=-1), temos 3. Para uma correlação linear inversa entre as variáveis (-1<<0), temos: 4. Para uma correlação linear direta entre as variáveis (0<<1), temos 5. Para uma correlação linear próxima de zero (0), temos X:var. independente Y:var.dependenteX:var. independente Y:var.dependente X:var. independente Y:var.dependente PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 21 OBS: Se as variáveis X e Y são independentes, então =0. A recíproca não é verdadeira. Teste para o coeficiente de correlação: Hipóteses: 0ρ:H 0ρ:H 1 0 Estatística: α;2n2c t~ r1 2n .rt Coeficiente de Determinação (Explicação): O percentual da variância de Y que pode ser explicado pela variância de X, é dado pelo coeficiente de determinação. Na população é 2 e na amostra r2. Regressão Linear Simples: Uma vez determinada uma correlação linear significativa entre duas variáveis aleatórias, procura-se descrever a relação entre elas através de uma função, que é o principal objetivo da análise de regressão. Situações mais utilizadas: - Quando duas variáveis medem a mesma coisa, e uma delas é dispendiosa ou de difícil coleta. - Para explicar valores de uma variável em termos da outra. - Para predizer valores de uma variável. Equação Linear na população: iuXY Y: variável dependente X:var. independente Y:var.dependente PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 22 X: variável independente : coeficiente linear : coeficiente angular ui: erro aleatório Método dos Mínimos Quadrados: - A soma dos desvios dos pontos em relação à reta é zero. - A soma dos quadrados de tais desvios é mínima. Modelo (quando o erro é desprezível): bXaYˆ a: ponto de intersecção da reta com o eixo Y b: coeficiente angular (inclinação) Cálculo dos coeficientes da reta: 22 xxn y.xy.xn b XbYa Teste para a regressão: Hipóteses: 0β:H 0β:H 1 o Estatística: α;2n b 0 c t~S βb t 22 E b Xnx S S 2n y.xbyay S 2 E X:var. independente Y:var.dependente PUCRS – ESCOLA DE CIÊNCIAS Disciplina de ESTATÍSTICA Profa. Rossana Fraga Benites 23 Predição: As equações de regressão podem ser úteis quando usadas para predizer o valor de uma variável, dado um valor determinado de outra variável. Se a reta de regressão se ajusta bem aos dados, então podemos utilizar sua equação para fazer predições, desde que não ultrapassem os limites dos valores disponíveis. Entretanto, só devemos utilizar a equação da reta de regressão, se houver uma correlação linear significativa. Limitações associadas à regressão e correlação: 1. Se não há correlação linear significativa, a equação de regressão não deve ser utilizada para fazer predições. 2. Um coeficiente de correlação “significativo” não indica causalidade, mas pode indicar uma ligação comum a outros eventos. 3. Uma correlação “significativa” não é, necessariamente, uma correlação importante. 4. A interpretação dos coeficientes de correlação e determinação está baseada na hipótese de uma distribuição Normal bivariada para a população e, para cada variável, variâncias condicionais iguais. 5. Para as análises de correlação e regressão pressupõe-se um modelo linear. Para relações não lineares, pode existir uma transformação que a linearize. 6. Se a estimação de Y envolve a predição de um resultado que ainda não ocorreu, os dados utilizados para calcular a equação de regressão podem não ser importantes. 7. A estimação de Y através da regressão deve ser feita para valores de X no intervalo que serviu de base para a equação de regressão. 8. A estimação de Y através da regressão não deve ser feita para uma população diferente daquela de onde provêm os dados amostrais.
Compartilhar