Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 1 ESTATÍSTICA I. ESTATÍSTICA DESCRITIVA 1. CONCEITOS INICIAIS Estatística – é um conjunto de métodos e processos matemáticos desenvolvidos para a coleta, classificação, apresentação, analise e interpretação de dados acerca de um fenômeno observado, possibilitando a tomada de decisões face às incertezas. 1.1 – Ramos da Estatística: Estatística Descritiva (ou dedutiva) – voltada à coleta, organização, apresentação, analise e interpretação dos dados observados através de gráficos e tabelas, além da análise e desses dados. Estatística Indutiva (ou Inferência Estatística) – processo de generalização que permite tirar conclusões a respeito do comportamento do fenômeno estudo. População (ou Universo Estatístico) – é um conjunto de dados, obtidos na observação de um fenômeno, que apresentam pelo menos uma característica em comum. Pode ser finita ou infinita. Censo – é o levantamento envolvendo todos os elementos da população. Amostra – é qualquer subconjunto finito e não vazio de uma população, excetuando- se a própria população. O processo de retirada da amostra requer cuidados especiais na tentativa de resguardar a fidelidade e a representatividade da população. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 2 Experimento aleatório – é aquele que, mesmo repetido em idênticas condições, produz resultados imprevisíveis. 1.2 – Aspectos de um dado: Qualitativo – característica do elemento em estudo, denominado atributo Quantitativo – determina a intensidade com que o atributo ocorre no fenômeno estudado, e é representado por uma variável. Série estatística – é uma sucessão de dados estatísticos referidos a caracteres qualitativos. Se a sucessão for quantitativa, configurará uma seriação. 1.3 – Tipos de séries estatísticas: – Temporal (cronológica, histórica ou evolutiva) – a variável é o fator tempo. – Geográfica (territorial, espacial ou de localização) – a variável é o fator geográfico. – Específica (especificativa ou categórica) – a variável é o fenômeno. – Mista – ocorre a variação de pelo menos dois dos fatores: tempo, local ou fenômeno. Distribuição de frequência (seriação) – neste caso, todos os elementos (época, local Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 3 ou fenômeno) são fixos, variando apenas a intensidade de ocorrência do fenômeno. 1.4 – ORGANIZAÇÃO DOS DADOS ESTATÍSTICOS Normas para apresentação tabular de dados Elementos essenciais: Título – indicação contida na parte superior da tabela, onde deve estar definido o fato observado, com a especificação de local e época referentes ao fato; Cabeçalho – parte da tabela que apresenta a natureza do conteúdo de cada coluna; Coluna indicadora – indica o conteúdo das linhas; Célula (casa ou cela) – é o espaço resultante do cruzamento de uma linha com uma coluna, onde se registra a frequência ou o valor da variável ou atributo. Corpo – é a parte da tabela onde se encontram o cabeçalho, a coluna indicadora e as linhas e colunas que contem a serie estatística; Elementos complementares: Fonte – designação da entidade que forneceu os dados estatísticos; Notas – esclarecimentos de natureza geral; Chamadas – esclarecimentos de natureza específica. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 4 Exemplo Frota de veículos (em mil unidades) – 1996 PARANÁ BRASIL Automóveis 1.224 18.727 Picapes 193 2.980 Caminhões 158 1.630 Ônibus 19 317 Motocicletas 218 2.919 Total 1.812 26.573 Fonte: Denatran As Tabelas podem ser: Simples – formadas por uma coluna indicadora (coluna matriz), onde são inscritos os valores ou modalidades classificadas, e por uma coluna onde se inserem as ocorrências ou as intensidades do fenômeno analisado. Dupla entrada – apresenta séries conjugadas. Tabela Simples: População economicamente ativa por setor de atividade – Brasil/1940 Setor Populaçã Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 5 o (1.000 hab.) Primário 8.968 Secundário 1.414 Terciário 3.620 Fonte:IP EA Tabela de Dupla Entrada População economicamente ativa Por setor de atividade – Brasil Setor População (1.000 hab.) 194 0 1950 1960 Primário 8.96 8 10.255 12.16 3 Secundário 1.41 2.437 2.962 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 6 4 Terciário 3.62 0 4.156 7.525 Fonte: IPEA 2 - Distribuição de frequências (seriação) Dados brutos – são os dados coletados, ainda não organizados. Rol – lista em que os valores são dispostos em uma determinada ordem (crescente ou decrescente. Tabela de frequência – representação na qual os valores se apresentam com sua incidência de repetição, evitando que eles apareçam mais de uma vez. Distribuição de frequências de Dados Não-Agrupados em Classes – tabela onde os valores aparecem individualmente, utilizado para variáveis discretas. 2.1 – Elementos Amplitude total (At) – é a diferença entre o maior e o menor valor da série. Frequência absoluta simples (fi) – é o número de repetições de cada valor. Frequência total (fi ou n) – é a soma das frequências absolutas simples. Frequência relativa simples (fri) – é o quociente entre a frequência absoluta simples Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 7 e a frequência total da série. Pode ser representada sob a forma unitária ou percentual (fri%) Frequência absoluta acumulada (Fi ou fac) – é a soma das frequências absolutas simples de um determinado valor da tabela com as frequências absolutas simples de todos os valores anteriores. É também denominada de frequência absoluta “abaixo de”. Frequência absoluta acumulada “acima de” (Fi+) – é a soma das frequências absolutas simples de um determinado valor da tabela com as frequências absolutas simples de todos os valores posteriores. Obs.: ... somatório Exemplo No de aparelhos defeituosos da Empresa X xi fi fri fri% Fi Fi+ Fri Fri% Fri+ Fri% + 0 5 1 10 2 18 3 12 4 5 Distribuição de frequências de Dados Agrupados em Classes – os dados são apresentados de forma resumida, de forma agrupada. É recomendado, Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 8 principalmente, para variáveis contínuas. 2.3 – Elementos Classe – é cada um dos grupos ou intervalos de valores obtidos a partir de um agrupamento de dados. Representação de uma classe: a I––– b ... inclusive a, e exclusive b a –––I b ... exclusive a, e inclusive b a I–––I b ... inclusive a, e inclusive b a ––– b ... exclusive a, e exclusive b Limites de classe – são os valores extremos de uma classe. a I––– b – a ... limite inferior (Li) b ... limite superior (Ls) Ponto médio de uma classe (PMi ou Xi) – é a média aritmética dos limites superior e inferior de uma classe. Amplitude do intervalo de classe (h) – é a diferença entre os limites superior e inferior de uma classe. Exemplo Notas de uma prova de Estatística Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 9 xi fi PMi fri fri% Fi Fi+ Fri Fri% 0 I––– 20 10 20 I––– 40 30 40 I––– 60 40 60 I––– 80 15 80 I––– 100 5 3. GRÁFICOS a) de Linha – representado em um plano cartesiano, através de pontos ligados por segmentos de reta, mostrando a evoluçãodo fenômeno estudado. b) em Barras (horizontais) – têm por finalidade comparar grandezas por meio de retângulos horizontais de larguras iguais e alturas proporcionais às respectivas grandezas. c) em Colunas (ou em barras verticais) – representados por retângulos verticais, prestam-se à mesma finalidade que os gráficos em barras sendo, entretanto, preferíveis a esses últimos, quando as legendas a se inscreverem sob os retângulos forem breves d) em Setores (pizza) – são representados por círculos divididos proporcionalmente em segmentos circulares de acordo com os dados do fenômeno ou do processo a ser representado. Os valores são expressos em números ou em porcentagens. Exemplos: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 10 3.1 – Gráficos representativos de uma Distribuição de Frequências Histograma – formado por um conjunto de retângulos justapostos de larguras Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 11 homogêneas, de forma que a altura de cada retângulo seja proporcional à frequência da classe que representa. Polígono de frequências – representação gráfica obtida a partir da união, através de segmentos, dos pontos médios das bases superiores dos retângulos do histograma. Exemplo: Notas de uma prova de Estatística xi fi fri% 0 I––– 20 20 20 I––– 40 60 40 I––– 60 80 60 I––– 80 30 80 I––– 100 10 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 12 OBS.: Os gráficos representativos de distribuições de frequências acumuladas são denominados Ogivas (Ogiva de Galton). Exemplo: O atributo do tipo contínuo X, observado como um inteiro, numa amostra de tamanho 100 obtida de uma população de 1000 indivíduos, produziu a tabela de frequências seguinte: Classes Frequência ( f ) 29,5-39,5 4 39,5-49,5 8 49,5-59,5 14 59,5-69,5 20 69,5-79,5 26 79,5-89,5 18 89,5-99,5 10 Assinale a opção que corresponde à estimativa do número de indivíduos na população com valores do atributo X menores ou iguais a 95,5 e maiores do que 50,5. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 13 a) 700 b) 638 c) 826 d) 995 e) 900. Letra C 4. MEDIDAS DE POSIÇÃO Pela dificuldade de se trabalhar com uma distribuição de frequências completa, costuma-se lançar mão de determinadas medidas que sumarizam certas características importantes da distribuição. Dentre as diversas medidas quem possibilitam condensar as informações dentro na fase analítica da Estatística Descritiva, dois tipos são os mais importantes: as medidas de posição (especialmente as de tendência central) e as medidas de dispersão (ou de heterogeneidade). As medidas de posição podem se apresentar de várias formas, dependendo daquilo que se pretende conhecer a respeito dos dados estatísticos. 4.1 – Medidas de tendência central (ou promédios) São medidas de posição em torno das quais os dados tendem a se agrupar. Os três promédios mais utilizados para resumir o conjunto de valores representativos de fenômeno que se deseja estudar são: a média aritmética, a moda e a mediana. Outros Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 14 promédios menos usados são as médias: geométrica, harmônica, etc. a) Médias Média Aritmética Simples (x ou µ) – a média aritmética simples de um conjunto de números é igual ao quociente entre a soma de valores do conjunto e o número total de valores. 𝑿 = ∑ 𝑿𝒊 𝒏 Média Aritmética Ponderada (P) - utilizada quando os valores do conjunto tiverem pesos diferentes. É obtida através do quociente entre a soma dos produtos dos pesos pelos respectivos valores e a soma dos pesos. 𝑿 = ∑ 𝑿𝒊 𝒙 𝒇𝒊 ∑ 𝒇𝒊 Esta equação é para dados não agrupados, caso sejam agrupados em classes, o Xi é o mesmo que o PMi. Desvio (di) – é o afastamento de cada valor do conjunto em relação a um valor fixo x0: di = xi – x0 Propriedades da média aritmética: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 15 1ª) a soma algébrica dos desvios dos valores em relação à média aritmética é igual a zero. 2ª) a soma algébrica dos quadrados dos desvios dos valores em relação à média aritmética é um mínimo. 3ª) sendo n o número de incidência de cada média aritmética x, de cada conjunto k de valores, então a média aritmética de todos os valores dos k conjuntos é a média ponderada das médias aritméticas dos respectivos conjuntos. Essa média é denominada média global. 4ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, a média aritmética desta série fica somada (ou subtraída) dessa constante. 5ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série, a média aritmética desta série fica multiplicada (ou dividida) por essa constante. Processo breve para o cálculo da média aritmética (para dados tabulados em classes) A partir das duas últimas propriedades citadas anteriormente, é possível calcular a média aritmética utilizando uma variável transformada (di), denominada variável reduzida: OBS: Recomenda-se utilizar para o valor de A o ponto médio da classe de maior frequência se o número de classes k for par, ou o ponto médio da classe intermediária se o número de classes for ímpar. 𝒅𝒊 = 𝒙𝒊 − 𝑨 𝒄 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 16 Exemplo: calcular a média aritmética na tabela a seguir. Notas de uma prova de Estatística xi fi PMi di fi.di 0 I––– 20 10 20 I––– 40 30 40 I––– 60 40 60 I––– 80 15 80 I––– 100 5 Média Geométrica ( G ) – á média geométrica de um conjunto de n valores é a raiz n–ésima do produto de todos os valores do conjunto dado. 𝑮 = √∏ 𝒙𝒊 𝒏 (𝒐𝒏𝒅𝒆 ∏ 𝒑𝒓𝒐𝒅𝒖𝒕ó𝒓𝒊𝒐 ) Média Harmônica ( H ) – á média harmônica de um conjunto de n valores é o inverso da média aritmética dos inversos de todos os valores do conjunto dado. 𝑯 = 𝒏 ∑ 𝟏 𝒙𝒊 Obs.: H G X Exemplo. Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 17 empresa. Esse exercício produziu a tabela de frequências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a frequência relativa acumulada. Não existem observações coincidentes com os extremos das classes. Classes P (%) 70-90 5 90-110 15 110- 130 40 130- 150 70 150- 170 85 170- 190 95 190- 210 100 Assinale a opção que dá o valor médio amostral de X. a) 140,10 b) 115,50 c) 120,00 d) 140,00 e) 138,00. Letra E Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 18 b) Moda (Mo) O valor de maior frequência da série, também chamado norma, valor dominante ou valor típico. Exemplos: 1) Rol (dados não tabulados) Determinar a moda nos conjuntos a seguir: A = { 2, 2, 3, 3, 3, 3, 5 ,5 ,5 ,5 ,5 ,5 ,6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 9, 9} Mo = B = { 2, 2, 3, 3, 3, 3, 5 ,5 ,5 ,5, 5, 5 ,5, 6, 6, 6, 6, 6, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9} Mo = C = { 2, 3, 5, 7, 8, 9} Mo = Dados Tabulados Não-Agrupados em classes Exemplo: determinar o valor da moda na tabela a seguir. xi fi 1 5 2 10 3 18 4 12 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 19 5 4 Dados Tabulados Agrupados em Classes Classe modal: é classe de maior frequência. Determinação da Moda: – Moda Bruta: é o método mais rudimentarde cálculo da moda, que consiste em considerá-lo como sendo o ponto médio da classe modal. – Método de King: baseia-se na influência das frequências das classes adjacentes à classe modal. 𝑴𝒐 = 𝑳𝒊 + 𝒉 𝒙 𝒇𝒑ó𝒔 𝒇 𝒂𝒏𝒕 + 𝒇 𝒑ó𝒔 Li – limite inferior da classe modal h (ou c) – amplitude do intervalo de classe fpos – frequência da classe posterior à classe modal fant – frequência da classe anterior à classe modal – Método de Czuber: utiliza a frequência da classe modal e as das classes adjacentes. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 20 𝑴𝒐 = 𝑳𝒊 + 𝒉 𝒙 ∆𝟏 ∆𝟏 + ∆𝟐 , 𝒐𝒏𝒅𝒆: ∆𝟏 = 𝒇𝒎𝒐 − 𝒇𝒂𝒏𝒕 𝒆 ∆𝟐 = 𝒇𝒎𝒐 − 𝒇𝒑𝒐𝒔 c) Mediana ( Md ) O valor central de uma série ordenada. A mediana é considerada uma separatriz, por ser um promédio que divide a série em partes iguais; e, pelo fato de ocupar uma determinada posição na série ordenada, o número que indica a sua posição é denominado elemento mediano (Em). Determinação da mediana para dados não tabulados Uma vez ordenados os valores da série (Rol), a mediana será: – O valor central da série, se o número de valores (n) for ímpar, – A média aritmética dos dois valores centrais da série, se o número de valores for par. Exemplos: 1) Rol (dados não tabulados) Determinar a mediana nos conjuntos a seguir: A = { 2, 2, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 9, 9} Md = Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 21 B = { 2, 2, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9} Md= C = { 2, 2, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9} Md = 2) Dados Tabulados Não-Agrupados em classes O procedimento a ser adotado é praticamente idêntico ao anterior. Exemplo: calcular a mediana na tabela a seguir. xi fi 1 5 2 10 3 18 4 12 5 4 3) Dados Tabulados Agrupados em classes 𝑴𝒅 = 𝑳𝒊 + 𝒉 𝒙 ( 𝒏 𝟐 − 𝑭𝒂𝒏𝒕) 𝒇𝒎𝒅 n – frequência total Fant – frequência acumulada da classe anterior à classe mediana fmd - frequência da classe mediana Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 22 h - Amplitude da classe mediana Li - Limite inferior da classe mediana OBS: classe mediana ... é a classe onde se encontra o elemento de posição n/2. Exemplo: Determinar a moda e a mediana na tabela a seguir. Notas de uma prova de Estatística xi fi Fi 0 I––– 20 10 20 I––– 40 30 40 I––– 60 40 60 I––– 80 15 80 I––– 100 5 d) Outras separatrizes Quartil (Q) – divide a série em 4 partes iguais. 𝑸 = 𝑳𝒊 + 𝒉 𝒙 (𝒏𝑸 𝒙 ∑ 𝒇𝒊 𝟒 − 𝑭𝒂𝒏𝒕) 𝒇𝑸 Decil (D) – divide a série em 10 partes iguais. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 23 𝑫 = 𝑳𝒊 + 𝒉 𝒙 (𝒏𝑫 𝒙 ∑ 𝒇𝒊 𝟏𝟎 − 𝑭𝒂𝒏𝒕) 𝒇𝑫 Centil ou Percentil (P) – divide a série em 100 partes iguais. 𝑷 = 𝑳𝒊 + 𝒉 𝒙 (𝒏𝑷 𝒙 ∑ 𝒇𝒊 𝟏𝟎𝟎 − 𝑭𝒂𝒏𝒕) 𝒇𝑷 Exemplo 1. O atributo do tipo contínuo X, observado como um inteiro, numa amostra de tamanho 100 obtida de uma população de 1000 indivíduos, produziu a tabela de frequências seguinte: Classes Frequência ( f ) 29,5-39,5 4 39,5-49,5 8 49,5-59,5 14 59,5-69,5 20 69,5-79,5 26 79,5-89,5 18 89,5-99,5 10 Assinale a opção que corresponde ao valor modal do atributo X no conceito de Czuber. a) 69,50 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 24 b) 73,79 c) 71,20 d) 74,53 e) 80,10. Letra B Exemplo 2. Considerando a distribuição de frequência relativa ao salário, em milhares de reais, de professores de uma faculdade, os valores salariais do terceiro quartil e do nonagésimo percentil são respectivamente: i Salários R$ fi 1 0 |-- 2 8 2 2 |-- 4 12 3 4 |-- 6 22 4 6 |-- 8 25 5 8 |-- 10 18 6 10 |-- 12 15 a) R$ 8.880 e R$10.660 b) R$ 6.650 e R$ 4.480 c) R$ 2.920 e R$ 6.560 d) R$ 6.650 e R$10.660 e) R$ 6.560 e R$8.880. Letra A Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 25 5. MEDIDAS DE DISPERSÃO As medidas de dispersão permitem avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números, proporcionando um conhecimento mais completo do fenômeno a ser analisado, permitindo estabelecer comparações entre fenômenos de mesma natureza e mostrando até que ponto os valores se distribuem acima ou abaixo da tendência central. 5.1. Medidas de Dispersão Absoluta Amplitude Total ou Intervalo Total (AT) – é a diferença entre os valores extremos do conjunto. Desvio Médio ou Média dos Desvios (Dm) 𝑫𝒎 = ∑ | 𝒙𝒊− 𝒙| 𝒏 𝒐𝒖 𝒏−𝟏 ou. 𝑫𝒎 = ∑ | 𝒙𝒊− 𝒎𝒅| 𝒏 𝒐𝒖 𝒏−𝟏 Desvio Quartil ou Amplitude Semi-Interquartílica (Dq ou Q) 𝑸 = 𝑸𝟑 − 𝑸𝟏 𝟐 No intervalo (Md Q) encontram-se aproximadamente 50% da distribuição. Essa porcentagem será exata se a distribuição for simétrica. Desvio Padrão (S ou ) Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 26 𝑺 = √ ∑(𝒙𝒊 − 𝒙)𝟐 𝒏 𝒐𝒖 𝒏 − 𝟏 𝒐𝒖. √ 𝟏 𝒏 𝒐𝒖 𝒏 − 𝟏 𝒙 [ ∑ 𝒙𝒊𝟐 − (∑ 𝒙𝒊)𝟐 𝒏 ] Obs.: quando o desvio padrão representar uma descrição da amostra e não da população, caso mais frequente em estatística, o denominador das expressões será n – 1, ao invés de n, pois assim se obtém uma estimativa melhor do parâmetro de população. Para valores grandes de n (n > 30), não há grande diferença; entretanto, a utilização de n– 1 proporciona uma estimativa mais justa do desvio-padrão da população. Ou também pode ser com frequências: 𝑺 = √ ∑ 𝒇𝒊(𝒙𝒊− 𝒙)𝟐 𝒏 𝒐𝒖 𝒏−𝟏 𝒐𝒖. √ 𝟏 𝒏 𝒐𝒖 𝒏−𝟏 𝒙 [ ∑ 𝒇𝒊. 𝒙𝒊𝟐 − (∑ 𝒇𝒊.𝒙𝒊)𝟐 𝒏 ] Forma simplificada: 𝑺 = √𝒙𝟐 − ( 𝒙 )𝟐 E também pelos desvios (di) como na média: 𝑺 = 𝒉 𝒙√ ∑ 𝒇𝒊(𝒅𝒊 − 𝒅)𝟐 𝒏 𝒐𝒖 𝒏 − 𝟏 𝒐𝒖. 𝒉 𝒙√ 𝟏 𝒏 𝒐𝒖 𝒏 − 𝟏 𝒙 [ ∑ 𝒇𝒊. 𝒅𝒊𝟐 − (∑ 𝒇𝒊. 𝒅𝒊)𝟐 𝒏 ] Onde: 𝒅𝒊 = 𝒙𝒊 − 𝒙𝟎 𝒉 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 27 h = amplitude do intervalo de classe e recomenda-se utilizar para o valor de x0 o ponto médio da classe de maior frequência se o número de classes for par, ou o ponto médio da classe intermediária se o número de classes for ímpar. Propriedades do desvio-padrão: 1ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, o desvio-padrão desta série não se altera. 2ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série, o desvio-padrão desta série fica multiplicada (ou dividida) por essa constante. 3ª) o desvio-padrão é maior que o desvio médio. Processo breve para o cálculo do desvio-padrão (para dados tabulados em classes) A partir das duas primeiras propriedades citadas anteriormente, é possível calcular a média aritmética utilizando uma variável transformada (di), como no cálculo da média aritmética pelo processo breve: Exemplo: calcular o desvio padrão na tabela a seguir. Notas de uma prova de Estatística xi fi PMi di di2 fi.di fi.di2 0 I––– 20 10 20 I––– 40 30 40 I––– 60 40 60 I––– 80 15 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 28 80 I––– 100 5 Resposta: S 19,95 e) Variância (S2 ou 2) – é o quadrado do desvio-padrão. Propriedades da variância: 1ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, a variância desta série não se altera. 2ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valorda série, a variância desta série fica multiplicada (ou dividida) pelo quadrado desta constante. 5.2. Medidas de Dispersão Relativa Resultam, em geral, de comparação entre uma medida de dispersão absoluta e um promédio, sendo expresso em termos percentuais. Proporcionam uma avaliação mais apropriada do grau de dispersão da variável e ainda, comparar duas ou mais distribuições, mesmo de fenômenos diferentes expressas em unidades de medidas distintas. a) Desvio Quartil Reduzido (Qr) 𝑸𝒓 = 𝑸 | 𝑴𝒅| = 𝑸𝟑 − 𝑸𝟏 𝟐 𝒙 | 𝑴𝒅 | Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 29 b) Coeficiente de Variação 𝑷𝒆𝒂𝒓𝒔𝒐𝒏: 𝑪𝑽 = 𝑺 | 𝒙 | 𝒐𝒖. 𝑻𝒉𝒐𝒎𝒅𝒊𝒌𝒆: 𝑪𝑽 = 𝑺 | 𝑴𝒅 | 𝒐𝒖. 𝑸𝒖𝒂𝒓𝒕í𝒍𝒊𝒄𝒐: 𝑪𝑽 = 𝑸𝟑 − 𝑸𝟏 | 𝑸𝟑 + 𝑸𝟏| Exemplo. Uma empresa verificou que, historicamente, a idade média dos consumidores de seu principal produto é de 25 anos, considerada baixa por seus dirigentes. Com o objetivo de ampliar sua participação no mercado, a empresa realizou uma campanha de divulgação voltada para consumidores com idades mais avançadas. Um levantamento realizado para medir o impacto da campanha indicou que as idades dos consumidores apresentaram a seguinte distribuição: Idade (X) Frequên cia Porcentag em 40 20 25 -ו 18 30 15 30 -ו 25 20 10 35 -ו 30 10 5 40 -ו 35 Total 50 100 Assinale a opção que corresponde ao resultado da campanha considerando o seguinte critério de decisão: se 𝒙 − 𝟐𝟓 for maior que o valor 𝟐𝜹𝒙 √𝒏 então a campanha de divulgação surtiu efeito, isto é, a idade média aumentou; caso contrário, a campanha de divulgação não alcançou o resultado desejado. a) A campanha surtiu efeito, pois 𝑥 − 25 = 2,1 é maior que 2𝛿𝑥 √𝑛 = 1,53 b) A campanha não surtiu efeito, pois 𝑥 − 25 = 0 é menor que 2𝛿𝑥 √𝑛 = 1,64 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 30 c) A campanha surtiu efeito, pois 𝑥 − 25 = 2,1 é maior que 2𝛿𝑥 √𝑛 = 1,41 d) A campanha não surtiu efeito, pois 𝑥 − 25 = 0 é menor que 2𝛿𝑥 √𝑛 = 1,53 e) A campanha surtiu efeito, pois 𝑥 − 25 = 2,5 é maior que 2𝛿𝑥 √𝑛 = 1,41. LETRA A II – AMOSTRAGEM Amostragem – é o ato de obter amostra de uma população. O levantamento por amostragem objetiva a redução do custo e tempo do processo estatístico. O tamanho da amostra deve ser no mínimo 10% da população, para que haja uma maior fidedignidade dos fatos. 1 – Conceitos em Amostragem Inferência Estatística - é o processo de obter informações sobre uma população a partir de resultados observados na amostra. Amostragem - É o processo de retirada de informações dos "n" elementos amostrais, na qual deve seguir um método adequado (tipos de amostragem). 2 – Plano de Amostragem Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 31 1º) Definir os Objetivos da Pesquisa 2º) População a ser amostrada Parâmetros a ser estimados (Objetivos) 3º) Definição da Unidade Amostral Seleção dos Elementos que farão parte da amostra 4º) Forma de seleção dos elementos da população Tipo de Amostragem: dosconglomera adaestratific asistemátic simplesaleatória 5º) Tamanho da Amostra Exemplo: Moradores de uma Cidade (população alvo) Objetivo: Tipo de Residência emprestada alugada própria Unidade Amostral: Domicílios (residências) Elementos da População: Família por domicílio Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 32 3 – Tipos de Amostragem A) Probabilísticos: Amostragem Simples ou Ocasional É o processo mais elementar e frequentemente utilizado. Todos os elementos da população têm igual probabilidade de serem escolhidos. Para uma população finita o processo deve ser sem reposição. Todos os elementos da população devem ser numerados. Para realizar o sorteio dos elementos da população pode-se usar a Tabela de Números Aleatórios ou gerar números aleatórios por meio de um software; Amostragem Sistemática Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a população está naturalmente ordenada, como fichas em um fichário, lista telefônica, etc. Ex.: N = 500 (População) n = 50 (Amostra) então r = N/n = 500/50 = 10, (teremos uma Progressão Aritmética (PA) de razão 10) Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 33 Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x=3), o número sorteado refere-se ao 1o elemento da amostra, logo os elementos da amostra serão: 3 13 23 33 43 ...... Para determinar qualquer elemento da amostra podemos usar a fórmula do termo geral de uma P.A. rnaan ).1(1 Amostragem Estratificada É um processo de amostragem usado quando nos depararmos com populações heterogêneas, na qual pode-se distinguir subpopulações mais ou menos homogêneas, denominados estratos. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada uma subpopulação (estrato). As diversas subamostras retiradas das subpopulações devem ser proporcionais aos respetivos números de elementos dos estratos, e guardarem a proporcionalidade em relação a variabilidade de cada estrato, obtendo-se uma estratificação ótima. Tipos de variáveis que podem ser usadas em estratificação: idade, classes sociais, sexo, profissão, salário, procedência, etc. Amostragem por Conglomerados (ou Agrupamentos) Algumas populações não permitem, ou tornam-se extremamente difícil que se identifiquem seus elementos, mas podemos identificar subgrupos da população. Em Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 34 tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) podem ser escolhidas, e uma contagem completa deve ser feita no conglomerado sorteado. Agregados típicos são: quarteirões, famílias, organizações, agências, edifícios, etc. B) Não Probabilísticos: Por julgamento – os elementos são escolhidos de modo intencional. Por quotas – também baseado em um julgamento (escolha intencional). Os grupos (quotas) extraídos têm número proporcional àquele em que se encontram na população. 4 – Tamanho da Amostra Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em qualquer setor da atividade humana, utilizam as técnicas de amostragem no panejamento de seus trabalhos, não só pela impraticabilidade de poderem observar, numericamente, em sua totalidade determinada população em estudo, como devido ao aspecto econômico dessas investigações, conduzidos com um menor custo operacional, dentro de um menor tempo, além de possibilitar maior precisão nos respectivos resultados, ao contrário, do que ocorre com os trabalhos realizados pelo processo censitário. A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma didática mais adequada aos pesquisadores iniciantes. Na teoria da amostragem, são consideradas duas dimensões: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 35 1ª) Dimensionamento da Amostra; 2ª) Composição da Amostra. III. VARIÁVEIS ALEATÓRIAS Variável representa a intensidade com que o atributo ocorre no fenômeno estudado. a) Uma variável pode ser: Discreta (ou descontinua) – quando a menor diferença não-nula entre dois valores possíveis dessa variável é finita. Normalmente resulta de contagem. Continua – pode assumir o valor de qualquer número real. Normalmente resulta de mensuração. IV. DISTRIBUIÇÕES DE PROBABILIDADE Em Estatística, uma Distribuição de Probabilidade descreve a chance que uma variávelpode assumir ao longo de um espaço de valores. Principais Distribuições de Probabilidade 1 – Variáveis Aleatórias Discretas a) Distribuição de Bernoulli Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 36 Consideremos uma única tentativa de um experimento aleatório. Podemos ter sucesso ou fracasso nessa tentativa. Seja p a probabilidade de sucesso e q a probabilidade de fracasso, com p + q = 1, ou seja, q = 1 − p. Seja X o número de sucessos em uma única tentativa do experimento. X assume o valor 0 que corresponde ao fracasso, com probabilidade q, ou o valor 1, que corresponde ao sucesso, com probabilidade p. P(X = 0) = q e P(X = 1) = p Nessas condições a variável aleatória X tem distribuição de BERNOULLI, e sua função de probabilidade é dada por: P(X = x) = p(x)· q(1-x) A esperança da distribuição de Bernoulli é E(X) = p Variância é V (X) = p.q. b) Distribuição Binomial A probabilidade de um evento A ocorrer exatamente k vezes em um determinado experimento aleatório é dada por: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 37 𝑷(𝑨) = 𝑪𝒏 𝒌𝒙 𝒑𝒌 𝒙 𝒒𝒏−𝒌 , 𝒐𝒏𝒅𝒆 𝑪𝒏 𝒌 = 𝒏! 𝒌! 𝒙 (𝒏 − 𝒌)! Onde: n = número de eventos e k = é o número de favoráveis dentro dos eventos Vale observar que se a probabilidade de realização de um evento (sucesso) é p, a probabilidade de não realização desse evento (insucesso) é 1 – p = q. A esperança da distribuição Binomial é E(X) = n . p Variância é V (X) = n.p.q c) Distribuição de Poisson Na distribuição binomial, se n for muito grande, enquanto a probabilidade p da ocorrência de um evento for próxima de zero, o evento será denominado raro. Na prática, considera-se um evento como raro quando o número de tentativas é, pelo menos, igual a 50 (n ≥ 50), ao passo que n.p é menor que 7. Nesses casos, a distribuição binomial é muito aproximada da de Poisson, com λ = n.p. A distribuição de Poisson Esta é uma distribuição associada a “eventos raros”. As razões para isso se tornarão mais claras a medida que a aplicação desse modelo for descrita. Os eventos podem ser: acidentes automotivos erros de digitação chegada de um cliente em um banco entre outros eventos… Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 38 A distribuição de Poisson é aplicável quando o número de possíveis ocorrências discretas é muito maior do que o número médio de ocorrências em um determinado intervalo de tempo ou espaço. O número de possíveis ocorrências, muitas vezes não se sabe exatamente. Os resultados devem ocorrer de forma aleatória, ou seja, totalmente por acaso e da probabilidade de ocorrência não deve ser afetado por se ou não os resultados ocorrido anteriormente, de modo que as ocorrências são independentes. Em muitos casos, embora possamos contar as ocorrências, como a de uma tempestade, não podemos contar as não ocorrências correspondentes. (Nós não podemos contar “não-tempestades”!). De modo geral, dizemos que a variável aleatória X tem uma distribuição de Poisson com parâmetro λ > 0, se: 𝑷 = 𝒆−𝝀𝒙 𝝀𝒌 𝒌! , Onde k = 0, 1, 2, ... (número de ocorrências em determinado intervalo de tempo), e representa o número médio de eventos ocorrendo no intervalo considerado. e = 2,71828... (número neperiano). A esperança da distribuição Poisson é E(X) = n . p = = V(x) Onde: p = / n d) A Distribuição Exponencial (ou exponencial negativa) Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 39 A distribuição exponencial pode ser associada com a distribuição geométrica. Porém antes de tratarmos das similaridades da propriedade dessas duas distribuições avaliaremos as características da variável aleatória. De uma forma bastante resumida imagine uma variável aleatória Poisson, onde temos a contagem do número de ocorrências em um intervalo. Suponha agora que estejamos interessados em verificar a probabilidade do tempo transcorrido entre duas ocorrências consecutivas. Essa última é considerada uma variável aleatória exponencial. Essa distribuição contínua que pode ser utilizada para descrever as probabilidades envolvidas no tempo que decorre para que um determinado evento aconteça. Existe uma conexão muito próxima entre a distribuição exponencial e a de Poisson. Ou seja, é Utilizada para descrever o tempo entre as ocorrências de sucessivos eventos de uma distribuição de Poisson. As relações entre as distribuições podem ser associadas a um processo estocástico, chamado de processo de Poisson. Para simplificar a abordagem imagine um processo de chegada sendo monitorando ao longo do tempo (sendo o tempo uma variável contínua). a) Função de Distribuição Cumulativa: 𝑷(𝑿 ≤ 𝒙) = 𝟏 − 𝒆−𝝀𝒙 ou 𝑷(𝑿 ≥ 𝒙) = 𝒆−𝝀𝒙 b) Esperança e Variância: 𝑬(𝒙) = 𝟏 𝝀 𝑽(𝒙) = 𝟏 𝝀𝟐 EXEMPLO. Em um experimento binomial com três provas, a probabilidade de ocorrerem dois sucessos é doze vezes a probabilidade de ocorrerem três sucessos. Desse modo, as probabilidades de sucesso e fracasso são, em percentuais, respectivamente, iguais a: a) 80 % e 20 % Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 40 b) 30 % e 70 % c) 60 % e 40 % d) 20 % e 80 % e) 25 % e 75 %. Letra D EXEMPLO. O número de petroleiros que chegam a uma refinaria ocorre segundo uma distribuição de Poisson, com média de dois petroleiros por dia. Desse modo, a probabilidade de a refinaria receber no máximo três petroleiros em dois dias é igual a: a) 32/73 e^-4 b) 71/3 e^4 c) 71/3 e^-4 d) 71/3 e^-2 e) 32/3 eˆ-2. Letra C 2 – Variável Aleatória Contínua (VAC) A probabilidade de uma VAC X assumir um determinado valor dentro de um intervalo [a,b] de valores é dada por: 𝑷(𝒂 ≤ 𝒙 ≤ 𝒃) = ∫ 𝒇(𝒙)𝒅𝒙 𝒃 𝒂 A função f(x) é chamada Função Densidade de Probabilidade (f.d.p.) da variável X. Teoricamente, qualquer função f , que não seja negativa e cuja área total sob a curva seja igual à unidade, caracterizará uma VAC; ou seja: ∫ 𝒇(𝒙)𝒅𝒙 ∞ −∞ = 𝟏 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 41 a) Esperança de uma Variável Aleatória Contínua Se uma variável aleatória X possui uma distribuição contínua com f.d.p. f(x), então a esperança E(X) é definida por: 𝑬(𝒙) = ∫ 𝒙 . 𝒇(𝒙)𝒅𝒙 ∞ −∞ b) Variância de uma Variável Aleatória Contínua Suponha que uma v.a. X possua uma distribuição contínua, cuja f.d.p. é f(x). Então: 𝑽𝒂𝒓(𝒙) = 𝑬(𝒙𝟐) − (𝑬(𝒙)) 𝟐 = ∫ [𝑬(𝒙𝟐) − (𝑬(𝒙)) 𝟐 ]𝒇(𝒙)𝒅𝒙 ∞ −∞ c) O Desvio Padrão (DP) será dado por E(x) = (x); Var(x) = (x)2 e DP = S = (x) IV – Principais Modelos de Distribuições de Probabilidade a) O Modelo Uniforme É o modelo mais simples para v.a. contínua. Uma v.a. X tem Distribuição Uniforme no intervalo [ , ] se sua f.d.p. é dada por Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 42 𝒇(𝒙) = { 𝟏 𝜷 − 𝜶 , 𝒔𝒆 𝜶 ≤ 𝒙 ≤ 𝜷 𝟎, 𝒄𝒂𝒔𝒐 𝒄𝒐𝒏𝒕𝒓á𝒓𝒊𝒐 A Esperança e a Variância são dadas por 𝑬(𝒙) = 𝜶 + 𝜷 𝟐 𝒆. 𝑽𝒂𝒓(𝒙) = (𝜷 − 𝜶)𝟐 𝟏𝟐 EXEMPLO. A função densidade de probabilidade de uma variável aleatória contínua x é dada por: 𝒇(𝒙) = { 𝟑𝒙𝟐 , 𝒔𝒆 − 𝟏 ≤ 𝒙 ≤ 𝟎 𝟎, 𝒄𝒂𝒔𝒐 𝒄𝒐𝒏𝒕𝒓á𝒓𝒊𝒐 . Para esta função, a média de x, também denominada expectância de x e denotada por E(x) é igual a: a) 4/3. b) 3/4. c) – 3/4. d) – (3/4) x. e) – (4/3) x. Letra C IV – Distribuição Normal A distribuição normal é a mais importante distribuição estatística, considerando a questão prática e teórica. Esse tipo de distribuiçãoapresenta-se em formato de sino, unimodal, simétrica em relação a sua média. Considerando a probabilidade de Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 43 ocorrência, a área sob sua curva soma 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos. Na figura, as barras verticais representam os desvios padrões. Quanto mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. O traço horizontal menor indica que 68,26% das observações estão contidas no intervalo entre um desvio padrão para a direita e um desvio padrão para a esquerda da média (centro da distribuição). O segundo traço indica que a dois desvios padrões em torno da média possuímos 95,44% dos dados e, finalmente a três desvios temos 99,73% (traço horizontal maior). Podemos concluir que quanto maior a variabilidade dos dados em relação à média, maior a probabilidade de encontrarmos o valor que buscamos embaixo da normal. Características: 1 – É uma curva com a forma de um “sino”, com um eixo de simetria; Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 44 2 – Muitas populações reais seguem a distribuição normal; 3 – Numa população com média e desvio-padrão : – aproximadamente 68 % se encontram dentro do intervalo ± – aproximadamente 95 % se encontram dentro do intervalo ± 2; – aproximadamente 99,7 % se encontram dentro do intervalo ± 3. Para achar a área sob a curva normal devemos conhecer dois valores numéricos, a média e o desvio padrão. Para cada valor de e/ou temos uma curva de distribuição de probabilidade. Porém, para se calcular áreas específicas, faz-se uso de uma distribuição particular: a "distribuição normal padronizada", o qual é a distribuição normal com = 0 e = 1. Para obter tal distribuição, isto é, quando se tem uma variável X com distribuição normal com média diferente de 0 (zero) e/ou desvio padrão diferente de 1 (um), devemos reduzi-la a uma variável Z, efetuando o seguinte cálculo: 𝒁 = 𝒙 − 𝝁 𝝈 Assim, a distribuição passa a ter média = 0 e desvio padrão = 1. Pelo fato de a distribuição ser simétrica em relação à média = 0, a área à direita é igual a área à esquerda de . Por ser uma distribuição muito usada, existem tabelas a qual encontramos a resolução de suas integrais. Assim, a tabela fornece áreas acima de que vão desde -3,99 até 3,99. Veja o gráfico da curva Normal padronizada na Figura abaixo. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 45 A probabilidade de ocorrência de valores menores ou iguais a um valor genérico z dessa distribuição é dada por: 𝑷 ( 𝒁 ≤ 𝒛) = 𝝓(𝒛) = ∫ 𝝓(𝒖) 𝒅𝒖 𝒛 − ∞ = 𝟏 √𝟐𝝅 ∫ 𝒆 −𝒖𝟐 𝟐 𝒅𝒖 𝒛 − ∞ Isso representa a área (entre −∞ e z) sob a curva da função de densidade. A Tabela III (em anexo) dá os valores de área sob a curva entre 0 e z conforme indicado na Figura (a). Portanto, é a fórmula anterior modificada para: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 46 Desde que a distribuição normal é simétrica, para calcular a área entre −∞ e z basta somar 0,5 aos valores da tabela. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 47 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 48 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 49 EXEMPLO. O Sr. Ramoile, professor de Estatística aposentado, vem há muito tempo acompanhando os dados sobre custos e faturamento do restaurante de sua filha Cecília. O restaurante funciona todos os dias da semana e o Sr. Ramoile Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 50 concluiu que: o custo diário do restaurante segue uma distribuição normal, com média igual a R$ 500,00 e desvio-padrão igual a R$ 10,00 e que o faturamento diário, também, apresenta uma distribuição normal, com média R$ 800 e desvio- padrão R$ 20. Como o Sr. Ramoile conhece muito bem os princípios básicos da estatística, ele sabe que, se uma variável Z seguir uma distribuição normal padrão, então Z tem média 0 e variância 1. Ele também sabe que a probabilidade dessa variável Z assumir valores no intervalo entre 0 < Z < 2 ─ ou seja, entre a média 0 e 2 desvios-padrão ─ é, aproximadamente, igual a 0,4772. Cecília, muito preocupada com o futuro de seu restaurante, perguntou a seu pai se ele poderia verificar a probabilidade de, em um dia qualquer, o custo ser maior do que R$ 520,00 e o faturamento ficar no intervalo entre R$ 760,00 e R$ 840,00. Após alguns minutos, o Sr. Ramoile disse, acertadamente, que as respectivas probabilidades são, em termos percentuais, iguais a a) 2,28; 95,44. b) 52,28; 95,44. c) 2,28; 98,69. d) 98,69; 95,44. e) 98,65; 2,28. Letra A TEOREMA DE CHEBYCHEV (A DESIGUALDADE DE TCHEBYCHEFF) A proposta do pesquisador russo Pafnuty Lvovich Tchebycheff fornece meios para compreender como a variância mede a variabilidade em relação ao valor esperado. Se conhecermos a distribuição de probabilidade, podemos calcular E(x) e V(x). No entanto, se conhecermos E(x) e V(x), não é possível reconstruir a distribuição de probabilidade. Dessa forma, sabendo apenas a variância e a esperança não podemos calcular P(|x – E(x)| c), onde c é um valor pequeno qualquer. Apesar da impossibilidade de calcular P(|x – E(x)| c) é possível estabelecer limites Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 51 superiores e inferiores para a variabilidade ao redor do valor esperado. A EQUAÇÃO: ANTES É PRECISO LEMBRAR OS INTERVALOS BÁSICOS DAS DISTRIBUIÇÕES QUE SÃO: intervalo ± ; intervalo ± 2 ; intervalo ± 3. (I) COMPLEMENTAR: P(|x – c| 𝜀 ) 1 𝜀2 . 𝐸(𝑥 − 𝑐)2 (II) PARA c = : P(|x – | 𝜀 ) 1 𝜀2 . 𝐸(𝑥 − )2 = P(|x – | 𝜀 ) 𝛿2 𝜀 (III) PARA c = E 𝜀 = 𝐾 : P(|x – | 𝐾 ) 1 𝐾2 Unindo as três equações acima, para cálculo entre intervalos, chega-se a equação: 𝟏 − 𝟏 𝒌𝟐 ≤ 𝟏 − (𝑷[𝒙 ≤ 𝝁 − 𝒌𝜹] + [𝒙 ≥ 𝝁 + 𝒌𝜹]) Onde K é o número de desvios padrões do intervalo que se deseja. Vale atentar para os seguintes valores: Quando K = 2 (intervalo ± 2): Ao menos 3/4 (75%) de todos os valores estão no intervalo; Quando K = 3 (intervalo ± 3): Ao menos 8/9 (89%) de todos os valores estão no intervalo; Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 52 APROXIMAÇÃO DA DISTRIBUIÇÃO BINOMIAL PELA DISTRIBUIÇÃO NORMAL. Aumentando-se o tamanho da amostra a distribuição de probabilidade binomial se aproxima da normal, passando a mesma variável do tipo discreto a ter o mesmo tratamento que uma variável do tipo contínuo, com E(x) = n . p e V(x) = n . p . q. 𝑧 = 𝑥 − 𝑛. 𝑝 √𝑛 . 𝑝 . 𝑞 Distribuição “t” de Student Esta distribuição “t” ou Student foi estudada por Gosset em 1908 e se refere a pequenas amostras, isto é, quando n < 30. Sua curva representativa é bem semelhante à curva normal, sendo também simétrica em relação a ordenada máxima, mas apresentando as extremidades com maior comprimento e mais elevadas, fato este que determina uma variância maior do que a distribuição normal. É MUITO IMPORTANTE ATENTAR PARA OS SÍMBOLOS: �̅� = MÉDIA DA AMOSTRA; = MÉDIA DA POPULAÇÃO; S = DESVIO PADRÃO DA AMOSTRA; = DESVIO PADRÃO DA POPULAÇÃO; = GRAU DE LIBERDADE. Na distribuição normal verificamos que ela depende dos parâmetros e . Mas na maioria das vezes,a variância populacional não é conhecida e as investigações ou análises são feitas a partir de amostras retiradas dessa população. Nessas condições o desvio padrão amostral S corresponderá a uma estimativa de , logo: 𝑆 = √ ∑(𝑋𝑖 − 𝜇) 𝑛 − 1 onde n-1 corresponderá ao número de graus de liberdade , ou seja, o número de variáveis independentes, fixada uma condição. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 53 Para cada amostra da população teremos: 𝑡 = �̅� − 𝜇 𝑆𝑥 Onde: �̅� = média da amostra = média da população 𝑆𝑥 = 𝑠 √𝑛 A medida que o grau de liberdade aumenta t Z, observando que ao ultrapassar 30 graus de liberdade já é possível usar a distribuição normal, pois a diferença entre os resultados será bastante pequena. Genericamente, existe uma família de distribuições “t”, cuja forma tende à distribuição normal reduzida, à medida que n cresce (pois S tende a e, portanto, t tende a Z). Distribuição Qui-quadrado(x2) A distribuição Qui-quadrado possui numerosas aplicações em inferência estatística, tais como os testes não paramétricos. Sejam X1, X2, ..., Xn, variáveis aleatórias independentes, normalmente distribuídas com média zero e variância 2. Define-se a variável aleatória x2, com graus de liberdade como sendo a soma do quadrado de variáveis normais padronizadas e independentes, isto é: 𝑥𝛿 2 = ∑ 𝑧2 = ∑( 𝑥 − 𝜇 𝜎 )2 A distribuição x2 assume diversas formas gráficas dependendo do número de graus de liberdade Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 54 𝑆𝑒 𝑛 → ∞ , 𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑡𝑒𝑛𝑑𝑒 𝑎 𝑛𝑜𝑟𝑚𝑎𝑙; 𝑆𝑒 𝛿 = 1 → 𝑥1 2 = 𝑧2, ( 𝑢𝑚𝑎 𝑛𝑜𝑟𝑚𝑎𝑙 𝑟𝑒𝑑𝑢𝑧𝑖𝑑𝑎). Parâmetros da Distribuição: E(x) = e V(x) = 2 Distribuição F de Snedecor. A distribuição F de Snedecor também conhecida como distribuição de Fisher é frequentemente utilizada na inferência estatística para análise da variância A distribuição F é uma distribuição de amostragem contínua da razão de duas variáveis aleatórias independentes com distribuição qui-quadrado, cada uma dividida por seus graus de liberdade. O distribuição F é assimétrica à direita e descrito pelos graus de liberdade de seu numerador (ν1) e denominador (ν2). Os gráficos a seguir mostram o efeito de diferentes valores de graus de liberdade na forma da distribuição, como por exemplo a curva abaixo: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 55 Onde V1 = 1 e V2 = 9 Utiliza-se a distribuição F, quando uma estatística de teste é a razão entre duas variáveis que tenham, cada uma delas, uma distribuição do qui-quadrado. Por exemplo, use a distribuição F na análise de variância e em testes de hipóteses para determinar se duas variâncias de população são iguais. A) Principais Características: Cada par de graus de liberdade da origem a uma distribuição F diferente; A distribuição F depende de dois parâmetros. O primeiro (ν1) é o grau de liberdade do numerador e o segundo (ν2) do denominador; A variável aleatória Fé não-negativa, e a distribuição é assimétrica à direita; A distribuição F se parece com a distribuição qui-quadrado, no entanto, os parâmetros ν1 e ν2 fornecem flexibilidade extra em relação à forma; B) Teorema: Sejam Q1 e Q2 variáveis aleatórias independentes, com distribuição qui-quadrado com ν1 e ν2 graus de liberdade, respectivamente. Então, a variável aleatória 𝐹 = 𝑄1 𝑉1 𝑄2 𝑉2 tem distribuição F de Snedecor com ν1 graus de liberdade no numerador e ν2 graus de liberdade no denominador. C) RELAÇÕES IMPORTANTES: 𝑭𝟏− 𝜶,𝟏,𝒗 = 𝒕𝟏− 𝜶/𝟐,𝒗 𝟐 𝑭𝜶,𝒗,∞ = 𝒙𝜶,𝒗 𝟐 𝒗 𝑭𝟏− 𝜶,𝟏,𝒗 = 𝟏 𝑭𝜶,𝒗,∞ Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 56 Observação: Suponha que temos duas populações independentes tendo distribuições normais com variâncias iguais a σ2. Considere Y11, ... ,Y1n uma amostra aleatória da primeira população com n observações e Y21, ... ,Y2m uma amostra aleatória da segunda população com m observações. Então, a estatística 𝐹 = (𝑛 − 1)𝑆1 2 (𝑛 − 1)𝜎2 (𝑚 − 1)𝑆2 2 (𝑚 − 1)𝜎2 tem distribuição F de Snedecor com (n−1) graus de liberdade no numerador e (m−1) graus de liberdade no denominador, onde S1 e S2 são os desvios padrão amostrais da primeira e da segunda amostra, respectivamente. EXEMPLO. Em uma distribuição de probabilidade, a esperança matemática é 75, com uma variância de 25 e deseja-se calcular a probabilidade de uma variável aleatória X estar entre os limites de 67 a 83: a) 75% de probabilidade. b) 25% de probabilidade. c) 60,9% de probabilidade. d) 39,1% de probabilidade. e) 89% de probabilidade. Letra c V. TESTE DE HIPÓTESE Quando não temos certeza a respeito de uma afirmação sobre um parâmetro Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 57 estatístico (média, desvio-padrão), dizemos que essa afirmação é uma hipótese Um teste de hipótese é um processo estatístico que tem como finalidade verificar se uma determinada afirmação é verdadeira. Erros em um teste de Hipótese: Podemos cometer um erro ao analisar uma afirmação. A probabilidade de se cometer um erro do tipo I é denominada de nível de significância P(erro I) = Tipos de Testes: a) Bilateral: H0: = P e H1: P (Rejeitar se Zcalc < – Z ou Zcalc > Z) b) Unilateral à esquerda: H0: P e H1: < P (Rejeitar se Zcalc < – Z) Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 58 c) Unilateral à direita: H0: P e H1: > P (Rejeitar se Zcalc > Z) Estrutura de um teste de hipótese: a) formular as hipóteses H0 e H1 b) escolher uma distribuição adequada (comumente a distribuição normal) para testar a média. c) escolher um nível significância (valor crítico). d) calcular a estatística teste Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 59 𝒁𝒕𝒆𝒔𝒕𝒆 = 𝝁𝟎 − 𝝁 𝝈 √𝒏 Onde: = média afirmada em H0 0 = média da amostra testada = desvio-padrão da população (ou amostra com n 30) n = número de elementos da amostra e) comparar a estatística teste com a estatística tabelada (Zteste e Ztab) f) rejeitar H0 se o valor de Zteste estiver na zona de rejeição, ou aceitar H0 se Zteste na área de aceitação DETERMINAÇÃO DO TAMANHO DE UMA AMOSTRA COM BASE NA ESTIMATIVA DA MÉDIA POPULACIONAL Suponha, por exemplo, que queiramos estimar a renda média de pessoas que concluíram um curso superior, no primeiro ano após a formatura. QUANTAS rendas devemos incluir em nossa amostra? A determinação do tamanho de uma amostra é problema de grande importância, porque: amostras desnecessariamente grandes acarretam desperdício de tempo e de dinheiro; e amostras excessivamente pequenas podem levar a resultados não confiáveis. Em muitos casos é possível determinar o tamanho mínimo de uma amostra para estimar um parâmetro estatístico, como por exemplo, a média populacional () . A fórmula para cálculo do tamanho da amostra para uma estimativa confiável da média populacional é dada por: 𝑛 = ( 𝑍𝛼/2. 𝜎 𝐸 )2 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 60 Onde: n = Número de indivíduos na amostra Z/2 = Valor crítico que corresponde ao grau de confiança desejado. = Desvio-padrão populacional da variável estudada. E=Margem de erro ou ERRO MÁXIMO DE ESTIMATIVA (Identifica a diferença máxima entre a média amostral (X) e a verdadeira média populacional (), ou seja: �̅� − 𝜇 ). EXEMPLO. Suponhamos que uma indústria comprede certo fabricante parafusos cuja carga média de ruptura por tração é especificada em 50 Kg, o desvio-padrão das cargas de ruptura é suposto ser igual a 4 Kg. O comprador deseja verificar se um grande lote de parafusos recebidos deve ser considerado satisfatório, no entanto existe alguma razão para se temer que a carga média de ruptura seja eventualmente inferior à 50 Kg. Se for superior não preocupa o comprador pois neste caso os parafusos seriam de melhor qualidade que a especificada. A hipótese do comprador é que a carga média da ruptura é inferior a 50 Kg. O comprador pode ter o seguinte critério para decidir se compra ou não o lote: resolve tomar uma amostra aleatória simples de 25 parafusos e submetê-los ao ensaio de ruptura. Se a carga média de ruptura observada nesta amostra for maior que 48 Kg, com nível de significância de 5%, ele comprará o lote, caso contrário se recusará a comprar. Resposta: 𝑷(𝝁 < 𝟒𝟖) = 𝑷(𝒁 < −𝟐, 𝟓) = 𝟎, 𝟎𝟎𝟔𝟐. 𝑹𝑬𝑱𝑬𝑰𝑻𝑨𝑹 𝑯𝟎 EXEMPLO. Em um teste de hipóteses bilateral, com nível de significância α, cujas estatísticas de teste calculadas e tabeladas são designadas por Tc e T /2, respectivamente, pode-se afirmar que: a) Se – T/2 Tc T/2, rejeita-se H0 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 61 b) Se – T/2 Tc T/2, não se pode rejeitar H0 c) a probabilidade de se rejeitar H0, sendo H0 verdadeira, é igual a /2 d) ocorre erro tipo I quando se aceita H) e H0 é falsa e) se for igual a 5%, então a probabilidade de ocorrer erro tipo II é 95% LETRA B Análise de Variância – ANOVA Técnica utilizada para comparação entre dois ou mais níveis de tratamento, de uma ou mais variáveis de teste (fatores de controle) Para o cálculo da ANOVA é de fundamental importância primeiro calcular a Média e o Desvio Padrão de cada uma das varáveis a serem testadas. Na ANOVA, a hipótese nula H0 determina que: Não exista diferença significativa entre as variáveis testadas; Amostras de uma mesma população de resultados. H0: A = B ... = n Isto contra uma hipótese alternativa H1, que determina que: Existe diferença significativa entre as variáveis testadas 𝐻1: 𝜇𝐴 ≠ 𝜇𝐵 ≠ ⋯ ≠∶ 𝜇𝑛 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 62 Assim, tem -se que: Caso Ho seja verdadeiro, existem duas para ter a análise: Média das variâncias de cada amostra: (Dentro do Tratamento = Erro) 𝛿2 = 𝑆̅ = (𝑆𝐴 2 + 𝑆𝐵 2 + … + 𝑆𝑛 2) 𝑛 A partir da variância das médias amostrais, veja que para cada variável existe uma média, assim fazer a variância destas médias (Entre Tratamentos) 𝛿2 = 𝑆̅ = 𝑆𝑋 2 𝑥 𝑛 = ∑ 𝑛𝑡(�̅�𝑡 − �̿�) 2 𝐾 − 1 (onde n = tamanho das amostras de tratamento) Assim a relação entre estes dois métodos, que uma distribuição de probabilidades (Z) já tabelado, gerando assim a estatística F: 𝐹 = 𝑉𝑎𝑟 𝑑𝑎𝑠 𝑀é𝑑𝑖𝑎𝑠 𝑀é𝑑𝑖𝑎𝑠 𝑑𝑎𝑠 𝑉𝑎𝑟 Desta forma existem as seguintes relações: F>> 1 = Rejeitar Ho ( o que quer dizer que as populações são muito diferentes) F 1 = Aceitar Ho, logo confirma-se a teoria inicial, de aceitar Ho e com isso as populações são muito parecidas) Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 63 Quadro de ANOVA: Onde: K = número de tratamentos ( variáveis) nt = tamanho da amostra N = Total de dados (soma dos dados de todas as amostras de cada variável N = n1 + n2 + ... + nn) EXEMPLO. Uma metalúrgica deseja fazer o teste de vida útil de brocas de corte. Foram escolhidos três fabricantes diferentes e foram obtidos os seguintes dados: FATOR DE CONTROLE A B C 245 257 281 259 227 276 255 252 257 247 237 261 241 238 254 251 220 260 271 216 254 256 229 258 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 64 Sabendo que: Xa = 253,23 ; Sa = 9,6 ; Xb = 234,5 ; Sb = 14,5 ; Xc = 262,63 ; Sc = 10,2. Pela análise da variância, a hipótese nula deve: a) Ser rejeitada b) Ser aceita c) Não existem informações suficiente para análise d) Está dentro do nível de significância F e) É melhor rejeitar a hipótese alternativa H1. Letra A ANÁLISE DE REGRESSÃO A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação existente entre duas variáveis. 1 – Regressão Linear Simples Dado um conjunto de valores observados de X e Y, construir um modelo de regressão linear de Y sobre X consiste em obter, a partir desses valores, uma reta que melhor represente a relação entre essas variáveis. A determinação dos parâmetros dessa reta é denominada ajustamento. O processo de ajustamento deve partir da escolha da função através do qual os valores de X explicarão os de Y; para isso recorre-se a um gráfico conhecido como diagrama de dispersão. A função escolhida será aquela que for sugerida pelo conjunto dos pontos dispostos no diagrama. No exemplo a seguir, tem -se um conjunto de pontos sugerindo uma função linear. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 65 Y A reta é ajustada por: �̂� = 𝜶 + 𝜷𝒙. 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝑨𝒏𝒈𝒖𝒍𝒂𝒓: 𝜷 = ∑ 𝒙𝒚 − ∑ 𝒙 . ∑ 𝒚 𝒏 ∑ 𝒙𝟐 − ∑ 𝒙𝟐 𝒏 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝑳𝒊𝒏𝒆𝒂𝒓: 𝜶 = 𝒚 − 𝜷. 𝒙 2 – Método dos Mínimos Quadrados O primeiro passo na análise de regressão é obter as estimativas 𝛽0̂ 𝐸 𝛽1̂ dos parâmetros do modelo. Os valores dessas estimativas serão obtidos a partir de uma amostra de n pares de valores(Xi, Yi), i=1,...,n que correspondem a n pontos em um gráfico, como na Figura 1.2.1. No método de Mínimos Quadrados, não é necessário conhecer a forma da distribuição dos erros. Suponha que é traçada uma reta arbitrária 𝛽0 + 𝛽1𝑥 passando por esses pontos. No valor Xi da variável explicativa, o valor predito por esta reta é 𝛽0 + 𝛽1𝑥𝑖 , enquanto o valor observado é Yi. Os desvios (erros) entre estes dois valores é 𝜀𝑖 = 𝑌𝑖 − [𝛽0 + 𝛽1𝑥𝑖] , que corresponde a distância vertical do ponto à reta arbitrária. O objetivo é estimar os parâmetros 𝛽0 𝑒 𝛽1de modo que os desvios (𝜀𝑖) entre os valores observados e estimados sejam mínimos. Isso equivale a minimizar o comprimento do vetor de erros, 𝜀 = (𝜀1, 𝜀2, 𝜀3, … , 𝜀𝑛) . Uma forma de obter essas estimativas é o Método de Mínimos Quadrados. Este método consiste em minimizar a soma dos quadrados dos desvios L, como na expressão abaixo: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 66 𝐿 = ∑ 𝜖𝑖 2 = ∑[𝑌𝑖 − 𝛽0 − 𝛽1𝑥𝑖] 2 Obviamente, que poderíamos calcular a distância entre a reta e os valores observados de diferentes formas. Por exemplo, poderíamos utilizar o módulo ao invés do quadrado, ou qualquer função de distância apropriada. A escolha do quadrado está na simplicidade dos cálculos envolvidos 𝛽1̂ = ∑ 𝒙𝒊𝒚𝒊 − 𝒏. �̅�. �̅� ∑ 𝒙𝟐 − 𝒏. �̅�𝟐 3 – Regressão Linear Múltipla A equação de regressão estimada pode ser vista como uma tentativa para explicar as variações na vaiável dependente Y, que resultam das alterações das variáveis independentes X1,X2,...,Xk. Seja 𝑦 a média dos valores observados para a varável dependente. Uma medida útil associada ao modelo de regressão é o grau em que as predições baseadas na equação , 𝑦, superam as predições baseadas em 𝑦. Se a dispersão (erro) associada equação é muito menor que a dispersão (erro) associada a 𝑦, as predições baseadas no modelos serão melhores que as baseadas em 𝑦. Dispersão em torno de 𝒚 ou Variação Total (SST): 𝑺𝑸𝑻 = ∑(𝒚 − 𝒚)𝟐 (Soma dos Quadrados Totais) (n – 1 grau de liberdade) Dispersão em torno daregressão �̂� = Variação não Explicada (SSE) 𝑺𝑸𝑬 = ∑(𝒚 − �̂�)𝟐 (Soma dos Quadrados dos Resíduos) ( 1 grau de liberdade) Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 67 OBS: O ajustamento será tanto melhor quanto menor for SSE relativamente a SST Dispersão em torno de 𝒚 e ŷ = Variação Explicada (SSR) 𝑺𝑸𝑹 = ∑(�̂� − 𝒚)𝟐 (Soma dos Quadrados da Regressão) ((n – 2 grau de liberdade) Assim: SST = SSE + SSR E o quociente entre SSR e SST é o coeficiente de determinação (r2) 𝒓𝟐 = 𝑺𝑺𝑹 𝑺𝑺𝑻 = 𝟏 − 𝑺𝑺𝑬 𝑺𝑺𝑻 Note que: 0 ≤ r2 ≤ 1; r2 1 (próximo de 1) significa que grande parte da variação de Y é explicada linearmente pelas variáveis independentes; r2 0 (próximo de 0) significa que grande parte da variação de Y não é explicada linearmente pelas variáveis independentes. Ou também este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento, ou como medida da confiança depositada na equação de regressão como instrumento de previsão: r2 0 →modelo linear muito pouco adequado; r2 1→modelo linear bastante adequado. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 68 EXEMPLO. Os dados a seguir referem-se ao volume de precipitação pluviométrica (em mm) e ao volume de produção de leite tipo C (em milhões de litros), em determinada região do país. ANO Produção de Leite C Índice Pluviométrico (mm) 1970 26 23 1971 25 21 1972 31 28 1973 29 27 1974 27 23 1975 31 28 1976 32 27 1977 28 22 1978 30 26 1979 30 25 A partir dos dados fornecidos, pede-se: a) ajustar os dados através de um modelo linear. �̂� = 𝟖, 𝟗 + 𝟎, 𝟖𝒙 b) admitindo-se, em 1980, um índice pluviométrico de 24 mm, qual deverá ser o volume esperado de produção do leite tipo C? 28,1 EXEMPLO. Um modelo de regressão linear múltipla foi estimado pelo método de Mínimos Quadrados, obtendo-se, com um nível de confiança de 95%, os Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 69 seguintes resultados: 𝑰. �̂� = 𝟏𝟎 + 𝟐, 𝟓 𝒙𝟏 + 𝟎, 𝟑 𝒙𝟐 + 𝟐𝒙𝟑 𝑰𝑰. 𝑶 𝒄𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒅𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐 𝒓𝟐 é 𝒊𝒈𝒖𝒂𝒍 𝒂 𝟎, 𝟗𝟓𝟑𝟐 𝑰𝑰𝑰. 𝑶 𝑽𝒂𝒍𝒐𝒓 − 𝒑 = 𝟎, 𝟎𝟎𝟑 Desse modo, pode-se afirmar que: a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo de 2,5 %. b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada. c) x3 explica 95,32% das variações de Y em torno de sua média. d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são, respectivamente, iguais a 5% e 95%. e) se no teste de hipóteses individual para β2 se rejeitar a hipótese nula (H0), então tem-se fortes razões para acreditar que x2 não explica Y. LETRA B TESTE DO QUI-QUADRDO. Este teste objetiva verificar se a frequência absoluta observada de uma variável é significativamente diferente da distribuição de frequência absoluta esperada. 1 – TESTE DO QUI-QUADRADO PARA UMA AMOSTRA. Aplica-se quando se quer estudar a dependência entre duas variáveis, através de uma tabela de dupla entrada ou também conhecida como tabela de contingência. Condições para a execução do teste: 1 – Exclusivamente para variáveis nominais e ordinais; 2 – Observações independentes; 3 – Não se aplica se 20% das observações forem inferiores a 5; 4 – Não pode haver frequências inferiores a 1. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 70 Nos dois últimos casos, se houver incidências desta ordem, aconselha-se agrupar os dados segundo um critério em específico. Procedimento para a execução do teste: 1 – Determinar H0. Será a negativa da existência de diferenças entre a distribuição de frequência observada e a esperada; 2 – Estabelecer o nível de significância (µ ); 3 – Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade (φ), sendo K – 1 (K = número de categorias). Encontrar, portanto, o valor do Qui- quadrado tabelado; 4 – Calcular o Qui Quadrado, através da fórmula. 𝒅𝟐 = ( 𝒐 − 𝒆)𝟐 onde, o = frequência observada para cada classe; e = frequência esperada para aquela classe ATENÇÃO: O CÁCULO DO VALOR ESPERADO É: 𝒆 = (∑ 𝒍𝒊𝒏𝒉𝒂 𝒙 ∑ 𝒄𝒐𝒍𝒖𝒏𝒂) ∑ 𝒕𝒐𝒕𝒂𝒍 (NÃO ESQUEÇER QUE A TABELA É UMA MATRIZ (aij)). A média dos desvios é nula, porem a elevação ao quadrado transforma todos os desvios em valores positivos, tornando possível a soma dos desvios sem haver cancelamento. O teste x2 é, essencialmente, um mecanismo pelo qual os desvios de uma proporção hipotética são reduzidos a um único valor, que permite determinar uma probabilidade a respeito da casualidade ou não dos desvios entre as proporções observadas e esperadas, assim: 𝒙𝟐 = ∑ 𝒅𝟐 𝒆 Assim, quando as frequências observadas são muito próximas às esperadas, o valor de x2 é pequeno, e quando as divergências são grandes, consequentemente assume valores altos. 2 – DISTRIBUIÇÃO DO QUI-QUADRADO. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 71 Valores de x2 menores que 3,841têm 95% de probabilidade de ocorrência. Valores de x2 menores que 6,635 têm 99% de probabilidade de ocorrência. 3 – TESTE DE HIPÓTESES. •Hipótese nula (H0) – frequências observadas =frequências esperadas. Não há associação entre os grupos (casualidade). •Hipótese alternativa (H1) – as frequências observadas ≠ frequências esperadas. Os grupos estão associados. •Nível de significância (): significa o risco de se rejeitar uma hipótese verdadeira. Deverá ser estabelecido antes da analise de dados e é usualmente fixado em 5% (P=0,05). •O valor de x2 ao nível de significância é denominado qui-quadrado crítico ou tabelado (x2c). •Graus de Liberdade (G.L.) : é a diferença entre o numero de classes de resultados e o número de informações da amostra que são necessários ao cálculo dos valores esperados nessas classes. Regras de Decisão: Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 72 •É necessário obter duas estatísticas : X²calculado: obtido diretamente dos dados das amostras e X² tabelado: depende do número de graus de liberdade e do nível de significância adotado. •SeX² calculado ≥X² tabelado:Rejeita-seHo.SeX² calculado <X² tabelado: Aceita-se Ho. •Quando se consulta a tabela deX² observa-se que é determinada uma probabilidade (P) de ocorrência de um determinado acontecimento. •Rejeita-se uma hipótese quando a máxima probabilidade de erro ao rejeitar aquela hipótese for baixa OU quando a probabilidade dos desvios terem ocorrido pelo simples acaso é baixa. 4 – TESTE DO QUI-QUADRADO PARA INDEPENDÊNCIA (DUAS AMOSTRAS). A utilização do presente teste em pesquisa visa verificar se as distribuições de duas ou mais amostras não relacionadas diferem significativamente em relação à determinada variável. •Ao aplicar o teste do X², supõe-se que o tamanho amostral será relativamente grande; •Quando a amostra é pequena e/ou que a frequência esperada em uma das classes é pequena(tipicamente, quando for menor que 5) a fórmula de obtenção de X² poderá produzir um valor significativo (> do que o X² crítico), e, portanto, maior do que o valor real; 𝒙𝟐 = (𝒐𝟏 − 𝒆𝟏)𝟐 𝒆𝟏 + (𝒐𝟐 − 𝒆𝟐)𝟐 𝒆𝟐 + ⋯ + (𝒐𝒏 − 𝒆𝒏)𝟐 𝒆𝒏 •Nos casos de tabelas 2x2, caso necessário, Fisher recomenda o uso de um fator de correção de continuidade de YATES para cada classe, a fim de evitar eventuais conclusões erradas. 𝒙𝟐 = (|𝒐𝟏 − 𝒆𝟏| − 𝟎, 𝟓)𝟐 𝒆𝟏 + (|𝒐𝟐 − 𝒆𝟐| − 𝟎, 𝟓)𝟐 𝒆𝟐 Estatística | Fabricio Biazotto ESTATÍSTICAwww.focusconcursos.com.br | 73 •De modo geral, usa-se a correção de Yates quando: 1)o valor de Qui-Quadrado obtido é maior que o crítico e o valor de N é menor que 40 ou; 2) o valor de Qui-Quadrado obtido é maior que o crítico e há pelo menos uma classe com frequência esperada menor que 5. 5 – COEFICIENTE DE CONTIGENCIA (CC). O CC é um indicador do grau de associação entre duas variáveis analisadas pelo Qui- quadrado. Quanto mais próximo de 1, melhor o coeficiente de contingência, que varia de 0 a 1, ou seja: ENTRE 0 E 0,5: DE FRACO A MODERADO ENTRE 0,5 E 1: DE MODERADO A FORTE 𝑪𝑪 = √ 𝒙𝟐 𝒙𝟐 + 𝒏 + √ 𝒌 𝒌 − 𝟏 Onde: n = somatório total das linhas e colunas K = o menor número possível de linhas ou colunas da tabela EXEMPLO. Em um certo hospital, foi feita uma pesquisa entre vacinas e resfriados de seus pacientes, gerando a seguinte tabela: VACINAÇÃO FICAR RESFRIADO RESFRIADO NÃO RESFRIADO VACINADO 15 20 NÃO VACINADO 25 40 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 74 Foi feito então um estudo para se saber através destes dados, as relações entre resfriado e vacinação. Após o tratamento estatístico dos dados, através dos qui- quadrados, chegou-se a seguinte conclusão: a) X2 = 0,183 ; CC = 0,6 ; Associação Forte b) X2 = 0,0183 ; CC = 0,06 : Associação Fraca c) X2 = 0,183 ; CC = 0,06: Associação Fraca d) X2 = 0,183 ; CC = 0,6 ; Associação Fraca e) X2 = 0,0183 ; CC = 0,06 : Associação Forte LETRA C CORRELAÇÃO 1. Conceitos iniciais Correlação é um valor que indica o grau de inter-relação de influência – algum tipo de associação – entre duas ou mais variáveis (por exemplo: grau de escolaridade e número de livros que uma pessoa possui). Para se determinar a Correlação são necessárias as seguintes medidas estatísticas: Desvio Padrão (S), Variância (S2) e Covariância (Cov). O Desvio Padrão e a Variância, já estudados anteriormente, são Medidas de Dispersão utilizadas quando desejamos saber o quão próximos ou quão afastados estão os elementos de um conjunto, em relação a um determinado referencial (a média aritmética do conjunto) Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 75 Propriedades da Variância: 1ª) a Variância não é influenciada por operações de soma e subtração: S2X + ou -K = S2X, onde K é uma constante. 2ª) a Variância é influenciada por operações de produto e divisão: S2K+ ou - X = K 2 S2X, onde K é uma constante. 3ª) Propriedade da Variância de Duas Variáveis (Xi e Yi): 1 - S2X+Y = S 2 X + S 2 Y + 2.Cov(X,Y) 2 - S2X-Y = S 2 X + S 2 Y - 2.Cov(X,Y) No entanto, em algumas situações, é necessário o conhecimento de uma informação adicional para uma análise mais apurada (por exemplo: peso e altura para uma análise do aspecto físico de um grupo de pessoas). Para a análise da dispersão conjunta de duas variáveis temos a medida estatística denominada Covariância: 𝑪𝒐𝒗 (𝒙, 𝒚) = 𝒙𝒚 − 𝒙 . 𝒚 Propriedades da Covariância: 1ª) a covariância não é influenciada por operações de soma e subtração: Cov(X A,Y B) = Cov(X,Y), onde A e B são constantes. Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 76 2ª) a covariância é influenciada por operações de produto e divisão: Cov(A X,B Y) = A.B. Cov(X,Y), onde A e B são constantes. 2. Cálculo da Correlação (r) Fator de Correlação Linear de Pearson 𝒓(𝒙, 𝒚) = 𝑪𝒐𝒗(𝒙, 𝒚) 𝑺𝒙 . 𝑺𝒚 O valor da correlação varia de -1 a 1 Se r = - 1, Correlação negativa perfeita (linear decrescente) Se -1 < r < 0, Correlação negativa Se r = 0, Correlação linear inexistente Se 0 < r < 1, Correlação positiva Se r = 1, Correlação positiva perfeita (linear crescente) A correlação é positiva quando aumentando o valor de uma variável aumentará também o da outra, ou quando diminuindo o valor da primeira, a segunda também diminui; ou seja, teremos correlação positiva quando as duas variáveis oscilarem sempre no mesmo sentido. A correlação é negativa quando as duas variáveis oscilarem em sentido inverso; ou seja, aumentando uma, diminuirá a outra, e vice-versa. Propriedade: “A Correlação não é influenciada pelas operações algébricas”. EXEMPLO. Considere a seguinte tabela, que apresenta valores referentes às variáveis x e y, porventura relacionadas: Valores das variáveis x e y relacionadas x y x2 y2 x y Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 77 1 5 1 25 5 2 7 4 49 14 3 12 9 144 36 4 13 16 169 52 5 18 25 324 90 6 20 36 400 120 21 75 91 1.11 1 317 Marque a opção que representa o coeficiente de correlação linear entre as variáveis x e y. a) 0,903 b) 0,926 c) 0,947 d) 0,962 e) 0,989 Letra E Números Índices Simples: Os números índices simples podem ser chamados (como também os compostos) de relativos de base fixa ou relativos de ligação. Números Índices Simples -Relativos de base fixa: Neste caso um período é escolhido como referência, ou base, e todos os índices são computados em relação aos registros deste período específico. Usualmente no período base o índice recebe o valor 100. Os números índices simples podem ser de preço (quando calcula-se a razão entre o preço observado de um artigo em um período qualquer e o preço do mesmo artigo no período base), de quantidade (quando calcula-se a razão entre a quantidade observada de um artigo em um período Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 78 qualquer e a quantidade no período base), e de valor (quando a razão é calculada pelo produto de preço e quantidade do artigo em um período qualquer e o produto de preço e quantidade do mesmo artigo no período base). Vejamos as equações: Onde p0 é o preço do artigo no período base, pt é o preço do artigo em um período qualquer, q0 é quantidade do artigo no período base e qt é a quantidade do artigo em um período qualquer. Números Índices Relativos de Ligação: Provavelmente devido à cultura inflacionária existente no Brasil não costumamos encontrar índices em valores absolutos. É bastante comum nos depararmos com os Números Índices Relativos de Ligação, que sintetizam as variações econômicas entre dois períodos consecutivos. Quando o IBGE divulga o IPC -A de determinado mês é apresentada apenas a variação percentual em relação ao mês imediatamente anterior. Para obter os números índices relativos de ligação de um período basta dividir o índice do período de interesse pelo do período imediatamente anterior. Números Índices Compostos: Os números índices compostos expressam variações no preço, quantidade ou valor de um grupo de itens. São chamados de agregados simples quando atribuem a mesma ponderação para todos os itens, desconsiderando a importância relativa de cada um. Já os índices agregados ponderados atribuem ponderações diferentes para os itens, o que pode permitir dar maior ênfase às variações em determinado item, sendo a forma mais utilizada. Os índices compostos mais utilizados são: Índice de Laspeyres (época básica): ponderação é feita em função dos preços ou quantidades do período base. Podem ser calculados índices de preço e quantidade. Índice de Paasche (época atual): ponderação é feita em função dos preços ou quantidades do período “atual”. Podem ser calculados índices de preço e quantidade. Outros índices: Fischer, Marshall -Edgeworth, Drobish, Divisia, e os índices de preços normalmente utilizados no Brasil(IGP-M, INPC, IPC-A, ICV do DIEESE, IPC da FIPE).5.2.1 Estatística | Fabricio Biazotto ESTATÍSTICA www.focusconcursos.com.br | 79 Índice de Laspeyres. No índice de Laspeyres a ponderação é feita em função dos preços e quantidades do período
Compartilhar