Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE DO VALE DO RIO DOS SINOS Estatística Aplicada Prof. André Luis Korzenowski, Dr. PPGEPS/UNISINOS Apostila direcionada para os Cursos de Administração, Ciências Biológicas, Ciências Contábeis, Ciências Economicas, Ciências Sociais, Engenharias, Psicologia e correlatos. Como esta pretende ser uma apostila genérica, alguns conteúdos podem não ser vistos/necessários em alguns cursos. Do mesmo modo, exemplos nesta apostila podem estar direcionados a alguma área em particular. Os exemplos contextualizados em aula pretendem suprir esta carência. 2014/1 Sumário 1 Introdução 4 1.1 Divisões da Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Classificação de variáveis quanto à natureza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 População, amostra e outras nomenclaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 Estatística Descritiva 9 2.1 Descritiva Univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Dados Qualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Dados Quantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Descritiva Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.1 Qualitativa x Qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.2 Qualitativa x Quantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3 Probabilidade 20 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2 Experimento Aleatório, Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3 Definições de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5 Risco Relativo e Razão de Chances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.6 Variável Aleatória e Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.7 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.8 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.9 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.10 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.10.1 Relação com a distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.11 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.12 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4 Noções de Amostragem 38 4.1 Tipos de amostras probabilísticas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.2 Tipos de amostras não-probabilísticas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 UNISINOS Estatística Aplicada 5 Introdução à Inferência 40 5.1 Distribuição amostral da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6 Testes de Hipóteses 46 6.1 Conceitos e definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.2 Características Gerais de um TH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.3 Tipos de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7 Correlação e Regressão Linear Simples 54 7.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 7.2 Correlação Linear de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 7.3 Análise de Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 7.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Prof. André L. Korzenowski, Dr. 2 UNISINOS Estatística Aplicada 1 Introdução 1.1 Divisões da Estatística A estatística divide-se em três (quatro) grandes áreas de conhecimento: Teoria da Amostragem, Métodos Descritivos e Inferência Estatística – a quarta grande área é a Probabilidade porém, segundo alguns autores, Probabilidade não é parte da Estatística, mas sim um ramo da Matemática. Toda a Estatística é baseada no estudo de amostras de eventos aleatórios observadas e sua ocorrência é baseada em probabilidades. Deste modo é impossível estudar a Estatística sem possuir conhecimentos probabilísticos. A divisão da estatística é apresentada a seguir: • Amostragem: É a parte da estatística que estuda os procedimentos de seleção de amostras a partir de populações objetivo de estudos. • Estatística Descritiva: É a parte da estatística que tem por objetivo organizar e descrever os dados observados. Dados quantitativos descrevem-se através de medidas de tendência central e de variabilidade. Dados qualitativos descrevem-se através de frequências e proporções. • Estatística Indutiva ou Inferência Estatística: É a parte da estatística que se preocupa com a análise e interpretação dos dados observados. Tem por objetivo obter e generalizar conclusões para a população a partir de uma amostra e/ou verificar suposições quanto a probabilidade de ser verossímil. 1.2 Classificação de variáveis quanto à natureza As variáveis podem ser classificadas em dois tipos básicos: Qualitativas e Quantitativas. As variáveis qualitativas, expressam características, qualidades ou atributos e subdividem-se em variáveis no- minais e ordinais. As variáveis qualitativas nominais assumem valores que dividem os sujeitos observados em grupos de acordo com a característica mensurada (Estado Civil, Região). As variáveis qualitativas ordinais também separam os indivíduos em grupos, porém esta pode ser organizada de acordo com algum ordenamento (Educação: Nivel médio apresenta maior nível de instrução do que nível fundamental, por exemplo). As variáveis quantitativas expressam quantidades ou medidas de grandeza e subdividem-se em variáveis discretas e contínuas. Variáveis quantitativas discretas são definidas como aquelas cuja resposta representa um conjunto finito ou infinito enumerável. Variáveis quantitativas contínuas são aquelas cuja resposta pode ser expressa em valores de um conjunto infinito e não-enumerável. Suponha que um pesquisador está interessado em fazer um levantamento sobre alguns aspectos sócio-economicos dos empregados da seção de orçamentos da Cia. Milsa. Usando informações obtidas na seção de pessoal, ele elaborou a tabela a seguir. Em geral, para cada elemento investigado, tem-se associado um resultado (ou mais de um resultado) corres-pondente à observação de uma certa variável (ou variáveis). Observa-se que o pesquisador colheu informações sobre 6 variáveis: estado civil, educação, número de filhos, salário, idade e região de procedência. Prof. André L. Korzenowski, Dr. 4 UNISINOS Estatística Aplicada Tabela 1. Dados de uma amostra de funcionários da Cia. Milsa Suj Estado civil Educação N. filhos Salário Idade Região 1 Solteiro Superior 0 3537,71 28 Interior 2 Viúvo Médio 0 1858,69 39 Capital 3 Casado Médio 4 2331,74 27 Interior 4 Viúvo Fundamental 2 3371,49 35 Capital 5 Solteiro Findamental 1 937,54 31 Capital 6 Solteiro Fundamental 2 1817,09 40 Capital 7 Solteiro Superior 1 752,05 40 Interior 8 Solteiro Fundamental 2 2855,76 23 Interior 9 Viúvo Médio 0 870,56 36 Capital 10 Solteiro Fundamental 0 3394,66 25 Capital 11 Casado Superior 0 4495,46 25 Interior 12 Viúvo Superior 2 2921,25 39 Interior 13 Solteiro Superior 3 844,79 41 Interior 14 Solteiro Médio 0 2332,98 27 Interior 15 Solteiro Médio 1 1071,18 33 Capital 1.3 População, amostra e outras nomenclaturas A Tabela 1 apresentou uma amostra de tamanho n=15 dos empregados da da Cia. Milsa. “Amostra é qualquer subconjunto não vazio de uma população” Em uma amostra pode-se observar várias características dos indivíduos selecionados da população, isto é, várias variáveis podem ser observadas de um mesmo sujeito. Chama-se população (ou Universo) o conjunto U de todas as unidades elementares de interesse, indicado por U={1,2,3,...,N}, onde N é o tamanho fixo e às vezes desconhecido da população. A população pode ser consti- tuída pelos habitantes de um país, pelas árvores de um bosque, os estabelecimentos comerciais de uma cidade, as letras de um livro, etc. Chama-se população objetivo a totalidade de elementos em estudo a respeito dos quais deseja-se obter informação. Às vezes não e possível extrair uma amostra da população objetivo e sim de uma amostra relacionada. População Amostrada é a população do qual a amostra é extraída. Pode-se então fazer afirmações probabilísticas a respeito da população amostrada, mas não sobre a população objetivo, salvo se as duas forem a mesma. Exemplo: Um sociólogo deseja fazer uma pesquisa sobre os hábitos religiosos dos homens de 20 anos de idade no país. Ele seleciona uma amostra aleatória (através de sorteio) dos homens de 20 anos de idade na cidade de São Paulo. • Qual a população objetivo? • Qual a população amostrada? Prof. André L. Korzenowski, Dr. 5 UNISINOS Estatística Aplicada O pesquisador pode fazer afirmações probabilísticas relacionadas à população amostrada, mas precisa do seu julgamento pessoal para extrapolar também ao país e a confiabilidade dessa extrapolação não pode ser medida em termos probabilísticos. Chama-se censo a enumeração e anotação de certas características de todos os elementos de uma população. Exemplo: Censo populacional do IBGE, Inspeção de qualidade nos automóveis (todos possuem o selo OK no pára-brisa pois foi feita inspeção em 100% dos veículos). Uma sequência qualquer de n unidades do conjunto U (população) é denominado amostra. “n” é o tamanho da amostra. Chama-se amostragem o procedimento pelo qual obtém-se uma ou mais amostras. Os dados, independentemente do tipo de variável, podem ser organizados ou ordenados para uma melhor análise. (isto será fundamental em uma medida descritiva que será vista mais tarde...). Assim pode-se definir os dados em brutos ou então em rol de dados. Dados Brutos, ou tabela primitiva é uma tabela ou relação de elementos (um vetor, por exemplo) que não foram numericamente organizados. É difícil formar uma idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados. Por exemplo: variável idade da tabela de dados da Cia. Milsa. ROL é a tabela obtida após a ordenação dos dados (de forma crescente ou decrescente). Na Tabela 1, nenhuma das variáveis encontra-se ordenada. Prof. André L. Korzenowski, Dr. 6 UNISINOS Estatística Aplicada 1.4 Exercícios 1. Classifique as variáveis da tabela quanto a sua natureza: (a) Estado civil: (b) Nível de instrução: (c) Número de filhos: (d) Salário: (e) Idade: (f) Região: 2. A estatística divide-se em três partes. Cite-as e apresente uma breve explanação sobre cada uma delas. 3. Apresente a sequência dos sujeitos da tabela dos funcionários da Cia. Milsa obtida através do ordenamento em um rol de dados pela variável Salário. 4. Destaque no texto as definições de população e amostra. 5. A que se referem as expressões estimativa, parâmetro e estimador. 6. Qual a diferença entre censo, amostra e população? 7. Verifique seus conhecimentos resolvendo estas palavras cruzadas sobre conceitos básicos de estatística. Horizontal : 1. Variáveis ... podem ser nominais ou ordinais. 5. É uma amostra do tamanho da população. 6. Variáveis Qualitativas podem ser descritas através de freqüências ou... 8. A parte da estatística responsável pela caracterização das variáveis. 9. A característica numérica da população. 11. É o estudo da incerteza. 12. A característica numérica da amostra. 13. Variáveis ... podem ser contínuas ou discretas. Vertical : 2. A parte da Estatística responsável pela extrapolação das informações de uma amostra para toda a população. 3. O conjunto de procedimentos e técnicas para a selelção de uma amostra. 4. O conjunto universo (de todos os elementos) que apresenta uma característica comum de interesse de uma pesquisa. 5. Prof. André L. Korzenowski, Dr. 7 UNISINOS Estatística Aplicada Variáveis quantitativas podem ser descritas através de medidas de tendência ... e de variabilidade. 7. As ... podem ser qualitativas ou quantitativas. 10. Um subconjunto não vazio qualquer de uma população. Prof. André L. Korzenowski, Dr. 8 UNISINOS Estatística Aplicada 2 Estatística Descritiva Como vimos, variáveis observadas podem ser caracterizadas como quantitativas ou qualitativas. Nesta seção serão abordadas a descrição de variáveis qualitativas e quantitativas, tanto através de medidas quanto através de suas principais representações gráficas. Além disso, será abordada a estatística descritiva tanto sob o ponto de vista univariado quanto sob o ponto de vista bivariado. 2.1 Descritiva Univariada 2.1.1 Dados Qualitativos Como foi visto, uma variável é qualitativa quando seus valores são atributos ou qualidades (por ex: sexo, raça, classe social). Neste caso, descrevem-se estas variáveis através de frequências e proporções. Tabela de Distribuição de Frequências A tabela de freqüência consiste em listar os valores possíveis da variável e, como o nome indica, suas respectivas contagens, as quais são denominadas freqüências absolutas ou simplesmente, freqüências. A freqüência do valor i será representada por ni (ou fi), a freqüência total por n e a freqüência relativa por fri = ni/n = fi/n. Quando trata-se de uma variável qualitativa ordinal, faz sentido incluir colunas contendo as freqüências acumuladas Fi e Fri, obtidas pela soma das freqüências de todos os valores da variável, menores ou iguais ao valor considerado. Considere a Tabela 1, que apresenta os dados dos empregados da Cia. Milsa. A tabela de distribuição de frequências para as variáveis Estado Civil e Educação são apresentadas a seguir. Estado Civil f fr Solteiro 8 53,33% Casado 2 13,33% Viúvo 5 33,33% Total 15 100,00% Educação f fr F Fr Fundamental 5 33,33% 5 33,33% Médio 5 33,33% 10 66,67% Superior 5 33,33% 15 100,00% Total 15 100,00% - - Representações gráficas Gráficos são formas visuais de apresentar as informações existentes em uma tabela de distribuição de frequências. Tratando-se de variáveis qualitativas, as formas mais comumente utilizadas são os gráficos de colunas ou de pizza. Gráfico de colunas Para construir um gráfico de colunas, representamos os valores da variável no eixo das abscissas e suas as frequências ouporcentagens no eixo das ordenadas. Para cada valor da variável desenhamos uma barra com altura correspondendo à sua frequência ou porcentagem. Prof. André L. Korzenowski, Dr. 9 UNISINOS Estatística Aplicada Diagrama Circular ou Gráfico de Pizza Para construir um diagrama circular ou gráfico de pizza, repartimos um disco em setores circulares correspon- dentes às porcentagens de cada valor (calculadas multiplicando-se a frequência relativa por 100). Note que o gráfico de pizza deve apresentar poucas fatias para não ficar parecido com uma roda de bicicleta. Assim, uma boa sugestão é utilizar o mesmo número de fatias permitido em uma tele-entrega (4 a 5 sabores por pizza). Com esta regra, não há como fazer a informação tornar-se confusa ao ser apresentada neste tipo de gráfico. Veja exemplos de gráficos construídos a partir das tabelas de distribuição de frequências apresentadas anterior- mente. 2.1.2 Dados Quantitativos Após a coleta e a digitação de dados em um banco de dados apropriado, o próximo passo é a análise descritiva. Esta etapa é fundamental, pois uma análise descritiva detalhada permite ao pesquisador familiarizar-se com os dados, organizá-los e sintetizá-los de forma a obter as informações necessárias do conjunto de dados para responder as questões que estão sendo investigadas. Em pequenos conjuntos de dados, as principais medidas sempre puderam ser obtidas diretamente. Já tratando-se de grandes volumes de dados, meios de resumo foram desenvolvidos para que se pudesse efetuar os cálculos mais facilmente. Atualmente, com a evolução dos computadores, muitos destes procedimentos de resumo perderam sua finalidade de facilitadores de cálculos. Medidas de Tendência Central São medidas que visam localizar o centro de um conjunto de dados, isto é, identificar um valor em torno do qual os dados tendem a se agrupar. As medidas de posição ou de tendência central mais utilizadas são: média aritmética, mediana e moda. Média é a soma de todas as observações dividida pelo número de observações. Por exemplo, a média aritmética de 3, 4, 7, 8 e 8 é µ = Pn i=1 xi n = 3 + 4 + 7 + 8 + 8 5 = 30 5 = 6 u.m. Note que para dados amostrais, a média amostral é denotada por X¯ e a fórmula da média amostral é X¯ = Pn i=1 xi n , ou seja, a mesma utilizada para o cálculo da média µ. Prof. André L. Korzenowski, Dr. 10 UNISINOS Estatística Aplicada Mediana é o valor que ocupa a posição central dos dados ordenados; isto é, o valor que deixa metade dos dados abaixo e metade acima dele. Note que, se o número de observações for par, a mediana será a média aritmética dos dois valores centrais. Por exemplo, a mediana de 3, 4, 7, 8 e 8 é Md = 7. Já a mediana de 3, 4, 7, 8, 8 e 9 é Md = 7 + 8 2 = 15 2 = 7, 5 u.m. Moda é o valor mais frequênte no conjunto de dados. Assim, a moda do conjunto 3, 4, 7, 8 e 8 é Mo = 8. Um conjunto de dados pode ser Amodal (quando não tem moda), modal, Bimodal (duas modas), Trimodal (3 modas) ou multimodal (mais de 3 modas). Medidas de variabilidade As medidas de tendência central fornecem informações valiosas mas, em geral, não são suficientes para descrever e discriminar diferentes conjuntos de dados. As medidas de dispersão ou variabilidade permitem visualizar a maneira como os dados espalham-se (ou concentram-se) em torno do valor central. Para mensurar a variabili- dade, pode-se utilizar as seguintes e principais estatísticas: amplitude; variância; desvio padrão e coeficiente de variação. Variância é uma medida que expressa um desvio quadrático médio do conjunto de dados, sua unidade é o quadrado da unidade dos dados e é obtida através da seguinte fórmula �2 = 1 n nX i=1 (xi � µ)2 Assim, a variância do conjunto de dados 3, 4, 7, 8 e 8 é �2 = (3� 6)2 + (4� 6)2 + (7� 6)2 + (8� 6)2 + (8� 6)2 5 = 9 + 4 + 1 + 4 + 4 5 = 22 5 = 4, 4 u.m.2 Desvio-Padrão é raiz quadrada da variância e sua unidade de medida é a mesma que a do conjunto de dados original. � = p �2 No exemplo do conjunto de dados 3, 4, 7, 8 e 8, o desvio-padrão é � = p 4, 4 = 2, 10 u.m. No caso do cálculo de estimativas amostrais para a variância populacional, a fórmula apresentada acima subes- tima a variância populacional. Para corrigir este viés, uma pequena correção se faz necessária. Deste modo, para o cálculo da variância e do desvio-padrão amostral devem ser utilizadas as expressões a seguir: s2 = 1 n� 1 nX i=1 (xi � X¯)2 s = p s2 Prof. André L. Korzenowski, Dr. 11 UNISINOS Estatística Aplicada onde s2 e s são respectivamente a variância e o desvio-padrão amostral. Note que a única diferença encontra-se no denominador da equação da variância. Coeficiente de Variação é uma medida de variabilidade relativa, definida como a razão percentual entre o desvio padrão e a média, e assim sendo uma medida adimensional. Com isso, é possível utilizá-la para efetuar a comparação de variabilidades de variáveis de grandezas distintas. Por tratar-se de uma taxa, é comum visualizar esta medida em termos percentuais. Para tanto multiplica-se a razão por cem por cento: CV = � X¯ ⇥ 100% O coeficiente de variação do conjunto de dados 3, 4, 7, 8 e 8 é CV = 2, 10 6 ⇥ 100% = 35%. A amplitude de um conjunto de dados é determinada pela diferença entre os valores máximo e o mínimo observados e representa um intervalo dentro do qual todas as observações estão variando. É determinado pela seguinte expressão h = Xmax �Xmin. Em nosso exemplo, a amplitude é h = 8� 3 = 5 u.m. Representações gráficas Quando descrevemos uma variável quantitativa através de um histograma, deve-se, primeiramente, categorizar a variável quantitativa, construíndo intervalos de classe. A construção da tabela de distribuição de frequências será efetuada contando quantas observações forão realizadas em cada classe. O histograma consiste em retângulos contíguos com base nas faixas de valores da variável e altura igual à freqüência da respectiva faixa. É preciso cuidar para não gerar distorções durante a construção do histograma. Alguns autores sugerem que ao invés de representar a frequência como altura de cada retângulo, seja utilizada a frequência relativa como área de cada retângulo. Deste modo, a altura é denominada densidade de freqüência ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa. O histograma a seguir foi contruído a partir da variável Salário dos funcionários da Cia. Milsa. Prof. André L. Korzenowski, Dr. 12 UNISINOS Estatística Aplicada 2.2 Exercícios 1. Considere o conjunto de dados a seguir observado. Linha Variável 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 Sexo M M M F M F F F F M M M M M F F F F M F 2 Cor dos olhos A A V V V C V C P A V P C P P C V C C A (a) Classifique a variável Sexo quanto a sua natureza. (b) Quais tipos de medidas são utilizados em variáveis deste tipo? (c) Apresente os resultados da variável Sexo em uma tabela de distribuição de frequências e depois em um gráfico adequado utilizando a frequência relativa. Prof. André L. Korzenowski, Dr. 13 UNISINOS Estatística Aplicada 2. Considere a seguinte amostra de tamanho n=6 observada de uma população: 4, 5, 2, 7, 9 e 14. (a) Determine a média da amostra. (b) Qual a mediana da amostra? (c) Determine o desvio-padrão (s) da amostra. 3. Calcule a média, mediana, moda, variância e desvio-padrão dos seguintes conjuntos de dados: (a) 3,2; 2,5; 2,1; 3,7; 2,8 e 2,0. (b) 7; -2; 3; 3; 0; 4 (c) 2; 3; 5; 3; 2; 3; 4; 3; 5; 1; 2; 3; 4 (d) 51; 50; 47; 50; 48; 41; 59; 68; 45; 37 Prof. André L. Korzenowski, Dr. 14 UNISINOS Estatística Aplicada 4. Explique a diferença entre o cálculo da mediana para um número de medições ímpar e para outro par. Construa um conjunto de dados consistindo de 5 medições e outro consistindo de 6, paraos quais a mediana seja igual. 5. Descreva a variância com suas próprias palavras, em vez de usar uma fórmula. 6. A variância de um conjunto de dados pode ser negativa alguma vez? E pode ser nula? Explique. 7. É possível encontrar a seguinte série de desvios tomados em relação a média aritmética: 4, -3, 2, -7 e 5? Justifique. 8. Dados dois grupos de pessoas, o grupo A com 10 elementos e o grupo B com 40 elementos. Se o peso médio do grupo A for de 80 kg e o do grupo B for de 70 kg então é verdade que o peso médio dos dois grupos considerados em conjunto é de 75 kg? Justifique. 9. Para um dado concurso, 60% dos candidatos eram do sexo masculino e obtiveram uma média de 70 pontos em determinada prova. Sabendo-se que a média geral dos candidatos (independente de sexo) foi de 64 pontos, qual foi a média dos candidatos do sexo feminino? Prof. André L. Korzenowski, Dr. 15 UNISINOS Estatística Aplicada 10. Quarenta estudantes universitários foram questionados quanto ao número de livros lidos no ano anterior. Foram registrados os seguintes valores: 4 2 1 0 3 1 2 0 2 1 0 2 1 1 0 4 3 2 3 5 8 0 1 6 5 3 2 1 6 4 3 4 3 2 1 0 2 1 0 3 (a) Organize os dados em uma tabela adequada. (b) Qual o percentual de alunos que leram menos do que 3 livros. (c) Qual o percentual de alunos que leram 4 ou mais livros. 11. O conjunto de dados a seguir representa uma amostra de 40 elementos. 3,67 1,82 3,73 4,10 4,30 1,28 8,14 2,43 4,17 2,88 5,36 3,96 6,54 5,84 7,35 3,63 2,93 2,82 8,45 4,15 5,28 5,41 7,77 4,65 1,88 2,12 4,26 2,78 5,54 6,00 0,90 5,09 4,07 8,67 0,90 6,67 8,96 4,00 2,00 2,01 (a) Agrupe os dados em uma distribuição de frequências, considerando o limite inferior igual a zero, o superior igual a 10 e utilizando cinco classes de mesma amplitude. (b) Represente a tabela construída em uma gráfico adequado. Prof. André L. Korzenowski, Dr. 16 UNISINOS Estatística Aplicada 12. De um levantamento feito entre 100 famílias resultou a tabela a seguir. Número de filhos Número de famílias Freq. rel. (fr) Freq. Acum. (F) Freq. rel. Acum. (Fr) 0 18 1 23 2 28 3 21 4 7 5 3 Total 100 (a) Complete a tabela acima determinando as frequências relativas. (b) Determine o número médio de filhos. 2.3 Descritiva Bivariada Vimos como descrever variáveis quantitativas e qualitativas sob o ponto de vista univariado. Mas como devemos proceder em caso de análise de variáveis no contexto bivariado. Perceba que há 3 combinações possíveis de variáveis para se efetuar as análises: Qualitativa x Qualitativa, Qualitativa x Quantitativa e Quantitativa X Quantitativa. O caso da análise conjunta de duas variáveis Quantitativas será visto mais adiante. 2.3.1 Qualitativa x Qualitativa No caso de duas variáveis qualitativas será efetuada a construção de uma tabela de contingência. Tabela de Contingência nada mais é do que uma tabela de distribuição de frequências de dupla entrada. Neste caso alguns elementos diversos surgem e são denominados de distribuições conjuntas e marginais. A seguir um exemplo de uma tabela de dupla entrada. Exemplo: Considere a análise bivariada das variáveis Região e Educação da amostra de funcionários da Cia. Milsa. A tabela de contingência para essas duas variáveis é apresentada a seguir: Educação Região Total Capital Interior Fundamental 4 1 5 Médio 3 2 5 Superior 0 5 5 Total 7 8 15 Prof. André L. Korzenowski, Dr. 17 UNISINOS Estatística Aplicada A linha e coluna com a indicação dos valores totais representam as distribuições marginais das variáveis Região e Educação e são equivalentes a distribuição de frequências simples univariada. As células numéricas do interior da tabela representam a distribuição conjunta. Deste modo, dentre todos os sujeitos observados (15), 4 são oriundos da capital e estudaram até o ensino fundamental. Uma tabela de contingência também pode ser construída considerando frequências relativas, porém neste caso deve-se especificar a qual total as frequências são relativas – total geral ou totais marginais. Em geral, como a interpretação de distribuições de frequências é efetuada através da frequência relativa é preciso estar atento ao que deseja-se relatar. No caso de destacar entre os funcionários oriundos de cidades do interior quantos possuem nível médio, a informação correta é 25% (2 em 8) e não 40% (2 em 5) ou 13,33% (2 em 15). 2.3.2 Qualitativa x Quantitativa Quando possuímos mais de uma variável observada, sendo uma qualitativa e outra quantitativa, o processo de analise é muito similar ao verificado anteriormente para o caso de variáveis quantitativas no contexto univariado. As medidas utilizadas serão rigorosamente as mesmas para a variável quantitativa, entretanto serão obtidas para cada nível ou valor da variável qualitativa. Por exemplo, se considerarmos a tabela de funcionários da Cia Milsa, poderíamos descrever conjuntamente a renda e a região dos sujeitos. Assim teríamos a frequência de cada região na amostra e efetuaríamos o cálculo da média, desvio-padrão e coeficiente de variação das rendas para cada região observada. Neste caso teríamos uma tabela de resumo estatístico como apresentada a seguir: Região Renda n X¯ � CV Capital 7 1903,03 1005,76 52,85% Interior 8 2508,97 1183,92 47,19% Total 15 2226,20 1144,99 51,43% Prof. André L. Korzenowski, Dr. 18 UNISINOS Estatística Aplicada 2.4 Exercícios 1. Considere a tabela a seguir que representa o levantamento de dados de uma pesquisa com alunos de gradu- ação. A descrição das variáveis é apresentada após a tabela. Id Sexo Idade Fuma Estudo TV 1 M 17 N 1,5 3,0 2 M 20 N 2,0 4,5 3 F 22 S 1,0 2,5 4 M 23 S 0,5 2,0 5 F 19 N 1,0 3,5 6 F 18 N 2,5 4,0 7 F 19 S 1,5 3,5 8 M 20 N 0,5 2,0 9 M 18 N 2,5 2,5 10 M 17 N 3,0 1,5 Id : identificação do aluno. Sexo: F se feminino, M se masculino. Idade: idade, em anos. Fuma: hábito de fumar, sim ou não. Estudo: horas de estudo, por semana. TV : horas gastas assistindo TV, por semana. (a) Construa a tabela de distribuição de frequências para a variável Sexo e esboce-a em um gráfico ade- quado. Após, determine a média de idade para cada sexo. Acrescente os resultados quantitativos na tabela de distribuição de frequências. (b) Apresente uma tabela de contingência, relacionando o sexo dos estudantes e o seu hábito de fumar. (c) O que você pode afirmar sobre a proporção de sujeitos que fumam em relação ao sexo? Construa a tabela de contingência com as frequências relativas adequadas. Prof. André L. Korzenowski, Dr. 19 UNISINOS Estatística Aplicada 3 Probabilidade 3.1 Introdução Se observar atentamente determinados fenômenos (como o número de filhos dos funcionários), você poderá verificar que alguns resultados repetem-se. Baseado nisso, pode-se construir uma distribuição de frequências e isto é um recurso poderoso para que se entenda a variabilidade destes fenômenos. Entretanto, com suposições adequadas e sem observar diretamente os fenômenos aleatórios, pode-se criar um modelo teórico que reproduza muito bem a distribuição de frequências obtida quando o fenômeno é observado diretamente. Estes modelos teóricos são chamados modelos de probabilidade e possuem grande aplicação na estatística. 3.2 Experimento Aleatório, Espaço Amostral e Eventos Não existe uma definição satisfatória de Experimento Aleatório. Por isto é necessário ilustrar o conceito um grande número de vezes para que a idéia fique bem clara. Convém lembrar que os exemplos dados são de fenômenos para os quais modelos probabilísticos são adequados e que por simplicidade, são denominados de experimentos aleatórios, quando, de fato, o que deveria ser dito é “modelo não-determinístico aplicado a um experimento”. Ao descrever um experimento aleatório deve-se especificar não somente que operação ou pro- cedimento deva ser realizado, mas também o que é que deverá ser observado. Note-se a diferença entre E2 e E3.E1: Joga-se um dado e observa-se o número obtido na face superior. E2: Joga-se uma moeda 4 vezes e o observa-se o número de caras obtido. E3: Joga-se uma moeda 4 vezes e observa-se a seqüência de caras e coroas. Características dos Experimentos Aleatórios Observando-se os exemplos acima pode-se destacar algumas características comuns: 1. Podem ser repetidos indefinidamente sob as mesmas condições. 2. Não se pode adiantar um resultado particular, mas pode-se descrever todos os resultados possíveis 3. Se repetidos muitas vezes apresentarão uma regularidade em termos de freqüência de resultados. Espaço Amostral O espaço amostral é o conjunto de todos os resultados possíveis de um experimento aleatório. Anota-se por S, E ou W. Considerando os experimentos listados anteriormente, os espaços amostrais são: S1 ={1,2,3,4,5,6} S2 ={0,1,2,3,4} S3 = { cccc, ccck, cckc, ckcc, kccc, cckk, kkcc, ckck, kckc, kcck, ckkc, ckkk, kckk, kkck, kkkc, kkkk } Ao descrever um espaço amostral de um experimento, deve-se ficar atento para o que se está observando ou mensurando. Deve-se falar em “um” espaço amostral associado a um experimento e não de “o” espaço amostral. Deve-se observar ainda que nem sempre os elementos de um espaço amostral são números. Prof. André L. Korzenowski, Dr. 20 UNISINOS Estatística Aplicada Evento Qualquer subconjunto de um espaço amostra S é denominado evento. Assim tem-se que: S é o evento certo; { a } é o evento elementar e Ø é o evento impossível. Convém observar que tecnicamente todo subconjunto de um espaço amostra é um evento apenas quando ele for finito ou, então, infinito enumerável. Se o espaço amostra é infinito não-enumerável é possível construir subconjuntos que não são eventos. 3.3 Definições de Probabilidade Existem 3 formas de se definir probabilidade. A definição Clássica, a definição Frequencial e a definição Axio- mática. Na definição Clássica, seja E um experimentos aleatório, S um espaço amostral associado formado por “n” resultados igualmente prováveis. Definição 1. Seja A um evento (subconjunto de S) com “m” elementos. A Probabilidade de A, denotada por P (A), é definida como sendo: P (A) = m/n. Isto significa que a probabilidade de A ocorrer é o quociente entre o número “m” de casos favoráveis e o número “n” de casos possíveis. Na prática acontece que nem sempre é possível determinar a probabilidade de um evento. Neste caso é necessário ter um método de aproximação desta probabilidade. Um dos métodos utilizados é a experimentação, que objetiva estimar o valor da probabilidade de um evento A com base em valores reais. A probabilidade avaliada através deste processo é denominada de probabilidade empírica e esta é a definição de probabilidade frequentista. Definição 2. Seja E um experimento e A um evento de um espaço amostral associado ao experimentos E. Suponha que “E” seja repetido “n” vezes e seja “m” o número de vezes que A ocorre nas “n” repetições de E. Então, a frequência relativa do evento A é o quociente entre o número “m” de ocorrências de A nas “n” repetições de E e o número “n” de vezes em que E é repetido. Considere como exemplo o lançamento de uma moeda 20 vezes. Qual a probabilidade de ocorrência do evento cara de acordo com os dois critérios? Critério Clássico: P (cara) = 1/2 Critério Frequentista: Cara = K; Coroa = C. Lançamentos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Resultados P (cara) ⇡ Pode ser necessário muitas repetições de um experimento para que a frequência relativa seja convergente a verdadeira probabilidade de ocorrência de um evento. Deste modo, a definição completa envolverá a situação onde o número “n” de repetições do experimento E seja suficientemente grande. Seja E um experimento e A um evento de um espaço amostral associado. Suponha que E é repetido “n” vezes e seja frA a frequência relativa do evento, então a probabilidade de A é definida como sendo o limite de frA quando “n” tende ao infinito, ou seja, P (A) = limn!1 frA. Por fim, a definição Axiomática determina que: Prof. André L. Korzenowski, Dr. 21 UNISINOS Estatística Aplicada a. 0 P (A) 1 b. P (S) = 1, o que significa que a Soma das probabilidades dos eventos que compõe um espaço amostral é 1 se esses eventos se excluírem mutuamente. A partir de (b) temos, c. P (A [B) = P (A) + P (B) se A e B forem eventos mutuamente excludentes (Regra da SOMA). d. P (A) + P (A¯) = 1! P (A¯) = 1–P (A) Além disso, e. P (A [B) = P (A) + P (B)� P (A \B) se A e B não forem eventos mutuamente excludentes. f. P (A \B) = P (A)⇥ P (B) se A e B forem eventos independentes (Regra da MULTIPLICAÇÃO). 3.4 Probabilidade Condicional Quando duas variáveis são independentes, o fato de se ter conhecimento sobre uma delas não altera a expectativa sobre a probabilidade da outra. Saber de antemão se a pessoa é do sexo Masculino ou Feminino não altera a probabilidadde de que ela tenha um determinano tipo sanguíneo, pois a frequência destes independe do sexo do sujeito. Nas variáveis não-independentes (dependentes, associadas ou correlacionadas), o conhecimento sobre uma delas altera as probabilidades atribuídas às categorias (eventos) da outra. A probabilidade é dita condicional quando a probabilidade de um evento depende da condição em que ele está sendo considerado. A probabilidade condicional é usada para testar a associação entre as variáveis, por exemplo a pressão sanguínea e os fatores que podem determiná-la. Pessoas que ingerem grandes quantidades de sódios em sua alimentação costumam ter elevados níveis de pressão arterial sistólica, razão pela qual estudos são feitos para tentar identificar fatores de risco que contribuam para a "pressão alta". Considere outro exemplo, onde é mostrado o resultado de um levantamento feito sobre a relação entre o hábito de fumar da mãe durante a gestação e o peso do recém nascido. Classificação da mãe quanto Baixo Peso Probabilidade ao hábito de fumar Sim Não Total de Baixo Peso Fumante 275 2144 2419 0,114 Não-fumante 311 4496 4807 0,065 3.5 Risco Relativo e Razão de Chances Na área da Saúde, costuma-se representar o aumento do risco de certo resultado devido à presença de um fator por intermédio do risco relativo (RR). O risco relativo é a razão entre duas probabilidades condicionais: aquela obtida entre as pessoas que apresentam o fator de risco e a probabilidade para as pessoas que não o apresentam. Com as informações da tabela das gestantes fumantes, pode-se calcular o risco relativo de uma mulher fumante ter um filho com Baixo Peso, comparado com uma mulher não fumante. RR = Probabilidade (Baixo Peso|Fumante)Probabilidade (Baixo Peso|Não-fumante) = 275/2419 311/4807 = 0,114 0,065 = 1, 75 O valor do RR indica que o risco de ter um filho com baixo peso para uma mulher fumante é 1,75 vezes o risco para uma mulher não-fumante. Prof. André L. Korzenowski, Dr. 22 UNISINOS Estatística Aplicada Quando o estudo é do tipo retrospectivo ou caso-controle, isto é, inicialmente avalia-se a presença ou não de um resultado ou desfecho (por exemplo, a criança ter baixo-peso) e se verifica depois, a existência prévia ou não do fator (mãe fumante ou não), então o risco relativo deve ser estimado usando-se a fórmula do odds ratio (OR) ou razão de chances (RC) OD = ADBC onde A, B, C, D correspondem ao número de indivíduos observados em uma tabela na qual fator e resultado estão dispostos da seguinte forma: Fator de Risco Desfecho Sim Não Sim A B Não C D O uso da fórmula do OR para estimar o risco em estudos retrospectivos somente é lícito se a doença ou problema for raro na população. Em estudos onde pode-se calcular o risco relativo pela razão entre duas probabilidades (RR), esta exigência não precisa ser satifeita. Pode-se também calcular um intervalo de confiança para o OR1. O procedimento proposto por B. Woolf fornece uma aproximação satisfatóriade as frequências A, B, C e D não forem pequenas. O método usa a distribuição Normal como aproximação para o logarítmo natural do OR, sendo o erro padrão dado por EP (lnOR) = q 1 A + 1 B + 1 C + 1 D . O intervalo de 95% de confiança para o logaritmo natural do OR é lnOR± 1, 96⇥ [EP (lnOR)]. A exponencial dos valores obtidos serão os extremos do intervalo desejado. 3.6 Variável Aleatória e Esperança Matemática Ao se descrever o espaço amostral de um experimento nota-se que os elementos não são necessariamente números. Assim, por exemplo, no lançamento de duas moedas pode-se ter o seguinte espaço amostral: S = { cc, ck, kc, kk } Contudo, na maior parte das vezes, se está interessado num resultado numérico, isto é, deseja- se associar aos elementos do espaço amostral S um número real x = X(s). Desta forma formula-se a definição: Definição 3. Seja E um experimento com um espaço amostral associado S. Uma função X que associe a cada elemento de S (s 2 S) um número real x = X(s) é denominada variável aleatória. O conjunto formado por todos os valores “x”, isto é, a imagem da variável aleatória X, é denominado de conjunto de valores de X e anotado por X(S). Desta forma: X(S) = x 2 R/X(s) = x Observação 4. Uma variável aleatória X é o resultado de um experimento aleatório. Note que letras maísculas denotam variáveis aleatórias. Por outro lado, x (em letra mínúscula) significa um resultado observado no experimento aleatório. Exemplo: Seja S o espaço amostra formado pelas seqüências obtidas no lançamento de 3 moedas equilibradas. Seja X a variável aleatória definida como sendo o número de caras da seqüência, isto é, X(s) = x = números de caras. O conjunto de valores da variável X é X(S) = { 0, 1, 2, 3 }, pois, neste caso, tem-se: X(ccc) = 0 X(ckk) = 1, etc. Ou então: 1Intervalos de Confiança são abordados mais detalhadamente na Parte V deste texto. Prof. André L. Korzenowski, Dr. 23 UNISINOS Estatística Aplicada s kkk ckk, kck, kkc cck, ckc, kcc ccc X(s) 0 1 2 3 Conforme o conjunto de valores uma variável aleatória poderá ser discreta ou contínua. Se o conjunto de valores for finito ou então infinito enumerável a variável é dita discreta. Se o conjunto de valores for infinito não enumerável então a variável é dita contínua. Definição 5. Seja X uma variável aleatória discreta (VAD), isto é, com X(S) finito ou infinito enumerável, definida num espaço amostral S. A cada resultado xi de X(S) associa-se um número f(xi) = P (X = xi) denominado probabilidade de xi e tal que satisfaz as seguintes propriedades: f(xi) � 0, para todo “i”. P f(xi) = 1. No exemplo, a função de Probabilidade poderia ser representada através de uma tabela como segue: xi 0 1 2 3 P (X = xi) 1/8 3/8 3/8 1/8 Esperança Matemática Definição 6. Seja X uma variável aleatória discreta assumindo os valores: x1, x2, ..., xi, ..., com probabilidades f(x1), f(x2), .... , f(xi), .... A média, expectância, valor esperado ou esperança matemática da variável aleatória X é representada por µ ou E(X) e calculada por: µ = E(X) = x1f(x1) + x2f(x2) + ...+ xnf(xn) = P xi.f(xi), onde f(xi) = P (X = xi). Para variáveis aleatórias contínuas recursos matemáticos mais avançados (cálculo de integrais) são necessários. Entretanto, as idéias são similares, isto é, a esperança também será a média da variável, porém de um conjunto infinito de valores. Definição 7. Seja X uma variável aleatória contínua assumindo os valores: xi 2 R, com função densidade de probabilidade f(x). A média, expectância, valor esperado ou esperança matemática da variável aleatória X é representada por µ ou E(X) e calculada por: µ = E(X) = ´ +1 �1 x.f(x)dx. 3.7 Distribuição Binomial Seja E um experimento aleatório e S um espaço amostra associado. Seja A ✓ S um evento de S. Seja “n” o número de vezes que o experimento E é repetido e seja “p” a probabilidade de A ocorrer em cada uma das “n” repetições de E, de modo que, “p“ permaneça constante durante as “n” repetições de E. Definição 8. Seja X uma VAD definida por X = número de vezes que A ocorreu nas “n” repetições de E. A variável aleatória X é denominada de variável aleatória Binomial. O conjunto de valores de X, isto é, X(S) é X(S) = {0, 1, 2, 3, ..., n} Teorema 9. Se X é uma variável aleatória com um comportamento Binomial, então a probabilidade de X assumir um dos valores do conjunto X(S) é calculada por: f(x) = Pr(X = x) = n x ! px(1� p)n�x, para x=0,1,2,...,n. Prof. André L. Korzenowski, Dr. 24 UNISINOS Estatística Aplicada Uma variável com distribuição Binomial de parâmetros "n" e "p" representa-se por X ⇠ B(n, p). As características numéricas de uma distribuição Binomial são determiandas a partir dos seus parâmetros. Assim, E(X) = n⇥ p V ar(X) = n⇥ p⇥ (1� p) Exemplo 10. Num determinado processo de fabricação 10% das peças são consideradas defeituosas. As peças são acondicionadas em caixas com 5 unidades cada uma. • Qual a probabilidade de haver exatam,ente 3 peças defeituosas numa caixa? • Qual a probabilidade de haver duas ou mais peças defeituosas numa caixa? • Se a empresa paga uma multa de R$ 10,00 por caixa em que houver alguma peça defeituosa, qual o valor esperado da multa num total de 1000 caixas? 3.8 Distribuição Hipergeométrica Considere-se um conjunto de N elementos, r dos quais tem uma determinada característica (r N) e N -r não tenham esta característica. Extraí-se n elementos (n N) sem reposição. Definição 11. Seja X a variável aleatória igual ao número de elementos que possuem a característica entre os n retirados. X é denominada de variável aleatória hipergeométrica. Teorema 12. Se X é uma variável aleatória com um comportamento Hipergeométrico, então a probabilidade de X assumir um dos valores do conjunto X(S) é calculada por: f(x) = Pr(X = x) = r x ! N � r n� x ! N n ! , para x=max{0,N-r-n},...,min{r,n}. Uma variável com distribuição Hipergeométrica de parâmetros "N", "n" e "r" representa-se porX ⇠ Hiper(n, r,N). As características numéricas de uma distribuição Hipergeométrica são determiandas a partir dos seus parâme- tros. Assim, E(X) = n⇥ r N V ar(X) = n⇥ r N ⇥ (1� r N )⇥ N � n N � 1 Exemplo 13. Uma caixa contém 12 lâmpadas das quais 5 estão queimadas. São escolhidas 6 lâmpadas ao acaso. Qual a probabilidade de que: Prof. André L. Korzenowski, Dr. 25 UNISINOS Estatística Aplicada • Exatamente duas estejam queimadas? • Pelo menos uma esteja boa? • Pelo menos duas estejam queimadas? • O número esperado de lâmpadas queimadas? • A variância do número de lâmpadas queimadas? 3.9 Distribuição Poisson Na distribuição binomial, a variável de interesse era o número de sucessos (ocorrências do evento A) em um intervalo discreto (n repetições do experimento E). Muitas vezes, entretanto, o inte- resse reside no número de sucessos em um intervalo contínuo, que pode ser de tempo, comprimento, superfície, etc. Para se caracterizar uma distribuição que leve em conta o número de sucessos (valores) em um intervalo contínuo, será suposto que: 1. Eventos definidos em intervalos não sobrepostos são independentes; 2. Em intervalos de mesmo comprimento, são iguais as probabilidades de ocorrência de um mesmo número de sucessos; 3. Em intervalos muito pequenos, a probabilidade de mais de um sucesso é desprezível; 4. Em intervalos muito pequenos, a probabilidade de um sucesso é proporcional ao comprimento do intervalo. Se os valores de uma variável satisfazem as hipóteses 1 a 4 acima se dirá que ela segue um processo de Poisson. Teorema 14. Seja X uma VAD definida por um processo de Poisson, assumindo os valores: 0, 1, ..., n, .., com taxa � > 0. Então f(x) = Pr(X = x) = e���x x! , para x=0, 1, 2, 3,... onde x é o número de eventos que ocorrem em um intervalo sobre o qual se espera uma média � de ocorrências. Além disso,X pode ser definida como o número de eventos que ocorrem sobre um período de tempo t, substi- tuindo � na equação acima por �t. Desta forma a distribuição de Poisson pode ser escrita como: f(x) = Pr(X = x) = e��t(�t)x x! , para x=0, 1, 2, 3,... As características numéricas de uma distribuição de poisson são também determiandas a partir do seu parâmetro �. Assim, E(X) = � V ar(X) = � Prof. André L. Korzenowski, Dr. 26 UNISINOS Estatística Aplicada Exemplo 15. Em um certo tipo de fabricação de fita magnética, ocorrem defeitos a uma taxa de 1 a cada 2000 metros. Qual a probabilidade de que um rolo com 2000 metros de fita magnética: • Não tenha defeitos? • Tenha no máximo dois defeitos? • Tenha pelo menos dois defeitos? Exemplo 16. Um dado é formado por chapas de plástico de 10x10 cm. Em média aparecem 50 defeitos por metro quadrado de plástico, segundo uma distribuição de Poisson. • Qual a probabilidade de uma determinada face apresentar exatamente 2 defeitos? • Qual a probabilidade de o dado apresentar no mínimo dois defeitos? • Qual a probabilidade de que pelo menos 5 faces sejam perfeitas? 3.10 Distribuição Exponencial Definição 17. Uma variável aleatória contínua T tem uma distribuição exponencial de parâmetro l se sua função densidade de probabilidade f(t) for do tipo: f(t) = �e��t, para t>0. Exemplo 18. Suponha que um componente eletrônico tenha um tempo de vida T (em unidades de 1000 horas) que segue uma distribuição exponencial de parâmetro l = 1. Suponha que o custo de fabricação do item seja R$ 2,00 e que o preço de venda seja R$ 5,00. O fabricante garante total devolução se t < 0,90. Qual o lucro esperado por item? As características numéricas de uma distribuição exponencial são determiandas a partir do seu parâmetro �. Assim, E(X) = 1/� V ar(X) = 1/�2 Como variáveis contínuas, por definição, não tem probabilidades associadas no ponto (a f(t) é uma função densdade), determina-se a probabilidade através da função acumulada. Neste caso, a FDA da distribuição exponencial é dada por: F (t) = Pr(T t) = 1� e��t, se t � 0. Uma importante característica da distribuição exponencial é denominada "falta de memória", ou seja, Pr(X � s+ t|X � s) = Pr(X � s+ t \X � s) Pr(X � s) = e��(s+t) e��s = e��t Prof. André L. Korzenowski, Dr. 27 UNISINOS Estatística Aplicada e portanto Pr(X � s+ t|X � s) = Pr(X � t). 3.10.1 Relação com a distribuição de Poisson Deve-se observar inicialmente que fixado um tempo, a probabilidade de não ocorrências de eventos neste intervalo é dado por f(0) = Pr(X = 0) = (�t)0e��t 0! = e��t. Se a variável aletaória contínua T representar o tempo passado entre a ocorrência de dois eventos de Poisson, então a probabilidade da não ocorrência no tempo "t" é igual a probabilidade que o tempo T entre ocorrências seja maior que "t", isto é: Pr(T > t) = e��t. Tem-se ainda que Pr(T t) = 1� e��t que conforme já visto é a função acumulada da variável aleatória exponencial de parâmetro �. 3.11 Distribuição Normal Um dos principais modelos de distribuição contínua é a curva de distribuição normal ou curva de Gauss. Sua importância para à Estatística (na prática) reside no fato que muitas variáveis encontradas na natureza se distribuem de acordo com o modelo normal. Este modelo também tem uma importância teórica devido ao fato de ser uma distribuição limite. Definição 19. Se X tem distribuição de probabilidade normal, com média µ e desvio-padrão �, então X ⇠ N(µ,�). Exemplos de Distribuições Normais: X ⇠ N(0; 0, 5), X ⇠ N(0; 1) e X ⇠ N(0; 2). Prof. André L. Korzenowski, Dr. 28 UNISINOS Estatística Aplicada Se X for uma VAC com distribuição Normal, então: • E(X) = µ, isto é, o parâmetro µ é a média da distribuição normal. • Variância: V (X) = �2, isto é, a variância da distribuição normal é o parâmetro � ao quadrado. • Desvio padrão da distribuição normal é o parâmetro �. • A distribuição Normal é simétrica ao redor de x = µ, isto é: f(µ+ x) = f(µ� x). • Quando µ = 0 e � = 1, tem-se uma distribuição normal padrão ou normal reduzida. • A variável normal padrão será anotada por Z. Então Z ⇠ N(0; 1). Se X ⇠ N(µ;�), então Z = (X �µ)/� é a normal padrão ou reduzida. Isto significa que qualquer curva normal poderá ser padronizada mediante esta transformação. Como a distribuição Normal não pode ser integrada pelas técnicas matemáticas tradicionais (Teorema Fundamental do Cálculo), a partir desta transformação ela pode ser determinada com o auxílio de uma tabela. Atualmente, mesmo as planilhas eletrônicas mais comuns também determinam probabilidades associadas a distribuição Normal. A forma de se calcular probabilidade, para qualquer distribuição normal através da tabela da normal pa- draonizada é relativamente simples. Se X ⇠ N(µ;�), então o primeiro passo é padronizar X, isto é, ob- ter Z = (X � µ)/�. Em seguida obtém-se na tabela o valor da probabilidade equivalente, isto é, o valor: P (Z z) = �(z). Este valor �(z) pode ser lido como “valor tabelado de z” e significa a probabilidade de a variável aleatória contínua Z = (X � µ)/� assumir valores à esquerda (abaixo de) do valor particular “z”. Lembre-se que qualquer tabela é construída fornecendo os valores da FDA de Z. A maioria delas fornece as probabilidades de Z z para valores de z entre -3,9 e +3,9 e com aproximação centesimal. Algumas fornecem valores de z entre 0 e 3,9. Assim o primeiro valor tabelado é em geral �(�3, 9) = P (Z �3, 9) que vale 0,0000, isto é, é zero com uma aproximação de 4 decimais. O valor seguinte seria: �(�3, 8) = P (Z �3, 8) = 0, 0001. O último valor tabelado é, em geral, �(3, 9) = P (Z 3, 9) = 1, 0000, pois é o valor acumulado. Isto quer dizer, que até este valor tem-se a totalidade da área útil sob a curva avaliada com uma aproximação de 4 decimais. Convém ressaltar que as tabelas da FDA de Z fornecem a área à esquerda de um valor qualquer “z”. No entanto, como a curva é simétrica, se quiséssemos, a área à direita de “z”, basta observar que: P (Z > z) = 1� P (Z z) = 1� �(z) = �(�z). Prof. André L. Korzenowski, Dr. 29 UNISINOS Estatística Aplicada Exemplos: 1. Seja Z uma N(0, 1). Determinar as seguintes probabilidades: (a) P(Z < 2,23) (b) P(Z > -1,45) (c) P(-2 < Z 2) (d) P(-1 Z 1) 2. Seja X uma VAC com distribuição N(10, 2). Determinar: (a) P(X < 10) (b) P(X > 11,50) (c) P(8 < Z 12) (d) P(6,08 Z 13,92) Prof. André L. Korzenowski, Dr. 30 UNISINOS Estatística Aplicada Considere agora a letra (a) do exemplo 1: foi dado um valor da variável aleatória e você teve de procurar na tabela a probabilidade acumulada até este valor. A interpretação deste resultado é que a probabilidade de você observar qualquer valor menor do que o solicitado é igual a resposta encontrada na tabela. Entretanto, em algumas ocasiões, necessita- se saber qual o valor da variável aleatória onde, até ela, acumula-se uma determinada probabilidade. Neste caso, seu trabalho deverá ser invertido, pois você não terá que descobrir a probabilidade acumulada até um determinado valor, mas o valor até onde acumula-se dada probabilidade. Veja os seguintes exemplos: 3. Seja Z uma N(0, 1). Determinar os valores de z: (a) P(Z < z)=98,71% (b) P(Z > z)=92,65% (c) P(-z < Z z)=95,44% Considere agora X uma VAC com distribuição N(10, 2). Determinar P (X < x) = 50. Sabe-se, através da tabela Normal padronizada que P (Z z) = �(z) = 0, 50 para z = 0, 00. Para obtermos o valor de X desejado reescrevemos a expressão Z = (X � µ)/� como X = µ + �Z. Assim, temos X = 10 + 2Z. Como para P (Z z) = �(z) = 0, 50, z = 0, 00, então X = 10. Prof. André L. Korzenowski, Dr. 31 UNISINOS Estatística Aplicada 3.12 Exercícios 1. A tabela a seguir mostra a porcentagem de pessoas em um questionários que compraram um modelo de carro e ficaram satisfeitos com aexperiência. Em qual modelo há a maior porcentagem de satisfeitos? Estime a probabilidade pelo critério frequentista em que uma pessoa que adquira este modelo fique satisfeito com a experiência. Expresse a sua resposta como uma fração de denominador 100. Modelo A Modelo B Modelo C Modelo D Modelo E Modelo F 81% 79% 73% 61% 59% 57% A. Model F, 0,57100 B. Model A, 0,81 100 C. Model A, 81 100 D. Model F, 57 100 Determine: 2. Um dado de seis faces é lançado duas vezes. Apresente o espaço amostral deste experimento e a probabilidade da soma dos dois números observados ser: (a) Maior do que 4. (b) Menor do que 11. (c) Maior do que 4 e menor do que 11. 3. A distribuição dos títulos de bacharel concedidos por uma universidade estão listados na tabela a seguir. Assuma que o título de melhor estudante é consedido a apenas um aluno. Qual é a probabilidade do título ser consedido a um estudante dos cursos de Administração, Engenharia ou Química? Arredonde sua resposta em três casas decimais. Área Frequência Física 216 Filosofia 207 Engenharia 92 Administração 179 Química 225 4. Se dois eventos são mutuamente excludentes, podem estes eventos ser independentes? Justifique sua res- posta. Prof. André L. Korzenowski, Dr. 32 UNISINOS Estatística Aplicada 5. O espaço amostral para um experimento contém 5 pontos com as probabilidades mostradas a seguir. De- termine a probabilidade de cada um dos seguintes eventos: Pontos Amostrais Probabilidades 1 0,05 2 0,20 3 0,30 4 0,30 5 0,15 (a) {Ocorre qualquer um de 1, 2 ou 3} (b) {Qualquer um de 1, 3 ou 5} (c) {O resultado 4 não ocorre} 6. Os eventos A e B são mutuamente excludentes. Se P (A) = 0, 5 e P (B) = 0, 2, qual é a probabilidade de P (A \B)? 7. Se dois eventos não tem resultados em comum, então eles são demonimados... A. Independentes B. Condicionais C. Sem chances D. Disjuntos 8. Utilizando um baralho padrão de 52 cartas, os eventos "retirar um Ás"e "retirar um valete"são mutuamente excludentes? E estes eventos são independentes? Prof. André L. Korzenowski, Dr. 33 UNISINOS Estatística Aplicada 9. Um clube possuí 600 membros e oferece um campo de golf oficial e 12 quadras de tênis. Antes de decidir se aceita novos membros, o presidente do clube executa uma pesquisa para saber quantos membros utilizam os recursos regularmente. A pesquisa indicou que 70% dos membros utilizam regularmente o campo de golf, 45% a quadra de tenis e 5% não utilizam nenhum dos recursos regularmente. Qual porcentagem dos 600 membros utilizam no mínimo um dos recursos? 10. Suponha que P (A) = 0, 4, P (B) = 0, 7 e P (A \B) = 0, 3. Determine as seguintes probabilidades. (a) P (Bc) (b) P (Ac) (c) P (A [B) (d) P (A|B) (e) P (B|A) (f) A e B são mutuamente excludentes? (g) A e B são independentes? Prof. André L. Korzenowski, Dr. 34 UNISINOS Estatística Aplicada 11. Um jogo tem três resultados possíveis. A probabilidae de vitória de um time é 0.4, a probabilidade de empate é 0,5 e a probabilidade de derrota é 0,1. Qual a probabilidade do time não vencer em uma simples partida do jogo? 12. Em um baralho padrão embaralhado de 52 cartas, qual a probabilidade de você retirar uma carta de figura e uma carta de copas em sequência? Considere inicialmente que a carta de figura não é de copas e depois relaxe esta suposição. 13. Considere a seguinte tabela de contingência. Determine o risco relativo de uma mulher ter que trabalhar dado sua condição quanto ao estado civil. Estado Civil Trabalha Não Trabalha Casada 1.385 1175 Solteira 786 588 14. Determine as seguintes probabilidades em uma distribuição normal padronizada. (a) P (Z < �1, 56) (b) P (Z < 1, 19) (c) P (Z > 1, 46) (d) P (Z > �1, 07) (e) P (0, 67 < Z < 2, 41) (f) P (�2, 33 < Z < 1, 54) Prof. André L. Korzenowski, Dr. 35 UNISINOS Estatística Aplicada 15. Encontre o valor da variável aleatória normal padrão z chamada z0, de forma que: (a) P (Z < z0) = 0, 2090 (b) P (Z < z0) = 0, 025 (c) P (Z > z0) = 0, 7090 (d) P (Z > z0) = 0, 2090 (e) P (0 < Z < z0) = 0, 4798 (f) P (�z0 < Z < z0) = 0, 1664 16. Suponha que a variável aleatória X seja melhor descrita por uma distribuição normal com média µ = 30 e desvio-padrão � = 4. Encontre o valor correspondente de z para cada um dos seguintes valores de x. (a) x = 30 (b) x = 20 (c) x = 27, 5 (d) x = 35 (e) x = 25 Prof. André L. Korzenowski, Dr. 36 UNISINOS Estatística Aplicada 17. Suponha que X seja uma variável aleatória normalmente distribuída com média µ = 11 e desvio-padrão � = 2. Determine as seguintes probabilidades. (a) P (X < 6) (b) P (X < 14) (c) P (X > 10) (d) P (X > 13, 24) (e) P (7, 8 < X < 12, 6) (f) P (13 < X < 15) 18. Suponha que X seja uma variável aleatória normalmente distribuída com média µ = 50 e desvio-padrão � = 3. Encontre o valor de x0 tal que: (a) P (X < x0) = 0, 8413 (b) P (X < x0) = 0, 025 (c) P (X > x0) = 0, 95 (d) P (X > x0) = 0, 27 (e) 10% dos valores de x sejam menores do que x0 (f) 1% dos valores de x sejam maiores do que x0 Prof. André L. Korzenowski, Dr. 37 UNISINOS Estatística Aplicada 4 Noções de Amostragem Na amostragem, seleciona-se uma parte de uma população para observá-la com a finalidade de estimar “alguma coisa” da população total. (Mais ou menos como experimentar uma sopa...) A teoria da amostragem ocupa-se dos métodos de selecionar amostras e do uso dos dados amostrais para estimar características da população (tais como média, total ou proporção). Os diferentes procedimentos amostrais que são utilizados procuram satisfazer os seguintes critérios: a. a amostra deve representar a população; b. as estimativas das características da população, obtidas a partir da amostra, devem ser precisas e pode-se medir sua confiabilidade; c. o custo de selecionar a amostra deve ser baixo, quando comparado ao custo de realizar um censo. Chama-se unidade amostral cada unidade observada na amostra. Uma característica numérica estabelecida para toda a população é denominada parâmetro e através da amostragem procura-se obter estimativas destes parâmetros. Estimador é qualquer função estatística cujos resultados são utilizados para estimar um parâmetro. Assim, estimador é uma função (uma fórmula), parâmetro é um número e estimativa é um número. Amostragem Probabilística e Não-Probabilística A amostragem é probabilística quando é possível calcular com antecedência a probabilidade de se obter cada uma das amostras possíveis de selecionar. Todas as unidades da população devem ter probabilidade p>0 de entrar na amostra. Vale ressaltar que aleatoriedade não é uma característica da amostra, mas sim do processo pelo qual essa amostra foi obtida. 4.1 Tipos de amostras probabilísticas: Amostragem aleatória simples (a.a.s): consiste na seleção de n unidades amostrais de forma que cada amostra tenha a mesma chance de ser escolhida. Pode ser com ou sem reposição. Amostragem estratificada: a amostra é dividida em estratos (sexo, renda) e uma amostra aleatória simples é selecionada dentro de cada estrato. Amostragem por conglomerados: a população é dividida em subpopulações distintas. Alguns conglomerados são escolhidos por a.a.s. e todos os sujeitos do conglomerado são observados. Amostragem sistemática: quando existe uma listagem da população disponível. Sorteia-se o primeiro elemento da amostra e os demais sistematicamente, a cada intervalo definido pelo tamanho da população e tamanho da amostra. Amostragem não-probabilística é um procedimento pelo qual não podem ser associadas probabilidades de se- leção às unidades e portanto, não é possível determinar a confiabilidade dos resultados da amostra em termos probabilísticos. 4.2 Tipos de amostras não-probabilísticas: • Amostragem por conveniência: é o processo que procura obter uma amostrade elementos convenientes. A seleção das unidades amostrais é deixada a cargo do entrevistador. Prof. André L. Korzenowski, Dr. 38 UNISINOS Estatística Aplicada • Amostragem intencional: é uma forma de amostragem por conveniência em que os elementos da população são selecionados com base no julgamento do pesquisador. Este, exercendo seu julgamento ou aplicado sua experiência, escolhe os elementos a serem incluídos na amostra. • Amostragem por cotas: uma técnica de amostragem não-probabilística que consiste em uma amostra intencional em dois estágios. O primeiro estágio consiste em desenvolver categorias ou cotas de con- trole de elementos da população. No segundo estágio seleciona-se os elementos da amostra com base na conveniência ou no julgamento. • Amostragem Bola-de-Neve: técnica onde o grupo inicial de entrevistados é selecionado aleatoriamente. Selecionam-se entrevistados subsequentes com base em informações fornecidas pelos entrevistados iniciais. Assim o processo é executado em ondas sucessivas. Procedimento Amostral O procedimento amostral pode ser esquematizado como segue: Como determinar o tamanho da amostra (Item 4) para procedimentos estatísticos básicos será discutido em Inferência Estatística. Prof. André L. Korzenowski, Dr. 39 UNISINOS Estatística Aplicada 5 Introdução à Inferência 5.1 Distribuição amostral da média Considere-se a população P = { 1, 3, 5, 6 } e todas as amostras possíveis de tamanho n=2 extraídas com reposição. Para cada amostra vai-se calcular a média. Ter-se-á assim um conjunto de 16 valores que serão dispostos em uma tabela, com as respectivas probabilidades, e que constituirá então a distribuição amostral da média da amostra. As possíveis amostras com as respectivas médias são: Amostras (1,1) (1,3) (1,5) (1,6) (3,3) (3,5) (3,6) (5,5) X¯ 1 2 3 3,5 3 4 4,5 5 Amostras (5,6) (6,6) (3,1) (5,1) (6,1) (5,3) (6,3) (6,5) X¯ 5,5 6 2 3 3,5 4 4,5 5,5 Colocando estes resultados em uma tabela (distribuição amostral da média) temos: X¯ f(X¯) = P (X¯ = x¯) x¯⇥ f(x¯) x¯2 ⇥ f(x¯) 1,0 1/16 1/16 1,0/16 2,0 2/16 4/16 8,0/16 3,0 3/16 9/16 27,0/16 3,5 2/16 7/16 24,5/16 4,0 2/16 8/16 32,0/16 4,5 2/16 9/16 40,5/16 5,0 1/16 5/16 25,0/16 5,5 2/16 11/16 60,5/16 6,0 1/16 6/16 36,0/16P 1 60/16 254,5/16 Pela tabela pode-se verificar que: E(X) = 60/16 = 3, 75 = µ, isto é a expectância (média) de todas as médias amostrais, extraídas com reposição da população P, é igual a média populacional (parâmetro populacional média). Já, calculando a variância de X, têm-se V (X) = 1, 84375 = �2/2 = 3, 6875/2, isto é, a variância entre as médias amostrais é “n” vezes (neste caso 2 vezes) menor que a variância populacional. O valor �X¯ = 1, 36 é denominado erro padrão da média. Ele mede a variabilidade entre as médias amostrais e dá uma idéia do erro que se comete ao se substituir a média da população pela média da amostra. Verificando a tabela acima, pode-se ver que se, por exemplo, fosse selecionada a amostra (1, 1) seríamos levados a crer que a média da população seria um, quando de fato ela vale 3,75, cometendo assim um erro de 2,75 unidades. Felizmente este erro (o maior possível neste caso) só vai ocorrer com uma probabilidade de 1/16 = 6,25%. Se por exemplo, fosse selecionada a amostra (1, 6) a média amostral seria 3,5 e o erro cometido (neste caso) seria de 0,25 unidades. Este erro bem menor que o anterior ocorre com uma probabilidade de 2/16 = 12,5%. O que o desvio padrão da distribuição amostral da média faz é determinar o erro médio, sendo por isso denominado, então, de erro padrão da amostragem. Os modelos probabilísticos são conhecidos a partir dos dois seguintes resultados: (a) Se (X1, X2, ..., Xn) é uma amostra aleatória de uma população com distribuição normal de média µ e desvio padrão �, então a média da amostra (X¯) terá uma distribuição também normal com a mesma média da Prof. André L. Korzenowski, Dr. 40 UNISINOS Estatística Aplicada população e com desvio padrão (erro padrão) raiz de “n” vezes menor que o desvio padrão da população, isto é: Se X ⇠ N(µ;�) então X¯ ⇠ N(µ;�/pn). (b) Teorema Central do Limite: Se (X1, X2, ..., Xn) é uma amostra aleatória extraída de uma população com qualquer distribuição de média µ e desvio padrão �, então a média da amostra (X¯) terá uma distribuição aproximadamente normal com a mesma média da população e com desvio padrão (erro padrão) raiz de “n” vezes menor que o desvio padrão da população à medida que o tamanho da amostra aumenta. Se X tem qualquer distribuição então X¯ ⇠ N(µ;�/pn) para n grande (n � 30). A distribuição amostral da proporção foi omitida aqui, mas será utilizada quando estivermos construindo inter- valos de confiança para a proporção. Neste caso, temos que p ⇠ N ⇣ ⇡, p ⇡(1� ⇡) ⌘ Exemplos: (1) Uma população X tem uma distribuição normal de média 100 e desvio padrão 10. (a) Qual P (95 < X < 105)? (b) Se X¯ é a média de 16 elementos extraída desta população, determine P (95 < X¯ < 105)? (2) A renda de um conjunto de pessoas de uma certa região tem média 6 s.m. e desvio padrão de 2 s.m. Se desta população for extraída uma amostra de n=100 pessoas, qual a probabilidade de a média desta amostra acuse um valor superior a 6,3 s.m? Prof. André L. Korzenowski, Dr. 41 UNISINOS Estatística Aplicada 5.2 Intervalos de Confiança Em uma pesquisa estatística ocorre que os parâmetros populacionais, tais como a média, são desconhecidos. Deste modo, o interesse de quem está efetuando o levantamento dos dados é obter estimativas para estes parâmetros a partir dos dados observados na amostra. O fato da distribuição de probabilidades dos principais estimadores ser conhecida, nos apresenta a possibilidade de obter estimativas apoiadas nestas probabilidades, tornando os resultados inferenciais mais confiáveis quando comparados a uma simples estimativa pontual. Da distribuição Normal padronizada, pode-se determinar que P (�z < Z < +z) = 1–↵. Sabe-se que a média é normalmente distribuída. Deste modo pode-se substituir Z utilizando a estratégia de padronização da variável normalmente distribuída, como visto quando estudamos o modelo de distribuição Normal. P (�z < Z < +z) = 1� ↵ P �z < X¯ � µ�p n < +z ! = 1� ↵ P ✓ �z �p n < X¯ � µ < +z �p n ◆ = 1� ↵ P ✓ X¯ � z �p n < µ < X¯ + z �p n ◆ = 1� ↵ Deste modo, pode-se construir um intervalo com 1 � ↵ de confiança para a média da população através da expressão X¯ ± z �p n De fato, o que ocorre na prática é que, não sendo a média da população conhecida, tão pouco será conhecido o desvio-padrão populacional. Neste caso, ele deve ser estimado pelo desvio-padrão amostral s. Diferentemente da média, onde o cálculo do parâmetro µ bem como da estimativa X¯ são efetuados a partir da mesma fórmula, no caso da variância não funciona do mesmo modo. Isto porque a expressão 1 n nX i=1 (xi � X¯)2 gera estimativas viesadas da variância populacional, uma vez que a média populacional não é conhecida e estamos utilizando a média amostral no cálculo desta variância. Assim, um estimador não viesado da variância populacional é obtido através da expressão s2 = 1 n� 1 nX i=1 (xi � X¯)2 Neste caso, enquanto a expressão (X¯ � µ)/(�/pn) apresenta distribuição Normal padronizada, a expressão (X¯ � µ)/(s/pn) possuí distribuição de probabilidade t de Student com (n � 1) graus de liberdade. Deste Prof. André L. Korzenowski, Dr. 42 UNISINOS Estatística Aplicada modo, um intervalo de confiança para a média com 1–↵ de probabilidade será obtido a partir da expressão X¯ ± t↵/2;g.l.s/ p n, que genericamente pode ser escrita como ✓ˆ ± p⇥ E.P. onde ✓ˆ é a estimativa pontual do parâmetro populacional, p é o valor correspondente na distribuição de proba- bilidade associada a um intervalo de 1� ↵ de confiança e E.P. é o erro padrão da amostragem.Note que para se obter o tamanho mínimo da amostra necessário a uma dada confiança, procede-se do mesmo modo na expressão P (�z < Z < +z) = 1–↵, porém objetivando isolar o valor n. Para intervalos de confiança para a proporção, o mesmo princípio é utilizado, isto é P (�z < Z < +z) = 1� ↵ P 0@�z < p� ⇡q ⇡.(1�⇡) n < +z 1A = 1� ↵ P p� z r ⇡.(1� ⇡) n < ⇡ < p+ z r ⇡.(1� ⇡) n ! = 1� ↵ Exemplo: 1. Em uma pesquisa foram levantados os seguintes dados amostrais: 4; 6; 3; 7; 9; 3; 5; 7; 4. Construa um intervalo com 95% de confiança para a média da população de onde foram extraídos estes dados. 2. Uma pesquisa com 400 eleitores aponta que 46% são contrários ao direito ao porte de arma. Construa um intervalo de confiança para esta proporção e interprete-o apontando se, caso fosse efetuado um plebiscito, existe chance da proibição ao uso de armas ser aprovada. Prof. André L. Korzenowski, Dr. 43 UNISINOS Estatística Aplicada 5.3 Exercícios 1. Uma amostra aleatória de n medidas foi selecionada de uma população com média µ e desvio-padrão �. Calcule um intervalo de confiança para com 1� ↵ para µ para cada uma das seguintes situações: (a) n = 40, X¯ = 35,� = 9,↵ = 0, 05 (b) n = 95, X¯ = 40,�2 = 15,↵ = 0, 10 (c) n = 12, X¯ = 157, s2 = 25,↵ = 0, 05 (d) n = 24, X¯ = 94, s = 7,↵ = 0, 01 (e) n = 45, X¯ = 14, s = 4,↵ = 0, 05 (f) n = 135, X¯ = 55, s2 = 16,↵ = 0, 10 Prof. André L. Korzenowski, Dr. 44 UNISINOS Estatística Aplicada 2. Determine o tamanho mínimo da amostra necessário para estimar a média µ de uma população para cada uma das seguintes situações: (a) ↵ = 0, 05, e = 5,�2 = 30 (b) ↵ = 0, 05, e = 5,�2 = 45 (c) ↵ = 0, 05, e = 2,�2 = 30 (d) Qual a impressão que você tem em relação ao tamanho da amostra quando aumenta a variabilidade? E quando diminui o erro? 3. Uma amostra aleatória de n medidas foi selecionada de uma população. Calcule um intervalo de confiança para com 1� ↵ para a proporção ⇡ para cada uma das seguintes situações: (a) n = 400, p = 0, 25,↵ = 0, 05 (b) n = 50, p = 0, 45,↵ = 0, 10 4. Determine o tamanho mínimo da amostra para estimar a proporção ⇡ com uma margem de erro de 5% e 95% de confiança. Considere que uma estimativa para ⇡ de uma pesquisa anterior é ⇡ = 50% Prof. André L. Korzenowski, Dr. 45 UNISINOS Estatística Aplicada 6 Testes de Hipóteses 6.1 Conceitos e definições Iniciamos os estudos de inferência selecionando uma amostra e descrevendo-a. Definimos que nossas estimativas pontuais eram as descritivas amostrais e, ao associarmos probabilidades a estas medidas descritivas, cons- truíamos intervalos de confiança, isto é, estimativas por intervalos. Entretanto, em nenhum destes casos nós conhecemos o verdadeiro valor do parâmetro populacional (Isto só seria possível se realizassemos um censo). Há uma outra situação em inferência estatística onde eu possuo alguma informação sobre o valor do parâme- tro populacional. Neste caso, o que desejo fazer é verificar se a amostra que estou selecionando provém desta população que apresenta este valor como parâmetro. Em outras palavras, desejo testar a hipótese de que, provavelmente, o valor do parâmetro suposto seja verdadeiro (ou não) para a população de onde foi extraída a amostra. Em termos gerais, uma hipótese é uma conjectura sobre algum fenômeno ou conjunto de fatos. Em estatística inferencial o termo hipótese tem um significado bastante especifico. É uma conjectura sobre um ou mais parâmetros populacionais. O teste de hipóteses envolve fazer inferências sobre a natureza da população com base nas observações de uma amostra extraída desta população. E faz-se isso através da construção de hipóteses que serão testadas. Uma hipótese estatística é uma suposição ou afirmação que pode ou não ser verdadeira, relativa a uma ou mais populações. A veracidade ou falsidade de uma hipótese estatística nunca é conhecida com certeza, a menos que, se examine toda a população, o que é impraticável na maior parte das situações. Desta forma, toma-se uma amostra aleatória da população de interesse e com base nesta amostra é estabelecido se a hipótese é provavelmente verdadeira ou provavelmente falsa. A decisão de que a hipótese é provavelmente verdadeira ou falsa é tomada com base em distribuições de probabilidade denominadas de “distribuições amostrais”. Em estatística trabalha-se com dois tipos de hipótese. A hipótese nula é a hipótese de igualdade. Esta hipótese é denominada de hipótese de nulidade e é representada por H0 (lê-se h zero). A hipótese nula é normalmente formulada com o objetivo de ser rejeitada. A rejeição da hipótese nula envolve a aceitação de outra hipótese denominada de alternativa (H1). Esta hipótese é a definição operacional da hipótese de pesquisa que se deseja comprovar. A natureza do estudo vai definir como deve ser formulada a hipótese alternativa. Por exemplo, se o parâmetro a ser testado é representado por ✓, então a hipótese nula seria: H0 : ✓ = ✓0 e as hipóteses alternativas poderiam ser: H1 : ✓ 6= ✓0; H1 : ✓ > ✓0 ou H1 : ✓ < ✓0. No primeiro caso, H1 : ✓ 6= ✓0, diz-se que o teste é bilateral (ou bicaudal), se H1 : ✓ > ✓0, diz-se que o teste é unilateral (ou unicaudal) à direita e se H1 : ✓ < ✓0, então, diz-se que o teste é unilateral (ou unicaudal) à esquerda. 6.2 Características Gerais de um TH Testar hipóteses envolve determinar a magnitude da diferença entre um valor observado de uma estatística, por exemplo a média, e o suposto valor do parâmetro (µ) e então decidir se a magnitude da diferença justifica a rejeição da hipótese. A figura a seguir representa esta tomada de decisão. Prof. André L. Korzenowski, Dr. 46 UNISINOS Estatística Aplicada Além dos conceitos já vistos para o teste de hipóteses é necessário ainda definir os erros envolvidos e as regiões de rejeição e de aceitação. Para poder aceitar ou rejeitar H0 e como conseqüência, rejeitar ou aceitar H1, é necessário estabelecer uma regra de decisão, isto é, é necessário estabelecer para que valores da variável X vai-se rejeitar H0, ou seja, afirmar H1, e para que valores da variável X, vai-se aceitar H0, ou seja, nesta situação particular, afirmar H0. O conjunto de valores que levará a rejeição da hipótese nula será denominado de região crítica (RC) e a faixa restante de valores da variável é denominada de região de aceitação (RA). Evidentemente esta regra como qualquer outra permitirá decidir sob a H0, mas estará sujeita a erro. Isto porque com base em resultados amostrais, não é possível tomar decisões definitivamente corretas. A probabilidade de que a variável assuma um valor do conjunto RC é denominada de nível de significância do teste. O nível de significância do teste é, na realidade, a probabilidade de se rejeitar a hipótese nula, quando ela é verdadeira, sendo então a probabilidade de se cometer um erro. Como este é apenas um dos dois tipos de erro possível de ser cometido num teste de hipóteses, ele é denominado de erro do tipo I. O outro tipo de erro possível de ser cometido é aceitar H0 quando ela é falsa e é denominado de erro do tipo II. Em resumo pode-se ter as seguintes situações em um teste de hipóteses: Prof. André L. Korzenowski, Dr. 47 UNISINOS Estatística Aplicada O nível de significância do teste é definido pelo pesquisador e, desta forma, a probabilidade de cometer um erro do tipo I é conhecida. Isto faz com que a decisão de rejeitar H0 seja preferível. Isto deve-se ao fato de que para poder determinar a probabilidade de erro do tipo II deve-se conhecer o valor do parâmetro (a probabilidade de erro do tipo II é dada pela probabilidade de aceitar H0 condicionado ao fato de H0 ser falso, e sendo falso, seu valor é desconhecido). Geralmente, executar um teste de hipóteses é seguir o seguinte roteiro: • Formular as hipóteses; • Estabelecer as estatísticas (estimadores) utilizadas; • Fixar o nível de significância
Compartilhar