Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística aplicada / Aula 1 - Conceitos introdutórios Introdução Nesta aula, faremos um breve estudo sobre a origem da estatística. Origem da estatística Vamos começar a nossa aula de hoje com um breve estudo sobre a origem da estatística. Ha indícios de que ha 3.000 anos atrás já se faziam censos na China, Babilônia e Egito. Mesmo na Bíblia, varias passagens insinuavam o use da estatística como o pedido feito a Moises de realizar um mapeamento de quantos homens estariam aptos para a guerra. Por varias vezes no período Clássico e Medieval, os censos eram fonte para informação para auxiliar a coleta de impostos. Cabe lembrar que a palavra censo provém do latim "Censere" que significa "taxar". Cabe destacar também a utilização no século XVII das Tabuas de Mortalidade que consistiam na analise exaustiva no acompanhamento de nascimentos e mortes. Esta analise contribuiu para o monitoramento de riscos das Companhias de Seguros. O termo estatística vem da palavra também Latina "Status", que corresponde a informações e descrições que seriam úteis para o estado. E desde então uma ferramenta administrativa utilizada para varias áreas como: recursos humanos, finanças, logística, produção e Marketing. Logo, Estatística é a ciência que estuda quantitativamente os fenômenos naturais ou sociais, cuja avaliação está baseada em métodos científicos de coleta, organização, apresentação e analise de dados. Estatística Descritiva: que se preocupa com a organização e descrição dos dados experimentais. Estatística Indutiva: (Estatística Inferencial), que cuida da sua analise e interpretação, ou seja, tirar conclusões sobre populações com base nos resultados observados em amostras extraídas dessas populações. Estatística Probabilística: representa o estudo de planejar jogadas ou estratégias de jogos de azar, bem como o risco e o acaso em eventos futuros. População E um conjunto de elementos sobre o qual se faz alguns estudos ou Inferência Estatística. A Estatística não interessa concluir a respeito de unidades individuais de observação, mas sim de grupos, conjuntos ou agregados, porque seu objetivo e o estudo da chamada POPULAÇÃO, a qual pode ser finita ou infinita. A população finita é aquela em que o número de unidades de observação pode ser contado e é limitado. Confira agora alguns exemplos de população. EXEMPLOS POPULAÇÃO INFINITA Gases, líquidos e alguns sólidos, como o talco, porque as unidades não podem ser contadas. O número de unidades de observação na população denomina-se tamanho e, no caso finito, o numero dessas unidades é designado pela tetra N. Em uma população realiza-se uma pesquisa estatística, observando-se todas as suas unidades e uma ou mais características passiveis de estudos: também se identifica a área de abrangência, aquela que, fisicamente, limita as unidades de observação que se deseja estudar. EXEMPLO DE POPULAÇÃO FINITA • Alunos matriculados nas escolas públicas estaduais; • Todas as declarações de Imposto de Renda recebidas pela Receita Federal; • Todas as pessoas que compram telefone celular. Uma população é infinita se a quantidade de unidades de observação é ilimitada, ou a sua composição é tal que as unidades da população não podem ser contadas. EXEMPLO DE ÁREA ABRANGÊNCIA Alunos matriculados nas escolas públicas estaduais em 1999. Todas as declarações de Imposto de Renda recebidas pela Receita Federal em 1999. Todas as pessoas que compram telefone celular na Região Sudeste do Brasil. Ao se descrever uma população estatística, deve-se diferenciar unidades de observação das características da população. EXEMPLO DE UNIDADE DE OBSERVAÇÃO E CARACTERISTICAS Em uma população de municípios, uma unidade de observação é o município, o qual apresenta muitas características, entre as quais a área, o número de habitantes e a renda per capita. Variáveis Em Estatística, variável é uma atribuição de um número a cada característica da unidade de observação, ou seja, é uma função materna tica definida na população. Quando uma característica ou variável é não numérica, denomina-se Variável Qualitativa ou Atributo. Exemplos de Variável Qualitativa • Sexo • Religião • Naturalidade • Cor dos Olhos • Faixa Etária Uma variável qualitativa a expressa em categorias. Exemplos de Categorias de Variáveis Qualitativas • Em sexo: masculino e feminino; • Em religião: católica, judaica e protestante; • Em naturalidade: carioca, paulista; • Em cor dos olhos: castanhos, azuis e verdes; • Em faixa etária: ate 25 anos; de 26 a 49 anos e acima de 50 anos. Quando os dados são qualitativos, o interesse encontra-se, normalmente, na quantidade ou na proporção de cada categoria em relação a população. Quando pode ser expressa numericamente, a variável estudada denomina-se variável quantitativa. Exemplos de Variáveis Quantitativas Quantidade de valores de notas de uma moeda. Duração de uma bateria de telefone celular. As variáveis quantitativas podem ser discretas ou continuas. Variáveis discretas podem assumir apenas determinados valores e resultam de uma contagem. Exemplos de Variáveis Quantitativas Discretas Quantidade de valores de uma moeda: 1;5;10;50;100. Quantidade de sabores de refresco: tangerina, laranja, maracujá... As variáveis continuas são aquelas cujo conjunto de valores possíveis é um intervalo de números reais, resultante de uma medição em qualquer grau de precisão. Exemplos de Variáveis Quantitativas Continuas Duração de uma bateria de telefone celular: 60h,46h 37min 12s ou 39h 13min (dependendo do tipo de bateria ou da sua utilização). Amostra É um subconjunto, necessariamente finito, uma parte selecionada das observações abrangidas pela população, através da qual se faz um estudo ou inferência sobre as características da população. A amostra é constituída por n unidades de observação e que deve ter as mesmas características da população. Essa coleta recebe o nome de amostragem que envolve pelo menos dois passos: Escolha das unidades Registro das observações A amostragem pode ser sem reposição e com reposição; na amostragem sem reposição, normalmente utilizada nos trabalhos estatísticos, as unidades são selecionadas apenas uma vez na amostragem com reposição, seleciona-se as unidades mais de uma vez. Exemplo Exemplo de Amostragem sem Reposição Pesquisa eleitoral: as pessoas devem ser ouvidas apenas uma vez, porque, em uma eleição, o voto é individual. Exemplo de Amostragem com Reposição Fila de banco: a mesma pessoa pode ser observada duas ou mais vezes, a cada vez que retorna ao banco. Tipos de Amostragem Há diferentes maneiras pelas quais as amostras podem ser selecionadas, cada qual com vantagens e desvantagens, e um dos problemas associados a amostragem é a definição do tamanho. Amostragem Sistemática Uma amostragem é sistemática quando a retirada das unidades de observação é feita periodicamente, sendo o intervalo de seleção calculado, para uma população finita, por meio da divisão do tamanho da população pelo tamanho da amostra a ser selecionada. Exemplo de Amostra Sistemática Deseja-se retirar uma amostra de n = 10 unidades de observação de uma população de tamanho N = 874. 0 intervalo de seleção é, então, 874:10 = 87,4 = 87. Desse modo, vão-se contando as unidades de observação e escolhem-se aquelas que estiverem nas seguintes posições: 87; 174; 261; 348; 435; 522; 609; 696; 783; 870. Amostragem Aleatória Simples O processo de retirada de uma amostra de uma população na qual cada unidade tem a mesma chance (ou oportunidade) de ser retirada denomina-se amostragem aleatória simples. O processo de amostragem aleatória simples exige que se atribuam números consecutivos as unidades da população e proceda-se a um sorteio, colocando-se todos os números em um recipiente, por exemplo, e retirando um número, situação na qual cada unidade de observação tem a mesma chance de ser selecionada. Técnicas de Amostragem Definida a população, é preciso estabelecera técnica de amostragem, isto é, o procedimento que será adotado para escolher os elementos que irão compor a amostra, conforme a técnica utilizada tem-se um tipo de amostra. Amostra Simples A amostra casual simples é composta por elementos, retirados ao acaso, da população. Então, todo elemento da população tem igual probabilidade de ser escolhido para a amostra. Exemplo: efetuar um sorteio, com fichas numeradas, de zero a nove. Amostra Sistemática Na amostra sistemática, os elementos são escolhidos não por acaso, mas por um sistema. Exemplo: no Lugar do sorteio, chamar todo o elemento com um número terminado em determinado dígito. Amostra Estratificada A amostra estratificada é composta por elementos provenientes de todos os estratos da população. Devem ser obtidas amostras estratificadas sempre que a população for constituída por diferentes estratos. Exemplo Por exemplo, se as pessoas que moram nos vários bairros de uma cidade são diferentes, cada bairro é um estrato. Para obter uma amostra de pessoas dessa cidade, seria razoável obter uma amostra de cada bairro e depois reunir as informações numa amostra estratificada. A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. Os estatísticos têm muitas restrições ao use de amostras de conveniência. As amostras de conveniência são comuns na área de saúde, onde se fazem pesquisas com pacientes de uma só clinica ou de um só hospital. As amostras de conveniência constituem, muitas vezes, a única maneira de estudar determinado problema. Estatística aplicada / Aula 2 - Tipos de Dados Introdução Nesta aula, serão apresentados os conceitos básicos de frequências. Conceitos Básicos Vejamos: Dados Brutos Normalmente, na prática, os dados originais de uma série de estatísticas não se encontram prontos para análise por estarem desorganizados. Por essa razão, costuma-se chama-los de dados brutos. ROL É a lista ordenada dos dados de uma série estatística. Essa ordenação pode ser crescente ou decrescente. Elementos de Distribuição de Frequência XMáx > Maior valor observado da variável de frequência. > XMáx Xmín > Menor valor observado da variável de frequência. > Xmín Amplitude total (A) > É a diferença entre o maior e o menor valor observado da variável. > A=XMáx - Xmín. Limites de Classe > Os limites de uma Classe são os valores extremos. O limite mínimo de uma classe é denominado Limite Inferior, e o limite máximo de Limite Superior. Ponto Médio de Classes (Xi) > É o valor representativo da classe. Para se obter o ponto médio de uma classe, basta somar os limites superior e inferior da classe e dividir por 2. Amplitude de Classe (h) > É a razão entre a amplitude total e o número de classes. h = A / n (número de classes) Distribuição de Frequências – Variável Contínua Frequência Relativa – fri É obtida pela divisão da frequência simples da classe pelo número total dos elementos. fri = fi / n Frequência Acumulada – fi Resulta da soma da frequência simples da classe com as frequências simples das classes antecedentes. fi = f1 + f2 + f3... + fi Frequência Acumulada Relativa – Fri É obtida pela divisão da frequência acumulada da classe pelo número total dos elementos. Fri = Fi / n Cabe salientar que, acrescentados esses valores à tabela original, ela passa a se chamar Distribuição de Frequências. Roteiro para Elaboração da Tabela de Frequência para Dados Agrupados • Transformar os dados brutos em ROL; • Encontrar a amplitude total dos dados; • Determinar o número de classes de acordo com o total de observações. Geralmente, escolhe-se arbitrariamente entre um mínimo de 5 e um máximo de 20 classes ou usa-se a formula: sendo N o número de elementos da distribuição de valores ou número de observações. n deve ser um número inteiro mais próximo. Observações, tomemos por exemplo 18 observações, = 4,24. Utiliza-se um número inteiro. Nesse caso, quatro classes. Dividir a amplitude total da serie pelo número de classes escolhido. Dividir a amplitude total da serie pelo número de classes escolhido. NOTA: Em alguns casos, convém arredondar a amplitude do intervalo da classe, porém sempre para um valor superior. Determinar os limites das classes, escolhendo-se, preferencialmente, números inteiros. Confira agora um exemplo: Uma pesquisa de mercado identificou o percentual de consumidores insatisfeitos com o lançamento de um novo produto, em 80 regiões distintas, com a seguinte distribuição: Agora, vamos ver o método alternativo de procedimento: 1. Determinar o valor mínimo: 5,1 e valor máximo: 14,9. 2. Definir o limite inferior da primeira classe (LI) que habitualmente é igual ou ligeiramente inferior ao valor mínimo: LI: 5,1. 3. Definir o número de classes (K) pela expressão dada. Nesse caso: K aproximadamente 9. 4. Calcular a amplitude de cada classe: No caso: (14,9 - 5,1)/9 = 1,1 e 3. 5. Definir os limites para cada classe a partir dos valores obtidos anteriormente, começando pela primeira classe. Confira a tabela de classes: Veja, abaixo, o gráfico de Frequência Simples: Veja, abaixo, o gráfico de Frequência Acumulada: Estatística aplicada / Aula 3 - Medidas de Posição Central Introdução Nesta aula, falaremos sobre medidas de tendência central. Média Aritmética Uma média aritmética pode ser Simples, Ponderada ou Agrupada em Classe. Conheça a definição e exemplo de cada um dos tipos: Simples É a média aritmética, ou média, de um conjunto de N números X1, X2, ..., Xn é definido por: Exemplo: X1 = 1, X2 = 1, X3 = 3, X4 = 4 e X5 = 4. A média é: = (1 + 1 + 3 + 4 + 4) / 5 = 13/5 = 2,6 Ponderada Se os valores X1, X2, ..., Xn ocorrem com frequências f1 e f2, ..., fn, então: Agrupados Seja Xi o ponto médio da i-ésima classe, então: Mediana : Pode-se definir como mediana o valor central de uma distribuição de frequência com os n valores ordenados, cuja ordem é dada por (n/2+1/2). Exemplo: para uma sequência de n=6 elementos: (1,3,4,8,8,9) a mediana será o elemento X de ordem (6/2+1/2), ou seja o elemento 3,5. Mediana= X(3,5)=[X(3)+X(4)]/2= (4+8)/2=6. Moda Pode-se definir como moda o valor mais frequente, quando comparada sua frequência com a dos valores contíguos de um conjunto ordenado. A moda pode não existir e, mesmo que exista, pode não ser única. Confira! Unimodal Amodal Bimodal X = 4, 5, 5, 6, 6, 6, 7, 7, 8, 8 moda = 6 – valor mais frequente – unimodal Y = 2, 3, 4, 5, 6 não tem moda – amodal Z = 2, 4, 4, 4, 6, 7, 8, 8, 8, 9 tem duas modas 4 e 8 – bimodal Conheça a fórmula para dados agrupados: MEDIANA é o valor que divide a distribuição em duas partes iguais. Sua fórmula é: Para pensar e calcular Considere a seguinte amostra de uma pesquisa feita com 15 consumidores que atribuíram as seguintes notas a uma mercadoria, numa escala de 0 a 100: 65, 68, 70, 75, 80, 80, 82, 85, 88, 90, 90, 95, 98, 100, 100. Com base nesses dados, calcule: • Média Aritmética Simples; • Moda; • Mediana. As informações a seguir correspondem aos dados agrupados de uma sondagem eleitoral de avaliação do Governador Maciel. Com base nesses dados, calcule: • Média; • Moda; • Mediana. Estatística aplicada / Aula 4 - Medidas de Ordenamento e Forma Introdução Nesta aula, estudaremos as demonstrações das medidas de separatrizes: Quartil, Decil e Centil. Trabalharemos, também, com exercícios para dados agrupados ou não agrupados. Distribuição de uma variável Na análise da distribuição de uma variável, há grande interesse de determinarmos qual o valor que divide a distribuição em duas partes iguais, quatro partes iguais, dez partes iguais e cem partes iguais. A estes valores (separatrizes) chamaremos respectivamente de: QUARTIS DECIS PERCENTIS Atenção O interesse no conhecimento das separatrizes decorre dofato de a partir delas podermos introduzir os índices de Pearson, de uso muito prático na descrição de uma variável X. Quartis Vejamos: Dividem a distribuição em quatro partes iguais. Sua fórmula é: Qnq = X ( nqn / 4 + ½) Decis Vejamos: Dividem a distribuição ordenada em dez partes iguais. Sua fórmula é: Qnq = X ( nqn / 10 + ½) Percentis Vejamos Os percentis dividem a distribuição ordenada em cem partes iguais. Eles podem ser obtidos por meio de uma equação similar à usada para a obtenção dos quartis e dos decis. Para pensar e calcular Considere a seguinte amostra de uma pesquisa feita com 15 consumidores que atribuíram as seguintes notas a uma mercadoria, numa escala de 0 a 100:65, 68, 70, 75, 80, 80 ,82 ,85, 88 ,90, 90, 95, 98, 100, 100. Com base nos dados ao lado, calcule: • 3º Quartil; • 7º Decil; • 60º Centil. GABARITO 3º Quartil Qnq = X ([nqn / 4 ] + ½) Q3 = X ([3 * 15 / 4 ] + ½) = X11,75 Q3 = X11,75 (Posição do 3º Quartil) X11 = 90 X12 = 95 Por regra de três, temos: 0,75 ------------------ 1 X ------------------ 5 (a diferença entre 90 e 95) X = 5 * 0,75 = 3,75, Logo somado a 90 temos Q3 = 90 + 3,75 = 93,75 7º Decil Dnq = X ([nqn / 10] + ½) D7 = X ([7 * 15 / 10] + ½ ) = X11 D7 = X11 (Posição do 7º Quartil) X11 = 90 D7 = 90 60º Centil Cnq = X (nqn / 100 + ½) C60 = (60 * 15 / 100 + ½) = X9,5 C60 = X9,5 C9 = 88 C0 = 90 Por regra de três, temos: 0,5 ----------------------------- 1 X -------------------------------- 2 (a diferença entre 90 e 88) X = 2 * 0,5 = 1, Logo somando a 88 temos X9,5 = 88 + 1 = 89 Para dados agrupados, utilizamos o centil para todos os casos (adaptando o quartil e o decil para o centil) C nx = Li + ( (nx * n – Faant)/ Fi ) * h Onde: n = quantidade da amostra nx = 1, 2, .....98,99 Li = limite inferior da classe encontrada h = amplitude do intervalo Faant = frequência acumulada anterior à da classe Ci fi = frequência absoluta da classe encontrada – Ci Abaixo, você encontra os dados agrupados de uma sondagem eleitoral de avaliação do Governador Maciel. Tomando-se estes dados por base, calcule: Classes Fi Fi 0 I----- 10 2 2 10 I----- 20 4 6 20 I----- 30 5 11 30 I----- 40 4 15 40 I----- 50 6 21 50 I----- 60 7 28 60 I----- 70 7 35 70 I----- 80 10 45 80 I----- 90 25 70 90 I----100 10 80 A - Qual será o 2º Quartil das notas agrupadas do Governador? B - Qual será o 6º Decil das notas agrupadas do Governador? C - Qual será o 72º Centil das notas agrupadas do Governador? GABARITO a) O segundo quartil corresponderá ao centil C50. Como temos 80 dados agrupados, o C50 dividirá a distribuição em duas áreas, a primeira contendo 40 observações ( = 80 * 0,50). A classe que contém esse valor é 60 - 70 e assim.... Li = 60 ; Percentil = 50 ; Faant = 35 ; fi = 10 ; h = 10. Assim C50 = 60 + (( 80*0,5-35 )/ 10 ) * 10 = 65 b) O sexto quartil corresponderá ao percentil C60 . Como temos 80 dados agrupados, o C50 dividirá a distribuição em duas áreas, a primeira contendo 48 observações ( = 80 * 0,60) . A classe que contém esse valor é 80 - 90 e assim.... Li = 80 ; Percentil = 60 ; Faant = 45 ; fi = 25 ; h = 20. Assim C60 = 80 + (( 80*0,6-45 )/ 25 ) * 10 = 81,20 c) Como temos 80 dados agrupados, o C72 dividirá a distribuição em duas áreas, a primeira contendo 57,6 observações ( = 80 * 0,72). A classe que contém esse valor é 80 - 90 e assim... Li = 80 ; Percentil = 72 ; Faant = 45 ; fi = 25 ; h = 10. Assim C50 = 80 + (( 80*0,72-45 )/ 25 ) * 10 = 90,50 Estatística aplicada / Aula 5 - Medidas de dispersão Introdução Nesta aula, estudaremos medidas de dispersão. Veremos, também, cálculo de desvio padrão, variância e coeficiente de variação. Medidas de Dispersão Nem sempre, quando se está estudando um grupo de dados, o conhecimento de um promédio é suficiente para se tirar conclusão a respeito desses dados. É necessário também o conhecimento da variabilidade dos dados. Assim, é que não se justifica calcular a média de um conjunto de dados onde não haja nenhuma variação desses elementos. Da mesma forma, não ajuda muito o conhecimento da média quando o conjunto de dados tiver uma variação muito grande. A tomada de decisões apenas com a média, por exemplo, de um conjunto de dados é inadequada, uma vez que os dados diferem entre si, em maior ou menor grau. Vejamos: Esses são Ana e João. Vamos descobrir qual o melhor entre esses 2 alunos, de acordo com suas notas? Ana João 10 matemática 10 português 10 história 2 geografia 9 matemática 7 português 9 história 7 geografia Média Ana: 10 + 10 + 10 + 2 = 32 32 / 4 = média 8 Média Ana: 9 + 7 + 9 + 7 = 32 32 / 4 = média 8 Atenção A média de ambos os alunos é 8, o que nos induziria a ter uma ideia de que ambos os alunos são do mesmo nível, o que não é verdade, já que a variabilidade das notas do João é menor. Desvio Padrão O desvio padrão de um conjunto de N números X1, X2, ... Xn é definido por: FÓRMULA NO EXCEL: S = (∑(Xi - X)² Fi) ^ (1/2) Propriedades do Desvio Padrão Somando-se ou subtraindo-se uma constante a cada elemento de um conjunto de números, o desvio padrão não se altera. Multiplicando-se ou dividindo-se cada elemento de um conjunto de números por uma constante, o desvio padrão fica multiplicado ou dividido pela constante. Para as distribuições simétricas (normais), tem-se: 68,72% das observações estão contidas entre X ± S 95,45% das observações estão contidas entre X ± 2S 99,73% das observações estão contidas entre X ± 3S Vejamos: VARIÂNCIA A variância pode ser definida como uma medida de dispersão que é o quadrado do desvio padrão, ou se preferir, o desvio padrão é a raiz quadrada da variância. COEFICIENTE DE VARIAÇÃO Onde: Cv: é o coeficiente de variação S: é o desvio padrão X: é a média dos dados O coeficiente de variação é dado em %, por isso a fórmula é multiplicada por 100. Estatística aplicada / Aula 6 – Gráficos Introdução Nesta aula, estudaremos o que deve ser considerado para a elaboração de um gráfico. Veremos também as maneiras em que eles podem ser classificados e os tipos de gráfico. Elaborando um gráfico Para a elaboração de um gráfico devem ser considerado os seguintes itens: a) Um título geral indicando a situação estudada, época e local; b) escalas e as respectivas unidades de medida; c) convenções adotadas; d) fonte de informação assinalando de onde foram retirados os valores. Os gráficos podem ser classificados de várias maneiras: QUANTO A FORMA a) Diagramas: gráficos geométricos dispostos em duas dimensões. b) Cartogramas: ilustrações relativas a cartas geométricas. c) Estereogramas: gráficos volumétricos com três dimensões. QUANTO AO USO a) Gráficos de Informação: destinados ao público em geral, sendo apresentados de forma completa e clara. b) Gráficos de Análise: tabelas de informação técnica e qualitativa. Tipos de gráficos Há diversos tipos de gráficos. Conheça cada um deles: Histograma É formado por um conjunto de retângulos justapostos, de tal forma que a área de cada retângulo seja proporcional à frequência da classe que ele representa. Os retângulos terão como base o eixo das abscissas, cuja largura será igual a amplitude do intervalo de classe. Diagrama Apresenta as frequências sob a forma de colunas verticais ou de barras.São empregados para representar frequência de dados categóricos ou nominais. Gráfico de Pareto Representa as frequências simples ou relativas das classes ou dos valores analisados, de forma ordenada, geralmente da classe de maior frequência para a de menor frequência. É considerado uma ferramenta para a Qualidade Total, no campo da gestão de empresas. Gráfico de Ogiva Representa as frequências geralmente mostradas no histograma. Gráfico BoxplotRepresenta a dispersão dos dados, revelando a mediana e os quartis (que são medidas de posição). Assim, é possível verificar a posição central do conjunto ordenado dos dados, denominado mediana, e as subdivisões das séries ordenadas, denominadas quartis. Gráfico de Setores Representa as frequências relativas ou simples sobre a forma de setores de círculo. Também é denominado “Gráfico de Pizza”. Gráfico de Dispersão Mostra a relação gráfica existente entre duas variáveis numéricas, como custos e vendas. Pictograma Construído a partir de figuras ou conjuntos de figuras representativas da intensidade ou das modalidades do fenômeno. Falhas na elaboração de gráficos Vejamos: • Gráfico sucata • Ausência de Base Relativa • Eixo Vertical Comprimido • Ausência do Ponto Zero Estatística aplicada / Aula 7 - Distribuições de Amostragem Introdução Nesta aula, estudaremos as distribuições de amostragem e sua contribuição para a elaboração de um Intervalo de Confiança. Problemas dos métodos de amostragem Zentgraf (2007) aponta que os métodos de amostragem podem apresentar alguns problemas em sua aplicação quando: • A população for muito pequena; • Os dados da população apresentarem volatilidade alta; • Houver casos de necessidade de previsão absoluta; • Os dados da população já estiverem disponíveis. Em uma pesquisa, buscamos uma amostra que seja representativa da população analisada. Porém, uma média amostral quase nunca será a mesma de uma média populacional, assim como o desvio padrão. Esse erro amostral existe independente da forma ou critérios de como uma determinada pesquisa foi elaborada. Exemplo Considere que, ao analisar 10.000 notas de Estatística do nosso EAD, verificamos uma nota média de 6, com desvio padrão de 1,2. Porém, ao retirar uma amostra de 50 alunos, verificamos uma nota média e desvio padrão diferentes do que o mensurado pela população. Erro padrão Na pratica, uma pesquisa dificilmente é realizada com mais de uma ou duas amostras. Seria difícil, dessa forma, chegar à chamada média das medias. O erro padrão da média é calculada pela divisão do desvio padrão da população pela raiz quadrada do tamanho da amostra. Vejamos: δx = δ / √n Atividade proposta Agora, vamos praticar? O valor médio em dólar das vendas de um determinado produto no último ano é conhecida como seguindo a distribuição normal com media de R$ 3.400,00 por revendedor a varejo, com desvio padrão de R$ 200,00. Se um grande número de revendedores comercializar o produto, determine o erro padrão da media para uma amostra de tamanho n=25. GABARITO δx = δ / √n = 200 / √25 = 200 / 5 = 40 Entretanto, em casos de uma nova amostragem ser feita em uma população finita sem reposição, os resultados novamente se distorceriam. A media e desvio padrão da população sem a amostra retirada se alteraria. Para isso, é necessário que possamos ter um fator de correção para populações. √(N - n) / (N - 1) Onde: n = tamanho da Amostra N = tamanho da população Vamos a mais um cálculo... Considere que a média de uma população seja de 50 e o desvio padrão 12. Considere também um tamanho da amostra de 36 escolhida de uma população de 100. Calcule: • Erro padrão da distribuição. • Fator de correção. Calculando o erro padrão da distribuição temos: δx = δ / √n = 12 / √36 = 12 / 6 = 2 √ (N - n) / (N - 1) = √ (100 - 36) / (100 - 1) = 0,80 Logo, multiplicamos o fator de correção pelo erro padrão da distribuição: 2 x 0,8 = 1,60 Estatística aplicada / Aula 8: Intervalos de Confiança Introdução Nesta aula, estudaremos as distribuições de amostragem e sua contribuição para a elaboração de um Intervalo de Confiança. Distribuição da Curva Normal Para compreendermos a aplicação do Intervalo de Confiança, precisamos ter noções sobre a Distribuição da Curva Normal. Características da distribuição normal: A variável pode assumir qualquer valor real; O gráfico da distribuição normal é uma curva em forma de sino, simétrica em torno da média; A área total sob a curva vale 1, porque corresponde à probabilidade de a variável aleatória assumir qualquer valor real; Como a curva é simétrica em torno da média, os valores maiores e os menores do que a média ocorrem com igual probabilidade; A configuração da curva é dada por dois parâmetros: a média e a variância. Mudando a média, muda a posição da distribuição; mudando a variância, muda a dispersão da distribuição. Agora que você já conhece as características da distribuição normal, confira a figura dos gráficos de cada uma das situações abaixo: Distribuição Normal Duas Distribuições Normais de mesma variância e com médias diferentes Duas Distribuições Normais de mesma média e com variâncias diferentes Os intervalos de confiança mais utilizados são os de 90%, , 95% e 99%, seguindo a tabela a seguir. Os modelos de aplicação do Intervalo de Confiança são baseados na premissa de que a distribuição normal pode ser usada com os seguintes dados: sempre a amostra deve ser igual/superior a 30; quando for menor do que 30, o desvio padrão é conhecido. Número de Unidades de Desvio Padrão a partir da Média Proporção Verificada 1,645 90% 1,96 95% 2,58 99% Cálculo de um intervalo de confiança Para calcular um intervalo de confiança, utiliza-se a seguinte fórmula: Xm +- Z δ x Xm é a média Z é o número de Unidades de Desvio Padrão a partir da Média δ x é o erro amostral Atividade Para pensar e Calcular Em uma dada semana, uma amostra de 30 empregados horistas é selecionada de um grande número de empregados de uma fábrica, teve uma média da amostra de salários de R$ 180,00, com desvio padrão da amostra de R$ 14,00. Estimamos a média dos salários para todos os empregados horistas na empresa com intervalo estimado de forma que podemos estar em 95% confiantes de que o intervalo inclui o valor médio da população da seguinte maneira: a) 1ª Etapa – Calcular o Erro Amostral b) 2ª Etapa – Identificar o Número de Unidades de Desvio Padrão a partir da Média c) 3ª Etapa – Aplicar a fórmula do Intervalo de Confiança GABARITO a) δ x = 14 / √30 = 2,56 b) 95% ---------- 1,96 c) Xm + Z δ x = 180 + 2,56*1,96 = 185,02 Xm - Z δ x = 180 - 2,56*1,96 = 174,98 O Intervalo de Confiança será entre 174,98 e 185,02. Atividade EM uma prova de AV1, uma amostra de 50 estudantes, uma média da nota de 6,5, com desvio padrão da amostra de 1,2, estimamos a média de notas de todos os alunos do EAD (Ensino a Distância) com intervalo estimado de forma que podemos estar em 99% confiantes de que o intervalo inclui o valor médio da população da seguinte maneira: a) 1ª Etapa – Calcular o Erro Amostral b) 2ª Etapa – Identificar o Número de Unidades de Desvio Padrão a partir da Média c) 3ª Etapa – Aplicar a fórmula do Intervalo de Confiança GABARITO a) δ x = 1,2 / √50 = 0,1697 b) 99% ---------- 2,58 c) Xm + Z δ x = 6,5 + 0,1697*2,58 = 6,94 Xm - Z δ x = 6,5 + 0,1697*2,58 = 6,06 O Intervalo de Confiança será entre 6,06 e 6,94. Estatística aplicada / Aula 9: Distribuição Normal Introdução Nesta aula, aprenderemos sobre a distribuição normal e sua aplicação em diversas áreas de gestão. Distribuição normal reduzida Denomina-se distribuição normal reduzida a distribuição normal de média zero e variância. As probabilidades associadas à distribuição normal reduzida são facilmente obtidas em tabelas (Área sob a curva normal padronizada compreendida entre os valores 0 e Z). Daí o interesse em estudar esse tipo particular de distribuição. Probabilidades na Distribuição Normal Suponhamos que uma nota média de estudantes em uma prova foi de 6 com desvio-padrão de 1,5. Para calcular probabilidades associadas à distribuição normal, usa-se um artifício. Sabe-se que, se X tem distribuição normal com média, e desvio padrão, a variável z. Esta variável corresponde a: Z = ( Xi Xm ) / DP Ou seja, o valor da variável menos a média,dividido pelo desvio-padrão. Para pensar e calcular Em homens, a quantidade de hemoglobina por 100ml de sangue é uma variável aleatória com distribuição normal de media 16g e desvio padrão de 1g. Com base nestes dados, calcule: A) A probabilidade de um homem apresentar de 16g a 18g de hemoglobina por 100ml de sangue. B) A probabilidade de um homem apresentar mais de 18g de hemoglobina por 100ml de sangue. Em um exame final de Matemática, a média foi 6,5 e o desvio padrão foi de 1,0. Com base nestes dados, determine a % de estudantes que obtiveram as seguintes notas: a) x>7,5 b) x>7,0 c) x>8,0 d) x>5,0 Estatística aplicada / Aula 10: Teste de Hipóteses Introdução Nesta aula, aprenderemos sobre a introdução aos testes de hipóteses bem como diversos tipos de testes não paramétricos. Distribuição normal reduzida Você já ouviu falar em Teste de Hipóteses? Teste de Hipóteses é um método utilizado para observarmos se determinados dados são compatíveis ou não com alguma hipótese levantada. Este procedimento estatístico tem como base a observação de uma amostra, sendo a teoria de probabilidades utilizada para verificar o comportamento de parâmetros desconhecidos numa população. O Teste de Hipóteses pode ser feito através de duas formas: Testes paramétricos Testes não paramétricos O uso tanto dos testes paramétricos como dos não paramétricos está condicionado à dimensão da amostra e à respectiva distribuição da variável em estudo. Testes paramétricos são baseados em parâmetros da amostra, por exemplo, média e desvio padrão. Os testes de hipóteses são sempre constituídos por duas hipóteses, a hipótese nula H0 e a hipótese alternativa H1. Hipótese existente, ou hipótese a ser testada – H0, que sempre alega a igualdade de um determinado parâmetro. Hipótese alternativa – H1, que sempre alega a desigualdade de um determinado parâmetro. Para a realização dos testes de hipóteses, temos que obedecer às seguintes etapas: • Formulação do Teste de Hipótese: Hipótese Nula (H0) e Alternativa (H1). • Escolha de Distribuição Normal Adequada. • Selecionar o nível de significância e região crítica do teste. • Estabelecer Regra de Decisão. • Selecionar a amostra, calcular a Estatística de teste e interpretar seus resultados. Para pensar e calcular Considere que um determinado professor anunciou que a média de nota de alunos em estatística foi de no mínimo 6,0 na AV1. Considerando um teste de hipótese com amostras de 50 elementos e um nível de significância de 5%, calcule: a) Se após os dados relativos a 50 elementos encontrarmos a média de 6,2 e desvio-padrão de 0,8. b) Se após os dados relativos a outra amostra com 50 elementos, encontrarmos a média de 5,7 e desvio-padrão de 1,2. GABARITO Etapa 1: H0 = 6,0 e H1<6,0 Etapa 2: Nível de Significância 5% Etapa 3: De acordo com a Distribuição Normal Reduzida, o Z para nível de significância de 5% é de – 1,65 Etapa 4: Utilização da fórmula Z = (6,2 -6) / (0,8/ √ 50) = 0,2 / 0,1131 = 1,7678 Como 1,7678> - 1,65, a hipótese nula será aceita. b) Etapa 1: H0 = 6,0 e H1<6,0 Etapa 2: Nível de Significância 5% Etapa 3: De acordo com a Distribuição Normal Reduzida, o Z para nível de significância de 5% é de – 1,65 Etapa 4: Utilização da fórmula Z = (5,7 -6) / (1,2/ √ 50) = -0,3 / 0,1131 = -2,6525 Como -2,6525 < -1,65, a hipótese nula será rejeitada. Ou seja, a informação da amostra não nos permite confirmar uma média 6,0 na prova com nível de significância de 5%. Testes não paramétricos Os testes não paramétricos envolvem casos em que não podemos supor características da população de onde a amostra foi extraída, como por exemplo, comportamento de distribuição normal. Conheça os principais testes não paramétricos. • Teste do Qui-Quadrado Utilizado na análise de frequências, no caso de análise de uma característica da amostra. • Teste do Qui-Quadrado para Independência ou Associação Utilizado na análise de frequências, no caso de análise de duas características da amostra. • Teste dos Sinais Utilizado em casos emparelhados, ou seja, submetido a duas medidas. • Teste de Wilcoxon Analisa os dados emparelhados considerando também as magnitudes encontradas. • Teste de Mann Whitney Analisa se dois grupos originam-se de populações com médias diferentes. • Teste da Mediana Análise de grupos que originam-se de populações com medianas diferentes. • Teste de Kruskal-Wallis Análise de grupos que originam-se de populações com médias diferentes.
Compartilhar