Baixe o app para aproveitar ainda mais
Prévia do material em texto
INSTITUTO POLITÉCNICOINSTITUTO POLITÉCNICOINSTITUTO POLITÉCNICOINSTITUTO POLITÉCNICO . Apostila de Estatística Prof. Jorge Bitencourt MsC. em Engenharia Elétrica 2 A NATUREZA DA ESTATÍSTICA Panorama Histórico Todas as ciências têm suas raízes na história do homem. A matemática, que é considerada “a ciência que une à clareza do raciocínio a síntese da linguagem”, originou-se do convívio social, das trocas, da contagem, com caráter prático, utilitário e empírico. A Estatística, ramo da Matemática Aplicada, teve origem semelhante. Desde a antigüidade, vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e social, distribuíam terras ao povo e cobravam impostos por processos que hoje chamaríamos de “estatísticas”. Na Idade Média colhiam-se informações, geralmente com finalidades tributárias ou bélicas. A partir do século XVI começaram a surgir as primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos. No século XVIII o estudo de tais fatos foi adquirindo, aos poucos, feição verdadeiramente científica. Godofredo Achenwall batizou a nova ciência de Estatística, determinando o seu objetivo e suas relações com as ciências. As tabelas tornaram-se mais complexas, surgiram as representações gráficas e o cálculo das probabilidades, e a Estatística deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostras). Atualmente o público leigo (leitor de jornais e revistas) posiciona-se em dois extremos divergentes e igualmente errôneos quanto à validade das conclusões estatísticas: ou crê em seus cálculos ou afirma que eles nada provam. Os que assim pensam ignoram os objetivos, o campo e o rigor do método estatístico; ignoram a Estatística, quer teórica quer prática, ou a conhecem superficialmente. Podemos dizer, então, que: A Estatística é uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. A coleta, a organização e a descrição dos dados estão a cargo da Estatística Descritiva, enquanto a análise e a interpretação desses dados ficam a cargo da Estatística Indutiva ou inferencial. Em geral, as pessoas, quando referem ao termo estatística, o fazem no sentido da organização e descrição dos dados (estatística do Ministério da Educação, estatística dos acidentes de tráfego etc.), desconhecendo que o aspecto essencial da estatística é o de proporcionar métodos que permitam conclusões que transcendam os dados obtidos inicialmente. Concluindo a análise e a interpretação dos dados estatísticos torna, possível o diagnóstico de uma empresa (por exemplo, de uma escola), o conhecimento de seus problemas (condições de funcionamento, produtividade), a formulação de soluções apropriadas e um planejamento objetivo de ação. 3 ÍNDICE 1- Introdução. 2- Método Estatístico. 3- Tabelas de freqüências. 4- Confecção de histogramas e polígonos de freqüência. 5- Cálculos dos parâmetros estatísticos. 6- Separatrizes. 7- Medidas de Assimetria. 8- Grau de Assimetria – Coeficiente de Pearson (As ou SK). 9- Coeficiente de variação 10- Curtose 11- Árvore de decisão probabilística 12- Árvore de decisão financeira 13- Árvore de decisão de produção 14- Apêndices 4 1 - INTRODUÇÃO. Há três ramos principais da Estatística: Estatística Descritiva, que descreve os aspectos importantes de um conjunto de características observadas e envolve a organização e a sumarização de dados; a teoria da Probabilidade, que proporciona uma base racional para lidar com situações influenciadas por fatores relacionados com o acaso, assim como estimar erros; e a teoria da Inferência, que envolve análise e interpretação de amostras. A Estatística, de modo geral, constitui um valioso instrumento para tomada de decisões. De um modo prático seria a ferramenta que possibilita a escolha de uma decisão certa num mundo de incertezas. Uma das suas características é o uso de modelos. Estes são formas simplificadas de algum problema ou situação real. A característica fundamental dos modelos é o fato de reduzirem situações complexas a formas mais simples e mais compreensíveis. A base dos estudos estatísticos está intimamente ligada aos fenômenos de populações que apresentam uma mesma característica. Entende-se, por população qualquer conjunto de fenômenos estudados ou a serem estudados, tais como objetos, pessoas ou acontecimentos. Essa população pode ser dividida em dois grupos: População finita ou população infinita. Quando nos referirmos a uma parte de população usaremos o termo AMOSTRA. O processo de obtenção de amostras é chamado de amostragem. A partir dos valores obtidos na amostra, começa-se a descreve-la para se poder pensar em caracterizar a população como um todo, generalizando para a população o dado proveniente da amostra. As atividades exploratórias das informações obtidas caracterizam a chamada estatística descritiva, a qual se ocupa da descrição, da organização e do resumo das observações obtidas, para proporcionar discernimento entre o comportamento de uma população e o comportamento de uma amostra. Generalizar para a população aquilo que se observou na amostra caracteriza a inferência estatística. "Milhões de aplicativos de software nos EUA são capazes de entender apenas códigos de área de três algarismos e números de telefone de sete algarismos. Atualizar todos esses aplicativos seria trabalhoso e caro. A estimativa é precisar adaptar cerca de 25 milhões de softwares." "O objetivo é que a amostra seja representativa do total de eleitores. Dessa forma, os resultados obtidos na pesquisa podem se'; estatisticamente, ampliados para os milhões de eleitores no Brasil (ou, no caso desta pesquisa, os eleitores de cada estado pesquisado)." A palavra inferência é utilizada em Estatística com dois significados: • Conclusões tiradas a partir de valores ou de evidências; • Processo utilizado para se chegar a essas conclusões. Necessitamos de um número que indica a chance (possibilidade) de determinada situação acontecer. Como as informações provêm de um conjunto menor que a população, cometem-se erros ao se fazer uma inferência. Esses erros são quantificados por um valor numérico, denominado probabilidade, o qual, além de lidar com situações influenciadas por fatores não controlados pelo analista, proporciona um modelo racional para lidar com a variabilidade inerente à natureza, bem como com situações relacionadas com o acaso. O conhecimento das probabilidades associadas a uma situação fornece a base para o desenvolvimento das técnicas da tomada de decisão, explica o funcionamento dessas 5 técnicas e indica de que modo as conclusões podem ser apresentadas e interpretadas corretamente. É importante enfatizar que a estatística descritiva e as probabilidades são ferramentas para a inferência estatística, a qual interpreta de duas maneiras os resultados obtidos a partir das amostras retiradas de uma população: ou fazendo uma estimação a respeito de uma característica da população cujo valor se desconhece, ou realizando um teste sobre essa característica, da qual se afirma ter um determinado valor. Em resumo, a Estatística pode ser entendida como sendo constituída das três seguintes áreas: a estatística descritiva, o cálculo das probabilidades e a inferência estatística. Uma visão sistêmica do que se estuda naquilo que se conhece por Estatística está na Figura 1. Figura 1 - Visão sistêmica da Estatística. Podemos dizerque, o estudo dos métodos estatísticos descritos como métodos científicos para se operar com números objetivos se resume na obtenção analítica e conclusões para, a partir daí, se basear nas decisões a serem tomadas, isto quando for possível obter informações. Caso contrário, ou seja, quando não dispomos de dados a serem estudados, a Estatística prevê princípios racionais e técnicas, que nos indicam quando e como podemos decidir estas informações parciais e incompletas. Generalizando, podemos dividir a Estatística em dois grupos: a) Estatística Descritiva, b) Estatística Analítica (Inferência Estatística). A Primeira destina-se à coleta e à demonstração dos dados através de tabulações, tabelas, gráficos, enquanto a segunda fica destinada à interpretação, conclusões e a tomada de decisão. Na inferência estatística usamos o cálculo de probabilidades para estimar possíveis erros. 6 2 - MÉTODO ESTATÍSTICO Podemos defini-lo em fases, sendo estas um processo utilizado para coletar, apresentar, descrever, interpretar e até mesmo prever os aspectos quantitativos dos fenômenos analisados, desde que eles possam conseguir a forma de contagem ou medida. As fases do método estatístico são: COLETA DE DADOS, APURAÇÃO DE DADOS, APRESENTAÇÃO DE DADOS, ANÁLISE, INTERPRETAÇÃO E CONCLUSÃO DE DADOS. A coleta de dados pode ser feita de duas maneiras: direta ou indireta. A escolha de técnicas para isso pressupõe certo conhecimento e questionamento acerca da população a ser investigada, indagando-se sobre a adequação ou não de determinados métodos e técnicas de pesquisa. Após a formulação e definição do problema a ser tratado na pesquisa. As técnicas de coleta de dados são instrumentos de conhecimento; contudo, quando não são tomadas as devidas precauções, podem apontar para resultados pouco confiáveis. Quando utilizamos amostras os tipos de amostragens mais utilizados são: 1) Amostragem casual ou aleatória ― Este tipo de amostra consiste no sorteio das pessoas, o que determina chance igual para todas. 2) Amostragem não-casual: Trata-se da seleção de um número de pessoas proporcional à importância das categorias que elas representam na população. 3) Amostragem por aglomerados: É aquela que se parte de uma seleção aleatória de pessoas representativas do grupo em estudo com potencial para fornecer informações confiáveis sobre a população em estudo. Depois dos dados coletados e apurados ou tabulado, eles podem ser apresentados sob a forma de tabelas, quadros ou gráficos. As tabelas em Estatística são denominadas Séries Estatísticas, as mais utilizadas são: Série Geográfica ou territorial, Série Histórica ou cronológica, Série Específica e a distribuição de freqüências, que é uma maneira de ordenar os dados estatísticos em linhas ou colunas, tornando possível a sua leitura, tanto no sentido horizontal quanto no vertical. Os gráficos estatísticos mais conhecidos são: Colunas ou barras, Linha, Curva, Setores, Pictogramas, Histograma e Polígono de Freqüências. 3 - TABELAS DE FREQUÊNCIAS Os dados coletados, quando apresentados desordenadamente, são denominados DADOS BRUTOS. Quando estes estiverem ordenados (crescente ou decrescentes), denominamos ROL. Para ordená-los, é aconselhável a elaboração de tabelas de freqüências. As tabelas de freqüências podem ser classificadas em: 1) Tabelas de freqüências para dados não agrupados ou não tabulados em classe. 2) Tabelas de freqüências para dados agrupados ou tabulados em classe (Método com Limites de Classe). Convém apresentarmos a seguir algumas definições. Chamamos de FREQUÊNCIA ABSOLUTA, o número de vezes que um dado se repete no ROL. O somatório das freqüências absolutas é chamado FREQUÊNCIA TOTAL. A razão entre a freqüência absoluta de um elemento (ou classe) e a freqüência total é denominada FREQUÊNCIA RELATIVA (Fri) do elemento ou da classe. Quando esta freqüência é multiplicada por 100 é denominada Freqüência percentual FR%=100.Fri 7 4 - CONFECÇÃO DE HISTOGRAMAS E POLÍGONOS DE FREQÜÊNCIAS. Procedimentos: A) Destaque a Quantidade de Classes dada no problema. B) Faça os Limites de Classes. Regra: b1) selecione o maior número da tabela. b2) selecione o menor número da tabela. b3) faça a conta: maior número menos o menor número mais 1 (“b1” – “b2” + 1). b4) divida o resultado encontrado em “b3” pela quantidade de classes dada no problema (item A). b5) arredonde o resultado dessa divisão SEMPRE (só se o resultado for fracionado) para o número inteiro seguinte. b6) com o resultado de “b5”, selecione o maior número da tabela e faça os limites de classes, de baixo para cima. C) Faça a Freqüências das classes. D) Faça as Marcas das Classes. E) Faça o HISTOGRAMA. F) Faça o POLÍGONO DE FREQÜÊNCIA. G) Tire as primeiras conclusões sobre os Gráficos. Veja a seguir o Exemplo Prático resolvido: 8 EXEMPLO 1 Em uma certa cidade, foram examinados os registros de óbito de 105 indivíduos, anotando- se a idade dos mesmos por ocasião do falecimento. Os resultados obtidos são dados na tabela 1 mostrada a seguir. É desejável reorganizar os dados de modo que eles retratem mais claramente a situação. Reorganize esses dados através de um histograma e de um polígono de freqüências. Utilize 12 classes. Tabela 1 79 75 67 74 81 69 67 79 66 80 64 57 67 65 90 64 77 80 68 62 73 70 46 58 71 91 78 67 68 62 73 71 78 72 76 43* 84 47 81 69 65 72 76 87 65 53 75 66 83 62 95 68 90 76 73 72 78 69 78 65 74 70 77 75 74 99** 78 62 77 71 78 62 73 88 76 66 73 71 92 58 74 82 53 66 76 73 93 80 74 77 72 69 82 75 77 74 69 71 73 64 51 71 73 84 72 Nesse exemplo, serão usadas 12 classes. Tendo decidido quanto ao número de classes, devemos especificar a sua construção. Primeiramente, observe que o maior (b1) e o menor (b2) números dentre os que aparecem são 99 e 43, respectivamente. Há 57 inteiros entre 43 e 99, inclusive (99 – 43 + 1) (b3). Assim sendo, as classes devem ser especificadas de modo a cobrir a extensão de 57 unidades (anos). Como vão ser usadas 12 classes, isso significa que cada classe deve conter, 57/12 = 4,75 anos (b4). É conveniente que cada classe contenha um número inteiro de anos, de modo que especificaremos que cada classe contenha 5 anos(arredondado para o maior inteiro)(b5) . Escolheremos então o ponto de partida (o maior número começando de baixo para cima)(b6) 40 – 44 70 – 74 45 – 49 75 – 79 50 – 54 80 – 84 55 – 59 85 – 89 60 – 64 90 – 94 65 – 69 95 – 99 ↑ início 9 Observe que cada idade enquadra-se exatamente em uma dessas classes. Note também que cada classe é especificada pelo menor e pelo maior dos valores que podem ser alcançados por membros da classe. Esses valores denominam-se limites de classe. Por exemplo, os limites de classe para a terceira classe são 50 e 54. Agora que as classes estão construídas, podemos distribuir os dados por elas. O número de valores da dados enquadrados numa classe em particular chama-se freqüência de classe. A freqüência de classe é indicada por “ f ” (“ f ” é a quantidade de vezes que o número aparece na amostra). Note que, como é natural, a soma das freqüências de classe deve ser igual a quantidade de números dados na amostra (neste caso, 105). Este fato pode ser usado como um meio de verificar a correção das freqüências atribuídas. Tabela 2 Limites de Freqüência Classes Classe Marcadoresde Contagem de Classe 1 40 – 44 I 1 2 45 – 49 II 2 3 50 – 54 III 3 4 55 – 59 III 3 5 60 – 64 IIII III 8 6 65 – 69 IIII IIII IIII IIII 20 7 70 – 74 IIII IIII IIII IIII IIII II 27 8 75 – 79 IIII IIII IIII IIII II 22 9 80 – 84 IIII IIII 10 10 85 – 89 II 2 11 90 – 94 IIII 5 12 95 – 99 II 2 ______________________________________________ 105_______ A tabela 2 é conhecida como tabela de freqüência ou de distribuição de freqüência da amostra. Note como a observação da tabela 2 permite mais informação e uma melhor compreensão dos dados do que a tabela 1. Prosseguindo com nossa organização dos dados, escolhemos um número que seja representativo de cada classe. O número mais comumente usado é o ponto médio da classe ou seja, a média entre os valores dos limites de classe. A tabela 3 mostra o cálculo das marcas de classe. 10 Tabela 3 Limites de Marcas Classes Classe Freqüência de Classe 1 40 – 44 1 42 2 45 – 49 2 47 3 50 – 54 3 52 4 55 – 59 3 57 5 60 – 64 8 62 6 65 – 69 20 67 7 70 – 74 27 72 8 75 – 79 22 77 9 80 – 84 10 82 10 85 – 89 2 87 11 90 – 94 5 92 12 95 – 99 2 97 105 Cálculo das marcas de classes: Para a primeira classe: 1 = (40 + 44) / 2 = 42 e assim por diante. O histograma dos dados deste exemplo é obtido da maneira seguinte: 1) Ao longo do eixo horizontal (eixo de “X”) marcamos, em escala, os limites de classes. 2) Sobre o eixo vertical (eixo de “Y”)marcamos as freqüências de classe. A tabela 4 nos dá uma nítida apresentação dos dados da amostra. Por exemplo, ela mostra claramente que a maioria dos indivíduos da amostra morreu aproximadamente entre os 59 e 85 anos de idade, como demonstrado no 1º gráfico chamado Histograma. Tabela 4 �������������������������������������������������������������������������������������������������������������������������������������������������������������������������������� ���� � �� ��� ���� � �� ��� ���� � �� ������� � �� ��� ���� � �� ��� ���� � �� ��� ���� � 4 4 4 9 5 4 5 9 6 4 6 9 7 4 7 9 8 4 8 9 9 4 9 9 0 0 0 5 10 15 2 0 2 5 3 0 N úm er o de In di ví du os Id ad e p or oc as ião d a m orte H is to g ram a 11 O segundo gráfico chama-se polígono de freqüência. É semelhante ao histograma, com a diferença de que no eixo horizontal são lançadas as marcas de classe, no eixo vertical na altura correspondente são lançadas as respectivas freqüências de classe (o nível da freqüência de classe representada pela respectiva marca de classe). Finalmente os pontos são ligados. Tabela 5 P o lígo no de F reqüência 00 05 10 15 20 25 30 37,0 42 47 52 57 62 67 72 77 82 87 92 97 102,0 Idade por oc as ião da morte N úm er o de in di ví du os 12 1º Trabalho Prático Em cada um dos problemas que se seguem, proceda como no exemplo 1 para se obter: 1) tabela de freqüência completa; 2) histograma; 3) polígono de freqüência 1) O presidente de uma companhia telefônica determinou que fosse feito um estudo sobre o número de chamadas telefônicas recebidas pela mesa telefônica da companhia através da confecção de um histograma e um polígono de freqüências. (Use 10 classes) 44 54 52 47 44 44 39 54 52 39 53 48 58 51 59 48 56 49 36 42 53 48 56 44 47 42 56 46 49 47 62 42 49 46 38 49 47 49 51 55 38 41 51 58 58 48 53 46 46 47 43 45 72 41 48 57 48 45 51 57 35 51 43 42 37 51 51 38 45 54 51 53 50 45 53 57 46 33 56 49 44 50 61 39 59 50 49 60 53 49 39 66 46 54 43 62 58 72 63 59 54 55 55 37 65 49 53 41 56 49 58 43 55 45 53 42 57 58 56 43 Resp: primeiro limite 33 a 72 “ f “= 3, 9, 18, 22, 23, 23, 14, 4, 2, 2 2) Foi aplicado um teste de aptidão escolar a uma amostra de 50 estudantes de 2º grau. As notas obtidas pelos 50 estudantes foram as seguintes: (Use 7 classes) 70 85 69 86 67 59 70 68 97 67 83 86 71 65 78 73 45 59 75 99 84 70 71 64 77 75 83 77 81 42 90 47 87 73 68 76 81 94 68 53 79 69 89 65 100 71 98 82 78 77 Resp: primeiro limite: 38 a 100 “ f ”= 2, 2, 3, 17, 12, 9, 5 13 3) O administrador de uma cidade está interessado em analisar o número de acidentes por mês em um certo cruzamento. De um arquivo especializado ele obtém o número de acidentes por mês durante os últimos meses. Os resultados são: (Use 9 classes) 2 5 4 3 2 2 1 5 5 1 5 3 3 4 6 3 6 4 1 2 5 3 3 2 3 2 5 3 4 3 8 2 3 3 1 4 3 4 4 5 1 2 4 6 6 3 5 3 3 3 2 2 12 2 3 6 3 2 1 6 0 4 2 2 1 4 4 1 2 5 4 5 4 2 5 Resp: primeiro limite –5 a 12 “ f “ = 0, 0, 1, 24, 31, 17, 1, 0, 1 4) O proprietário de um posto de combustível está interessado em analisar os intervalos de tempo entre as chegadas de fregueses ao posto, durante o período mais folgado do dia. Durante vários dias, ele mede o tempo (desprezando as frações de minuto) entre as chegadas de fregueses. Os resultados são os seguintes: (Use 12 classes) 1 8 6 2 1 1 0 7 6 0 7 3 3 5 13 3 10 3 0 1 7 3 2 1 3 1 7 2 4 3 19 1 3 2 0 4 3 3 5 8 0 1 5 12 13 3 7 2 2 3 1 2 42 1 3 11 3 2 5 11 0 5 1 1 0 5 5 0 2 8 5 6 4 2 7 11 2 0 10 3 1 4 16 0 13 4 3 15 7 4 0 25 2 8 1 19 12 39 20 14 7 9 9 0 23 4 7 1 9 3 12 1 9 2 7 Resp: primeiro limite -5 a 42 “ f “ = 0, 41, 35, 20, 10, 2, 3, 2, 0, 0, 0, 2 14 5) Um meteorologista está estudando padrões de temperatura no Arizona, durante os meses de março e abril. As temperaturas máximas diárias [º Fh] durante o período de 2 meses são as seguintes: (Use 5 classes) 73 69 73 67 72 70 73 72 71 84 73 66 73 70 73 71 76 83 77 72 76 75 85 77 72 76 75 85 67 77 86 82 85 72 64 84 81 83 81 79 85 82 83 82 79 80 81 77 70 80 86 91 85 83 78 95 82 90 80 78 94 84 85 84 77 Resp.: primeiro limite 61 a 95 “ f “ = 4, 17, 20, 20, 4 5 -CÁLCULOS DOS PARÂMETROS ESTATÍSTICOS Os Parâmetros Estatísticos mais importantes são as medidas de tendência central e as de dispersão (Espalhamento). Os mais utilizados são : a média aritmética, a mediana, a moda e o desvio padrão. 5.1. Medidas da Tendência Central Iremos a seguir apresentar algumas definições de parâmetros estatísticos. As médias se caracterizam por ser medidas de tendência central de uma amostragem. Normalmente se utiliza a média aritmética, pois a maioria dos casos a característica do conjunto é a soma de seus elementos. A média aritmética é útil para quantidades que seguem uma progressão aritmética. 5.1.1. MÉDIA ARITMÉTICA – No Excel – função MÉDIA N X X N i i∑ = = 1 5.1.2. MÉDIA PONDERADA – No Excel – função SOMARPRODUTOÉ a média resultante de um conjunto de valores, no qual alguns valores têm importância (ou quantidade de ocorrência) maior que os outros. ∑ ∑ = = = N i i N i ii P P XP X 1 1 15 Aplicações: cálculo de inflação, ranking, avaliações 5.1.3. MÉDIA GEOMÉTRICA – No Excel – função MÉDIA.GEOMÉTRICA É a raiz do produtório dos itens de um conjunto. Ë apropriada para utilização em quantidades que seguem leis de crescimento, progressões geométricas ou leis exponenciais. n nG xxxxX ...321= É fácil verificarmos que o valor de GX envolve o cálculo de produtos que facilmente chegam a resultados com valores muito elevados. Assim, é preferível se calcular o logaritmo da média geométrica do que o seu valor diretamente: )log( n 1)log( n 1i ∑ = = iG xX 5.1.4. MÉDIA HARMÔNICA – No Excel – função MËDIA.HARMÔNICA É o recíproco da média aritmética dos recíprocos dos valores envolvidos. É apropriada para lidar taxas, preços e velocidades, ou quando se apresenta uma relação inversa entre duas variáveis ( quando uma cresce, a outra decresce). ∑ = == n i i h x nXH 1 1 5.1.5. RAIZ MÉDIA QUADRÁTICA É apropriada para valores que incluem números negativos. n x RMQ n i i∑ = = 1 2 5.1.6. MEDIANA – No Excel –função MED É o valor do meio, isto é, divide a população em duas metades tal que a metade dos elementos possuem tamanho não menor do que a mediana, e a outra metade não mais que a mediana. É apropriada para distribuições que exibem valores extremos muito fortes. Não é afetada pelos valores extremos. Se a amostra tem um número par de observações, a mediana é obtida através da média do valor do parâmetro n/2 e para (n/2)+1. 5.1.7. MODA – No Excel – Função MODO É o valor que mais ocorre. É o valor de maior freqüência. É apropriada quando se deseja excluir a precisão aritmética deliberadamente em favor da apresentação de um resultado típico. Não é afetada pelos valores extremos. Geralmente é uma boa medida da tendência central, pois depende do agrupamento arbitrário dos dados em classes ou células (é sempre possível construir uma amostra onde a mais alta freqüência ocorre mais de uma vez). Entretanto, a moda pode ser usada na indústria para definir tamanhos de alguns produtos (como sapatos, camisas, calças, etc.). 5.2. Comparação dos Valores Centrais Cada observação pode ser vista como tendo uma massa unitária, neste caso, o ponto de equilíbrio é o centro de gravidade que é obtido pela fórmula da média aritmética. Assim, a média aritmética de uma amostra é o ponto de equilíbrio dos dados da amostra, atingindo numa distribuiçã assimétrica uma posição à direita da mediana. 5.2.1. Distribuições Simétricas O centro de gravidade está no eixo de simétria, todos os valores centrais coincidem. 5.2.2. Dis Se o espalhame média também ir 0 10 20 30 40 50 60 70 80 90 1 M oda=M édia=M ediana Fr eq uê nc ia o 16 tribuições Assimétricas nto for maior para a direita, a mediana cai à direita da moda. Neste caso, a á cair à direita da moda e da mediana. 0 20 40 60 80 100 120 Fr eq uê nc ia 17 5.3. Medidas de Dispersão Um parâmetro característico de uma amostra, além do valor central é a variação das observações das amostra, isto é, o quanto elas estão espalhadas. 5.3.1. Intervalo Também conhecido como Amplitude Total. É simplesmente a distância entre o maior e o menor valor da amostra. Não informa nada de uma distribuição exceto suas extremidades, que podem não ser confiáveis. 5.3.2. Desvio Médio Absoluto – Mean Absolute Deviation – No Excel – função DESV.MÉDIO Ë determinado calculando-se o desvio de cada valor observado em relação à média (xi – iX ); esses desvios são somados e divididos por n. Como os desvios positivos sempre irão ser cancelados pelos desvios negativos (produzindo um valor zero), os desvios devem ser tomados sempre em valores absolutos, evitando-se assim, o problema de sinal, entretanto o inconveniente é a função módulo: ∑ = −= n i i Xxn DMA 1 1 5.3.3. Desvio Médio Quadrático – Mean Squared Deviation – No Excel – função DESVQ Utiliza o valor quadrado dos desvios, ao invés de valores absolutos (que são matematicamente intratáveis), resolvendo desta maneira o problema do sinal: 2 1 )(1 Xx n DMQ n i i∑ = −= Para dados agrupados: ∑ = −= m i i XxDMQ 1 i2 n f )( 5.3.4. Variância e Desvio Padrão Dois pontos x1 e X fornecem um única distância Xx −1 Três pontos fornecem duas distâncias: Xx −1 e Xx −2 n pontos fornecem (n – 1) distâncias: Então, numa amostra, para tornar o desvio médio quadrático um estimador não tendencioso do espalhamento, utiliza-se o divisor (n – 1) ao invés de n na fórmula do desvio médio quadrático. Esta medida será chamada de variância amostral e é denotada pela letra latina s2. 18 5.3.4.1. Variância de uma amostra – No Excel – função VAR 2 1 2 )( 1 1 Xx n S n i i − − = ∑ = Para dados agrupados: i n i i fXxn S 2 1 2 )( 1 1 − − = ∑ = 5.3.4.2. Variância da população finita – No Excel – função VARP1 A variância da população finita é denotada pela letra grega σσσσ elevada ao quadrado – j σσσσ2 e é calculada por: ∑ = − = N i i N x 1 2 2 )( µµµµσσσσ onde: µ média da população finita N número toal de valores da população finita. 5.3.4.3. Desvio padrão da amostra – No Excel – função DESVPAD Para se compensar o fato das medidas estarem elevadas ao quadrado, o que altera as unidades das observações, emprega-se a raiz quadrada da variância que é denominada de desvio padrão. Desta maneira s é reduzido para as mesmas unidades das observações através de: 1 )( 1 2 − − = ∑ = n Xx S n i i 5.3.4.4. Desvio padrão da população finita – No Excel – função DESVPADP ∑ = − = N i i N x 1 2)( µµµµ σσσσ Em resumo, o desvio padrão é a raiz quadrada da variância. 1 No nosso curso iremos utilizar a variância e o desvio padrão da população finita no método em linha 19 5.4. Métodos de obtenção dos Parâmetros Estatísticos Existem 3 tipos de soluções distintas para o cálculo dos Parâmetros Estatísticos, são eles: • Cálculo dos parâmetros pelo Método em Linha; • Cálculo dos parâmetros pelo Método por Distribuição de Freqüências e • Cálculo dos parâmetros pelo Método com Limites de Classes. ! 1º Método - MÉTODO EM LINHA. Exemplo resolvido (MODÊLO): Numa família de 7 pessoas (pai, mãe, quatro filhos e avó), a variável X representa as idades em anos completos dessa família. As idades são: 45, 44, 21, 18, 16, 10 e 70. a) MÉDIA ARITMÉTICA Denominamos média de X, e indicamos por X , a média aritmética dos valores observados. No exemplo temos: X = 45+44+21+18+16+10+70 = 224 = 32 7 7 Isso significa que “cada membro da família tem, em média, 32 anos”. Na verdade, nenhum deles tem 32 anos. A interpretação que devemos dar é que, “se as sete pessoas tivessem a mesma idade, para dar a soma observada, que foi de 224 anos, logo X = 32 anos. b) MEDIANA Denominamos mediana de X, e indicamos por Md, ao termo central de seqüência formada pelos valores observados, quando colocado x em ordem crescente. No exemplo, ordenando os valores em ordem crescente, temos a seqüência: (10, 16, 18 21, 44, 45, 70) três termo três termos central termos O termo central vale 21, portanto Md = 21 anos. Casotenhamos uma quantidade par de termos, consideramos como mediana a média aritmética dos termos centrais. Assim, por exemplo, na seqüência: (0, 1, 1, 2 2, 3 4, 4, 5, 8) quatro termos quatro termos centrais termos os termos centrais são (2+3)/2, logo a Md é 2,5. Podemos interpretar a mediana dizendo que “em metade da população os valores observados são menores ou iguais à mediana, na outra metade eles são maiores ou iguais à mediana”. c) MODA Denominamos Moda e indicamos por Mo, o número que aparece mais vezes na amostragem. No nosso exemplo de idades de uma família, a nossa sequência é amodal já que não há repetição de nenhum deles. 20 d) O DESVIO PADRÃO Para calcularmos o Desvio Padrão, temos antes que calcular o “desvio” e a “variância” • Desvio Chamamos desvio de um valor de uma variável X à diferença entre esse valor e a média aritmética. No exemplo da família de 7 pessoas, os desvios das idades observadas abaixo são: (45 – 32), (44 – 32), (21 – 32), (18 – 32), (16 – 32), (10 – 32) e (70 – 32) logo: +13 +12 -11 -14 -16 -22 +38. Os desvios indicam o quanto cada valor está acima ou abaixo da média, conforme seja o sinal positivo ou negativo, respectivamente. A avó tem 38 anos mais que a média, enquanto o filho mais novo está 22 anos abaixo da média. A soma dos desvios é zero, o que acontece sempre. • Variância Denominamos variância de X, e indicaremos por “ V ” , a média aritmética dos quadrados dos desvios. No exemplo, temos: V = (13)2 + (12)2 + (-11)2 + (-14)2 + (-16)2 + (-22)2 + (38)2 = 2814 = 402 7 7 Note que, nesse exemplo, os desvios são medidos em anos; logo, os quadrados dos desvios são dados em (anos)2. Finalmente: Chamamos Desvio Padrão de X, e indicamos por σ ou “ DP “ a raiz quadrada da variância de X. No exemplo temos: DP = V = 402 ≅ 20 Note que DP é dado na mesma unidade dos desvios, logo DP = 20 anos. Como os desvios indicam afastamentos dos valores em relação à média, podemos interpretar a soma dos quadrados dos desvios como uma medida da dispersão total dos valores observados e, dessa forma, a variância representa uma média da dispersão dos valores. Isso significa que, entre dois conjuntos da mesma média, o de menor variância, portanto, de menor Desvio Padrão é aquele cujos elementos são “mais próximos” da média, ou mais concentrados em torno da média. 21 Exemplos Resolvidos: 1. As notas de um aluno em cinco provas foram 1, 2, 5, 8 e 9. Assim temos: __ Média: X = 1 + 2 + 5 + 8 + 9 = 25 = 5 5 5 Desvios: (1 – 5), (2 – 5), (5 – 5), (8 – 5), (9 – 5) - 4 - 3 0 3 4 Variância: V = (- 4)2 + (- 3)2 + 02 + 32 + 42 = 50 = 10 5 5 Desvio Padrão: DP = 10 ≅ 3,2 - Nas mesmas cinco provas, outro aluno tirou 3, 4, 5, 6 e 7. Para este temos: __ Y = 3 + 4 + 5 + 6 + 7 = 25 = 5 5 5 Desvios: (3 – 5), (4 – 5), (5 – 5), ( 6 – 5), (7 – 5) - 2 - 1 0 1 2 Variância: V = (- 2)2 + (- 1)2 + 02 + 12 + 22 = 10 = 2 5 5 Desvio Padrão: σσσσ = DP = 2 ≅ 1,4 Ambos tiveram a mesma média, mas o primeiro aluno teve notas mais dispersas, portanto variância e desvio padrão maiores que os do segundo aluno. Este teve notas mais próximas, mais concentradas em torno da média. Na prática deseja-se obter sempre Desvio Padrão pequeno, pois como foi visto, implica em uma homogeneização de comportamento. 2º Trabalho Prático 6) Na tabela abaixo estão as quantidades de telefonemas recebidos por um médico durante uma semana. Calcule a média, a mediana, a moda e o desvio padrão da variável X = número de chamadas por dia recebidas pelo médico naquela semana. Dia N.º de Chamadas Seg. 14 Ter. 8 Qua. 13 Qui. 17 Sex. 12 Sáb. 8 Dom. 5 7) As idades dos 6 jogadores de uma equipe de vôlei são: 28, 27, 28, 31, 25 e 28 anos. Calcule a média, a mediana, a moda e o desvio padrão dessa variável. 22 8) Mediram-se os tempos de reflexos de 10 motoristas diante de uma situação de emergência, obtendo-se os seguintes resultados: 0,7 0,9 0,8 1,0 0,7 0,6 0,9 0,7 0,8 0,9 Calcule o tempo médio de reflexo , a mediana , a moda e o desvio padrão. 9) As estaturas de bebês ao nascerem são, em centímetros: 48, 52, 53 e 54. a) Calcule a estatura média e o desvio padrão. b) Se após um mês cada bebê cresceu exatamente 3 cm, qual será a nova média e o novo desvio padrão? 10) Pesquisei o preço de um artigo em 6 lojas e obtive os seguintes valores em moeda nacional: 210.000 260.000 240.000 300.000 270.000 e 340.000. a) Calcule o preço médio e o desvio padrão. b) dividindo os preços dos artigos agora por 10.000, qual será a nova média e o novo desvio padrão ? Respostas: __ __ __ 6) X = 11 7) X = 27,83 8) X = 0,8 Md = 12 Md = 28 DP = 0,11 DP = Mo = 28 Md = 0,8 Mo = 8 Mo = 0,7 e 0,9 __ __ __ 9) a) X = 51,75 b) X = 54,75 10) a) X = 270.000 DP = 2,27 DP = 2,27 DP = 41.633 __ b) X = 27 DP = 4,16 ! 2º Método - MÉTODO POR DISTRIBUIÇÃO DE FREQÜÊNCIA Exemplo resolvido (MODÊLO): Numa classe de 25 alunos, há 2 que não tem irmãos, 8 que tem 1 irmão cada um, 11 que tem 2 irmãos cada um, 2 que tem 3 irmãos cada um, um com 4 irmãos e um com 5 irmãos. A distribuição de freqüência da variável X = número de irmãos Montando a tabela padrão para esse caso: X f X * f D = X – X d 2 d 2 * f 0 1 2 3 4 5 2 8 11 2 1 1 0 8 22 6 4 5 -1,8 -0,8 0,2 1,2 2,2 3,2 3,24 0,64 0,04 1,44 4,84 10,24 6,28 5,12 0,44 2,88 4,84 10,24 ∑ 25 45 29,80 23 _ a) Média: X = 45 = 1,8 25 b) Variância: V = 29,80 ≅ 1,19 25 c) Desvio Padrão: DP = 19,1 ≅ 1,1 d) mediana: Como n = 25, a mediana é o 13º termo da seqüência que colocando os valores observados em ordem crescente verifica-se que há dois valores iguais a zero, oito iguais a 1 e depois vem onze iguais a 2. Portanto, o 13º termo será igual a 2. (0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 3, 3, 4, 5) portanto: Md = 2 irmãos. e) Moda - Denominamos moda o valor de x que se apresenta maior freqüência. No exemplo: Mo = 2 irmãos. 3º Trabalho Prático 11) Nos primeiros jogos de um campeonato paulista, o Corínthians marcou as seguintes quantidades de gols: 0, 1, 0, 4, 0, 0, 0, 1, 3, 2, 5, 3, 4, 5, 4, 0, 3, 0 Agrupe esses dados numa tabela de freqüências e calcule a média, a mediana, a moda e o desvio padrão da variável X = número de gols por jogo. 12) As notas dos alunos de uma classe que valia 4 pontos foram: 3, 2, 2, 1, 4, 1, 0, 4, 3, 2, 3, 3, 4, 1, 1, 2, 2, 2, 0, 4, 1, 2, 3, 3, 3, 3, 1, 4, 0, 2, 2, 4, 3, 0, 2 Faça a tabela de distribuição de freqüências e calcule a média, a mediana, a moda e o desvio padrão das notas onde X é a nota dos alunos. 13) Numa empresa de grandíssimo porte a distribuição dos saláriosé a seguinte: n.º de empregados salários 12 8.000 5 12.000 3 20.000 a) Qual é o salário médio dos empregados dessa empresa? b) A empresa vai contratar um diretor geral e não gostaria de que a nova média salarial superasse o maior salário atual. Qual é o salário máximo que ela pode oferecer ao diretor? 14) Num feriado prolongado, desceram para as praias do litoral paulista 200 000 carros. Se 10% dos carros tinham só o motorista, 20% tinham 2 pessoas, 20% tinham 3 pessoas, 30% tinham 4 pessoas e 20% tinham 5 pessoas, em média quantas pessoas havia por carro? 15) Numa classe, 45% dos alunos são rapazes, que pesam em média 52 Kg. Sabendo que as moças pesam em média 42 Kg, qual o peso médio de todos os alunos da classe? 24 __ __ Respostas: 11) X = 1,94 12) X = 2,2 Md = 1,5 Md = 2 DP = 1,86 DP = 1,23 Mo = 0 Mo = 2 __ __ 13) a) X = 10.800 nº14) X = 3,3 b) X ≤ 204.000 15) 46,5 Kg ! 3º Método - MÉTODO COM LIMITES DE CLASSE Exemplo resolvido (MODÊLO): Consideremos a tabela abaixo e vamos calcular a média, a mediana, a moda e o desvio padrão da variável X = peso em gramas de cada criança Construa a tabela padrão para o caso de limites de classes: Classe de peso Ponto médio X Freqüência “f“ % X * f d = X – X d 2 d 2 * f 2460 – 2580 2580 – 2700 2700 – 2820 2820 – 2940 2940 – 3060 3060 – 3180 3180 – 3300 3300 – 3420 2.520 2.640 2.760 2.880 3.000 3.120 3.240 3.360 2 5 7 10 12 6 5 3 4 10 14 20 24 12 10 6 5.040 13.200 19.320 28.800 36.000 18.720 16.200 10.080 -430 -310 -190 -70 50 170 290 410 184.900 96.100 36.100 4.900 2.500 28.900 84.100 168.100 369.800 480.500 252.700 49.000 30.000 173.400 420.500 504.300 ∑ 50 100 147.360 2.280.200 __ __ a) Média: X = ∑ (xf) = 147.360 = 2.947,2 ⇒ X ≅ 2.950 g ∑ f 50 b) Variância: V = ∑ (d2f) ≅ 2.280.200 ⇒ V ≅ 45.604g2 ∑ f 50 c) Desvio Padrão: DP = V ≅ raiz quadrada de 45.604⇒ DP ≅ 213,55g d) Mediana Para calcular a mediana, recorremos ao histograma. Devemos procurar um ponto no eixo das abscissas, pelo qual uma reta vertical divide a área total do histograma ao meio. A abscissa desse ponto é a mediana da distribuição, uma vez que 50% dos valores observados estarão abaixo dela e 50% estarão acima dela. 25 24% 20% 2% 14% 12% 10% 10% 4% 6% Somando as porcentagens nas primeiras classes, obtemos 4% + 10% + 14% + 20% = 48% Precisamos de mais 2% para chegar aos 50%. Na classe 5 há 24%. Então, a mediana está na 5ª classe, entre 2940g e 3060. Divida este intervalo em duas partes, sendo o comprimento da primeira igual a 2/24 do comprimento total. Agora aplique a Fórmula fundamental da mediana: Fórmula fundamental da Mediana: Mediana – Patamar Inferior = F * (Patamar Superior – Patamar Inferior) B F = % de quanto falta para chegar a 50%. B = % da barra de trabalho (a barra que possui o 50%) Logo: (Md – 2.940) = 2 (3.060 – 2.940) 24 Md = 2.950g. Conclui-se que 50% dos pesos são menores ou iguais a 2.950g, e 50% são maiores ou iguais a 2.950g. Note que a mediana praticamente coincidiu com a média, cujo valor exato era X = 2.947,2g, mas isso não ocorre sempre. Cálculo da moda: Pegue a coluna de maior “ f ” e aplique a fórmula: Mo = l + L Mo = 2.940 + 3.060 = 3.000 2 2 4º Trabalho Prático 16) O professor de estatística de uma faculdade experimentou dar uma prova sem limite de tempo para os alunos. Os alunos presentes gastaram os tempos indicados na tabela: Tempo n.º de alunos 100 – 120 12 120 – 140 20 140 – 160 16 160 – 180 14 180 – 200 8 200 – 220 6 220 – 240 4 Soma = 50% 2460 2580 2700 2820 2940 3060 3180 3300 3420 l = Limite Inferior da Barra de Trabalho L = Limite Superior da Barra de Trabalho 26 Calcule a média e o desvio – padrão dessa distribuição. a) Faça o histograma, indicando as porcentagens de cada classe. b) Calcule a mediana. Respostas: a) X = 155 b) Md = 150 DP = 33,69 Exercício Resolvido Importante Calcule Md (Mediana) e DP (Desvio Padrão) da amostragem abaixo. (Use 9 classes) 18 13 95 101 121 38 8 3 55 62 18 54 62 18 93 91 84 43 20 54 1º Passo: Faça a conta n.º maior da amostragem – n.º menor da amostragem + 1 121 – 3 + 1= 119 2º Passo: Dividir n.º encontrado pelo n.º de classes, ou seja, por 9 (nove) 119 : 9 = 13,22 3º Passo: Arredondar o n.º encontrado para o inteiro seguinte, ou seja, para 14 4º Passo: Fazer a tabela padrão Classe Limites f x x * f d= x – x d 2 d 2 * f 1 - 5 -------- 9 2 2 4 - 50,15 2.515,02 5.030,04 2 10 -------- 23 5 16,5 82,5 - 35,65 1.270,92 6.354,60 3 24 -------- 37 0 30,5 0 - 21,65 468,72 0 4 38 -------- 51 2 44,5 89 - 7,65 58,52 117,04 5 52 -------- 65 5 58,5 292,5 6,35 40,32 201,6 6 66 -------- 79 0 72,5 0 20,35 414,12 0 7 80 -------- 93 3 86,5 259,5 34,35 1.179,92 3.539,76 8 94 -------- 107 2 100,5 201 48,35 2.337,72 4.675,44 9 108 --------121 1 114,5 114,5 62,35 3.887,52 3.887,52 ∑ 20 1.043 23.806 27 Onde: - f é quantidade de vezes que o número se repete na amostragem, dentro da classe (parâmetro). - x é a média aritmética entre o patamar superior e inferior de cada classe, ou seja, soma- se os dois patamares e divide-se por dois. - x * f é a multiplicação ente os dois 5º Passo: Fazer o Cálculo de x Cálculo de x x = Σxf Σf x = 1.043 20 x = 52,15 6º Passo: Fazer o Cálculo do Desvio Padrão (DP) e da Variância (V) Cálculo da Variância (V) Cálculo do DP (Desvio Padrão) V = Σ d2f Σ f V = 23.806 20 V = 1.190,3 DP = V DP = 1.190,3 DP = 34,50 7º Passo: Fazer o Cálculo das porcentagens de cada barra, para colocação no Histograma. - Utilizar a seguinte fórmula f * 100 Σ f f * 100 Σ f 2 * 100 20 10% f * 100 Σ f 5 * 100 20 25% f * 100 Σ f 0 * 100 20 0% f * 100 Σ f 2 * 100 20 10% f * 100 Σ f 2 * 100 20 25% f * 100 Σ f 0 * 100 20 0% f * 100 Σ f 3 * 100 20 15% f * 100 Σ f 2 * 100 20 10% f * 100 Σ f 1 * 100 20 5% 28 8º Passo: Fazer o Histograma Barra de Trabalho 5 25% 25% 4 3 15% 2 10% 10% 10% 1 5% 0 0% 0% -6 9 23 37 51 65 79 93 107 121 Na classe consta – 5 subtrair sempre 1 para que as barras fiquem do mesmo tamanho. 9º Passo: Fazer o Cálculo da Mediana (Md) Mediana – Patamar Inferior = F * (Patamar Superior – Patamar Inferior)B Onde: - Patamar Inferior é o menor número da Barra de Trabalho. - Patamar Superior é o maior número da Barra de Trabalho. - Barra de Trabalho é a barra onde estiver incluso 50% - B é a percentagem da Barra de Trabalho - F é a percentagem que faltou para chegar a 50% na barra anterior à Barra de Trabalho Md - 51 = 5 * (65 - 51) 25 Md - 51 = 0,2 * 14 Md - 51 = 2,8 Md = 2,8 + 51 Md = 53,8 R E S P O S T A Mediana (Md) = 53,8 Desvio Padrão (DP) = 34,5 6 -AS SEPARATRIZES Como vimos, a mediana caracteriza uma série de valores devido à sua posição central. No entanto, ela apresenta uma outra. característica, tão importante quanto a primeira: ela separa a série em dois grupos que apresentam o mesmo número de valores. Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda característica, já que se baseiam em sua posição na série. Essas medidas – os quartis, percentis e os decis – são juntamente com a mediana, conhecidas pelo nome genético de separatrizes. 29 6.1. OS QUARTIS Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há portanto, três quartis: a) O primeiro quartil (Q1) – valor situado de tal modo na série que uma Quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. b) O segundo quartil (Q2) – evidentemente, coincide com a mediana (Q2 = Md). Parâmetro esse que já sabemos calcular através da utilização do histograma (visto no capítulo anterior) c) O terceiro quartil (Q3) – valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma Quarta parte (25%) é maior. AS FÓRMULAS: h f F f IQ ANT − += ∑ )( 1 4 h f F f IQ ANT − += ∑ )( 3 4 3 onde: l = limite inferior da linha de trabalho F (ant) = F acumulado da linha anterior a linha de trabalho f = freqüência da linha de trabalho h = subtração entre os limites superiores e inferior da linha de trabalho OBS: Q4 = É o último número da amostragem ( não é necessário fórmula para o seu cálculo). 6.1.1. CÁLCULO DA LINHA DE TRABALHO PARA Q1 1) Faça a coluna de “F” acumulados; 2) Some as freqüências e divida por 4; 3) Com o valor encontrado em 2, vá na coluna dos F acumulados e veja entre quais limites de classes está situado esse valor (pegue a linha de baixo); 4) Essa linha será a linha de trabalho. Obs.: a) Para o cálculo da LT para Q3 no passo 2 faça o somatório das freqüências multiplicado por três e dividido por 4. b) Para o cálculo da LT para os percentis faça o número do percentil multiplicado pelo somatório das freqüências dividido por 100. 30 Exemplo: Calcule Q1 e Q3 da tabela abaixo. Tabela ESTATURAS (CM) f F 150 – 154 154 – 158 158 – 162 162 – 166 166 – 170 170 - 174 4 9 11 8 5 3 4 13 ← (Q1) 24 32 ← (Q3) 37 40 ∑ 40 Primeiro Quartil Terceiro Quartil Localizar L T Localizar L T Temos: Temos: ∑ f = 40 = 10 3∑ f = 3 X 40 = 30 4 4 4 4 Q1 = 154 + (10 – 4) 4 = Q3 = 162 + (30 – 24) 4 = 9 8 Q1 = 154 + 24 = Q3 = 162 + 24 = 9 8 Q1 = 154 + 2,66 = 156,66 Q3 = 162 + 3 = 165 Q1 = 156,7 cm Q3 = 165 cm 6.2. Os Percentis Denominamos percentis os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos: P1, P2, ...,P32, ......,P99..... É evidente que: P50 = Md, P25 = Q1 e P75 = Q3 O cálculo de um percentil segue a mesma técnica do cálculo da mediana, porém, a fórmula ( ∑ f )/2 será substituída por: (K∑ f )/100 31 Sendo k o n0 de ordem do percentil. Exemplo: Considerando a tabela anterior calcule o oitavo percentil: K = 8 ⇒ 8∑ f1 = 8 x 40 = 3,2 ( com esse valor vá a coluna de "F" acumulado 100 100 e descubra a linha de trabalho) Logo: P8 = 150 + (3,2 – 0) 4 = 150 + 12,8 = 150 + 3,2 = 153,2 4 4 P8 = 153,2 cm 6.3. Gráfico “ Quartis X Percentis” (fornece valores de “Q’ e “P” graficamente) F acumulado = eixo y limites de classes = eixo x a a a a a ! Para a elaboração do eixo x, basta ordenar os limites de classes em ordem crescente respeitando o espaço entre os limites de classes com a mesma unidade. (dimensão a). ! Para a elaboração do eixo y, pegue o F acumulado total e divida-o por 4. Esse valor chame de A. Eixo Y terá sempre 5 pontos. Faça: Y 4A (1º ponto) = 100% 3A (2º ponto) = 75% 2A (3º ponto) = 50% A (4º ponto) = 25% F = 0 (5º ponto) = 0% ! Trace retas paralelas passando por esses 5 (cinco) pontos ao eixo X. ! Trace retas perpendiculares ao eixo X passando pelos limites de classes. 32 ! Marque os F acumulados referentes a cada limite de classe (considere o limite superior), na reta perpendicular traçada no item anterior. - Ligue os pontos. F total = A F acumulado 4 Q4 Q2(Md) Q3 Q1 150 160 170 180 1º Corte com paralela dá Q1 2º Corte com paralela dá Q2 3º Corte com paralela dá Q3 Obs.: A obtenção das separatrizes pelo método gráfico gera um erro de cerca de 10% no valor encontrado devido as imperfeições de desenho e escala utilizados. O cálculo de separatrizes pelo método convencional ( por fórmulas) não gera erro. Exercício resolvido: Calcule Q1, Q2, Q3, P10 e P90 graficamente da tabela apresentada anteriormente de estaturas de pessoas. 5º Trabalho Prático 17) Calcule o primeiro e o terceiro quartis dos 2 quadros abaixo: Quadro 1 Quadro 2 I) Notas f II) Salários(R$) F 0 –2 15 500 – 700 18 2 – 4 28 700 – 900 31 4 – 6 34 900 – 1100 15 6 – 8 40 1100 – 1300 3 8 – 10 57 1300 –1500 1 1500 –1700 1 1700–1900 1 Respostas: I)Q1 = 4,03 II) Q1 = 694 Q3 = 8,47 Q3 = 946 33 18) Calcule o 10º, o 1º, o 23º, o 15º, e o 90º percentis nas tabelas a seguir: a) Salários b) Pesos (R$) f (Kg) f 500 – 700 18 145 – 151 10 700 – 900 31 151 – 157 9 900 – 1.100 15 157 – 163 8 1.100 – 1.300 3 163 – 169 6 1.300 – 1.500 1 169 – 175 3 1.500 – 1.700 1 175 – 181 3 1.700 – 1.900 1 181 – 187 1 Respostas: P10 = 577,77 P10 = 147,4 P1 = 507,77 P1 = 145,24 P23 = 678,88 P23 =150,52 P15 = 616,66 P15 = 148,60 P90 = 1.086,66 P90 = 175 19) Complete com (V) ou (F) ( ) 8º deciI = 88º percentil ( ) 2º quartil = 25º percentil ( ) 25º decil = 1º quartil ( ) 4º quartil = 1000º percentil ( ) 33º percentil = 3,03º decil ( ) 75º decil = 3º quartil ( ) Mediana = 5º percentil ( ) 10º percentil = 1º decil ( ) 7,5º decil = 3º quartil ( ) 2º quartil = 50º percentil 20) Calcule na tabela a seguir os valores de Q1, Md , P31 e D9. Meses Dados Meses Dados Janeiro 9 Julho 32 Fevereiro 15 Agosto 25 Março 23 Setembro Zero Abril 29 Outubro 18 Maio 17 Novembro 14 Junho 13 Dezembro 30 Respostas: Q1 =3,31 Md =6,2 P31 = 3,78 D9 = 11,25 34 21)DADOS OS CONJUNTOS: A= (10,11,12,13) B= (9, 11, 8, 15) C= (6, 8, 10,12) PEDE-SE: a) Qual o conjunto que possui maior desvio padrão? Qual é esse valor? Resposta: Conjunto B valor = 2,68 b) Se aumentarmos cada elemento do conjunto “A” de 2 unidades, os de “B “ de 1 unidade e o conjunto “C “ permanecendo fixo, qual deles terá a menor variância? Qual é esse valor? Resposta: Conjunto “A” valor = 1,25 c) Tomamos todos os números dos conjuntos “A”, “B “ e “C “ e formando um único conjunto, qual será a mediana e a moda? Resposta: Md = 10,5 Mo = 8,10, 11 e 12 22) Uma indústria com funcionários tem suas faixas salariais conforme tabela abaixo: Nº de empregados salários 10 ---------------------------------------- 500,00 15----------------------------------------- 650,00 14----------------------------------------- 810,00 04-----------------------------------------1.200,00 A empresa deseja contratar dois gerentes (produção e Administrativo), pagando salários iguais para ambos, mas quer que a média de sua folha de pagamento não ultrapasse o maior salário pago atualmente na empresa. Qual deve ser o salário oferecido para os gerentes? Resposta: R$ 11 .555,00 23)Aplicou-se uma prova de estatística em certa turma onde a média final foi 6,5. Sabendo- se que a média dos rapazes foi 4,5 e das moças foi 8,0, pergunta-se: Qual a percentagem de moças que fizeram a prova? Resposta: 57.14% 24) Fui informado que o edifício Palace lI, possuía 20 aptos com 4 quartos, 35 com 3 quartos, 40 com 2 quartos e 85 com apenas 1 quarto. Calcule a média, a moda, a mediana e o desvio padrão da situação acima, considerando “X” = nº de quartos. Resposta: X = 1,94 Mo = 1 25) Uma empresa dividiu seus funcionários em classes de idade, onde o intervalo de cada classe era de 4 anos. Sabendo-se que o mais jovem possuía 21 anos e o mais velho 60 anos e a freqüência de classes da menor idade para maior idade era 3, 8, 4, 6, 10, 5, 3, 8, 4, 1 Calcule: a) A Mediana Resposta = 38 b) O Desvio Padrão Resposta = 9,91 35 7 - MEDIDAS DE ASSIMETRIA Embora as distribuições de frequência possam tomar praticamente qualquer forma, a maioria das distribuições que encontramos na prática podem ser descrita satisfatoriamente por alguns tipos-padrão. De suma importância é a distribuição que se aproxima da forma de um sino exibida na figura abaixo, conhecida como distribuição simétrica (Moda=Média=Mediana). Figura 7-1. Distribuição em forma de sino – Simétrica Entretanto, a maioria das distribuições não são simétricas, portanto são denominadas de distribuições assimétricas. São de 2 tipos: Assimétrica Positiva e Assimétrica Negativa. 1º tipo: Assimétrico à direita ou negativo – o gráfico está tombado para o lado direito. Figura 7-2. Distribuição negativamente assimétrica Média ( X ) < Mediana 0 10 20 30 40 50 60 70 80 90 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Moda=Média=Mediana Fr eq uê nc ia 0 20 40 60 80 100 120 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Fr eq uê nc ia 36 2º tipo: Assimétrico à esquerda ou positivo – o gráfico está tombado para o lado direito do gráfico Figura 7-3. Distribuição positivamente assimétrica Média ( X ) > Mediana Podemos utilizar a relação entre a média e mediana para definir uma medida relativamente simples de assimetria, chamada coeficiente de assimetria de Pearson, que é dado por SK ou As. σ − = )(3 MedianaXSK Como vamos necessitar dos valores da Média, Mediana e do Desvio-Padrão para obtermos o coeficiente de Pearson, faremos uma Revisão do Cálculo da Média Aritmética e Moda Sem e Com Limites de Classes CÁLCULO DA MÉDIA ARITMÉTICA SEM Limite de Classe Exemplo: Calcule a Média da tabela abaixo: x F f * x 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 ∑ = 34 ∑ = 78 Aplique a Fórmula: 0 20 40 60 80 100 120 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Fr eq uê nc ia 37 x = ∑ x f x = 78 x = 2,29 ∑ f 34 COM Limite de Classe Exemplo: Calcule a média da tabela abaixo Estaturas (cm) F x f * x 150—154 4 152 608 154-—158 9 156 1.404 158—162 11 160 1.760 162—166 8 164 1.312 166—170 5 168 840 170—174 3 172 516 ∑∑∑∑ 40 6.440 Aplique a mesma Fórmula: ∑ ∑ = f xf X = 6440/40 = 161 CÁLCULO DA Mo (MODA) SEM limite de classe Nº de meninos F 0 2 1 6 2 10 3 12 4 4 Imediato: Quem tiver maior “f ”, será a moda. Mo = 3 COM limite de classe Fórmula: Mo = (l + L)/2 l = Limite inferior da linha de trabalho L = Limite superior da linha de trabalho Exemplo: Calcule a moda da tabela a seguir: Estaturas (cm) F 150—154 4 154—158 9 158—162 11 162—166 8 166—170 5 Mo = (158 + 162)/2 = 160 Mo = 3 Linha de Trabalho (maior f) 38 6º Trabalho Prático 30.Diga para as distribuições A, B e C a seguir, se são: " Assimétrica Negativa " Assimétrica Positiva Distribuição A Distribuição B Distribuição C Pesos (kg) F Pesos (kg) f Pesos (kg) f 2 – 6 6 2 – 6 6 2 – 6 6 6 – 10 12 6 – 10 12 6 – 10 30 10 – 14 24 10 – 14 24 10 – 14 24 14 – 18 12 14 – 18 30 14 – 18 12 18 – 22 6 18 – 22 6 18 – 22 6 ∑ 60 ∑ 78 ∑ 78 8 - CÁLCULO DO GRAU DE ASSIMETRIA Fórmula Fundamental: σ − = )(3 MedianaXSK Se: SK ≤ 0,15 gráfico simétrico 0,15 < SK ≤1 assimétrico moderado SK > 1 assimétrico forte SK é conhecido como Coeficiente de Pearson2, os valores de SK situam-se entre –3 e 3. Se a média for menor que a mediana a assimetria é negativa e quando a média for maior que a mediana teremos assimetria positiva. Revisão do cálculo da mediana (Md) e Desvio Padrão (DP) sem e com limites de classes CÁLCULO DA Md (MEDIANA) Sem limites de classe 1. Calcule 2 ∑ f 2. Com o valor encontrado em 1, vá na coluna do “f” acumulado e ache a posição que o engloba (pegue a linha de baixo). Exemplo: Calcule a mediana da tabela a seguir: 2 A divisão pelo desvio-padrão torna SK independente da unidade de medida. 39 Idades Número de pessoas(y) F acumulado 0 1 2 3 4 2 6 10 12 4 2 8 18 30 34 ∑ 34 2 ∑ f = 34/2 = 17 a maior freqüência acumulada que supera esse valor é 18, que corresponde ao valor 2 da variável, sendo este o valor mediano. Logo: Md = 2 meninos b) Com limites de classes Aplique a Fórmula: h f F f IQM ANT D − +== ∑ )( 2 2 Onde: l = limite inferior da linha de trabalho F (ant) = f acumulado anterior da linha de trabalho h = diferença dos limites de classe da linha de trabalho f = freqüência da linha de trabalho Exemplo: Calcule a mediana da tabela abaixo Estruturas (cm) f F acumulado 150—154 4 4 154—158 9 13 158—162 11 24 LT 162—166 8 32 166—170 5 37170—174 3 40 ∑ 40 Localizando a linha de trabalho: 2 ∑ f = 40/2 = 20 vá com esse valor na coluna dos F acumulados Localizada a linha de trabalho, aplique a fórmula: 40 54,160 11 413 2 40 158 = − +=DM ou poderia ter sido feito pelo uso do histograma e a fórmula específica para esse caso. CÁLCULO DO σσσσ (DESVIO-PADRÃO) a) SEM limites de classe Aplique a Fórmula: 2 2 −==σ ∑ ∑ ∑ ∑ f xf f fx DP Exemplo: Calcule o DP da tabela abaixo: X F x f x 2f 0 2 0 0 1 6 6 6 2 12 24 48 3 7 21 63 4 3 12 48 ∑ 30 63 165 Logo: 2(63/30)- 30 165 ==σ DP = 1,044 b) COM intervalos de classes. Exemplo: Calcule o DP do quadro abaixo: I Estaturas (cm) f x f * x f * x 2 1 150—154 4 152 608 92.416 2 154—158 9 156 1.404 219.024 3 158—162 11 160 1.760 281.600 4 162—166 8 164 1.312 215.168 5 166—170 5 168 840 141.120 6 170—174 3 172 516 88.752 ∑ 40 6.440 1.038.080 Logo: ( ) 567,531259212595240/6440 40 1038080 2 ==−=−=DP Agora podemos aplicar a fórmula do coeficiente de assimetria, já que fizemos uma revisão do cálculo de Md e σ . 41 σ − = )(3 MedianaXSK Exemplo: Determine o grau de assimetria da tabela abaixo: Pesos (Kg) x x * f f * x2 Número de alunos F acum. 50 a 58 Kg 54 540 29.160 10 10 58 a 66 Kg 62 930 57.660 15 25 66 a 74 Kg 70 1750 122.500 25 50LT 74 a 82 Kg 78 1872 146.016 24 74 82 a 90 Kg 86 1376 118.336 16 90 90 a 98 Kg 94 940 88.360 10 100 ∑ 7408 562.032 100 a) Cálculo de x = 7408 = 74,08 100 b) Cálculo de Md Localizando LT de Md 100 = 50 2 h f F f IQM ANT D − +== ∑ )( 2 2 ( ) 74 25 )6674(2550662 = −− +== QMD c)Cálculo de DP 12,2 100 7408 100 562032 2 = −==σ DP SK = 3(74,08 – 74)/2,12 = 0,11 o gráfico é simétrico pois SK < 0,15. 42 9 - COEFICIENTE DE VARIAÇÃO - CV Fornece a percentagem de afastamento de um ponto de um gráfico para outro em média. DP = desvio padrão X = média Utilizado quando se deseja comparar produtos no tocante a variações de medidas e desempenho. Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos: x DP Estaturas 175 cm 5,0 cm Pesos 68 Kg 2,0 Kg Temos: CVE = 5 x 100 = 0,0285 x 100 = 2,85% 175 CVP = 2 x 100 = 0,0294 x 100 = 2,94% 68 Logo, nesse grupo de indivíduos, os pesos apresentam maior grau de dispersão que as estaturas. Exercício resolvido: Calcule o CV das distribuições abaixo: a) Massa de alunos: 80 – 76 – 45 – 39 – 62 – 70 – 82 – 55 b) Altura de alunos 1,55 – 1,71 – 1,80 – 1,93 – 1,74 – 1,51 – 1,65 – 1,77 Solução de a: a)CV = DP x 100 x Cálculo de x x = ∑ y = 80 + 76 + 45 + 39 + 62 + 70 + 82 + 55 → x = 63,63 n 8 100. X DPCV = 43 Cálculo de DP V = √ ( 16,38 )2 + ( 12,37 )2 + ( 18,63 )2 +( 24,63 )2 + ( 1,63 )2 + ( 6,37 )2 + ( 18,37 )2 + ( 8,63 )2 = √1.830,20 8 8 → √228,78 → = 15,13 DP é a raiz quadrada da variância, logo: raiz quadrada de 228,76 é igual a 15,13. Logo: CV = 15,13 x 100 = 23,77% Resposta: Pontos afastados em 23,77% 63,63 Solução de b: Cálculo de x x = ∑ y = 1,55 + 1,71 + 1,80 + 1,83 + 1,74 + 1,51 + 1,65 + 1,77 = 13,66 → x = 1,7075 n 8 8 Cálculo de DP V = √ ( 0,1575 )2 + ( 0,0025 )2 + ( 0,0925 )2 + ( 0,2225 )2 + ( 0,0325 )2 + ( 0,1975 )2 + ( 0,05 )2 + ( 0,0625 )2 = 8 → √ 0,13015 → √ 0,0161679 → V = 0,127549 8 DP é a raiz quadrada da variância, logo: raiz quadrada de 0,0161679 é igual a 0,127549 Logo: CV = 0,127549 x 100 = 7,46% 1,7075 Resposta: Pontos afastados em 7,46% Exemplo prático: Sucessivas medidas do diâmetro de um mancal, efetuadas com um micrômetro, acusaram média de 2,49 mm e desvio-padrão de 0,012mm; e várias medidas de comprimento natural de uma mola (não-distendida) efetuadas com outro micrômetro acusaram média de 0,75 “, e desvio-padrão de 0,012”. Qual dos dois é relativamente mais preciso? Solução: Calculando os dois coeficientes de variação, obtemos: %27,0%100 75,0 002,0 %48,0%100 49,2 012,0 == == CV CV O segundo micrômetro é mais preciso, por apresentar medidas relativamente menos variáveis. Como ambos os coeficientes de variação são inferiores a 1% , ambos revelam alta precisão. 44 10 - CURTOSE Mede o grau de achatamento de uma distribuição. São de 2 tipos: 1º Tipo: LEPTOCÚRTICO (Distribuição Fechada) – Gráfico Alto e Fino 2º Tipo: PLATICÚRTICO(Distribuição Aberta) - Gráfico Baixo e Gordo Fórmula Fundamental: )(2 1090 13 PP QQ C − − = Já que sabemos todos os elementos acima Se: C ≤ 0,263 curva leptocúrtica (gráfico alto e fino) C > 0,263 curva platicúrtica (gráfico baixo e gordo) Exemplo numérico resolvido: Calcule o coeficiente de curtose a analise a distribuição quanto ao seu achatamento. Salários (R$) x Y 500 – 700 17 700 – 900 32 900 – 1100 16 1100 – 1300 4 1300 – 1500 12 1500 – 1700 23 1700 – 1900 31 Solução Cálculo de Q1 1) Cálculo dos “y” acumulados Salários (R$) Y y acumulados 500 – 700 17 17 (P10) 700 – 900 32 49 (Q1) 900 – 1100 16 65 1100 – 1300 4 69 1300 – 1500 12 81 1500 – 1700 23 104 (Q3) 1700 – 1900 31 135 (P90) ∑ 135 2) ∑ y = 135 = 33,75 localizo a linha de trabalho 4 4 45 2) Aplico a fórmula: Q1 = l + ∑ y - y (ant.) * h 4 y Q1 = 700 + (33,75) - 17 x 200 = Q1 = 804,67 32 Cálculo de Q3 Localização da linha de trabalho 3∑ y = 3 x 33,75 = 101,25 localizo a linha de trabalho 4 Aplicando a fórmula: Q3 = 1500 + (101,25 - 81) x 200 = Q3 = 1.676,08 23 Cálculo de P10 Localização da linha de trabalho (L.T) K ∑ y = 10 x 135 = 13,5 localizo a linha de trabalho 100 100 Fórmula: PK = l + K ∑ f - F (ant) * h 100 y P10 = 500 + 10 x 135 - 0 * 200 = 658,82 17 Cálculo de P90 K ∑ y = 90 x 135 = 121,5 localizo a linha de trabalho 100 100 Aplicando a fórmula: 90,1812 31 104)200-(90x135 1700P10 =+= 46 Cálculo de curtose )(2 1090 13 PP QQ C − − = C = 1.676,08 – 804,69 = C = 0,3775 2*(1.812,90 – 658,82) Como 0,3775 é > 0,263 é curva PLATICÚRTICA (baixa e gorda) 7º Trabalho Prático 31.Considere as seguintes medidas, relativas a três distribuições de freqüência: Distribuições Q1 Q3 P10 P90 A 814 935 772 1.012 B 63,7 80,3 55,0 86,6 C 28,8 45,6 20,5 49,8 Calcule os respectivos graus de curtose. Faça seus gráficos. Respostas: A) Leptocúrtica = 0,252 B) Leptocúrtica = 0,2626 C) Platicúrtica = 0,287 47 Tabela de gráficos estatísticos Gráficos Nome CCL (Reta / Parábola / Espalhado) (Sempre ≤ 1.0) AS (Coeficiente de assimetria) (Simétrico / Assimétrico) __ X – Mo (Cálculo do tombamento) C (curtose) (Alto / Fino) (Baixo / Gordo) 1 Retas Ascendentes 0.6 1.0 ______________________ ___________ ________________ 2 Retas Descendentes -0.6 -1.0 ______________________ ___________ ________________ 3 Espalhado 00.3 ______________________ ___________ ________________ 4 Simétrico Padrão 0.3 0.6 AS ≤ 0.15 ___________ C = 0.263 5 Simétrico Alto – fino 0.3 0.6 AS ≤ 0.15 ___________ C < 0.263 6 Simétrico Baixo – gordo 0.3 0.6 AS ≤ 0.15 ___________ C > 0.263 7 Assimétrico Moderado Esq. Baixo-gordo 0.3 0.6 AS 0.15 1.0 - C > 0.263 8 Assimétrico Forte Esq. Baixo-gordo 0.3 0.6 AS 1.0 - C > 0.263 9 Assimétrico Moderado Dir. Baixo–gordo 0.3 0.6 AS 0.15 1.0 + C > 0.263 10 Assimétrico Forte Dir. Baixo-gordo 0.3 0.6 AS 1.0 + C > 0.263 11 Assimétrico Moderado Esq. Alto-fino 0.3 0.6 AS 0.15 1.0 - C ≤ 0.263 12 Assimétrico Forte Esq. Alto-fino 0.3 0.6 AS 1.0 - C ≤ 0.263 13 Assimétrico Moderado Dir. Alto-fino 0.3 0.6 AS 0.15 1.0 + C ≤ 0.263 14 Assimétrico Forte Dir. Alto-fino 0.3 0.6 AS 1.0 + C ≤ 0.263 Bolinha aberta – Não considera o número Bolinha fechada – Considera o número 48 Exercícios de Revisão 32) Obedecendo a nomenclatura apresentada anteriormente para os 14 gráficos estatísticos existentes (de “1” até “14”), preencha os parênteses com o número correspondente as situações descritas. T a b e l a ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) x - Mo + + - - + - + + + - AS 0,4 0,08 0,17 1,2 0,12 - 3,4 - 1,43 0,84 4,3 - 2,2 Curtose 0,202 0,89 0,104 0,369 0,263 0,17 0,555 1,101 5,4 0,100 CCL 0,59 0,4 0,4 0,59 0,35 0,3 0,51 -0,2 0,29 0,8 33)Calcule o coeficiente de Pearson da tabela a seguir, onde é mostrado a evolução do número de alunos que concluíram o curso de Antropologia ao longo dos anos no Brasil. (utilize 2 casas decimais) Resposta: SK = 5,22% Anos Formandos 1950 24 1958 33 1965 18 1971 55 1974 60 1983 11 1987 15 1995 36 1996 42 34)Determine o tipo de assimetria da tabela abaixo, pelo método estatístico da moda e seu grau de assimetria. Faça seu gráfico. Resposta : assimétrico à direita e SK = - 0,58 Pesos dos alunos Nº de Alunos 50 – 58 quilos 10 58 – 66 quilos 12 66 – 74 quilos 17 74 – 82 quilos 20 82 – 90 quilos 25 90 – 98 quilos 34 EXERCíCIO Observações importantes: a) TODOS os itens respondidos abaixo devem possuir memória de cálculo, caso contrário o item será zerado. b) Ao inventar seus dados, promova uma parábola assimétrica. 49 35) Enunciado do trabalho: Invente dados estatísticos com 9 limites de classes e responda as seguintes perguntas: a) Qual a média aritmética? b) Qual o desvio padrão? c) Qual a mediana? d) Qual a moda? e) A tabela possui formato de um reta, parábola ou espalhada? Atenção: tem que ser parábola, caso contrário o trabalho não será corrigido. f) A parábola é tombada para direita ou para esquerda? g) A parábola é do tipo: simétrica, assimétrica moderada ou assimétrica forte? Atenção: tem que ser assimétrica, caso contrário o trabalho não será corrigido. h) É do tipo: leptocúrtica ou platicúrtica? i) Esboce seu gráfico final, levando em consideração todos os itens relevantes acima. j) Qual o percentual da defasagem dos pontos? Veja a solução do exercício tipo “molde” a seguir: Macanduba do Norte é uma pequena cidade do interior, cuja população absoluta constitui-se de apenas 60 pessoas. Visando analisar a faixa etária dos habitantes da cidade, a prefeitura de Macanduba do Norte realizou um censo, no mês de Maio de 1998, obtendo os seguintes resultados: • 13,3% da população têm entre 0 e 20 anos; • 6,7% da população têm entre 20 e 40 anos; • 41,7% da população têm entre 40 e 60 anos; • 16,7% da população têm entre 60 e 80 anos; • 21,6% da população têm entre 80 e 100 anos; A partir dos valores descrito, a prefeitura da cidade montou a seguinte tabela: Idade Nº de Habitantes 0 – 20 8 20 – 40 4 40 – 60 25 60 – 80 10 80 – 100 13 Total 60 Cálculos e Tabelas Tabela para resolução das letras “a”, “b”, “c”, e “d”. Idade x y x * y x2 * y y ant 0 – 20 10 8 80 800 8 20 – 40 30 4 120 3600 12 40 – 60 50 25 1250 62500 37 60 – 80 70 10 700 49000 47 80 –100 90 13 1170 105300 60 ∑ 250 60 3320 221200 50 a) Média de amostragem: x = ∑ x * y → 3.320 → x = 55,33 ∑ y 60 b) Desvio Padrão: DP = √ ∑ x2 * y - ∑ x * y 2 ∑ y ∑ y DP = √ 221.200 - 3.320 2 → √ 3.686,66 – 3061,4 → √ 625,26 → DP = 25,00 60 60 c) Mediana: Md = l + ∑ y - y (ant) * h → 40 + 60 - 12 * 20 → 40 + 360 → 2 2 25 y 25 → 40 + 14,4 = 54,4 → Md = 54,4 d) Moda: Mo = 40 + 60 = 50 → Mo = 50 2 Tabela para resolução da letra “e” Idade x y x * y x2 y2 0 – 20 10 8 80 100 64 20 – 40 30 4 120 900 16 40 – 60 50 25 1250 2500 625 60 – 80 70 10 700 4900 100 80 –100 90 13 1170 8100 169 ∑ 250 60 3320 16500 974 Cálculo de x – Mo = 55,33 – 50 = 5,33 positivo ( tombado para a direita) g)Coeficiente de Assimetria: SK = 3 * (x – Md) = 3 * (55,33 – 54,4) = 3* (0,93) = 3 * 0,037 = 0,17 é assimétrico - ok DP 25 25 Tabela para resolução da letra “h” Idade Y y ant. 00 – 20 8 8(P10) 20 – 40 4 12 40 – 60 25 37(Q1) 60 – 80 10 47(Q3) 80 – 100 13 60(P90) ∑ 60 51 Curtose • L.T de Q1 : ∑ y = 60 = 15 4 4 Q1 = l + ∑ f - y (ant.) * h = 40 + ( 15 – 21 ) * (40 – 20) y 25 Q1 = 40 + 3 * 20 = 40 + 60 = 40 + 2,4 = 42,4 25 25 • L.T de Q3 : 3 * ∑ y = 3 * 60 = 180 = 45 4 4 4 Q3 = l + 3 * ∑ y - y (ant.) * h = 60 + ( 45 – 37 ) *( 80 – 60) 4 10 y Q3 = 60 + 8 . 2 = 60 + 16 = 76 • L.T de P10 : 10 * ∑ y = 10 * 60 = 600 = 6 100 100 100 P10 = l + 10 * ∑ y - y (ant.) * h = 0 + ( 6 – 0 ) * (20 – 0) = 120 = 15 100 8 8 y • L.T do P90 : 90 * ∑ y = 90 * 60 = 5.400 = 54 100 100 100 P90 = l + 90 * ∑ y - y (ant.) * h = 80 + ( 54 – 47 ) * ( 100 – 80 ) 100 13 y P90 = 80 + 7 * 20 = 80 + 140 = 80 + 10,76 = 90,76 13 13 Curtose = == − − = )76,75(2 6,33 1576,90(2 4,4276 )P - 2(P Q - Q 1090 13 0,22 i) Gráfico de Amostragem: • Curtose = 0,22 < 0,263 Alta e fina é o gráfico “13” da tabela • SK= 0,17 > 0,15 Assimétrico • x – Mo = + Tombado para direita 52 j) Coeficiente de variação de amostragem: CV = DP * 100 = 25 * 100 = 0,45 * 100 = 45 Os pontos estão afastados em 45%. x 55,33 36) Calcule o coeficiente de curtose e esboce o seu gráfico da tabela abaixo. (utilizar 2 casas decimais) Resposta: 0,325 - Platicúrtica Salários (R$) f 50 – 58 quilos 10 58 – 66 quilos 12 66 – 74 quilos 17 74 – 82 quilos 20 82 – 90 quilos 25 90 – 98 quilos 34 11 – ESPAÇO AMOSTRAL FINITO 11.1. Espaço Amostral É o conjunto de todos os resultados possíveis
Compartilhar