Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Marco Antônio Santoro Bara FUNDAÇÃO DE ESTUDOS SOCIAIS DO PARANÁ ESTATÍSTICA APLICADA ALUNO:__________________________________________________________________ 2 Marco Antônio Santoro Bara Nota sobre o autor Marco Antônio Santoro Bara é Bacharel em Administração de Empresas pela FESP (Fundação de Estudos Sociais do PR), é Licenciado em Matemática pela UFPR (Universidade Federal do PR) é pós-graduado em Matemática Superior pela FUSVE-RJ, é pós-graduado em EaD pela FESP, é mestre em Administração na área de Finanças pela UFRGS e doctor of Philosophy in Business Administration pela Flórida Christian University. Certificou-se junto a Case Western Reserve University em parceria com a UNINDUS (Universidade da Indústria da FIEP) no curso de Investigação Apreciativa (I.A.), metodologia utilizada no Fórum Paraná Futuro 10. É professor universitário das disciplinas: Matemática Financeira, Cálculo Diferencial e Integral, Lógica Matemática e Estatística na FESP (Fundação de Estudos Sociais do PR); lecionou ainda: Geometria Analítica, Matemática Financeira na Escola Técnica da UFPR (Universidade Federal do PR) nos cursos presenciais e lecionou ainda em parceria com o ITDE a disciplina de estatística no módulo à distância; lecionou por mais de 10 anos: Matemática Financeira, Pesquisa Operacional no UNICENP (Centro Universitário Positivo). Além da experiência em sala de aula como professor, atuou também na indústria, durante 5 anos na Nestlé Industrial e Comercial na área Administrativa – Financeira e atualmente é sócio proprietário da Mbara Empreendimentos Imobiliários LTDA, sócio proprietário da ENZE Curitiba – Distribuidora de Cosméticos e ainda é funcionário do Banco do Brasil. Dedico este material didático aos meus filhos Ana Paula e Rodrigo Augusto. 3 Marco Antônio Santoro Bara ESTATÍSTICA 1.0 ALGUMAS DEFINIÇÕES DE ESTATÍSTICA Etimologicamente a palavra estatística vem de “status” expressão latina que significa: ”sensu lato”, o estudo do estado. Os primeiros a empregarem esse termo foram os Alemães seguidos pela Itália, França, Inglaterra e ainda por outros países. Para Levasseur a estatística é: “O estudo numérico dos fatos sociais”. Yule define estatística como: “Dados quantitativos afetados marcadamente por uma multiplicidade de causas”. Uma definição mais usual nos dias de hoje seria: “Um método científico que permite a análise, em base probabilística, de dados coligados e condensados”. Ou ainda podemos dizer que Estatística é um conjunto de métodos quantitativos, que servem para a coleta, organização, redução e apresentação de dados, análise dos mesmos e a obtenção de conclusões válidas e tomadas de decisões a partir de tais análises. Estatística pode ser entendida como sendo a ciência de aprendizagem a partir de dados. No nosso cotidiano, precisamos tomar decisões, muitas vezes decisões rápidas. Assim podemos dizer que a Estatística fornece métodos que auxiliam o processo de tomada de decisão. 1.1 POR QUE ESTUDAR ESTATÍSTICA? O raciocínio estatístico é largamente utilizado no governo e na administração; assim, é possível que, no futuro, um empregador venha a contratar ou promover um profissional por causa do seu conhecimento de estatística. Essa é uma razão, esperamos que ao final deste trabalho o leitor encontre suas próprias razões. 1.2 A NATUREZA DOS DADOS Os dados estatísticos constituem a matéria prima das pesquisas estatísticas, eles surgem quando se fazem mensurações ou se restringem observações. Estatística descritiva: Trata-se da descrição e resumo dos dados. Probabilidade: É um estudo que envolve o acaso. Inferência: É a análise e interpretação de dados amostrais (Amostragem). Modelos: São versões simplificadas (abstrações) de algum problema ou situação real. 4 Marco Antônio Santoro Bara 1.3 TIPOS DE DADOS Quantitativos Contínuos Discretos Qualitativos Nominais Por postos As variáveis contínuas podem assumir qualquer valor num intervalo contínuo. Os dados referentes a tais variáveis dizem-se dados contínuos. Ex.: peso, comprimento, espessura onde se usa a mensuração. As variáveis discretas assumem valores inteiros de dados discretos são os resultados da contagem de números de itens. Ex.: alunos da sala de aula, número de defeitos num carro novo, acidentes de uma fábrica. Os dados nominais surgem quando se definem categorias e se conta o número de observações pertencentes a cada categoria. Atuam dentro das variáveis “Qualitativas”, às quais devemos associar a valores numéricos para que possamos processar estatisticamente. Ex.: cor dos olhos (azuis, verdes, castanhos), sexo (masculino e feminino), desempenho (excelente, bom, sofrível, mau), etc. Os dados por postos consistem de valores relativos atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc. Ex.: concurso de beleza se classificam em 1ª, 2ª, 3ª colocadas. TABELA 1: A mesma população pode originar diferentes tipos de dados. TIPOS DE DADOS POPULAÇÕES CONTÍNUOS DISCRETOS NOMINAIS POR POSTO Alunos de administração idade/peso N. de classes Homens/Mulheres 3º grau 5 Marco Antônio Santoro Bara 1.4 TIPOS DE LEVANTAMENTOS Os levantamentos podem ser classificados em contínuos, periódicos e ocasionais: CONTÍNUOS: Quando os eventos vão sendo registrados à medida que ocorrem. Exemplos os registros civis dos fatos vitais (nascimento, óbitos e casamentos). PERIÓDICOS: Acontecem ciclicamente. Exemplo é o recenseamento, feito no Brasil a cada dez anos. A realização de um Censo Demográfico representa o desafio mais importante para um instituto de estatística, sobretudo em um país de dimensões continentais como o Brasil, com 8 514 215,3 km2, composto por 27 Estados e 5 507 municípios existentes na data de referência da pesquisa, abrangendo um total de 54 265 618 de domicílios pesquisados (dados do IBGE sobre o Censo de 2000). OCASIONAIS: São aqueles realizados sem a preocupação de continuidade ou periodicidade preestabelecidas, exemplos a maioria dos trabalhos de investigação cientifica. Os dados ainda podem ser classificados em: primários e secundários. DADOS PRIMÁRIOS: Quando o investigador não encontra dados publicados adequados ao seu estudo, parte para a realização de um inquérito, isto é, os dados são levantados diretamente na população no momento da investigação. DADOS SECUNDÁRIOS: Quando o investigador para verificar as suas hipóteses de trabalho utiliza-se de dados já existentes, arquivados, registrados ou publicados. Podem ser, até mesmo, dados gerados pelo Departamento de Estatística de Populações da Fundação Instituto Brasileiro de Geografia e Estatística (IBGE). 1.5 PLANEJAMENTO DE EXPERIMENTOS 1- Definição do problema: Um Estudo ou Uma Análise 2- Formular plano adequado para coleta de dados 3- Organizar os dados 4- Analisar e interpretar os dados 5- Relatar as conclusões 6 Marco Antônio Santoro Bara EXERCÍCIOS 1- Identifique os seguintes exemplos em termos de tipos de dados: a- 17 gramas b- 3 certos, 2 errados c- 25 segundos d- 25 alunos na classe e- tamanho de camisa f- Km/litro g- O mais aprazívelh- O mais lento i- 5 acidentes no mês de maio 2.0 AMOSTRAGEM AMOSTRAGEM VERSUS CENSO: Uma amostra usualmente envolve o estudo de uma parcela dos itens de uma população, enquanto que o censo requer o estudo de todos os itens. Restrições ao Censo: - Custo - Populações infinitas - Dificuldade nos critérios (Precisão) - Produtos de testes Destrutivos (fósforos, munições) - Tempo despendido (atualização) - Tipos de informações mais restritivas Casos de exceção: - Populações pequenas - Amostras grandes em relação à população - Se exige precisão completa - Se já são disponíveis informações completas 7 Marco Antônio Santoro Bara 2.1 DEFINIÇÕES: POPULAÇÃO: é o conjunto de indivíduos (ou objetos), que tem pelo menos uma variável comum observável. População é a totalidade dos elementos de um conjunto com uma dada característica, no qual se deseja fazer um determinado estudo. AMOSTRA: é qualquer subconjunto da população extraída para se realizar estudos estatísticos. A estatística indutiva é a ciência que busca tirar conclusões probabilísticas sobre a população, com base em resultados verificados em amostras retiradas dessa população. Entretanto não basta que saibamos descrever convenientemente os dados da amostra para que possamos executar, com êxito, um trabalho estatístico completo. Antes de tudo é preciso garantir que a amostra ou amostras que serão utilizadas sejam obtidas por processos adequados. - O que é necessário garantir, em suma, é que a amostra seja “Representativa” da população. Dois aspectos nas amostras são fundamentais, e que dão a sua representatividade em termos: - Qualitativos: Amostras que representem todas as subpopulações, quando for o caso. - Quantitativos: Que possua quantidade de dados suficientes para representar a população. Na indústria onde amostras são frequentemente retiradas para efeito de Controle da Qualidade dos produtos e materiais, em geral os problemas de amostragem são mais simples de resolver. Por outro lado, em pesquisas sociais, econômicas ou de opinião, a complexidade dos problemas de amostragem são normalmente bastante grandes. 8 Marco Antônio Santoro Bara Inferência estatística envolve a formulação de certos julgamentos sobre um todo após examinar apenas uma parte, ou a amostra, dele. A probabilidade e a amostragem estão estreitamente correlacionadas e juntas formam o fundamento da teoria de inferência. - Amostragem é o ato de retirar amostra, isto é, a ação. - Amostra é a quantidade de dados especificados para representar a população. Amostragem aleatória permite estimar o valor do erro possível, isto é, dizer “quão próxima” está a amostra da população, em termos de representatividade. Amostragem não aleatória não apresenta esta característica. Há vários métodos para extrair uma amostra, talvez o mais importante seja a amostragem aleatória. De modo geral, a amostragem aleatória exige que cada elemento tenha a mesma oportunidade de ser incluído na amostra. Nas Populações discretas uma amostra aleatória é aquela em que cada item da população tem a mesma chance de ser incluído na amostra. Nas Populações contínuas, uma amostra aleatória é aquela em que a probabilidade de incluir na amostra qualquer intervalo de valores é igual à percentagem da população que está naquele intervalo. Populações finitas: é quando, temos constituído por números finitos, ou fixos de elementos, medidas ou observações. Ex.: Peso bruto de 3000 latas de tinta de um certo lote de produção. Populações infinitas: são aquelas que contém, pelo menos hipoteticamente, um número infinito de elementos. Ex.: Produção de carros V.W. produzidos no Brasil e a serem produzidos (universo volkswagem), processo probabilístico. 2.2 AMOSTRAGEM ALEATÓRIA BASEADA EM NÚMEROS ALEATÓRIOS (RANDÔMICOS) As tabelas de números aleatórios contém os dez algarismos 0,1,2,3,4,......,9. Esses números podem ser lidos isoladamente ou em grupos; podem ser lidos em qualquer ordem. A probabilidade de qualquer algarismo aparecer em qualquer ponto é 1/10. Portanto todas as combinações são igualmente prováveis. Conceitualmente, poderíamos construir uma tabela de números aleatórios numerando dez bolinhas com os algarismos de 0 a 9, colocando-as numa urna, 9 Marco Antônio Santoro Bara misturando bem e extraindo uma de cada vez, com reposição, anotando os valores obtidos. A título de ilustração poderíamos querer selecionar aleatoriamente 15 clientes de uma lista de 830 de um grande magazine, a finalidade poderia ser: Estimar a frequência de compras; Determinar o valor médio de cada compra; Registrar as queixas contra o sistema. 2.3 OUTROS PLANOS DE AMOSTRAGEM Amostragem probabilística versus Amostragem não probabilística. Os planos de amostragem probabilística são delineados de tal modo que se conhece a probabilidade de todas as combinações amostrais possíveis. Em razão disso, pode-se determinar a quantidade de variável amostral numa amostra aleatória e uma estimativa do erro amostral. A amostragem aleatória é um exemplo da amostragem probabilística. A amostragem não probabilística é a amostragem subjetiva, ou por julgamento, onde a variabilidade amostral não pode ser estabelecida com precisão, consequentemente, não é possível nenhuma estimativa do erro amostral. A verdade é que, sempre que possível, deve-se usar a amostragem probabilística. 10 Marco Antônio Santoro Bara 2.4 AMOSTRAGEM POR JULGAMENTO (NÃO PROBABILÍSTICA) Se o tamanho da amostra é bem pequeno; digamos, de uns 5 itens, a amostragem aleatória pode dar resultados totalmente não representativos, ao passo que uma pessoa familiarizada com a população pode especificar quais os itens mais representativos da população. Exemplo: Uma equipe médica deve trabalhar com pacientes que se apresentem como voluntários para testar um novo medicamento. Nenhum desses grupos podem ser considerados como uma amostra aleatória do público em geral, e seria perigoso tentar tirar conclusões gerais com base em tal estudo. Todavia, os resultados poderiam proporcionar uma base para a elaboração de um plano de amostragem aleatório para validar os resultados básicos. Os perigos inerentes à pesquisa médica, bem como outro tipo de pesquisa, frequentemente obrigam a limitar a pesquisa inicial a um pequeno grupo de voluntários. Exemplo: A aplicação de hormônios em mulheres na menopausa, após um período de tempo notou-se o aumento das chances de adquirirem câncer de mama, doenças cardíacas etc. 2.5 AMOSTRAGEM PROBABILÍSTICA SISTEMÁTICA ESTRATIFICADA CONGLOMERADO AMOSTRAGEM SISTEMÁTICA É muito parecida com a amostragem aleatória simples. Podemos ter uma amostragem realmente aleatória, escolhendo-se cada K-ésima amostra, onde K obtém-se dividindo o tamanho da população pelo tamanho da amostra. K= N /n onde: N= Tamanho da População n= Tamanho da Amostra 11 Marco Antônio Santoro Bara EX. N= 200 e n=10 então K=200/10 = 20 Significa que será escolhido um item a cada sequência de 20 de uma lista.Para iniciar pode-se usar uma tabela de números aleatórios de 0 a 9 para iniciar os grupos. Por exemplo se der o 9, escolhemos o 9º, 29º, 49º, 69º .., etc. AMOSTRAGEM ESTRATIFICADA Pressupõe a divisão da população em subgrupos Homogêneos (Estratos), procedendo então a amostragem de cada subgrupo. Ex.: Para se fazer o inventário do estoque, é comum termos 10% dos itens representarem cerca de 60% do valor total enquanto que os 90% restantes representam só 40% do valor total (Curva A,B,C; Pareto; regra 80/20). AMOSTRAGEM POR CONGLOMERADO Pressupõe a disposição dos itens de uma população em subgrupos heterogêneos (subpopulações) representativos da população global. Neste caso cada conglomerado pode ser encarado como uma mini população. Ex.: Estudo pré-eleitoral para medir a preferência dos eleitores. (Subgrupos: sexo, educação, faixa etária, poder aquisitivo, região da habitação, etc.) RESUMO A finalidade da amostra é permitir fazer inferência sobre a população após inspeção de apenas parte dela. Fatores como custo, ensaios destrutivos e populações infinitas, tornam a amostragem preferível a um estudo completo (Censo) da população. Naturalmente espera-se que a amostra seja representativa da população da qual foi extraída. Potencialmente, este objetivo é atingido quando a amostragem é aleatória. Para populações discretas o termo “Aleatório” significa que cada item da população tem a mesma chance de participar na amostra. No caso de populações contínuas, significa que a probabilidade de incluir qualquer valor de um dado intervalo de valores é igual à proporção de valores naquele intervalo. 12 Marco Antônio Santoro Bara As amostras aleatórias podem ser obtidas: - Através de um processo de mistura, como o embaralhamento de cartas; - Pela utilização de um processo mecânico (Misturadores); - Utilizando-se uma tabela de números aleatórios para proceder à seleção de uma lista. Em certas condições, podem ser mais eficientes variantes da amostragem aleatória simples, tais como amostragem sistemática (periódica), estratificada (subgrupos Homogêneos), ou amostragem por aglomerados (subgrupos convenientes e heterogêneos). A principal vantagem da amostragem aleatória é que se pode determinar o grau de variabilidade amostral, o que é essencial na inferência estatística. Para a amostragem não probabilística falta esta característica. 3.0 ANÁLISE EXPLORATÓRIA DE DADOS Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender uma massa de dados, relevantes ao seu particular objeto de estudos. De modo geral, podemos dizer que a essência da ciência é a observação e que seu objetivo básico é a inferência. Esta é a parte da metodologia da ciência que tem por objetivo a coleta, a redução, a análise e a modelagem dos dados, a partir do que, finalmente, faz-se a inferência para uma população, da qual os dados (amostras) foram obtidos. 4.0 DISTRIBUIÇÃO DE FREQUÊNCIA Para cada tipo de variável existem técnicas mais apropriadas para resumir as informações. Porém podemos usar algumas técnicas empregadas num caso e adaptá-las para outros. Quando se estuda uma variável, o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações (valores) da mesma. 13 Marco Antônio Santoro Bara Exemplo: Dados relativos a uma amostra de 36 funcionários de uma população de 2000 funcionários da empresa XYZ. Ver resultados anotados na tabela abaixo. TABELA 1: Dados relativos a uma amostra de 36 funcionários de uma população de 2000 funcionários da empresa XYZ. Nº ESTADO CIVIL GRAU DE INSTRUÇÃO Nº DE FILHOS SALÁRIO (X SAL. MIN) IDADE ANOS MESES REGIÃO DE PROCEDÊNCIA 1 solteiro 1º grau --- 4 26 03 interior 2 casado 1º grau 1 4,56 32 10 capital 3 casado 1º grau 2 5,25 36 05 capital 4 solteiro 2º grau - -- 5,73 20 10 outro 5 solteiro 1º grau --- 6,26 40 07 outro 6 casado 1º grau 0 6,66 28 00 interior 7 solteiro 1º grau --- 6,86 41 00 interior 8 solteiro 1º grau --- 7,39 43 04 capital 9 casado 2º grau 1 7,59 34 10 capital 10 solteiro 2º grau - -- 7,44 23 06 outro 11 casado 2º grau 2 8,12 33 06 interior 12 solteiro 1º grau --- 8,46 27 11 capital 13 solteiro 2º grau - -- 8,74 37 05 outro 14 casado 1º grau 3 8,95 44 02 outro 15 casado 2º grau 0 9,13 30 05 interior 16 solteiro 2º grau - -- 9,35 38 08 outro 17 casado 2º grau 1 9,77 31 07 capital 18 casado 1º grau 2 9,8 39 07 outro 19 solteiro superior --- 10,53 25 08 interior 20 solteiro 2º grau - -- 10,76 37 04 interior 21 casado 2º grau 1 11,06 30 09 outro 22 solteiro 2º grau - -- 11,59 34 02 capital 23 solteiro 1º grau --- 12,00 41 00 outro 24 casado superior 0 12,79 26 01 outro 25 casado 2º grau 2 13,23 32 05 interior 26 casado 2º grau 2 13,6 35 00 outro 27 solteiro 1º grau --- 13,85 46 07 outro 28 casado 2º grau 0 14,69 29 08 interior 29 casado 2º grau 5 14,71 40 06 interior 30 casado 2º grau 2 15,99 35 10 capital 31 solteiro superior --- 16,22 31 05 outro 32 casado 2º grau 1 16,61 36 04 interior 33 casado superior 3 17,26 43 07 capital 34 solteiro superior --- 18,75 33 07 capital 35 casado 2º grau 2 19,40 48 11 capital 36 casado superior 3 23,30 42 02 interior 14 Marco Antônio Santoro Bara TABELA 2: Frequência e porcentagem da amostra de 36 empregados da empresa XYZ, segundo o grau de instrução. GRAU DE INSTRUÇÃO TABULAÇÃO FREQUÊNCIA f FREQ. RELATIVA fR (%) 1º grau 2º grau superior I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 12 18 6 33,33 50,00 16,67 TOTAL 36 100 TABELA 3: Frequência e porcentagem dos 2000 empregados (População) da empresa XYZ (Censo x Probabilidade) GRAU DE INSTRUÇÃO FREQUÊNCIA f FREQ. RELATIVA fR % CENSO FREQ. RELATIVA fR % PROVÁVEL 1º grau 2º grau superior 650 1020 330 32,50 51,00 16,50 33,33 50,00 16,67 TOTAL 2000 100 100 TABELA 4: Frequência e porcentagens dos 36 empregados (Amostra) da empresa XYZ. CLASSES DE SALÁRIOS FREQUÊNCIA f FREQ. RELATIVA fR (%) 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 10 12 8 5 1 27,78 33,33 22,22 13,89 2,78 TOTAL 36 100 TABELA 5: Frequências e porcentagem dos empregados da empresa XYZ, segundo Nº de filhos. Nº DE FILHOS FREQÜÊNCIA f FREQ. RELATIVA fR (%) 0 1 2 3 5 4 5 7 3 1 20 25 35 15 5 TOTAL 20 100 15 Marco Antônio Santoro Bara 5.0 APRESENTAÇÃO GRÁFICA A apresentação gráfica dos dados e respectivos resultados de sua análise pode também ser feita sob forma de figuras, em geral gráficos ou diagramas. Gráficos devem ser autoexplicativos e de fácil compreensão, de preferência sem comentários inseridos. Os gráficos devem ser simples, atrair a atenção do leitor e inspirar confiança. 5.1 DIAGRAMA DE ORDENADAS Para sua construção é traçada uma reta horizontal (ou vertical) de sustentação; a partir de pontos equidistantes na reta, traçam-se perpendiculares cujos comprimentos sejam proporcionais às frequências. Ex. Considerando a tabela abaixo: CLASSESDE SALÁRIOS FREQUÊNCIA f FREQ. RELATIVA fR (%) 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 10 12 8 5 1 27,78 33,33 22,22 13,89 2,78 TOTAL 36 100 Frequências 12 10 8 6 4 2 0 4 I-------8 8 I-------12 12 I-------16 16 I-------20 20 I-------24 Salários 16 Marco Antônio Santoro Bara 5.2 DIAGRAMA DE BARRAS/COLUNAS A mesma distribuição acima poderia ser representada por meio de diagrama que levasse em conta a magnitude da área da figura geométrica, já que a vista repousa melhor sobre uma superfície do que sobre uma linha. Ex. Considerando a tabela abaixo: CLASSES DE SALÁRIOS FREQUÊNCIA f FREQ. RELATIVA fR (%) 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 10 12 8 5 1 27,78 33,33 22,22 13,89 2,78 TOTAL 36 100 0 2 4 6 8 10 12 14 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 SALÁRIOS 17 Marco Antônio Santoro Bara 5.4 DIAGRAMA DE SETORES CIRCULARES Outra opção seria através de setores circulares, na qual se divide a área total de um círculo em subáreas (setores) proporcionais as frequências. Ex. Considerando a tabela abaixo: CLASSES DE SALÁRIOS FREQUÊNCIA f FREQ. RELATIVA fR (%) 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 10 12 8 5 1 27,78 33,33 22,22 13,89 2,78 TOTAL 36 100 5.5 DIAGRAMA LINEAR No diagrama linear deve-se plotar os pontos nos eixos como foi feito no diagrama de barras e em seguida unir esses pontos por semi-retas constituindo- se desta forma o diagrama linear. Ex. Considerando a tabela abaixo: CLASSES DE SALÁRIOS FREQUÊNCIA f FREQ. RELATIVA fR (%) 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 10 12 8 5 1 27,78 33,33 22,22 13,89 2,78 TOTAL 36 100 27.78 33.33 22.22 13.89 2.78 Salários 1 2 3 4 5 18 Marco Antônio Santoro Bara 6.0 MONTAGEM DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS A análise estatística de dados relativos a uma amostra de uma população, requer uma aglutinação organizada de informações, conforme regras cuja prática demonstrou serem eficientes. O agrupamento destes dados em subgrupos é feito com base nos seguintes conceitos: Amplitude total (AT): é a diferença entre a medida máxima e a medida mínima. Número de classes (d): é o número de divisões que estipulamos para a Amplitude Total. Normalmente pode-se usar d ≈ √ n onde n é o número de itens na amostra. (Classe: é o intervalo de variação das medidas.) Amplitude do intervalo de classe (AI): é a diferença entre os valores máximos e mínimos de cada classe. Amplitude do intervalo de cada classe OBS.: Normalmente, usa-se um número mínimo de 5 e no máximo 20 classes, de preferência de mesma amplitude. 0 2 4 6 8 10 12 14 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 Salários AI = AT / d 19 Marco Antônio Santoro Bara As classes devem ser mutuamente exclusivas, para que não haja dúvida na localização dos valores das variáveis, podemos daí utilizar as seguintes simbologias para os intervalos: 0 ----I 10 intervalo aberto & fechado, para significar que o intervalo compreende os valores da variável maiores do que 0 (exclusive) e até 10 (inclusive); 0 I---- 10 intervalo fechado & aberto, para significar que compreende os valores da variável a partir de 0 (inclusive) e até 10 (exclusive); 0 ----- 10 Intervalo aberto & aberto, para significar que compreende valores maiores do que 0 e menores do que 10. 0 I----I 10 intervalo fechado & fechado, para significar que compreende os valores da variável a partir de 0 (inclusive) e até 10 (inclusive). TABELA DE DISTRIBUIÇÃO DAS FREQÜÊNCIAS Para a facilidade e metodização do processo de análise estatística, monta-se uma tabela que agrupe as informações obtidas, da forma de Tabela de Frequências. Consideremos uma relação de pesos de pacotes de manteiga, em gramas, de uma amostra de 100 pacotes extraídos parcialmente de um processo automático de empacotamento. TABELA 6 AMOSTRA PESO AMOSTRA PESO AMOSTRA PESO AMOSTRA PESO AMOSTRA PESO 1 207 21 220 41 210 61 210 81 217 2 213 22 204 42 214 62 220 82 211 3 210 23 213 43 219 63 213 83 213 4 215 24 211 44 215 64 217 84 218 5 201 25 214 45 217 65 214 85 213 6 210 26 217 46 213 66 219 86 213 7 212 27 224 47 218 67 214 87 218 8 204 28 211 48 214 68 215 88 216 9 209 29 220 49 215 69 223 89 206 10 212 30 209 50 212 70 217 90 212 11 215 31 214 51 221 71 213 91 207 12 216 32 208 52 211 72 218 92 213 13 221 33 217 53 218 73 207 93 215 14 219 34 214 54 205 74 210 94 212 15 222 35 209 55 220 75 208 95 223 16 225 36 212 56 203 76 214 96 210 17 215 37 208 57 216 77 211 97 226 18 218 38 215 58 222 78 205 98 224 19 213 39 211 59 206 79 215 99 214 20 216 40 216 60 221 80 207 100 215 20 Marco Antônio Santoro Bara No caso da amostra de pacotes de manteiga acima, temos: AT = 226 – 201 = 25 gramas Temos d |�√100 10 classes, porém deve-se utilizar sempre que possível número ímpar de classes, no caso podemos usar 9 classes. Amplitude do intervalo de cada classe 2,78 (aprox. 3) Isto é: AI = 25/9 = 2,78 TABELA 7 FREQ FREQ. RELATIVA % FREQ. ACUMULADA FREQ. ACUM. REL. % CLASSE TABULAÇÃO f fR F FR 1 200 I--- 203 I 1 1 1 1 2 203 I--- 206 I I I I 4 4 5 5 3 206 I--- 209 I I I I I I I I I I 10 10 15 15 4 209 I--- 212 I I I I I I I I I I I I I I I 15 15 30 30 5 212 I--- 215 I I I I I I I I I I I I I I I I I I I I I I I I I 25 25 55 55 6 215 I--- 218 I I I I I I I I I I I I I I I I I I I I I 21 21 76 76 7 218 I--- 221 I I I I I I I I I I I I I 13 13 89 89 8 221 I--- 224 I I I I I I I 7 7 96 96 9 224 I--- 227 I I I I 4 4 100 100 Σ 100 100% Onde: Frequência (f) = número de vezes que as medidas ocorrem no intervalo de classes Frequência Relativa (fR) = porcentagem da frequência de cada classe em relação ao total de elementos. Frequência acumulada (F) = soma das frequências até o intervalo de classe considerado. Ex. F5 = f1+ f2 + f3 + f4 + f5 → 1 + 4 + 10 + 15 + 25 = 55 Frequência acumulada relativa (FR) = soma das frequências relativas até o intervalo considerado. Por ex.: FR3 = fR1 + fR2 + fR3 → 1 + 4 + 10 = 15 AI adotado = 3 e AT adotado = 27 (começa um antes do menor e termina um depois do maior valor) fR = (f / n).100 21 Marco Antônio Santoro Bara 7.0 MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL Como o próprio nome indica, a medida de tendência central visa a determinar o centro da distribuição. Esta determinação, porém, não é bem definida daí parece razoável chamarmos de “tendência central”. São medidas de tendência central: · MÉDIA ARITMÉTICA SIMPLES/PONDERADA ( x̅ ); · MEDIANA (md); · MODA (mo). 7.1 MÉDIA ARITMÉTICA SIMPLES 7.1.1 PARA UMA LISTA Esta é a situação mais simples: para se calcular a média, basta somarmos todos os elementos da lista e dividirmos o resultado pelo número de elementos.Exemplo: Calcular a média aritmética simples de 8, 3, 5, 12, 10. x̅ = 8+3+5+12+10 = 38 = 7,6 5 5 7.1.2 PARA DADOS TABULADOS Outra possibilidade é calcular a média quando os dados vêm dispostos em uma tabela na qual é informada a frequência absoluta simples fi de cada elemento xi. O total de elementos n é obtido somando todas as frequências absolutas simples fi. x̅ = Σ xi / n x̅ = Σ (xi . fi) / n 22 Marco Antônio Santoro Bara Exemplo: Calcular a média aritmética do conjunto descrito a seguir: xi fi 1 2 2 3 3 1 x̅ = (1 . 2 + 2. 3 + 3 . 1) / (2+3+1) x̅ = 11 / 6 x̅ = 1,83 7.1.3 PARA DISTRIBUIÇÃO DE FREQUÊNCIA Neste caso, os dados estão agrupados em classes e devemos calcular a média a partir da distribuição de frequência correspondente, apresentada em forma de tabela. Cada classe tem um ponto médio PM que é igual à metade da soma de seus limites inferior e superior. Exemplo: Calcular a média do conjunto descrito pela distribuição de frequência a seguir: xi fi 0 |----- 3 2 3 |----- 6 5 6 |----- 9 7 9 |----- 12 4 12 |----- 15 3 x̅ = (1,5 . 2 + 4,5 . 5 + 7,5 . 7 + 10,5 . 4 + 13,5 . 3) / (2+5+7+4+3) x̅ = 160,5 / 21 x̅ = 7,64 7.2 MÉDIA ARITMÉTICA PONDERADA onde: fi = frequência dos dados xi x̅ = Σ(xi .fi ) / Σ fi x̅ = Σ (PMi . fi) / n 23 Marco Antônio Santoro Bara Exemplo: Calcular a média ponderada dos números 5, 8, 6, 2 ; os quais ocorrem com as frequências 3, 2, 4 e 1, respectivamente. Números x = 5, 8, 6, 2 Frequências f = 3, 2, 4, 1 x̅ = 5.3+8.2+6.4+2.1 = 57 = 5,7 3+2+4+1 10 7.3 MEDIANA (md) 7.3.1 PARA UMA LISTA Esta é a situação mais simples: para se calcular a mediana, basta ordenar os elementos da lista e localizar o elemento que está ao centro da lista, isto é, para o qual há o mesmo número de ocorrências antes e depois. Obs.: se o número de elementos for par, basta localizar os dois elementos medianos e calcular média aritmética entre eles. Exemplo-1: Qual é a mediana do conjunto {10, 7, 5, 1, 3, 4 ,6} Basta ordenar e localizar o elemento mediano: {1,3,4,5,6,7,10} md = 5 Exemplo-2: Qual é a mediana do conjunto {10, 7, 5, 1, 3, 4 , 6, 9 } Basta ordenar e localizar o elemento mediano: {1,3,4,5,6,7,9,10} md = (5+6) / 2 md = 5,5 7.3.2 PARA DADOS TABULADOS No caso de cálculo da mediana quando estamos trabalhando com dados tabulados determinamos o valor mais provável dessa distribuição a partir de: Posição da md = (Frequência acumulada total + 1) = FA + 1 2 2 24 Marco Antônio Santoro Bara Exemplo: Qual a mediana do conjunto descrito pela tabela abaixo: xi fi FA 10 3 3 13 4 7 16 6 13 17 5 18 25 1 19 Como n = 19 , a posição central é (n+1) / 2, logo 20 /2 , isto é 10° posição. Portanto a mediana é md = 16 {10,10,10,13,13,13,13,16,16,16,16,16,16,17,17,17,17,17,25} Ou seja, a posição da MEDIANA é definida por n+1 -ésimo elemento 2 quando ”n” é ímpar e temos um número inteiro que dá a posição da mediana. Quando temos o meio do caminho entre dois números inteiros, isto é, ”n” é par, a mediana será a média deles. Exemplo: Determine a posição da mediana para: (a) n=15, (b) n=45 e (c)n=88. (a) n+1 = 15+1 = 8 , e a mediana é o valor do 8° elemento; 2 2 (b) ��n+1 = 45+1 = 23���������, e a mediana é o valor do 23° elemento; 2 2� (c) n+1 = 88+1 = 44,5 �����, e a mediana é a média do valor do 44° e o 2 2 45°elemento. � Ou seja, quando n é par procuramos duas posições: n e n +1 2 2 7.3.3 PARA DISTRIBUIÇÃO DE FREQUÊNCIA Neste caso, os dados estão agrupados em classes e devemos calcular a mediana a partir da distribuição de frequência correspondente, apresentada em forma de tabela. Ao contrário dos itens anteriores, não precisamos nos preocupar se há um número ímpar ou par de elementos. Basta encontrar a classe mediana e aplicar a fórmula para o cálculo da mediana para distribuição de frequências. No caso do exercício da distribuição dos 100 valores de peso de pacotes de manteiga temos: Posição da md = (Frequência acumulada total ) = FA 2 2 25 Marco Antônio Santoro Bara md = FA = 100 = 50, e a mediana é o valor do 50° elemento 2 2 F 0 1 5 15 30 55 76 89 96 100 X 200 203 206 209 212 215 218 221 224 227 (55 – 30) (215 – 212) ou (55 – 30) (215 – 212) (55 – 50) Δ (50 – 30) Δ Δ = 5 x 3 = 0,6 Δ = 20 x 3 = 2,4 25 25 portanto a mediana será 215 - Δ portanto a mediana será 212 + Δ logo, md = 215 - 0,6 = 214,4. logo, md = 212 + 2,4 = 214,4. Assim, para encontrarmos a mediana para dados agrupados em classes podemos formalizar os passos anteriores na seguinte equação: Md = linf + h. n/2 - Fant fmed onde: n/2 = metade da quantidade de dados h = amplitude da classe mediana linf = limite inferior da classe da mediana fmed = frequência absoluta da classe da mediana Fant = frequência acumulada da classe anterior a da mediana Voltando ao exemplo, temos: 1º Passo: da tabela 7 - página 18, temos as frequências acumuladas já calculadas; 2º Passo: n = 100 => n/2 = 100/2 = 50 => localização da classe mediana: 5ª classe, isto é, classe 212 I--- 215; 3º Passo: encontrar na tabela: linf , fmed e Fant : linf = 212 fmed = 25 Fant = 30 50° valor 26 Marco Antônio Santoro Bara 4º Passo: substituir os dados na equação: md = linf + h. n/2 - Fant fmed md = 212+ 3. 50 – 30 = 212 + 3. 0,8 = 212 + 2,4 = 214,4 25 md = 214,4 7.3.1 SEPARATRIZES (QUARTIS, DECIS E CENTIS) Como extensão do conceito de mediana, podemos dividir os valores em quatro, dez e cem partes iguais. Essas divisões são chamadas de quartis, decis e centis,respectivamente. O cálculo dessas divisões é semelhante ao da mediana, isto é: Quartis: Qi = linf + h. i.n/4 - FQi-1 onde i = 1,2,3 fQi Decis: Di = linf + h. i.n/10 - FDi-1 onde i = 1,2,3, ..., 8,9. fDi Centis: Ci = linf + h. i.n/100 - FCi-1 onde i = 1,2,3,...,98,99. fCi 27 Marco Antônio Santoro Bara Onde: h = amplitude da classe linf = limite inferior da classe da quartílica, decílica ou percentílica fQi , fDi , fCi = frequências das classes quartílica, decílica e percentílica, respectivamente FQi-1 , FDi-1 , FCi-1 = frequências acumuladas da classe anterior à classe quartílica, decílica ou percentílica. Voltando ao exemplo anterior, temos: i) Se quisermos calcular o 1º Quartil, ou seja, 25% dos dados: Q1 = linf + h. 1.n/4 - FQi-1 = 209 + 3. 100/4 – 15 = fQi 15 209 + 3 . 0,67 = 211 ii) Para o 3º Quartil: Q3 = linf + h. 3.n/4 - FQi-1 = 215 + 3 . 3.100/4 – 55 fQi 21 215 + 3. 0,95 = 217,85 iii) Para o 8º Decil: D8 = linf + h. 8.n/10 - FDi-1 = 218 + 3. 8.100/10 - 76 fDi 13 218 +3. 0,31 = 218,93 28 Marco Antônio Santoro Bara iv) Para o 15º Centil: : C15 = linf + h. 15.n/100 - FCi-1 fCi = 206 + 3. 15.100/100 - 5 10 = 209 OBS.: Caso tenhamos dados não agrupados em classes, como por exemplo a sequência 2,3,3,4,5,7,7,8,10,11,12,12, 13; o cálculo do 3º Quartil será: Posição: 3.n/4 = 3.13/4 = 9,75 A posição 9,75ª será aproximada pela inteira imediatamente posterior a ela, ou seja, a 10ª posição, logo Q3 = 11. E assim, analogamente, para encontrar os decis e centis de uma série de dados não agrupados em classes. 7.4 MODA ( mo ) 7.4.1 PARA UMA LISTA Em um conjunto de números a moda é o valor que ocorre com maior frequência, isto é, o valor mais comum. Exemplos: 1) 2, 2, 3, 7, 8, 8, 8, 9, 10 moda=8 2) 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 moda = Ф (não existe moda) 3) 2, 2, 4, 4, 4, 5, 6, 7, 8, 8, 8, 9 moda = 4 e 8 29 Marco Antônio Santoro Bara 7.4.2 PARA DADOS TABULADOS Para se determinar a moda quando os dados vêm dispostos em uma tabela, deve-se procurar qual elemento tem a maior frequência absoluta simples. Exemplo: Qual a moda do conjunto descrito abaixo? xi fi 10 3 13 4 16 5 17 7 25 2 mo = 17 , pois aparece 7 vezes. 7.4.3 PARA DISTRIBUIÇÃO DE FREQUÊNCIAS Na verdade, o cálculo da moda para uma distribuição de frequências é apenas aproximado, haja vista não sabermos exatamente como os dados estão distribuídos dentro de cada classe. Para o exemplo do exercício das distribuições de frequências dos pacotes de manteiga (onde os dados são tabulados agrupados em classes) uma forma de estimar o valor da moda é pela Estimativa de Pearson (para dados tabulados agrupados em classes): Voltando ao exemplo, temos: mo = 3.214,4 – 2. 214,49 => mo = 214,22 onde a média foi calculada da forma: x̅ = 201,5 . 1 + 204,5 .4 + 207,5 .10 + 210,5 .15 + 213,5 .25 + 216,5 .21 + 219,5 . 13 + 222,5. 7 + 225,5. 4 1 + 4 + 10 + 15 + 25 + 21 + 13 + 7 + 4 x̅ = 214,49 mo = 3. md – 2. x̅ 30 Marco Antônio Santoro Bara O cálculo da moda pelo Método de Pearson é mais utilizado quando temos uma indicação de que os três parâmetros de tendência central (média, mediana e moda) estejam muito próximos. Um outro método, de origem gráfica, é o Método de Czuber, que utilizamos na maioria dos casos: mo = linf + h. 'a . 'a + 'p onde: linf = limite inferior da classe modal. 'a = diferença entre a fi da classe modal e a fi da classe anterior. Entenderemos como classe anterior aquela que precede à classe modal. 'p = diferença entre a fi da classe modal e a fi da classe posterior (aquela que vem logo após a classe modal). h = amplitude da classe modal. O primeiro passo é a determinação da classe modal, aquela com maior fi. No nosso exemplo é 212 I--- 215 pois temos 25 elementos nesta classe. mo = 212 + 3. ( 25 - 15 ) . (25-15) + (25-21) mo = 212 + 3 . 10 . 10 + 4 mo = 212 + 3 . 0,7143 mo = 212 + 2,14 mo = 214,14 31 Marco Antônio Santoro Bara EXERCÍCIOS 1-) Qual a média aritmética dos números ímpares menores do que 10? R: 5 2-) Calcule a média aritmética do conjunto descrito a seguir: xi fi 1 3 2 4 3 1 4 2 R: 2,2 3-) Calcular a média do conjunto descrito pela distribuição de frequências a seguir: xi fi 0,0 |----- 2,0 15 2,0 |----- 4,0 25 4,0 |----- 6,0 13 6,0 |-----8,0 37 8,0 |-----10,0 10 R: 5,04 4-) Calcular a mediana do conjunto {5,3,7,1,9} R: 5 5-) Calcular a mediana do conjunto {1,1,3,5,6,9,23,24} R: 5,5 6-) Calcular a mediana do conjunto descrito pela tabela a seguir: xi fi 100 3 135 6 160 5 175 7 250 2 R: 160 7-) Calcular a mediana do conjunto descrito pela tabela a seguir: xi fi 10 3 15 6 16 5 21 7 23 3 R: 16 32 Marco Antônio Santoro Bara 8-) Calcular a mediana do conjunto descrito pela distribuição de frequência a seguir: xi fi 0,0 |----- 2,0 15 2,0 |----- 4,0 25 4,0 |----- 6,0 16 6,0 |-----8,0 34 8,0 |-----10,0 10 R: 5,25 9-) Calcular a moda do conjunto { 5,3,7,1,5,2,9} R: 5 10-) Calcular a moda do conjunto descrito pela tabela a seguir xi fi 100 3 135 6 160 5 175 7 250 2 R: 175 11-) Calcular a moda, pelo método de Czuber, do conjunto descrito pela distribuição de frequência a seguir: xi fi 0,0 |----- 2,0 15 2,0 |----- 4,0 25 4,0 |----- 6,0 16 6,0 |-----8,0 34 8,0 |-----10,028 R: 7,5 12-) Calcule os quartis da tabela abaixo: Classes fi 50 |----- 54 10 54 |----- 58 23 58 |----- 62 28 62 |----- 66 20 66 |----- 70 12 70 |----- 74 7 Total 100 R: Q1 = 56,61 , Q2 = 60,43 , Q3 = 64,8 Decil: 3, 7 e 9nullCentil: 13, 33 e 80 33 Marco Antônio Santoro Bara 8.0 TIPOS DE DISTRIBUIÇÃO As distribuições de frequência podem se apresentar de diversas formas conforme as figuras a seguir: 8.1 DISTRIBUIÇÃO SIMÉTRICA OU EM FORMA DE SINO A distribuição é simétrica quando os valores se distribuem igualmente em torno da média A) Normal B) Alongada C) Achatada 34 Marco Antônio Santoro Bara Distribuições simétricas A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média Caso especial de uma distribuição simétrica Quando dizemos que os dados obedecem a uma distribuição normal, estamos tratando de dados que distribuem-se em forma de sino. 35 Marco Antônio Santoro Bara Distribuições Assimétricas A distribuição das frequências apresenta valores menores num dos lados: CURVA ASSIMÉTRICA À DIREITA (ASSIMETRIA POSITIVA) CURVA ASSIMÉTRICA À ESQUERDA (ASSIMETRIA NEGATIVA) 36 Marco Antônio Santoro Bara 8.3 DISTRIBUIÇÃO MODAL, AMODAL, BIMODAL E MULTIMODAL Chamamos de moda (mo) numa distribuição, ao valor da medida ou classe que corresponde à frequência máxima. Sob o critério da moda as distribuições classificam-se em: A) DISTRIBUIÇÃO MODAL – Quando a distribuição tem frequência máxima ela é denominada modal. mo B) DISTRIBUIÇÃO AMODAL – Quando a distribuição não tem moda C) DISTRIBUIÇÃO BIMODAL – Quando a distribuição tem duas modas. mo mo 37 Marco Antônio Santoro Bara D) DISTRIBUIÇÃO MULTIMODAL – Quando a distribuição tem mais de duas modas mo mo mo 9.0 MEDIDAS DE VARIABILIDADE (OU DE DISPERSÃO) As medidas de dispersão indicam se os valores estão relativamente próximos uns dos outros, ou separados. Podemos dizer que dispersão é o grau com o qual os valores numéricos de uma distribuição tendem a se distanciar em torno de um valor médio. Em todos os casos, o valor zero indica ausência de dispersão; a dispersão aumenta à proporção que aumenta o valor da medida (amplitude, desvio- padrão, variância). 9.1 AMPLITUDE TOTAL (AT) É a medida mais simples de dispersão. É a diferença entre o maior e o menor valor das observações. AT = Xmax – Xmin Embora exista simplicidade de cálculo, existem duas restrições ao seu uso generalizado: 1- Utiliza apenas uma parcela das informações contidas nas observações. O seu valor não se modifica mesmo que os valores das observações variem, desde que conservem os seus valores máximo e mínimo. Ou seja, depende apenas dos valores externos (max e min), não sendo afetada pelos valores internos. 2- Depende do número de observações na amostra. Em geral o valor da amplitude cresce quando cresce o tamanho da amostra. 38 Marco Antônio Santoro Bara 9.2 DESVIO EM RELAÇÃO À MÉDIA ARITMÉTICA (di) O desvio di em relação à média de um conjunto de dados é a diferença do valor xi e a média aritmética x̅ do conjunto, isto é: di = (xi - x̅ ) Exemplos : 1-) Calcular os desvios di para o seguinte conjunto : 3, 4, 5, 6, 7 Onde x̅ = 3+4+5+6+7 = 5 5 xi di 3 -2 4 -1 5 0 6 1 7 2 ∑ di = 0 2-) Calcular os desvios di para a seguinte distribuição : xi fi di 82 5 -4,6 85 10 -1,6 87 15 0,4 89 8 2,4 90 4 3,4 ∑ fi = 42 ∑ di = 0 Onde x̅ = 82 .5.+ 85. 10 + 87. 15 + 89 . 8 + 90. 4 5 + 10 + 15 + 8 + 4 x̅ = 86,6 39 Marco Antônio Santoro Bara (3) Calcular os desvios di para a seguinte distribuição : Classes xi (PM) fi di di . fi 35 |----- 45 40 2 -22,91 -45,82 45 |----- 55 50 13 -12,91 -167,83 55 |----- 65 60 20 -2,91 -58,20 65 |----- 75 70 10 7,09 70,90 75 |----- 85 80 7 17,09 119,63 85 |----- 95 90 3 27,09 81,27 ∑ fi = 55 ∑ di = 12,55 ∑ di. fi = 0 Onde x̅ = 40 .2 + 50 .13 + 60 .20 + 70 .10 + 80 .7 + 90 .3 2 + 13 + 20 + 10 + 7 + 3 x̅ = 3460 / 55 x̅ = 62,91 9.3 DESVIO MÉDIO ( d ̅) O desvio médio d̅ é a média aritmética dos módulos dos desvios, isto é: d̅ = ∑ di = ∑ xi - x̅ n n Para uma distribuição de frequências (simples ou por classes), teremos: d̅ = ∑ di . fi = ∑ xi - x̅ .fi n n Exercício 13-) Calcular o desvio médio para os exemplos (1), (2) e (3) anteriores. 9.4 VARIÂNCIA (V� ou s2) Variância da população é a soma dos quadrados dos desvios de cada observação em relação à média de “x” e divide-se por N. Indica-se a Variância da População por σ². Podemos fazer a mesma analogia com a Variância da Amostra dada por S². 40 Marco Antônio Santoro Bara Variânciapara uma população: onde P�é a média populacional e N é o tamanho da população. Variância para uma amostra: Onde x̅ é a média amostral e n é o tamanho da amostra. As equações anteriores para V� e s2 representam uma maneira de cálculo dessas medidas. Podemos também utilizar as seguintes equações: Como medida de dispersão, a Variância tem a desvantagem de apresentar como unidade de medida o quadrado da unidade de medida dos dados. Se os dados estão em metros, a Variância fica em metros quadrados. O desvio padrão por sua vez, fica com valor na mesma da unidade da variável. Obs: A variância sendo uma média de uma soma de quadrados é sempre maior ou igual a 0. Ela será nula se os valores dos dados são constantes. 9.5 DESVIO PADRÃO (V�ou s) É a medida que determina a variação dos valores observados em torno da média da distribuição, e representa a distância do ponto de inflexão da curva até a linha da média. A partir da variância podemos calcular o desvio padrão como segue: Desvio padrão da população: V =√V� Desvio padrão da amostra: s = √s2 σ² = ∑ (xi - µ)2 . fi N s2 = ∑ (xi - x̅)2 .fi n - 1 σ² = ∑ fi(xi)2 – N. µ2 N s2 = ∑ fi(xi)2 – n. x̅2 n - 1 41 Marco Antônio Santoro Bara 9.6 COEFICIENTE DE VARIAÇÃO (cv) O coeficiente de variação cv é a razão entre o desvio padrão e a média aritmética. Esta medida é adimensional e geralmente é expressa em porcentagens. A equação para o seu cálculo é: � ��Para população�� � � ��Para amostra�� Exercícios 14-) (ICMS/MG) As alturas do jogadores de basquete da seleção brasileira são: 1,98m; 2,04m; 2,06m; 2,02m e 2,05m. A média de altura dessa seleção e m, é de: a) 2,01 b) 2,02 c) 2,03 d) 2,04 e) 2,05 15-) (TTN) Assinale a alternativa correta, considerando a série: 8,5,14,10,8 e15. a) A média aritmética é 10 e a mediana é 12. b) A amplitude total é 7 e a moda é 8. c) A mediana é 9 e a amplitude total é 10. d) A média aritmética é 1 e a amplitude total é 7. e) A mediana é 12 e a amplitude total é 7. 16-) (ICMS/MG) Na série composta de notas de Estatística: 4,5,7,8,5,5,6,8,6. A média aritmética simples, a mediana e a moda são, respectivamente: a) 6,5 e 4 b) 6,6 e 5 c) 6,6 e 6 d) 6,5 e 5 e) 7,6 e 5 cv = V�������� ���������P cv = s�������� ����������x̅ 42 Marco Antônio Santoro Bara 17-) (ICMS/MG) Dados os conjuntos de valores: A = {1,1,2,3,4,5,5,8,8,8,9,10} B = {6,7,8,9,10,11,12} C = {1,2,4,4,4,4,5,8,9,9,9,9,10} Em relação a moda, afirmamos que: I- A é unimodal, e a moda é 8 II- B é unimodal, e a moda é 9 III- C é bimodal, e as modas são 4 e 9. Então, em relação as afirmativas, é correto dizer que: a) Todas são verdadeiras b) Todas são falsas c) Somente I e II são verdadeiras d) Somente I e III são verdadeiras e) Somente II e III são verdadeiras 18-) (AFRF/05) Para dados agrupados representados por uma curva de frequências, as diferenças entre os valores da média, da mediana e da moda são indicadores da assimetria da curva. Indique a relação entre essas medidas de posição para uma distribuição negativamente assimétrica. a) A média apresenta o maior valor e a mediana se encontra abaixo da moda. b) A moda apresenta o maior valor e a média se encontra abaixo da mediana. c) A média apresenta o menor valor e a mediana se encontra abaixo da moda. d) A média, a mediana e a moda são coincidentes. e) A moda apresenta o menor valor e a mediana se encontra abaixo da média. 19-) (TRF/06) Considere a seguinte distribuição das frequências absolutas dos salários mensais em R$, referente a 200 trabalhadores de uma indústria (os intervalos são fechados à esquerda e abertos à direita). Classes de Salários Frequências Absolutas De R$ 400 até R$ 500 50 De R$ 500 até R$ 600 70 De R$ 600 até R$ 700 40 De R$ 700 até R$ 800 30 De R$ 800 até R$ 900 10 Sobre essa distribuição de salários é correto afirmar que: a) O salário modal encontra-se na classe de R$800 até R$900 b) O salário mediano encontra-se na classe de R$600 até R$700 c) O salário modal encontra-se na classe de R$600 até R$700 d) O salário modal encontra-se na classe de R$700 até R$800 e) O salário mediano encontra-se na classe de R$500 até R$600. 43 Marco Antônio Santoro Bara 20-) (ICMS/MG) O quadro abaixo nos mostra a distribuição dos erros cometidos por 20 alunos numa prova de português. O valor do desvio médio dessa distribuição é: N0 DE ERROS (xi) N0 DE ALUNOS (fi) 1 2 2 6 3 5 4 4 5 3 a) 1,0 b) 1,5 c) 2,0 d) 2,5 e) 3,0 Gabarito 14 -- C 15 -- C 16 -- B 17 -- D 18 – B e C 19 -- E 20 – A 44 Marco Antônio Santoro Bara 21-) (TRF) Considere os seguintes conjuntos de observações referentes a cinco diferentes variáveis: T: 10;10;10;10;10;8 V: 10;10;10;10;8;8 X: 10;10;10;8;8;8 Y: 10;10;8;8;8;8 Z: 10;8;8;8;8;8 O conjunto de observações que apresenta a maior variabilidade, medida pelo desvio padrão, é o referente à variável: a) Y b) T c) V d) X e) Z 22-) (AFRF/02) Numa amostra de tamanho 100 obtida de uma população de 1000 indivíduos, produziu a tabela de frequências abaixo: Classes Frequência (f) 29,5 |----- 39,5 4 39,5 |----- 49,5 8 49,5 |----- 59,5 14 59,5 |----- 69,5 20 69,5 |----- 79,5 26 79,5 |----- 89,5 18 89,5 |----- 99,5 10 Assinale a opção que corresponde ao desvio absoluto médio. a) 16,0 b) 17,0 c) 16,6 d) 18,1 e) 13,0 23-) (AFRF/09) Considere a seguinte amostra aleatória das idades em anos completos dos alunos em um curso preparatório. Com relação a essa amostra, marque a única opção correta: 29,27,25,39,29,27,41,31,25,33,27,25,25,23,27,27,32,26,24,36,32,26,28,24,28, 27,24,26,30,26,35,26,28,34,29,23,28. a) A média e a mediana das idades são iguais a 27. b) A moda e a média das idades são iguais a 27. c) A mediana das idades é 27 e a média é 26,08. d) A média das idades é 27 e o desvio padrão é 1,074. e) A moda e a mediana das idades são iguais a 27. 45 Marco Antônio Santoro Bara 24-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 2 |----- 4 2 4 |----- 6 6 6 |----- 8 5 8 |----- 10 4 10 |----- 12 3 25-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 2 |----- 4 11 4 |----- 6 10 6 |----- 8 11 8 |----- 10 4 10 |----- 12 4 26-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 4 |----- 6 8 6 |----- 8 10 8 |----- 10 20 10 |----- 12 30 12 |----- 14 20 27-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 2 |----- 4 7 4 |----- 6 9 6 |----- 8 18 8 |----- 10 10 10 |----- 12 6 46 Marco Antônio Santoro Bara 28-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficientede variação e variância relativa: Classe f 2 |----- 4 9 4 |----- 6 12 6 |----- 8 6 8 |----- 10 2 10 |----- 12 1 29-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 4 |----- 6 6 6 |----- 8 8 8 |----- 10 12 10 |----- 12 10 12 |----- 14 4 30-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 45 |----- 55 3 55 |----- 65 7 65 |----- 75 4 75 |----- 85 5 85 |----- 95 1 31-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 9 |----- 19 10 19 |----- 29 20 29 |----- 39 40 39 |----- 49 20 49 |----- 59 10 47 Marco Antônio Santoro Bara 32-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 50 |----- 60 15 60 |----- 70 20 70 |----- 80 30 80 |----- 90 20 90 |----- 100 15 33-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 20 |----- 30 10 30 |----- 40 20 40 |----- 50 25 50 |----- 60 20 60 |----- 70 10 34-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 50 |----- 58 10 58 |----- 66 15 66 |----- 74 25 74 |----- 82 24 82 |----- 90 16 90 |----- 98 10 35-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 2 |----- 4 6 4 |----- 6 10 6 |----- 8 14 8 |----- 10 6 10 |----- 12 4 48 Marco Antônio Santoro Bara 36-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 2 |----- 4 20 4 |----- 6 15 6 |----- 8 35 8 |----- 10 20 10 |----- 12 10 37-) Calcular, média, moda, mediana, quartil 1 e 3, decil 1 e 9 , variância, desvio padrão, desvio médio absoluto, coeficiente de variação e variância relativa: Classe f 2 |----- 4 5 4 |----- 6 5 6 |----- 8 10 8 |----- 10 30 10 |----- 12 20 12 |----- 14 25 14 |----- 16 5 38-) (PUC-SP) O histograma abaixo apresenta a distribuição de frequência das faixas salariais numa pequena empresa. 49 Marco Antônio Santoro Bara Com os dados disponíveis, pode-se concluir que a média desses salários é , aproximadamente: a) R$ 420,00 b) R$ 536,00 c) R$ 562,00 d) R$ 640,00 e) R$ 708,00 39-) Numa escola, o professor de educação física mediu as alturas de 100 alunos do sexo masculino e construiu a seguinte distribuição de frequências: Alturas (em cm) Número de estudantes 150 |----- 158 5 158 |----- 166 15 166 |----- 174 48 174 |----- 182 25 182 |----- 190 7 Pede-se: a) Variância b) Desvio padrão c) Histograma 40-) Qual a Variância e o Desvio Padrão para a distribuição da seguinte tabela? Número de pessoas Idade 5 22 3 14 6 18 1 28 4 21 8 20 a) 7,85 e 3 respectivamente b) 8,15 e 2,9 respectivamente c) 8,5 e 3,1 respectivamente d) 8,75 e 2,5 respectivamente e) 8,06 e 2,8 respectivamente 50 Marco Antônio Santoro Bara GABARITO 21 D 22 E 23 E 24 Média = 7 Moda = 5,6 Mediana = 6,8 Q1 = 5 Q3 = 9 D1 = 4 D9 = 10,66 Variância = 6 Desvio padrão = 2,45 Desvio médio = 2 Coeficiente de variação = 0,3499 Variância relativa = 0,1224 25 Média = 6 Moda = 3,83 e 6,25 Mediana = 5,8 Q1 = 3,82 Q3 = 7,63 D1 = 2,72 D9 = 10 Variância = 6,4 Desvio padrão = 2,53 Desvio médio = 2,15 Coeficiente de variação = 0,4216 Variância relativa = 0,1778 26 Média = 10 Moda = 11 Mediana = 10,4 Q1 = 8,4 Q3 = 11,87 D1 = 6,16 D9 = 13,12 Variância = 5,91 Desvio padrão = 2,43 Desvio médio = 2,05 Coeficiente de variação = 0,2431 Variância relativa = 0,0591 51 Marco Antônio Santoro Bara 27 Média = 6,96 Moda = 7,06 Mediana = 7 Q1 = 5,22 Q3 = 8,7 D1 = 3,42 D9 = 10,33 Variância = 5,68 Desvio padrão = 2,38 Desvio médio = 1,81 Coeficiente de variação = 0,3424 Variância relativa = 0,1172 28 Média = 5,27 Moda = 4,67 Mediana = 5 Q1 = 3,64 Q3 = 6,5 D1 = 2,66 D9 = 8 Variância = 4,2 Desvio padrão = 2,05 Desvio médio = 1,57 Coeficiente de variação = 0,3889 Variância relativa = 0,1513 29 Média = 8,9 Moda = 9,33 Mediana = 9 Q1 = 7 Q3 = 10,8 D1 = 5,33 D9 = 12 Variância = 5,79 Desvio padrão = 2,41 Desvio médio = 1,93 Coeficiente de variação = 0,2704 Variância relativa = 0,0731 30 Média = 67 Moda = 60,71 Mediana = 65 Q1 = 57,85 Q3 = 77 D1 = 51,66 D9 = 83 Variância = 131 Desvio padrão = 11,45 Desvio médio = 10 Coeficiente de variação = 0,1708 Variância relativa = 0,0292 52 Marco Antônio Santoro Bara 31 Média = 34 Moda = 34 Mediana = 34 Q1 = 27 Q3 = 42 D1 = 19,5 D9 = 49,5 Variância = 120 Desvio padrão = 10,95 Desvio médio = 8 Coeficiente de variação = 0,3175 Variância relativa = 0,1008 32 Média = 75 Moda = 75 Mediana = 75 Q1 = 65 Q3 = 85 D1 = 56,66 D9 = 93,33 Variância = 160 Desvio padrão = 12,65 Desvio médio = 10 Coeficiente de variação = 0,1680 Variância relativa = 0,0284 33 Média = 45 Moda = 45 Mediana = 45Q1 = 35,625 Q3 = 54,375 D1 = 28,5 D9 = 61,5 Variância = 141,18 Desvio padrão = 11,88 Desvio médio = 9,41 Coeficiente de variação = 0,2640 Variância relativa = 0,0697 34 Média = 74,08 Moda = 73,27 Mediana = 74 Q1 = 66 Q3 = 82,5 D1 = 58 D9 = 90 Variância = 132,47 Desvio padrão = 11,51 Desvio médio = 9,68 Coeficiente de variação = 0,1554 Variância relativa = 0,0241 53 Marco Antônio Santoro Bara 35 Média = 6,6 Moda = 6,66 Mediana = 6,57 Q1 = 4,8 Q3 = 8 D1 = 3,33 D9 = 10 Variância = 5,44 Desvio padrão = 2,33 Desvio médio = 1,88 Coeficiente de variação = 0,3534 Variância relativa = 0,1249 36 Média = 6,7 Moda = 7,14 Mediana = 6,85 Q1 = 4,66 Q3 = 8,5 D1 = 3 D9 = 10 Variância = 6,11 Desvio padrão = 2,47 Desvio médio = 1,99 Coeficiente de variação = 0,3689 Variância relativa = 0,1361 37 Média = 10 Moda = 9,33 Mediana = 10 Q1 = 8,33 Q3 = 12,4 D1 = 6 D9 = 13,6 Variância = 8,6 Desvio padrão = 2,93 Desvio médio = 2,4 Coeficiente de variação = 0,2933 Variância relativa = 0,0860 38 E 39 Variância = 55,07 Desvio Padrão = 7,42 40 E 54 Marco Antônio Santoro Bara 10.0 PROBABILIDADE O problema fundamental da estatística consiste em trabalhar com o acaso e a incerteza. Chama-se probabilidade de um acontecimento a razão entre o número de casos
Compartilhar