Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 1 ESTATÍSTICA 1. INTRODUÇÃO: A Estatística, ramo da Matemática Aplicada, teve sua origem na Antigüidade, vários povos já registravam o número de nascimentos, de óbitos, de habitantes, faziam estimativas de riqueza individual e social, distribuíam eqüitativamente terras ao povo, cobravam impostos, etc., por processos que, hoje, chamamos de “Estatísticas”. Originalmente as Estatísticas tratavam dos negócios do Estado (especialmente com objetivos tributários ou militares) o que justifica a etimologia da palavra que surgiu do latim “STATUS” (Estado). A palavra Estatística é usada em dois sentidos: 1.1. ESTATÍSTICAS (no plural) refere-se a dados numéricos e são informações sobre determinado assunto, grupo de pessoas, fenômenos de interesse do Estado, etc., obtidas por um pesquisador. 1.2. ESTATÍSTICA (no singular) significa o conjunto de processos usados na classificação, organização, descrição, análise e interpretação de dados experimentais. Comumente a Estatística é relacionada com dados e números da Saúde Pública, Bolsa de Valores, Crescimento de População, Testes Psicológicos, Engenharia, Física, Matemática, Química, Economia, além de setores do planejamento da produção, análises comerciais e estudos sociológicos. 2. EVOLUÇÃO HISTÓRICA DA ESTATÍSTICA Os vários aspectos e acontecimentos da evolução histórica da Estatística agrupam-se em três períodos: 2.1. 1º PERÍODO - PREPARAÇÃO DOS FATOS Abrange a Idade Antiga, Idade Média e parte da Idade Moderna, na História da Civilização. É caracterizado por registros de interesse Estatal, sendo denominado de período da Estatística Administrativa. No livro sacro , Chouking, de Confúcio, tem-se notícias da preparação dos Estados da China, no ano 2238 a.C. O imperador Iao ordenou o levantamento sobre agricultura, indústria e comércio. Ainda na Idade Antiga, conta-nos a Bíblia Sagrada o levantamento do povo judaico para fins guerreiros e, na época de Augusto, era feito o recenseamento da população (com o objetivo de verificar o quanto o povo pagava de impostos) e extensão territorial do Império Romano. A Igreja Católica, por ocasião do conselho de Trento, ordenou que se fizesse o registro de nascimentos, casamentos e mortes. Na Idade Média, destacam-se os árabes, no ano 721, com a coleta numérica das cidades dominadas, contagem de suas populações , fábricas e de cada espécie de seus produtos, para controle das conquistas territoriais. Carlos Magno, rei dos francos e imperador do Ocidente, de 771 a 814, tendo em vista fins de caráter financeiro e administrativo, estabeleceu o organismo de Estado. Guilherme, o Conquistador, ordenou a elaboração de um cadastro da divisão do solo da Inglaterra das várias classes sociais existentes, para fins de arrecadação de impostos, o que deu origem em 1086, à obra “Domesday Book”, considerada como modelo marcante desse período. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 2 2.2. 2º PERIÓDO – PREPARAÇÃO DAS TEORIAS Caracterizam-se pelas críticas e polêmicas tendendo a instituir a Estatística como disciplina autônoma. Assim, Herman Coring no século XVII na Alemanha, emprega a Estatística já como disciplina autônoma e descreve o Estado considerando seu território, seu governo e suas finanças. Na Inglaterra, no século XVII, John Graunt (1620 – 1674) inicia investigações sobre a Estatística Demográfica e descobre em estudos analíticos, certas proporções entre nascimentos, casamentos e óbitos, chegando a uma estimativa aproximada da população de Londres e de outras cidades. William Petty, autor do termo “Aritmética Política”, baseado em informações estatísticas, tira conclusões com aproximação sobre a regularidade dos fenômenos sociais . Edmond Halley esboça a primeira tabela de mortalidade. Adolphe Quetelet, no século XVIII, aplica, no estudo demográfico e social, a lei dos grandes números e é considerado o maior expoente da aplicação dessa lei. Godofredo Achenwall, no século XVIII, batizou a nova ciência (ou método) com o nome de Estatística, determinando o seu objetivo e suas relações com as ciências Blaise Pascal, na França, no século XVIII, e Pierre Fermat descobrem o cálculo das Probabilidades, desenvolvidas depois por Bernoulli, Gauss, Laplace e outros, e mais recentemente, no século XIX e XX com Person, Galton, Gosset (que usava o pseudônimo de “Student”), Fischer e outros, a Estatística se estruturou como ciência, ganhando enorme evidência. 2.3. 3º PERÍODO – APERFEIÇOAMENTO TÉCNICO E CIENTÍFICO Inicia-se em 1853, com o primeiro Congresso de Estatística e abrange parte da Idade Moderna, estendendo-se pela Idade Contemporânea. Neste período, destaca-se entre outros, Francis Galton, com o emprego da Estatística Metodológica nos problemas da hereditariedade, James Clerk Maxwell, empregando a Estatística na teoria cinética dos gases. Atualmente, a Estatística desempenha papel de importância crescente em quase todas as fases de uma pesquisa, aplicando-se a toda ciência experimental. 3. DEFINIÇÕES DE ESTATÍSTICA: Diversos autores apresentam “definições” que não são suficientemente claras para nos dar uma idéia definitiva do seu significado porém, destacamos dois aspectos: O Descritivo e o Inferencial ou Indutivo. Eis algumas delas: 3.1. “Conjunto dos processos que têm por objetivo a observação, a classificação formal e a análise dos fenômenos coletivos ou de massa e, por fim a indução das leis a que tais fenômenos obedecem globalmente.” (Milton da Silva Rodrigues) 3.2. “Estatística é o estudo de dados quantitativos marcados por uma multiplicidade de causas”. (Yule) 3.3. “A Estatística é a parte da Matemática Aplicada que se ocupa em obter conclusões a partir de dados observados.” (Ruy Aguiar da Silva Leme) 3.4. “A Estatística ocupa-se dos procedimentos para tomar decisões em situações caracterizadas pela incerteza, praticamente sempre presentes na medida em que, quem decide não pode estar certo de conhecer ou controlar os resultados de sua ação.” (Abraham Wald) 3.5. “É a observação metódica, e tão universal quanto possível dos fatos considerados em globo, reduzidos a grupos homogêneos e interpretados mediante a indução matemática.” (Ferraris) 3.6. “A Estatística constitui um corpo de processos usados no estudo de grandes massas e dados numéricos com o objetivo de extrair dos mesmos, fatos reduzidos e simples.” (Albert Wanghi) 3.7. “A Estatística está interessada nos métodos científicos para coleta, organização, resumo, apresentação e análise de dados, bem como na obtenção de conclusões válidas e na tomada de decisões razoáveis, baseadas em tais análises.” (Murray R. Spiegel) Estatística para os cursos de Engenharia e InformáticaEurípedes MACHADO Rodrigues 3 De modo geral, podemos resumir as definições vistas anteriormente em: “Estatística é a parte da Matemática Aplicada que trata da coleta, organização, análise e interpretação de dados coletados com a finalidade de auxiliar na tomada de decisões.” 4. RELAÇÃO ENTRE A ESTATÍSTICA E A PSICOLOGIA A Estatística na psicologia se inicia com os estudos dos fisiologistas do século XIX (Fischer, Watson, Wundt e outros). Embora divergindo de suas concepções filosóficas, tinham em comum nas suas pesquisas o pensamento de que é possível aplicar técnicas experimentais e procedimentos matemáticos ao estudo dos problemas psicológicos, ou seja, sentimentos, emoções, percepções, alegrias, tristezas, ansiedades, stress, etc. Essas características, chamadas psicológicas, quando ativadas, repercutem somaticamente, ou seja, são refletidas através do corpo ( suores, tremores, rubores, etc...). A medida dessa repercussão será interpretada na Estatística pelo psicólogo, através de tabelas, gráficos, medidas de tendência central , medidas de dispersões, etc. Na psicologia, a Estatística como ferramenta de trabalho contribui para o planejamento experimental de dados coletados (população em estudo), análise de suas variáveis, processo de amostragem, chegando na realização do experimento propriamente dito ou seja, um “instrumento” avaliador em psicologia projetado com auxílio dos princípios estatísticos. 5. CONCEITOS INTRODUTÓRIOS: 5.1. DADOS São informações obtidas a partir de medições de grandezas, resultados de pesquisas, respostas a questionários ou contagem de modo geral. 5.2. MÉTODO ESTATÍSTICO O Método Estatístico consiste em técnicas utilizadas na pesquisa de fenômenos coletivos. É composto das seguintes fases: A) Coleta de Dados Quando os dados são obtidos diretamente em sua fonte de origem temos uma coleta direta. Como exemplo, os salários dos funcionários de uma empresa que podem ser consultados no seu departamento pessoal. O principal instrumento de coleta é o questionário. A coleta indireta é quando os dados são retirados de revistas, jornais, livros, Internet, etc., ou obtidos de instituições como IBGE. Neste caso, devemos mencionar a fonte responsável pelas informações bem como a data e o local da publicação. B) Crítica dos Dados É a fase em que os dados obtidos na coleta de dados devem ser analisados, corrigindo possíveis enganos, evitando que informações errôneas (ou destorcidas) possam influenciar os resultados do estudo. C) Apuração dos Dados A apuração dos dados consiste na contagem ou tabulação dos dados coletados após a crítica, ordenando-os segundo critérios de classificação estabelecidos. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 4 D) Apresentação dos Dados Após a apuração os dados são apresentados em tabelas ou gráficos. E) Análise dos Resultados Para auxiliar a interpretação dos dados são necessárias algumas medidas estatísticas. A análise é feita em função dos objetivos estabelecidos na pesquisa, visando a tomada de decisões no sentido de melhorar certas tendências observadas no fenômeno estudado. Por exemplo, ao pesquisarmos os acidentes de uma rodovia podemos detectar possíveis causas e apresentar alternativas que possam minimizar o número de acidente. 5.3. POPULAÇÃO OU UNIVERSO. É um conjunto de elementos (indivíduos ou objetos) que apresentam pelo menos uma característica em comum, ou ainda, o conjunto de elementos que o pesquisador deseja estudar. Conforme vimos, a Estatística tem por objeto o estudo dos fenômenos coletivos e das relações que existem entre eles. Entende-se como fenômeno coletivo àquele que se refere à população ou universo, que compreende um grande número de elementos, sejam pessoas ou coisas. Portanto, para a Estatística, somente interessam os fatos que englobem um grande número de elementos, pois ela busca encontrar leis de comportamento para todo o conjunto e não se preocupa com cada um dos elementos em particular. Quanto ao número de elementos, a população pode ser finita ou infinita. É finita quando apresenta um número limitado de indivíduos. A população infinita possui um número infinito de elementos e geralmente está associada a processos. Porém, tal definição existe apenas no campo teórico, pois, na prática, nunca encontramos populações com infinitos elementos, mas, sim, populações com um grande número de componentes, como ocorre na Estatística Matemática, que são tratadas como se fossem infinitas. Exemplos de populações finitas e infinitas: 1) A população constituída por todos os automóveis produzidos por uma montadora em um dia de serviço é finita; 2) A população constituída de todos os resultados possíveis (cara ou coroa) em sucessivos lances de uma moeda é infinita. 5.4. AMOSTRA Quando a população é muito grande, torna-se difícil a observação dos aspectos a serem executados de cada um dos elementos, devido a impossibilidade ou inviabilidade econômica ou temporal. Nessas circunstâncias, fazemos a seleção de uma amostra suficientemente representativa da população e, através da observação dessa, estaremos aptos a analisar os resultados, da mesma forma que se estudássemos toda a população. Amostra é um subconjunto de uma população, necessariamente finita, pois todos os seus elementos serão examinados para efeito da realização do estudo estatístico desejado e são obtidas por técnicas adequadas, chamadas amostragens. 5.5. AMOSTRAGEM Amostragem é uma técnica especial para recolher amostras, cuja escolha é feita ao acaso. Dessa forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o que garante à amostra o caráter de representatividade, assim, nossas conclusões relativas a uma população estarão baseadas nos resultados obtidos nas amostras dessa população. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 5 As referências quanto à análise e interpretação de dados dividem a estatística em duas partes: Estatística Descritiva e Estatística indutiva. 5.6. ESTATÍSTICA DESCRITIVA (ou Dedutiva) É aquela que tem por objeto a coleta, a organização e a descrição dos dados experimentais, ou seja, descreve e analisa determinada população, sem pretender tirar conclusões de modo genérico. Seu principal objetivo é a racionalização dos dados, através de tabelas, gráficos, medidas de posição, de variabilidade e de correlação. Resumindo: Organização dos Dados: •••• Tabelas; •••• Gráficos; Análise – Redução dos Dados: •••• Medidas de Posição (Média, Mediana, Moda, etc.) •••• Medidas de Variabilidade ou de Dispersão: Desvio Médio, Desvio Padrão, Variância, etc. •••• Medidas de Correlação Esquematicamente: Coletas de Crítica dos Apresentação Tabelas Análises dados dados dos dados Gráficos 5.7. ESTATÍSTICA INDUTIVA OU INFERÊNCIA ESTATÍSTICA É a parteda Estatística que, baseando-se em resultados obtidos da análise de uma amostra da população, procura concluir, sugerir ou estimar as leis de comportamento da população da qual a amostra foi retirada. Os objetivos principais da Estatística Indutiva são: tirar conclusões sobre populações através de amostras extraídas dessa população, induzindo ou caracterizando uma população através de amostra e ainda dizer qual é a probabilidade de erro, já que o processo de indução não é exato. Também através da Estatística Indutiva podemos aceitar ou rejeitar hipóteses que podem surgir sobre as características da população, a partir também da análise da amostra representativa dessa população. Como observação: quanto maior for a amostra, mais precisas e confiáveis deverão ser as induções realizadas na população. 6. MEDIDAS - São atribuições numéricas a coisas, de acordo com regras específicas. 6.1. PROPRIEDADES DAS MEDIDAS: IDENTIDADE ORDENAÇÃO ADITIVADADE Essas propriedades serão vistas na classificação das variáveis quanto ao seu nível de mensuração. 7. VARIÁVEIS Convencionalmente, variável é o conjunto de resultados possíveis de um fenômeno, pois, os fenômenos analisados estatisticamente são passíveis de variação, isto é, podem assumir diferentes valores. Praticamente a todos os fenômenos que ocorrem na natureza, por exemplo: Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 6 sexo (que tem dois resultados possíveis: masculino ou feminino), número de filhos, estatura, peso, inteligência, beleza, profissão, etc, corresponde um certo número de resultados possíveis. Na prática, não trabalhamos estatisticamente com os elementos existentes, mas sim, com alguma de suas características que sejam fundamentais ao nosso estudo. Por exemplo: o conjunto de elementos pode ser “parafusos produzidos por uma máquina”. Não faremos nenhum tratamento matemático com os parafusos e sim, com alguma de suas características como, por exemplo, comprimento, peso, diâmetro, perfeito ou defeituoso, etc. Como podemos notar, a característica de interesse poderá ser qualitativa ou quantitativa. Temos, então, variáveis qualitativas e variáveis quantitativas: 7.1. VARIÁVEL QUALITATIVA A variável será qualitativa quando resultar de uma classificação por tipo (categorias) ou atributo (modalidades) , por exemplo: a) População: parafusos produzidos por uma máquina Variável: qualidade (perfeito ou defeituoso); b) População: número de registros de casamentos de um cartório civil Variável: qualidade (com comunhão de bens ou com separação de bens) c) sexo – atributo: masculino ou feminino d) cor da pele – atributo: branca, preta, amarela, vermelha, parda, etc., e) cor dos olhos – atributo: azuis, verdes, castanhos, pretos, etc. 7.2. VARIÁVEL QUANTITATIVA A variável será quantitativa quando seus valores forem expressos em números, ou seja, refere-se exclusivamente a quantidades (idade dos alunos de uma Universidade, salários dos funcionários de uma empresa, etc.), subdividindo-se em discretas e contínuas. 7.2.1. VARIÁVEL QUANTITATIVA DISCRETA (OU DESCONTÍNUA) Uma variável é quantitativa discreta quando assume valores pertencentes a um conjunto enumerável (um número finito de valores isolados dentro de um intervalo), os valores são obtidos mediante alguma forma de contagem, razão pela qual seus valores são expressos através de números naturais {0; 1; 2; 3; ...}, por exemplo: a) número de filhos de um casal – pode ser 3 filhos, mas não pode ser 2,75 filhos; b) número de livros em uma estante – pode ser 300 livros, mas não pode ser 275,832 livros; c) número de chamadas telefônicas – pode ser 50 chamadas, mas não pode ser 37,682 chamadas; d) População: aparelhos produzidos por uma linha de montagem. Variável : número de defeitos por unidade. 7.2.2. VARIÁVEL QUANTITATIVA CONTÍNUA Uma variável é quantitativa contínua quando pode assumir qualquer valor num certo intervalo de variação, assim, as observações (ou valores) são obtidos através de mensuração (medida) e a interpretação é de que se trata de um valor aproximado, pois não existem instrumentos capazes de oferecer precisão absoluta, por exemplo: a) se uma pessoa tem altura de 1,78m, devemos considerar que o valor exato está entre 1,775m e 1,785m , por exemplo; b) o comprimento de um terreno; c) o diâmetro externo de uma peça; d) o peso de certa pessoa (50,5 kg ; 50,573kg ; 50,585kg ; ...). Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 7 De modo geral, podemos dizer que, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas. As variáveis são designadas por letras latinas, geralmente, as últimas: x , y , z , por exemplo: Sejam, 0, 1, 2 e 3 todos os resultados possíveis de um dado fenômeno. Podemos indicar a variável relativa ao fenômeno considerado como sendo x ∈ {0, 1, 2, 3} 7.3. CLASSIFICAÇÃO DAS VARIÁVEIS QUANTO AO SEU NÍVEL DE MENSURAÇÃO 7.3.1. NOMINAIS Quando os atributos são do tipo mutuamente exclusivos, não havendo, portanto, hierarquia entre as diversas categorias, ou seja, os objetos contidos em uma dada classe são equivalentes em relação a um dado atributo ou propriedade. As variáveis Nominais possuem a propriedade de identidade. Por exemplo, a variável estado civil pode ser estudada dividindo-se em categorias: a) casado b) solteiro c) divorciado d) viúvo e) outro Há outras maneiras de se fazer essa divisão, dependendo dos interesses de cada pesquisador. Outros exemplos: Cultura, personalidade, nacionalidade, religião, política, etc. 7.3.2. ORDINAIS Os objetos ou atributos, além de divididos em categorias, são hierarquizados, por exemplo, a variável: classe social, que divide um grupo de pessoas em várias classes sendo que, de uma classe para outra exista uma relação “mais que” ou “melhor que”. Assim, uma pessoa de uma classe é superior a outra pessoa de outra classe. As variáveis Ordinais possuem as propriedades de identidade e ordenação. Outros exemplos: Ansiedade, autoritarismo, agressividade, hierarquia militar, etc. 7.3.3. CARDINAIS Os objetos ou atributos podem ser quantificados, por exemplo: a variável peso de uma pessoa é estudada separando as pessoas de acordo com o seu peso, essa separação é feita levando-se em conta a quantificação do peso, ou seja, 80kg, 65kg, 120kg, , etc. Como podemos notar, tendo-se definido uma unidade de medida (no caso kg), um número é associado ao objeto em estudo, fornecendo a este o número de unidades de medida equivalente à quantidade da propriedade possuída pelo objeto. As variáveis cardinais possuem as propriedades de identidade, ordenação e aditividade. Outros exemplos: Estatura, tempo, velocidade, força, aparelhos de medidas de modo geral, etc. NOTA: Das três classificações acima a mais completa é a classificação cardinal por englobar as demais. Nas áreas psicossociais as variáveis que envolvem desempenho humano (Q.I., nota, idade mental, etc.) são normalmente expressas por numerais, cuja finalidade é traduzir quantidades e, portanto, seriam classificadas como cardinais. No entanto, os numerais utilizados só significarão quantidades se houver garantiado pesquisador para isso, por exemplo: uma pessoa com 10 anos de idade será um resultado quantitativo se esse nº 10 significar o dobro de 5, 2 a mais que 8, etc. Sem essa garantia , essas variáveis seriam classificadas como ordinais. 8. PARÂMETRO São características numéricas da população. Exemplo: Q.I. médio dos estudantes universitários do Brasil. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 8 9. ESTIMATIVAS São características numéricas de uma amostra. Exemplo: Cálculo da média ou cálculo do desvio padrão das notas de uma prova aplicada a um conjunto de alunos. Os elementos numéricos característicos de uma amostra são estimativas dos elementos correspondentes na população, que são os parâmetros. POPULAÇÃO AMOSTRA AVALIAÇÃO PARÂMETRO ESTIMATIVA 10. REPRESENTAÇÃO DAS GRANDEZAS EM ESTATÍSTICA: De acordo com a Resolução 886/66 da Fundação IBGE, devemos : A) usar os seguintes símbolos para designar as unidades de medidas: metro ....................................................................... m quilômetro ............................................................... km centímetro ............................................................... cm centímetro cúbico ................................................... cm3 quilograma ............................................................. kg grama ...................................................................... g tonelada .................................................................. t B) colocar nas casas ou células: I. um traço horizontal ( ) quando o valor é zero, não só quanto à natureza das coisas, como quanto ao resultado do inquérito; II. três pontos (. . . ) quando não temos os dados; III. um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor; IV. zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Se os valores são expressos em numerais decimais, precisamos acrescentar à parte decimal, um mesmo número de zeros ( 0,0 ; 0,00 ; 0,000 ; etc. ) 11. ARREDONDAMENTO DE NÚMEROS 11.1. Para arredondarmos números adotaremos os seguintes critérios estabelecidos pela Portaria 36 de 06/07/1965 do INPM (Instituto Nacional de Pesos e Medidas): I. Se o algarismo seguinte, aquele a ser arredondado, for menor do que cinco (5 ), será desprezado juntamente com os que o sucedem, obtendo-se um valor por falta . Exemplo: Arredondar os números com as aproximações indicadas: a) 15,6752 (aproximação 0,001) 15,675 b) 13,6715 (linear de percepção 0,01) 13,67 valor por falta c) 163 para a dezena mais próxima 160 Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 9 II. Se o algarismo seguinte, aquele a ser arredondado, for maior do que cinco ( 5 ), será desprezado juntamente com os que o sucedem, acrescentando-se uma unidade ao algarismo no qual se faz o arredondamento, tendo-se um valor por excesso. Exemplo: Arredondar os dados abaixo com as aproximações indicadas: a) 15,6766 (aproximação 0,01) 15,68 b) 23,45384 (aproximação 0,001) 23,454 valor por excesso c) 10,7 para o inteiro mais próximo 11 III. Se o algarismo seguinte, aquele a ser arredondado, for igual a cinco ( 5 ) , usamos os seguintes critérios: 1º) Se o primeiro algarismo após aquele que formos arredondar for 5, seguido apenas de zeros, conservamos o algarismo se ele for PAR ou aumentamos uma unidade se ele for ÍMPAR, desprezando os algarismos seguintes. EXEMPLO: Arredondar para a 1ª casa decimal ( 0,1 ) os números: 1) 34,6500 passa para 34,6 2) 36,75000 passa para 36,8 2º) Se o 5 for seguido de outros algarismos dos quais, pelo menos um é diferente de zero, aumentamos uma unidade no algarismo e desprezamos os seguintes. EXEMPLO: Arredondar para a 1ª casa decimal (0,1) os números: 1) 36,7502 passa para 36,8 2) 34,6503 passa para 34,7 NOTA: NÃO SE DEVEM FAZER ARREDONDAMENTOS SUCESSIVOS EM NENHUMA HIPÓTESE. EXERCÍCIO: Transformar o dado bruto 15,6715 em dado elaborado com linear de percepção 0,01 e dizer: a) qual o algarismo duvidoso; b) quais os algarismos exatos; c) quais os algarismos certos SOLUÇÃO: 15,67[15 15,67 despreza-se a) o algarismo duvidoso é o 7 por estar influenciado por uma aproximação. Se o dado bruto fosse 15,6766, o arredondamento passaria para 15,68 . Neste caso, o algarismo 7 não mais figura no número, sendo, portanto, duvidoso; b) os algarismos exatos são : 1 , 5 e 6; c) os algarismos certos são : 1 , 5 , 6 e 7. 11.2. COMPENSAÇÃO Suponhamos os dados abaixo, aos quais aplicamos as regras do arredondamento: 15,32 15,3 37,85 passa para 37,8 11,44 11,4 30,17 + 30,2 + 94,78 94,7 (94,8) Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 10 Verifica-se que houve uma pequena discordância : a soma é exatamente 94,7 quando, pelo critério do arredondamento, deveria ser 94,8. Entretanto, para a apresentação dos resultados, é necessário que desapareça essa diferença, a qual é possível pela prática do que denominamos compensação, conservando o mesmo número de casas decimais. De um modo geral, fazemos a compensação descarregando a diferença na(s) parcela(s) maior(es). Assim, no exemplo dado,teremos: 15,3 37,9 11,4 30,2 + 94,8 12. NOÇÕES DE SOMATÓRIO Para indicarmos a soma dos x n valores de uma variável x, isto é x1 + x2 + x3 + . . . + x n , usamos o símbolo ∑∑∑∑ (letra grega, maiúscula : sigma) , denominado, na Matemática de somatório. Assim, a soma x1 + x2 + x3 + . . . + x n pode ser representada por ∑ = n 1i ix (lê-se: somatório de x índice i com i variando de 1 até n ) , isto é: x1 + x2 + x3 + . . . + x n = ∑ = n 1i ix OBS.: As letras ou números colocados abaixo ou acima do símbolo ∑∑∑∑ , chamam-se limites do somatório. Não havendo possibilidade de dúvidas, podemos indicar o somatório de modo simplificado. Assim: x1 + x2 + x3 + . . . + x n = ∑ ix Exemplo1: Consideremos os escores obtidos em um teste de inteligência por 5 estudantes: x1 x2 x3 x4 x5 10 25 40 15 28 Represente os dados através de somatório obtendo o resultado do mesmo. ∑ = 5 1i ix = x1 + x2 + x3 + x4 + x5 = 10 + 25 + 40 + 15 + 28 = 118 Exemplo 2: Desenvolver as somas : a) ∑ = 6 1i ix = x1 + x2 + x3 + x4 + x5 + x6 b) 2) 3 4 1i i y( − = ∑ = (y1 – 3 )2 + (y2 – 3 )2 + (y3 – 3 )2 + (y4 – 3 )2 c) if . 5 1i ix∑ = = x1 f1 + x2 f2 + x3 f3 + x4 f4 + x5 f5 d) ∑ = 4 1i 2 ix . if = f1 x1 2 + f2 x2 2 + f3 x3 2 + f4 x4 2 Exemplo 3 : Indicar, por meio de somatório as expressões: Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 11 a) (x1 + 3) 2 + (x2 + 3) 2 + (x3 + 3) 2 + . . . + (x20 + 3) 2 = 2) 3 20 1i ix ( + = ∑ b) (x3 + y3) 3 + (x4 + y4) 3 + (x5 + y5) 3 + (x6 + y6) 3 = 3) iy 6 3i ix ( + = ∑ 12.1. PROPRIEDADES DOS SOMATÓRIOS: I. Sendo k uma constante real (diferente de zero), temos: ∑ = n 1i k = n . k II. Sendo k uma constante real (diferente de zero) e x uma variável real, temos: ∑∑ = = = n 1i ix . k n 1i ) ix . k ( III. Sendo x e y duas variáveis reais, temos: n 1i i y n 1i ix n 1i ) i y ix ( ∑∑∑ = + = = = + NOTAS: CUIDADO! I. ∑∑∑ == ≠ = n 1i i y . n 1i ix n 1i ) i y. ix ( II. ∑∑ = ≠ = n 1i 2 ix 2n 1i ix Exercícios: 1. Escreva na notação de somatório as somas: a) 2) x - 9(x . . . 2) x - 3(x 2) x - 2(x 2) x - 1(x ++++ = b) 2) x - 6(x . 6f . . . 2) x - 3(x . 3f 2) x - 2(x . 2f 2) x - 1(x . 1f ++++ = c) | x - 8x| .8f . . . | x - 3x| .3f | x - 2x| .2f | x - 1x|.1f ++++ = 2. Escreva as parcelas da soma indicada: a) ∑ = 6 2i ix = b) ||∑ = 3 1i 5 - ix = c) ) 4 1i 2 i(5x∑ = + = d) ∑ = 3 1i 2 4 - 2 i3x = 3. Calcule para a tabela abaixo, o valor numérico das somas indicadas: Ordem do valor i x i f i 1 2 2 2 4 5 3 5 3 4 6 2 a) ∑∑∑∑ i = b) ∑∑∑∑ x i = c) ∑∑∑∑ f i = d) ∑∑∑∑ x i . f i = e) ∑∑∑∑ i . x i = f) ∑∑∑∑ x i 2 . f i = g) ∑∑∑∑ (x i – 10 ) 2 . f i = Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 12 h) ∑∑∑∑ i i f . i x = i) ∑∑∑∑ | x i – i | . f i = j) ∑∑∑∑ (2 x i – 10 ) 2 . f i = 13. DISTRIBUIÇÃO DE FREQÜÊNCIAS O estudo de um determinado fenômeno, freqüentemente requer a coleta de uma grande massa de dados numéricos (população em estudo), difícil de ser tratada se esses dados não forem sintetizados (organizados e condensados) na forma de tabelas e gráficos que contenham, além dos valores das variáveis, o número de elementos correspondentes a cada variável. Cabe a Estatística Descritiva, encontrar as leis de comportamento dessa massa de dados, retirando uma amostra desta população para obter dados relativos a variável desejada nesta amostra. 13.1. DADOS BRUTOS É o conjunto dos dados numéricos obtidos após a crítica dos valores coletados, e que ainda não foram organizados. Exemplo: A partir de uma lista de freqüências, em ordem alfabética, obteve-se o conjunto das estaturas, em cm, de 20 alunos de uma classe: 163, 168, 160, 164, 168, 160, 164, 166, 169, 168, 169, 166, 162, 165, 165, 168, 164, 161, 166, 168 13.2. ROL É o arranjo ou organização dos dados brutos em ordem de freqüência crescente ou decrescente. Assim, no exemplo dado temos o seguinte ROL: 160, 160, 161, 162, 163, 164, 164, 164, 165, 165, 166, 166, 166, 168, 168, 168, 168, 168, 169, 169 13.3. FREQÜÊNCIA ABSOLUTA OU FREQÜÊNCIA SIMPLES ( f i ) É o número de vezes que um dado elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. No exemplo dado, a freqüência do elemento 166 é 3, pois, aparece 3 vezes na amostra. 13.4. DISTRIBUIÇÃO DE FREQÜÊNCIAS PARA DADOS NÃO AGRUPADOS (VARIÁVEL DISCRETA) É o arranjo dos valores da variável e suas respectivas freqüências. No exemplo dado, temos: Estat. (cm) x i f i x 1 160 2 f 1 x 2 161 1 f 2 x 3 162 1 f 3 x 4 163 1 f 4 x 5 164 3 f 5 x 6 165 2 f 6 x 7 166 3 f 7 x 8 167 0 f 8 x 9 168 5 f 9 x10 169 2 f10 ∑∑∑∑ 20 Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 13 Observações: 1. x i representa a variável (x1 = valor da 1ª variável, x2 = valor da 2ª variável , etc.); 2. f i representa a freqüência (f1 = freqüência da 1ª variável, f2 = freqüência da 2ª variável, etc.); 3. ∑ f i = n (somatório das freqüências); 4. n é o tamanho da amostra; 5. O valor mínimo é 160 e o máximo é 169; 6. O valor mais freqüente é o 168; 7. O valor 167 tem freqüência zero. Quando o número de valores representativode uma amostra for muito grande, recomenda- se o agrupamento dos dados em classes, evitando com isso os inconvenientes: I. Grande extensão de tabelas, dificultando a leitura dos dados brutos e a interpretação dos resultados apurados; II. Impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo, bem como de sua variação; III. Aparecimento de vários valores da variável com freqüência nula. O uso dos valores observados em classes, e não individualmente, oferece as seguintes vantagens: A tabela informa a tendência de, a distribuição se concentrar em torno de um valor central, e proporciona uma visão panorâmica do comportamento da variável , porém, em uma tabela de valores agrupados em classes, não mais figuram os valores exatos de cada dado em particular, e também não será mais possível saber quais são os valores maiores (mais alto) e menores (mais baixo) da distribuição. 13.5. DISTRIBUIÇÃO DE FREQÜÊNCIA PARA DADOS AGRUPADOS EM CLASSES (VARIÁVEL CONTÍNUA) A distribuição de freqüências dos dados de uma amostra distribuídos em classes, é idêntica a que é feita com cada valor da variável, adotando-se os seguintes elementos: 13.5.1. AMPLITUDE TOTAL(H) OU “RANGE” (R) É a diferença entre o maior e o menor valor observado na amostra, identificado mais facilmente no rol. Podemos escrever: R = X máx. – X mín. No exemplo dado, temos: Xmáx. = 169 e Xmín. = 160 R = 169 – 160 R = 9 13.5.2. NÚMERO DE CLASSES ( nc ou k) CLASSE é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de dados observados da variável. É importante que uma distribuição contenha um número adequado de classes, se esse número for pouco denso, os dados originais ficarão tão comprimidos, de modo que, pouca informação se poderá extrair da tabela. Se, por outro lado, se esse número for abundante (muitas classes), aparecerá freqüências nulas ou muito pequenas que fará com que os dados originais resultem em uma distribuição irregular e prejudicial à interpretação do fenômeno como um todo. Para determinar o número de classes há diversos métodos (fórmulas empíricas), dentre eles destacamos: I. k ≅≅≅≅ n , onde n é o número total dos elementos da amostra. No exemplo dado, temos : K ≅ 20 K ≅ 4,472135955. . . Adotaremos K = 4 (inteiro mais próximo) Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 14 II. Regra de Sturges: k ≅ 1 + 3,22 . log n , n é o tamanho da amostra. No nosso exemplo: K ≅ 1 + 3,22 . log 20 K ≅ 1 + 3,22 . 1,301029996. . . K ≅ 1 + 4,189316586. . . K ≅ 5,189316586. . . Adotaremos K = 5 (inteiro mais próximo) Como você pode observar, houve uma pequena diferença no valor do número de classes de acordo com a fórmula usada, porém, quando trabalhamos com um número maior de observações, essa diferença tende a aumentar mais ainda. Este é um dos inconvenientes resultantes da aplicação da fórmula de Sturges, que é o de propor um número demasiado de classes para um número pequeno de observações, e relativamente poucas classes, quando o número de observações for grande. Veja o seguinte exemplo: Se o número de observações for 600, teremos: a) pela 1ª fórmula: k ≅ 600 ≅ 24,49489... ou, arredondando, k = 24 ; b) pela 2ª fórmula: k ≅ 1 + 3,22 . log 600 ≅ 1 + 3,22 . 2,77815... ≅ 1 + 8,945647... ≅ 9,945647... ou, arredondando, k = 10 c) se n = 60 , então : k ≅ 1 + 3,22 . log 60 ≅ 1 + 5,725647... ≅ 6,725647... ou, arredondado, k = 7 De acordo com este exemplo, concluímos que não há uma fórmula exata para o cálculo do número de classes, no entanto, alguns autores fazem as seguintes observações: a) para n ≤ 25 toma-se k = 5 ; b) para n > 25 toma-se k ≅ n c) para Truman L. Kelley , em The Grouping Data for Graphic Portrayal, é feito a sugestão dos seguintes números de classes, com base no número total de observações, para efeito de representação gráfica: observações ( n ) 5 10 25 50 100 200 500 1 000 nº de classes ( k) 2 4 6 8 10 12 15 15 A escolha de um dos critérios para a determinação do número de classes, dependerá da natureza dos dados e da unidade de medida em que eles forem expressos, e não simplesmente, de regras arbitrárias e pouco flexíveis, cabendo ao investigador (ou analista) tal escolha. 13.5.3 AMPLITUDE DE CLASSE ( h ) É, aproximadamente, o quociente entre a amplitude total e o número de classes, ou seja: h ≅ k R ou h ≅ k mín.X - máx.X No exemplo dado inicialmente (página 12) , temos: R = 9 e k = 4 h ≅ 4 9 ≅ 2,25 Podemos adotar h = 3. Esse valor corresponde a diferença entre o limite superior e o inferior da classe. h = Ls −−−− L i Ls = limite superior de classe Li = limite inferior de classe 13.5.4. PONTO MÉDIO (PM) É a média aritmética simples entre o limite inferior e o limite superior de cada classe. Quando Xi não é dado, tomamos o PM para seu valor, ou seja, fazemos Xi = PM PM = 2 sL iL + Li = limite inferior da classe Ls = limite superior da classe Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 15 OBS.: O valor do PM, também pode ser obtido fazendo PM = Li + 2 h 14. TIPOS DE FREQÜÊNCIAS 14.1. FREQÜÊNCIA ABSOLUTA ( f i ) É o número de repetições de um valor em um conjunto de dados qualquer, ou seja, o número de vezes em que um elemento aparece na amostra (dados brutos); 14.2. FREQÜÊNCIA RELATIVA ( f r ou f r i ) É o quociente entre cada freqüência absoluta (ou simples) e a freqüência total. f r = ∑ i f i f ou f r = n i f , onde n = ∑∑∑∑ f i NOTA: A soma das freqüências relativas simples é sempre igual a 1 (um), ou seja, ∑∑∑∑ f r = 1 14.3. FREQÜÊNCIA RELATIVA PERCENTUAL ( f % ou f % i ) É a representação da freqüência relativa em termos percentuais, ou seja, f % = f r . 100 NOTA: A soma das freqüências relativas percentuais é sempre igual a 100. Isto é: ∑∑∑∑ f % = 100% 14.4. FREQÜÊNCIA ABSOLUTA ACUMULADA ( Fi ou f a i ) É a soma da freqüência do valor da variável com todas as freqüências anteriores. 14.5. FREQÜÊNCIA RELATIVA ACUMULADA ( Fr a ou f r a i ) É a soma da freqüência relativa do valor da variável com todas as freqüências relativas anteriores. 14.6. FREQÜÊNCIA PERCENTUAL ACUMULADA ( F% a ou f % a i ) É a representação da freqüência relativa acumulada em termos percentuais, ou seja: F% a = f r a . 100 EXEMPLO: Fazer a distribuição das freqüências dos dados do exemplo da página 12, considerando os seguintes casos: a) dados isolados (não agrupados em classes); b) dados agrupados em classes. Resolução: a) Para dados não agrupados em classes: Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 16 Xi f i f r f % f a f r a f % a 160 2 0,10 10 % 2 0,10 10 % 161 1 0,05 5 % 3 0,15 15 % 162 1 0,05 5 % 4 0,20 20 % 163 1 0,05 5 % 5 0,25 25 % 164 3 0,15 15 % 8 0,40 40 % 165 2 0,10 10 % 10 0,50 50 % 166 3 0,15 15 % 13 0,65 65 % 167 0 0 0 % 13 0,65 65 % 168 5 0,25 25 % 18 0,90 90 % 169 2 0,10 10 % 20 1,00 100 % ∑ 20 1,00 100 % b) Para dados agrupados em classes: Classes PM=Xi f i f r f % f a f r a f % a 160 |--- 163 161,5 4 0,20 20 % 4 0,20 20 % 163 |--- 166 164,5 6 0,30 30 % 10 0,50 50 % 166 |--- 169 167,5 8 0,40 40 % 18 0,90 90 % 169 |--- 172 170,5 2 0,10 10 % 20 1,00 100 % ∑∑∑∑ 20 1,00 100 % Cálculos auxiliares: I. PM1 = 2 163 160 2 L L 11 si += + = 161,5 PM2 = 2 166 163 2 L L 22 si += + = 164,5 PM3 = 2 169 166 2 L L 33 si += + = 167,5 PM4 = 2 172 169 2 L L 44 si += + = 170,5 II. 20 4 n 1 f rf 1 == = 0,20 20 6 n 2 f rf 2 == = 0,30 20 8 n 3 f rf 3 == = 0,40 20 2 n 4 f rf 4 == = 0,10 III. 1af = 0 + 4 = 4 2af = 0 + 4 + 6 = 10 3af = 0 + 4 + 6 + 8 = 18 4af = 0 + 4 + 6 + 8 + 2 = 20 OBS.: Como a variável x =167 não aparece na amostra, poderá ser omitida da tabela. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 17 Distribuição de Freqüências Exemplos: Ex1: Lista de alturas de 50 estudantes (em cm): Tabela 1 - Dados Brutos 103 99 130 120 50 63 71 115 125 75 78 114 90 100 86 98 127 98 107 100 135 110 115 105 101 84 115 114 95 99 86 83 110 85 75 64 110 140 125 86 87 120 92 92 93 130 70 90 100 87 Lista de alturas de 50 estudantes ordenada em ordem crescente: Tabela 2 - Rol 50 85 93 103 115 63 86 95 105 120 64 86 98 107 120 70 86 98 110 125 71 87 99 110 125 75 87 99 110 127 75 90 100 114 130 78 90 100 114 130 83 92 100 115 135 84 92 101 115 140 - Observa-se no rol de alturas que alguns valores se repetem. Pode-se fazer uma condensação das medidas estabelecendo-se uma correspondência entre o valor individual e o respectivo número de vezes em que o mesmo foi observado. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 18 Tabela 3 - Distribuição de Freqüências de Dados Tabulados Não Agrupados em Classes Número de Ordem i Altura (cm) Repetições (fi) 1 50 1 2 63 1 3 64 1 4 70 1 5 71 1 6 75 2 7 78 1 8 83 1 9 84 1 10 85 1 11 86 3 12 87 2 13 90 2 14 92 2 15 93 1 16 95 1 17 98 2 18 99 2 19 100 3 20 101 1 21 103 1 22 105 1 23 107 1 24 110 3 25 114 2 26 115 3 27 120 2 28 125 2 29 127 1 30 130 2 31 135 1 32 140 1 Total 50 ∑∑∑∑ ==== 32 1i if = 50 Obs: A soma das freqüências é sempre igual ao número de valores observados: f N i 1 k i = = ∑ , onde: N : Número total de valores observados; fi : Número de observações do valor identificado pelo número de ordem i; k : Total de valores diferentes observados. Extremo superior do intervalo de valores do índice i. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 19 - É vantajoso resumir os dados individuais em uma distribuição de freqüências, onde os valores observados, ao invés de aparecerem individualmente, são agrupados em classes. Por quê? • A tabela informa a tendência de a distribuição se concentrar em torno de um valor central. • Proporciona uma visão panorâmica do comportamento da variável. - Porém: • Em uma tabela de valores agrupados em classes, não figuram mais os valores exatos de cada dado em particular. • Também não é mais possível saber quais são os valores mais alto e mais baixo da distribuição. Notação: Símbolo Exemplo Significado |--- 0 |--- 10 Inclusão na classe do valor situado a sua esquerda e exclusão do valor situado a sua direita. ---| 0 ---| 10 Inclusão na classe do valor situado a sua direita e exclusão do valor situado a sua esquerda. --- 0 --- 10 Ambos os valores à direita e à esquerda estão excluídos da classe. |---| 0 |---| 10 Ambos os valores à direita e à esquerda estão incluídos na classe. Ex2: Teste com 500 perguntas, cada qual valendo um ponto, aplicado a 1000 alunos. Dados Agrupados Tabela 4 - Resultado do teste - 10 classes Classes - Notas Freqüências (fi) 0 |-- 50 10 50 |-- 100 30 100 |-- 150 40 150 |-- 200 90 200 |-- 250 200 250 |-- 300 260 300 |-- 350 200 350 |-- 400 120 400 |-- 450 30 450 |-- 500 20 Total 1000 ∑∑∑∑ ==== ==== 10 1i i 1000 f Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 20 Tabela 5 - Resultado do teste - 2 classes Classes - Notas Freqüências (fi) 0 |-- 250 370 250 |-- 300 630 Total 1000 fi i 1 = = ∑ 1000 2 Tabela 6 - Resultado do teste - 100 classes Classes - Notas Freqüências (fi) 0 |-- 5 0 5 |-- 10 1 10 |-- 15 0 15 |-- 20 2 20 |-- 25 3 25 |-- 30 0 30 |-- 35 3 35 |-- 40 0 40 |-- 45 1 45 |-- 50 0 . . . . . . 495 |-- 500 1 Total 1000 fi i 1 = = ∑ 1000 100 Qual é o número ideal de classes que deve ter esta distribuição? 1. Se o número de classes for muito pequeno, os dados originais ficarão tão comprimidos que não permitirão que se extraia muita informação da tabela; 2. Se forem utilizadas muitas classes, haverá algumas com freqüência muito pequena, resultando em uma distribuição por demais irregular. Recapitulando: Amplitude total (H) ou “Range”(R) Amplitude total ou intervalo total é a diferença entre o maior e o menor valor observado da variável em estudo. Denotando: XMAX = Maior valor observado XMIN = Menor valor observado Então: H = X MAX - XMIN Estatística para os cursos de Engenharia e Informática EurípedesMACHADO Rodrigues 21 Ex: Para as medidas de altura listadas no rol da tabela 2, temos: XMAX = 140 cm XMIN = 50 cm H = 140 cm − 50 cm = 90 cm Classe Uma dada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela. Ex: Na tabela 4, com as classes de notas, temos: Classe 0 |--- 50 ou 1a classe; Classe 400 |--- 450 ou 9a classe Número de classes (k) Há diversos métodos (fórmulas empíricas) para se determinar um número de classes que seja razoável. Denotando por k o número de classes, vamos adotar o método segundo o qual o número de classes é calculado através da fórmula: N k ≅ onde: N fi=∑ , ou seja, N é o número total de observações da variável em estudo. Ex: No caso da tabela de alturas (Tabela 3), N = 50 e, portanto: k = (50)1/2 ≅ 7,07 k = 7 Limites de classes Os limites de classes são seus valores extremos. Ex: Na primeira tabela de notas (Tabela 4), os limites da segunda classe são os valores 50 e 100: • 50 é chamado limite inferior (Li = 50); • 100 é chamado limite superior (Ls = 100) Amplitude de classe (h) A amplitude de classe é definida como a diferença entre seus limites superior e inferior. Assim, denotando: LS = limite superior de classe LI = limite inferior de classe h = amplitude de classe Temos: h = LS - LI Ex: Para a classe 50 |--- 100, h = 100 − 50 = 50 Calculando a amplitude de classe Dada a amplitude total, H, e o número de classes, k, a amplitude de classe será dada pela relação: h ≅ k H ou h ≅ k R Obs: Pequenas alterações em torno do valor obtido não deverão alterar muito o “jeitão” da tabela. Uma sugestão é que o valor de h possa ser aproximado em até 10% para mais ou para menos do valor obtido pela relação dada anteriormente. Isto é, qualquer valor escolhido dentro do Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 22 intervalo [h − 10%h; h + 10%h], é igualmente razoável. Sempre que possível, é conveniente tomar um valor inteiro para h. Ex: Com relação à tabela de alturas: H = 90 cm k = 7 h = 90 cm / 7 ≅ 12, 85 Sendo 10% de 12,85 = 1,285, temos: 12,85 − 1,28 = 11,57 12,85 + 1,28 = 14,13 Portanto, é razoável usar um valor de h qualquer que esteja contido no intervalo [11,57; 14,13] Vamos adotar o valor h = 13 cm para a tabela de alturas e a partir daí determinar todas as classes. A partir de XMIN = 50, somaremos 13 até que tenhamos uma classe que contenha o XMAX = 140. +13 +13 +13 +13 +13 +13 +13 | | | | | | | | 50 63 76 89 102 115 128 141 Observando-se a tabela de dados brutos (Tabela 1), ou o rol (Tabela 2) ou ainda a tabela de freqüências de dados não agrupados (Tabela 3), conta-se o número de ocorrências dentro de cada classe. Obtém-se, assim, a tabela abaixo: Tabela 7 - Distribuição de Freqüências de Dados Agrupados em Classes (I) Classes - Alturas (cm) fi 50 |--- 63 1 63 |--- 76 6 76 |--- 89 9 89 |--- 102 14 102 |--- 115 8 115 |--- 128 8 128 |--- 141 4 Total 50 Ponto Médio de classe (PM) O ponto médio ou valor médio de classe é o valor que a representa para efeito de cálculo de algumas medidas, tais como medidas de posição e de variabilidade. O ponto médio é definido pela média aritmética dos limites do intervalo: 2 is L LPM + = Ex: Pontos médios das classes relativas às medidas de altura, calculados na tabela seguinte. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 23 Tabela 8 - Distribuição de Freqüências de Dados Agrupados em Classes (II) Ponto Médio de Classe Classes - Alturas (cm) fi PM 50 |--- 62 1 (50 + 62) / 2 = 56 62 |--- 74 4 (62 + 74) / 2 = 68 74 |--- 86 6 (74 + 86) / 2 = 80 86 |--- 98 11 (86 + 98) / 2 = 92 98 |--- 110 11 (98 + 110) / 2 = 104 110 |--- 122 10 (110 + 122) / 2 = 116 122 |--- 134 5 (122 + 134) / 2 = 128 134 |--- 146 2 (134 + 146) / 2 = 140 Total 50 Obs: Poderíamos também ter calculado o PM da primeira classe e obter os PM das classes seguintes somando 12 (que é a amplitude de classe) sucessivamente, como abaixo: +12 +12 +12 +12 +12 +12 +12 | | | | | | | | 56 68 80 92 104 116 128 140 Tipos de Freqüências Uma tabela de freqüências pode representar um dos seguintes tipos de freqüências: Freqüências simples: Absoluta Relativa (e Porcentual) “Abaixo de” (crescente) Absoluta Freqüências acumuladas: Relativa (e Porcentual) “Acima de” (decrescente) Absoluta Relativa (e Porcentual) Freqüência Simples Absoluta (f i) Número de repetições de um valor individual ou de uma classe de valores da variável. Freqüência Simples Relativa (f ri) Proporção de observações de um valor individual ou de uma classe em relação ao número total de observações. N f f f f i k 1j j i ri == ∑ = , N = ∑ fi Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 24 Obs: A soma das freqüências simples relativas de uma tabela é sempre igual a 1. Isto é: 1f k 1i ri ====∑∑∑∑ ==== Freqüência Simples Porcentual (f %i) Desejando-se expressar o resultado (isto é, a freqüência relativa) em termos porcentuais, multiplica-se o quociente obtido por 100. Obtem-se, assim, a freqüência percentual: f f N %i i= × 100 ou f%i = fri × 100 % Obs: A soma das freqüências percentuais de uma tabela é sempre igual a 100. Isto é: f%i i 1 k = ∑ = 100% Ex: Freqüências relativas e percentuais das classes de medidas de altura, calculadas na tabela seguinte. Tabela 9 - Distribuição de Freqüências de Dados Agrupados em Classes (III) Freqüência Relativa e Freqüência Porcentual Classes - Alturas (cm) fi PM fr i f% i 50 |--- 62 1 56 1/50 = 0,02 0,02 ⋅⋅⋅⋅ 100 = 2% 62 |--- 74 4 68 4/50 = 0,08 0,08 ⋅⋅⋅⋅ 100 = 8% 74 |--- 86 6 80 6/50 = 0,12 0,12 ⋅⋅⋅⋅ 100 = 12% 86 |--- 98 11 92 11/50 = 0,22 0,22 ⋅⋅⋅⋅ 100 = 22%98 |--- 110 11 104 11/50 = 0,22 0,22 ⋅⋅⋅⋅ 100 = 22% 110 |--- 122 10 116 10/50 = 0,20 0,20 ⋅⋅⋅⋅ 100 = 20% 122 |--- 134 5 128 5/50 = 0,10 0,10 ⋅⋅⋅⋅ 100 = 10% 134 |--- 146 2 140 2/50 = 0,04 0,04 ⋅⋅⋅⋅ 100 = 4% Total 50 1,00 100% Freqüência Absoluta Acumulada “Abaixo de” (fai) A freqüência absoluta acumulada “abaixo de” uma classe (ou um valor individual) é dada pela soma da freqüência simples absoluta dessa classe (ou desse valor) com as freqüências simples absolutas das classes (ou dos valores) anteriores a ela. Toda vez que se deseja saber quantas observações existem até uma determinada classe (ou valor) recorre-se à freqüência acumulada “abaixo de”. Ex: Freqüências acumuladas “abaixo de” para as classes de medidas de altura, calculadas na tabela seguinte. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 25 Tabela 10 - Distribuição de Freqüências de Dados Agrupados em Classes (IV) Freqüência Absoluta Acumulada “Abaixo de” Classes - Alturas (cm) fi PM fr i f% i f a i 50 |--- 62 1 56 0,02 2% 1 62 |--- 74 4 68 0,08 8% 1 + 4 = 5 74 |--- 86 6 80 0,12 12% 5 + 6 = 11 86 |--- 98 11 92 0,22 22% 11 + 11 = 22 98 |--- 110 11 104 0,22 22% 22 + 11 = 33 110 |--- 122 10 116 0,20 20% 33 + 10 = 43 122 |--- 134 5 128 0,10 10% 43 + 5 = 48 134 |--- 146 2 140 0,04 4% 48 + 2 = 50 Total 50 1,00 100% Interpretação: fa3 = 11 significa que há 11 alunos com alturas inferiores a 86. Freqüência Relativa Acumulada “Abaixo de” (fari) A freqüência relativa acumulada “abaixo de” uma classe (ou de valor individual) é igual à soma da freqüência simples relativa dessa classe com as freqüências simples relativas das classes (ou valores) anteriores. Freqüência Porcentual Acumulada “Abaixo de” (fa%i) A freqüência acumulada porcentual “abaixo de” obtém-se multiplicando-se a freqüência relativa acumulada “abaixo de” por 100. Isto é: fa%i = 100 × fari Ex: Freqüências acumuladas “abaixo de” relativas e percentuais para as classes de medidas de altura, calculadas na tabela seguinte. Tabela 11 - Distribuição de Freqüências de Dados Agrupados em Classes (V) Freqüência Relativa e Percentual Acumulada “Abaixo de” Classes - Alturas (cm) fi PM fr i f% i f a i f a r i f a % i 50 |--- 62 1 56 0,02 2% 1 1/50 = 0,02 0,02 ⋅⋅⋅⋅ 100 = 2% 62 |--- 74 4 68 0,08 8% 5 5/50 = 0,1 0,10 ⋅⋅⋅⋅ 100 = 10% 74 |--- 86 6 80 0,12 12% 11 11/50 = 0,22 0,22 ⋅⋅⋅⋅ 100 = 22% 86 |--- 98 11 92 0,22 22% 22 22/50 = 0,44 0,44 ⋅⋅⋅⋅ 100 = 44% 98 |--- 110 11 104 0,22 22% 33 33/50 = 0,66 0,66 ⋅⋅⋅⋅ 100 = 66% 110 |--- 122 10 116 0,20 20% 43 43/50 = 0,86 0,86 ⋅⋅⋅⋅ 100 = 86% 122 |--- 134 5 128 0,10 10% 48 48/50 = 0,96 0,96 ⋅⋅⋅⋅ 100 = 96% 134 |--- 146 2 140 0,04 4% 50 50/50 =1,00 1 ⋅⋅⋅⋅ 100 = 100% Total 50 1,00 100% Freqüência Absoluta Acumulada “Acima de” (f’ai) A freqüência absoluta acumulada “acima de” uma classe (ou um valor individual) é dada pela soma da freqüência simples absoluta dessa classe (ou desse valor) com as freqüências simples absolutas das classes (ou dos valores) posteriores a ela. Ex: Freqüências acumuladas “acima de” para as classes de medidas de altura, calculadas na tabela seguinte. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 26 Tabela 12 - Distribuição de Freqüências de Dados Agrupados em Classes (VI) Freqüência Absoluta “Acima de” Classes - Alturas (cm) fi PM fr i f% i f a i f a r i f a % i f’a 50 |--- 62 1 56 0,02 2% 1 0,02 2% 49 + 1 = 50 62 |--- 74 4 68 0,08 8% 5 0,1 10% 45 + 4 = 49 74 |--- 86 6 80 0,12 12% 11 0,22 22% 39 + 6 = 45 86 |---98 11 92 0,22 22% 22 0,44 44% 28 + 11 = 39 98 |--- 110 11 104 0,22 22% 33 0,66 66% 17 + 11 = 28 110 |---122 10 116 0,20 20% 43 0,86 86% 7 + 10 = 17 122 |--- 134 5 128 0,10 10% 48 0,96 96% 2 + 5 = 7 134 |--- 146 2 140 0,04 4% 50 1 100% 2 Total 50 1,00 100% Freqüência Relativa Acumulada “Acima de” (f’ari) A freqüência relativa acumulada “acima de” uma classe (ou valor individual) é igual à soma da freqüência simples relativa dessa classe com as freqüências simples relativas das classes (ou valores) anteriores. Freqüência Porcentual Acumulada “Acima de” (f’a%i) A freqüência acumulada porcentual “acima de” é obtida multiplicando-se a freqüência relativa acumulada “acima de” por 100. Isto é: f’a%i = 100 × f’ari Ex: Freqüências acumuladas “abaixo de” relativas e porcentuais para as classes de medidas de altura, calculadas na tabela seguinte. Tabela 13 - Distribuição de Freqüências de Dados Agrupados em Classes (VII) Freqüência Relativa e Porcentual Acumulada “Acima de” Classes - Alturas (cm) fi PM fr i f%i f a i f ari f a%i f’ai f’ar i f’a%i 50 |--- 62 1 56 0,02 2% 1 0,02 2% 50 50/50 =1 1 ⋅⋅⋅⋅100 = 100% 62 |--- 74 4 68 0,08 8% 5 0,1 10% 49 49/50 = 0,98 0,98 ⋅⋅⋅⋅100 = 98% 74 |--- 86 6 80 0,12 12% 11 0,22 22% 45 45/50 = 0,90 0,90 ⋅⋅⋅⋅100 = 90% 86 |--- 98 11 92 0,22 22% 22 0,44 44% 39 39/50 = 0,78 0,78 ⋅⋅⋅⋅100 = 78% 98 |--- 110 11 104 0,22 22% 33 0,66 66% 28 28/50 = 0,56 0,56 ⋅⋅⋅⋅100 = 56% 110 |--- 122 10 116 0,20 20% 43 0,86 86% 17 17/50 = 0,34 0,34 ⋅⋅⋅⋅100 = 34% 122 |--- 134 5 128 0,10 10% 48 0,96 96% 7 7/50 = 0,14 0,14 ⋅⋅⋅⋅100 = 14% 134 |--- 146 2 140 0,04 4% 50 1 100% 2 2/50 = 0,04 0,04 ⋅⋅⋅⋅100 = 4% Total 50 1,00 100% Questões: Com relação à Tabela 13: Qual a altura que representa a terceira classe? Qual o número de alunos com altura entre 74 e 86 cm? Qual o número de alunos com altura entre 62 e 98 cm? Qual o número de alunos com altura abaixo de 110 cm? Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 27 Qual o número de alunos com altura acima de 110 cm? Qual a porcentagem de alunos com altura entre 98 e 110 cm? Qual a porcentagem de alunos com altura abaixo de 86 cm? Qual a porcentagem de alunos com altura acima de 98 cm? Qual o número de alunos com altura abaixo de 90 cm? Qual a porcentagem de alunos com altura abaixo de 128 cm? Qual a altura abaixo da qual há 43 pessoas? Qual a altura abaixo da qual há 10% de pessoas? Qual a altura abaixo da qual há 15 pessoas? Exercícios: 1. Os dados brutos abaixo representam o QI de 60 alunos: 110 115 112 163 85 92 137 110 127 144 123 87 103 121 163 77 135 147 160 120 135 98 105 132 165 101 81 151 185 118 152 84 110 70 177 128 105 87 163 125 163 93 127 143 178 129 138 109 91 170 172 98 118 154 181 133 142 155 113 97 a. Construa uma distribuição de freqüências que contenha PM, fi, f%, f%a e f’%a . b. Com base na tabela construída no item anterior responda: 1. Qual o QI que representa a quinta classe? 2. Qual o número de alunos com QI na quarta classe? 3. Qual o número de alunos com QI abaixo de 115? 4. Qual o número de alunos com QI abaixo de 125? 5. Qual a porcentagem de alunos com QI na sexta classe? 6. Qual a porcentagem de alunos com QI abaixo de 160? 7. Qual o número de alunos com QI acima de 144? 8. Qual o QI abaixo do qual há 40 pessoas? 2. Umprofessor de educação física obteve as alturas em metros de 60 alunos escolhidos aleatoriamente de um grupo de 600 alunos que fazem parte da escola. Os resultados são dados na tabela abaixo: 1,55 1,56 1,58 1,60 1,60 1,60 1,60 1,62 1,63 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,67 1,68 1,68 1,68 1,68 1,68 1,68 1,68 1,68 1,68 1,68 1,69 1,69 1,69 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,72 1,72 1,72 1,72 1,73 1,75 1,75 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,85 1,89 a. Os números listados na tabela acima se referem a uma população ou a uma amostra? Justifique. b. Identifique e classifique a variável do problema. c. Com os dados de altura construa uma distribuição de freqüências contendo os valores de fi, fa e f%ª d. Com base na tabela construída responda: 1. Quantos alunos têm altura na quinta classe? 2. Quantos alunos têm altura abaixo de 1,67 m? 3. Quantos alunos têm altura acima de 1,75 m? 4. Qual a porcentagem de alunos com altura abaixo de 1,68 m? 5. Qual a altura abaixo da qual há 30 pessoas? Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 28 3. Os dados abaixo se referem aos salários em R$ por hora de todos os 40 empregados de uma pequena indústria. 850 1820 750 1520 1200 5200 2200 3500 4200 4800 750 780 1100 1200 1100 4500 4650 4900 3900 2000 1200 1200 1050 920 1020 3200 1800 1750 2300 850 990 1050 890 850 920 720 780 750 820 950 a. Os números listados na tabela acima se referem a uma população ou a uma amostra? Justifique. b. Identifique e classifique a variável do problema. c. Com os dados de salário construa uma distribuição de freqüências contendo os valores de fi, fa e f%ª 4. Preencher as seguintes tabelas: Quadro I: Classes fi f% f%a f’%a 0 |--- 10 1 10 |--- 20 3 20 |--- 30 6 30 |--- 40 8 40 |--- 50 10 50 |--- 60 16 60 |--- 70 14 70 |--- 80 12 80 |--- 90 8 90 |--- 100 2 80 Quadro II: Classes PM fi fa f’a fr f% fra 1000 |--- 2000 1500 2 2000 |--- 3000 2500 5 3000 |--- 4000 3500 12 4000 |--- 5000 4500 13 5000 |--- 6000 5500 5 6000 |--- 7000 6500 3 40 Supondo que o Quadro I represente notas, responda: I-a. Quantos alunos têm nota abaixo de 33? I-b. Qual a porcentagem de alunos com nota acima de 78? I-c. Qual a nota abaixo da qual tem 10 pessoas? I-d. Qual a nota abaixo da qual tem 12 pessoas? I-e. Quantas pessoas têm nota acima de 47 e abaixo de 85? Supondo que o Quadro II represente salário em R$, responda: II-a. Quantas pessoas ganham menos de 4700? II-b. Qual a porcentagem de pessoas que ganham acima de 2250? II-c. Qual o salário abaixo do qual tem 25 pessoas? 5. Construa uma tabela de freqüências para os dados abaixo sem agrupá-los em classes: 5, 5, 6, 7, 7, 7, 8, 8, 9, 10, 15, 15, 15, 15, 15. Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 29 Representações Gráficas Além da apresentação tabular, uma outra maneira de se sumarizar e apresentar dados estatísticos é por meio de gráficos. A principal vantagem do uso de gráficos sobre o uso de tabelas é que os gráficos permitem uma visualização imediata dos valores observados, na sua totalidade. Soma-se a isso o caráter estético: trata-se de uma representação mais atraente, tendendo a chamar mais atenção sobre os dados. Os princípios que norteiam a construção de gráficos foram introduzidos pelo matemático francês René Descartes em 1637, ao desenvolver a geometria analítica. Representações gráficas em coordenadas cartesianas são feitas em um plano chamado plano cartesiano (em homenagem a Descartes). Este plano é representado por duas retas perpendiculares entre si, que o dividem em quatro quadrantes (ver Fig. 1). A reta horizontal, orientada para a direita, é chamada de eixo das abscissas e a vertical, orientada para cima, eixo das ordenadas. A orientação destas retas indica a direção em que os valores das abscissas e das ordenadas aumentam. Os valores das abscissas e das ordenadas são marcados a intervalos regulares em cada um dos eixos. O ponto de cruzamento entre os eixos é, em geral, tomado como sendo a origem de ambos os eixos. A qualquer par ordenado (x, y) associa-se um único ponto no plano cartesiano, com valor de abscissa x e valor de ordenada y. y (-1, +3) +3 20 quadrante 10 quadrante +2 +1 (+2,+1) -2 -1 0 +1 + 2 +3 x (-2, -1) -1 30 quadrante 40 quadrante -2 (+2, -2) Fig. 1 - Plano Cartesiano A representação gráfica das séries estatísticas tem por finalidade representar os resultados obtidos, permitindo chegar-se a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. Não há uma única maneira de representar graficamente uma série estatística. A escolha do gráfico mais apropriado ficará a critério do analista. Contudo, os elementos: simplicidade, clareza e veracidade devem ser considerados quando da elaboração de um gráfico. Costuma-se representar no eixo das abscissas (variável x) a grandeza tempo e os valores observados no eixo das ordenadas (y). Gráfico para Distribuição com variável Discreta Considerando o número de acidentes automotivos diários ocorridos em dezembro. Nº de acidentes 0 1 2 3 4 5 freqüências (fi) 12 8 6 7 3 2 Estatística para os cursos de Engenharia e Informática Eurípedes MACHADO Rodrigues 30 Temos a seguinte representação gráfica: fi Nº de acidentes No gráfico, cada haste possui uma extremidade na categoria e outra na respectiva freqüência. Gráfico para Distribuição com Variável Contínua (gráficos analíticos) Gráficos Analíticos são usados tipicamente para representação de distribuições de freqüências simples e acumuladas. São eles: • Histogramas: Utilizados para representação de freqüências simples; • Polígono de freqüências: Também utilizados para representação de freqüências simples; • Polígono de freqüências acumuladas ou Ogivas de Galton: Utilizados para representação de freqüências acumuladas. I. Histograma É a representação gráfica de uma distribuição de freqüência por meio de retângulos sucessivos e justapostos onde a base colocada no eixo das abscissas corresponde aos intervalos de classe e a altura é proporcional à freqüência absoluta das classes. Ex: Tabela 3 Classes de notas PM fi 0 |--- 10 5 1 10 |--- 20 15 4 20 |--- 30 25 6 30 |--- 40 35 10 40 |--- 50 45 15 50 |--- 60 55 20 60 |--- 70 65 8 70 |--- 80 75 5 80 |--- 90 85 2 90 |--- 100 95 1 TOTAL 72
Compartilhar