Baixe o app para aproveitar ainda mais
Prévia do material em texto
CADERNO DIDÁTICO: ESTATÍSTICA APLICADA - Alimentos Professora: Tatiani Secretti [Professora: Tatiani Secretti][Estatística] Página 2 Conteúdos programáticos - Introdução à estatística; - Descrição, exploração e comparação de dados; - Técnicas de amostragem; - Probabilidades e distribuições de probabilidade; - A distribuição Normal de probabilidade e dimensionamento de amostras; - Inferência estatística: estimação e testes de hipóteses; - Decomposição da variabilidade de dados (ANOVA); - Correlação e regressão. [Professora: Tatiani Secretti][Estatística] Página 3 Estatística Aplicada a Laboratórios Norma ABNT ISSO/IEC 17025:2001, item 5.9: “ O laboratório deve ter procedimentos de controle da qualidade para monitorar a validade dos ensaios e calibrações realizados. ...quando praticável, devem ser aplicadas técnicas estatísticas para análise crítica dos resultados.”. Para que saber estatística? As decisões diárias baseiam-se em informações incompletas. Por que os profissionais devem entender a Estatística? Em determinado momento da vida profissional, pessoas com diferentes formações lidam com modelos não exatos. A Estatística trata com o lidar e o quantificar da variação e da incerteza. [Professora: Tatiani Secretti][Estatística] Página 4 VARIAÇÃO As pessoas diferem nas respostas ao mesmo estímulo, nas respostas a um tratamento ou em seus sintomas. Diagnósticos são frequentemente probabilísticos. INCERTEZA Desconhecemos o todo quando examinamos uma parte. O futuro é incerto. OBJETIVO DA ESTATÍSTICA Auxiliar as tomadas de DECISÔES em face de incertezas justificado-as cientificamente, fazendo inferências para um todo (chamado população) a partir de uma amostra do mesmo, analisando números e constatando relações. 1 Conceitos Iniciais 1.1 Conceito de estatística Existem muitas definições propostas por autores, objetivando estabelecer com clareza o que é estatística, como por exemplo: • A estatística é um conjunto de métodos destinados a coleta, organização, resumo, apresentação e análise de dados de observação, bem como a tomada de decisões razoáveis baseadas em tais análises; • A estatística é a matemática aplicada aos dados de observação; • A estatística é um conjunto de processos ou técnicas empregadas na investigação e análise de fenômenos coletivos ou de massa. [Professora: Tatiani Secretti][Estatística] Página 5 1.2 Divisão da estatística A estatística divide-se em: plicadaaaEstatístic cametodológiougeralaEstatístic 1.2.1 Estatística geral Visa elaborar métodos gerais aplicáveis a todas as fases do estudo dos fenômenos de massa. A estatística matemática é a parte da estatística geral que tem por finalidade o estudo das propriedades matemáticas dos fenômenos de massa e a dedução e demonstração rigorosa dos procedimentos e fórmulas usadas. A estatística geral ainda pode ser dividida em dois grandes campos: Estatística descritiva Trata da coleta, da organização, classificação, apresentação e descrição dos dados de observação. Refere-se à maneira de apresentar um conjunto de dados em tabelas e gráficos e à maneira de resumir, através de certas medidas, as informações contidas nestes dados. Teoria da probabilidade Proporciona uma base racional para lidar com situações influenciadas por fatores que envolvem o acaso. Estatística indutiva ou inferencial Visa tirar conclusões sobre a população a partir de amostras. Refere-se à maneira de estabelecer conclusões para toda uma população quando se observar apenas parte desta população. [Professora: Tatiani Secretti][Estatística] Página 6 1.2.2 Estatística aplicada É todo o ramo do conhecimento científico que proceda, única ou principalmente, por intermédio da metodologia estatística. Exemplos: Biometria (ciência que trata da mensuração da vida e dos processos vitais), Demografia, Econometria, Psicometria (mensuração da personalidade, do desenvolvimento mental e do comportamento de indivíduos e grupos e seus ajustamentos a mudanças no meio ambiente), Mecânica Estatística, Sociometria (maneira como as pessoas vivem, sua cultura, opiniões e atitudes, assim como o relacionamento de uns com os outros). Algumas aplicações da estatística A estatística é uma ciência de múltiplas aplicações e de fundamental importância no campo da investigação científica, sendo de utilização cada vez mais acentuada em qualquer atividade profissional. Os fabricantes fornecem melhores produtos a custos menores através de técnicas de controle de qualidade. Controlam- se doenças com o auxilio de análises que antecipam epidemias. Espécies ameaçadas são protegidas por regulamentos e leis que regem a estimativas estatísticas de modificação de tamanho da população. Visando reduzir as taxas de casos fatais, os legisladores têm melhor justificativas para as leis que regem a poluição atmosférica, inspeções de automóveis, utilização de cinto de segurança, etc. 1.3 Pesquisa Estatística É um conjunto de atividades orientadas para a busca de um determinado conhecimento. A pesquisa deve ser feita de modo sistematizada, utilizando para isto métodos próprios e técnicas específicas. 1.3.1 Finalidade da Pesquisa - Descobrir respostas para questões, mediante a aplicação de métodos científicos; - Tentar conhecer e explicar fenômenos que ocorrem no mundo existente. [Professora: Tatiani Secretti][Estatística] Página 7 1.3.2 Tipos de Pesquisas • Pesquisa de reconhecimento ou “ Survey” Estudo de opinião, mercado e diagnóstico • Pesquisa Bibliográfica Procura por material já elaborado • Pesquisa documental Coleta de informações a partir de documentos quantitativos tais como arquivos públicos e privados, imprensa, revistas, etc. • Pesquisa experimental Experiências realizadas em laboratórios, fábricas, parcelas de terras. É utilizado o Delineamento de Experimento e Controle de Qualidade. 1.4 Algumas definições População É todo o conjunto de elementos que possuam ao menos uma característica comum observável. Exemplos: um lote de peças, um lote de um polímero, população do estado do Rio Grande do Sul, etc. Obs.: elementos = objetos, animais, pessoas, material contínuo (sólido, líquido ou gás). [Professora: Tatiani Secretti][Estatística] Página 8 Censo É a coleção de dados relativos a todos os elementos da população. Amostra É uma parte da população, sendo que a mesma deve ser selecionada de acordo com algum critério para que possa ser representativa da população. Exemplos: uma amostra retirada de um lote de comprimidos, uma amostra de rotina durante o processo de um lote de polietileno. Amostragem Coleção de dados relativos a elementos de uma amostra. Parâmetro Medida numérica que descreve uma característica de uma população. Estatística Medida numérica que descreve uma característica de uma amostra. Variável É uma característica em estudo que assume diferentes valores para diferentes elementos. È representada por símbolos como por exemplo, X, Y, Z, ..., que pode assumir resultados de um conjunto, que lhe são atribuídos, conjunto este chamado domínio da variável. Se a variável pode assumir somente um valor, elaé denominada constante. [Professora: Tatiani Secretti][Estatística] Página 9 Exemplos: • Idade; • Sexo; • Escolaridade; • Temperatura; • Altura; etc As variáveis podem ser classificadas em: Variáveis Quantitativas: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos/quantidades. Podem ser contínuas ou discretas. - Variáveis Quantitativas discretas: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Exemplos: número de filhos, número de bactérias por litro de leite, números de erros de ortografia, número de defeitos no produto, etc. - Variáveis Quantitativas contínuas: características mensuráveis que assumem valores em uma escala para as quais valores fracionais fazem sentido. Exemplos: peso, altura, pressão atmosférica, pH, volume líquido, etc. Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais. - Variáveis Qualitativas nominais: não existe ordenação dentre as categorias. Exemplos: sexo, estado civil, nacionalidade, cor da solução, etc. - Variáveis Qualitativas ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), classificação do Índice de Massa Corporal - IMC (baixo peso, normal, obesidade leve, obesidade severa, obesidade mórbida), grau de importância (nenhuma, pouca, razoável, muito), etc. [Professora: Tatiani Secretti][Estatística] Página 10 Em geral, as medições dão origem a variáveis contínuas, enquanto que as enumerações ou contagens resultam em variáveis discretas. Exemplo 1: Classifique as variáveis em qualitativas ou quantitativas (discretas ou contínuas). a) Naturalidade; b) Quantidade de estudantes em uma disciplina; c) Diâmetro externo de peças produzidas por certa máquina; d) Salários; e) Precipitação pluviométrica durante um ano; f) Faixa etária (Criança, jovem, adulto, idoso); g) Conteúdo de nicotina (em miligramas de cigarro); h) Número de inscrição do INSS; i) Código de endereçamento postal; j) Rendas anuais de professores; k) Carros classificados como subcompacto, compacto, intermediário ou grande; l) Cores de uma amostra de confeitos M&M. [Professora: Tatiani Secretti][Estatística] Página 11 1.5 Arredondamento de dados Arredondar um número significa reduzir a quantidade de algarismos significativos após a vírgula, deste número. O objetivo é reduzir os erros por arredondamento, quando é grande o volume de números a arredondar. A Portaria 36, de 6 de agosto de 1965 do Instituto Nacional de Pesos e Medidas, estabelece os seguintes critérios para o arredondamento de dados. Regras de arredondamento • Quando o primeiro algarismo após aquele que será arredondado for 0, 1, 2, 3, 4, conserva-se o algarismo a ser arredondado e desprezam-se os seguintes; • Quando o primeiro algarismo após aquele que será arredondado for 6, 7, 8, 9 ou 5, este último seguido de outros algarismos, onde pelo menos, um é diferente de zero, aumenta-se uma unidade no algarismo a ser arredondado e desprezam-se os seguintes; • Quando o primeiro algarismo após aquele que será arredondado for 5, seguido de zeros, conserva-se o algarismo a ser arredondado se ele for par, ou aumenta-se uma unidade, se ele for ímpar, desprezando os seguintes. Par ← 5 → Ímpar ↓ ↓ Conserva Soma uma unidade 0, 1, 2, 3 ou 4 6, 7, 8, 9 ou 5+ 1.6 Método estatístico Quando se pretende empreender um estudo estatístico completo, existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. [Professora: Tatiani Secretti][Estatística] Página 12 1.7 Fases do método estatístico • Definição do problema; • Planejamento da pesquisa; • Amostragem • Coleta ou levantamento dos dados; • Crítica e digitação dos dados; • Organização e representação dos dados; • Análise dos dados e interpretação dos resultados. Amostra O número ideal de análises ou de medidas (n) sobre uma amostra, para realizar um estudo estatístico, é algo que deve ser determinado em comum acordo entre o grupo de trabalho do laboratório e deve estar de acordo com a característica da análise, quantidade de amostra, dificuldade analítica e equipamentos disponíveis e confiáveis. Normalmente no laboratório químico o número de 10 determinações é bem aceito e fornece um bom estudo estatístico. Podem ser escolhidos, pelos grupos, outros números, sempre que a representatividade seja significante para realizar o estudo estatístico. [Professora: Tatiani Secretti][Estatística] Página 13 2 Descrição, exploração e comparação de dados APRESENTAÇÃO DE DADOS Após a coleta de dados a primeira necessidade do pesquisador é a leitura das informações básicas provenientes da sua pesquisa. Essa primeira análise inicial é feita através da Análise Descritiva por meio da construção de tabelas, gráficos e o cálculo de algumas medidas estatísticas. ANÁLISE DESCRITIVA TÉCNICAS DE ESTATÍSTICA DESCRITIVA Tabelas de Frequencia Gráficos Resumos Numéricos Ao dispor de um grande volume de dados as tabelas servem para agrupar as informações de moda que facilite a análise dos dados O objetivo da representação gráfica é dirigir a atenção do analista para alguns aspectos do conjunto de dados, bem como tornar a apresentação mais dinâmica. Através das medidas de tendência central e as medidas de variabilidade podemos obter informações importantes sobre o conjunto de dados quantitativos. [Professora: Tatiani Secretti][Estatística] Página 14 2.1 Séries Estatísticas Representação tabular Tabela: é uma maneira de apresentar de forma resumida um conjunto de dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas deve obedecer às normas editadas pelo Instituto Brasileiro de Geografia e Estatística - IBGE. Abaixo se apresenta uma tabela esquemática sendo indicados os seus elementos. Título: O quê?; Onde?; Quando? Cabeçalho Total �Coluna Indicadora Corpo da tabela Total :Nota * :Fonte Rodapé No rodapé de uma tabela podem aparecer se necessário: a fonte (entidade responsável pelas informações contidas na tabela), notas (observações gerais sobre a tabela) e/ou chamadas (observações feitas em relação a pontos específicos da tabela). [Professora: Tatiani Secretti][Estatística] Página 15 Exemplo2: Tabela1: Produção de Café Brasil – 1991 a 1995 Anos Produção (1.000t) 1991 2.535 1992 2.666 1993 2.122 1994 3.750 1995 2.007 Total 13080 Fonte: IBGE Exemplo 3: Tabela 2: Distribuição do teor de H2S %. Sulfeto de hidrogênio Teor de H2S (%) Nº de amostras 2 8 5 19 7 15 9 10 11 8 Total 60 Fonte: dados fictícios [Professora: Tatiani Secretti][Estatística] Página 16 Título da tabela: Conjunto de informações, as mais completas possíveis, respondendo as perguntas: Oque? Quando? Onde? Localizado no topo da tabela, além de conter a palavra “Tabela” e sua respectiva numeração. Corpo da tabela: É o conjunto de linhas e colunas que contém informações sobre a variável em estudo. a) Cabeçalho da coluna: parte superior da tabela que especifica o conteúdo das colunas; b) Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas; c) Linhas: retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que inscrevem nos seus cruzamentos com as linhas; d) Casa ou célula: espaço destinado a um só número; e) Total: Deve sempre ser destacado de alguma forma; f) Laterias da tabela: Não devem ser fechadas. Caso as feche, passa a ser chamado ‘Quadro”. Elementos complementares da tabela, localizados geralmente no rodapé: a) Fonte; identifica o responsável (pessoa física ou jurídica) ou responsável pelos dados numéricos; b) Notas: é o texto que irá esclarecer o conteúdo estudado, que poderá ser de caráter geral ou específico de uma tabela; c) Chamadas: símbolo remissivo atribuído a algum elemento de uma tabela que necessita de uma nota específica. [Professora: Tatiani Secretti][Estatística] Página 17 2.2 Representação gráfica Um gráfico é toda a forma de representação das séries estatísticas que seja baseada no desenho. O gráfico deve ser atraente para cumprir sua finalidade de mostrar resultados e bem construído para permitir a análise do fenômeno exposto. A fim de que isso aconteça, deve-se observar alguns aspectos básicos como: simplicidade, clareza e veracidade. Do mesmo modo que nas tabelas estatísticas, nos gráficos, deve-se considerar um título que informe a espécie, o lugar e o tempo do fenômeno representado, bem como a fonte de onde foram coletados os dados expostos. Gráficos analíticos Pontos Linhas Simples Classificação Barras Sobrepostas dos Gráficos Justapostas Analíticos Superfície Simples Colunas Sobrepostas Justapostas Setores [Professora: Tatiani Secretti][Estatística] Página 18 Gráfico 1. Gráfico de Colunas O gráfico de colunas é um dos gráficos mais utilizados para representar um conjunto de dados, sendo a representação de uma série de dados através de retângulos dispostos verticalmente. A altura dos retângulos são proporcionais às suas respectivas freqüências. Este gráfico pode ser utilizado para representar qualquer tipo de variável em qualquer nível de mensuração por este fato é um recurso extremamente utilizado em pesquisas. Gráfico 2. Gráfico de Barras O gráfico de barras é uma representação de uma série de dados através de retângulos dispostos horizontalmente. Os comprimentos destes retângulos são proporcionais às suas respectivas freqüências. Este gráfico é semelhante ao gráfico de colunas, contudo, a posição da escala e da freqüência é trocada, ou seja, na linha horizontal temos a freqüência de casos observados e na linha vertical temos a variável de estudo. 50,0 16,7 33,3 0,0 10,0 20,0 30,0 40,0 50,0 60,0 % Ácido Básico Neutro pH pH das soluções analisadas 50,0 16,7 33,3 0,0 10,0 20,0 30,0 40,0 50,0 60,0 % Ácido Básico Neutro pH pH das soluções analisadas [Professora: Tatiani Secretti][Estatística] Página 19 Gráfico 3. Gráfico de linhas Este gráfico utiliza-se de uma linha para representar uma série estatística. O objetivo é evidenciar a tendência ou a forma como o fenômeno está crescendo ou decrescendo através de um período de tempo. Seu traçado deve ser realizado considerando o eixo "x" (horizontal) a escala de tempo e o eixo "y" (vertical) freqüência observada dos valores. Gráfico 4. Gráfico de Setores O gráfico de setores, também conhecido como gráfico de pizza, torta, etc, é um dos mais simples recursos gráficos, sua construção é baseada no fato de que o círculo possui 360º, sendo que este círculo é dividido em fatias de acordo com o percentual em cada categoria. É um gráfico útil para representar variáveis nominais ou apresentadas em categorias de respostas. Concentração das soluções 50,0% 33,3% 16,7% Fraca Moderada Forte [Professora: Tatiani Secretti][Estatística] Página 20 Outros tipos gráficos Cartograma A estatística utiliza esse tipo de gráfico para representar os dados diretamente sobre o desenho de uma área geográfica. O impacto visual ajuda na compreensão da informação associada ao local. Figura 15 – Cartograma das Vendas 0 2 4 6 8 10 0 1 2 3 4 5 6 7 8 9 Va riá v el Y Variável X Gráfico de pontos [Professora: Tatiani Secretti][Estatística] Página 21 Pictograma Pictogramas são representações gráficas ilustradas por figuras. A rerepresentação gráfica é feita por figuras variadas. [Professora: Tatiani Secretti][Estatística] Página 22 ATIVIDADE PRÁTICA! Exercício 1. Considere o seguinte gráfico a) Qual foi a amostra estudada apresentada nesta pesquisa? b) O gráfico apresentado acima é chamado de: ( ) Gráfico de setores ( ) Gráfico de linhas ( ) Gráfico de Colunas ( ) Gráfico Pizza ( ) Gráfico de barras c) Considerando que foram pesquisados 1185 imigrantes clandestinos, qual o percentual de imigrantes clandestinos que a causa da morte foi afogamento? d) Quantos imigrantes clandestinos não morreram devido a causa atropelamento? [Professora: Tatiani Secretti][Estatística] Página 23 Exercício 2. Considere o seguinte gráfico: Fonte: Empresas do Setor Através dos dados apresentados neste gráfico pede-se: a) Indique a variável deste estudo: b) Em quantos anos foram arrecadados no mínimo 341 milhões de reais?:......................................... c) Calcule e interprete o arrecadamento médio anual do setor de telefonia no RS. 2.3 Distribuições de Freqüências Representação da amostra: Podemos observar que a estatística tem como objetivo encontrar leis de comportamento para todo conjunto, por meio de sintetização dos dados numéricos, sob a forma de tabelas, gráficos e medidas. Arrecadação do Setor de Telefonia no RS (em R$ milhões) 843 699 536 463 341 210216 152 0 100 200 300 400 500 600 700 800 900 1995 1996 1997 1998 1999 2000 2001 2002 Ano R $ M ilh õe s [Professora: Tatiani Secretti][Estatística] Página 24 Distribuição de freqüência: Uma distribuição de freqüência é uma tabela que reúne o conjunto de dados, conforme as freqüências ou as repetições de seus valores. Esta tabela pode representar os dados em classes ou não, de acordo com a classificação dos dados em discretos ou contínuos. Exemplo 4: Foram realizadas 20 medidas de um elemento químico no produto fabricado por uma indústria, obtendo os seguintes valores em ppm: n Concentração ppm n Concentração PPM 1 29 11 29 2 33 12 25 3 28 13 32 4 38 14 33 5 26 15 40 6 32 16 37 7 31 17 28 8 26 18 26 9 33 19 34 10 34 20 26 Procedimentos comuns para a representação das distribuições de freqüência (maneira de sumarizar os dados).Dados brutos São os valores originais conforme eles foram coletados, não estando ainda prontos para análise, pois não estão numericamente organizados ou tabelados. È difícil formarmos uma idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados. [Professora: Tatiani Secretti][Estatística] Página 25 Exemplo 5: 29 – 33 – 28 – 38 - 26 – 32 – 31 - 26 – 33 – 34 – 29 – 25 – 32 – 33 – 40 – 37 – 28 – 26 – 34 - 26 Rol É uma lista, onde as observações são dispostas em uma determinada ordem: crescente ou decrescente. O objetivo da ordenação é tornar possível a visualização das variações ocorridas, uma vez que os valores extremos são percebidos de imediato, e também facilitar a construção da distribuição de freqüências. → rol crescente Xmín Xmáx Assim: 25 – 26 - 26 – 26 – 26 – 28 – 28 – 29 – 29 – 31 – 32 – 32 – 33 – 33 – 33 – 34 – 34 – 37 – 38 - 40 Amplitude total ou Range [Simbologia: H, At ou R] É a diferença entre o maior e o menor valor observado da variável em estudo: H = Xmáx - Xmín H = 40 – 25 = 15 Freqüência absoluta [Simbologia: fi] É o número de observações que aparece em uma classe ou valor individual. Exemplo f26 = 4 [Professora: Tatiani Secretti][Estatística] Página 26 Organização e classificação de dados de variáveis quantitativas Distribuição de freqüência sem intervalos de classes ou distribuição por ponto: É a simples condensação dos dados conforme as repetições de seus valores. Exemplo 6: Considere os dados do exemplo 5. Assim a distribuição de freqüência para o exemplo será: Xi (Valores ppm) Frequência (fi) 25 1 26 4 28 2 29 2 31 1 32 2 33 3 34 2 37 1 38 1 40 1 Total 20 Distribuição de freqüência com intervalos de classe: Quando o tamanho da amostra é elevado procura-se efetuar o agrupamento dos valores em vários intervalos de classe. Exemplo 7: considere dados do exemplo 5. Classe fi 25 |- 28 5 28 |- 31 4 31 |- 34 6 34 |- 37 2 37 |- 40 3 Total = n 20 [Professora: Tatiani Secretti][Estatística] Página 27 Elementos de uma distribuição de freqüência por classe (ou intervalo): Classe É cada um dos grupos ou intervalos de valores em que se subdivide a amplitude total do conjunto de tamanho n. Para a determinação do número de classes, existem diversos métodos, dentre os quais destaca-se a regra de Sturges, que estabelece que o número de classes (k) é calculado por: Nº de classes k = 1 + 3,3 log n onde n = tamanho da amostra Exemplo: K = 1 + 3,3 log 20 � 5 O analista deverá ter em mente que a escolha do número de classes dependerá antes da natureza dos dados e da unidade de medida em que eles forem expressos, do que de regras muitas vezes arbitrárias e pouco flexíveis. Recomenda-se considerar 4 ≤ k ≤ 12. Amplitude da classe: h = H/k, para a determinação da amplitude das classes de uma distribuição de freqüências a ser construída. h=15/5=3 Limites de classe São os dois valores extremos de cada classe. • Limite inferior (Linf.): é o menor valor da classe considerada; Ex: o número 25 é o limite inferior da 1ª classe. • Limite superior (Lsup.): é o maior valor da classe considerada. Ex: o número 31 é o limite superior da 2ª classe. [Professora: Tatiani Secretti][Estatística] Página 28 Amplitude de classe [Simbologia: h] É a diferença entre o limite superior e o limite inferior da classe, ou seja: • h = Lsup. - Linf., quando a distribuição de freqüências já existe; h = 28 – 25 = 5 ou • h = H/k, para a determinação da amplitude das classes de uma distribuição de freqüências a ser construída. Amplitude total da distribuição: é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. 40 – 25 = 15 Ponto médio de classe [Simbologia: Xi] É a média aritmética dos limites da classe. É o valor representativo da classe: X L L i = +inf. sup. 2 . Exemplo: em 25|- 28 o ponto médio x1 = ������ = 26,5 Tabela: Classe fi xi 25 |- 28 5 26,5 28 |- 31 4 29,5 31 |- 34 6 32,5 34 |- 37 2 35,5 37 |- 40 3 38,5 Total = n 20 - [Professora: Tatiani Secretti][Estatística] Página 29 Método para a construção de uma distribuição de freqüências com classe: 1) Organizar os dados brutos em Rol; 2) Calcular a amplitude amostral (H); 3) Calcular o número de classes através da “Regra de Sturges” (k); 4) Calcular amplitude do intervalo de classe (h; 5) Temos então o menor número da amostra, o número de classes e a amplitude do intervalo. Podemos montar a tabela, com o cuidado para não aparecer classes com freqüência=0. O primeiro elemento das classes seguintes sempre serão formadas pelo último elemento da classe anterior. Exemplo 8: Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinado município do Estado: 144 152 159 160 160 151 157 146 154 145 151 150 142 146 142 141 141 150 143 158 Construa uma distribuição de freqüência por classe. Exercício 1: O Conjunto de dados amostrais a seguir lista o número de minutos que 50 usuários de internet gastam na rede durante sua mais recente sessão construa uma distribuição de freqüências: 50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 86 41 78 56 17 7 69 30 80 56 29 33 46 31 39 20 18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44 72 56 Variável: minutos on-line f= números de usuários fr= porção de usuários [Professora: Tatiani Secretti][Estatística] Página 30 Exercício 2: Saques em caixas eletrônicos. Conjunto de dados: uma amostra dos saques realizados em caixa eletrônico (em dólares): 35 10 30 25 75 10 30 20 20 10 40 50 40 30 60 70 25 40 10 60 20 80 40 25 20 10 20 25 30 50 80 20 Construa a distribuição de frequência e o histograma para o conjunto de dados. Tipos de freqüências Para construção de uma tabela de distribuição de freqüência é necessário conhecer alguns de seus termos: lativaRe Absoluta eDecrescent lativaRe Absoluta Crescente Acumulada lativaRe Absoluta Simples sfreqüênciadeTipos Freqüência relativa [Simbologia: fri] É o quociente entre a freqüência absoluta e o número total de observações, sendo que: ∑ = = k 1i i i r f ff i f f f r i i i ki % = ⋅ = ∑ 1 100 onde: 0 < fr < 1; f r i k i = ∑ 1 = 1. Ex: fr2 = 4/20 = 0,2 ou 20% [Professora: Tatiani Secretti][Estatística] Página 31 Freqüência acumulada crescente [Simbologia: Fac ou Fi] É a soma de todas as freqüências anteriores com a freqüência do intervalo considerado. Frequência relativa acumulada (Fri): é a freqüência acumulada da classe, dividida pela freqüência total da distribuição. Exemplo 9: Assim a distribuição de freqüência para o exemplo será: Xi (Valores ppm) Frequencia (fi) fri Fac Fri 25|- 28 5 28 |- 31 4 31 |- 34 6 34 |- 37 2 37 |- 40 3 Total 20 Exercícios: 01 - Os valores de cinzas em ppm de uma amostra com 30 elementos (resultados) foram os seguintes: 110 120 110 90 95 90 115 110 115 105 125 80 105 115 120 75 110 125 110 100 110 95 100 90 110 100 100 110 105 105 Pede-se: a) Construir uma distribuição de freqüências; b) Determinar as freqüências relativas; c) Qual é a amplitude da amostra? R: 50 d) Qual é a porcentagem de elementos maiores que 100? R: 63,3% e) Construa um gráfico de colunas. [Professora: Tatiani Secretti][Estatística] Página 32 02 - Resultados de 50 determinações da concentração de nitrato, em µg / ml 0,51 0,51 0,51 0,50 0,51 0,49 0,52 0,53 0,50 0,47 0,51 0,52 0,53 0,48 0,49 0,50 0,52 0,49 0,49 0,50 0,49 0,48 0,46 0,49 0,49 0,48 0,49 0,49 0,51 0,47 0,51 0,51 0,51 0,48 0,50 0,47 0,50 0,51 0,49 0,48 0,51 0,50 0,50 0,53 0,52 0,52 0,50 0,50 0,51 0,51 Identifique: a. Amostra:________________________ b. Variável:________________________ Construa uma tabela para estes dados e responda: a. Qual o percentual de determinações com concentração de nitrato com máximo 0,50 µg / ml? R: 58% b. Quantas determinações apresentaram concentração de nitrato entre 0,48 e 0,51 µg / ml? 03 - Considerar os dados obtidos, pelas medidas das alturas, de 20 indivíduos (dada em cm): 151 152 154 159 159 165 165 165 159 154 165 155 155 168 165 168 168 167 168 154 Identifique: a. Amostra:________________________ b. Variável:________________________ Construa uma tabela para estes dados e responda: c. Qual o percentual de indivíduos com no máximo 165 cm de altura? R: 75% d. Quantos indivíduos tem altura de 159cm a 167cm? R: 45% [Professora: Tatiani Secretti][Estatística] Página 33 04 - Suponha que, ao estudar a quantidade de albumina no plasma de pessoas com determinada doença, um pesquisador obtenha, em 25 indivíduos, os seguintes valores (em g/100ml): Identifique: a. Amostra:________________________ b. Variável:________________________ Construa uma tabela para estes dados e responda: c. Qual o percentual de pessoas com no máximo 5,3 g/100ml de albumina no plasma? R: 88% d. Qual o percentual de pessoas com albumina no plasma com no mínimo 5,0g/100ml? R: 72% e. Quantas pessoas têm albumina no plasma entre 4,9 e 5,3g/100ml? R: 18 05 – As notas abaixo, referem-se ao grau obtido por 50 alunos em uma prova de Estatística: 1 8 3 4 7 4 6 7 7 8 2 8 3 4 7 4 6 7 8 8 2 7 4 5 6 8 6 7 8 9 2 9 4 5 7 8 7 7 8 9 a) Quem é a amostra do estudo? b) Quem é a variável estudada? Classifique-a. c) Construa a tabela mais adequada para estes dados, calculando a porcentagem de cada valor. d) Quantos alunos tiram nota inferior a 7 na prova? R: 18 e) Quantos alunos tiraram no máximo 8 na prova? R: 5 f) Qual a porcentagem de alunos que obtiveram nota entre 5 e 8 pontos? R: 62,5% 5,1 4,9 4,9 5,1 4,7 5,0 5,0 5,0 5,1 5,4 5,2 5,2 4,9 5,3 5,0 4,5 5,4 5,1 4,7 5,5 4,8 5,1 5,3 5,3 5,0 [Professora: Tatiani Secretti][Estatística] Página 34 06 - Foram realizadas 20 medidas de um elemento químico no produto fabricado por uma indústria, obtendo os seguintes valores em ppm: n Concentração ppm n Concentração PPM 1 29 11 29 2 33 12 25 3 28 13 32 4 38 14 33 5 26 15 40 6 32 16 37 7 31 17 28 8 26 18 26 9 33 19 34 10 34 20 26 a) Qual a variável em estudo; b) Qual a amostra; c) Construa uma distribuição de frequências. Gráficos representativos de uma distribuição de freqüências em classes Histograma É um gráfico de colunas justapostas, cujas alturas são proporcionais às freqüências absolutas e cujas bases correspondem ao intervalo de classe da distribuição. Expected Normal Histograma Classes Fr eq üê n ci as 0 1 2 3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 12 14 16 18 20 [Professora: Tatiani Secretti][Estatística] Página 35 Polígono de freqüências É um gráfico de linha, cujos vértices são proporcionais às freqüências absolutas e correspondem aos pontos médios das classes da distribuição. Polígono de freqüências Pontos médios das classes Fr eq üê n ci as 0 1 2 3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 12 14 16 18 20 Diversas formas das curvas de freqüência Ao construir as curvas de freqüência, observamos que assumem configurações específicas e, em função disso, recebem nomes característicos, como: • Curvas em forma de sino: Curva simétrica e assimétrica; • Curvas em forma de jota; • Curvas em forma de U; • Distribuição retangular Curvas em forma de sino: curva simétrica e assimétrica A curva tem configuração geométrica semelhante ao contorno de um sino. A principal característica desse tipo de curva é apresentar maior concentração de valores (pico) na região central da distribuição. • Na curva simétrica, o pico encontra-se localizado no centro da distribuição. [Professora: Tatiani Secretti][Estatística] Página 36 • Na curva assimétrica, o pico está descolado do centro da distribuição, o deslocamento em relação ao centro pode ser para a direita ou para a esquerda. Curvas em forma de jota: Jota e jota invertido Esse tipo de curva apresenta semelhança com o contorno de um jota. A característica da curva em jota é apresentar pontos de maior valor numérico de ordenadas em uma das extremidades. Curvas em Forma de U A curva apresenta semelhança com o contorno da letra U. A principal característica da curva em U é apresentar pontos de maior valor numérico de ordenadas nas duas extremidades. Distribuição retangular A distribuição retangular caracteriza uma situação especial em que todas as classes têm a mesma freqüência. Nesta situação, o histograma é constituído por retângulos de mesma altura, a ligação dos pontos médios conduz a uma reta horizontal. Exercício 3: Dada a amostra 3 – 4 – 4 – 5 – 7 – 6 – 6 – 7 – 7 – 4 – 5 – 5 – 6 – 6 – 7 – 5 – 8 – 5 – 6 – 6, pede-se: f) Construir uma distribuição de freqüências; g) Determinar as freqüências relativas; h) Determinar as freqüências acumuladas; i) Qual é a amplitude da amostra? R: H = 5 j) Qual é a porcentagem de elementos maiores que 5? R: 55% Exercício 4: Caderneta de poupança é uma modalidade de aplicação financeira, caracterizada pelo baixo risco e garantida pelo governo. Suas regras são definidas pelo Banco Central. A remuneração é padronizada para todas as instituições financeiras e ocorre na data do aniversário da caderneta. Numa agência bancária, pesquisaram-se os [Professora: Tatiani Secretti][Estatística] Página 37 saldos de 50 clientes, em contas de cadernetas de poupança, em determinada data base ( saldos em mil reais). Os valores coletados estão representados a seguir: Saldo em caderneta de poupança (valores em milhares) – Rol. 40 41 42 45 47 48 50 52 53 54 55 55 56 57 59 60 61 64 65 65 65 66 67 68 68 69 71 73 73 73 74 74 76 77 78 80 81 84 85 85 88 89 91 94 94 97 99 102 105 108 a) Identifique a variável em estudo. É qualitativa ou quantitativa? É contínua ou discreta? b) Calcule o número de classes. R: K=7 c) Calcule a amplitude amostral. R: H= 68 d) Elabore uma tabela de freqüências:absoluta, relativa, acumulada e o ponto médio da classe. e) Construa um histograma para distribuição de freqüências. Exercício 5: Dado o rol de 50 notas (dadas em créditos). Agrupar os elementos em classe e determinar: a) Amplitude amostral; R: H = 64 b) O número de classes; R: k = 7 c) A amplitude de classes; R: h = 10 d) Os limites das classes; e) As freqüências absolutas; f) As freqüências relativas; g) Os pontos médios das classes; h) As freqüências acumuladas. i) O Histograma; j) O polígono de freqüência; k) O polígono de freqüência acumulada (Ogiva). Rol: 33 – 35 – 35 – 39 – 41 - 41 – 42 – 45 – 47 – 48 50 – 52 – 53 – 54 – 55 – 55 – 57 – 59 – 60 – 60 61 – 64 – 65 – 65 – 65 – 66 – 66 – 66 – 67 – 68 69 – 71 – 73 – 73 – 74 – 74 – 76 – 77 – 77 – 78 80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97 [Professora: Tatiani Secretti][Estatística] Página 38 Exercício 6: A equipe administrativa de um consultório médico estudou os tempos de espera dos pacientes que chegam ao consultório com um pedido de atendimento de emergência. Os seguintes dados de tempo de espera em minutos foram coletados no período de um mês: 2 – 5 – 10 – 12 – 4 – 4- 5 – 12- 5 – 8 – 17 – 8 - 8 – 9 a) Construa uma distribuição de frequência; b) Determine as frequências relativas; c) Determine as frequências acumuladas; d) Qual é a amplitude da amostra? R: H =15 e) Qual a proporção de pacientes que necessitam de atendimento de emergência enfrenta um tempo de espera de nove minutos ou menos? R: 71,43% Exercício 7: O trabalho de classificação de e-mails não-solicitados e spam afeta a produtividade de funcionários de escritório. Uma pesquisa levada a efeito pela InsightExpress monitorou funcionários de escritório para determinar a quantidade de tempo não-produtivo por dia dedicado a e-mails não-solicitados e spam (USA Today, 13 de novembro de 2003). Os dados a seguir fornecem uma amostra de tempo em minutos dedicado a essa tarefa: 2 4 8 4 8 1 2 32 12 1 5 7 5 5 3 4 24 19 4 14 Sintetize os dados construindo o seguinte: a) Uma distribuição de freqüência (classes); b) Uma distribuição de freqüência relativa; c) Uma distribuição de freqüência cumulativa; d) Uma Ogiva; e) Qual porcentagem de funcionários de escritório gasta cinco minutos ou menos em e-mails não-solicitados e spam? Qual a porcentagem de funcionários de escritório que gastam mais de dez minutos por dia nessa tarefa? R: 60% e 25% [Professora: Tatiani Secretti][Estatística] Página 39 Exercício 8: Considere a seguinte distribuição de freqüência correspondente aos diferentes preços de um determinado produto em vinte lojas pesquisadas. Preços Nº de lojas 50 2 51 5 52 6 53 6 54 1 Total 20 a) Quantas lojas apresentaram um preço de R$52,00? R: 6 b) Construa uma tabela de frequencias simples relativas. c) Construa uma tabela de freqüências absolutas acumuladas. d) Quantas lojas apresentaram um preço de até R$52,00 (inclusive)? R: 13 e) Qual o percentual de lojas com preço maior de que R$51,00 e menor de que R$54,00? R: 60% Exercício 9: Considere a seguinte tabela: Classes fi 2,75 |- 2,80 2 2,80 |- 2,85 3 2,85 |- 2,90 10 2,90 |- 2,95 11 2,95 |- 3,00 24 3,00 |- 3,05 14 3,05 |- 3,10 9 3,10 |- 3,15 8 3,15 |- 3,20 6 3,20 |- 3,25 3 Total 90 Identificar os seguintes elementos da tabela: a) Frequência simples absoluta da quinta classe; R: 24 b) Limite inferior da sexta classe; R: Linf = 3 c) Limite superior da quarta classe; R: Lsup= 2,95 d) Amplitude do intervalo de classe; R: h = 0,05 e) Amplitude total; R: H = 0,5 f) Ponto médio da terceira classe; R: 2,875 g) Frequência absoluta acumulada na sexta classe; R: 64 h) Porcentagem de valores iguais ou maiores que 3,20. R: 3,33% [Professora: Tatiani Secretti][Estatística] Página 40 Exercício 10: O Nielsen Home Technology Report aprsentou informações sobre a tecnologia dos aparelhos domésticos e sua utilização por pessoas de 12 anos ou mais. Os dados a seguir referem-se ao número de horas de uso de computadores pessoais durante uma semana para uma amostra de 50 pessoas. 4,1 1,5 10,4 5,9 3,4 5,7 1,6 6,1 3,0 3,7 3,1 4,8 2,0 14,8 5,4 4,2 3,9 4,1 11,1 3,5 4,1 4,1 8,8 5,6 4,3 3,3 7,1 10,3 6,2 7,6 10,8 2,8 9,5 12,9 12,1 0,7 4,0 9,2 4,4 5,7 7,2 6,1 5,7 5,9 4,7 3,9 3,7 3,1 6,1 3,1 Sintetize os dados construindo o seguinte: a) uma distribuição de freqüência por classe; b) as frequências relativas. c) as frequências acumuladas; d) Um Histograma. e) Comente sobre o que os dados indicam a respeito do uso de computadores pessoais em casa. Exercício 11: A prefeitura de determinado município realizou uma pesquisa entre as empresas da região para verificar o número de operários alocados por empresa. O objetivo é verificar se há equilíbrio entre o crescimento do número de empresas e o aumento do número de postos de trabalho. Os dados coletados constam na tabela a seguir. Número de empregados Número de empresas 20 |- 80 12 80 |- 140 39 140 |- 200 47 200 |- 260 31 260 |- 320 25 320 |- 380 17 380 |- 440 8 Total 179 a) Faça uma distribuição gráfica da freqüência absoluta, ou seja, construa um histograma. b) Calcule os pontos médios de cada classe e insira no histograma o gráfico do polígono de freqüências. c) Construa o gráfico do polígono de freqüências acumulada (Ogiva). [Professora: Tatiani Secretti][Estatística] Página 41 Exercício 12: As notas abaixo, referem-se ao grau obtido por 50 alunos em uma prova de Estatística: 1 8 3 4 7 4 6 7 7 8 2 8 3 4 7 4 6 7 8 8 2 7 4 5 6 8 6 7 8 9 2 9 4 5 7 8 7 7 8 9 g) Quem é a amostra do estudo? R: n = 50 alunos h) Quem é a variável estudada? Classifique-a. i) Construa a tabela mais adequada para estes dados, calculando a porcentagem de cada valor. j) Quantos alunos tiram nota inferior a 7 na prova? R: 18 k) Quantos alunos tiraram no máximo 8 na prova? R: 36 l) Qual a porcentagem de alunos que obtiveram nota entre 5 e 8 pontos? R: 50% 3 Medidas Descritivas Introdução A estatística descritiva visa descrever os dados disponíveis da forma mais completa possível sem, no entanto, se preocupar em tirar conclusões sobre um conjunto maior de dados (população). As medidas descritivas básicas mais importantes são as de posição e as de dispersão ou variabilidade. Classificação das medidas descritivas: Medidas descritivas CurtoseeAssimetria,Momentos ativalRe Absoluta Dispersão esSeparatriz centralnciaeˆTend Posição [Professora: Tatiani Secretti][Estatística] Página 42 Medidas de Posição Medidas de tendência central Quando se trabalha com dados numéricos observa-se uma tendência destes de se agruparem em torno de um valor central. Isto indica que algum valor central é característica dos dados e que o mesmo pode ser usado para descrevê-los e representá-los. As medidas de tendência central são: média, mediana e moda. Média aritmética [Simbologia: → →µ amostraX população ] A média aritmética é uma das informaçõesmais importantes da análise estatística. A média aritmética é uma medida de posição central, mesmo que ela não se encontre necessariamente no centro da distribuição, pois na verdade ela corresponde a uma das posições de equilíbrio entre os dados coletados. µ = média populacional �� = média aritmética amostral �� (lê-se: “X traço” ou “ X barra”) [Professora: Tatiani Secretti][Estatística] Página 43 1ª Situação: Média para dados não agrupados A média, que se representa por X na amostra e por µ na população, é uma medida de localização do centro da amostra, e obtém-se a partir da soma de um conjunto de valores, dividida pelo número de valores considerados conforme a seguinte expressão: Amostra n X n XXX X n i i n ∑ = = +++ = 121 ... Onde: � = média aritmética Σ x = somatório dos valores da variável “x” (exemplo: soma de todos os valores de idades, rendas familiares, etc.) n = nº de elementos pesquisados, ou ainda o tamanho da amostra. n x X n i i∑ = = 1 Obs: média populacional = µ onde: N = número total de elementos da população N X N XXX N i i N ∑ = = +++ = 121 ...µ [Professora: Tatiani Secretti][Estatística] Página 44 OBS: É a mais utilizada das medidas de tendência central para descrever, resumidamente, um conjunto de dados. Exemplo 10: Os valores de cinzas em ppm de uma amostra foram os seguintes: 1) 110ppm; 2) 120ppm; 3) 115ppm; 4) 110ppm; 5) 115ppm; Calcular a média dos resultados obtidos. � 5705 114��� Interpretação: O valor médio de cinza em ppm desta amostra é de 114 ppm. Desvio em relação à média: é a diferença entre cada elemento de um conjunto de valores e a média aritmética, ou seja: di = Xi - � No exemplo anterior temos cinco desvios: d1 = 110 - 114 = -4; d2 = 120-114 = 6; d3 = 115 -114= 1; d4 = 110 - 114 = -4; d5 = 115 - 114 = 1. [Professora: Tatiani Secretti][Estatística] Página 45 Exemplo 11: Para avaliar um novo método para determinação de cálcio, um químico preparou uma solução de concentração conhecida, 50mg/L de Ca. Esta Solução foi analisada seis vezes; os resultados obtidos foram: 1) 48,2mg/L; 2) 51,0mg/L; 3) 46,6mg/L; 4) 51,5 mg/L; 5) 43,8 mg/L; 6) 46,9 mg/L; Calcular a média dos resultados obtidos. Propriedades da média aritmética: • A soma dos desvios em relação à média é nula; ( )∑ =− 0XX i • A média de uma constante é igual à constante; k)k(X = • A média do produto de uma constante por uma variável é igual ao produto da constante pela média da variável; [ ])X(Xk)kX(X ii = o [Professora: Tatiani Secretti][Estatística] Página 46 2ª Situação: Média aritmética para dados tabelados por ponto: Se os dados estiverem agrupados em uma tabela de freqüências, pode-se obter a média aritmética dos valores x1, x2, x3, ..., xn, ponderados pelas respectivas freqüências absolutas: f1,f2,f3,...,fn. Assim: ∑ ∑ = = = ++++ = n i i n i ii nn f fX n X fxfxfxfx 1 1332211 ....... onde: fi = a freqüência absoluta da classe i. nfn i i =∑ =1 Amostra n fx X k i ii∑ = ⋅ = 1 Obs: Média populacional µ μ ∑ ��������� N = número total de elementos da população [Professora: Tatiani Secretti][Estatística] Página 47 Exemplo 12: Considere a seguinte distribuição de freqüência de uma amostra de polímero contendo 20 valores granulométricos (grãos/grama). (valores granulométricos) xi fi 36 5 38 3 39 3 40 4 44 3 47 2 Total 20 Encontre a média: 3ª Situação: Média aritmética para dados tabelados por intervalo (classe). Quando os dados estiverem agrupados numa distribuição de freqüência por classe usaremos a média dos pontos médios x1, x2, x3, ..., xn, de cada classe, ponderados pelas respectivas freqüências absolutas: f1,f2,f3,...,fn. Assim: onde xi = ponto médio da classe i n fX X n i ii∑ = = 1 [Professora: Tatiani Secretti][Estatística] Página 48 Exemplo 13: Um posto de gasolina registrou a seguinte distribuição de freqüência para o número de litros de gasolina vendidos por carro em uma amostra de 680 carros. Gasolina (litros) Número de carros (fi) 0 |- 5 74 5 |- 10 192 10 |- 15 280 15 |- 20 105 20 |- 25 23 25 |- 30 6 Total 680 Portanto: � 7645680 11,24 Interpretação: a média de gasolina vendida por carro foi de 11,24 litros. Moda [Simbologia: Mo ou Xˆ ] A moda de um grupo de observações é definida como a medida de freqüência máxima ou é (são)o(s) valor(es) que se repete(m) mais vezes. Pode ser utilizada para dados qualitativos. 1ª Situação: Moda para dados não-tabelados A moda será o valor mais freqüente no conjunto de dados, podendo, este mesmo conjunto, possuir mais de uma moda (bimodal ou plurimodal), ou ainda, não apresentar moda (amodal). Exemplo 14: Os valores de cinzas em ppm de uma amostra foram os seguintes: 110 – 110 – 115 – 110 - 115 Mo = 110 → Distribuição unimodal ou modal. [Professora: Tatiani Secretti][Estatística] Página 49 Interpretação: o valor de cinza em ppm com maior freqüência é de 110ppm. Exemplo 15: Suponha o conjunto de valores de cinzas em ppm: 110 – 110 – 120- 115 – 115 . Determinar a moda deste conjunto de dados. Exemplo 16: Suponha o conjunto de valores de cinzas em ppm: 110 – 110 – 115 – 115- 120 - 120. Determinar a moda deste conjunto de dados. Exemplo 17: Determine a moda dos conjuntos de dados abaixo: a) 1 -2- 3 – 5 – 2 – 6 – 7 – 2 – 9; b) 1 – 1 – 2 – 2 – 3 – 3 - 5 – 5 – 6 – 6 – 7 – 7 – 9 – 9; c) 0 – 0 – 1 – 2 – 3 – 5 – 2 – 0 – 6 – 7 – 2 – 9; d) 1 – 1 – 2 – 2 – 3 – 3 – 8 – 8 -10 2ª Situação: Moda para dados tabelados por ponto Quando a distribuição é por ponto, a determinação da moda é imediata pela simples inspeção da tabela, já que a Mo é o valor de freqüência máxima. Exemplo18: Considere a seguinte distribuição de freqüência de uma amostra de polímero contendo 20 valores granulométricos (grãos/grama). (valores granulométricos) xi fi 36 5 38 3 39 3 40 4 44 3 47 2 Total 20 Encontre a moda: [Professora: Tatiani Secretti][Estatística] Página 50 3ª Situação: Moda para dados tabelados por classe Quando a distribuição de freqüências é por intervalo, tem-se diversas maneiras. Pode-se calcular a moda bruta que é o ponto médio da classe de maior freqüência (método rudimentar). Exemplo 19: Salário Mensal Nº de funcionários 25|-30 10 30|-35 20 35|-40 30 40|-45 15 45|-50 40 50|-55 35 Total 150 Portanto, se a maior fi = 40 pertence a classe 45 |- 50, logo Mo = ���!� 47,5 Interpretação: o Salário mensal com maior freqüência entre o grupo de 150 funcionários foi de 47,5 salários. Características e importância da moda: I) Não éafetada por valores extremos, a não ser que estes constituam a classe modal; II) È uma medida bastante utilizada em estatística Econômica. [Professora: Tatiani Secretti][Estatística] Página 51 Mediana [Simbologia: Md ou X~ ] A mediana divide em duas partes o conjunto das observações ordenadas. Colocando-se os valores em ordem crescente ou decrescente, a mediana é o elemento que ocupa o valor central. 50% Md 50% → rol crescente Xmín Xmáx Uso da mediana: I) Quando se deseja obter um ponto que divida a distribuição em partes iguais; II) Quando há valores extremos que afetam, de uma maneira acentuada, a média; 1ª situação: Mediana para dados não-tabelados Se n é ímpar, a mediana é o elemento central, o que fica “sobrando” no meio. Se n é par, a mediana é a média dos dois elementos centrais. Procedimento no caso de dados brutos: 1. Colocam-se os dados em ordem (rol); 2. Se o número de elementos "n" for ímpar, a mediana será o elemento central que ocupa a posição 2 1n + do rol; [Professora: Tatiani Secretti][Estatística] Página 52 3. Se "n" for par, a mediana será a média aritmética entre os dois elementos centrais que ocupam as posições 2 n e n 2 1+ do rol. Exemplo 20: Quando o tamanho da amostra “n” for par Um químico determinou 10 vezes, em uma amostra de água, o teor de ferro por absorção atômica e conseguiu as seguintes concentrações em ppm: 16 – 17 – 13 – 14 – 13 – 12 – 10 – 11 – 14 – 14 Encontre o valor mediano: 1º Passo: Ordenar os valores em ordem crescente 10 11 12 13 13 14 14 14 16 17 2º Passo: Localizar a mediana: como “n” é par, devemos localizar os dois valores centrais, ou seja, para n = 10/2 = 5ª e a 5ª + 1 = 6ª posição. 3º Passo: Após localizar esses elementos, calcula-se a média entre eles: 10 11 12 13 13 14 14 14 16 17 Md = ppm 13,5 2 1413 = + . Interpretação: “Metade das medidas de teor de ferro em uma amostra de água tem valor inferior a 13,5 ppm e a outra metade apresentou mais de 13,5 ppm”. Mediana [Professora: Tatiani Secretti][Estatística] Página 53 Exemplo 21: Quando o tamanho da amostra “n” for ímpar Um químico determinou 11 vezes, em uma amostra de água, o teor de ferro por absorção atômica e conseguiu as seguintes concentrações em ppm: 16 – 17 – 13 – 14 – 13 – 12 – 10 – 11 – 13 – 14 - 15 Qual é o valor mediano? 1º Passo: Ordenar os valores em ordem crescente 10 11 12 13 13 13 14 14 15 16 17 2º Passo: Encontrar a posição da mediana Como n = 11 é ímpar, o valor central está na posição 2 1+n Posição da Mediana = = + = + 2 111 2 1n 6ª posição 3º Passo: Localizar a mediana 10 11 12 13 13 13 14 14 15 16 17 Md = 13 ppm Interpretação: “Metade das medidas de teor de ferro em uma amostra de água tem valor inferior a 13 ppm e a outra metade apresentou mais de 13 ppm”. Mediana [Professora: Tatiani Secretti][Estatística] IMPORTANTE!!! Prefere-se empregar a mediana quando: a. Deseja-se obter o ponto que divide a distribuição dos valores em duas partes iguai b. Há valores extremos (muito destoantes do geral da amostra) que afetam de uma maneira acentuada a média; 2ª Situação: Mediana para dados tabelados Passos: 1º) Calcular a posição da mediana. Para verificar a posição da mediana na distribu 2º) Localizar a classe mediana. Procedimento: de posse do resultado do quociente freqüência acumulada em qual intervalo de valores acumulados esse valor se enquadra. A classe mediana é estabelecida na coluna da freqüên convém acrescentar uma coluna para os valores da freqüência acumulada. A classe mediana é a classe que contém a mediana. 3º) Verificar o valor da variável contido na classe da mediana. [Professora: Tatiani Secretti][Estatística] IMPORTANTE!!! se empregar a mediana quando: se obter o ponto que divide a distribuição dos valores em duas partes iguai Há valores extremos (muito destoantes do geral da amostra) que afetam de uma maneira acentuada a média; Mediana para dados tabelados por ponto. ) Calcular a posição da mediana. Para verificar a posição da mediana na distribuição, calcule: Pmd = 2º) Localizar a classe mediana. Procedimento: de posse do resultado do quociente , observe na coluna da freqüência acumulada em qual intervalo de valores acumulados esse valor se A classe mediana é estabelecida na coluna da freqüência acumulada; sendo assim, convém acrescentar uma coluna para os valores da freqüência acumulada. A classe mediana é a classe que contém a mediana. 3º) Verificar o valor da variável contido na classe da mediana. Página 54 se obter o ponto que divide a distribuição dos valores em duas partes iguais; Há valores extremos (muito destoantes do geral da amostra) que afetam de uma por ponto. , observe na coluna da freqüência acumulada em qual intervalo de valores acumulados esse valor se cia acumulada; sendo assim, convém acrescentar uma coluna para os valores da freqüência acumulada. [Professora: Tatiani Secretti][Estatística] Página 55 Exemplo 22: Considere a seguinte distribuição de freqüência de uma amostra de polímero contendo 20 valores granulométricos (grãos/grama). (valores granulométricos) xi fi Fac 36 5 38 3 39 3 40 4 44 3 47 2 Total 20 Encontre a mediana: 3ª Situação: Procedimento no caso de distribuição por classe: 1. Calcula-se a posição da mediana: PMd = 2 n ; 2. Localizar a classe mediana. Procedimento: de posse do quociente "�, observe na coluna da frequência acumulada em qual intervalo de valores acumulados esse valor se enquadra. 3. Determinar a mediana: Para encontrar o valor da mediana aplica-se a seguinte fórmula: ( ) Md ant d f FachLM .Md .inf P − += onde: Linf. = limite inferior da classe que contém a mediana; Facant. = freqüência acumulada da classe anterior à classe que contém a mediana; h= amplitude da classe que contém a mediana; fMd= freqüência da classe que contém a mediana. [Professora: Tatiani Secretti][Estatística] Exemplo 23: Um posto de gasolina registrou a seguinte distribuição de freqüência para o número de galões de gasolina vendidos por carro Gasolina (litros) Número de carros (f 0 |- 5 5 |- 10 10 |- 15 15 |- 20 20 |- 25 25 |- 30 Total Encontre e interprete a mediana: Interpretação: 50% dos carros tiveram no máximo 11,32 litros de gasolina, ou então, metade dos carros tinham no mínimo 11,2 litros de gasolina. Observações importantes: Não há regra fixa para se escolher entre a média, a mediana e a moda. Entretanto algumas observações podem ser feitas quanto à utilização das mesmas. • A média aritmética é a medida de tendência central mais utilizada, principalmente quando não há valores aberrantes (muito extremos) no conjunto de dados, sendo a medida mais conveniente para cálculos posteriores; • A mediana deve ser usada, sempre que possível, como medida rep distribuições fortemente assimétricas, ou seja, quando os valores extremos do conjunto são muito distantes dosoutros, pois o seu valor não é afetado por estes valores; • A moda é usada quando há interesse em saber o ponto de concentração do conjunto ou o tipo de distribuição que se está analisando, sendo que o seu valor, em se tratando de dados agrupados, é fortemente afetado pela maneira como as classes são constituídas. [Professora: Tatiani Secretti][Estatística] Um posto de gasolina registrou a seguinte distribuição de freqüência para o número de galões de gasolina vendidos por carro em uma amostra de 680 carros. Número de carros (fi) 74 192 280 105 23 6 680 Encontre e interprete a mediana: 50% dos carros tiveram no máximo 11,32 litros de gasolina, ou então, dos carros tinham no mínimo 11,2 litros de gasolina. Observações importantes: Não há regra fixa para se escolher entre a média, a mediana e a moda. Entretanto algumas observações podem ser feitas quanto à utilização das mesmas. é a medida de tendência central mais utilizada, principalmente quando não há valores aberrantes (muito extremos) no conjunto de dados, sendo a medida mais conveniente para cálculos posteriores; A mediana deve ser usada, sempre que possível, como medida rep distribuições fortemente assimétricas, ou seja, quando os valores extremos do conjunto são muito distantes dos outros, pois o seu valor não é afetado por estes A moda é usada quando há interesse em saber o ponto de concentração do onjunto ou o tipo de distribuição que se está analisando, sendo que o seu valor, em se tratando de dados agrupados, é fortemente afetado pela maneira como as classes são constituídas. Página 56 Um posto de gasolina registrou a seguinte distribuição de freqüência para em uma amostra de 680 carros. 50% dos carros tiveram no máximo 11,32 litros de gasolina, ou então, Não há regra fixa para se escolher entre a média, a mediana e a moda. Entretanto algumas observações podem ser feitas quanto à utilização das mesmas. é a medida de tendência central mais utilizada, principalmente quando não há valores aberrantes (muito extremos) no conjunto de dados, sendo a A mediana deve ser usada, sempre que possível, como medida representativa de distribuições fortemente assimétricas, ou seja, quando os valores extremos do conjunto são muito distantes dos outros, pois o seu valor não é afetado por estes A moda é usada quando há interesse em saber o ponto de concentração do onjunto ou o tipo de distribuição que se está analisando, sendo que o seu valor, em se tratando de dados agrupados, é fortemente afetado pela maneira como as [Professora: Tatiani Secretti][Estatística] Página 57 Exercícios: 13) Calcule para cada caso abaixo a respectiva média a) 7, 8, 9, 12, 14 R: 10 b) Xi 3 4 7 8 12 fi 2 5 8 4 3 R: 6,82 14) Calcule o valor da mediana. a) 82, 86, 88, 84, 91, 93 R: md = 87 b) Xi 73 75 77 79 81 fi 2 10 12 5 2 R: 77 15) Calcule a moda: a) 3, 4, 7, 7, 8, 9, 10 R: mo = 7 b) Xi 2,5 3,5 4,5 6,5 fi 7 17 10 5 R: mo = 3,5 16) Uma cidade serrana registrou a temperatura média diária durante duas semanas. Os valores encontram-se discriminados a seguir. 23; 22; 24; 23; 21; 23; 22; 23; 24; 22; 21; 22; 23; 21. Calcule a média aritmética, a moda e a mediana dessa distribuição. [Professora: Tatiani Secretti][Estatística] Página 58 17) A produção de solvente numa fábrica, durante uma semana, foi de 17, 22, 10, 14, 13, 15, 16, 18 e 12 litros. Qual a produção média, modal e mediana? R: média = 15,22 e md = 15; não possui moda 18) Calcule média, mediana e desvio padrão para os dados a seguir, referentes à quantidade de magnésio medido no rio Mogi-Guaçu, SP, em 1988 (Melo, 1993). Qual a melhor medida de tendência central neste caso? Explique. X( mg/mL): 1,2 1,5 4,0 1,5 1,5 1,8 R: média = 1,92; md = 1,5 e mo = 1,5 19) A Secretaria da Educação encomendou um estudo a uma agencia de pesquisa, sobre o número de crianças em idade escolar de determinada região para verificar a necessidade de construir uma escola naquele local ou não. Para isto, a agência entrevistou 100 famílias e perguntou QUANTAS CRIANÇAS FAZIAM PARTE DAQUELA FAMÍLIA E QUE ESTAVAM EM IDADE ESCOLAR, obtendo os seguintes resultados: Tabela. NÚMERO DE CRIANÇAS EM IDADE ESCOLAR No de Crianças No de Famílias % 0 17 17 1 28 28 2 20 20 3 19 19 4 7 7 5 4 4 6 5 5 Total 100 100 Fonte: Sec. Educação Com base nos dados da tabela acima, responda: a) Quem é a variável de estudo? b) Quem é a amostra estudada? R: 100 c) Quantas famílias possuem no máximo 3 crianças em idade escolar? R: 84 d) Quantas famílias possuem menos de 2 crianças idade escolar? R: 2,03 e) Calcule e interprete a média para estes dados. 20) Verastro e Krause ( 1994) estudaram espécimens de Liolaemus occipitallis, pequeno lagarto da região costeira do Rio Grande do Sul. Suponha que tenham sido encontrados os valores a seguir, relativos ao comprimento rostroanal (CRA, em mm) e ao peso (em g). Indivíduo 1 2 3 4 5 CRA (mm) 47 51 54 59 62 Peso (g) 5,0 3,9 6,7 6,0 9,5 Encontre a média, mediana e a moda para cada variável. [Professora: Tatiani Secretti][Estatística] Página 59 R: CRA (média =54,6, md = 54, amodal) R: peso (média = 6,22; md = 6) 21) A tabela abaixo representa os salários pagos a 100 operários da empresa GLT & Cia: Tabela. Salários GLT & Cia Nº de salários mínimos Nº de operários % 0 40 40,0 2 30 30,0 4 10 10,0 6 15 15,0 8 5 5,0 Total 100 100,0 Fonte: Pesquisa a) Quem é a variável de estudo? E qual foi a amostra pesquisada? b) Qual a porcentagem de operários que ganha menos de 6 salários mínimos? R: 80% c) Qual a média de salário dos operários da empresa GLT & Cia? R: 2,3 d) Qual a mediana de salário pago aos operários da empresa GLT & Cia? R: 2 22) Sejam os seguintes valores referentes ao número de faltas de operários de uma empresa do ramo automobilístico em determinado mês do ano: 0 0 2 0 3 1 0 4 1 0 2 1 1 2 0 1 0 1 2 0 1 0 0 1 0 0 2 1 4 4 Com base nesses valores, pede-se: a) Construa uma tabela de freqüências adequada para representar os dados acima; b) Calcule e interprete a média de faltas nessa empresa; R: 1,13 c) Calcule e interprete a mediana de faltas nessa empresa; R: 1 d) Calcule e interprete a moda de faltas nessa empresa. R: 0 [Professora: Tatiani Secretti][Estatística] Página 60 3.2 Medidas de dispersão As medidas de dispersão visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central. Elas indicam se um conjunto é homogêneo (pouca ou nenhuma variabilidade) ou heterogêneo (muita variabilidade). A descrição do conjunto de dados é mais completa quando se considera além de uma medida de tendência central, uma medida de dispersão ou variação, porque é comum encontrar-se séries que, apesar de apresentarem a mesma média, são compostas de maneiras diferentes, o que mostra que as medidas de tendência central são insuficientes para descrever adequadamente uma série estatística. Exemplo 24: considere os seguintes conjuntos de valores das variáveis, X, Y, Z. X = { 40, 40, 40, 40, 40} Y = {38, 39, 40, 41, 42} Z = { 55, 30, 5, 15, 95} Podemos observar que os três conjuntos apresentam a mesma média aritmética = 200/5 = 40. No entanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais a média. O conjunto Y por sua vez, é o mais homogêneo que o conjunto Z, pois há menor variação entre cada um de seus valores e a média representativa.[Professora: Tatiani Secretti][Estatística] Classificação das medidas de dispersão: deMedidas Exemplo 25: Dois analistas analisaram uma amostra, sob as mesmas condições que foram enviadas ao laboratório para a determinação de um elemento. Os analistas realizaram seis determinações cada e obtiveram os seguintes resultados em ppm: Analistas Analista 1 6,1 Analista 2 6,3 Nota: dados fictícios O que podemos observar? Medidas de dispersão Absoluta Amplitude de variação [Simbologia: H] É a diferença entre o maior e o menor valor do conjunto, sendo a mais simples das medidas de dispersão, porém de grande instabilidade, porque considera somente os valores extremos do conjunto. Também é chamada de desvio H = Xmáx. - X Dados não-tabelados: Ex: H1 = H2 = [Professora: Tatiani Secretti][Estatística] assificação das medidas de dispersão: { variaçãodeeCoeficientRelativa Variância padrãoDesvio médioDesvio Amplitude Absoluta dispersão Dois analistas analisaram uma amostra, sob as mesmas condições que foram enviadas ao laboratório para a determinação de um elemento. Os analistas is determinações cada e obtiveram os seguintes resultados em ppm: Determinações (ppm) 6,2 6,2 6,3 6,2 6,1 6,2 6,1 6,0 Medidas de dispersão Absoluta [Simbologia: H] É a diferença entre o maior e o menor valor do conjunto, sendo a mais simples das medidas de dispersão, porém de grande instabilidade, porque considera somente os valores extremos do conjunto. Também é chamada de desvio extremo. Xmín. Página 61 variação Dois analistas analisaram uma amostra, sob as mesmas condições que foram enviadas ao laboratório para a determinação de um elemento. Os analistas is determinações cada e obtiveram os seguintes resultados em ppm: 6,2 6,5 É a diferença entre o maior e o menor valor do conjunto, sendo a mais simples das medidas de dispersão, porém de grande instabilidade, porque considera somente extremo. [Professora: Tatiani Secretti][Estatística] Página 62 Variância [Simbologia → →σ amostras população 2 2 ] � Uma boa medida de dispersão deve basear-se em todos os dados, ser facilmente calculável e compreensível, além de prestar-se bem ao tratamento algébrico. � Uma medida com todas estas características é obtida considerando-se os desvios de cada observação em relação a média, chamados erros (ei), para uma população, ele é escrito como (xi-µ); para uma amostra, o desvio em torno da média é escrito como ( ). � Para obter um único número que represente a dispersão dos dados, pensou-se inicialmente em obter-se a média destes desvios, mas deve-se lembrar que a soma dos desvios de um conjunto de dados em relação a sua média é nula. � Então, optou-se por utilizar a soma dos quadrados dos desvios, pois elevando- se cada desvio ao quadrado elimina-se o sinal negativo, que estava trazendo complicações; e dividindo-se a soma dos quadrados dos desvios pelo número de observações obtém-se a variância populacional , denotada pelo símbolo grego σ2. A variância é representada na população pelo símbolo 2σ e na amostra pelo símbolo 2s . Quanto maior for a variação dos valores do conjunto de dados, maior será a variância. A variância de uma amostra é a média dos quadrados dos desvios dos valores em relação à média. [Professora: Tatiani Secretti][Estatística] Página 63 1ª situação: Variância para dados não-tabelados População Amostra ( ) N x k i i∑ = − = 1 2 2 µ σ ( ) 1 1 2 2 − − = ∑ = n Xx s k i i → →σ amostras população 2 2 N = numero de elementos da população. n = numero de elementos da amostra. #$�� % � &� $�� % � &� " ��� ' $�� % � &� ' ( ' $�" % � &� Exemplo 26: Considere o exemplo abaixo: Analistas Determinações (ppm) Analista 1 6,1 6,2 6,2 6,3 6,2 6,2 Analista 2 6,3 6,1 6,2 6,1 6,0 6,5 Como � 1= 6,2 ppm )��= [Professora: Tatiani Secretti][Estatística] Página 64 Interpretação: Encontramos uma variância para as determinações do analista 1 de 0,004 ppm2. )��= Interpretação: Encontramos uma variância para o tempo até o início do efeito do sonífero de 0,032 ppm2. Para eliminarmos o quadrado da unidade de medida, extraímos a raiz quadrada do resultado da variância, que chegamos a uma terceira medida de dispersão, chamada de desvio-padrão. Desvio padrão [Simbologia → →σ amostras população ] O desvio padrão é uma das medidas mais úteis da variação de um grupo de dados. A vantagem do desvio padrão sobre a variância, é que este permite uma interpretação direta da variação do grupo, pois o mesmo é expresso na mesma unidade em que estão expressas as medidas observadas. O desvio padrão é a raiz quadrada da variância, então, é calculado por: 2ss = [Professora: Tatiani Secretti][Estatística] Página 65 Para os dados de medição, especialmente em grandes amostras (n ≥ 30), verifica-se que, cerca de 68% das observações estarão entre sX ± ; 95% das observações estarão entre s2X ± e praticamente 100% entre s3X ± Então para o exemplo anterior: *+ √-, --. � 0,063 ppm Interpretação: O desvio padrão foi de 0,063 ppm. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno da média, encontraremos a concentração da maioria dos dados. */ √-, -0/ � 0,179 ppm Lembrando que a média das determinações entre os analistas foram iguais. Agora levando em consideração o desvio-padrão, e comparando-os, pode-se concluir que o analista 1 teve menor desvio-padrão, menor variabilidade. Exemplo 27: Para avaliar um novo método para determinação de ferro, um químico preparou uma solução de concentração conhecida, 30 mg/L de Fe, esta solução foi analisada 6 vezes, os resultados obtidos foram: 28,2 – 31,0 – 26,6 – 31,5 – 25,8 – 32,9 Determinar a variância deste conjunto de dados. [Professora: Tatiani Secretti][Estatística] Página 66 2ª Situação: Variância para dados tabelados por ponto: Quando os dados estiverem tabelados numa distribuição de freqüência por ponto usaremos a variância dos valores x1, x2, x3, ..., xn, ponderados pelas respectivas freqüências absolutas: f1, f2, f3, ..., fn. Assim: População Amostra ( ) N fx i k i i ×− = ∑ =1 2 2 µ σ ( ) 1 1 2 2 − ×− = ∑ = n fXx s k i ii Variância amostral: ( ) 1 . 2 2 − − = ∑ n fxXS ii Onde: #$�� % � &� 1 �� $�� % � &� " ��� 1 �� ' $�� % � &� 1 �� ' ( ' $�" % � &� 1 �" [Professora: Tatiani Secretti][Estatística] Página 67 Exemplo 28: Um químico determinou 12 vezes, em uma amostra de água, o teor de ferro por absorção atômica e obteve a seguinte distribuição de freqüência: Concentração em ppm (xi) (fi) 10 2 11 3 12 4 13 2 16 1 Total 12 Encontre a variância e o desvio padrão. 1º) Calcular a média ppm n fx X 92,11 12 143. ===
Compartilhar