Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Estatística Professor Daniel Vieira Ferreira danielvieiraf@hotmail.com Estude; para que possa dar um passo na vida, pois é um dote que não se gasta um direito que não se perde e a liberdade que não se limita. 2 SUMÁRIO A Natureza da Estatística: Panorama histórico Método estatístico Coleta de Dados Critica dos Dados Exposição ou apresentação dos dados Análise dos resultados A Estatística nas empresas Medidas de Tendência População e Amostras A Média A Média Ponderada A Mediana Outros Quantis A Moda Descrição de dados agrupados Distribuição de Freqüência Séries Estatísticas Tabelas Séries históricas, Cronológicas, Temporais ou marchas. Séries Geográficas, espaciais, territoriais ou de localização. Séries específicas ou categóricas. Séries conjugadas (Tabelas de dupla entrada) Dados Absolutos ou dados relativos Os Índices ( Econômicos) Os coeficientes As Taxas Gráficos Estatísticos Tabelas Diagramas Gráficos polar Cartograma Pictograma Histograma Gráfico de Setor Polígono de freqüência Distribuição de Freqüência Tabela Primitiva Rol Elementos de uma distribuição de freqüência Número de Classe. Intervalos de Classe Tipos de Freqüência Medidas de dispersão ou de variabilidade Amplitude Total Dados não-agrupados Dados Agrupados Variância. Desvio Padrão Coeficiente de Variação Medidas de Assimetria, Medidas de Curtose Assimetria Curtose (Coeficiente) 3 Probabilidade Introdução Experimento aleatório Espaço Amostral Eventos Eventos Complementares Eventos independentes Eventos mutuamente exclusivos Distribuição Binomial e Normal Variável aleatória Distribuição binomial Distribuição de probabilidade Distribuição normal. Curva normal Correlação e Regressão Introdução Correlação Correlação Linear Relação funcional e relação estatística 4 1- Introdução Estatística é a ciência que se ocupa da obtenção de informações (...) com a finalidade de através de resultados probabilísticos adequados, inferir de uma amostra para a população (...), e eventualmente mesmo prever a evolução futura de um fenômeno. Em outras palavras, é um instrumento de leitura de informação, e da sua transformação em Conhecimento. De forma mais clara: Estatística é a ciência de coletar, organizar, apresentar, analisar e interpretar dados numéricos ou não (informações) com o objetivo de tomar melhores decisões. Nas áreas médicas e biológicas coletam dados de pessoas, de animais experimentais e de fenômenos físicos e químicos. Interessam aos pesquisadores dessas áreas dados sobre mortalidade infantil, eficiência de medicamentos, incidência de doenças, causas de morte etc. Os dados referem-se a variáveis, que são classificadas, em estatística, como qualitativas, ordinais, e quantitativas. No moderno ambiente administrativo e econômico global, qualquer pessoa pode ter acesso a uma enorme quantidade de informações estatísticas. Os gerentes e tomadores de decisão mais bem-sucedidos são aqueles capazes de entender a informação e usá-la eficazmente. A estatística lida com modelos não determinísticos, ou seja, com situações em que os mecanismos do sistema não são conhecidos, e portanto a previsão de resultados esta envolta com certo grau de incerteza, a qual é quantificada probabilisticamente. Exemplos: Em uma lavoura de café, o produtor deseja ter uma idéia, com alto grau de confiança, se o nível de infestação de alguma praga é tal que justifique medidas de controle; deseja-se saber se uma nova droga tem alta probabilidade de cura no tratamento de uma doença; No lançamento de uma nova variedade de milho, deseja-se saber se ela supera a produtividade as variedades já existentes 1- A Estatística no gerenciamento da produção A moderna produção industrial está assentada na chamada Qualidade Total, pela qual todas as etapas do processo produtivo são acompanhadas e gerenciadas, possibilitando o diagnósticos preciso de problemas e a minimização da relação custo - beneficio. Uma das maneiras utilizadas de se gerenciar a produção é o chamado Controle Estatístico de Qualidade, pelo qual procedimentos de amostragem são empregados tanto na linha de produção quanto no recebimento de matérias – primas, para a verificação se estas ou produtos fabricados atendem a especificações de qualidade. Não somente na produção industrial, mas também na produção agrícola e na saúde o controle de qualidade é muito utilizado. Para estudar o efeito do flúor sobre a prevenção de cáries em crianças, é melhor submeter uma amostra de crianças a exames periódicos minuciosos, do que examinar rapidamente todas as crianças antes, e determinado tempo após o uso do flúor. 2- Fases dos métodos estatísticos 5 Podemos distinguir no método estatístico as seguintes fases: Quando se pretende empreender um estudo estatístico completo, existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Essas etapas ou operações são chamadas fases do trabalho estatístico e são de âmbito da estatística descritiva. As fases principais são as seguintes: - Definição do problema - Planejamento - Coleta de Dados - Apuração dos Dados - Análise e Interpretação de Dados 3.1- Definição do Problema. A primeira fase do trabalho estatístico consiste em definição ou formulação correta do problema a ser estudado. Além de considerar detidamente o problema objeto do estudo, o analista deverá examinar outros levantamentos realizados no mesmo campo e análagos, uma vez que parte da informação de que necessita pode, muitas vezes, ser encontrada nesses últimos. Um fabricante de sabonete, que deseja lançar um produto novo no mercado, poderia estar interessado em um estudo sobre a característica dos consumidores atuais. Não havendo estudos semelhantes, ele deverá formular o problema com base em sua própria experiência. Uma lista de fatores relevantes deverá resultar dessa investigação preliminar: número de unidades consumidas por família em cada ano, número médio de pessoas que compõe cada família, número de membros adultos da família, as marcas preferidas e assim por diante. Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema. 3.2- Planejamento O passo seguinte, após a definição do problema, compreende a fase do planejamento, que consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo. Que dados deverão ser obtidos? Como se deve obtê-los? É preciso planejar o trabalho a ser realizado, tendo em vista objetivo que se pretende atingir. Mais especificamente, na fase do planejamento a preocupação maior reside na escolha das perguntas, bem como sua correta formulação, qualquer que seja a modalidade de coleta dos dados. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento: 1. Levantamento censitário, quando a contagem for completa, abrangendo todo universo. 2. Levantamento por amostragem, quando a contagem for parcial. Outros elementos importantesque devem ser tratados nessa mesma fase são o cronograma das atividades, através do qual são fixados os prazos para as várias fases, os custos envolvidos, o exame das informações disponíveis, o delineamento da amostra, a forma como serão escolhidos os dados e assim por diante. Os livros mais específicos sobre pesquisa de mercado poderão ser consultados, caso o leitor tenha maior interesse nesse assunto. 6 3.3- Coletas de dados Após cuidadoso planejamento e a devida determinação das características mensuráveis do fenômeno coletivamente típicos. Que se quer pesquisar, damos inicio a coleta dos dados numéricos necessários à sua descrição. 3.3.1- A coleta pode ser direta e indireta. A coleta é direta quando feita sobre elementos informativos de registros obrigatórios (nascimentos, casamentos e óbitos, importação e exportação de mercadorias) elementos pertinentes aos prontuários dos alunos de uma determinada instituição ou, ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários, como é o caso das notas de verificação e de exames, do censo demográfico etc. 3.3.2- A coleta direta de dados pode ser classificada relativamente ao fator tempo em: Contínua (registro) _ Quando feita continuamente, tal como a de nascimento e óbitos e a de freqüência dos alunos de aula; Periódica _ Quando feita em intervalos constantes de tempo, como os censos ( de 10 em 10 anos) e as avaliações mensais dos alunos; Ocasional_ Quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias ou situação de um candidato em uma eleição etc. A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com fenômenos estudados. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por uma coleta direta. 3.4 - Apurações dos dados Antes de começar a analisar os dados, é conveniente que lhes seja dado algum tratamento prévio, a fim de torná-los mais expressivos. A quarta etapa do processo é , então, a da apuração ou sumarização, que consiste em resumir os dados, através de sua contagem e agrupamento. É um trabalho de condensação e de tabulação dos dados, que chegam ao analista de forma desorganizada, tornando impossível a tarefa de aprender todo o seu significado pela simples leitura. 3.5 – Apresentação dos dados A apresentação ou exposição dos dados observados constitui a quinta fase do método estatístico. Há duas formas de apresentação, que não se excluem mutuamente: 7 3.5.1 - Apresentação Tabular A apresentação tabular é uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado, segundo algumas regras práticas adotadas pelos diversos sistemas estatísticos. As tabelas têm a vantagem de conseguir expor, sistematicamente e em um só local, os resultados sobre determinado assunto, de modo a se obter uma visão global mais rápida daquilo que se pretende analisar. 3.5.2 - Apresentação Gráfica A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica. Embora a apresentação tabular seja de extrema importância, no sentido de facilitar a análise a analise numérica dos dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenômeno e sua variação como conseguida através de um gráfico. 8 3.6 - ANÁLISE E INTERPRETAÇÃO DOS DADOS A última fase do trabalho estatístico é a mais importante e também a mais delicada. Nesta etapa, o interesse maior reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema. A análise dos dados estatísticos está ligada essencialmente ao calculo de medidas cuja finalidade principal é descrever o fenômeno. Assim, o conjunto de dados a ser analisado pode ser expresso por números – resumos, que evidenciam características particulares desse conjunto. O significado exato de cada um dos valores obtidos através do calculo das várias medidas estatísticas disponíveis deve ser bem interpretado 01) Exercícios a)O que é estatística? b)Cite as fases do método estatístico. c)Para você o que coletar dados? d)Cite três ou mais atividades do planejamento empresarial em que a estatística se faz necessária. 3- População e Amostra. (Estatística indutiva e descritiva) Ao coletar os dados referentes às características de um grupo de objetos ou indivíduos, tais como as alturas e pesos dos pacientes em um hospital ou os números de parafusos defeituosos ou não produzidos por uma fábrica em um certo dia, o conjunto de hibrido de milho disponíveis no mercado definem uma população, a qual é descrita por características de interesse econômico. É muitas vezes impossível ou impraticável observar todo o grupo, denominado população ou universo, examina-se uma pequena parte chamada amostra. 9 Uma população pode ser finita ou infinita. Por exemplo, o conjunto de alunos de uma escola. Infinitas, como o número de vezes que se pode jogar um dado. Para certas finalidades, as populações finitas muito grandes são consideras infinitas. Como exemplos, considere as pessoas do sexo masculino, com mais de 35 anos de idade, residentes na cidade de São Paulo. O número dessas pessoas é matematicamente finito, mas tão grande que um pesquisador, ao analisar uma amostra de 500 pessoas, pode considerar a população como infinita. Quando são coletadas informações de toda a população, diz-se que foi feito um recenseamento. Censo é o conjunto de dados obtidos através de recenseamento. Quando são coletadas informações de apenas parte da população, diz-se que foi amostragem. Amostra é tanto a parte retirada da população para estudo como, também, o conjunto de dados obtidos nessa parte da população. Se uma amostra é representativa de uma população, conclusões importantes sobre a população podem ser inferidas de sua analise. A parte da estatística que trata das condições sob as quais essas inferências são válidas chama-se estatística indutiva ou inferência estatística. As características que descrevem a população são chamadas variáveis, e um valor observado com relação a uma variável é chamado dado ou observação, sejam eles provenientes de censos ou de amostras. VARIÁVEL Características pela qual deseja-se que a população seja descrita, ou pela decisões acerca da população são tomadas. DADO Observação ou realização referente a uma variável. Pode estar contido em um censo ou uma amostra. Tabela 1.1 Classificação quanto à natureza das variáveis. Variáveis QUALITATIVA QUANTITATIVAS Nominais Ordinais Discreta Continuas Uma variável é qualitativa nominal quando os dados podem ser distribuídos em categorias mutuamente exclusivas. Assim, sexo é uma variável qualitativa porque permite distinguir duas categorias, masculino e feminino. Também são qualitativas as variáveis cor, causa morte, grupo sangüíneo, variedade de sementes, etc. Uma variável é ordinal quando os dados podem ser distribuídos em categorias mutuamente exclusivos que têm ordenação natural. Assim, grau de instrução é uma variável ordinal porque as pessoas podem ser distribuídas em categorias mutuamente exclusivas, na seguinte ordem: primário, secundário e superior. Também são ordinais as variáveis aparência, status social, estagio da doença etc. Uma variável é quantitativa quando é expressa por números. São variáveis quantitativas: idade, estatura, peso corporaletc. Uma variável que pode assumir teoricamente qualquer valor entre duas observações quaisquer chama-se variável continua; de outro modo denomina-se variável discreta. 10 Exemplo 1. O número N de crianças, em uma determinada família, que pode assumir qualquer um dos valores 0,1,2,3,... mas não pode ser 2,5 ou 3,485, é uma variável discreta Exemplo 2. A altura H de um indivíduo que pode ser 1,65 metros, 1,662 metros ou 1,6722 metros, conforme a precisão da medida, é uma variável continua. Os dados que podem ser descritos por meio de uma variável discreta ou contínua são chamados dados discretos ou contínuos, respectivamente. O número de crianças em cada uma das 1000 famílias é um exemplo de dados discretos, enquanto o peso de 100 estudantes universitários é um exemplo de dados contínuos. Em geral, as medições dão origem a dados contínuos, enquanto as enumerações ou contagens resultam em dados discretos. 4- Arredondamento de dados O resultado do arrendodamento de um número como 72,8 para o inteiro mais próximo é 73, posto que 72,8 está mais próximo de 73 do que de 72. Semelhante, 72,8146 está mais próximo de 72,81 do que de 72,82. Ao arrendondar 72,465 para o centésimo mais próximo, entretanto, deparamo- nos com um dilema pois 72,465 dista igualmente de 72,46 e de 72,47. Usa-se, na pratica, em casos, aproximar para o número par que precede o 5. Assim, 72,465 é arredondamento para 72,46, 183,575 é arredondado para 183,58 e 116.500.000, arrendodado para as unidade as unidades de milhões mais próximas, é 116.000.000. Esta prática é especialmente valiosa para reduzir ao mínimo os erros acumulados por arrendodamento, quando se trata de grande número de operações. 5- Notação Científica Ao escrever número, especialmente que comportem muitos zeros, antes ou depois da vírgula, é conveniente empregar a notação cientifica que utiliza as potência de 10. EXEMPLO 1. 10 1 = 10; 10 2 = 10 X 10 = 100; 10 5 = 10 X 10 X 10 X 10 X 10 = 100000 10 8 = 10 X 10 X 10 X 10 X 10 X 10 X 10 X 10 = 100.000.000. EXEMPLO 2. 10 0 = 1; 10 -1 = 0,1; 10 -2 = 0,01; 10 -5 = 0,00001. EXEMPLO 3. 864.000.000 = 8,64 X 10 8 ; 0,00003416 = 3,416 X 10 -5 . A notação cientifica é muitas vezes útil no cálculo, especialmente para a localizar a vírgula. Usam-se as seguintes regras: (10 p )(10 q ) = 10 p+q 2.0) Exercícios 01) Classifique as variáveis em qualitativas ou quantitativas: a) Universo: alunos de uma escola. Variável: cor dos cabelos. Resp. Qualitativa qp q p 10 10 10 11 b) Universo: Casais residentes em uma cidade. Variável: número de filhos. Resp. Quantitativa discreta c) Universo: as jogadas de um dado. Variável: o ponto obtido em cada jogada. Resp. Quantitativa discreta d) Universo: Peças produzidas por certa máquina. Variável: número de peças produzidas por hora. Resp. Quantitativa discreta e) Universo: Peças produzidas por certa máquina Variável: diâmetro externo. Resp. Quantitativa contínua 02) Diga quais das variáveis abaixo são discretas e quais são continuas, Nominais e ordinais: a) População: Alunos de uma cidade. Variável: cor dos olhos. b) P.: estação meteorológica de uma cidade. V.: precipitação pluviométrica, durante um ano. c) P.: Bolsa de Valores de São Paulo v.: número de ações negociadas. d) P.: funcionários de uma empresa. V.: salários. e) P.: Pregos produzidos por uma máquina V.: comprimento. Técnicas de Amostragem Definida a população , é preciso estabelecer a técnica de amostragem, isto é o procedimento que será adotado para escolher os elementos que irão compor a amostra. Conforme a técnica utilizada, tem-se um tipo de amostra. 7.1- Amostra casual Simples A amostra casual simples é composta pro elementos retirados ao acaso da população. Então todo elemento da população tem igual probabilidade de ser escolhido para a amostra. Um exemplo ajuda a entender essa técnica da amostragem. Imagine que um professor quer obter uma amostra casual simples dos alunos de sua escola. Para isso, pode organizar um sorteio com fichas numeradas, de zero a nove. Para fazer o sorteio, o professor retira uma ficha de uma urna e anota o número. Esse número será o primeiro dígito do número do aluno que será sorteado para a amostra. Feito isso, o professor recoloca a ficha na urna, mistura, retira outra ficha e anota o número, que será o segundo dígito do número do aluno que será sorteado para a amostra. Esse procedimento deve ser repetido até que sejam retirados todos os dígitos do número do aluno sorteado. 12 7.2- Amostra Sistemática Na amostra sistemática os elementos são escolhidos não por acaso, mas por um sistema. No exemplo, o professor terá organizado uma amostra sistemática se, em lugar de sortear os alunos, chamar para amostra todo aluno com número terminado em determinado dígito. 7.3 – Amostras Estratificadas A amostra estratificada é composta por elementos provenientes de todos os estratos da população. No exemplo, se o professor considera que alunos de diferentes séries apresentam reais diferenças, cada série é estrato. O professor deve, então, obter uma amostra final estratificada. Devem ser obtidas amostras estratificadas sempre que a população for constituída por diferentes amostras, cada bairro é um estrato. Para obter uma amostra de pessoas dessa cidade, seria razoável obter uma amostra de cada bairro e depois reunir as informações numa amostra estratificada. Exemplo AMOSTRA DE SOLO. 7.4 - Amostra de conveniência A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. Então, se o professor tomar os alunos de sua classe como amostra de toda a escola, estará usando uma amostra de conveniência. Os estatísticos têm muitas restrições ao uso de amostras de conveniência. Mesmo assim, as amostras de conveniência são comuns na área de saúde, onde se fazem pesquisas com pacientes de uma só clínica ou de um só hospital. Mas ainda, as amostras de conveniência constituem, muitas vezes, a única maneira de estudar determinado problema. De qualquer forma o pesquisador que utiliza amostras de conveniência precisa de muito senso crítico. Os dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratação não de deve recorrer aos dados de um hospital . Como só são internados os casos graves, é possível que a mortalidade entre pacientes internados seja muito maior do que pacientes não-internados. Conseqüentemente, a amostra de conveniência constituída, neste exemplo, por pacientes internados no hospital , seria tendenciosa. Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer inferência, isto é estender os resultados da amostra para toda a população. Então é muito importante caracterizar bem a amostra apenas para a população de onde a amostra proveio. 3) Exercícios a) Os prontuários dos pacientes de um hospital estão organizados em um arquivo, por ordem alfabéticas. Qual é a maneira mais rápida de amostra 1/3 do total de prontuários? 13 b) Um pesquisador tem dez gaiolas que contêm, cada uma, seis ratos. Como o pesquisador pode selecionar dez ratos para uma amostra? c) Para levantar dados sobre o número de filhos por casal, em uma comunidade, um pesquisador organizou um questionário que enviou, pelo correio, a todas as residências. A resposta ao questionário era facultativa, pois o pesquisador não tinha condições de exigir a resposta. Nesse questionárioperguntava-se o número de filhos por casal morador na residência. Você acha que os dados assim obtidos têm algum tipo de tendenciosidade. d) Um pesquisador pretende levantar dados sobre o número de moradores por domicilio, usando a técnica de amostragem sistemática. Para isso, o pesquisador visitará cada domicilio selecionado. Se nenhuma pessoa estiver presente na ocasião da visita, o pesquisador excluirá o domicilio da amostra. Esta ultima determinação introduz tendenciosidade. Por quê? e) Muitas pessoas acreditam que as famílias se tornaram menores. Suponha que, para estudar essa questão, foi selecionada uma amostra de 2000 casais e perguntou-se quantos filhos eles tinham, quantos filhos tinham seus pais e quantos filhos tinham seus avós. O procedimento introduz tendenciosidade nos dados. Por quê? 6- Somatório A matemática fornece ainda outra noção de grande utilidade para estatística: o somatório. O operador somatório facilita sobremaneira a indicação e a formação de medidas, bem como algumas operações algébricas desenvolvidas pela estatística. Para designar somatório, utiliza-se a letra grega sigma maiúscula: . O símbolo deve ser lido como “somatório de” ou “soma de “. Assim, por exemplo, seja o seguinte conjunto de números: X ={3,6,9,12,15}. A soma desses números será indicada por: 5 1 451512963 i xi A expressão 5 1i ix deve ser lida da seguinte maneira: “somatório de ix , variando de 1 a 5”. Define-se, genericamente: 14 n n i i xxxxx ...321 1 O 1 e o n indicam, respectivamente, o limite inferior e o superior do somatório, representando o numero de ordem da primeira e da ultima parcela a serem somadas. Em um teste de matemática, aplicado em uma classe com 20 alunos, chegou-se aos seguintes resultados: 6 10 9 2 8 3 7 4 6 5 1 9 7 10 8 0 9 6 6 9 4)Calcular: 5 1 1 2 2 5 1 18 14 7 1 10 6 5 1 20 1 ) ) ) ) ) ) ) i i i i i i i i i i i i i xg xf xe xd xc xb xa Observação: A expressão i = {1,2,3,...,n} indica os valores assumidos pelo índice i, sendo lida da seguinte forma: “i variando de 1 até n”. 8.1- Propriedades dos somatórios Operar com somatório requer o conhecimento de algumas propriedades,regras e definições, as quais serão desenvolvidas aqui sob a designação genérica de propriedade dos somatórios. 1- O somatório de uma constante é igual ao produto do numero de termos pela constante: 15 n i anaaaaa 1 .... Exemplo: 5 1 2045444444 i x 2- O somatório do produto de uma constante por uma variável que depende do somatório é igual ao produto da constante pelo somatório da variável. n i i n i i xaax 11 n i inn n i i xaaxxxaaxaxaxax 1 2121 1 )...(... Tabela 1 ordem do valor, i Valor xi 1 3 2 6 3 9 4 12 5 15 3 – Propriedade distributiva do somatório em relação à adição algébrica n i i n i ii n i i yxyx 111 )( Exemplo: Tabela 2 Ordem do valor i xi yi xi + yi 1 3 2 5 2 6 4 10 3 9 6 15 4 12 8 20 5 15 10 25 45 5 1i ix 16 75)(3045 5 1 5 1 5 1 i i i i i i i yxyx 4 – O quadrado da soma é diferente da soma dos quadrados 2 2 1 i n i i xx Exemplos: Tabela 3 Ordem do valor i xi x²i 1 4 16 2 6 36 3 8 64 116643616 32418 3 1 2 2 2 3 1 i i i i x x 7- Séries Estatísticas 9.1- TABELAS Um dos objetivos da estatística é sistematizar os valores que uma variável podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. E isto ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos, quer irão nos fornecer rápidas e seguras informações a respeito das variáveis em estudos, permitindo-nos determinações administrativas e pedagógicas mais coerentes e cientificas. Tabelas é um quadro que resume um conjunto de observações. Uma tabela compõe-se de : a. CORPO – Conjunto de linhas e colunas que contêm informações sobre a variável em estudo; b. CABEÇALHO – Parte superior da tabela que especifica o conteúdo das colunas; c. COLUNA INDICADORA – Parte da tabela que especifica o conteúdo das linhas; d. LINHAS – Retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que inscrevem nos seus cruzamentos com as colunas; e. CASA OU CELULA – Espaço destinado a um só número; f. TÍTULO – Conjunto de informações, as mais completas possíveis, respondendo às perguntas: O que?, Quando?, Onde?, localizado no topo da tabela. 17 Cabeçalho Coluna Indicadora Rodapé Título Cabeçalho Coluna numérica Linhas Casa ou Célula Há ainda que considerar os elementos complementares da tabela, que são as fontes, as notas e as chamadas, colocados, de preferência, no seu rodapé. De acordo com a resolução 886 da Fundação IBGE, nas casas ou cédulas devemos colocar: Um traço horizontal (-) quando o valor é zero, não só quanto à natureza das coisas, como quanto ao resultado do inquérito; Três pontos (...) quando não temos os dados; Um ponto de interrogação(?) quando temos dúvida quanto a exatidão de determinado valor; Zero (0) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Se os valores são expressos em numerais decimais, precisamos acrescentar à parte decimal um número correspondente de zeros (0,0; 0,00; 0,000;...). -Séries Estatísticas Denominamos séries estatística toda tabela que apresenta a distribuição de um conjunto de dados estatístico em função da época, do local ou da espécie. Daí, podemos inferir que numa série estatística observamos a existência de três elementos ou fatores: o tempo, o espaço e a espécie. Conforme varie um dos elementos da série, podemos classificá-la em histórica, geográfica e especifica. 9.2-Séries históricas, cronológicas, temporais ou marchas Produção de Café Brasil - 1978-82 Anos Produção (1000 t) 1978 2.535 1979 2.666 1980 2.122 1981 3.750 1982 2.007 Fonte: IBGE. Corpo 18 Descrevem os valores da variável, em determinado local, discriminados segundo intervalos de tempo variável. Exemplo: Fonte: Associação nacional para difusão Adubos e Corretivos Agrícolas. 9.3-Séries Geográficas, espaciais, territoriais ou de localização Descrevem os valores da variável, em determinado instante, discriminados segundo regiões. Produção de fertilizantes fosfatados - Brasil 1985-89 Anos Quantidade (t) 1985 3.570.115 1986 4.504.201 1987 5.448.835 1988 4.373.226 1989 4.024.813 19 9.4-Séries específicas ou categóricas Descrevem os valores da variável, em determinado tempo e local, discriminados segundo especificações ou categorias. Rebanhos Brasileiros2002 Espécie Quantidade (1000 cabeças) Bovinos 139.599 Bubalinos 1.181 Eqüinos 5.855 Asininos 1.304 Muares 1.984 Suínos 32.121 Ovinos 20.085 Caprinos 11.313 Coelhos 909 Fonte: IBGE 9.5-Séries Conjugadas Tabela de Dupla Entrada Muitas vezes temos a necessidade de apresentar, em uma única tabela, a variação de valores de mais de uma variável, isto é, fazer uma conjugação de duas ou mais séries. Conjugando duas séries em uma única tabela, obtemos uma tabela de dupla entrada. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal (linhas) e uma vertical (Coluna). Exemplo: Telefones Instalados - 1998 - 2000 Região 1998 1999 2000 Norte 373.312 403.034 457.741 Nordeste 1440.531 1567.879 1700.467 Sudeste 8435.564 8867.432 8673.66 Sul 2106.145 2192.763 2282.581 Centro - Oeste 803.013 849.401 944.075 Total 13158.57 13880.51 14058.52 Fonte: IBGE 10- Distribuição de Freqüências 20 Na primeira parte de nossos estudos, ao demonstramos as formas de apresentação de dados numéricos, foi mencionada a apresentação tabular das séries estatísticas. Um das vantagens das tabelas estatísticas é a de condensar, de forma consistente, as informações necessárias ao estudo desejado. Isto porque, freqüentemente, o estudo de um determinado fenômeno requer a coleta de uma grande massa de dados numéricos, difícil de ser tratada se esses dados não forem organizados e condensados em uma tabela. No caso específicos das seriações, acontece normalmente que, ao coletar os dados referentes ao fenômeno objeto de estudo, o analista se defronta com valores que se repetem algumas vezes, sugerindo suas apresentações através de tabelas onde somente apareçam valores distintos uns dos outros. Essa providência favorece evidentemente uma análise e interpretação mais rápida da natureza e comportamento do fenômeno observado. 10.1-Dados Brutos Feita a coleta, os dados originais ainda não se encontram prontos para análise, por não estarem numericamente organizados. Por essa razão, costuma-se chamá-lo de dados brutos. Tornando-se, por exemplo, as alturas dos alunos em uma sala de aula e anotando-se os resultados em uma lista da qual constem os nomes dos alunos em ordem alfabética, ninguém garantirá que os valores correspondentes às alturas observarão uma determinada ordem numérica, crescente ou decrescente. Mais provável é que estejam desorganizados, uma vez que a ordem das alturas não corresponde necessariamente à ordem alfabética. A lista de alturas é, portanto, uma lista de dados brutos, que são aqueles valores a que se chegou pela simples coleta, sem qualquer preocupação quanto à sua ordenação. Na Tabela 2.1, estão relacionados os valores correspondentes ao consumo de energia elétrica, medido em quilowatts-hora, em um grupo de 50 usuários. Tabela 2.1 Consumo Mensal de Energia Elétrica, por 50 Usuário Particulares - KWH 58 62 80 57 8 126 136 96 144 19 90 86 38 94 82 75 148 114 131 28 66 95 121 158 64 105 118 73 83 81 50 92 60 52 89 58 10 90 94 74 9 75 72 157 125 76 88 78 84 36 Como pode ser observado, as criticas estão dispostas de forma desordenadas. Em razão disso, pouca informação se consegue obter inspecionando os dados anotados. Mesmo uma informação tão simples como a de saber os consumos máximos e mínimo requer um certo exame dos dados da tabela. 10.2-ROL 21 O rol é uma lista em que valores estão dispostos em uma determinada ordem, crescente ou decrescente. Dispondo os dados de acordo com o consumo, obtém-se uma ordenação da tabela 2.1 Tabela 2.2 Consumo Mensal de Energia Elétrica, por 50 Usuário Particulares - KWH 3 58 75 89 118 8 58 76 90 121 10 60 78 90 125 19 62 80 92 126 28 64 81 94 131 36 66 82 94 136 38 72 83 95 144 50 73 84 96 148 52 74 86 105 157 57 75 88 114 158 Essa classificação dos dados proporciona algumas vantagens concretas com relação à sua forma original. Em primeiro lugar, ela torna possível visualizar, de forma bem ampla, as variações de consumo, uma vez que os valores extremos são percebidos de imediato. Em segundo lugar , é possível observar se uma tendência de concentração dos valores na faixa de 50 – 90 KWH. apesar de o rol propiciar ao analista mais informações e com menos esforços de concentração do que os dados brutos, ainda assim persiste o problema de analise ter que se basear nas 50 observações individuais. O problema se agravará quando o número de dados for grande. As tabelas de freqüência são representações nas quais os valores se apresentam em correspondência com suas repetições, evitando-se assim que eles apareçam mais de uma vez na tabela, como ocorre com o rol. Uma empresa de instrumentos de precisão esta interessada em saber o número de aparelhos defeituosos rejeitados pela seção encarregada pelo controle da qualidade. As estatísticas, fornecidas Por seção, referem-se ao período de 1971-1974. Tabela 2.3 - Empresa x Número Mensal de Aparelhos Defeituosos Mês/Ano J F M A M J J A S O N D 1971 6 2 5 6 0 8 7 6 3 4 5 8 1972 10 9 7 6 3 4 6 4 5 4 0 1 1973 3 6 7 9 3 1 4 6 5 3 5 4 1974 7 2 5 8 6 4 2 5 1 6 5 2 Os dados brutos, apresentados na tabela 2.3, não informam muita coisa sobre o fenômeno “números de aparelhos com defeitos”, sendo difícil extrair deles muitas conclusões, sem esforços de concentração. Observa-se, entretanto, que os valores que constam da tabela aparecem repetidos, como o 0 (zero), por exemplo, que aparece duas 22 vezes. Esse fato irá sugerir, naturalmente, que condensem todos os resultados em uma tabela, estabelecendo a correspondência entre o valor individual e o respectivo número de vezes que ele foi observado. O número de observações ou repetições de um valor ou de uma modalidade, em levantamento qualquer, é chamado freqüência desse valor ou dessa modalidade. Uma tabela de freqüência é uma tabela onde se procura fazer corresponder os valores observados da variável em estudo e as respectivas freqüências. A tabela de freqüências proporciona uma apresentação esteticamente mais vantajosa dos dados, facilitando ainda a verificação do comportamento do fenômeno. É possível, por outro lado, com a utilização de uma tabela de freqüência, a obtenção de estatísticas (medidas) com menos calculo, e, conseqüentemente, em menos tempo do que se esse trabalho fosse realizado a partir dos dados brutos em classe. 10.3-Distribuição de Freqüência de Dados Tabulados Não – Agrupados em classe Utilizando os dados da tabela 2.3, é possível construir uma tabela de freqüências de valores não-agrupados em classe, ou seja, uma tabela onde os valores da variável aparecem individualmente. Este tipo de apresentação é utilizado para representar uma variável discreta ou descontinua. O exemplo é dado pela tabela 2.4. Tabela 2.4 - Empresa X Número Mensal de Aparelhos Defeituosos j Números de aparelhos com defeitos (xj) Contagem ou Tabulação Número de Meses (fi) 1 0 II 2 2 1 III 3 3 2 IIII 4 4 3 IIIII 5 5 4 IIIIIII 7 6 5 IIIIIIII 8 7 6 IIIIIIIII 9 8 7 IIII 4 9 8 III 3 23 10 9 II 2 11 10 I 1 11 1 48 j fi Na primeira coluna, encabeçada pelo índice j, aparecem os números correspondentes à ordem dos valores da variável. O índice j será utilizado, nesta apostila sempre que estiver trabalhandocom tabelas de freqüência (dados agrupados). Para operar com os dados brutos, usar-se-á o índice i. Na segunda coluna, encabeçada por xj, são anotados os valores da variável. A terceira coluna é uma coluna auxiliar, utilizada para que se possa processar a contagem dos valores repetidos, sem grande esforço. A última coluna, encabeçada por fj, apresenta as freqüências, que são os resultados numéricos provenientes da contagem. A soma das freqüências é sempre igual ao número total de valores observados: k j nfi 1 K é o extremo superior do intervalo de valores do índice j. Fj é o número de observações de um valor N é o número total de valores observados Normalmente, depois de construída, a tabela apresentará apenas as colunas encabeçadas por xj e fj. 10.4-Distribuição de Freqüências de Dados Agrupados em classes Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumir os dados originais em uma distribuição de freqüências, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes. Quando a variável objeto do estudo for continua, será sempre conveniente agrupar os valores em classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes. Neste último caso, o procedimento visa a evitar certos inconvenientes, como: a. Grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação dos resultados apurados. b. Aparecimento de diversos valores da variável com freqüência nula. c. Impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo, bem como a sua variação. 24 Um teste de estatística, contendo 100 perguntas do tipo certo-errado, foi aplicado em uma turma de 500 estudantes. A tabela 2.5 apresenta os resultados do teste. Tabela 2.5 Resultados do Teste de Estatística Classe Notas Freqüências (fi) 0 _ 10 5 10 _ 20 15 20 _ 30 20 30 _ 40 45 40 _ 50 100 50 _ 60 130 60 _ 70 100 70 _ 80 60 80 _ 90 15 90 _ 100 10 10 500 ij fj 10.5-Elementos de uma distribuição de Freqüências Para construir uma tabela de freqüência, é necessário conhecer alguns termos próprios e de uso corrente, bem como o procedimento técnico mais adequado. Esses termos serão listados a seguir. 10.6-Freqüência simples ou absoluta (fi) A freqüência simples absoluta de uma classe ou de um valor individual é o número de observações correspondentes a essa classe ou a esse valor. A freqüência simples absoluta, ou simplesmente freqüência, é simbolizada pela letra fi. Na tabela 5: F1 = 5 F2 = 15 F3 = 20 . nfi . . F10 = 10 Como vimos, a soma das freqüências simples é igual ao número total dos dados. 10.7-Freqüência relativa (fri) São os valores das razões entre as freqüências simples e a freqüência total: 25 fi fi fri Logo, freqüência relativa da terceira classe, em nosso exemplo da (tabela 2.5), é: %404,0 500 20 3 3 3 fr f f fr i Evidentemente 1fri ou 100% Nota: O propósito das freqüências relativas é o de permitir a análise ou facilitar as comparações. 10.8-Freqüência acumulada (Fai) É o total das freqüências de todos os valores inferiores ao limite superior do intervalo de uma dada classe: Fk = f1 + f2 + f3 + ... +fk Ou Fk = kif i ,...2,1 10.9-Freqüência acumulada relativa (fra%) É a freqüência acumulada da classe, dividida pela freqüência total da distribuição: i i f F Fri Exemplo Tabela 2.5.1 Resultados do Teste de Estatística Classe Notas Freqüências (fi) Freqüência Relativa (fri) Freqüência Relativa Percentual (%) Freqüência Acumulada (fai) Freqüência Relativa Percentual (%) 0 _ 10 5 0,01 1% 5 1% 10 _ 20 15 0,03 3% 20 4% 20 _ 30 20 0,04 4% 40 8% 30 _ 40 45 0,09 9% 85 17% 40 _ 50 100 0,2 20% 185 37% 50 _ 60 130 0,26 26% 315 63% 60 _ 70 100 0,2 20% 415 83% 70 _ 80 60 0,12 12% 475 95% 80 _ 90 15 0,03 3% 490 98% 90 _ 100 10 0,02 2% 500 100% 26 500 1 100% 11-Amplitude Total: At A amplitude total ou intervalo total é a diferença entre o maior e o menor valor observado da variável em estudo. Se, por exemplo, no teste que deu origem a tabela 2.5, a maior nota tivesse sido 97 e a menor 1, a amplitude total do conjunto de valores observados seria: At = 97 – 1 = 96 A amplitude total do exemplo da tabela 2.1, por outro lado, será: At = 158 – 8 = 150 12-Classe Classe de freqüência, ou, simplesmente, classe, é a cada um dos grupos, de valores em que subdivide a amplitude total do conjunto de valores observados da variável. Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice j). Na tabela 2.5: Classe 0 – 10 ou primeira classe (i = 1) Classe 80 – 90 ou nona classe (i = 9) O número de classes, em uma distribuição, é representado por k. É importante que a distribuição conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação se poderá extrair da tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüência nula e prejudicial à interpretação do fenômeno como um todo. Para determinar o número de classes há diversos métodos. A regra de sturges, um dos métodos, estabelece que o número de classes é igual a: K = n 10log3,31 onde K = número de classes N = número de observações Gerando como conseqüência de definição a tabela de Sturges Regra de Sturges n fj 3 -5 3 6 - 11 4 12 - 22 5 23 - 46 6 27 47 - 90 7 91 - 181 8 181 - 362 9 Exemplo: A) Se o número de observações for 500: N = 500 K = 1 + 3,3 log 500 Log 500 = 2,69897 K = 1 + ( 3,3 x 2,69897) = 1 + 8,906601 K = 9,906601 ou arredondando k = 10 B) Se n = 50 K = 1 + 3,3 log 50 K = 1 + (3,3 x 1,69897) = 1 + 5,606601 = 6,606601 K = 7 12.1-LIMITES DE CLASSES a) Limite Superior e Limite Inferior Os Limites de classe são seus valores extremos. A segunda classe do exemplo da tabela 2.5 tem como limites os valores 10 e 20. O valor 10 é denominado limite inferior ou limite mínimo de classe, enquanto o valor 20 é denominado limite superior. Os valores 0 a 100, por representarem, respectivamente, o limite inferior da primeira classe e o superior da última, são também denominados limite inferior e limite superior da distribuição. Para a construção de uma tabela de freqüências é muito importante a escolha dos limites das classes, de forma que seus pontos médios coincidam, tanto quanto possível com a concentração dos valores reais. Além disso, é recomendável que os limites de classe sejam representados por números inteiros. 12-2) Ponto médio de uma classe O ponto médio ou valor médio de classe é o valor que representa, para efeito de calculo de certamedidas. Na distribuição de freqüências com valores agrupados em classes, considera-se que os resultados incluídos em cada classe distribuem-se uniformemente por seu intervalo. Por essa razão, a escolha do ponto médio para representar todos os valores de uma classe é o procedimento mais coerente, uma vez que esse ponto, por suas características, deve ser eqüidistante dos limites de classe. Para obter o ponto médio de uma classe, basta acrescentar ao seu limite inferior a metade da amplitude do intervalo de classe. Esse procedimento pode ser adotado, qualquer que seja a representação tabular escolhida. Assim, por exemplo, o ponto médio da primeira classe da distribuição da tabela 2.5 será determinado como segue: Primeira classe: 0 – 10 28 Amplitude do intervalo: 10 Média do intervalo 5 2 100 Exemplo: Tabela 2.6 Classe fi Ponto médio(xi) 2,50 a 2,59 1 2,55 2,59 a 2,68 2 2,64 2,68 a 2,77 7 2,73 2,77 a 2,86 4 2,82 2,86 a 2,95 2 2,91 16 13-Roteiro para a elaboração de uma tabela de Frequencia com Dados Agrupados em classes Para a construção de uma tabela de freqüência, é conveniente adotar-se um roteiro que embora baseado em critérios relativamente arbitrários, facilita e torna mais operacional o trabalho de quem irá montar a tabela. O roteiro proposto consta dos seguintes passos: a) Lista de dados brutos que pode ou não ser transformada em rol. b) Encontrar a amplitude total do conjunto de valores observados At = Maior valor do Conjunto – Menor valor do Conjunto c) Escolher o número de classe (k). Alguns autores propõem que se escolha arbritariamente entre um mínimo de cinco e um máximo de vinte classes, ressaltando, todavia, que, quanto maior o número de observações, maior deverá ser o número de classes e vice-versa. Obs A tabela de sturges é uma possibilidade de utilização. d) Determinar a amplitude do intervalo de classe. A amplitude do intervalo de classe será igual ao quociente entre a amplitude total da série e o número de classes escolhido. Amplitude do Intervalo de Classe = k At Muitas vezes, ao efetuar a divisão acima, pode-se chegar a um resultado não muito conveniente, sob o aspecto de montagem das classes. Neste caso, convém arredondar o número correspondente ã amplitude do intervalo de classe a que se chegou para um número mais adequado, que facilite os cálculos (arredondamento arbitrário). e) Determinar os limites das classes, escolhendo-se preferencialmente números inteiros. 29 f) Construir a tabela de freqüência, conforme sugerido anteriormente. Exercícios 01) A tabela abaixo representa os salários pagos a 100 operários da empresa GLT & CIA. Determinar: a) Freqüência absoluta acumulada, freqüências simples relativa e freqüência acumulada. Número de salários mínimos Número de operários (fi) 0 _ 2 40 2 _ 4 30 4_6 10 6_8 15 8_10 5 Total 100 b) Quantos operários ganham até dois salários mínimos? c) Quantos operários ganham até 6 salários mínimos exclusive? d) Qual a porcentagem de operários com salários entre 6 e 8 salários mínimos? e) Qual a porcentagem de operários com salários inferior a 4 salários mínimos? f) Caracterize o tipo de tabela? 02) A Tabela de freqüência abaixo apresenta 4 falhas de construção. Quais são? classes (fi) 0 -|2 80 4 -|6 0 6 -|8 10 8 -|10 10 100 03) Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados municípios do Estado: Milímetros de chuva 144 152 159 160 160 151 157 146 154 145 141 150 142 146 142 141 30 141 150 143 158 Determine: a) Caracterize a variável utilizada. b) Determinar o número de classes pela regra de sturges. c) Construir a tabela de freqüência absoluta simples. d) Determinar as freqüências absolutas acumuladas. e) Determinar as freqüências simples relativas. f) Determinar as freqüências relativas acumuladas. g) Defina a tabela? 04) Os dados abaixo representam a distribuição de espessuras de 100 folhas de tabaco: 2,01 2,08 1,96 3,04 2,01 3,18 1,94 2,19 2,24 2,18 2,59 1,96 2,29 3,18 2,09 1,96 2,06 2,18 2,05 2,04 2,43 1,56 1,94 3,15 2,35 2,08 2,56 2,17 1,96 1,59 2,22 2,34 2,24 1,95 2,01 3,12 3,03 3,12 2,04 1,66 1,87 2,49 3,12 2,24 1,76 3,20 2,38 1,58 1,89 1,98 1,89 1,71 2,42 1,62 1,97 2,18 1,69 3,14 2,18 3,06 2,40 1,96 3,01 2,19 2,25 1,45 1,93 2,06 1,83 1,84 1,91 2,11 1,78 2,36 2,33 3,17 2,03 1,87 3,11 2,17 1,72 1,62 1,99 1,64 1,54 2,26 1,86 2,09 1,74 1,92 2,36 1,82 2,02 2,25 1,75 3,15 3,18 1,99 1,76 2,51 a) Construir o rol. b) Forme uma distribuição de freqüência com intervalos de classe. c) Construa a tabela com suas respectivas freqüências e ponto médio? 31 Apresentação Gráfica A apresentação gráfica é um complemento importante da apresentação tabular. A principal vantagem de um gráfico sobre a tabela prende-se ao fato de que ele permite conseguir uma visualização imediata da distribuição dos valores observados. Propiciam os gráficos uma idéia preliminar mais satisfatória da concentração e dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis. Por outro lado, os fatos essencias e as relações que poderiam ser difícieis de reconhecer em massas de dados estatístcos podem ser observados mais claramente através dos gráficos. Existem normas nacionais para a construção de gráficos, ditadas pela fundação IBGE. Assim, todo gráfico deve apresentar título e escala. O título pode ser colocado tanto acima como abaixo do gráfico. As escalas devem crescer da esquerda para a direita, e de baixo para cima. As legendas explicativas devem ser colocadas, de preferência, à direita do gráfico. 13) Gráficos de Barras O gráfico de barras é usado para apresentar variaveis qualitativas ou ordinais. Para fazer uma gráfico de barras, primeiro se traça o sistema de eixos cartesianos. Depois colocam-se, no eixo das abscissas ( ou das ordenadas ) as categorias da variavel em estudo. Em seguida, constroem-se barras retangulares com base no eixo das abscissas ( ou ordenadas ) e altura ( ou comprimento ) igual à frequência, ou a frequência. Observe os dados da tabela 1.1 estão apresentados em gráficos de barras na figura 1.1 Fonte: IBGE, Diretoria de pesquisa de Assistência Médico - Sanitária Tabela 1.1 Internações em estabelecimentos de saúde, por espécie de clinica - 1992 Espécie de clínica Freqüência Freqüência Relativa (%) Médica 6457.923 32,51(%) Ginecologia e Obstetrícia 3918.308 19,73(%) Cirurgia 3031.075 15,26 (%) Pediatria 2943.939 14,82(%) Outras 3.513.186 17,69(%) 32 Tipos de Curvas de Frequência Curvas de frequência aparecem, na prática, sob diversas formas características como as indicadas na figuras abaixo: 33 (a) Curvas de frequência simétrica ou em forma de sino. Caracterizam-se pelo fato de as observações equidistantes do ponto central máximo terem a mesma frequência. Um exemplo importante é a curva normal. (b) Nas curvas de frequência moderadamente assimétrica ou inclinadas, a cauda da curva de um lado da ordenada é mais longa do queoutro. Se o ramo mais alongado fica à direita, a curva é dita inclinada para a direita, ou de assimetria positiva, enquanto, se ocorre o inverso, diz-se que a curva é inclinada para a esquerda ou de assimetria negativa. (c) Na curva de frequência em forma de de J, ou J invertido, o ponto de ordenada máximas ocorre em uma das extremidades. (d) Uma curva de frequência em forma de U tem ordenadas máximas em ambas as extremidades. (e) Uma curva de frequência bimodal tem dois máximos. (f) Uma curva de frequência multimodal tem mais de dois máximos. Exemplo Tabela 1.2 Cães Adultos anestesiados e após laparotomia, segundo a pressão arterial, milímetros de mercúrio Classe Ponto Médio Freqüência 80_90 85 1 90_100 95 4 100_110 105 16 110_120 115 8 120_130 125 9 130_140 135 7 140_150 145 3 150_160 155 1 34 14) Medidas de Tendência Central Introdução O estudo que fizemos sobre a distribuição de frequência, até agora, permite-nos descrever, de modo geral, os grupos dos valores que uma variável pode assumir. Dessa forma, podemos localizar a maior concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no final, ou, ainda se há uma distribuição por igual. Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em confronto com outras, necessitamos introduzir conceitos que se expressem através de números, que permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribuição e são as: a. medidas de posição; b. medidas de variabilidade ou dispersão; c. medidas de assimetria; 35 d. medidas de curtose. Dentro os elementos típicos, destacamos, neste capítulo, as medidas de posição _ estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal(eixo das abscissas). As medidas de posição mais importantes são as medidas de tendência central que recebem tal denominação pelo fato de os dados observados tenderam, em geral, a se agrupar em torno dos valores centrais. Dentre as medidas de tendencia central. Destacamos: a. a média aritmética; b. a mediana; c. a moda As outras medidas de posição são as separatrizes, que englobam: a. própria mediana; b. os quartis; c. os percentis. 01) Média aritmética ( x ) Em um conjunto de dados, podemos definir vários tipos de médias, porém em nossos estudos iremos limitar às mais importantes: a média aritmética. Média aritmética é o quociente da divisão da soma dos valores da variável pelo número deles: n xi X sendo: x a média aritmética ix .os valores da variável; n. o número de valores 1.1) Dados não-agrupados Quando desejamos conhecer a média dos dados não-agrupados, determinamos a média aritmética simples. Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, temos para a produção média da semana. diaLx /14 7 98 7 12181615131410 36 As vezes, a média pode ser um número diferente de todos os da série de dados que ela representa. É o que acontece quando temos os valores 2, 3, 4, 7, e 9, para os quais a média é 5. Esse será o número representativo dessa série de valores, embora não esteja representado nos dados originais. Neste caso, costumamos dizer que a média não tem existência concreta. 1.2) Desvio em relação a média Denominamos desvio em relação à média a diferença entre cada elemento de um conjunto de valores e a média aritmética. Designamos o desvio por id , temos: xxd ii Para o exemplo dado anteriormente, temo: 21412 41418 21416 11415 11413 01414 41410 777 666 555 444 333 222 111 dxxd dxxd dxxd dxxd dxxd dxxd dxxd 1.3) Propriedades da média Propriedade 01 Soma algébrica dos desvios tomados em relação à média é nula: 0 1 k i id ex: 7 1i id = -4 + 0 + (-1) + 1 + 2 + 4 + (- 2) = 0 Propriedade 02 Somando-se (ou subtraindo-se) uma constante (c) a de todos os valores de uma variavél, a média do conjunto fica aumentada(ou dimuída) dessa constatnte: cxycxy ii Somando 2 a cada um dos valores da variável do exemplo dado, temos: 122 182 162 152 132 142 102 7 6 5 4 3 2 1 y y y y y v y 7 1i iy 16214 7 14201817151612 37 Propriedade 03 Multiplicando-se( ou dividindo-se) todos os valores de uma variável por uma constante ( c ), a média do conjunto fica multiplicada( ou dividida) por essa constante: cxycxy ii .. ou c x yy c x i i 2) Média aritmética Ponderada Às vezes, associam-se os números KXXX ,..., 21 a certos fatores de ponderação ou pesos kwww ,...,, 21 , que dependem do significado ou importância atribuída aos números. Nesse caso w wx www xwxwxw x k kk ... ... 21 2211 Exemplo: Se o exame final, em um curso, tem peso 3 e as provas correntes peso 1, e um estudante tem grau 85 naquele exame e 70 e 90 nas provas, seu grau médio é: 83 5 415 311 )85)(3()90)(1()70)(1( x 2.1) Dados agrupados 2.1.1. Sem Intervalos de classe Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para a variável o número de filhos do sexo masculino: Tabela 1.3 N* de Meninos fi 0 2 1 6 2 10 3 12 4 4 Total 34 Neste caso, com as frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula: i ii f fx x O modo mais prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aos produtos ii fx : 38 Tabela 1.4 N* de Meninos fi xifi 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 Total 34 78 Temos, então: 78ii fx e 34if Logo: 3,229,2 34 78 x f fx x i ii isto é 2,3 meninos Exercício 01 Complete o esquema para o cálculo da média da distribuição e identifique a média Temos: Tabela 1.5 xi fi xifi 1 2 2 2 4 3 6 4 8 5 3 6 1 Total= 39 2.1.2.) Com intervalos de classe Neste caso convencionamos que todos os valores incluidos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por meio da fórmula: i ii f fx x Ex. 01 Tabela 1.5 k Estaturas (cm) fi 1 150_154 4 2 154_158 9 3 158_162 11 4 162_166 8 5 166_170 5 6 170_174 3 40 Tabela 1.6 k Estaturas (cm) fi xi xifi 1 150_154 4 152 608 2 154_158 9 156 1404 3 158_162 11 160 1760 4 162_166 8 164 1312 5 166_170 5 168 840 6 170_174 3 172 516 Total = 40 6440 Como, neste caso: i ii i ii f fx x f fx 40 ,6440 Temos: 161 40 6440 x 40 Ex. 02 Intervalo fi fri(%) fa fra% Xi xifi 0.40 _ 3,4 10 25% 10 25% 1.9 19 3,4 _ 6,4 10 25% 20 50 4.9 49 6,4 _ 9,4 10 25% 30 75 7.9 79 9,4 _ 12,4 2 5% 32 80 10.9 21.8 12,4 _ 15,4 3 7.5% 35 87.5 13.9 41.7 15,4 _ 18,4 410% 39 97.5 16.9 67.6 18,4_21,40 1 2.50% 40 100 19.9 19.9 Total = 40 100% 298 45,7 40 298 : , 40 298 x temos f fx x f fx i ii i ii Exercício 02 01) Complete o esquema para o cálculo da média aritmética da distribuição de frequência: Tabela 2 Intervalo de Classe fi xi xifi 450_550 8 550_650 10 650_750 11 750_850 16 850_950 13 950_1050 5 1050_1150 1 TOTAL = Logo: ...... ... ... x 2.1.3.) Processo breve Com o intuito de eliminarmos o grande número de cálculos que às vezes se apresentam na determinação da média, empregamos o que denominamos processo breve ( em oposição ao processo usado anteriormente – processo longo), baseado em uma mudança da variável x por outra y, tal que: 41 h xx y ii 0 Onde x0 é uma constante arbitrária escolhida convenientemente dentre os pontos médios da distribuição – de preferência o de maior frequência. Fazemos essa mudança de variável, de acordo com a segunda e a terceira propriedades da média, ela resulta dimimuida de x0 e dividida por h; mas isso pode ser compensado somando x0 ã média da nova variável e, ao mesmo tempo, multiplicando-a por h. Resulta, então, a fórmula modificada: i ii f hfy xx 0 Assim, para a distribuição da tabela 1.5 tomando para o valor de x0 o ponto médio de maior frequência (se bem que podemos tomar qualquer dos valores do ponto médio), isto é: X0 = 160 Como h = 4, ( Intervalos de Classe) temos para valores da nova variável: 3 4 12 4 160172 2 4 8 4 160168 1 4 4 4 160164 0 4 0 4 160160 1 4 4 4 160156 2 4 8 4 160152 6 5 4 3 2 1 y y y y y y Vamos, então, calcular a média da distribuição da tabela 1.5 pelo processo breve. Começamos por completar a tabela dada com as colunas correspondentes aos pontos médios (xi), aos valores da nova (yi) e aos produtos yifi. k Estaturas (cm) fi xi yi yifi 1 150_154 4 152 -2 -8 2 154_158 9 156 -1 -9 3 158_162 11 160 0 0 4 162_166 8 164 1 8 5 166_170 5 168 2 10 6 170_174 3 172 3 9 Total = 40 10 Temos, então, cmx x vem f hfy xx dosubstituin h f fy x i ii i ii 161 1611160 40 410 160 : 4 40 10 160 0 0 Notas : processo breve, com a nova variável definida por nós, só pode ser usado em distribuições que apresentam intervalos de classe de mesma amplitude. O processo breve pode, também, ser aplicado para a distribuição sem intervalos de classe, bastando fazer h = 1 42 Resumo Fases para o cálculo da média pelo processo breve: a. Abrimos uma coluna para os valores xi. b. Escolhemos um dos pontos médios ( de preferência o de maior frequência para o valor x0. c. Abrimos uma coluna para os valores de yi e escrevemos zero na linha correspondente à classe onde se encontra o valor de x0; a sequência -1,-2,-3,…, logo acima do zero, e a sequência 1,2,3,…, logo abaixo. d. Abrimos uma coluna para os valores do produto yifi, conservando os sinais + ou -, e em sequida algebricamente esses produtos. e. Aplicamos a fórmula. Exemplo : Dados os dados abaixo. Faça uma tabela de distribuição de frequência, gráfico (histograma) e calcule a média dos valores. Rol 1,45 1,71 1,86 1,95 2,01 2,08 2,18 2,29 2,49 3,12 1,54 1,72 1,87 1,96 2,01 2,08 2,19 2,33 2,51 3,12 1,56 1,74 1,87 1,96 2,01 2,09 2,19 2,34 2,56 3,14 1,58 1,75 1,89 1,96 2,02 2,09 2,22 2,35 2,59 3,15 1,59 1,76 1,89 1,96 2,03 2,11 2,24 2,36 3,01 3,15 1,62 1,76 1,91 1,96 2,04 2,17 2,24 2,36 3,03 3,17 1,62 1,78 1,92 1,97 2,04 2,17 2,24 2,38 3,04 3,18 1,64 1,82 1,93 1,98 2,05 2,18 2,25 2,40 3,06 3,18 1,66 1,83 1,94 1,99 2,06 2,18 2,25 2,42 3,11 3,18 1,69 1,84 1,94 1,99 2,06 2,18 2,26 2,43 3,12 3,20 b) Amp= 3,20 - 1,45 = 1,75 c) K = 8 d)Int.de classe 1,75/8 = 0,22 e) Cálculo da média 5 22,0 210,3 8 4 22,0 288,2 7 3 22,0 266,2 6 2 22,0 244,2 5 1 22,0 222,2 4 0 22,0 22 3 1 22,0 278,1 2 2 22,0 256,1 1 y y y y y y y y 43 Portanto: 2046,22046,02 100 22,093 2 0 x fi hyif i xx Média = 2,2046 K Int. de Classe (fi) (fri%) (fa) (fra%) Xi yi yifi 1 1,45_1,67 9 9.0% 9 9% 1,56 2 1,67_1,89 14 14% 23 23% 1,78 3 1,89_2,11 31 31% 54 54% 2,00 4 2,11_2,33 17 17% 71 71% 2,22 5 2,33_2,55 11 11% 82 82% 2,44 6 2,55_2,77 2 2% 84 84% 2,66 7 2,77_2,99 0 0 84 84% 2,88 8 2,99_3,21 16 16% 100 100% 3,10 Total = 100 100.0% 12 93 Yi = diferença entre o intervalo médio e o de maior frequência, sobre os intervalos de classe. Yifi = Produto entre a frequencia simples e yi Emprego da média A média é utilizada quando: Desejamos obter a medida de posição que possui a maior estabilidade; Houver necessidade de um tratamento algébrico ulterior. 3) A Moda (MO) Denominamos moda o valor que ocorre com maior frequênciia em uma série de valores. Desse modo, o salário modal dos empregados de uma indústria é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa indústria. 3.1) Dados não – agrupados Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta, de acordo com a definição procurar o valor que mais se repete. A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 44 Tem moda igual a 10. Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que outros. É o caso da série: 3, 5, 8, 10, 12, 13 Que não apresenta moda (amodal). Em outros casos, ao contrário, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 Temos duas modas: 4 e 7 (bimodal) 3.2) Dados agrupados 3.2.1. Sem intervalos de classe Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior frequência. Na distribuição da tabela 1.3 abaixo, à frequência máxima (12) corresponde o valor 3 da variável. Logo: Mo = 3 Tabela 1.3 N* de Meninos fi 0 2 1 6 2 10 3 12 4 4 Total 34 45 3.2.2. Com intervalo de classe A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tornar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta Temos, então: 2 supinf ll Mo Assim, para a distribuição: Temos que a classe modal é k = 3, l* = 158 e L* 162. Tabela 1.5 k Estaturas (cm) fi 1 150_154 4 2 154_158 9 3 158_162 11 4 162_166 8 5 166_170 5 6 170_174 3 40 2 .sup.inf ll Mo cmMo Mo 160 160 2 320 2 162158 3.3) Fórmula Czuber para obtenção da moda Há, para o cálculo da moda, outros métodos mais elaborados, como, por exemplo, o que faz uso da fórmula de Czuber: * 21 1 inf h dd d lMo Na qual: 46 Limite inf. _ é o da classe modal; h* é a amplitude da classe modal; D1 = Frequência (anterior); D2 = frequência (Posterior). Sendo : F* a frequência simples da classemodal; F (ant) a frequência simples da classe anterior à classe modal; F(post) a frequência simples da classe posterior à classe modal. Assim, para a distribuição da tabela 1.5, temos: D1 = 11 – 9 = 2 e D2 = 11 – 8 = 3 Donde: Mo = 158 + 6,1596,1158 5 8 158 32 42 1584 32 2 Logo: Mo = 159,6 cm 3.3) As expressões gráficas da moda Na curva de frequência, a moda é o valor que corresponde, no eixo das abscissas, ao ponto de ordenada máxima. Assim, podemos ter: 47 Emprego da moda A moda é utilizada: Quando desejamos obter uma medida rápida e aproximada de posição; Quando a medida de posição deve ser o valor mais típico da distribuição. 4). A mediana (Md) A mediana é outra medida de posição definida como o número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem. Em outras palavras, a mediana de um conjunto de valores, ordenados segundo uma ordem de grandezas, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. 4.1) Dados não-agrupados Dada uma série de valores, como, por exemplo: 5, 13, 10, 2, 18, 15, 6,16,9 De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 2, 5, 6, 9, 10, 13,15, 16, 18 Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita e à esquerda. Em nosso exemplo, esse valor é o 10, já que, nessa série, há quatro elementos acima dele e quatro abaixo. Temos, então: Md = 10 Se, porém, a série dada tiver um número par de termos, a mediana será, por definição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto médio. Assim, a série de valores; 2, 6, 7, 10, 12, 13, 18, 21 Tem para mediana a média aritmética entre 10 e 12 logo: Verificamos que, estando ordenados os valores de uma série e sendo n o número de elementos da série, o valor mediano será: - o termo de ordem 2 1n , se n for ímpar; - a média aritmética dos termos de ordem 1 22 n e n , se n for par. Notas: - O valor da mediana pode coincidir ou não com um elemento da série, como vimos. Quando o número de elemntos da série é ímpar, há coincidência. O mesmo não acontece, porém, quando esse número for par. - A mediana e a média aritmética não têm, necessariamente, o mesmo valor. 48 - A mediana, como vimos, depende da posição e não dos elementos na série ordenada. Essa é uma das diferenças marcantes entre mediana e a média ( que deixa influenciar, e muito, pelos valores extremos). Esta propriedade da mediana pode ser constatada através dos exemplos a seguir: 2065,13,10,7,5 1015,13,10,7,5 x x md = 10 para os dois casos. 4.2) Dados agrupados Se os dados se agrupam em uma distribuição de frequência, o cálculo da mediana se processa de modo muito semelhante àquele dos dados não- agrupados, implicando, porém, a determinação prévia das frequências acumuladas. Ainda aqui temos que determinar um valor tal que divida a distribuição em dois grupos que contenham o mesmo número de elementos. Para o caso de uma distribuição, porém, a ordem, a partir de qualquer um dos extremos, é dada por: 2 fi 4.2.1) Sem intervalos de classe Neste caso, é o bastante identificar a frequência acumulada imediatamente superior ã metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal frequência acumulada. Tomemos a distribuição relativa à tabela 1.3, completando-a com a coluna correspondente ã frequência acululada: Tabela 1.3 N* de Meninos fi fa 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 34 Sendo: 17 2 34 2 fi A menor frequência acumulada que supera esse valor é 18, que corresponde ao valor 2 da váriavel, sendo este o valor mediano. Logo: Md = 2 meninos 49 Nota: - No caso de existir uma frequência acumulada (fa), tal que: 2 fi fa A mediana será dada por: 2 1ii xxmd , isto é, a mediana será aritmética entre o valor da variável correspondente a essa frequência acumulada e o seguinte. Exemplo: Tabela 1.4 xi fi fa 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 8 Temos: 34 2 8 fa logo: 5,15 2 31 2 1615 Md 4.2.2) Com intervalos de classe Neste caso, o problema consiste em determinar o ponto de intervalo em está compreendida a mediana. Para tanto, temos inicialmente que determinar a classe na qual se acha a mediana - classe mediana. Tal classe será, evidentemente, aquela correspondente à frequência acumulada imediatamente superior a 2 fi . Feito isso, um problema de interpolação* ( Interpolação é a inserção de uma determinada de valores entre dois números dados.) resolve a questão, admitindo-se, agora, que os valores se distribuam uniformemente em todo o intervalo de classe. Assim, considerando a distribuição da tabela 1.5, acrescida das frequências acumuladas: 50 Tabela 1.5 k Estaturas(cm) fi fa 1 150_154 4 4 2 154_158 9 13 3 158_162 11 24 4 162_166 8 32 5 166_170 5 37 6 170_174 3 40 40 Temos: 20 2 40 2 fi Como há 24 valores incluindo nas três primeiras classes da distribuição e como pretendemos determinar o valor que ocupa o 20* lugar, a partir do início da série, vemos que este deve estar localizado na terceira classe (k = 3) uniformenete distribuídas. Como há 11 elementos nessa classe e o intervalo de classe é igual a 4, devemos tomar, a partir do limite inferior, a distância: 4 11 7 4 11 1320 E a mediana será dada por: 54,16054,2158 11 28 1584 11 7 158Md Logo: Md = 160,5 cm Na prática, seguimos os seguintes passos: 1) Determinamos as frequências acumuladas. 2) Calculamos 2 fi 3) Marcamos a classe correspondente à frequnência acumulada imediatamente superior à 2 fi - classe mediana- e, em seguida, empregamos a fórmula: * *)( * 2 f hantfa lMd fi na qual: l* é o limite inferior da classe mediana; fa(ant) é a frequência acumulada da classe anterior à classe mediana; 51 f* é a frequência simples da classe mediana; h* é a amplitude do intervalo da classe mediana. 4.3) Emprego da Mediana: a- desejamos obter o ponto que divide a distribuição em partes iguais: b- há valores extremos que afetam de uma maneira acentuada a média; c- a variavél em estudo salário. 5) As separatrizes Como vimos, a mediana caracteriza uma série de valores devido à sua posição central. No entanto, ela apresenta uma outra caracteristica, tão importante quanto a primeira: ela separa a série em dois grupos que apresentam o mesmo número de valores. Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente,não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda caracteristica, já que se baseiam em sua posição na série. Essas medidas – os quartis, os percentis e os decis – são, juntamente com a mediana, conhecidas pelo nome genérico de separatrizes. 5.1) Os quartis Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto, três quartis: a. O primeiro quartil(q1) – Valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes
Compartilhar