Baixe o app para aproveitar ainda mais
Prévia do material em texto
COORDENADORIA DE MATEMÁTICA ESTATÍSTICA DESCRITIVA Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas Vitória - ES Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ CAPÍTULO I 1-UM BREVE HISTÓRICO Pesquisas arqueológicas indicam que há 3000 anos A.C. já se faziam censos na Babilônia, China e Egito. Até mesmo o 4º livro do Velho Testamento faz referência a uma instrução dada a Moisés, para que fizesse um levantamento dos homens de Israel que estivessem aptos para guerrear. Outro registro bíblico, informa que o Imperador César Augusto, ordenou que se fizesse o Censo de todo o Império Romano. Usualmente, estas informações eram utilizadas para a taxação de impostos ou para o alistamento militar. Contudo, mesmo que a prática de coletar dados sobre colheitas, composição da população humana ou de animais, impostos, etc., fosse conhecida pelos egípcios, hebreus, caldeus e gregos, e se atribuam a Aristóteles cento e oitenta descrições de Estados, apenas no século XVII a Estatística passou a ser considerada disciplina autônoma, tendo como objetivo básico a descrição dos BENS do Estado. As palavras censo e estatística, que são comumente usadas no trato das analises de dados estatísticos, tem origem no latin. Censo, que é derivado da palavra “censere”, significa taxar, e estatística, derivada de “status”, significa estado. Um fato histórico relevante do uso da estatística foi atribuído a Florence Nightingale (1820- 1910), conhecida por muitos como a fundadora da profissão de enfermeiro. Ela salvou milhares de vidas utilizando a estatística. Ao encontrar um hospital em más condições sanitárias e sem suprimentos, tratou de melhorar estas condições e passou a utilizar a estatística para convencer as autoridades da necessidade de uma reforma médica mais ampla. Ela elaborou gráficos para mostrar que durante a guerra da Criméia, morreram mais soldados em conseqüência das más condições sanitárias do que em combate. Florence Nightingale é considerada uma das pioneiras na estatística social e nas técnicas de utilização de gráficos estatísticos. JÁ no Brasil, só se pode falar realmente sobre estatística a partir do império,quando foi realizado o primeiro censo, em 1872, e mais precisamente com a fundação do IBGE em 1936 em que os levantamentos estatísticos ganharam regularidade e mais apoio do estado. Antes disto, no período colonial, a Coroa Portuguesa era quem determinava os levantamentos populacionais, 2 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ realizados precariamente, com o objetivo maior de "conhecer a população livre e adulta apta a ser usada na defesa do território". Atualmente, a estatística está consolidada com um poderoso instrumento da pesquisa cientifica através do desenvolvimento técnicas de coleta, organização e analise de dados, que estão se tornando cada vez mais sofisticadas com surgimento de poderosos softwares de tratamento de dados. 2–APLICAÇÕES Você já parou para pensar no quanto a Estatística está presente em vários aspectos de nosso cotidiano? Nas pesquisas que medem a popularidade dos políticos, na apuração de resultados de pesquisas e censos, na medição da audiência de um programa de televisão ou na análise dos indicadores econômicos. Em todas essas situações, a Estatística é necessária. Já nos estudos acadêmicos ela tem importância capital para validar as pesquisas nas diversas áreas do conhecimento, o que torna o seu estudo multidisciplinar: a mesma análise estatística de dados de um físico poderia também ser usado por um economista, agrônomo, químico, geólogo, matemático, biólogo, sociólogo psicólogo e cientista político. Mesmo que as interpretações dessas análises sejam diferentes devido as diferenças entre as áreas do conhecimento, os conceitos empregados, as limitações das técnicas e as conseqüências dessas interpretações são essencialmente as mesmas. 3- RAMOS DA ESTATÍSITICA De forma geral o estudo da Estatística se divide em três ramos: a Estatística Descritiva, que incluem técnicas que dizem respeito à síntese e a descrição de dados; a probabilidade, que incluem técnicas que analisam situações que envolvem o acaso e a inferência que incluem técnicas que dizem respeito a analise e a interpretação de dados amostrais. 4- A PESQUISA E A ESTATÍSTICA São inúmeros os conceitos sobre pesquisa. Vários estudiosos, nos diferentes campos do conhecimento humano estabelecem o significado desta palavra de acordo com o objetivo de seu estudo. Segundo o dicionário Aurélio, o conceito geral é: a investigação e estudo, minudentes e sistemáticos, com o fim de descobrir ou estabelecer fatos ou princípios relativos a um campo qualquer do conhecimento. 3 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 4.1. TIPOS DE PESQUISA Os critérios para a classificação dos tipos de pesquisa variam de acordo com o enfoque dado pelo autor, pois esta divisão obedece a interesses, condições, campos, metodologia, situações, objetivos e objetos de estudo. Neste trabalho vamos definir os seguintes tipos de pesquisa: 1) Pesquisa pura ou fundamental. É aquela que procura o progresso científico, ampliação de conhecimentos teóricos, sem a preocupação de utilizá-los na prática. Tem por meta o conhecimento pelo conhecimento. 2) Pesquisa aplicada. Como o próprio nome indica, caracteriza-se por seu interesse prático, isto é, que os resultados sejam aplicados ou utilizados, imediatamente, na solução de problemas que ocorrem na realidade. 4.2. CARACTERÍSTICAS DE UMA PESQUISA Para que uma pesquisa seja bem planejada e chegue a resultados satisfatórios é importante que obedeça algumas características básicas: - O procedimento deve ser sistematizado. - Explorações deve ser técnica, sistemática e exata. - Exploração deve ser lógica e objetiva. - Organização quantitativa dos dados. - Relato e registro meticuloso e detalhado da pesquisa. 4.3. FASES DA PESQUISA 1) Escolha do tema. Na escolha de um tema a ser pesquisado deve se levar em conta alguns aspectos: consonância com as aptidões do pesquisador, mereça ser investigado cientificamente e que tenha condições de ser formulado e delimitado em função da pesquisa. 2) Levantamento dos dados. Devem ser utilizados três procedimentos básicos: pesquisa documental, pesquisa bibliográfica e contatos diretos. 3) Formulação do problema. Definir um problema significa especificá-lo em detalhes precisos e exatos. Na formulação do problema deve haver clareza, concisão e objetividade. 4) Definição dos termos. Devem ser claros, compreensivos, objetivos e adequados. 5) Construção de hipóteses. A hipótese é uma proposição que se faz na tentativa de verificar a validade de resposta existente para um problema. A sua função na pesquisa científica é propor explicações para certos fatos e ao mesmo tempo orientar a busca de outras informações.4 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 6) Indicações de variáveis. Ao se colocar o problema e a hipótese, deve ser feita também a indicação das variáveis, que devem ser definidas com clareza e objetividade e de forma operacional. As variáveis (dados) estatísticas podem ser divididos me dois grupos: a) Qualitativos: que se distinguem por características não numéricas, tais com sexo, marca de um determinado produto, etc. b) Quantitativos: consistem em números que representam contagens ou medidas. Estes números podem ser divididos em dois grupos: os dados discretos, que resultam de um conjunto finito de valores, ou um conjunto enumerável destes valores, e os dados contínuos que resultam de um número infinito de valores possíveis, que podem ser associados a pontos em uma escala continua de tal maneira que não haja lacunas ou interrupções. Para facilitar o entendimento destes dois grupos de dados e só levar em consideração que os dados que representam contagem são discretos, e os que representam medida são contínuos. Assim, o número de alunos de uma determinada faculdade constituem dados discretos, já o peso destes alunos constituem um dado contínuo. 7) Delimitação da pesquisa. Após a escolha do assunto, o pesquisador pode decidir ou pelo estudo de todo o universo da pesquisa ou sobre uma amostra. Aqui vamos falar um pouco mais do que constitui um universo e uma amostra. Uma população estatística ou universo estatístico é a denominação que se da a todos os entes portadores de pelo menos uma característica comum. Assim, os estudantes, por exemplo, constituem uma população, pois apresentam pelo menos uma característica comum: são todos que estudam. Como em qualquer estudo estatístico temos em mente pesquisar uma ou mais características dos elementos de uma população, esta característica deve estar perfeitamente definida. E isto se dá quando: considerado um elemento qualquer, podemos afirmar, sem ambigüidades, se esse elemento pertence ou não à população. É necessário, portanto, existir um critério de constituição da população, válido para qualquer pessoa, no tempo ou no espaço. Na maioria das vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos as observações referentes a uma determinada pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos amostra. Assim uma amostra é um subconjunto finito de uma população. A estatística Indutiva tem por objetivos tirar conclusões sobre as populações, com base em resultados verificados em amostras retiradas dessa população. Mas, para as inferências serem corretas, é necessário garantir que a amostra seja representativa da população, ou seja, ela deve possuir a mesma característica básica da população, no que diz respeito ao fenômeno que desejamos pesquisar. É preciso, pois, que a amostra ou as amostras que vão ser usadas sejam obtidas por processos adequados. 5 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Na coleta de uma amostra, o pesquisador deve ficar atento para as técnicas de amostragem, que garanta quanto possível, o acaso na escolha. Desta forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o que garante à amostra o caráter de representatividade, pois nossas conclusões relativas à população vão ser baseadas nos resultados obtidos nas amostras dessa população. A seguir vamos descrever os principais tipos de amostragens; a) Amostragem casual ou aleatória simples Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, a amostragem casual ou aleatória simples, pode ser realizada numerando-se a população de um até n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer k números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra. b) Amostragem proporcional estratificada Muitas vezes a população se divide em sub-populações – estratos. Como é provável que a variável em estudo apresente, de estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio de elementos da amostra leve em consideração tais estratos. Assim, quando empregamos a amostragem proporcional estratificada, consideramos a existência dos estratos e obtemos os elementos da amostra proporcional ao número de elementos dos mesmos. Exemplo: Suponha que noventa alunos de uma turma, 54 sejam meninos e 36 sejam meninas. E desejamos estudar a variável estatura dos alunos dessa turma. Como a estatura é diferenciada para cada sexo, vamos então obter uma amostra proporcional estratificada, colhendo uma amostra de 10% da população. Sexo População 10% amostra M 54 4,5 100 5410 = x 5 F 36 6,3 100 3610 = x 4 Total 90 0,9 100 9010 = x 9 Tomando as informações da tabela acima, sorteiam-se aleatoriamente 5 alunos do sexo masculino e 4 alunos do sexo feminino, formando assim uma amostra proporcional estratificada de 10% da população. 6 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ c) Amostra sistemática Quando os elementos da população já estão ordenados não há necessidade de construir o sistema de referência. São exemplos: os prontuários médicos de um hospital, os prédios de uma rua, as linhas de produção etc. Nesses casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos sistemática. Exemplo: Suponhamos uma rua contendo novecentos prédios, dos quais desejamos obter uma amostra formada de cinqüenta prédios. Podemos, neste caso, usar o seguinte procedimento: como 18 50 900 = , escolhemos por sorteio casual um número de 1 a 18 (inclusive), que indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado fosse o 4, tomaríamos, pelo lado direito da rua, o 40 prédio, o 220, o 400 etc., até voltarmos ao início da rua pelo lado esquerdo. 8) Seleção métodos e técnicas. Os métodos e as técnicas a serem empregados em uma pesquisa cientifica podem ser selecionados desde a proposição do problema, da formulação das hipóteses de delimitação do universo ou amostra. A seleção instrumental metodológica está, portanto, diretamente relacionada com o problema a ser estudado, e a escolha dependerá dos fatores relacionados com a pesquisa. Tanto os métodos quanto as técnicas devem adequar-se ao problema ser estudado, e numa investigação em geral nunca se utiliza apenas um método e uma técnica, mas sim todos aqueles que forem necessários ou apropriados para um determinado caso. 9) Organização instrumental da pesquisa. na organização do material de pesquisa, dois aspectos tem que ser levados em consideração: Organização do material para a investigação e a organização de fatose documentos que o investigador vem acumulando no transcurso de seus estudos. 10) Teste de instrumentos e procedimentos. Numa pesquisa, nem sempre é possível prever todas as dificuldades e problemas que ocorreram e que envolva a coletas de dados, muitas vezes questionários, procedimentos ou instrumentos utilizados podem não funcionar bem, assim, a aplicação de um pré-teste poderá evidenciar possíveis erros e possibilitar a reformulação de falhas na elaboração da pesquisa. 7 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 4.4. EXECUÇÃO DA PESQUISA São as seguintes as fases de execução de uma pesquisa: 1) Coleta de dados. Etapa da pesquisa em que se inicia a aplicação dos instrumentos elaborados e das técnicas selecionadas, a fim de se efetuar a coleta dos dados previstos. 2) Elaboração (tratamento) dos dados. Após a coleta os dados são elaborados e classificados de forma sistemática, e devem seguir os seguintes passos: a) Seleção: Um exame minucioso dos dados a fim de detectar falhas ou erros, evitando informações confusas, distorcidas ou incompletas que podem prejudicar o resultado da pesquisa. b) Codificação: Técnica operacional utilizada para categorizar os dados que se relacionam mediante a uma codificação para transformá-los em símbolos para poderem ser tabelados e contados. c) Tabulação: Dispor os dados em tabelas, possibilitando maior facilidade na verificação das inter-relações entre eles. 3) Analise e interpretação dos dados. A analise de dados é uma tentativa de evidenciar as relações existentes entre o fenômeno estudado e outros fatores, já a interpretação é uma atividade intelectual que procura dar um significado mais amplo às respostas, vinculando- as a outros conhecimentos. 4) Apresentação dos dados. A apresentação dos dados se da por meio de tabelas, quadros, gráficos, etc. 5) Conclusões. É a última fase do planejamento e organização de uma pesquisa, que explica os resultados finais considerados relevantes. As conclusões devem ser vinculadas à hipótese de investigação, cujo conteúdo foi comprovado ou refutado. A exposição geral da pesquisa, desde o planejamento às conclusões, incluindo os processos metodológicos empregados, devem ser apresentados em um relatório final. 5-COMO ORGANIZAR OS DADOS ESTATÍSTICOS DE UMA PESQUISA Uma das formas de sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis, é apresentar esses valores em tabelas ou gráficos. 8 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 5.1- TABELAS COMPOSIÇÃO DE UMA TABELA De acordo com a Resolução 886 da Fundação IBGE, nas células deve colocar: • Um traço horizontal ( ) quando o valor é zero, não só quanto a natureza das coisas, como quanto ao resultado do inquérito; • Três pontos (…) quando não temos dados; • Um ponto de interrogação (?) quando temos dúvida quanto à exatidão de determinado valor; • Zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Se os valores são expressos em numerais decimais, precisamos acrescentar à parte decimal um número correspondente de zeros ( 0,0; 0,00; 0,000; ...). Alguns Exemplos de Tabela 5.5.1-TABELA DE DUPLA ENTRADA Excesso de tempo anual em congestionamento severo Computando as vias transversais (passageiro x h) CIDADE AUTOMÓVEL ÔNIBUS Belo Horizonte 6.063.141 40.536.342 Brasília 498.842 2.407.701 Campinas 3.507.658 2.452.520 Curitiba 2.819.055 2.366.449 FONTE: Revista dos Transportes Públicos 9 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 5.5.2-DISTRIBUIÇÃO DE FREQUÊNCIA Número de horas extras de 20 motoristas de uma Empresa no período de 30 dias HORAS EXTRAS NÚMERO DE MOTORISTAS 0 |---------- 10 2 10 |---------- 20 1 20 |---------- 30 5 30 |---------- 40 8 40 |---------- 50 4 Total 20 FONTE: Dados Fictícios Orientações básicas para a construção de uma tabela de distribuição de freqüência quando os dados são contínuos 1) Determinar o intervalo dos dados 2) Determinar o número K de classes, sobservaçõedenúmerok ≈ ,em geral, tomar o valor de k entre 5 e 15. 3) Calcular a amplitude de classe dividindo o intervalo por k (intervalo/k), fazendo o arredondamento conveniente. 4) Certificar-se de que k vezes a amplitude é maior do que o intervalo, para evitar que valores extremos sejam excluídos. 5) Estabelecer limites de classe, rever os limites, que devem tocar-se, mas não se interceptar. 6) Distribuir os dados, determinando com que freqüência, eles aparecem dentro de cada classe. 7) Rever a distribuição de forma a evitar que uma determinada classe tenha freqüência zero. Exemplo: Os dados a seguir correspondem a estatura, em cm, de uma amostra de 40 alunos de uma determinada escola: 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Construindo uma tabela de distribuição de freqüência para estes dados temos: 10 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 1) Determinar o intervalo de dados, amplitude total: AT=173 – 150 = 23 2) determinar o número de classe k = 40 , considere o valor de k= 6 pois é o inteiro mais próximo. 3) Determinar a amplitude de classe 6 23 == k ATh , considere h = 4 que é o inteiro mais próximo 4) Verificar se todos os dados estão incluídos AThk ≥. , ou seja 234.6 ≥ 5) Construir a tabela i ESTATURAS (cm) FREQÜENCIA FREQUÊNCIA RELATIVA 1 150|------154 4 0,100 2 154|------158 9 0,225 3 158|------162 11 0,275 4 162|------166 8 0,200 5 166|------170 5 0,125 6 170|------174 3 0,075 Total 40 1,000 5.2- GRÁFICO É uma forma de apresentação de dados cujo objetivo é o de produzir no investigador ou no publico em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries. Alguns exemplos; 11 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 5.2.1-GRÁFICO DE LINHAS Fonte: Folha de São Paulo 5.2.2-GRÁFICO EM COLUNAS 12 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 5.2.3- GRÁFICO EM BARRAS MULTIPLAS 5.2.3-GRÁFICO DE SETORES 13Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 5.3.4-GRAFICO POLAR 5.3.5-PICTOGRAMA 14 PRECIPITAÇÃO PLUVIOMÉTRICA(mm) EM RECIFE -1993 20 70 120 170 220 270 320 janeiro fevereiro março abril maio junho julho agosto setembro outubro novembro dezembro Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 5.3.6-HISTOGRAMA, POLIGONO DE FREQÜÊNCIA E CURVA DE FREQÜÊNCIA. Quando os dados estatísticos estão distribuídos em classe podemos utilizar três tipos de gráficos para representar os dados: 1) HISTOGRAMA É um gráfico de colunas que retrata a distribuição de freqüência. Ele relaciona as classes com as suas respectivas freqüências. i ESTATURAS (cm) FREQUÊNCIA Ponto médio de classe (xi) Freqüência calculada( ifc ) 1 150|------154 4 152 4,25 2 154|------158 9 156 8,25 3 158|------162 11 160 9,75 4 162|------166 8 164 8 5 166|------170 5 168 5,25 6 170|------174 3 172 2,75 Total 40 15 150 154 158 162 170166 174 Estatura freqüência 4 9 11 8 5 3 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 2) POLIGONO DE FREQÜÊNCIA É um gráfico que relaciona os pontos médio classe com as freqüências. 3) CURVA DE FREQÜÊNCIA A curva de freqüência é uma curva suavizada do polígono de freqüência. Para eliminar os “bicos“ do polígono de freqüência fazemos o cálculo de uma outra freqüência, chamada freqüência calculada, que leva em consideração a influência das classes vizinhas, através do cálculo da média ponderada. 4 2 postiant i fff fc ++ = 16 152 156 160164 168 Estatura freqüência 4 9 11 8 5 3 172 152 156 160 164168 Estatura Freqüência calculada 4,25 8,25 8 5,25 2,75 172 9,75 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Obs: O polígono de freqüência nos informa a situação real do fenômeno estudado, enquanto a curva de freqüência informa a tendência do fenômeno. 6- MEDIDAS RELACIONADAS COM AS VARIÁVEIS QUANTITATIVAS 6.1.SOMATÓRIO Consideremos a seguinte soma indicada : 0 + 2 + 4 + 6 + 8 + 10 + 12 + 14 + ... + 100. Podemos observar que cada parcela é um número par e portanto pode ser representada pela forma 2n, neste caso, com n variando de 0 a 50. Esta soma pode ser representada abreviadamente por: ∑ = 50 0 2 n n , que se lê: “somatório de 2n com n variando de 0 a 50”. A letra grega ∑ , que é o esse maiúsculo grego (sigma), é o sinal de somatório e é usada para indicar uma soma de várias parcelas. Em ∑ = n i a 1 1 a letra i é denominada índice do somatório (em seu lugar, pode figurar qualquer outra letra) e os valores 1 e n, neste caso, são denominados, respectivamente, limites inferior e superior. 6.1.1-Número de parcelas de um somatório 17 Seja },,,,{ 321 naaaa um conjunto de n números reais, o símbolo ∑ = n i a 1 1 representa a sua soma, isto é n n i aaaa +++=∑ = 21 1 1 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 6.1.2-Propriedades de um somatório 1) Somatório de uma constante 2) Somatório do produto de uma constante por uma variável 3) Somatório de uma soma algébrica 4) Separação do último termo 5) Separação do primeiro termo 18 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 6) Avanço dos limites 6.2 PRODUTÓRIO ∏ i=1 n X i=X 1. X 2. X 3 ... X n 6.2.1 Propriedades do produtório 1) ∏ i=1 n b=b.b.b...b=bNT , sendo NT o número de termos do produtório 2) ∏ i=1 n cX i=cX 1 .cX 2.cX 3 ...cX n=c ˙ ∏ i=1 n X i 3) ∏ i=1 n X i Y˙ i=X 1Y˙ 1. X 2Y˙ 2 . X 3 Y˙ 3 ...X n y˙n= X 1 .X 2 .X 3 ... X N ˙Y 1 .Y 2 .Y 3 ...Y N =∏ i=1 n X i ˙ ∏ i=1 n Y i 4) ∏ i=1 n i=1.2.3...n=n! 5) log ˙ ∏ i=1 n X i=log X 1 . X 2 . X 3... X n=log X 1logX 2log X 3....log X n=∑ i=1 n logX i ∀ X i0 19 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 6.3- MEDIDAS DE POSIÇÃO As medidas de posição, também chamadas de tendência central, constituem um procedimento para a redução de dados estatísticos expressados por valores que se encontram situados entre os extremos de uma série ou distribuição. Normalmente estas medidas tendem a se aproximar do centro da distribuição. As três medidas mais comuns são: a média, a mediana e a moda. 6.3.1-A MÉDIA A média é a medida estatística mais popular e, portanto, mais usada na interpretação de dados. A média tem certas propriedades matemáticas interessantes e úteis, o que explica a sua maior importância como medida de tendência central. Na figura a seguir ilustramos a média, em um histograma, como o centro de conjunto de dados, no sentido de que é o ponto de equilíbrio dos mesmos. Os tipos de média mais utilizada são: a média aritmética, a média geométrica e a média harmônica. Cada uma com especificidade para determinado tipo de dado. 1) Média aritmética Dos tipos de média a aritmética é a mais utilizada, em todo o resto deste texto será chamada simplesmente de média. A média de um conjunto de valores é o valor obtido somando-se todos eles e dividindo-se o total pelo número de valores. n x X i∑= , onde xi representa o valor da variável i, e n é o número de vezes que ela aparece. Exemplo: Calcular a média dos seguintes dados: 20, 80, 40, 60, 50 50 5 6050408020 = ++++ =X 20 Média Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Quando os dados estão tabulados, calcula-se a média utilizando a fórmula ∑ ∑ = i ii f xf X , fi é freqüência da variável xi . Criam-se as colunas, xi que representa o ponto médio de cada classe, que é o representante de todos os valores dentro da classe, e ii xf produto da freqüência pelo ponto médio de classe. Exemplo: A tabela abaixo corresponde a estatura de 40 alunos de umadeterminada escola. Calcular a estatura média destes alunos. i ESTATURAS (cm) FREQUÊNCIA xi ii xf 1 150|------154 4 152 608 2 154|------158 9 156 1404 3 158|------162 11 160 1760 4 162|------166 8 164 1312 5 166|------170 5 168 840 6 170|------174 3 172 516 Total 40 6440 cm f xf x i ii 161 40 6440 === ∑ ∑ Média Ponderada: Quando as observações têm importâncias diferentes. i 1 1 x variávelda peso o é onde; in i i n i ii w w xw x ∑ ∑ = = = Exemplo: Um professor divide os 100 pontos da avaliação semestral de sua disciplina usando o seguinte critério: uma avaliação individual valendo 40 pontos, um trabalho em grupo valendo 20 pontos , um seminário valendo 25 pontos e um trabalho individual valendo 15 pontos. Qual a média final de um aluno que recebeu as seguintes notas: avaliação individual 85, trabalho em grupo 75, seminário 70 e trabalho individual 65. 25,76 100 1565257020754085 = ⋅+⋅+⋅+⋅ =x 21 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Propriedades da média aritmética a) A média de um conjunto de números pode sempre ser calculada. b) Para um conjunto de dados a média é única. c) A média é sensível a todos os valores do conjunto. Assim, se um valor se modifica a média também se modifica. d) Somando-se ou subtraindo-se uma constante a cada valor de um conjunto de dados, a média ficará aumentada ou subtraída desse valor. ∑ i=1 n X i±k n = ∑ i=1 n X i±∑ i=1 n K n = ∑ i=1 n X i n ± ∑ i=1 n K n = X±nK n = X±K e) Multiplicando-se ou dividindo-se uma constante a cada valor de um conjunto de dados, a média fica multiplica ou dividida por essa constante. ∑ i=1 n KX i n =K ˙ ∑ i=1 n X i n =K X f) A soma algébrica dos desvios em relação a média é nula d i=X i− X ∑ i=1 n d i=∑ i=1 n X i− X =∑ i=1 n X i−∑ i=1 n X=n X−n X=0 g) A soma do quadro dos desvios em relação à media é minima, isto é SQD=∑ i=1 n X i− X 2 é mínimo seja f c =∑ i=1 n X i−c 2=∑ i=1 n X i 2−2c ˙ ∑ i=1 n X i∑ i=1 n c2=nc22 ˙ ∑ i=1 n X ic∑ i=1 n X i 2 f(c) é uma função do segundo grau na variável “c” e com concavidade voltada para cima pois n>0. Então essa função passa por um mínimo e a abscissa desse mínimo é: cmin= −2 ˙ ∑ i=1 n X i −2n = ∑ i=1 n X i n = X como essa função está no seu ponto mínimo quando c= X temos que SQD=∑ i=1 n X i− X 2 é um mínimo. 22 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 2) Média Geométrica A média geométrica deve ser usada para o cálculo da média de séries cujos elementos se apesentam segundo uma progressão geométrica ( como exemplo a média de populações, lindices de custo de vida, juros compostos etc.) ou que revelem elementos “muito grande” comparativos com os demais, como por exemplo 18, 20 22, 24 e 850, onde a média geométrica é aproximadamente igual a 43,8, resultado que não foi tão influenciado pelo valor 850. A principal inconveniência da média geométrica, consiste no fato de ela ser grandemente influenciada pelos elementos “pequenos” de uma série. n n i iG XX ∏ = = 1 Quando os dados estão distribuídos em freqüência X G= ∑ i=1 n f i∏i=1 n X i f i Exemplo: Determine o fator de crescimento médio para uma aplicação, composta à taxas anuais de juros de 10%, 8%, 9%, 12% e 7%. O fator de crescimento para cada ano será: 1,10; 1,08; 1,09; 1,12 e 1,07 Fator de crescimento médio= 09,107,112,109,108,110,15 =⋅⋅⋅⋅ 3) Média Harmônica A média harmônica é particularmente recomendada para calcular a média de um conjunto de dados que constituem uma série de valores que são inversamente proporcionais. Obtém-se a média harmônica dividindo-se o número n de valores pela soma dos inversos de todos os valores. ∑ = i H x nX 1 23 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Exemplo: Um carro, no trajeto em entre Vitória e Cachoeiro, faz a viagem de ida com uma velocidade média de 60Km/h e a volta com a velocidade média de 80Km/h. Determinar a velocidade média para a viagem de ida e volta. hkmXmédiavelocidade H /57,68 80 1 60 1 2 = + == 6.3.2 – Mediana A mediana é o valor central de um conjunto ordenado de dados, ela divide o conjunto em dois grupos iguais, 50% dos valores menores ou igual mediana e 50% dos valores maiores ou iguais à mediana Processo para calcular a mediana 1) Para dados não agrupados Inicialmente ordenam-se os dados em ordem crescente ou decrescente Para um número impar de valores a mediana é o valor: 2 1+= nxMe , onde n é o número de dados. b) Para um número par de valores, a mediana é a média dos valores do meio. 2 1 22 + + = nn xx Me , onde n é o número de dados. Exemplo: Calcular a mediana do seguinte conjunto de dados: 20 50 40 30 60 65 80 45 90 70 Valores ordenados: 20 30 40 45 50 60 65 70 80 90 55 2 6050 2 1 22 = + = + = + nn xx Me 2) Quando os dados estão distribuídos em classe (agrupados) calcula-se a mediana usando os seguintes procedimentos. 24 Classe da mediana Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Exemplo: Determinar a mediana dos dados correspondentes a 40 alunos de uma determinada escola. i ESTATURAS (cm) FREQUÊNCIA Fi 1 150|------154 4 4 2 154|------158 9 13 3 158|------162 11 24 4 162|------166 8 32 5 166|------170 5 37 6 170|------174 3 40 Total 40 1) Cria-se uma coluna Fi chamada freqüência acumula, esta freqüência determina o posicionamento dos valores dentro da distribuição. Na tabela observamos que existem 32 estaturas entre 150cm e 166cm, 13 estaturas entre 150cm e 158cm, e assim por diante. Uma observação importante é que na tabela de distribuição de freqüência os dados já estão ordenados 2) Determina-se em que classe a mediana está. Na tabela temos 20 2 40 2 == ∑ if . A mediana ocupa a 20ª posição, estando, portanto, na 3ª classe. 3) Numa tabela de freqüência há uma perda de informação a respeito dos dados originais, sabemos que a mediana é um valor que está entre 158cm e 162cm. Para recuperamos um valor para a mediana vamos estimar que existem 11 variáveis na 3ª classe eqüidistantes um da outra. cmM e 54,16011 47158 =⋅+= Usando o mesmo raciocínio podemos desenvolver a seguinte fórmula para o cálculo da mediana 158 162 Mediana 13ª posição 20ª posição 11 4 25 Estatística Descritiva Oscar Luiz Teixeira de RezendeRony Cláudio de Oliveira Freitas __________________________________________________________________ * )( * 2 i ant i i f hF f Me ⋅ − += ∑ * il - Limite inferior da classe mediana. * if - Freqüência simples da classe mediana. F(ant) – freqüência acumulada da classe anterior a classe mediana. h – amplitude da classe mediana. Aplicando a fórmula vem: cmh f antF f lMe i i i 54,16054,2158411 1320158 )( 2 * * =+= − += − += ∑ 6.3.3- Moda A moda é a medida estatística que aparece com maior freqüência. Exemplo: Determina a moda dos dados a seguir: 20 30 50 40 40 60 40 90 80 80 40=Mo Obs: A moda, não necessariamente é única. Um conjunto de dados pode ter duas, três, quatro, ... ou até nenhuma moda. Quando os dados estão distribuídos em classe, pode-se atribuir o valor da moda como sendo o ponto médio da classe de maior freqüência. No exemplo anterior a moda seria então 160cm. No entanto este tipo de moda não leva em consideração a instabilidade nas fronteiras das classes, onde estão as variáveis que com pequenas modificações da amplitude do intervalo, tendem a migrar para as classes vizinhas. Foi pensando nesta instabilidade que se desenvolveu uma fórmula para o cálculo da moda, levando em consideração as freqüências das classes vizinhas. A figura a seguir representa uma parte do histograma de uma distribuição, em que são representadas: a classe de maior freqüência (que contém a moda) e as classes vizinhas. 26 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Os triângulos PQT e RST são semelhantes, então: h DD Dx xh x D D 21 1 2 1 + =⇒ − = Como xM io += , temos: h DD DM io 21 1 + += h DD DlMo i . 21 1* + += posti anti ffD ffD −= −= * 2 * 1 Exemplo: Determinar a moda dos dados representados na tabela anterior. Primeiro determina-se o classe em que a moda está, ou seja a classe de maior freqüência, e sem seguida aplica-se a fórmula cmh DD DlMo i 6,1596,11584)811()911( 911158. 21 1* =+=⋅ −+− − += + += 27 Q D 1 D 2 P R freqüência x h-xT M o S i Classes Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Neste caso a moda foi um pouco menor que o ponto médio de classe. Esta diferença se deve ao fato da classe anterior à classe modal ter uma freqüência maior que a da classe superior, arrastando a média para um valor um pouco abaixo do centro da classe. 6.3.4- Separatrizes Medida estatística que separam os dados em grupos que apresentam o mesmo número de valores. Exemplo: Mediana: Separa os dados em dois grupos que apresentam o mesmo número de valores . Quartis: separa os dados em quatro grupos que apresentam o mesmo número de valores. Decis:separa os dados em dez grupos que apresentam o mesmo número de valores. Percentis: separa os dados em cem grupos que apresentam o mesmo número de valores. Para calcular as separatrizes podemos adaptar a fórmula da mediana generalizando para o cálculo de um percentil k qualquer. * )( * 100 i ant i ik f hF fk P ⋅ − += ∑ Observação: Para calcular o quartil 3 temos: Q3 = P75 Exemplo: Calcular o 20P dos dados da tabela anterior. Primeiro é preciso determinar a classe onde está o 20P 8 100 4020 = x , ocupa a 8ª posição ou seja está na classe 2. cmP 78,15578,11544 9 4815420 =+= − += 28 kP K% (100-K)% Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ A interpretação do percentil é a seguinte: 20% das estaturas estão abaixo de 155,78cm enquanto que 80% estão acima. 6.4-MEDIDAS DE DISPERSÃO OU VARIABILIDADE Nas análises de dados, alem da informação quanto ao “meio” de um conjunto de dados, é conveniente dispor também de uma medida para avaliar a dispersão, ou seja, se os valores estão relativamente próximos uns aos outros. Imagine uma pesquisa em três residências a respeito do consumo de água durante o período de 5 dias e os resultados estão apresentados na tabela a seguir: CONSUMO (1000 LITROS) TOTAL RESIDÊNCIA A 1,0 2,0 1,5 2,5 3,0 10,0 RESIDÊNCIA B 0,5 3,0 4,0 1,5 1,0 10,0 RESIDÊNCIA C 1,0 2,0 0,3 2,7 4,0 10,0 Observe que o consumo médio das três residências foi o mesmo, diax /2000 5 10000 == , no entanto, uma observação rápida e visual indica que a residência C teve um consumo mais diferenciado a cada dia se comparada às outras, ou seja um consumo menos estável. É exatamente este tipo de informação que as medidas de dispersão fornecem numa análise de dados. As principais medidas de dispersão serão estudadas a seguir. 6.4.1- Intervalo ou amplitude Diferença entre o maior e o menor valor em um grupo de dados Exemplo: Determinar o intervalo do conjunto de dados: 12, 20, 3, 2, 15, 17. 18220 =−=AT No exemplo das residências temos: Amplitude relativa ao consumo de água da residência A é 2.000 litros, o da residência B é 3500 litros e o da residência C é 3700 litros. Obs. A amplitude não é considerada uma boa medida de dispersão pois só leva em consideração os extremos do intervalo, não sendo sensível a todo conjunto de dados. 29 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 6.4.2-Desvio Médio Absoluto n xx DMA i∑ − = No conjunto de dados 12, 20, 3, 2, 15, 17 , temos 50,11 6 69 ==x . O desvio relativo ao valor 12 é 0,5, ou seja 5,05,11121 =−=d . A interpretação deste valor é que 12 esta a 0,5 pontos acima da média. Já o desvio relativo ao valor 2 é 5,950,1124 −=−=d , o que significa que 2 está a 9,5 pontos abaixo da média. Como a média dos desvios sempre será zero, uma forma de captar a dispersão dos dados é calcular a média dos valores absolutos dos desvios. Exemplo: Calcular o desvio médio absoluto dos dados 12, 20, 3, 2, 15, 17. 6 |5,1117||5,1115||5,112||5,113||5,1120||5,1112| −+−+−+−+−+− =DMA 6 5,55,35,95,85,85,0 6 |5,5||5,3||5,9||5,8||5,8||5,0| +++++ = ++−+−++ =DMA 0,6 6 36 ==DMA Como sugestão, calcule o desvio médio absoluto relativo ao consumo de água nas três residências apresentadas na tabela anterior e compare os resultados. 6.4.3- Variância A variância é também uma medida que capta a variabilidade de um conjunto de dados, e é definida como a soma dos quadros dos desvios dividido pelo número de observações menos um. Para representar a variância usaremos a letra 2s . ( ) 1 2 2 − − = ∑ n xx s i Exemplo: Calcular a variância do conjunto de dados: 12, 20, 3, 2,15, 17. 30 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 5 )5,1117()5,1115()5,112()5,113()5,1120()5,1112( 2222222 −+−+−+−+−+− =s 50,55 5 25,3025,1225,9025,7225,7225,0 5 )5,5()5,3()5,9()5,8()5,8()5,0( 2222222 = +++++ = ++−+−++ =s Quando os dados estão associados a alguma unidade de medida o valor da variância será na unidade de medida ao quadrado. No caso do consumo de água de uma residência, se os dados estão em litros à variância estará em litros ao quadrado, o que em muitos casos dificulta a interpretação. Para facilitar os cálculos e evitar que sejam feitas muitas aproximações dos desvios apresentamos uma outra fórmula para o cálculo da variância. )1()(2])(2[)( que Temos 221 222 equaçãoxxxxxxxxxx iiii ∑ ∑∑∑∑ +−=++=− )2()(22 que temos,22 como 2equaçãoxnxxxnxexxxx iiii ∑∑ ∑∑ === )3()()( como 22 quaçãoexnx∑ = Substituindo em (1) os valores de (2) e (3) vem: 2 222222 i 2 i )()()(2x)(x ∑ ∑∑∑∑ −=−=+−=− n x nxxnxxnxnx iii ( ) 111 )( 2 2 2 2 2 2 − − = − − = − − = ∑ ∑∑ ∑∑ n n x x n n x nx n xx s i i i i i ( ) 1 2 2 − − = ∑ ∑ n n x x s i i Quando os dados estão tabelados e são apresentados em associação com a freqüência em que eles aparecem, podemos adaptar a fórmula anterior para: ( ) ∑ ∑ ∑ ∑ − − = 1 2 2 2 i i i ii f f x xf s 31 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 6.4.4- Desvio Padrão A medida de dispersão mais usada nas analises de dados é o desvio padrão,e o seu cálculo e feito extraindo a raiz quadrada da variância. ( ) 1 2 − − = ∑ n xx s i ou ainda ( ) 1 2 2 − − = ∑ ∑ n n x x s i i Da mesma forma que a variância podemos adaptar a fórmula quando os dados estão associados a uma freqüência ( ) 1 1 2 12 − − = ∑ ∑ ∑ ∑ i i f f x xf s i Exemplo: Calcular o desvio do conjunto de dados: 12, 20, 3, 2, 15, 17. Como já calculamos anteriormente a variância como 50,552 =s o desvio padrão será: 45,750,55 ==s Como sugestão calcule o desvio padrão do consumo de água das três residências na tabela anterior e compare os resultados. Em muitas situações praticas é necessário fazer uma estimativa para ao desvio padrão e uma sugestão de alguns autores especializados é estimar o desvio padrão como sendo um quarto da amplitude. 4 amplitudes = O ideal mesmo é calcular o desvio padrão, pois como sabemos, a amplitude só leva em consideração os extremos de um conjunto de dados. Exemplo: Calcular o desvio padrão, correspondente as estaturas de um grupo de 40 alunos de uma determinada escola, apresentados na tabela a seguir Calcular o desvio padrão dos dados a seguir: 32 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ i ESTATURAS (cm) FREQUÊNCIA ( )if xi ii xf 2ii xf 1 150|------154 4 152 608 92416 2 154|------158 9 156 1404 219024 3 158|------162 11 160 1760 281600 4 162|------166 8 164 1312 215168 5 166|------170 5 168 840 141120 6 170|------174 3 172 516 88752 Total 40 6440 1038080 Observem que na tabela foi acrescentada a coluna 2ii xf para ajudar nos cálculos e utilizar a fórmula associada com as freqüências que os dados são apresentados cms 64,580,312592125952 39 40 64401038080 2 ==−= − = 6.4.5- Coeficiente de variação C.V.%= s X ˙100 Note que coeficiente de variação é expresso em porcentagem, ele é útil para comparar a variabilidade de diferentes conjuntos de valores. Exemplo: Desejamos analisar a variabilidade das notas de matemática de duas turmas, a turma A e a Turma B. Foram calculadas a média e o desvio podrão de cada turma: X A=7,5 , sA=1,6 e X B=7,9 e sB=2,3 . Qual das duas turmas apresentou maior variabilidade nas notas? C.V.A= 1,6 7,5 ˙100=21,33% e C.V.B= 2,3 7,9 ˙100=29,11% Concluímos que a turma B tem uma maior variabilidade nas notas pois o seu coeficiente de variação é maior. 33 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 6.5- INTERPRETAÇÃO A RESPEITO DA MÉDIA E DO DESVIO PADRÃO Quando a distribuição de um conjunto de dados se aproxima de uma distribuição normal, ou seja, a curva de freqüência tem o formato de um sino, valem as seguintes regras empíricas para estes dados. • Cerca de 68% destes dados estão a menos de 1 desvio padrão a contar da média. • Cerca de 95% destes dados estão a menos de 2 desvio padrão a contar da média. • Cerca de 99,7% destes dados estão a menos de 3 desvio padrão da média. OBS: As medidas estatísticas apresentadas nesse capítulo estão calculadas tendo como referencia uma amostra, que tem como norma a representação pelas letras do nosso alfabeto. No caso das medidas calculadas tendo como referencia uma população, a representação será com letras do alfabeto Grego. Além disso, na variância populacional, a SQD será divido por n. ( ) n xxi∑ − = 2 2σ e n xi∑ =µ 7- BOXPLOTS O Boxplot é um resumo esquemático usado para descrever as características mais proeminentes de um conjunto de dados que incluem: centro, dispersão, extensão e a natureza de qualquer desvio em relação à simetria e a identificação de outliers, observações que normalmente esta distantes da maior parte dos dados. Como apenas um outlier pode afetar drasticamente os valores da média e do desvio-padrão um boxplot é baseado em medidas “resistentes” à presença de alguns outliers. Para traçar um boxplot precisamos calcular o valores máximo e mínimo de um conjunto de dados, assim como mediana, primeiro quartil e terceiro quartil. Exemplo: Considere o seguinte conjunto de dados: 40 52 55 60 70 75 85 90 90 92 94 94 95 98 100 115 125 125 34 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ O resumo dos cinco medidas segue: Min xi=40 Q1=72,5 Me=90 Max x i=125 Q3=96,5 O boxplot é esquematizado a a seguir: 7.1- Outliers Para detectar a presença de outliers, são usados os seguintes critérios: 1) O valor de uma variável x i é considerada um outliers moderado se: Q1−3,0 f x iQ1−1,5 f ou Q31,5 f xiQ33,0 f , sendo f =Q3−Q1 2) O valor de uma variável x i é considerada um outliers extremo se: x iQ1−3,0 f ou x iQ 33,0 f , sendo f =Q3−Q1 Exemplo: Identificar a existência ou não de outliers e traçar o boxplot dos dados a seguir 5,3 8,2 13,8 74,1 85,3 88,0 90,291,5 92,4 92,9 93,6 94,3 94,8 94,9 95,5 95,8 95,9 96,6 96,7 98,1 99,0 101,4 103,,7 106,0 113,5 Os indica relevantes são: Min xi=5,3 Q1=90,2 Me=94,8 1,5 f =9,75 Max x i=113,5 Q3=96,7 f =96,7−90,2=6,50 3,0 f =19,50 Dessa foram, qualquer observação menor que 90,2-9,75=80,45 ou maior que 96,75+9,75=106,5 é um outlier. Há um outlier extremidade superior da amostra e quatro na extremidade inferior. Como 90,2-19,5=70,7, as três observações 5,3; 8,2 e 13,8 são outliers 35 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ extremos, enquanto 74,1 e 113,5 são outliers moderado.7.2 Boxplots comparativos Um boxplot comparativo ou lado a lado é uma forma muito eficiente de revelar semelhanças e diferenças entre dois ou mais conjunto de dados constituindo de observações da mesma variável. Exemplo: Os dados a seguir correspondem as notas de estatística de duas turmas: Turma A: 6,0 7,0 8,0 9,0 5,0 6,5 7,5 8,7 5,5 6,0 5,5 Turma B: 2,0 3,0 9,0 5,0 10,0 7,0 8,0 4,0 9,5 3,5 2,0 A seguir está esquematizado o boxplot comparativo da varável nota de estatística na duas turma A e B. Observe que a turma B apresentou um dispersão maior que a a turma A, pois a distância entre os quartis 1 e 3 é maior. 36 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 8 -REGRESSÃO E CORRELAÇÃO A regressão e a correlação são duas técnicas estritamente relacionadas que envolvem uma forma de estimação. Mais especificamente, a analise de correlação e regressão compreende a análise de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a outra numa população. O nosso objetivo será o estudo de situações que envolve duas variáveis. O coeficiente de correlação é um número que resume o grau de relacionamento entre duas variáveis. A analise de regressão tem como resultado uma equação matemática que descreve o relacionamento entre as variáveis. Esta equação pode ser usada para estimar valores futuros de uma variável quando se conhecem ou supõem conhecidos valores da outra variável. Uma regressão linear, constitui uma tentativa de estabelecer uma equação matemática linear que descreve o relacionamento entre duas variáveis. Duas importantes características da equação linear são: o coeficiente angular “a” e o coeficiente linear “b” da reta. Uma equação linear tem a forma y = ax + b e a seguinte representação gráfica: x ya ∆ ∆ = O processo mais simples para verificar se duas variáveis se relaciona em situações que aproximam de um modelo linear, consiste em plotar estas variáveis e verificar se uma relação linear parece razoável. 37 x x∆ b y∆ y Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 8.1. Coeficiente de correlação linear O instrumento empregado para medir a correlação linear é o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis x e y , e, ainda , o sentido dessa correlação (positivo ou negativo). O coeficiente de correlação que usaremos é o coeficiente de correlação de Pearson, que é dado por: ( )( ) ( ) ( )∑ ∑ ∑∑ ∑ ∑∑ −− − = ]][[ 2222 yynxxn yxxyn r onde n é o número de observações. Assim para tirarmos algumas conclusões significativas sobre o comportamento simultâneo das variáveis analisadas temos as seguintes situações: Se r = 1, a correlação entre duas variáveis é perfeita e então positiva Se r=-1, a correlação entre duas variáveis é perfeita e então negativa Se r=0, não correlação entre as variáveis. Se 1||6,0 ≤≤ r , há uma correlação significante entre as variáveis. Se 6,0||3,0 ≤≤ r , há uma correlação relativamente fraca entre as variáveis. Se 3,0||0 << r , a correlação é muito fraca e praticamente, nada podemos concluir sobre a relação entre as duas variáveis em estudo. 38 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 8.2.Regressão O método mais usado para ajustar uma linha reta a um conjunto de pontos é conhecido como o técnica dos quadrados mínimos. Os valores de a e b para a reta y = ax + b que minimiza a soma dos quadrados mínimos são as soluções das chamadas equações normais: ∑ ∑ ∑ ∑ ∑ += += )()( )( 2 xbxaxy nbxay onde n é o número de observações. donde tiramos que: xay n xay b xxn yxxyn a −= − = − − = ∑ ∑ ∑ ∑ ∑ ∑∑ 22 )()( ))(()( Exercícios A tabela abaixo relaciona o número de moradores por residência e o consumo mensal de água em uma amostra de dez residências de uma determinada cidade. Nº Número de moradores Xi Consumo (1000 litros) Yi XiYi Xi2 Yi2 01 2 20 02 3 30 03 4 35 04 2 25 05 5 35 06 6 35 07 3 20 08 4 15 09 5 30 10 6 40 ∑ 1) Completar a tabela. 2) Determinar o coeficiente de correlação: 39 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ ( )[ ] ( )[ ] =−− − = ∑ ∑∑ ∑ ∑ ∑ ∑ 2222 YYnXXn YXXYn r 3)Classificar a correlação 4) Construir o diagrama de dispersão Fazer a analise de regressão linear é descrever, através de um modelo matemático da forma y=ax+b , a relação entre as duas variáveis. 5) Determinar o valor de a: ( )∑ ∑ ∑ ∑ ∑ − − = 22 XXn YXXYn a = 6) Determinar o valor de b: XaYb −= = Escrever a equação de regressão: Y= aX +b =......................... Traçar no diagrama de dispersão do item 4 o gráfico da equação de regressão Estime qual deverá ser o consumo de água de uma residência que tem 3 moradores. 40 Y X Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 9-EXERCÍCIOS 1. Uma loja vende cinco produtos básicos A, B, C, E. O lucro por unidade comercializada destes produtos vale respectivamente $200,00; $300,00 $500,00 $1.000,00; $5.000,00. A loja vendeu em determinado m6es 20, 30, 20, 10 e 5 unidades respectivamente. Qual foi o lucro médio por unidade comercializada por esta loja? 2. O desvio padrão pode ser zero? Explique. 3. Calcule a média e a variância e desvio padrão para os seguinte conjunto de dados, supondo que eles representem: 83, 92, 100, 57, 85, 88, 84, 82, 94, 93, 91, 95 4. Qual seria o efeito sobre a média de um conjunto de números se adicionasse 10: a) a um dos números. b) a cada um dos números 5. Para duas emissões de ações ordinária de um industria eletrônica, o preçomédio diário, no fechamento dos negócios, durante um período de um mês, para as ações A, foi de R$150,00 com desvio padrão de R$5,00. Para as ações B, o preço médio foi de R$50,00 com desvio padrão de R$3,00. Nessas condições qual ação teve o seu preço mais estável nesse período? 6. Os dados a seguir correspondem a vida útil em horas de duas marcas diferentes de ferramentas de corte em um processo industrial Marca A: 123 120 100 25 50 70 100 25 60 47 Marca B: 70 90 85 90 80 82 90 70 85 88 a) Determine a vida útil média, mediana e o desvio padrão de cada uma das diferentes marcas. b) Se você fosse comprar ferramentas, qual das duas marcas você compraria? Porque? 41 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 7. Uma população encontra-se dividida em três estratos, com tamanho, respectivamente n1=40, n2=100 e n3=60. Sabendo que, ao ser realizada uma amostragem estratificada proporcional, nove elementos da amostra foram retirados do 3º estrato, determine o número total de elementos da amostra. 8. Um banco selecionou ao acaso 25 contas de pessoas físicas em uma agência, em um determinado dia, obtendo os seguintes saldos em dolares: 52.500,00 18.300,00 35.700,00 43.800,00 22.150,00 6.830,00 3.250,00 17.603,00 35.600,00 7.800,00 16.323,00 42.130,00 27.606,00 18.350,00 12.521,00 25.300,00 31.452,00 39.610,00 22.450,00 7.380,00 28.800,00 21.000,00 14.751,00 39.512,00 17.319,00 Agrupe, por freqüência, estes dados. A tabela abaixo corresponde a notas de estatística atribuídas a 44 alunos da turma A de uma determinada Faculdade . CLASSES notas fi Fi fci Xi fi.Xi fixi2 1 0 |----- 2 5 5 2 2 |----- 4 13 24 3 4 |----- 6 27 70 4 6 |----- 8 30 5 8 |----- 10 44 126 TOTAL 246 Complete a tabela acima e: a) Construa o Histograma. b) Construa e a curva de freqüência. c) Determine o percentual de alunos que conseguiram notas entre 2e 6. d) Determine a média das notas. e) Calcular a nota modal. f) O professor determinou que os alunos que conseguiram nota inferior a mediana, farão uma prova de recuperação. Qual é a nota mediana? g) O professor determinou que o grupo formado pelos alunos que obtiveram as 10% melhores notas irão ajudar na recuperação do grupo alunos que obtiveram as 15% piores notas. Determinar a nota mínima que estabelece as 10% melhores notas e a nota máxima que estabelece as 15% piores notas. 42 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ h) Calcular o quartil 3. i) Calcular a variância e o desvio padrão. j) Se o professor errou a nota de três alunos, tendo que acrescentar 0,5 pontos a cada nota, qual será a nova média da turma? k) Se um aluno tirou uma nota 2,5, esta nota poderá ser considerada normal nesse contexto? l) Qual o percentual de alunos que tiraram notas superiores a 5,5? 10.Um grupo de 85 moças tem estatura média de 160,6 cm com desvio padrão igual a 5,79cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm sendo o desvio padrão igual à 6,01 cm. Qual o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo? 11.Um produtor mediu o tempo (em minutos) de uso diário da Internet por seus assinantes. Com os dados obtidos construí-se o seguinte histograma: a) Que porcentagem do total de assinantes fica entre meia hora e uma hora e meia na rede b) Qual a média, a mediana e a moda do tempo de uso da internet? c) Construa a curva de freqüência d) Calcular o desvio-padrão de tempo de usa da internet. e) Calcular Q1 e P70 f) Calcular o percentual de assinantes que usam mais de 130 minutos de internet diariamente. 12.Observando os dados da tabela abaixo: 43 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ a) Agrupe os dados relativos à telefonia fixa em classes de amplitude 6, a partir de 6. Em seguida, calcule a média e o desvio padrão dos dados agrupados. b) Agrupe os dados relativos à telefonia móvel em classes de amplitude 6 a partir de 3. Em seguida, calcule a média e os desvio padrão dos dados agrupados. c) Suponha que, num levantamento posterior, cada valor da tabela relativo à telefonia fixa tenha aumentado 15% e, para a telefonia móvel, esse aumento tenha sido de 10%. Admita, ainda, que os limitantes de cada intervalo dos itens anteriores tenham aumentado na mesma proporção. Quais serão, então, a nova média e a nova variância das variáveis em questão? 13.Os dados a seguir representam o número de passageiros que viajaram sem o pagamento de passagem, em uma determinada linha de ônibus urbano, num período de 40 dias, entre as 8 e 9 horas da manhã. 0 1 0 2 3 0 0 1 2 3 5 5 0 1 1 2 3 5 5 1 2 1 5 0 1 2 2 3 5 1 1 1 0 0 0 2 2 5 5 2 Pede-se: Construir uma tabela de distribuição de freqüência. 44 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ a) Traçar o histograma. b) Calcular a Média. c) Calcular a Moda. d) Calcular a Mediana. e) Quartil 1 f) Calcular o desvio padrão. g) Se em um determinado dia 7 passageiros não pagaram passagem, este resultado poderá ser considerado normal neste contexto? 14.Numa classe com 20 alunos as notas do exame final podiam variar de 0 a 100 e a nota mínima para aprovação era 70. realizado o exame, verificou-se que oito alunos foram reprovados. A média aritmética das notas desses oitos alunos foi 65, enquanto a média dos aprovados foi 77. Após a divulgação dos resultados, o professor verificou que uma questão havia sido mal formulada e decidiu atribuir 5 pontos a mais para todos os alunos. Com essa decisão, a média dos aprovados passou a ser 80 e a dos reprovados 68,8. a)Calcule a média aritmética das notas das notas da classe toda antes da atribuição dos cinco pontos extras. b)Com a atribuição dos cinco pontos extras, quantos alunos, inicialmente reprovados, atingiram nota para aprovação? 15.Certa empresa, estudando a variação de demanda de seu produto em relação à variação de preço de venda, obteve a tabela: Preço (X) 38 42 50 56 59 63 70 80 95 110 Demanda (Y) )(yi) 350 325 297 270 256 246 238 223 215 208 Determine o coeficiente de correlação. a) Estabeleça a equação da reta ajustada. b) Estime Y para X =60 e X=120 A tabela abaixo representa a produção de uma industria: ANOS 1980 1981 1982 1983 1984 1985 1986 1987 1988 QUANTIDA DE (t) 34 36 36 38 41 42 43 44 46 Calcule: a) O coeficiente de correlação; Sugestão: par simplificar os cálculos, use para o tempo um variável auxiliar, por exemplo X’ = X –1984 b) A resta ajustada; c) A produção estimada para 1989 45 Estatística Descritiva Oscar Luiz Teixeira de RezendeRony Cláudio de Oliveira Freitas __________________________________________________________________ CAPÍTULO 2 Estatística com OpenOffice 1.Planilhas Eletrônicas Planilhas eletrônicas são Softwares concebidos prioritariamente para se efetuarem cálculos que envolvam variáveis. Com elas podem-se utilizar várias funções matemáticas, com destaque para aquelas relacionadas com cálculos e representações de funções, Estatística e Matemática Financeira. Hoje, são várias as possibilidades de escolha de planilhas eletrônicas, desde as pagas, como o Excel da Microsoft, até as de uso livre, como o OpenOffice. Apesar do primeiro ser, sem dúvida, o mais conhecido e utilizado, seja em aplicações domésticas ou em empresas, o segundo destaca-se pela sua eficiente qualidade, pela similaridade com o Excel e, principalmente, por ser gratuito e, por esse fato, foi o escolhido para ser utilizado neste trabalho. 2.Trabalhando com o OpenOffice O OpenOffice é um programa de planilha eletrônica, desenvolvido pela Sun Microsystems Inc. e aperfeiçoado por usuários de várias comunidades espalhadas pelo mundo que roda em várias plataformas, Windows e Linux entre outras. Nos últimos anos, assim como todas as aplicações informáticas, tem passado por aperfeiçoamentos e ajustes visando maior usabilidade e aproveitamento do desenvolvimento dos computadores. Neste material utilizaremos o BrOffice.org 2.0, desenvolvido por FILHOCFFILHOCF com base no OpenOffice.org.. Não há, neste trabalho, a pretensão de oferecer um curso de OpenOffice, somente serão mostrados recursos básicos que possam auxiliar as aplicações de Estatística básica. Assim, serão mostradas, sempre em forma de aplicações, estratégias para o trabalho com: construção de tabelas com dados simples e agrupados por classes, construção de gráficos de colunas e de setores, construção de histogramas, construção de box-plot e regressão linear. 46 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ O ambiente de trabalho Figura 1. A área de trabalho do Microsoft OpenOffice 2.2. As funções no OpenOffice São várias as formas de inserção de funções (operações matemáticas) no OpenOffice, entre elas: a) Utilizando os menus ou submenus selecionados na Barra de menus, clicando com o mouse, ou recorrendo a teclas de atalho. 47 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Figura 2. Criação de função pelo menu Inserir b) Clicando no ícone correspondente da linha de entrada. Figura 3. Criação de função pelo ícone c) Simplesmente digitando = dentro da célula selecionada e escolhendo uma função entre a lista que será apresentada. Figura 4. Criação de função pela caixa de nome 48 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Nos dois primeiros casos será aberto o quadro Assistente de Funções que apresenta uma série de funções para serem escolhidas. As funções estão classificadas por categoria conforme mostrado a seguir: Figura 5. A caixa assistente de função Para cada categoria escolhida, o menu apresenta as diferentes funções, bem como uma breve descrição da função escolhida e da sua sintaxe. Após a seleção da função desejada, você poderá digitar a fórmula no quadro Fórmula ou clicar em Próximo para que os argumentos necessários sejam inseridos. Após a inserção, basta clicar em OK. Figura 6. Argumentos da função 49 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Cabe lembrar que, a partir do momento que a forma de escrita e posicionamento dos diversos elementos estiverem incorporadas pelo usuário, estes comandos poderão ser digitados diretamente na célula, o poupando, assim, de ter que passar por todas estas etapas. Bastará, então, digitar o sinal de igualdade (=) para que o OpenOffice entenda que é uma função e, em seguida, inserir os comandos. Esta inserção poderá ocorrer tando diretamente na célula quanto na linha de entrada. Figura 7. Inserção de função diretamente na célula 3.Construção de tabelas Para compreendermos o processo de construção de tabelas de dados com o auxílio do OpenOffice é necessário que separemos as variáveis em dois grupos: 1º grupo – as variáveis qualitativas e as quantitativas discretas e 2º grupo – as quantitativas contínuas. Vamos realizar os estudos a partir de exemplos práticos. 3.1 Grupo (variáveis qualitativas e variáveis quantitativas discretas) As variáveis tratadas nesse grupo são aquelas que não exigem agrupamentos de dados. Vamos observar como seria construída uma tabela para representar os seguintes resultados de uma pesquisa: 50 Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ 3.1.1.Freqüência absoluta A freqüência absoluta é calculada com o auxílio da função CONT.SE. Esta função calcula a quantidade de células, dentro de um intervalo, que contenham um parâmetro desejado. Este parâmetro pode ser um número, uma palavra, uma expressão, etc. 51 Retorna o número de elementos que atendem a determinados critérios dentro de um intervalo de célula. Sintaxe CONT.SE(intervalo;critérios) Intervalo é o intervalo ao qual os critérios deverão ser aplicados. Critérios indica os critérios na forma de um número, uma expressão ou uma seqüência de caracteres. Esses critérios determinam quais células serão contadas. Você também pode inserir um texto de pesquisa na forma de uma expressão regular, por exemplo, "b.*" para todas as palavras que começam com b. Também é possível indicar um intervalo de células que contém o critério de pesquisa. Se você quiser pesquisar um texto literal, coloque o texto entre aspas duplas. CONT.SE Estatística Descritiva Oscar Luiz Teixeira de Rezende Rony Cláudio de Oliveira Freitas __________________________________________________________________ Acompanhe as instruções a seguir: 3.1.2.Freqüência relativa Para se calcular a freqüência relativa há a necessidade de introduzir a função SOMA. Esta função soma uma seqüência de valores numéricos ou uma série de números isolados. Será utilizada para totalizar as freqüências absolutas. 52 Adiciona todos os números em um intervalo de células. Sintaxe SOMA(número1; número 2; ...; número 30) O parâmetro Número de 1 a 30 representa até 30 argumentos cuja soma deverá ser calculada. Exemplo Se você inserir os números 2, 3 e 4 nas caixas
Compartilhar