Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ESTATÍSTICA DESCRITIVA PROFª: LUCIANE TEIXEIRA PASSOS GIAROLA 2020 2 CAPÍTULO 1: O QUE É ESTATÍSTICA O que é Estatística? Porque estudar Estatística? Em que seu estudo pode auxiliar? A Estatística está presente no nosso cotidiano. Veja as frases a seguir: “Setenta por cento dos 1.500 danos à espinha dorsal em menores de idade resultam de acidentes de carro e 68% dos feridos não estavam usando o cinto de segurança” (Larson e Farber, 2010). “Considerando as próximas eleições para presidente do Brasil, o candidato A tem 41% das intenções de voto, com uma margem de erro de 2% para mais ou para menos”. Tais informações são baseadas na coleta de dados. Denomina-se por dados a um (ou mais) conjunto de valores, numéricos ou não. Dados consistem em informações que vêm de observações, contagens, medições ou respostas. Na busca pela compreensão de dados, surgiu a Estatística. Estatística é a ciência que coleta, organiza, analisa e interpreta dados para a tomada de decisões em qualquer área do conhecimento. Técnicas estatísticas são utilizadas nas mais diversas áreas da atividade humana: • Medicina: diagnóstico, prognóstico, ensaios clínicos; • Genética: estudos da cura de doenças; • Epidemiologia: estudos de dados de saúde; • Agricultura: experimentação agrícola • Indústria: controle de qualidade, previsão de demanda, gerenciamento eficiente, mercado e finanças; • Governo: disseminação da informação, políticas de decisão, serviços públicos; • Economia: técnicas econométricas e análises de séries temporais; • Pesquisa: artes, arqueologia, ciências agrárias, ciências exatas, ciências sociais, literatura, meio ambiente, mercado, petróleo; • Direito: evidência estatística, teste de DNA, investigação criminal; Principais atuações da Estatística: • Bioestatística: estatística aplicada às ciências da vida; • Biometria: aspectos estatísticos e matemáticos da Biologia; • Demografia: estudo da população humana e sua evolução no tempo; • Econometria: estudo de problemas econômicos combinando métodos estatísticos e matemáticos com teoria econômica; • Epidemiologia: campo da medicina que trata do estudo de dados na área da saúde; 3 • Sociometria: estudo de problemas sociais através da Estatística O crescimento e desenvolvimento da Estatística foram impulsionados pelo avanço das técnicas computacionais. Foram desenvolvidos diversos pacotes estatísticos utilizados no meio acadêmico, em indústrias, bancos,..., tais como Minitab, Splus, SPSS, SAS, Sisvar, R, Biostat, Eviews, Estatística, Origin,... O trabalho da estatística envolve a análise exploratória do conjunto de dados (estatística descritiva) a modelagem (probabilidade, regressão,..) do mesmo e a tomada de decisões (inferência) em situações de incerteza. Assim, a estatística pode ser dividida em: • Estatística Descritiva: conjunto de técnicas destinadas a descrever e resumir os dados a fim de tirar conclusões a respeito de características de interesse. Através dela obtem-se a maior quantidade possível de informações que permitam indicar modelos que expliquem o conjunto de dados ou que permitam tomar decisões a cerca do problema em questão (medidas de posição, variabilidade, assimetria e técnicas gráficas). • Probabilidade: teoria matemática utilizada para se estudar a incerteza associada a fenômenos aleatórios.(modelos probabilísticos) • Inferência Estatística: técnicas que possibilitam a extrapolação, a um grande conjunto de dados (população), das informações e conclusões obtidas a partir de um subconjunto de valores (amostra). Dessa forma, a Estatística busca descrever a população de forma mais fidedigna possível. Figura1: Estatística na prática (Chiann, 2017 [1]) 4 CAPÍTULO 2: INTRODUÇÃO À AMOSTRAGEM 2.1 INTRODUÇÃO Quando se deseja estudar uma ou mais características (variáveis) de uma população, nem sempre é possível fazer um levantamento da população por completo. Isso ocorre por diversas razões, tais como: a população é infinita, os custos de coleta das informações para toda a população são muito altos, o tempo de coleta é muito grande inviabilizando a pesquisa, deseja-se analisar características da população para as quais é necessário submeter as unidades observacionais a testes destrutivos. Daí surge a necessidade de se investigar apenas uma parte da população, através da coleta de uma amostra, de modo que os resultados possam ser inferidos (generalizados) o mais legitimamente possível para os resultados da população total, caso esta fosse observada (censo). A amostragem apresenta vantagens em relação ao censo1. Como os dados são referentes a uma parte da população, a amostragem é mais barata que o censo. A Pesquisa Nacional por Amostragem de domicílios (PNAD) é feita pelo Instituto Brasileiro de Geografia e Estatística (IBGE) em menos de 1% das residências. Os institutos de pesquisa avaliam a opinião pública em pesquisas de mercado utilizando poucos milhares de pessoas e em certos casos até mesmo algumas centenas de consumidores (Muniz & Abreu, 1999). A amostragem também apresenta maior rapidez que o censo em decorrência do menor volume de dados. Também a utilização de uma equipe bem treinada e equipamento sofisticado para obtenção dos dados pode ser necessária e isto pode inviabilizar o censo. Nesse sentido, em situações nas quais o censo é inviável, a amostragem pode ser utilizada, dado sua flexibilidade. Em decorrência da possibilidade de trabalhar com uma equipe de melhor nível, mais bem treinada e ainda de se poder acompanhar melhor a coleta e a tabulação dos dados, em virtude da redução do volume de trabalho, a amostragem pode proporcionar maior exatidão nos resultados (Muniz & Abreu, 1999). Mas, como selecionar essa amostra? Para a seleção das amostras de tal forma que elas sejam representativas da população é necessário a utilização de técnicas específicas denominadas Técnicas de Amostragem. Assim, o problema da amostragem consiste em “escolher” uma amostra que represente a 1 Censo: Estudo de todos os elementos da população. 5 população. Existem dois caminhos diferentes no processo de amostragem para se determinar uma amostra: amostragem probabilística e amostragem não probabilística. Quando se planeja uma pesquisa por amostragem, considera-se que todas as amostras possíveis da população tem probabilidade diferente de zero de serem selecionadas. Assim, a seleção da amostra é feita de modo aleatório, permitindo a aplicação da teoria da Probabilidade Estatística e a obtenção de uma estimativa do erro amostral. Nesse caso, diz-se que a amostragem é probabilística. Em situações nas quais restrições práticas impedem que a seleção da amostra seja totalmente aleatória, obtém-se amostras não probabilísticas. A amostragem não probabilística é a amostragem subjetiva, ou por julgamento, na qual a variabilidade amostral não pode ser estabelecida com precisão. O uso da Amostragem só não é interessante quando: � população pequena: não há necessidade de utilizar técnicas estatísticas, pois neste caso é aconselhável realizar o censo. (Análise de toda a população); � característica de fácil mensuração:talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, que não compensa investir num plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a população no próprio local de trabalho. Esta atitude pode ser politicamente mais recomendável. � necessidade de alta precisão: a cada dez anos o IBGE realiza um Censo Demográfico para estudar diversas característica da população brasileira. Dentre estas características têm-se o número de habitantes do país, que é fundamental para o planejamento do país. Desta forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se pesquisa toda a população. 2.2 CONCEITOS BÁSICOS Amostragem: Estudo da relações existentes entre a amostra e a população de onde foi extraída. A amostragem é utilizada usualmentecom o objetivo de estimar parâmetros da população, como por exemplo a média (µ) e a variância (σ2) ou a proporção (p) de uma determinada característica. A estimação com base nas propriedades estatísticas dos estimadores. População (universo do estudo): Conjunto de elementos com uma ou mais características em comum. 6 Amostra: Parte da população em que o estudo será conduzido. Um exemplo é um grupo de tamanho n=130 dos estudantes da UFSJ, os quais foram escolhidos por sorteio. Figura 1: Ilustração de uma população e três amostras possíveis. EXEMPLOS: a) Considere uma pesquisa para estudar os salários dos 500 funcionários de uma empresa. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários. População: Amostra: Variável: b) Deseja-se estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental. Uma amostra de 200 pessoas é sorteada e a opinião de cada uma é registrada como sendo a favor ou contra o projeto. População: Amostra: Variável: c) O interesse é investigar a duração de vida de um novo tipo de lâmpada, pois acredita-se que ela tenha uma duração maior do que as fabricadas atualmente. Então, 100 lâmpadas do novo tipo são deixadas acesas até queimarem. A duração em horas de cada lâmpada é registrada. População: Amostra: Variável: 7 Se o conjunto de dados é uma população ou uma amostra depende do contexto da vida real, da proposta da pesquisa. Parâmetro: Valor desconhecido associado a uma característica da população. a média (µ) e a variância (σ2) ou a proporção (p). Estimador: Função que estima o valor de um parâmetro baseando-se nas observações de uma amostra. As expressões: ( ) n x p N Xx S N x X i i i i = − − == ∑∑ , 1 , 2 2 são respectivamente estimadores da média (µ), da variância (σ2) e da proporção (p). Estimativa: Valor obtido pelo estimador para os dados de uma amostra. Inferência estatística: Consiste em concluir sobre a população com base nos dados obtidos na amostra. È importante salientar que inferências em estudos de amostragem são feitas sempre considerando a margem de erro. 8 CAPÍTULO 3: ESTATÍSTICA DESCRITIVA - RESUMO DE DADOS 3.1VARIÁVEIS E SUAS CLASSIFICAÇÕES Uma variável é qualquer característica associada a uma população, conforme já mencionado anteriormente. Ao coletar um conjunto de dados, para cada elemento associa-se o resultado de uma característica. O resultado da característica (variável sob estudo) é o que se chama de realização da variável. A realização de uma variável pode ser uma qualidade/ atributo ou um número resultante de uma contagem ou mensuração. De acordo com sua realização a variável é classificada como qualitativa ou quantitativa, conforme o esquema abaixo: NOMINAL (sem ordenação) QUALITATIVA (Atributo ou qualidade) ORDINAL (ordenação) VARIÁVEL DISCRETA QUANTITATIVA (Contagem; enumerável) (Numérica) CONTÍNUA (intervalo de números reais) Para exemplificar, considere o levantamento sobre alguns aspectos socioeconômico dos empregados da seção de orçamentos da Companhia MB, dados na Tabela 1 abaixo. Este conjunto de dados será utilizado ao longo do texto. 9 Tabela 1: Aspectos socioeconômicos dos 36 empregados da seção de orçamentos da Companhia MB no Estado civil Grau de instrução no de filhos Idade Anos Região de procedência Salário (X salários mínimos) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Solteiro Casado Casado Solteiro Solteiro Casado Solteiro Solteiro Casado Solteiro Casado Solteiro Solteiro Casado Casado Solteiro Casado Casado Solteiro Solteiro Casado Solteiro Solteiro Casado Casado Casado Solteiro Casado Casado Casado Solteiro Casado Casado Solteiro Casado Casado Fundamental Fundamental Fundamental Médio Fundamental Fundamental Fundamental Fundamental Médio Médio Médio Fundamental Médio Fundamental Médio Médio Médio Fundamental Superior Médio Médio Médio Fundamental Superior Médio Médio Fundamental Médio Médio Médio Superior Médio Superior Superior Médio Superior - 1 2 - - 0 - - 1 - 2 - - 3 0 - 1 2 - - 1 - - 0 2 2 - 0 5 2 - 1 3 - 2 3 26 32 36 20 40 28 41 43 34 23 33 27 37 44 30 38 31 39 25 37 30 34 41 26 32 35 46 29 40 35 31 36 43 33 48 42 Interior Capital Capital Outro Outro Interior Interior capital capital outro interior capital outro outro interior outro capital outro interior interior outro capital outro outro interior outro outro interior interior capital outro interior capital capital capital interior 4.00 4.56 5.25 5.73 6.26 6.66 6.86 7.39 7.59 7.44 8.12 8.46 8.74 8.95 9.13 9.35 9.77 9.80 10.53 10.76 11.06 11.59 12.00 12.79 13.23 13.60 13.85 14.69 14.71 15.99 16.22 16.61 17.26 18.75 19.40 23.30 Fonte: Bussab & Morettin (2007) 10 As variáveis como número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses), apresentam como possíveis resultados números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de variáveis quantitativas. A realização da variável número de filhos apresenta valores que formam um conjunto finito ou enumerável de números, e que resultam de uma contagem. Assim, essa variável é classificada como variável quantitativa discreta. Já as variáveis salário e idade apresentam valores que pertencem a um intervalo de números reais e que resultam de uma mensuração. Então, essas variáveis são classificadas como variáveis quantitativas contínuas. As variáveis Grau de instrução, Estado civil e Região de procedência, apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo, estas variáveis são chamadas de variáveis qualitativas. Para as variáveis estado civil e região de procedência não existe nenhuma ordenação nos possíveis resultados e, por isso, essas variáveis são chamadas variáveis qualitativas nominais. Já para a variável Grau de instrução existe uma ordem natural nos seus resultados e, por isso, ela é classificada como variável qualitativa ordinal. Outros exemplos: • Variável qualitativa: a) Nominal: sexo (gênero), cor dos olhos, raça. b) Ordinal: classe social, meses do ano. • Variável quantitativa: a) Discreta: número de carros, número de equipamentos defeituosos. b) Contínua: peso, altura, tempo (de vida)/duração de um equipamento. 3.2 DISTRIBUIÇÕES DE FREQUÊNCIA O objetivo da estatística é descrever uma população da forma mais fidedigna possível. É sabido que se deve coletar dados, isto é, retirar uma amostra, de uma população para estudar e compreender características de interesse sobre ela, estudar o comportamento de uma variável através de suas realizações. Na maioria dos casos, o conjunto de dados é formado por uma grande massa de dados. Então, deve-se procurar sintetizar ao máximo a informação nele existente, a fim de facilitar o manuseio, visualização, análise dos dados e compreensão da “situação problema”. Como realizar este estudo (descrição) de forma eficiente? Uma maneira é construir tabelas e gráficos que permitam uma melhor 11 visualização do problema em questão, além de subsidiar trabalhos estatísticos posteriores. Para isso, utiliza-se a distribuição de frequências. Pode-se também sintetizar as informações calculando algumas medidas numéricas como: média, mediana, desvio padrão, entre outras. É importante salientar que para cada tipo de variável existem técnicas apropriadas para resumir as informações. No entanto, será visto que técnicas usadas num caso, podem ser adaptadas para outros casos. 3.2.1 Representação da variável qualitativa Considere a variável qualitativa nominal “estado civil”, do exemplo anterior. Deseja-se dispor o conjunto de realizações desta variável de modo resumido a fim de se ter uma idéia global sobre elas, ou seja, de sua distribuição. A melhor forma de resumir os dados (informações) desta variável é apresentando o número de ocorrências (freqüência) das possíveis realizações (categorias) desta variável. Este número pode ser registrado através de 5 tipos de freqüência:• Freqüência absoluta (ni) – Número de casos ocorridos em cada categoria • Freqüência relativa (fi) – Número de casos de uma categoria em relação a todas as ocorrências (total de observações - n); indica a proporção de cada categoria. São úteis na comparação de resultados de duas pesquisas distintas, pois envolvem o mesmo total. i i n f n = • Freqüência percentual(100fi) – é a freqüência relativa multiplicada por cem (100); indica a porcentagem. • Freqüência acumulada(Ni) – é a soma da frequência da categoria e de todas as categorias que a antecedem; indica quantos elementos estão abaixo de um certo valor. • Porcentagem acumulada(100Fi) – é a soma da freqüência percentual da categoria e de todas as categorias que a antecedem; indica qual porcentagem de elementos estão abaixo de um certo valor. Os resultados são registrados em uma tabela. De uma maneira geral uma tabela deve conter os seguintes componentes: • Título – deve trazer informação sobre o conteúdo existente na tabela, sendo opcional a descrição do local e forma de coleta dos dados. • Cabeçalho – local onde deve-se especificar as variáveis em estudo e suas características (freqüências); 12 • Corpo – são as colunas e as sub-colunas onde são anotados os dados apurados, podendo ter entrada: simples, dupla ou múltipla. • Coluna indicadora – local onde são anotadas as classes da variável em questão; • Linha de totais – linha na qual quantificam-se os totais; • Rodapé – são anotadas todas as informações que venham a esclarecer a interpretação da tabela; local reservado para se colocar a fonte dos dados e, quando necessário, a legenda. (Rocha, 2015). Assim, vamos tomar os dados da Tabela 1 e construir sua distribuição de frequências (Tabela 2). Título Tabela 2: Distribuição de freqüências dos 36 empregados da seção de orçamentos da Companhia MB, segundo a região de procedência. Cabeçalho Corpo Linha de totais Coluna indicadora Se a variável for qualitativa ordinal você deve escrever as categorias respeitando sua ordem natural. Considere a variável Grau de instrução nos dados da Tabela 1. Tabela 3: Frequências e Porcentagens dos 36 empregados da seção de Orçamentos da Companhia MB segundo o Grau de Instrução. Grau de Instrução Frequência (ni) Proporção (fi) Porcentagem (100fi) Fundamental 12 0,3333 33,33 Médio 18 0,5000 50,00 Superior 6 0,1667 16,67 Total 36 1,0000 100,00 Fonte: Bussab & Morettin (2007) Região de procedência ni fi 100 fi Capital 11 0,306 30,6 Interior 12 0,333 33,3 Outra 13 0,361 36,1 Total 36 1,000 100,0 13 Pode-se utilizar a proporção para comparar a variável Grau de instrução para empregados da seção de orçamentos da companhia MB com a mesma variável para todos os empregados da Companhia. Considerando que a empresa tenha 2000 empregados e que sua distribuição de freqüências está dada na Tabela 4, não se pode comparar diretamente as colunas das freqüências das Tabelas 3 e 4. Mas, pode-se fazer isso com as colunas das porcentagens dessas tabelas, pois as freqüências estão reduzidas a um mesmo total. Tabela 4: Frequências e porcentagens dos 2000 empregados da Companhia MB, segundo o Grau de Instrução. Grau de Instrução Frequência (ni) Porcentagem (100fi) Fundamental 650 32,50 Médio 1020 51,00 Superior 330 16,50 Total 2000 100,00 Fonte: Bussab & Morettin (2007) Pode-se atribuir valores numéricos aos atributos de uma variável qualitativa e, posteriormente, analisá-los da mesma forma que é feito com as variáveis quantitativas discretas, desde que seja possível a interpretação. Se a variável possui apenas dois atributos, atribuímos o valor zero (0) para uma categoria e o valor um (1) para a outra categoria. Neste caso, a variável é denominada dicotômica e diz-se que ela possui duas realizações: sucesso e fracasso. 3.2.2 Representação da variável quantitativa discreta É feita de maneira ordenada, de forma semelhante às qualitativas. Basta definir as categorias, contar a frequência em cada uma delas e dispor esta informação em uma tabela. Um exemplo é dado na Tabela 5 para a variável número de filhos. Tabela 5: Frequências e porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos. Nº de filhos (Zi) Frequência (ni) Porcentagem (100fi) 0 04 20 1 05 25 2 07 35 3 03 15 5 01 05 Total 20 100 Fonte: Bussab & Morettin (2007) 14 Na distribuição de frequências das variáveis discretas não existe perda dos dados originais. Essa distribuição é adequada quando o número de elementos distintos da série de dados é pequeno. Quando o número de elementos distintos for grande é preferível fazer a distribuição através de intervalos, como é feito com as variáveis quantitativas contínuas. 3.2.3 Representação da variável quantitativa contínua Uma variável quantitativa contínua é obtida por meio de uma medição e, portanto, pode assumir qualquer valor dentro de uma escala real. Para construir a distribuição de frequências deste tipo de variável, não se tem definidas as categorias como nos exemplos anteriores. Assim, constroem-se faixas ou classes dentro das quais os dados serão alocados (agrupados). As classes são intervalos, geralmente semi-abertos à direita, de números reais. Este procedimento provoca perda de informação. Mas quantas e quais classes devem ser construídas? Bussab & Morettin (2007) afirmam que esta escolha é arbitrária, depende da familiaridade do pesquisador. Se for construído um pequeno número de classes, a informação ficará bem resumida, mas a perda de informação será grande. Por outro lado, se for construído um grande número de classes, não se perde tanta informação, mas se perde no objetivo de resumir os dados. Os autores sugerem a construção de 5 a 15 classes de mesma amplitude (comprimento dos intervalos). Considerando a variável salário nos dados da Tabela 1, construiu-se uma possível distribuição de frequências, considerando 5 classes de amplitude 4. Veja a Tabela 6. Tabela 6: Frequências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salário. Classe de salários Frequência (ni) Porcentagem (100fi) 4,00 |- 8,00 10 27,78 8,00 |-12,00 12 33,33 12,00 |- 16,00 8 22,22 16,00 |- 20,00 5 13,89 20,00 |- 24,00 1 2,78 Total 36 100,00 Fonte: Bussab & Morettin (2007) Na Tabela 7 a seguir, são apresentadas as frequências acumuladas. 15 Tabela 7: Distribuição de frequências acumuladas da variável Salário. Classe de salários Frequência (ni) Frequência Acumulada (Ni) Porcentagem (100fi) Porcentagem Acumulada (100Fi) 4,00 |- 8,00 10 10 27,78 27,78 8,00 |-12,00 12 22 33,33 61,11 12,00 |- 16,00 8 30 22,22 83,33 16,00 |- 20,00 5 35 13,89 97,22 20,00 |- 24,00 1 36 2,78 100,00 Total 36 - 100,00 - Fonte: Bussab & Morettin (2007) A frequência acumulada que aparece na segunda linha da Tabela 8, cujo valor é 22, indica que 22 dos 36 empregados ganham até 12 salários. O mesmo ocorre com a porcentagem acumulada: 61,11% dos 36 empregados ganham até 12 salários. Para facilitar e de certa forma padronizar a construção das classes, Fonseca e Martins (1996) apresentam uma regra prática descrita passo a passo a seguir: • Passo 1 - Definir o número de classes (k): � Em se tratando de uma população finita : 05 < k < 20. � Em se tratando de amostra: � Se o tamanho da amostra for menor que 100 ( n < 100): k n≈ � Se n ≥ 100, k ≈ 1+ 3,22logn; • Passo 2 – Calcular amplitude total dos dados(R); R = xmáx – xmín • Passo 3 – Calcular a amplitude de classe (c); R c k = Obs: Arredondar para cima, utilizando sempre o mesmo número de casas decimais dos dados. • Passo 4 – Encontrar os Limites das classes � 1a Classe � Limite Inferior (LI1 ) é menor valor observado no conjunto de dados ou um valor um pouco inferior) � Limite Superior = Limite inferior + amplitude de classe. (LS1 = LI1+c) 16 � 2a Classe � LI2 = LS1 e LS2 = LI2 + c � 3a Classe � LI3 = LS2 e LS3 = LI3 + c, e assim por diante. •Passo 5 – Contagem dos elementos pertencentes a cada classe; (Frequência absoluta) •Passo 6 – Cálculo das frequências relativas, percentuaise acumuladas. EXEMPLO: Mediu-se a pluviosidade durante os últimos 30 anos em São João del Rei. Os dados encontram-se na Tabela 8. Com base nos dados brutos construa a distribuição de frequências para este caso. Tabela 8: Índice de pluviosidade nos últimos 30 anos em São João del Rei. Fonte: dados hipotéticos (Rocha, 2015) • Passo 1 - Definir o número de classes (k): População finita⇒ Escolher 05 < k < 20 ⇒ k = 6 classes • Passo 2 – Calcular amplitude total dos dados(R); R = xmáx – xmín = 43,5 – 13,5 = 30 • Passo 3 – Calcular a amplitude de classe (c); 30 5 6 R c k = = = • Passo 4 – Encontrar os Limites das classes � 1a Classe LI1 = xmín = 13,5 15,2 14,6 27,9 24,9 20,0 43,5 23,4 17,8 26,9 30,8 19,9 36,8 25,1 42,0 35,2 15,6 25,5 29,7 30,1 30,1 22,1 24,4 28,7 35,0 28,0 25,3 31,8 31,0 28,3 13,5 17 LS1 = LI1+c = 13,5 + 5 =18,5 � 2a Classe LI2 = LS1= 18,5 e LS2 = LI2 + c = 18,5 + 5 = 23,5 � 3a Classe LI3 = LS2 = 23,5 e LS3 = LI3 + c = 23,5 + 5 = 28,5 , e assim por diante. •Passo 5 – Cálculo da frequência absoluta. •Passo 6 – Cálculo das frequências relativas, percentuais e acumuladas. Tabela 9 - Distribuição de frequências da pluviosidade anual para os últimos 30 anos em SJDR. Fonte: Dados hipotéticos (Rocha, 2015). É possível, e às vezes necessário, construir classes de amplitudes diferentes. Nesses casos, espera-se um maior número de elementos nas classes com maior amplitude. Por isso, é importante considerar a concentração de elementos por unidade da variável, isto é, a densidade de frequência de cada classe ( )i in c . Assim, pode-se afirmar com segurança qual a classe que possui maior concentração de dados. Para mais informações sobre classes de amplitudes desiguais veja Bussab & Morettin, 2007. Pluviosidade ni Ni fi 100 fi (%) 13,5 |- 18,5 5 5 0,167 16,7 18,5 |- 23,5 4 9 0,133 13,3 23,5 |- 28,5 9 18 0,300 30,0 28,5 |- 33,5 7 25 0,233 23,3 33,5 |- 38,5 3 28 0,100 10,0 38,5 |-| 43,5 2 30 0,067 6,3 Total 30 - 1,000 100,0 18 EXERCÍCIOS: 1) A Tabela abaixo mostra o índice de massa corpórea de 24 pessoas que fizeram inscrição para um programa de condicionamento físico. Faça a distribuição de frequências para os dados dessa tabela. 2) As autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que compõe a região e foram encontrados os seguintes números de casas por quarteirão: Construa a tabela de distribuição de frequências. 3.2.4 Análise Bidimensional Frequentemente estamos interessados em estudar mais de uma variável. No exemplo dos empregados da seção de orçamentos da Companhia MB são registradas informações de 6 variáveis (estado civil, número de filhos, grau de instrução, região de procedência, idade, salário), conforme a Tabela 1. Nesses casos, é comum estudar o comportamento conjunto de duas ou mais variáveis. Para isso, o primeiro passo é construir a tabela da distribuição de frequências, denominada tabela de dupla entrada (para duas variáveis), tabela de associação, tabela de contingência ou distribuição conjunta de frequências. Como exemplo, considere as variáveis grau de instrução e região de procedência na Tabela 1. Abaixo, na Tabela 9, encontra-se a distribuição conjunta de frequências dessas variáveis. 16,4 19,1 20,9 22,0 24,9 27,6 29,4 32,6 17,5 19,3 21,3 23,7 25,1 28,2 30,9 34,6 18,3 20,6 21,9 24,8 26,7 28,4 31,5 37,9 2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30 32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97 19 Tabela 10: Distribuição conjunta de frequências das variáveis grau de instrução e região de procedência. Observe que existem diferentes tipos de total: total por grau de instrução, total por região de procedência e o total geral. Também podemos fazer a distribuição das frequências relativas, como foi feito para o caso univariado. Aqui existem três possibilidades de expressar a proporção de cada casela: a) em relação ao total geral; b) em relação ao total de cada linha e c) em relação ao total de cada coluna. A escolha depende do objetivo do problema em estudo. Veja as Tabelas 11 e 12 a seguir. Tabela 11: Distribuição conjunta das proporções em relação ao total geral das duas variáveis em estudo. Tabela 12: Distribuição conjunta das proporções em relação aos totais de cada coluna das variáveis em estudo. Grau de instrução Fundamental Médio Superior Total Região de Procedência Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Grau de instrução Fundamental Médio Superior Total Região de Procedência Capital 11% 14% 6% 31% Interior 8% 19% 6% 33% Outra 14% 17% 5% 36% Total 33% 50% 17% 100% Grau de instrução Fundamental Médio Superior Total Região de Procedência Capital 33% 28% 33% 31% Interior 25% 39% 33% 33% Outra 42% 33% 34% 36% Total 100% 100% 100% 100% 20 Analogamente, também podemos construir a distribuição das proporções em relação ao total das linhas. Faça isso como exercício! 3.3 GRÁFICOS Os gráficos constituem um complemento importante da apresentação tabular. Além de permitir uma visualização imediata da distribuição dos valores observados, que informa sobre a variabilidade da variável, eles servem para apresentar resultados de modo fácil, rápido, mais objetivo e interessante, investigar a relação entre duas variáveis (diagrama de dispersão), “ajustar” um modelo aos dados (por exemplo, uma reta), avaliar a qualidade de um ajuste (adequacidade do modelo: gráfico de resíduos). Para construir um gráfico de forma eficiente, três pontos são importantes: • Simplicidade - deve-se optar em fazer o mais simples possível; • Clareza - ter o cuidado de não resumir omitindo informações importantes; • Veracidade - é extremamente importante retratar a realidade e traçar o gráfico em uma escala apropriada. Em se tratando de variáveis qualitativas ou quantitativas discretas podemos construir gráficos de colunas, setores e linhas. Já para variáveis quantitativas contínuas temos os polígonos de frequência, ogivas de Galton e histogramas. Os gráficos de dispersão são utilizados apenas para variáveis quantitativas, sejam elas discretas ou contínuas. 3.3.1 Gráficos de colunas/barras: Estes gráficos são a representação de uma tabela (ou série) por meio de retângulos verticais (colunas) ou horizontais (barras), nos quais em uma das coordenadas são representadas as categorias da variável em estudo e na outra a frequência (absoluta, relativa ou percentual) relacionada a cada classe. Os retângulos devem seguir a um padrão como: distância entre eles, largura, estética, etc. Considerando a variável Grau de instrução para os dados da Tabela 1 referente ao exemplo dos 36 empregados da Companhia MB, a Figura 4 apresenta o gráfico de colunas para a referida variável. 21 Figura 4: Gráfico de colunas para a variável qualitativa Grau de Instrução. Tabela 13: Distribuição de frequência das formas de treinamento dos empregados, adotados pela indústria brasileira. Formas 100 fi Educação básica 20 Empresas clientes ou fornecedoras 19 Consultores/instituições 40 Fora do processo do trabalho 40 “On the job” 78 Não realiza 11 Considerando-se os dados da Tabela 13 acima, pode-se construir o gráfico de barras apresentado na Figura 5 abaixo. 22 Figura 5: Formas de Treinamento dos empregados Considere agora a variável número de filhos cujos valores são apresentados na Tabela 1. O gráfico de colunas para esta variável encontra-se na Figura 6. Figura 6: Gráfico em colunas para a frequência do número de filhos dos 36 empregados da Companhia MB. Também podem ser construídos gráficos de barras ou colunas compostas, como na Figura 7. 23 Figura 7: Gráfico de colunas compostas para uso da concorrência em relação ao porte (tamanho) da empresa. 3.3.2 Gráficos de setores: Este gráfico é empregado sempre que se deseja ressaltar a participação de uma parte no todo. O todo é representado por um círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são, respectivamente, proporcionaisaos dados. Obtém-se cada setor por meio de uma regra de três simples e direta, lembrando que o total corresponde a 360o. A Figura 8 abaixo apresenta o gráfico de setores para a variável qualitativa Grau de Instrução. 24 Figura 8: Gráfico de setores para a variável grau de instrução. Considerando-se a cidade de São João del Rei e a Universidade Federal de São João del Rei, a Tabela 14 apresenta a distribuição de frequências dos locais na cidade preferidos pelos alunos da UFSJ para estagiar. Tabela 14: Locais preferidos pelos alunos da UFSJ para estagiar O gráfico de setores para esta variável é apresentado na Figura 10 abaixo. Para construir este gráfico foi necessário encontrar quanto da fatia do círculo (qual tamanho de setor) correspondia a cada local. Isso foi feito utilizando-se regras de 3. Regras de 3 100 % ------- 360 o 69 % ------ X X = 248,4o 100 % ------ 360 o 18 % ------ Y Y = 64,8o 100 % ------ 360 o 7 % ------ Z Z = 25.2o 100 % ----- 360 o 6 % ----- W W = 21,6o LOCAL 100fi (%) Indústria Bancos Comércio Outros 69 18 7 6 Total 100 25 Figura 9: Gráfico de setor para os locais preferidos pelos alunos da UFSJ para estagiar 3.3.3 Gráficos de Linhas: É comum ver este tipo de gráfico na mídia. No caso de variáveis quantitativas ele é formado por uma linha traçada pela união de pontos que surgem da associação dos valores da variável em estudo com valores de outra variável, por exemplo, o tempo. Na Tabela 15 encontram-se valores de vendas de uma companhia hipotética nos anos de 1980 a 1986. A Figura 10 apresenta o gráfico para os valores desta tabela. Tabela 15: Vendas da Companhia Alfa – 1980 à 1986 ANO VENDAS (em milhões) 1980 230 1981 260 1982 380 1983 300 1984 350 1985 400 1986 460 Fonte: Rocha, 2015. 26 Figura 10: Gráfico de linha para a variável “Total de vendas Cia Alfa”. Para as variáveis qualitativas, o gráfico possui tantas linhas quantas forem as categorias da variável. A Figura 11 apresenta o gráfico de linha para a variável qualitativa opinião dos paulistanos sobre a pena de morte no Brasil. Figura 11: Gráfico de linha para a variável “Opinião dos paulistanos sobre a adoção da pena de morte no Brasil”. Quando a variável é do tipo quantitativa contínua, esse gráfico é construído a partir dos pontos médios das classes e recebe a denominação de polígono de frequências No caso de se desejar representar as frequências acumuladas, os segmentos são traçados a partir dos limites superiores das classes (Rocha, 2015). Nesse caso o gráfico é denominado Ogiva de Galton. 27 3.3.4 Gráficos de dispersão: Os gráficos de dispersão são formados por pontos, constituem uma “nuvem” de pontos e são construídos para variáveis quantitativas discretas. Podem ser unidimensionais ou bidimensionais. Nos gráficos unidimensionais os valores da variável são representados por pontos ao longo de uma reta provida de uma escala. Valores repetidos são indicados por um número que indica as repetições (Figura 12 (a)) ou “empilhados” um em cima do outro (Figura 12 (b)). Também pode-se representar o ponto mais alto da pilha (Figura 12 (c)). Figura 12: Gráficos de dispersão unidimensionais para a variável quantitativa discreta número de filhos do exemplo dos 36 empregados da Companhia MB (Bussab &Morettin, 2007) Os diagramas de dispersão bidimensionais são gráficos nos quais pontos no espaço cartesiano XY são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados. É usado principalmente para visualizar a relação/associação entre duas variáveis. 28 Exemplo: Pesquisadores desejam encontrar uma maneira de conhecer o peso de ursos marrom através de uma medida mais fácil de se obter do que a direta (carregar uma balança para o meio da selva e colocar os ursos em cima dela) como, por exemplo, uma medida de comprimento (altura, perímetro do tórax, etc.). O problema estatístico aqui é encontrar uma variável que tenha uma relação forte com o peso, de modo que, a partir de seu valor medido, possa ser “calculado” o valor peso indiretamente, através de uma equação matemática. O primeiro passo para encontrar esta variável é fazer o diagrama de dispersão das variáveis candidatas (eixo horizontal) versus o peso (eixo vertical), usando os pares de informações de todos os ursos. Você pode tentar as variáveis: idade, altura, comprimento da cabeça, largura da cabeça, perímetro do pescoço e perímetro do tórax. Na Figura 13 é mostrada a relação entre peso e altura e entre peso e perímetro do tórax, respectivamente. (Shimakura, 2012) Figura 13: Diagrama de dispersão da altura versus o peso (a) e do perímetro do tórax versus o peso (b) dos ursos marrom. 3.3.5 Histogramas: Quando se trata de variáveis contínuas, a construção de gráfico de barras ou colunas fica difícil. Pode-se utilizar o artifício de aproximar a variável contínua por uma variável discreta, considerando-se que cada classe (intervalo) fica representada pelo seu ponto médio. Nesse caso, para cada ponto médio é construída uma coluna (barra) de comprimento (largura) igual à freqüência. Porém, esse procedimento gera perda de informação. Uma alternativa é construir um gráfico de barras contíguas (retângulos justapostos), com bases (colocadas no eixo x) proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência relativa (fi.). Este gráfico é denominado histograma. Assim, a soma das áreas dos retângulos, isto é, a área do histograma, é igual à soma das frequências relativas, ou seja, 1! Para isso, é necessário que a altura de 29 cada retângulo seja proporcional à densidade de frequência de cada classe if c , sendo c a amplitude de classe. Exemplo: Considerando a variável salário no banco de dados da Tabela 1, construa o histograma. A distribuição de frequências desta variável é dada na Tabela 7. Figura 14: Histograma da variável S: salários. Também é possível construir histograma para variáveis agrupadas em classes de amplitudes desiguais. Para saber mais sobre isso consulte Bussab & Morettin, 2007. Interpretação de um histograma A simples observação da disposição do histograma permite algumas conclusões. Primeiro quanto à forma. É possível perceber se a distribuição é simétrica, assimétrica, ou se ela parece com a curva de Gauss (Normal), Qui-quadrado, entre outras. Veja a Figura 15. 30 Figura 15: Diferentes tipos de Histogramas quanto à simetria/assimetria. Outra importante informação é a dispersão do conjunto de dados. É possível perceber pela comparação de dois histogramas qual dos dois possui maior dispersão (Figura 16). Figura 16: Comparação de Histogramas quanto à dispersão. 31 Histograma alisado Considerando novamente a variável salário e sua distribuição de frequências absolutas, dada na Tabela 16 (amplitude de classe igual a 2), construiu-se o histograma dado na Figura 17. Tabela 16: Distribuição de frequências absolutas para a variável salário, considerando-se classes de amplitude 2. Classe de salários Frequências (ni) 4,00 |- 6,00 4 6,00 |- 8,00 6 8,00 |- 10,00 8 10,00 |- 12,00 4 12,00 |- 14,00 5 14,00 |- 16,00 3 16,00 |- 18,00 3 18,00 |- 20,00 2 20,00 |- 22,00 0 22,00 |- 24,00 1 Total 36 Figura 17: Histograma para a variável S: salário, com amplitude de classe igual a 2. 32 Foi possível diminuir a amplitude dos intervalos de classe porque o número de observações era grande. Assim, obteve-se um histograma menos irregular que gera uma curva mais suave, denominada histograma alisado. Essa curva permite avaliar melhor o tipo de comportamento que se espera para a distribuição de uma dada variável. Os pontos nos quais a curva é mais alta correspondem a uma maior densidade de observações. Esse gráfico é apresentado na Figura 18, que permite observar que, conforme aumenta o salário, a densidade de frequência vai diminuindo. Figura 18: Histograma alisado para a variável S: salário (Bussab & Morettin, 2007). 33 EXERCÍCIOS PROPOSTOS:1. Nas situações descritas a seguir, identifique a população, a amostra e a variável a ser estudada classificando-a: a) Deseja-se investigar o peso real de pacotes de café, enchidos automaticamente por uma máquina. Para isso sorteou-se 100 pacotes e mediu-se seus pesos. b) Para investigar a “honesticidade” de uma moeda, ela foi lançada 50 vezes e o número de caras observadas foi contado. Deseja-se obter um possível modelo através do qual seja possível calcular a probabilidade de se obter um determinado número de caras em função da quantidade de lançamentos. 2. Um laboratório de fertilidade analisou 60 amostras de solo determinando o teor de cálcio existente em cada uma delas. O resultado desta análise está apresentado na tabela abaixo: Tabela- Teor de Cálcio encontrado nas amostras de solo. Lab Ca Lab Ca Lab Ca Lab Ca 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 7.97 5.28 3.33 5.82 6.31 5.51 5.70 6.05 6.67 7.48 3.08 6.70 5.27 2.25 5.04 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3.39 3.65 5.47 5.72 8.84 5.75 3.38 5.36 5.99 5.70 4.66 5.45 7.41 5.07 1.96 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 5.62 4.94 2.31 6.45 4.77 3.29 4.66 5.30 7.24 5.28 4.93 5.96 6.56 4.67 6.10 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 5.07 6.22 3.39 4.19 4.83 5.36 7.70 5.80 3.80 5.62 7.68 6.37 8.42 5.04 4.80 Fonte: Campos (1998) 34 Pede-se: a) Classifique a variável. b) Construa a distribuição de frequências. c) Construa a distribuição de frequências acumuladas e suas respectivas Ogivas de Galton. 3. Identifique, para cada tabela de distribuição de frequências, a amplitude de classe, os pontos médios das classes, os limites das classes, a frequência relativa, e a frequência acumulada. a) b) Ausências xi c ni fi Ni Ausências xi c ni fi Ni 0 |- 6 6 |- 12 12 |- 18 18 |- 24 24 |- 30 39 41 38 40 42 0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 22 40 71 44 23 c) d) Pesos xi c ni fi Ni Pesos xi c ni fi Ni 0,0 |- 2,0 2,0 |- 4,0 4,0 |- 6,0 6,0 |- 8,0 8,0 |- 10,0 20 32 49 31 18 0,0 |- 5,0 5,0 |- 10,0 10,0 |- 15,0 15,0 |- 20,0 20,0 |- 25,00 60 58 61 62 59 4. Faça os respectivos histogramas para as tabelas do exercício anterior e interprete-os quanto à simetria e quanto à dispersão. Utilize tecnologia para a construção do gráfico. 5. Foi feito um estudo para determinar como as pessoas obtêm empregos. A tabela que segue relaciona dados de 400 pessoas escolhidas aleatoriamente. Os dados se baseiam em resultados do Centro Nacional de Estratégias de Carreira Americano. 35 Tabela: Formas de obtenção de empregos Fontes de trabalho dos que responderam a pesquisa Freqüência (ni) Anúncios tipo “ procura-se ” Firmas de pesquisas Rádio e televisão Envio de correspondência em massa 56 44 280 20 Utilizando a tecnologia: a) Construa um gráfico de colunas. Qual seria a abordagem mais eficiente para uma pessoa que deseja um emprego? b) Construa um gráfico de setores para os dados do exercício acima. Indique qual dos gráficos, coluna ou setor, melhor apresenta a importância relativa das fontes de trabalho. 6. Com base na tabela a seguir e utilizando tecnologia construa: a) Seu histograma; b) Polígono de frequências; c) Ogiva de Galton. Tabela: Distribuição de frequência com dados agrupados Classe ni 39,5 |- 44,5 44,5 |- 49,5 49,5 |- 54,5 54,5 |- 59,5 59,5 |- 64,5 64,5 |- 69,5 69,5 |- 74,5 3 8 16 12 7 3 1 Total 50 36 7. Durante o mês de setembro de certo ano, o número de acidentes por dia em certo trecho de rodovia apresentou a seguinte estatística: 2 0 1 2 3 1 6 1 0 0 1 2 2 1 2 0 1 4 2 3 0 1 0 2 1 2 4 1 1 1 Represente os gráficos adequados para esses dados e interprete-os. 8. Considere os dados da tabela abaixo, sobre venda de bebidas leves. Tabela: Distribuição de frequência da venda de bebidas leves Classe ni fi Cola Limão Laranja Uva Cereja Outras 600 200 100 50 40 10 0,60 0,20 0,10 0,05 0,04 0,01 Total 50 1,00 Fonte: Stevenson (1981) Construa um gráfico de setores e um de barras. Compare-os e diga qual deles é o mais adequado. 9. O município de São João Del - Rei, recebeu uma verba de R$ 1.000.000,00 do governo federal para ser aplicada pela atual administração. Depois de algumas reuniões os recursos foram divididos conforme a tabela abaixo. Construa o gráfico mais adequado e interprete-o. 37 Tabela: Porcentagens da verba destinada a cada setor. Setores 100 fi (%) Administração Educação Saúde Obras públicas Segurança 19 28 30 18 5 Total 100,0 10. Os limites de especificação para o comprimento de uma peça são 20 e 21 mm. Uma amostra de 40 peças, tomada no mês de agosto, forneceu os valores apresentados na tabela dada em seguida. Outra amostra de 50 peças, tomada no mês de setembro, forneceu os valores apresentados na segunda tabela. Utilizando tecnologia, faça um histograma para cada amostra. Trace os limites de especificação, compare e discuta. Todos os valores dados nas tabelas acima correspondem a parte decimal de 20 mm Comprimento, em milímetros, de uma peça – Amostra tomada em Agosto 14 77 16 99 12 25 30 14 14 25 43 51 16 41 65 23 18 38 22 25 18 38 25 49 35 25 40 29 27 62 58 19 72 72 25 11 49 40 31 20 16 48 64 18 52 60 53 60 95 40 Comprimento, em milímetros, de uma peça – Amostra tomada em Setembro 11. Abaixo encontram-se os dados referentes ao número de dias em que 20 pacientes ficaram hospitalizados. Utilizando tecnologia, construa uma distribuição de frequências e um histograma de frequências para 32 73 49 62 51 59 60 35 65 78 64 62 27 56 52 49 26 57 59 50 47 53 47 60 57 61 38 60 41 55 53 59 58 21 77 38 46 83 58 52 38 esses dados usando 6 classes. Descreva a forma do histograma como simétrico, uniforme, assimétrico negativo, assimétrico positivo. 6 9 7 14 4 5 6 8 4 11 10 6 8 6 5 7 6 6 3 11 39 CAPÍTULO 4: MEDIDAS RESUMO Neste capítulo serão estudadas medidas de posição e dispersão. Tais medidas servem para descrever o conjunto de dados, resumi-lo utilizando valores que sejam representativos da série. 4.1 MEDIDAS DE POSIÇÃO As medidas de posição, também chamadas medidas de locação, são: mínimo, máximo, moda, mediana e média. 4.1.1 Mínimo e máximo O mínimo (min) é a medida que corresponde à menor observação do banco de dados e o máximo (máx) à maior observação. Para se encontrar estas medidas é necessário ordenar o banco de dados. Medidas nas quais é necessário essa ordenação são denominadas estatísticas de ordem. Exemplo: Considere o conjunto de dados a seguir referente a uma dada variável x: X: 4, 5, 4, 6, 5, 8, 4 Ordenando, tem-se: 4, 4, 4, 5, 5, 6, 8. min(X) = 4, máx(X) =8 4.1.2 Moda É a realização mais frequente do conjunto de valores observados. Pode ser utilizada tanto para dados quantitativos quanto para dados qualitativos (nominais e ordinais). Considere o exemplo dos 36 funcionários da Companhia MB. Para a variável número de filhos, a moda é “2”, pois é a observação mais frequente, são 7 funcionários que possuem 2 filhos (Tabela 6). Para a variável Grau de instrução, cuja distribuição de frequências encontra-se na Tabela 3, a moda é “ensino médio”. A distribuição dos dados pode ser amodal, bimodal, trimodal,...Considere duas variáveis, B e C, cujas distribuições são dadas abaixo. B: 1, 2, 3, 4, 5 C: 2, 3, 2, 4, 5, 4 O conjunto B é amodal e o conjunto C é bimodal (modas: 2 e 4). 40 4.1.3 Média É a soma das observações dividida pela quantidade delas. Por exemplo, para o conjunto de dados 3, 4, 7, 8, 8, a média é 6 ((3+4+7+8+8)/5). Esta medida só pode ser obtida para variáveis quantitativas. Sejam x1, ..., xn n observações da variável X. A média é dada por: Considerando a variável número de filhos e denominando de Z, abaixo é apresentada a sua distribuição de frequências. Tabela 1: Distribuição de frequências dos 20 empregados casados da seção de orçamentos da Companhia MB, segundo o número de filhos. Número de filhos (zi) ni fi 0 4 0,20 1 5 0,252 7 0,35 3 3 0,15 5 1 0,05 Total 20 1 Utilizando a fórmula dada anteriormente, pode-se, a partir da segunda coluna da Tabela 15, calcular o número médio de filhos por empregado: Também é possível calcular a média utilizando-se a terceira coluna da Tabela 15, isto é, as frequências relativas: Formalizando, se tivermos ni observações da variável X iguais a xi: se fi=ni/n for a frequência relativa: A média é uma medida afetada por valores extremos. 1 1 ... 1 nn i i x x x x n n = + + = = ∑ 1 1 1 ... 1 kk k i i i n x n x x n x n n = + + = = ∑ 1 k i i i x f x = =∑ 4.0 5.1 7.2 3.3 1.5 1,65 20 z + + + + = = 4 5 7 3 1 .0 .1 .2 .3 .5 1,65 20 20 20 20 20 z = + + + + = 41 ( ) 2 P Px xq p − + + = 4.1.4 Separatrizes A Média pode não ser uma medida adequada para representar um conjunto de dados, pois é afetada por valores extremos e sozinha não dá ideia da simetria ou assimetria da distribuição. Existem medidas de posição mais resistentes, que não são afetadas por valores extremos, e que informam sobre a simetria ou não da distribuição dos dados. Essas medidas são denominadas separatrizes. Separatrizes são valores que dividem a distribuição em um certo número de partes iguais. Uma separatriz é também denominada Quantil de ordem p ou p quantil (q(p).O p quantil é uma medida de posição tal que 100p% das observações sejam menores que q(p), sendo p uma proporção qualquer, 0<p<1. A mediana por exemplo, é um quantil que deixa 50% das observações à sua esquerda, isto é, med = q(0,5). Alguns quantis em particular recebem nomes específicos, de acordo com a quantidade de partes em que o conjunto de dados é dividido: q(0,25): 1º Quartil = 25º Percentil q(0,50): 2º Quartil = 50º Percentil = 5º Decil (Mediana) q(0,75): 3º Quartil = 75º Percentil q(0,40): 4º Decil q(0,95): 95º Percentil. Para calcular um quantil é necessário primeiro ordenar o conjunto de dados e saber a posição desse quantil. A mediana, por exemplo, é o quantil que ocupa a posição central do conjunto de dados, ou seja, ( 1) 0,50.( 1) 2 n n + = + , sendo n o tamanho da amostra. De modo geral, o p quantil ocupa a posição p.(n+1) do conjunto de dados ordenados. Devido à necessidade de ordenação, estas medidas só podem ser obtidas para dados quantitativos ou qualitativos ordinais. Neste último caso é importante observar se a medida obtida faz sentido e é interpretável. Após obter a posição do p quantil, calcula-se seu valor: se sua posição for um número inteiro k, então q(p) = xk; senão, se a posição P não for um número inteiro, considere P- e P+ os inteiros respectivamente abaixo e acima de P e tome Exemplo: Considere o conjunto de dados abaixo e encontre os quartis. 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7 42 O conjunto de dados já está ordenado, assim vamos encontrar a posição dos quartis e depois os seus respectivos valores. 1º Quartil: • Posição: .( 1) 0, 25.(10 1) 2,75p n + = + = • Valor: 2 3 2 2,1 ( ) (0,25) 2,05 2 2 2 P P x xx x q p q− + ++ + = ⇒ = = = 2º Quartil(Mediana): • Posição: .( 1) 0,50.(10 1) 5,5p n + = + = • Valor: 5 6 3 3,1 (0,50) 3,05 2 2 x x q + + = = = 3º Quartil: • Posição: .( 1) 0,75.(10 1) 8, 25p n + = + = • Valor: 8 9 3,7 6,1 (0,75) 4,9 2 2 x x q + + = = = Quando a posição do quantil é inferior à posição do menor valor do conjunto de dados x1, assume-se que esse quantil é a primeira observação (x1). Analogamente, quando a posição do quantil é superior à posição do maior valor observado no conjunto de dados xn , assume-se que este quantil é o último valor observado (xn). Outra observação importante é que diferentes quantis podem assumir o mesmo valor. Considerando o exemplo anterior, abaixo são calculados alguns percentis. 1º e 2º Percentis: • Posição: 1 2 : .( 1) 0,01.(10 1) 0,11 : .( 1) 0,02.(10 1) 0,22 P p n P p n + = + = + = + = • Valor: 1 1 (0,01) 1,9 (0,02) 1,9 q x q x = = = = 43 50º e 52º Percentis: • Posição: 50 52 ( ) : 5,5 : .( 1) 0,52.(10 1) 5,72 P mediana P p n + = + = • Valor: 5 6 5 6 3 3,1 (0,50) 3,05 2 2 3 3,1 (0,52) 3,05 2 2 x x q x x q + + = = = + + = = = 98º e 99º Percentis: • Posição: 98 99 : .( 1) 0,98.(10 1) 10,78 : .( 1) 0,99.(10 1) 10,89 P p n P p n + = + = + = + = • Valor: 10(0,98) (0,99) 7,7q q x= = = As separatrizes são muito utilizadas em Estatística, principalmente em distribuições assimétricas. 4.1.5 Avaliação de simetria Os quartis q(0,25)=q1, q(0,50)=q2 e q(0,75)=q3 são medidas de posição resistentes, isto é, são pouco afetadas por mudanças em pequenas porções dos dados. Por isso, juntamente com x1 e xn, eles são importantes para se ter ideia da simetria da distribuição dos dados. Quando a distribuição dos dados é aproximadamente simétrica: Fonte: Bussab & Morettin (2007) A medida q2 – x(1) é denominada dispersão inferior (di) e a medida x(n)-q2, dispersão superior (ds).Quando a distribuição é aproximadamente simétrica, essas medidas são aproximadamente iguais. Além disso, para dados simétricos a distância entre a mediana e medidas cujas posições são simétricas é aproximadamente igual, isto é, 2 (1) ( ) 2 2 1 3 2 1 (1) ( ) 3 1 3 1 3 ( ) ( ) ( ) ( ) , . n n a q x x q b q q q q c q x x q d distâncias entre mediana e q q menores do que distâncias entre os extremos q e q − ≈ − − ≈ − − ≈ − 44 ( ) ( 1 )(0,5) (0,5)i n iq x x q+ −− = − Se os quantis da direita estão mais afastados da mediana do que os da esquerda, dizemos que a distribuição dos dados é assimétrica à direita. Caso contrário, dizemos que é assimétrica à esquerda. A Figura 1 ilustra uma distribuição simétrica e a Figura 2 ilustra distribuições assimétricas. Figura 1: Distribuição simétrica: normal ou gaussiana. Figura 2: Distribuições assimétricas. 45 Exemplo: Considere o conjunto de dados de populações de municípios brasileiros dado em Bussab & Morettin (2007). Este conjunto de dados pode ser obtido na página do professor Pedro (Morettin, 2020). Tome os 15 maiores valores, os quais encontram-se ordenados abaixo: 84,7 < 92,4 < 101,8 < 102,3 < 116 < 119,4 < 129,8 < 135,8 < 151,6 < 187,7 < 201,5 < 210,9 < 224,6 < 556,9 < 988,8 Calculando-se os quantis, obtém-se (faça os cálculos!): q(0,25)=102,3 q(0,50)=135,8 q(0,75)=210,9 As cinco medidas (x1, q1, q2 q3 e xn) e as distâncias entre elas são ilustradas na Figura 3. Nela, é possível perceber a assimetria da distribuição Figura 3: Quantis e distâncias para as 15 maiores populações dos municípios. Abaixo, são apresentadas as avaliações de diferentes distribuições no que se refere à simetria e dispersão pelos quartis (Figura 4). Figura 4: Avaliação da assimetria e dispersão pelos quartis (Reis & Lino, 2020) 46 4.2 MEDIDAS DE DISPERSÃO Suponha que para preencher uma única vaga existente em uma empresa, os candidatos foram submetidos a testes e agrupados em três grupos (1, 2, 3), de acordo com as notas obtidas. As notas em cada grupo são variáveis representadas por X, Y e W Grupo 1 (X): 3,4,5,6,7 Grupo 2 (Y):1,3,5,7,9 Grupo 3 (W): 5,5,5,5,5 A empresa necessita saber em qual dos quatro grupos deve contratar. Um critério poderia ser contratar no grupo de maior média, mas Um segundo critério poderia ser então, considerar a moda ou a mediana. Porém, os grupos 1 e 2 são amodais e a mediana é 5 para os três grupos. Então, pode-se escolher contratar no grupo que apresentou notas mais homogêneas, isto é, o grupo que apresentou menor dispersão das notas. Na Figura 5, podemos observar que os dados não estão igualmente distribuídos. Geometricamente é possível perceber que o Grupo 2 apresenta maior dispersão dos dados e o Grupo 3 menor. Porém, precisamos de uma avaliação objetiva dessa distribuição. As medidas de posição estudadas, como se pôde observar não são capazes de avaliar a dispersão dos dados e distinguir um grupo do outro. Figura 5: Representação gráfica dos dados de cada grupo (Chiann, 2017 [1] ) 5x y w= = = 47 Como as medidas de posição não informam sobre a variabilidade dos dados, é necessário utilizar medidas que resumam a variabilidadede um conjunto de observações e que permitam a comparação entre conjuntos de diferentes valores. Estas medidas são denominadas medidas de dispersão. Serão estudadas as seguintes medidas de dispersão: amplitude, variância, desvio padrão, coeficiente de variação e distância interquartílica. 4.2.1 Amplitude (A) A amplitude é obtida subtraindo-se o menor valor observado do maior: A = xmax-xmín. Considerando-se o exemplo anterior, tem-se: Grupo 1: AX = 7 - 3 = 4 Grupo 2: Ay = 9 - 1 = 8 Grupo 3: Aw = 5 - 5 = 0 O grupo mais heterogêneo é o Grupo 2, pois possui maior amplitude; o mais homogêneo é o Grupo 3. 4.2.2 Variância A Variância mede a dispersão dos dados em torno de sua média. A notação para a variância populacional é σ2 e ela é obtida por: Considerando o exemplo dado na seção anterior , referente à contratação de candidato, são calculadas abaixo as variâncias para os grupos 1 e 2 . De acordo com essa medida, no grupo 1 as notas são mais homogêneas que no grupo 2. Considere agora que para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos a provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-se e foram selecionadas seis notas de cada um deles, as quais estão descritas na Tabela 2 abaixo: ( ) ( ) ( ) ( ) 2 2 2 2 1 22 1 ... n i ni x x x x x x x x n n σ = − − + − + + − = = ∑ 2 2 2 2 2 2 2 2 2 2 2 2 (3 5) (4 5) (5 5) (6 5) (7 5) 2 5 (1 5) (3 5) (5 5) (7 5) (9 5) 8 5 σ σ − + − + − + − + − = = − + − + − + − + − = = 48 Tabela 2: Distribuição das notas Candidato Provas 1 2 3 4 5 6 A 7,0 7,5 8,0 8,0 8,5 9,0 B 6,0 7 8,0 8,0 9,0 10,0 C 7,5 8 8,0 8,0 8,0 8,5 Neste caso, temos uma amostra de 3 candidatos. A variância é então denotada por S2 e calculada por: Assim, tem-se: • Candidato A: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 22 2 2 2 2 2 2 1 (7 7,5 8 8 8,5 9) 8 6 1 7 8 7,5 8 8 8 8 8 8,5 8 9 8 5 1 2,5 1 0,5 0 0 0,5 1 0,5 5 5 x s = + + + + + = = − + − + − + − + − + − = = − + − + + + + = = • Candidato B: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 22 2 2 2 2 2 2 1 (6 7 8 8 9 10) 8 6 1 6 8 7 8 8 8 8 8 9 8 10 8 5 1 1 0,5 0 0 0,5 1 2 5 x s = + + + + + = = − + − + − + − + − + − = = − + − + + + + = Exercício: calcule a média e a variância para o candidato C. Alternativamente, pode-se calcular a variância utilizando-se as fórmulas: ( )2 2 1 1 n i i x x s n = − = − ∑ ( ) ( ) ( ) 2 22 1 2 22 1 1 1 1 1 1 1 n i i n n i i i i s x n x n s x x n n = = = = − − = − − ∑ ∑ ∑ 49 Utilizando a primeira fórmula acima vamos calcular a variância para o candidato A: Exercício: utilizando as fórmulas acima calcule a variância para os candidatos B e C. A dimensão da variância corresponde ao quadrado da dimensão dos dados, o que pode gerar problemas de interpretação. Por isso, muitas vezes trabalha-se com sua raiz. 4.2.3 Desvio Padrão O desvio padrão é a raiz da variância. Ele indica em média qual será o “erro” (desvio) cometido ao substituir cada observação pela média. Considere a variável quantitativa discreta “número de filhos” cuja distribuição de frequências é dada na Tabela 5 do capítulo 3. Abaixo encontram-se os valores da média, variância e desvio padrão para essa variável. Considere agora, o exemplo dos três candidatos (A, B e C), selecionados entre 50, para preencher uma vaga em uma empresa. Abaixo encontram-se os valores das variâncias das notas obtidas por cada candidato e seus respectivos desvio padrão. 4.0 5.1 7.2 3.3 1.5 33 1,65 20 20 z + + + + = = = 2 2 2 2 2 2 4.( 1,65) 5.( 0,65) 7.(0,35) 3.(1,35) 1.(3,35) 1,528 20 σ − + − + + + = = ( ) ( ) ( ) { } { } 2 2 2 2 2 2 2 1 2 22 2 1 7 7,5 8 8 8,5 9 49 56,25 64 64 72,25 81 3865 1 1 1 2,5 3865 6.8 3865 384 0,5 1 5 5 5 n i i n i i x s x n x n = = = + + + + + = = + + + + + = = − = − = − = = − ∑ ∑ 2 2 2 2 2 2 0,5 0,5 0,71 2,0 2,0 1, 41 0,1 0,1 0,32 A A B B C C s s s s s s s s s = ⇒ = = = = ⇒ = = = = ⇒ = = = 2 1,528 1,24σ σ= = = 50 A variância e o desvio padrão são afetados por valores extremos, isto é, não são medidas resistentes. Eles são boas medidas se a distribuição dos dados é aproximadamente normal. Além disso, não são medidas adequadas quando se quer comparar a dispersão de diferentes conjuntos de dados. 4.2.4 Coeficiente de Variação Para comparar dois conjuntos de dados quanto à sua variabilidade pode-se usar o coeficiente de variação (CV). O CV é uma medida de dispersão que expressa a variabilidade dos dados em relação a sua média de forma percentual. Sua expressão será dada por Exemplo 1: Imagine uma situação referente ao número de documentos falsificados que aparecem em um determinado setor da prefeitura e o valor arrecadado por hora de um tipo de multa em reais. Os dados se encontram na Tabela 3. Em qual das duas variáveis ocorre maior variabilidade ou variação? Tabela 3: Medidas para documentos falsificados e multas Documentos Falsificados (Nº) Multa (reais) Média 22 800 Desvio Padrão 5 100 Utilizando o desvio padrão para comparar a variabilidade você pode, a princípio, considerar que a multa apresenta maior variabilidade, já que tem maior desvio padrão. Calculando, então, o coeficiente de variação teremos os valores apresentados a seguir: 5 .100 .100 22,7% 22 100 .100 .100 12,5% 800 DOC MULTA s CV x s CV x = = = = = = Perceba então, que estávamos concluindo erroneamente que a multa é mais variável que o número de documentos falsificados, além de termos cometido o disparate de comparar numericamente duas variáveis expressas em unidades diferentes. Portanto, o número de documentos falsificados apresentou maior dispersão do que a multa, já que seu coeficiente de variação foi maior, mudando, assim, a conclusão anterior. .100% s CV x = 51 Exemplo 2: Considere medidas referentes à Altura e ao Peso de alunos (Tabela 4) Tabela 4: Medidas estatísticas para a Altura e o Peso de alunos Média Desvio padrão Coeficiente de Variação Altura 1,143m 0,063m 5,5% Peso 50Kg 6Kg 12% Conclusão: Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto à altura. Exemplo 3: Considere a Altura (em cm) de uma amostra de recém nascidos e de uma amostra de adolescentes (Tabela 5) Tabela 5: Medidas descritivas para Altura de recém nascidos e adolescentes. Média Desvio padrão Coeficiente de Variação Recém Nascidos 50 6 12% Adolescentes 160 16 10% Conclusão: Em relação às médias, as alturas dos adolescentes e dos recém-nascidos apresentam variabilidade quase iguais. 4.2.5 Distância Interquartílica Outra medida muito utilizada em Estatística é a distância interquartílica, ou Intervalo-Interquartil, que é obtida tomando-se a diferença entre o terceiro quartil e o primeiro quartil: (0, 75) (0, 25)qd q q= − . A distância interquartílica é uma medida de dispersão alternativa ao desvio padrão. Exemplo: Considere o conjunto de dados abaixo utilizado anteriormente como exemplo no cálculo de quartis. 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7 52 Os quartis obtidos foram: q1 = 2,05; q2 = 3,05; q3 = 4,9. Assim, a distância interquartílica é dada por: (0, 75) (0, 25) 4,9 2, 05 2,85qd q q= − = − = . 4.3 MEDIDAS DE POSIÇÃO E DISPERSÃO PARA DADOS AGRUPADOS Quando se trata de variáveis contínuas, a distribuição de frequências é feita agrupando-se os dados em classes. Este procedimento gera perda de informação e não se sabe ao certo o valor observado. Assim, para obter medidas de posição e dispersão para os dados agrupados utiliza-se uma aproximação. Para a obtenção da média, moda e variância consideramos que o valor observado corresponde ao ponto médio da classe e procedemos da mesma maneira que nas variáveis quantitativas discretas. Já para a obtenção das separatrizes utilizamos regras de três. Considere a variável salário (S) nos dados da Tabela 1 do capítulo 3. A Tabela 5 apresenta a distribuiçãode frequências desta variável e indica o ponto médio de cada classe . Tabela 5: Distribuição de frequências dos 36 empregados da seção de orçamentos da Companhia MB, segundo os salários. Classe de salários Ponto médio (si) ni fi 100 Fi% 4 |- 8 6 10 0,278 27,8 8 |- 12 10 12 0,333 61,1 12 |- 16 14 8 0,222 83,3 16 |- 20 18 5 0,139 97,2 20 |- 24 22 1 0,028 100 Total 36 1 Quando os dados são agrupados, para calcular a mediana utilizamos regra de três. Veja: ( ) 10, 10.6 ... 1.22 11,22 36 mo S s ≈ + + ≈ = 2 2 2 2 2 2 2 10.(6 11,22) 12.(10 11,22) 8.(14 11,22) 5.(18 11,22) 1.(22 11,22) 36 19,40 19,40 4,4 σ σ σ − + − + − + − + − = = = = 53 2 2 2 8 12 8 22,2% 33,3% [ 8].33,3 4.22,2 22,2 8 .4 10,67 33,3 q q q − − = − = = + = Dessa forma obtém-se uma aproximação para o valor da mediana. Observe que no cálculo acima foi considerada a distância entre a mediana e 8. Outras regras de três poderão ser feitas e você obterá valores próximos de 10,67 para a mediana. Por exemplo, pode-se considerar a distância entre a mediana e 12, entre 4 (início do primeiro intervalo) e a mediana, entre a mediana e 24 (fim do último intervalo), entre outros. A informação dos dados agrupados pode ser comunicada por tabela, como feito anteriormente, ou por histogramas. O cálculo das medidas não muda. Veja o histograma (Figura 6) para a variável salário, cuja informação é a mesma da Tabela 5, e vamos calcular a mediana. Figura 6: Histograma para a variável salário dos 36 empregados da seção de orçamentos da Companhia MB. A mediana deve corresponder ao valor da abcissa que divide a área ao meio, ou seja, que deixa 50% de área à sua esquerda. Como a primeira classe abrange 28% da área, faltam 22% até a mediana, ou seja, a mediana é um valor entre 8 e 12. Utilizando proporcionalidade tem-se: (0,50) 8 12 8 22% 33% 33 22 [ (0,50) 8]. 4. 100 100 22 (0,50) 8 .4 10,67 33 q q q − − = − = = + = 54 Vamos calcular também o primeiro quartil, q(0,25). Este valor corresponde a 25% de área e, portanto, encontra-se na 1ª classe. Exercício: calcule o terceiro quartil, q(0,75). Veja outro exemplo. Considere as notas de 200 alunos dadas na Tabela 6 abaixo e calcule os quartis e o segundo decil. Tabela 6: Notas de 200 alunos e suas frequências absolutas Notas ni 0 |- 2 28 2 |- 4 40 4 |- 6 50 6 |- 8 65 8 |- 10 17 Total 200 Para encontrar os quartis, é necessário obter as porcentagens acumuladas. Isto está feito na Tabela 7. Tabela 7: Notas de 200 alunos e suas frequências absolutas Notas ni fi 100fi % 100fi % Acumulada 0 |- 2 28 0,140 14,0 14,0 2 |- 4 40 0,200 20,0 34,0 4 |- 6 50 0,250 25,0 59,0 6 |- 8 65 0,325 32,5 91,5 8 |- 10 17 0,085 8,5 100,0 Total 200 1 100 O 1º quartil (q(0,25)) é a medida tal que 25% dos dados encontram-se à sua esquerda, então, ele é um valor que se encontra na segunda classe (2 |- 4), já que a primeira contém apenas 14% dos dados. Entre a observação 2 e o q(0,25) tem-se 11% das observações. Assim, (0, 25) 2 4 2 11% 20% 11 (0, 25) 2 .2 3,1 20 q q − − = = + = O segundo quartil, q(0,50), encontra-se na terceira classe, logo, (0,25) 4 8 4 25% 28% 25 (0,25) 4 .4 7,57 28 q q − − = = + = 55 (0,50) 4 6 4 16% 25% 16 (0,50) 4 .2 5,28 25 q q − − = = + = O terceiro quartil, q(0,75), está na quarta classe, portanto, (0,75) 6 8 6 16% 32,5% 16 (0,50) 6 .2 6,98 32,5 q q − − = = + = O segundo decil, q(0,20), é encontrado na segunda classe: (0,20) 2 4 2 6% 20% 6 (0, 20) 2 .2 2,6 20 q q − − = = + = 4.4 BOX PLOT Também chamado de Desenho Esquemático ou Box & Whisker Plot, o Box – Plot é um gráfico que apresenta os quartis, além do mínimo e o máximo valor observado dentro de limites de especificação. Além de avaliar facilmente os valores típicos, permite avaliar a assimetria, a dispersão e os dados discrepantes de conjuntos de dados referentes à variáveis quantitativas. Ele é formado basicamente por um retângulo, representando a mediana e os quartis, e duas linhas que se estendem do menor valor observado até o retângulo e deste até o maior valor observado, considerando-se dois limites, superior e inferior. O limite superior (LS) é dado por 3 1,5 qLS q d= + e o limite inferior (LI) por 1 1,5 qLI q d= − Os valores do conjunto de dados que se encontram entre os dois limites são denominados valores adjacentes. Valores fora desses limites, isto é, valores maiores que LS ou menores que LI, são denominados valores discrepantes. Eles correspondem a pontos exteriores, observações destoantes das demais que podem ou não ser o que se chama outliers ou valores atípicos. Do ponto de vista estatístico um outlier pode ser um produto de um erro de observação ou de arredondamento. 56 4.3.1 Como traçar o Box Plot. Primeiramente calcula-se os valores da Mediana, 1º Quartil (Inferior) e 3º Quartil (Superior). Traçam-se dois retângulos (duas caixas): uma representa a “distância” entre a Mediana e o 1º Quartil, e o outro a “distância” entre o 3º Quartil e a Mediana. A partir dos quartis 1 e 3 são desenhadas linhas verticais até os últimos valores não discrepantes, tanto abaixo quanto acima. A Figura 7 ilustra a construção do Box Plot. Figura 7: Construção do Box Plot (Chiann, 2017 [2]). 4.3.2 Interpretação do Box PLot Como dito anteriormente, o Box Plot dá Ideia da posição, dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a dispersão pela distância interquartílica dq. A assimetria é avaliada de acordo com a posição dos três quartis. O comprimento das caudas da distribuição é dado pelo comprimento das linhas que vão do retângulo até os valores mais remotos e pelos valores atípicos. A Figura 8 abaixo ilustra a forma da distribuição de acordo com o Box Plot. 57 Fonte: Chiann, 2017 [2]. Exemplo1- (Reis, 2016) Sejam as alturas de homens adultos a seguir. 142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170 172 173 173 173 174 174 177 178 179 180 181 181 183 183 184 198 204 205 Construir o diagrama em caixas e analisar os resultados. Resolução: 1) Ordenar os dados: já estão ordenados. 2) Calcular Mediana, Quartis Inferior e Superior Mediana (Md) • Posição: .( 1) 0,5.(35 1) 18p n + = + = • Valor: 18(0,50) 172q x cm= = 1º Quartil (q1) • Posição: .( 1) 0, 25.(35 1) 9p n + = + = • Valor: 9(0,25) 166q x cm= = 3º Quartil: (q3) 58 • Posição: .( 1) 0,75.(35 1) 27p n + = + = • Valor: 27(0,75) 180q x cm= = 3)Identificar os extremos: superior = 205 cm inferior = 142 cm. 4) q3 - Md=180 -172=8 cm; Md – q1 = 172 - 166 = 6 cm. 5) Valores discrepantes: obtidos pelos limites LS e LI. • 3 1 180 166 14qd q q= − = − = • 1 1,5 166 1,5.14 145qLI q d= − = − = • 3 1,5 180 1,5.14 201qLS q d= + = + = 6) Construir o gráfico ( Figura 9) Figura 9: Box-Plot para altura de homens adultos (Reis, 2016) Na Figura 9 pode ser observada uma ligeira assimetria à direita, pois a distância entre q3 e a mediana é maior que a distância entre q1 e a mediana, a distância entre xn e a mediana (33) é maior que a distância entre x1 e a mediana (30). Observa-se também a presença de valores discrepantes, tanto acima quanto abaixo. No que se refere à dispersão, não há um padrão para comparação. Exemplo 2: Na Figura 10, são apresentados 36 tempos de sobrevivência (em dias) e o Box Plot para este conjunto de dados. Observa-se que: • a distância (8) entre q3 e a mediana é menor que a distância (11,25) entre q1 e a mediana; • a distância (74,5) entre xn (x36 = 116) e a mediana é maior que a distância (23,5) entre x1 e a mediana; 59 • a distância (66,5) entre xn e q3 é maior que a distância (12,25) entre q1 e x1. Assim, a distribuição do conjunto é assimétrica à direita. Figura 10: Dados de tempo de sobrevivência e Box Plot (Chiann, 2017 [2]). No gráfico podem ser observados dois valores discrepantes. Eles podem ser provenientes de um erro ou representar de fato algo que é real. Se confirmado que eles são provenientes de um erro, pode-se desconsiderá-los e refazer os cálculos sem esses dois dados atípicos. Nessecaso observa-se que: • a distância entre q3 (47,5) e a mediana (39,5) é menor que a distância entre q1 (29,5) e a mediana; • a distância entre xn (x34 = 61) e a mediana é igual à distância entre x1 e a mediana; • a distância (13,5) entre xn e q3 é maior que a distância (11,5) entre q1 e x1. Assim, desconsiderando-se os valores discrepantes, a distribuição dos dados não apresenta assimetria tão acentuada quanto antes, podendo-se dizer que é aproximadamente simétrica. 60 A construção de um Box Plot pode ser feita utilizando tecnologia. Existem diversos softwares e aplicativos para tal finalidade. O mesmo vale para a distribuição de frequências, os diversos tipos de gráficos, as medidas de posição e dispersão. Como sugestão, menciono o “Excel” e o “LibreOffice Calc” para uso em computadores e os aplicativos “Estatística” e “Calculadora de Estatística” 4.4TRANSFORMAÇÕES Muitos procedimentos estatísticos pressupõem normalidade ou simetria do conjunto de dados. Mas, em muitas situações essa pressuposição não é atendida e existe a possibilidade de valores atípicos. Uma alternativa para resolver o problema e obter dados mais aproximadamente simétricos e uma distribuição próxima da normal é transformá-los por alguma função. As principais transformações são: ( ) , 0 ln( ), 0 , 0 p p p x se p x x se p x se p > = = − < Na prática, utiliza-se mais de uma transformação; para cada valor de p obtém-se gráficos para os dados originais e para os dados transformados e escolhe o valor de p mais adequado, isto é, escolhe-se a transformação que torna os dados mais simétricos. Para distribuições assimétricas à direita, toma-se valores de p tais que 0<p<1, pois valores grandes de x decrescem mais, relativamente a valores pequenos. Analogamente, para distribuições assimétricas à esquerda, toma-se p>1. Considere os dados de populações do CD-Municípios e tome alguns valores de p: 0, 1/4, 1/3, ½. A Figura 11 abaixo apresenta os histogramas para os dados transformados. Observa-se que p = 0 (transformação logarítmica) e p = 1/3 (transformação raiz cúbica) fornecem distribuições mais próximas de uma distribuição simétrica. 61 Figura 11: Histogramas para os dados Cd – Municípios transformados (Bussab & Morettin, 2007) 62 EXERCÍCIOS PROPOSTOS: (Larson e Farber, 2010) Nos exercícios 1 a 4, encontre a média, a moda e a mediana dos dados, se possível. Se quaisquer dessas medidas não puderem ser encontradas explique o porquê. 1. Os pontos médios por jogo marcados por cada time durante a temporada regular de 2006. 19,6 18,2 22,1 18,8 16,9 26,7 23,3 14,9 26,6 19,9 19,1 18,8 16,7 26,7 23,2 20,7 16,2 17,6 24,1 25,8 19,8 22,2 10,5 24,9 22,1 30,8 18,6 20,9 22,9 13,2 20,2 19,2 2. As respostas de uma amostra de 1040 pessoas que foram perguntadas se a qualidade do ar em sua comunidade está melhor ou pior do que estava 10 anos atrás. Melhor: 346 Pior: 450 Igual: 244. 3. A altura (em polegadas) de 18 estudantes do sexo feminino durante uma aula de educação física. Altura (em polegadas) Frequência (ni) 60 |- 63 4 63 |- 66 5 66 |- 69 8 69 |- 72 1 4. As distâncias (em jardas) para nove buracos de um jogo de golf são listadas. 336 393 408 522 147 504 177 375 360 a) Encontre a média e a mediana dos dados b) Converta as distâncias para pés. Refaça a parte (a). c) Compare as medidas encontradas na parte (b) com os resultados na parte (a). O que se pode notar? d) Use os resultados da parte (c) para explicar o conjunto de dados fornecido se as distâncias são medidas em polegadas. 5. Um serviço de teste ao consumidor obteve as seguintes milhas por galão em cinco testes de desempenho com três tipos de carros compactos. Teste 1 Teste 2 Teste 3 Teste 4 Teste 5 Carro A 28 32 28 30 34 Carro B 31 29 31 29 31 Carro C 29 32 28 32 30 63 a) O fabricante do carro A quer anunciar que seu carro teve o melhor desempenho no teste. Que medida da tendência central – média, moda ou mediana – deveria ser usada para essa afirmação? Explique. b) O fabricante do carro B quer anunciar que seu carro teve o melhor desempenho no teste. Que medida da tendência central – média, moda ou mediana – deveria ser usada para essa afirmação? Explique. c) O fabricante do carro C quer anunciar que seu carro teve o melhor desempenho no teste. Que medida da tendência central – média, moda ou mediana – deveria ser usada para essa afirmação? Explique. 6. Estudantes em uma aula de psicologia experimental realizaram uma pesquisa sobre a depressão como sinal de estresse. Um teste foi administrado com uma amostra de 30 estudantes. As notas são fornecidas 44 51 11 90 76 36 64 37 43 72 53 62 36 74 51 72 37 28 38 61 47 63 36 41 22 37 51 46 85 13 a) Encontre a média e a mediana b) Descreva a forma da distribuição das notas, justificando. 7. Encontre a amplitude, a média, a variância, o desvio padrão e o coeficiente de variação do conjunto de dados populacional abaixo: 15 24 17 19 20 18 20 16 21 23 17 18 22 14 8. Encontre a amplitude, a média, a variância, o desvio padrão e o coeficiente de variação do conjunto de dados amostral abaixo: 28 25 21 15 7 14 9 27 21 24 14 17 16. 9. Você está se candidatando a um emprego em duas empresas. A empresa A oferece salários iniciais com µ = $31.000 e σ = $1.000. A empresa B oferece salários iniciais com µ = $31.000 e σ = $5.000. Em qual empresa você mais provavelmente conseguiria uma oferta de $33.000 ou mais? 64 10.Abaixo são apresentados os Box Plot para dois conjuntos de dados, ambos com mediana de 165. Um tem desvio padrão de 16 e o outro de 24. Qual é qual? Explique seu raciocínio. 11.Observe os gráficos a seguir: (i) (ii) (iii) a) Sem calcular, determine qual conjunto de dados tem o maior desvio padrão amostral. Qual tem o menor desvio padrão amostral? Explique. b) Quais as semelhanças entre os conjuntos de dados? E as diferenças? 65 12.Observe os gráficos a seguir: (i) (ii) (iii) a) Sem calcular, determine qual conjunto de dados tem o maior desvio padrão amostral. Qual tem o menor desvio padrão amostral? Explique. b) Quais as semelhanças entre os conjuntos de dados? E as diferenças? 13.Os resultados de uma amostra aleatória do número de animais de estimação em certa região são mostrados no histograma. Estime a média amostral e o desvio padrão amostral do conjunto de dados. 14.A tabela seguinte mostra as alturas (em polegadas) e pesos (em libras) dos membros de um time de basquete. Encontre o coeficiente de variação para cada conjunto de dados. O que se pode concluir? Alturas Pesos 72 180 74 168 68 225 76 201 74 189 69 192 72 197 79 162 70 174 69 171 66 77 185 73 210 15.Uma amostra dos salários anuais (em milhares de dólares) dos funcionários de uma empresa é listada a seguir. 42 36 48 51 39 39 42 36 48 33 39 42 45 a) Encontre a média amostral e o desvio padrão amostral b) Cada funcionário na amostra recebe 5% de aumento. Encontre a média amostral e o desvio padrão amostral para o conjunto de dados revisados. c) Para calcular o salário mensal, divida cada salário original por 12. Encontre a média amostral e o desvio padrão amostral para o conjunto de dados revisados. d) O que se pode concluir com os resultados de (a), (b) e (c)? 16.A altura (em polegadas) de 18 estudantes do sexo feminino durante uma aula de educação física foi dada no exercício 4. Calcule a variância, o desvio padrão e o coeficiente de variação para estes dados considerando que: a) Trata-se de uma população b) Trata-se de uma amostra. 17.Encontre os três quartis e construa o Box Plot para os dados a seguir: 2 7 1 3 1 2 8 9 9 2 5 4 7 3 7 5 4 7 2 3 5 5 9 5 6 3 9 3 4 9 8 8 2 3 9 5 18.Os gols marcados por jogo por um time de futebol representam o primeiro quartil para todos os times da liga. O que podemos concluir sobre os gols marcados pelo time por jogo? 19. Observe o Box Plot a seguir, referente a notas dos testes de 15 funcionários matriculados em um curso de treinamento. 67 a) Qual a entrada mínima? b) Qual a entrada máxima? c) Identifique o primeiro, o segundo e o terceiro quartil. d)
Compartilhar