Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CAMPUS MULTIDISCIPLINAR DE PAU DOS FERROS Estatística (Notas de Aula) Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br Pau dos Ferros RN mailto:andre.rocha@ufersa.edu.br André Luiz Sena da Rocha Tem graduação em Estatística pela Universidade Federal do Rio Grande do Norte (UFRN); Graduação em Logística pela Universidade Estácio de Sá (UNESA); Graduação em Engenharia de Produção (UNESA); Especialização em Engenharia de Segurança do Trabalho pela Universidade Cruzeiro do Sul (UNICSUL), Mestrado em Engenharia de Produção (UFRN) e cursa o doutorado em Engenharia de Petróleo (UFRN). Têm experiência em Estatística, Controle e gestão da qualidade e de processos, Logística, Segurança do Trabalho, Planejamento e controle da produção, Engenharia econômica. Atua principalmente na área de Controle Estatístico de Processos off-line e em tempo real (on-line), através de cadeias de Markov com uso de critérios econômicos. Foi professor do departamento de Estatística na UFRN entre 2011 e 2012, ministrando disciplinas de Estatística Aplicada aos cursos de: Engenharia, Matemática, Química, Física, Estatística, Bacharelado em Ciências e Tecnologia, Medicina, Biomedicina, Ciências Biológicas, Educação Física, Administração, Turismo, Biblioteconomia, Pedagogia e Gestão de Políticas Públicas. Também é autor do livro de Estatística utilizado no Ensino à Distância do Curso de Licenciatura em Matemática pela Universidade Federal Rural do Semi-Árido (UFERSA). Atualmente é professor do curso de Engenharia de Produção do Campus Multidisciplinar de Angicos (UFERSA), no entanto, no período de 2013 a 2019, foi professor do Campus Multidisciplinar de Pau dos Ferros (UFERSA), ministrando a disciplina de Estatística. ÍNDICE UNIDADE I - ESTATÍSTICA DESCRITIVA ........................................ 7 1.1 - NATUREZA E CAMPO DA ESTATÍSTICA ........................................... 7 1.2 - O MÉTODO ESTATÍSTICO ................................................................ 8 1.3 – POPULAÇÃO E AMOSTRA ................................................................ 9 1.4 – CÁLCULO DO TAMANHO DE AMOSTRA ........................................ 11 1.5 – TIPOS DE AMOSTRAGENS .............................................................. 17 1.6 – TIPOS DE VARIÁVEIS...................................................................... 19 1.7 - REPRESENTAÇÃO TABULAR .......................................................... 21 1.7.1 - Distribuição de Frequências Simples ..................................................................................................................... 24 1.7.2 - Distribuição de Frequências por classes ................................................................................................................ 26 1.8 - REPRESENTAÇÃO GRÁFICA ................................................. 32 1.8.1 - Gráfico de Setores ........................................................................................................................................ 32 1.8.2 - Gráfico de Colunas ...................................................................................................................................... 33 1.8.3 - Gráfico de Barras ......................................................................................................................................... 34 1.9 – MEDIDAS DE TENDÊNCIA CENTRAL ........................................................ 35 1.9.1 - Média Aritmética ......................................................................................................................................... 35 1.9.2 – Mediana ....................................................................................................................................................... 36 1.9.3 - Moda ............................................................................................................................................................ 39 1.9.4 – Separatrizes ................................................................................................................................................. 41 1.10 - MEDIDAS DE DISPERSÃO ............................................................. 45 1.10.1 – Variância ................................................................................................................................................... 46 1.10.2 - Desvio Padrão ............................................................................................................................................ 48 1.10.3 - Coeficiente de Variação ............................................................................................................................. 50 1.11 - ANÁLISE EXPLORATÓRIA DE DADOS .......................................... 52 1.11.1 - Esquema dos 5-Números ........................................................................................................................... 52 1.11.2 – BOX-PLOT ............................................................................................................................................... 53 LISTA DE EXERCÍCIOS ................................................................... 65 UNIDADE II - PROBABILIDADE ....................................................... 81 2.1 - EXPERIMENTOS ALEATÓRIOS ....................................................... 82 2.2 - ESPAÇO AMOSTRAL ....................................................................... 82 2.3 - EVENTOS ......................................................................................... 83 2.4 - RESULTADOS EQUIPROVÁVEIS ..................................................... 86 1.5 – DEFINIÇÕES DE PROBABILIDADE ................................................. 87 2.6 - PROBABILIDADE CONDICIONAL .................................................... 91 2.7 - EVENTOS INDEPENDENTES ............................................................ 93 2.8 – VARIÁVEL ALEATÓRIA UNIDIMENSIONAL .................................. 95 2.9 - MODELOS DE PROBABILIDADE DISCRETOS ................................. 96 2.9.1 – Ensaios de Bernoulli .................................................................................................................................... 96 2.9.2 - Distribuição Binomial .................................................................................................................................. 97 2.9.3 - Distribuição de Poisson .............................................................................................................................. 102 2.10 - PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS ................................. 104 2.10.1 - Distribuição Exponencial ......................................................................................................................... 104 2.10.3 – Distribuição Normal ................................................................................................................................ 107 2.10.4 - Distribuição t de Student .......................................................................................................................... 114 LISTA DE EXERCÍCIOS ............................................................................... 117 UNIDADE III - INFERÊNCIA ESTATÍSTICA ................................ 126 3.1 - DISTRIBUIÇÃO AMOSTRAL .......................................................... 128 3.1.1 – Distribuição Amostral da Média ............................................................................................................... 128 3.1.2 – DistribuiçãoAmostral da Proporção ......................................................................................................... 129 3.2 - ESTIMAÇÃO POR PONTO E INTERVALO ...................................... 130 3.2.1 - Estimação Pontual ...................................................................................................................................... 130 3.2.2 - Estimação Intervalar .................................................................................................................................. 130 3.2.2.1- Intervalo de confiança para a média ................................................................................................................. 132 3.2.2.2 - Intervalo de confiança para a proporção .......................................................................................................... 136 3.3 - TESTES DE HIPÓTESES ................................................................. 137 3.3.1 – Inferência para uma população .................................................................................................................. 140 3.3.1.1 Teste para a Média quando σ2 é conhecido ........................................................................................................ 140 3.3.1.2 - Teste para a Média quando σ2 é desconhecido ................................................................................................ 144 3.3.1.3 - Teste para Proporções ...................................................................................................................................... 148 3.3.1 – Inferência para duas populações ................................................................................................................ 150 3.3.1.1 Teste para a diferença entre médias ................................................................................................................... 150 3.3.1.2 - Teste para diferença entre proporções ............................................................................................................. 155 3.3.4 - Valor-P ...................................................................................................................................................... 159 LISTA DE EXERCÍCIOS ................................................................. 162 UNIDADE IV - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES ................................................................................................ 169 4.1 - COEFICIENTE DE CORRELAÇÃO ................................................. 172 4.1.2 - Teste de correlação........................................................................................................................................245 4.2 - MODELO DE REGRESSÃO LINEAR SIMPLES ............................... 186 4.2.1 - Determinação da equação de regressão linear simples .............................................................................. 187 4.2.1 - Estimadores de Mínimos Quadrados ......................................................................................................... 188 4.2.3 – Resíduos .................................................................................................................................................... 191 4.2.4 – Inferências sobre 1 ................................................................................................................................... 193 4.2.4.1 – Estimador da variância de b1 ........................................................................................................................ 193 4.2.4.2 – Intervalo de Confiança para β1 ..................................................................................................................... 194 4.2.4.3 – Teste de hipótese sobre β1 ............................................................................................................................ 195 4.2.3 – Predições ................................................................................................................................................... 196 4.2.4 – Intervalo de confiança para E(Yh) .............................................................................................................. 197 4.2.5 – Intervalo de predição para uma nova observação ...................................................................................... 197 4.2.6 – ANOVA .................................................................................................................................................... 199 4.2.7 – O Coeficiente de Determinação (R 2 ) ......................................................................................................... 201 4.2.8 – Análise de adequação do modelo .............................................................................................................. 202 LISTA DE EXERCÍCIOS ................................................................. 208 REFERÊNCIAS ANEXOS ANEXO A - DISTRIBUIÇÃO NORMAL PADRÃO ANEXO B - DISTRIBUIÇÃO T DE STUDENT ANEXO C – DISTRIBUIÇÃO F DE FISHER ANEXO D - APROXIMAÇÕES POR ARREDONDAMENTO ANEXO E - GABARITO DOS EXERCÍCIOS PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 7 UNIDADE I ESTATÍSTICA DESCRITIVA 1.1 - Natureza e Campo da Estatística Estatística é a ciência que diz respeito à coleta, apresentação e análise de dados quantitativos, de tal forma que seja possível efetuar julgamentos sobre os mesmos. Ramos da Estatística: a) Estatística descritiva trata da observação de fenômenos de mesma natureza, da coleta de dados numéricos referentes a esses fenômenos, da sua organização e classificação através de tabelas e gráficos, bem como da análise e interpretação. b) Probabilidade estatística utilizada para analisar situações que envolvem o acaso (aleatoriedade). c) Inferência estatística estuda as características de uma população com base em dados obtidos de amostras. OBS: Estatística Indutiva pode ser denominada como inferência. Portanto, a estatística indutiva estuda as características de uma população, com base em dados obtidos de amostras. Inferência = Indução + Margem de Erro PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 8 1.2 - O Método Estatístico A realização de uma pesquisa deve passar, necessariamente pelas fases apresentadas abaixo: 1) Definição do problema Saber exatamente o que se pretende pesquisar, ou seja, definir corretamente o problema. 2) Planejamento determinar o procedimento necessário para resolver o problema, como levantar informações sobre o assunto objeto do estudo. É importante a escolha das perguntas em um questionário, que na medida do possível, devem ser fechadas. O levantamento de dados pode ser de dois tipos: Censitário e Amostragem. Outros elementos do planejamento de uma pesquisa são: Cronograma das atividades; Custos envolvidos; Exame das informações disponíveis; Delineamento da amostra. 3) Coleta de Dados consiste na busca ou compilação dos dados. Pode ser classificado, quanto ao tempo em: Contínua (inflação, desemprego, etc); Periódica (Censo); Ocasional (pesquisa de mercado, eleitoral) 4) Crítica dos dados objetiva a eliminação de erros capazes de provocar futuros enganos. Faz-se uma revisão crítica dos dados suprimindo os valores estranhos ao levantamento. 5) Apresentação dos dados a organização dos dados denomina-se “Série Estatística”. Sua apresentação pode ocorrer pormeio de tabelas e gráficos. Coletas dos Dados Definição do problema Planejamento Crítica dos Dados Apresentação dos dados Tabelas e Gráficos Análise e interpretação dos dados PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 9 6) Análise e Interpretação dos Dados consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema, descrevendo o fenômeno através do cálculo de medidas estatísticas, especialmente as de posição e as de dispersão. 1.3 – População e Amostra Inferência Obtenção de resultados para uma população com base em observações Estatística extraídas a partir de uma amostra retirada desta população. POPULAÇÃO: É o conjunto de elementos (na totalidade) que têm, em comum, uma determinada característica. Pode ser finita, como o conjunto de alunos de uma determinada escola, ou infinita, como o número de vezes que se pode jogar um dado. AMOSTRA: É qualquer subconjunto da população. A técnica de seleção desse subconjunto de elementos é chamada de Amostragem. Exemplo 1.1: Informe a população e amostra para as situações a seguir: (A) Para saber a aceitação de um novo remédio para dor de cabeça para pessoas do sexo feminino com idades entre 30 a 40 anos, que sofrem de enxaqueca crônica a mais de 10 anos, uma empresa selecionou 200 dessas pessoas e realizou um experimento. Indique: 1) População: Todas as pessoas do sexo feminino de 30 a 40 anos que sofrem de enxaqueca crônica a mais de 10 anos. 2) Amostra: As 200 pessoas com essas características. (B) Um Engenheiro de Materiais selecionou aleatoriamente 7.589 tijolos, dentre os que foram produzidos no dia 24 de junho de 2013, na empresa "Cerâmica e Cia" no turno da manhã, para analisar a resistência à compressão de 280 kg. Não houve critérios adicionais na seleção. Indique: 1) População: Tijolos produzidos no dia 24 de junho de 2013, na empresa "Cerâmica e Cia" no turno da manhã. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 10 2) Amostra: 7.589 tijolos nessas características. (C) Um engenheiro de computação trabalha numa produção de processadores da marca intel. A sua fábrica só trabalha com o modelo "Intel® Core™ i7", sendo cada um construído em 30 segundos. O engenheiro deseja analisar como está as soldas dos componentes eletrônicos desse modelo no último dia de produção da 2º semana do mês de junho de 2013. Para tanto, ele orientou os funcionários a realizarem testes em um processador a cada 15 produzidos. O tempo diário de produção é de 11 horas. Indique: 1) População: Todos os 1.320 processadores da marca Intel, modelo Core i7 no último dia de produção da 2° semana do mês de junho de 2013. 2) Amostra: 88 processadores com essas condições. D) Um engenheiro de produção decide analisar o nível de satisfação da comida do refeitório da fábrica no turno da tarde servida para os funcionários do setor de contabilidade. Para tanto, dentre esses funcionários, ele sorteou 50 que estão na empresa há mais de 10 anos, 25 que estão entre 5 e 10 anos e 15 funcionários que estão na instituição abaixo de 5 anos. Após a seleção, foi aplicado um questionário indagando sobre a qualidade da comida. Indique: 1) População: Todos funcionários do setor de contabilidade que comem no refeitório no turno da tarde; 2) Amostra: 90 funcionários com essas condições. (E) Um aluno de Biblioteconomia está fazendo um levantamento de todas as Dissertações do curso de História, Geografia e Pedagogia, defendidas a partir do ano de 2000 e que estão cadastradas no banco de dados da Biblioteca Zila Mamede. Dentre elas eles selecionou 10 de cada curso e contabilizou as datas de defesa. Indique: 1) População: Todas as Dissertações do curso de Geografia, História e Pedagogia que estão cadastradas no banco de dados da Biblioteca Zila Mamede e foram defendidas a partir do ano de 2000; 2) Amostra: As 30 dissertações selecionadas pelo aluno. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 11 1.4 – Cálculo do tamanho de amostra Na maioria das pesquisas científicas é praticamente impossível se avaliar todos elementos que compõem uma população de interesse de estudo. Isto se deve principalmente ao custo e tempo necessário para coletar dados de toda população. Exemplo: Estudar a condição de saúde bucal das crianças de 12 anos de um município. A população de interesse de estudo é muito grande. Teríamos um alto custo e demoraríamos muito tempo para coletarmos dados de todas crianças de 12 anos. Com a finalidade de estudar a população retiramos desta população uma Amostra parte representativa que chamamos de amostra e coletamos dados apenas desta amostra. Para representar bem uma população a amostra deve ter quantidade e qualidade. A qualidade da amostra se refere a “como e onde selecionar” os elementos da amostra. Essa qualidade é garantida pelo pesquisador delimitando o universo capaz de ser representado; representando todos estratos (quando houver); utilizando método aleatório (sorteio) para selecionar os elementos da amostra (Amostragem Aleatória Simples, Amostragem Aleatória Estratificada, Amostragem Aleatória Sistemática) A quantidade da amostra se dá de acordo com a população estudada. O cálculo depende das características da população; da pesquisa; do grau de precisão desejado pelo pesquisador; do tamanho da população; de como a amostra é selecionada (tipo de amostragem) e das possíveis perdas de elementos da amostra. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 12 RELAÇÃO DE QUANTIDADE E QUALIDADE DE POPULAÇÃO E AMOSTRA Boa quantidade sem qualidade Boa qualidade sem quantidade Boa quantidade e boa qualidade População é heterogênea (alta variabilidade) População é homogênea (não existe variabilidade) PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 13 O tamanho de amostra depende da variabilidade da variável na população. Pode ser determinado a partir da variabilidade da população antes de estudar a população por meio de um estudo piloto, informações presentes na literatura ou utilizando a maior variabilidade possível, no caso de proporção, p = 0,5. A metodologia utilizada nessas notas de aula será a suposição de variabilidade máxima, metodologia esta utilizada pelos principais órgãos de pesquisa de opinião do País, como o Datafolha. O cálculo do tamanho de amostra é desenvolvido a partir da margem de erro e nível de confiança. Numa pesquisa eleitoral, por exemplo, é praticamente impossível ouvir todas as pessoas dentro de um perfil. Por isso, para realizar pesquisas, é necessário desenhar uma amostra de pessoas que representem o universo a ser explorado. Essas pessoas podem ser classificadas com base em dados demográficos ou comportamentais, dependendo do objetivo da pesquisa. A opinião das pessoas que compõem a amostra vai representar a opinião de todas as pessoas que fazem parte do universo que está sendo pesquisado. A margem de erro é o índice que estima a máxima de erro dos resultados da pesquisa com base na amostra selecionada.Por exemplo, se a margem de erro de uma pesquisa é de 3%, isso significa que se 50% dos entrevistados fizeram uma afirmação, você deve considerar que esse número, na verdade, pode oscilar entre 47% e 53%. Quanto maior o índice de margem de erro, menos precisos são os resultados da pesquisa. Para diminuir a margem de erro é preciso aumentar o tamanho da amostra. No entanto, é importante lembrar que nem sempre é necessário ter uma margem de erro tão baixa, tudo depende do objetivo e do contexto da pesquisa. Já o nível de confiança de uma pesquisa está ligado diretamente com a margem de erro. Ele representa a probabilidade de uma pesquisa ter os mesmos resultados se for aplicada com um outro grupo de pessoas, dentro do mesmo perfil de amostra e com a mesma margem de erro. Por exemplo, se o nível de confiança de uma pesquisa é de 98%, isso significa que, se ela for aplicada 100 vezes, ela daria resultados dentro da margem de erro em 98 casos. Normalmente se utiliza 95% para o nível de confiança e par aa margem de erro, percentuais entre 1% a 10%. O dafatolha normalmente utiliza 2% de margem de erro e 95% de confiança. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 14 CÁLCULO DO TAMANHO DE AMOSTRA O cálculo de n é realizado em duas situações. Quando a população é finita e quando ela é infinita. Quando temos uma população finita, no entanto, seu valor é desconhecido, calculamos supondo que ela é infinita. TAMANHO DE AMOSTRA PARA POPULAÇÃO INFINITA OU DESCONHECIDA Supondo que a população é infinita (ou desconhecida), o cálculo da amostra é dado de acordo com Bolfarine e Bussab (2005): 2/2 2 ˆ ˆ1p p Z n E em que: ̂ = Proporção de elementos que apresentam o fator de interesse (maior valor: 0,5) ̂ = Proporção de elementos que não apresentam o fator de interesse E = Margem de erro (para mais e para menos) – varia de 1% a 10%. Zα/2 = Nível de confiança (Coeficiente da Distribuição Normal ou Gaussiana). Para 90% de confiança Para 95% de confiança Para 99% de confiança Exemplo 1.2: Qual o tamanho da amostra para se determinar a proporção de crianças com cárie na população de um bairro em Natal: A) com 95% de confiança e erro de 5%? B) com 90% de confiança? 2 2 0,5 1 0,5 1,96 384,16 385 0,05 n crianças 2 2 0,5 1 0,5 1,645 270,6 271 0,05 n crianças PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 15 C) com 99% de confiança? Exemplo 1.3: Numa pesquisa para uma eleição presidencial, foram entrevistados 650 eleitores. Qual seria a margem de erro para essa pesquisa? TAMANHO DE AMOSTRA PARA POPULAÇÃO FINITA Supondo que a população é finita e conhecida, o cálculo da amostra é dado de acordo com Bolfarine e Bussab (2005): em que: D = ( ) N = Tamanho da amostra ̂ = Proporção de elementos que apresentam o fator de interesse (maior valor: 0,5) ̂ = Proporção de elementos que não apresentam o fator de interesse E = Margem de erro (para mais e para menos) – varia de 1% a 10%. Zα/2 = Nível de confiança (Coeficiente da Distribuição Normal) 1 1 ˆ ˆ1 N n N D p p 2 2 0,5 1 0,5 2,575 663,06 664 0,05 n crianças 2 2 2/2 /2 2 2 /2 2 ˆ ˆ ˆ ˆ1 1 ˆ ˆ1 0,5 1 0,5 1,96 0,0384 3,8% 650 p p Z p p Z n E E n p p Z E n E PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 16 TAMANHO DE AMOSTRA PARA POPULAÇÃO FINITA SUPONDO VARIABILIDADE MÁXIMA Caso substitua o valor de ̂ =0,5; tem-se o cálculo de amostra supondo variabilidade máxima. Dessa forma, o valor de “n” de uma população conhecida seria: em que: D = ( ) N = Tamanho da amostra E = Margem de erro (para mais e para menos) – varia de 1% a 10%. Zα/2 = Nível de confiança (Coeficiente da Distribuição Normal) Exemplo 1.4: Um instituto de pesquisas foi contratado para avaliar determinado programa de televisão em uma pequena cidade do interior, cuja população soma 5.000 habitantes. Deseja- se um grau de confiança de 95 % e admite-se uma margem de erro de 3 pontos percentuais. Quantos habitantes deve-se entrevistar? Supondo variabilidade máxima, temos: EXERCÍCIO 1.1: Uma assistente social deseja saber o tamanho da amostra necessário para determinar a proporção da população atendida por uma Unidade de Saúde do bairro do Princesinha, que pertence a Pau dos Ferros. Não foi feito um levantamento prévio da variabilidade da proporção amostral e, portanto, seu valor é desconhecido. Ela quer ter 95% de confiança e margem de erro de ± 5%. Sabendo que para esse estudo será mensurado a opinião do chefe de família de casa residência, e que nesse bairro há 450 casas, quantas residências irá compor a amostra? 4 1 1 N n N D 2 2 /2 0,03 0,0002342 1,96 5.000 879,8 880 4 1 1 4 5.000 1 0,0002342 1 E D Z N n N D PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 17 1.5 – Tipos de amostragens Como já vimos, a inferência estatística tem como objetivo a estimação de parâmetros para uma população tendo como base às informações extraídas através de uma amostra. Neste contexto, o estudo dos mais diversos tipos de procedimentos de amostragem se faz necessário. As técnicas de amostragem podem ser classificadas em dois grandes grupos: a amostragem probabilística e a amostragem não probabilística. 1. Amostragem Probabilística: neste grupo encontram-se os planos amostrais que utilizam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida à priori, de pertencer à amostra. 2. Amostragem Não Probabilística: neste grupo encontram-se os planos amostrais que não utilizam mecanismos aleatórios de seleção dos elementos da amostra, e dessa forma, não existe nenhuma probabilidade associada à seleção desses elementos. Ambos os procedimentos têm vantagens e desvantagens. A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida. Tais medidas já são bem mais difíceis para os procedimentos do outro grupo. Diante disso, amostras probabilísticas são comumente utilizadas na prática. Os tipos de planos de amostragem probabilísticos são os seguintes: Amostragem Aleatória Simples: cada elemento da população tem a mesma chance (ou probabilidade) de ser selecionado. Os elementos são escolhidos através de sorteio. Para isso, tabelas de números aleatórios são frequentemente utilizadas. Por exemplo, selecionar 5 alunos de uma turma usando a lista de chamada. Amostragem Estratificada: a população é dividida em estratos (ou grupos) homogêneos, sendo selecionada uma amostra aleatória simples de cada estrato. Por exemplo, selecionar alunos de 5ª a 8ª série de uma determinada escola. Neste caso, cada série corresponde a um estrato, e de cada estrato uma amostra aleatória simples dos alunos é extraída, lembrando que pra tanto seria necessário sorteio a partir da lista de chamada também. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rochaandre.rocha@ufersa.edu.br 18 Amostragem Sistemática: os elementos são selecionados segundo uma regra pré-definida. É bastante utilizada quando os elementos da população estão arranjados em uma ordem. Por exemplo, se em uma concessionária deseja-se estimar o preço total dos seus carros a partir de uma amostra de 10 carros selecionar possuindo para tanto uma lista dos carros em ordem de preço do maior para o menor, ou do menor para o maior. Uma observação importante é que, por exemplo, se os elementos escolhidos estiverem em ordem não se deve pegar os primeiros elementos, ou os últimos, ou os do meios, deve-se percorrer elementos de cada parte. Exercício 1.1: Informe o tipo de amostragem. a) Para saber a aceitação de um novo remédio para dor de cabeça para pessoas do sexo feminino com idades entre 30 a 40 anos, que sofrem de enxaqueca crônica a mais de 10 anos, uma empresa selecionou 200 dessas pessoas e realizou um experimento. TIPO DE AMOSTRAGEM: b) Um Engenheiro de Materiais selecionou aleatoriamente 7.589 tijolos, dentre os que foram produzidos no dia 24 de junho de 2013, na empresa "Cerâmica e Cia" no turno da manhã, para analisar a resistência à compressão de 280 kg. Não houve critérios adicionais na seleção. TIPO DE AMOSTRAGEM: c) Um engenheiro de computação trabalha numa produção de processadores da marca intel. A sua fábrica só trabalha com o modelo "Intel® Core™ i7", sendo cada um construído em 30 segundos. O engenheiro deseja analisar como está as soldas dos componentes eletrônicos desse modelo no último dia de produção da 2º semana do mês de junho de 2013. Para tanto, ele orientou os funcionários a realizarem testes em um processador a cada 15 produzidos. O tempo diário de produção é de 11 horas. TIPO DE AMOSTRAGEM: d) Um engenheiro de produção decide analisar o nível de satisfação da comida do refeitório da fábrica no turno da tarde servida para os funcionários do setor de contabilidade. Para tanto, dentre esses funcionários, ele sorteou 50 que estão na empresa há mais de 10 anos, PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 19 25 que estão entre 5 e 10 anos e 15 funcionários que estão na instituição abaixo de 5 anos. Após a seleção, foi aplicado um questionário indagando sobre a qualidade da comida. TIPO DE AMOSTRAGEM: e) Um aluno de Biblioteconomia da UFRN está fazendo um levantamento de todas as Dissertações do curso de História, Geografia e Pedagogia, defendidas a partir do ano de 2000 e que estão cadastradas no banco de dados da Biblioteca Zila Mamede. Dentre elas eles selecionou 10 de cada curso e contabilizou as datas de defesa. TIPO DE AMOSTRAGEM: 1.6 – Tipos de variáveis É condição inerente a uma população natural existir variação quanto aos atributos que lhe podem ser estudados. Portanto, a variabilidade é uma característica comum aos dados de observação e experimentos. Um atributo sujeito à variação é descrito em Estatística por uma variável. Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua Variável Qualitativa (não mensurável):os dados podem ser distribuídos em categorias mutuamente exclusivas. Por exemplo, sexo (masculino, feminino), cor, causa de morte, grupo sanguíneo, etc. - Nominal: as categorias podem ser permutáveis (não existe ordem natural dos seus níveis); Exemplo: [masculino, feminino], [sim, não], [a favor, contra]; - Ordinal: as categorias descrevem uma ordenação natural dos seus níveis. Exemplo: [péssimo, ruim, regular, bom, ótimo]. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 20 Variável Quantitativa (mensurável): os dados são expressos através de números. Por exemplo, idade, estatura, peso, etc. - Discreta: Assumem valores que podem ser associados aos números naturais (1, 2, 3, ...). Dá uma ideia de contagem. Exemplo: Número de irmãos dos 30 alunos da turma de Engenharia [0, 1, 2, 5, 3, 4, 1, 0, 2, 3, 5, 4, 0, 1, 2, 2, 1, 0, 1, 1, 2, 0, 0, 3, 2 , 3, 4, 2, 1, 2]. - Contínua: Assume infinitos valores em um dado intervalo. Dá uma ideia de medição. Exemplo: altura e/ou peso de animais ou de pessoas. [1.70, 1.57, 1.80, 1.94, 1.68, 1.71] Exemplo 1.5: Suponha uma corrida dos 100 metros rasos. O tipo de variável muda de acordo com que você classifica a variável. Se classifica pelos nomes dos corredores (Qualitativa Nominal) ou pela ordem de chegada (Qualitativa Ordinal), ou conta quantos atletas passam pela linha de chagada (Quantitativa Discreta) ou o tempo que cada leva para chegar (Quantitativa Contínua). Exercício 1. 2: Classifique com relação ao tipo de variável as seguintes informações: a) Resultado de uma inspeção de peça fabricada (“Defeituosa”;“Não-defeituosa”); PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 21 b) Tempo em horas de alimentação de energia por um gerador de fábrica; c) Temperatura em graus Celsius utilizada no cozimento de telhas e tijolos (“abaixo de 900 °C” , “entre 900 a 1.000 °C”, “Acima de 1.000 °C”); d) Número de carros fabricados pela FORD em certo dia; e) Dias de manutenção nas máquinas de mistura de tintas em 4 indústrias (”Sábado”, ”Terça”, ”Sexta”, “Segunda”); f) Força em toneladas exercida para a ruptura de um cinto de segurança; g) Quantidade de soldas realizadas numa montagem de uma placa mãe (PC); h) Marcas de cimento usados numa obra (“Campeão”,“Poty”,“Mauá”,“Cimpor”); i) Espessura em milímetros de uma chapa galvanizada; j) Quantidade de parafusos utilizados na fabricação de um avião. 1.7 - Representação Tabular Consiste em dispor os dados em linhas e colunas, distribuídas de modo ordenado, segundo algumas regras práticas e obedecendo (ainda) à Resolução nº 886/66, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As tabelas devem conter: a) Título - O quê? (fenômeno). Onde? (época). Quando? (local). b) Cabeçalho - indica o conteúdo das colunas c) Coluna Indicadora - especifica o conteúdo das linhas d) Cabeçalho da coluna indicadora - indica o conteúdo da coluna indicadora e) Corpo - caselas ou células, onde são registrados os dados. f) Rodapé - notas e identificação da fonte de onde foram coletados os dados. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 22 Tabelas com grandes números de dados são cansativas e não dão uma visão rápida e geral do fenômeno. Dessa forma, é necessário que os dados sejam organizados em uma tabela de distribuição de frequências. Estas podem ser simples (dados não-agrupados) ou por classes (dados agrupados). A seguir veremos exemplos de uma distribuição de frequências simples (dados ordinais, nominais e discretos) e por classes (dados contínuos): Tabela 1.1 – Estudo sobre o nível de satisfação de uma disciplina da UFERSA em 2012.2 (Dados Qualitativos Ordinais) Opinião Frequência Frequência (%) Péssimo 27 23,28% Ruim 54 46,55% Regular 15 12,93% Bom 16 13,79% Ótimo 4 3,45% Total 116 100% Fonte:Dados Fictícios PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 23 Tabela 1.2 – Tipo de material mais utilizado no setor de Engenharia Civil no RN segundo 370 empresas (dados qualitativos nominais) Tipo de material Frequência Frequência (%) Ferro 80 21,62% Aço 115 31,08% Ferro Galvanizado 146 39,46% Alumínio 21 5,68% Cobre 8 2,16% Chumbo 80 21,62% Total 370 100% Fonte: Dados Fictícios Tabela 1.3 – Estudo sobre o número de computadores por setor da UFERSA (dados quantitativos discretos) Nº de PC’s por setor Frequência Frequência (%) 8 15 30% 12 21 42% 15 9 18% 18 5 10% Total 50 100% Fonte: Dados Fictícios PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 24 Tabela 1.4 – Temperatura de cozimento de cem mil tijolos de 8 furos Temperatura (°C) Frequência Frequência (%) 700 |- 800 5.018 5,02% 800 |- 900 8.514 8,51% 900 |- 1.000 63.157 63,16% 1.000 |- 1.100 12.489 12,49% 1.100 |-| 1.200 10.822 10,82% Total 100.000 100% Fonte: Dados Fictícios 1.7.1 - Distribuição de Frequências Simples Série estatística para dados nominais, ordinais e discretos, organizados em uma tabela. Construção de uma Distribuição de Frequências: Para a construção de uma distribuição de frequências os seguintes componentes são necessários: Dados Brutos: são os dados apresentados desordenadamente, da forma como foram coletados. Exemplo: Peso (kg) de 14 blocos de concreto (dados brutos): 74 58 69 80 74 95 56 74 76 81 60 57 64 62 Rol: são os dados apresentados em ordem crescente. Exemplo: Peso (kg) de 14 blocos de concreto (em forma de rol): 56 57 58 60 62 64 69 74 74 74 76 80 81 95 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 25 Construção de uma Distribuição de frequências simples 1. Ordenar os dados brutos em forma de rol (ordem crescente) 2. Listar todos os elementos diferentes, numa coluna de nome “X”. 3. Listar a frequência de todos os elementos diferentes numa coluna de nome "fi" ou "frequência". 4. Somar todos os elementos da coluna "fi" (total). Exemplo 1.6: Numa pesquisa feita para detectar o número de filhos de empregados de uma multinacional, foram encontrados os seguintes valores: 1 4 2 5 3 2 0 3 2 1 5 4 2 5 0 3 2 4 2 3 2 3 2 1 4 2 1 3 4 2 Solução: Rol (dados em ordem crescente): 0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 5 5 5 Tabela de Distribuição de Frequências: Tabela 1.5 - Número de filhos por empregado de uma multinacional Número de filhos (X) fi f i% 0 2 6,7 1 4 13,3 2 10 33,3 3 6 20 4 5 16,7 5 3 10 Total 30 100 Fonte: Dados Fictícios Algumas considerações ou conclusões: Qual o número de funcionários que não tem filhos? Qual o seu percentual? PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 26 Quantos funcionários têm cinco filhos e qual o seu percentual? A maioria dos funcionários tem quantos filhos? E a minoria? Informe o percentual de ambos. 1.7.2 - Distribuição de Frequências por classes Série estatística para dados contínuos. Os números são agrupados em classes, com suas respectivas frequências absolutas, relativas e percentuais, com o objetivo de facilitar ao analista o seu estudo. Os seguintes componentes são utilizados apenas em distribuição de frequências em classes: Amplitude Total (A): é a diferença entre o maior valor do rol (LS) e o menor valor (LI). A = LS - LI Número de Classes (c): corresponde à quantidade de classes, nas quais serão agrupados os elementos do rol. Para determinar c, utiliza-se a fórmula de Sturges: C = 1 + (3,33333.....) · log(n) em que n = número de elementos do rol. Amplitude ou Intervalo de Classe (i): geralmente utilizam-se intervalos iguais, obtidos através da fórmula: i = A/C Construção de uma Distribuição de frequências por classes a) Ordenar os dados brutos em forma de rol (ordem crescente) b) Calcular a amplitude total: A = LS - LI c) Calcular o número de classes e arredondar o valor final para um número inteiro utilizando a regra de arredondamento: C = 1 + (3,33333.....) • log(n) d) Calcular o intervalo entre classes: i = A / C. OBS: Lembre-se que o valor de "C" deve estar arredondado para um número inteiro. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 27 e) A 1º coluna será a das classes. O menor número dos dados em rol será o limite inferior da primeira classe (“LI” da fórmula utilizada na amplitude total “A”), a partir do qual todas as outras classes serão definidas a partir deste número, somando ele ao intervalo entre classes. Exemplo: Suponha que os dados abaixo representam as notas de 20 alunos de uma disciplina de Estatística. 7,4 7,4 7,5 7,6 7,6 7,6 7,7 7,8 7,8 7,9 8,0 8,0 8,0 8,0 8,3 8,5 8,5 8,5 8,8 8,9 Como podemos ver, o menor número é 7,4 (LI = 7,4). Já o maior número é 8,9 (LS = 8,9). A quantidade de números é igual a 20 (n = 20). Logo, podemos calcular a amplitude total, o intervalo entre classes e o número de classes (sendo este arredondando para um número inteiro ao final). A = LS - LI = 8,9 - 7,4 = 1,5. C = 1 + 3,333 · log (n) = 1 + 3,333 · log (20) = 1 + 3,333 · 1,301 = 1 + 4,33 = 5,33 ≈ 5. i = A / C = 1,5 / 5 = 0,3. Como o valor de C foi 5, então teremos 5 classes em nossa tabela. Cada classe terá um limite inferior e um limite superior. Para a primeira classe, o limite inferior será sempre o menor valor dos dados, ou seja, o LI. Assim, para o nosso exemplo, o limite inferior da 1º classe será 7,4. Já o limite superior dessa classe será dado pela soma do limite inferior com o intervalo entre classes, ou seja, LSClasse = LI + i = 7,4 + 0,3 = 7,7. Logo, os limites inferior e superior da primeira classe são 7,4 e 7,7. Utilizando o mesmo critério, para a segunda classe, o limite inferior será o limite superior da classe anterior, ou seja, 7,7. Já o limite superior será 7,7 + 0,3 = 8,0. Faremos isso até termos as 5 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 28 classes previamente estabelecidas. Ao término, o limite superior da última classe será o maior valor dos dados, ou seja, o LS = 8,9. f) Para indicar o intervalo, utilizaremos o símbolo |- . No exemplo, o limite inferior da primeira classe é igual a 7,4 e o limite superior da classe será igual a 7,7 (7,4 + i = 7,4 + 0,3). Assim, indicaremos este intervalo como : 7,4 |- 7,7. Isso representa todos os números que estão entre 7,4 e o mais próximo possível de 7,7, porém, caso haja um número igual ao limite superior dessa classe, este deverá ser computado apenas na próxima classe (para o Exemplo, na 2º classe, sendo esta: 7,7 |- (7,7 + 0,3) = 8,0). g) Uma vez definidas as classes, a tabela de frequências pode ser construída, a partir da 2º coluna de nome “frequência” ou simplesmente “fi”, fazendo-se o processo de contagem, que consiste em verificar a qual classe cada dado pertence. Vamos terminar de construira tabela do exemplo. Exemplo: Notas de 20 alunos de uma disciplina de Estatística. 7,4 7,4 7,5 7,6 7,6 7,6 7,7 7,8 7,8 7,9 8,0 8,0 8,0 8,0 8,3 8,5 8,5 8,5 8,8 8,9 A = LS - LI = 8,9 - 7,4 = 1,5. C = 1 + 3,333 · log (n) = 1 + 3,333 · log (20) = 1 + 3,333 · 1,301 = 1 + 4,33 = 5,33 ≈ 5. i = A / C = 1,5 / 5 = 0,3. Notas de 20 alunos de uma turma de Estatística Notas Frequência Frequência (%) 7,4 |- 7,7 6 30% 7,7 |- 8,0 4 20% 8,0 |- 8,3 4 20% 8,3 |- 8,6 4 20% 8,6 |-| 8,9 2 10% Total 20 100% Fonte: Dados Fictícios PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 29 OBSERVAÇÔES Perceba que o número 7,7 foi contado apenas na segunda classe, pois a primeira classe é composta pelos alunos que tiraram a nota de 7,4 até o mais próximo possível de 7,7, mas não chega a este valor. Excepcionalmente na última classe, fechamos o intervalo de ambos os lados e contamos o maior valor nesta classe, logo, apenas na última classe, contamos todos os alunos que tiraram notas entre 8,6 e 8,9. O percentual foi calculado a partir de uma regra de 3 simples: fi% = (fi / Total) · 100. Não se deve esquecer em momento algum de informar o título e fonte da tabela. Em algumas situações, pode-se utilizar uma distribuição de frequências por classes para dados discretos quando todos os números ou a maioria são diferentes. Exemplo 1.7: Construa de uma Distribuição de Frequências com CLASSES para os dados referentes ao Peso (kg) de 14 blocos de concreto: 56 57 58 60 62 64 69 74 74 74 76 80 81 95 Solução: Amplitude Total (A): A = LS – LI = 95 – 56 = 39. Número de Classes (C): C = 1 + (3,33333.....) · log(n) = 1 + 3,333 · log (14) = 4,82 ≈ 5. Intervalo de Classe (i): A=39 e C=5 i = A/C = 39/5 = 7,8. Peso de blocos de concreto Peso (kg) fi fi% 56,0 |- 63,8 5 35,71% 63,8 |- 71,6 2 14,28% 71,6 |- 79,4 4 28,58% 79,4 |- 87,2 2 14,28% 87,2 |-| 95 1 7,14% Total 14 100% Fonte: Dados Fictícios PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 30 Exemplo 1.8: Um determinado hospital está interessado em analisar a quantidade de creatinina (em miligramas por 100 mililitros) encontrada na urina (de 24 horas) de seus pacientes internados com problemas renais. Os dados são os seguintes: 1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38 1,56 1,83 1,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83 1,50 1,46 1,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60 1,59 1,49 1,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58 1,37 1,40 1,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66 1,71 1,44 1,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75 1,57 1,83 1,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40 1,86 2,02 Solução: Rol (dados em ordem crescente): 1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36 1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46 1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51 1,51 1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69 1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,86 1,86 1,86 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02 2,18 2,29 2,34 Amplitude Total (dá uma ideia do campo de variação dos dados): A = LS - LI = (2,34) - (1,08) = 1,26 Analisando-se a quantidade de creatinina encontrada na urina dos 84 pacientes verificou-se que, ocorreu a variação de 1,26 no seu campo (de 1,08 a 2,34). Estabelecer o Número de Classes (c): c = 1 + (3,3333.....) · log(n) = 1 + (3,3333....) · log(84) = 7,414 c = 7 Estabelecer o Intervalo de Classe (i): i = A / c = (1,26) / 7 = 0,18 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 31 Quantidade de creatinina (ml) encontrada na urina de 84 pacientes com problemas renais. Classes fi fi % 1,08 ├ 1,26 5 5,9 1,26 ├ 1,44 13 15,5 1,44 ├ 1,62 32 38,1 1,62 ├ 1,80 18 21,4 1,80 ├ 1,98 11 13,1 1,98 ├ 2,16 2 2,4 2,16 2,34 3 3,6 Total 84 100 Fonte: Dados fictícios Observação 1: O melhor valor para representar cada classe é o ponto médio (Pm), o qual se obtém pela fórmula: Pm = Li + (i / 2), ou ainda, Pm = (Li + Ls) / 2 Observação 2: 1,08 |- 1,26, intervalo fechado à esquerda (pertencem a classe valores iguais ao extremo inferior) e aberto à direita (não pertencem a classe valores iguais ao extremo superior). De forma análoga, 2,16 |-| 2,34, intervalo fechado à esquerda e à direita. Exercício 1.3: Na fabricação de semicondutores, o ataque químico por via úmida é frequentemente usado para remover silicone da parte posterior das pastilhas antes da metalização. A taxa de ataque é uma característica importante no processo. Um tipo de solução pra ataque químico foi estudada, usando uma amostra de 50 pastilhas. As taxas observadas de ataque (10 -3 mils/min) são dadas a seguir: 2,1 4,2 2,7 28,2 9,9 9 2 6,6 3,9 1,6 14,7 9,6 16,1 8,1 8,2 20,2 6,9 4,3 3,3 1,2 4,1 18,4 0,2 6,1 13,5 7,4 0,2 8,3 0,3 1,3 14,1 1,0 2,4 2,4 16,2 8,7 24,1 1,4 8,2 5,8 1,6 3,5 12,2 18 26,7 3,7 12,3 23,1 5,6 0,4 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 32 1.8 - REPRESENTAÇÃO GRÁFICA Todo o gráfico deve apresentar título (pode ser colocado tanto acima como abaixo) e escala (crescem da esquerda para a direita e de baixo para cima). As legendas devem ser colocadas à direita ou abaixo do gráfico. A seguir vemos os principais tipos de gráficos: 1.8.1 - Gráfico de Setores Também conhecido como Gráfico de Pizza, este gráfico é usado quando cada valor representa uma parte de um todo. É, então, usado um círculo de raio qualquer, com a área ou ângulo total sendo proporcional ao total (100%) da série de dados a representar e a área ou ângulo de cada setor circular sendo proporcional a cada dado da série. Exemplo de um gráfico de setores Tabela 1.6: Principais rações caninas vendidas numa certa cidade em 2010 Marca da Ração Percentual (%) Caninu’s 18 Campeão 15 Foster 24 Pedigree 43 Fonte: Dados Fictícios Figura 1.1: Principais rações caninas vendidas numa certa cidade em 2010 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 33 1.8.2 - Gráfico de Colunas As variações quantitativas da tabela são representadas por colunas dispostas verticalmente ou horizontalmente. É usado para representar qualquer tipo de série. Tabela 1.7: Principais causas de morte nos EUA em 2004 Tipo de morte Frequência Percentual (%) Acidentes de carro 856 23,70 Álcool 457 12,65 Armas de fogo 985 27,27 Cigarro 247 6,84 Doenças Infecciosas 112 3,10 Doenças Venéreas 98 2,71 Drogas 631 17,47 Obesidade 124 3,43 Outras 102 2,82 Total 3612 100 Fonte: Ie Estatísticas, 2004. Exemplo de um Gráfico de Colunas Figura 1.2: Principais rações caninas vendidas numa certa cidade em 2010 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 34 1.8.3 - Gráfico de Barras Exemplo de um Gráfico de Barras Figura 1.3: Principais causas de morte nos EUA em 2004PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 35 1.9 – Medidas de Tendência Central Os dados quantitativos, apresentados em tabelas e gráficos, constituem a informação básica do problema. Mas é conveniente apresentar medidas que mostrem a informação de maneira resumida. Medidas de Tendência Central são medidas que tendem para o centro da distribuição e têm a capacidade de representá-la como um todo. Dão o valor do ponto em torno do qual os dados se distribuem. As principais são: Média Aritmética, Mediana e Moda e algumas. 1.9.1 - Média Aritmética A média aritmética pode ser definida em dois tipos: populacional ( ) e amostral ( X ). Abaixo é apresentada a média para dados apresentados em forma de rol. A média será: 1 soma de todos os elementos do rol número de elementos do rol n i i x X n Exemplo 1.9: Número de tomadas a serem trocadas em 12 hotéis de Natal (50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74) X =67 Análise: O número médio de tomadas para serem trocadas é de 67 por hotel. DESVANTAGENS NO USO DA MÉDIA A média nem sempre é confiável. Essa medida de tendência central perde eficiência quando na distribuição dos dados, existe a presença de outliers (valores extremos ou valores discrepantes). Nesse caso, a saída seria utilizar outra medida de tendência central, sendo esta a mediana. Veja o exemplo a seguir: PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 36 Exemplo 1.10: Seja as idades em anos completos de 8 pessoas: 20 21 22 20 19 23 22 21 1 20 21 22 20 19 23 22 21 21 8 X anos Se adicionarmos uma pessoa com 101anos (valor extremo superior), teremos como idade média dessas 9 pessoas aproximadamente 30 anos. 20 21 22 20 19 23 22 21 101 2 20 21 22 20 19 23 22 21 101 29,88 30 9 X anos O fato de adicionarmos um outlier superior inflacionou a idade média de 21 para 30 anos, superestimando a mesma. Para situações como essa é mais aconselhável utilizar a Mediana, pois a mesma é insensível à valores discrepantes . 1.9.2 – Mediana Valor que divide a distribuição em duas partes iguais, em relação à quantidade de elementos. Isto é, é o valor que ocupa o centro da distribuição, de onde se conclui que 50% dos elementos ficam abaixo dela e 50% ficam acima. Colocados em ordem crescente, a mediana (Med ou Md) é ou valor que divide a amostra, ou população, em duas partes iguais. Aconselha-se seu uso quando há presença de valores extremos na distribuição dos dados. Uma vez que a Mediana é insensível aos outliers. 0 Med 100% Assim, para se calcular a mediana para dados em rol, serão utilizados dois critérios distintos, um quando o tamanho da amostra (n) é par e outro quando é ímpar. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 37 Se “n” for ímpar: EMed = elemento central (de ordem º 1 2 n ) º 1 2 Med n E Se “n” for par: Med = média aritmética dos dois elementos centrais (de ordem º 2 n e º 1 2 n ) º º 1 2 2 2 Med n n E Exemplo 1.11: Dados em rol de tamanho ímpar: Seja uma amostra do tempo de uso, em anos, de onze capacitores utilizados em máquinas de costura: 1 1 3 3 3 5 8 9 9 11 12 15 19 º 13 1 7 elementodo rol 8anos 2 MedE Interpretação: Como a mediana resultou em 8 anos, então, metade dos capacitores apresentam entre 1 a 8 anos de uso, e a outra metade apresenta entre 8 a 19 anos de uso. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 38 Exemplo 1.12: Dados em rol de tamanho par: Seja uma amostra do tempo de uso, em anos, de doze capacitores utilizados em máquinas de costura: 1 1 3 3 3 5 8 9 9 11 12 15 19 21 º º º º 12 12 1 1 6 72 2 2 2 2 2 2 5 8 6,5 2 Med n n elemento elemento E anos de uso Interpretação: Como a mediana resultou em 6,5 anos, então, metade dos capacitores apresentam entre 1 a 6 anos e meio de uso, e a outra metade apresenta entre 6 anos e meio a 21 anos de uso. Exercício 1.4: Calcule e interprete a mediana para os dados abaixo: a) Número de peças com defeitos em 16 dias de produção. 10 114 61 248 105 12 204 94 124 230 59 159 15 198 164 19 b) Peso em quilogramas de 13 blocos de concreto. 50,7 51,4 52,8 55,4 56 60,7 65,8 71 71 78,4 81,2 90,1 91,4 c) Quantidade de creatinina (em miligramas por 100 mililitros) encontrada na urina (de 24 horas) de pacientes internados com problemas renais. 1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36 1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46 1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51 1,51 1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69 1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,86 1,86 1,86 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02 2,18 2,29 2,34 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 39 1.9.3 - Moda É o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes, ou ainda "o valor que ocorre com maior frequência num conjunto de dados, isto é, o valor mais comum“. Exemplo: Na série 3, 4, 5, 7, 7, 7, 9, 9 Mo = 7 SÉRIE UNIMODAL (TEM UMA ÚNICA MODA) Exemplo: Na série 3, 5, 6, 6, 6, 7, 8 Mo = 6 SÉRIE BIMODAL (OCORREM DUAS MODAS) Exemplo: Na série 2, 5, 5, 5, 6, 7, 9, 9, 9, 10, 10 Mo1 = 5 e Mo2 = 9 SÉRIE TRIMODAL (OCORREM TRÊS MODAS) Exemplo: Na série 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, 9, 9 Mo1 = 4, Mo2 = 7 e Mo3 = 9 SÉRIE POLIMODAL (OCORREM QUATRO OU MAIS MODAS) Exemplo: Na série 0, 0, 1, 3, 3, 4, 7, 8, 8, 11, 12, 12, 13, 13 Mo1 = 0, Mo2 = 3, Mo3 = 8, Mo4 = 12 e Mo5 = 13 SÉRIE AMODAL (NÃO EXISTE MODA) Exemplo: Na série 0, 1, 3, 4, 7, 8 não existe moda Moda de Pearson (MoP) Utilizada mais especificamente, juntamente com X e Med, para mostrar o comportamento da distribuição, em relação a concentração ou não de seus elementos. 3 - 2PMo Med X Utiliza-se a MoP para a análise da assimetria. Existem dois tipos de assimetria e apenas um de simetria: PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 40 a) Assimetria à esquerda ou negativa: oPMMedX A cauda da distribuição está do lado esquerdo do gráfico; b) Simétrica: XMedMoP (concentração no centro); c) Assimetria à direita ou positiva: XMedMoP A cauda da distribuição está do lado direito do gráfico. Observação: A forma como averiguar a simetria de uma distribuição por esse método, não permite a possibilidade de comparação entre medidas de duas ou mais distribuições. Por esse motivo, veremos maisadiante outra forma de averiguar sobre a simetria de uma distribuição. B C A Moda < Mediana < Média Média < Mediana < Moda Moda = Mediana = Média PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 41 Exemplo 1.13: Tempo de SETUP, em minutos, de 10 máquinas de corte de chapas de aço para o corte de chapas de alumínio. Calcule a Moda de Pearson e interprete. 5,8 6,0 6,2 7,0 7,8 7,9 8,0 8,1 8,5 9,4 5,8 6 6,2 7 7,8 8 8 8,1 8,5 9,4 7,57 7,6 10 X ºº Med ( ) 1 5 elemento 6 elemento 7,8 82 2 7,9 minutos 2 2 2 Medn par E n n Calculando a Moda de Pearson, temos: 3 - 2 3 7,9 2 7,6 8,5PMo Med X Interpretação: Como a média é menor que a mediana e este também é inferior a moda de Pearson, então os dados são assimétricos à esquerda, ou seja, a distribuição poderá ser representada dessa forma, o que significa que a maioria das máquinas levam mais tempo de SETUP para cortar chapas de alumínio: 1.9.4 – Separatrizes Além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana, já que se baseiam em sua posição na série. Essas medidas - os quartis, os percentis e os decis - são, juntamente com as medianas, conhecidas pelo nome genérico de separatrizes. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 42 Os quartis, decis e percentis são muito similares à mediana, uma vez que também subdividem a distribuição de medidas de acordo com a proporção das frequências observadas. Enquanto a mediana divide a distribuição em duas metades, os quartis dividem-se em quatro quartos, os decis em 10 partes e os pontos percentis dividem a distribuição em 100 partes. Mediana (Me) divide em duas partes iguais Quartis (Q1, Q2 e Q3) dividem em quatro partes iguais Decis (D1, D2, ..., D9) dividem em dez partes iguais Percentis (P1, P2, ..., P99 ) dividem em cem partes iguais São utilizadas para se conhecer, com precisão, as distribuições dos dados como um todo. As separatrizes podem ser utilizadas tanto em dados não-agrupados (em forma de rol ou em distribuição de frequência simples) tanto quanto em dados agrupados (distribuição de frequências em classes). Relação visual das separatrizes !-------------------!-------------------! Md !---------!---------!---------!---------! Q1 Q2 Q3 !-----!-----!-----!-----!-----!-----!-----!-----!-----!-----! D1 D2 D3 D4 D5 D6 D7 D8 D9 !----------!----------!----------!----------!----------!----------!----------!----------!----------!----------! P10 P20 P30 P40 P50 P60 P70 P80 P90 SEPARATRIZES PARA DADOS NÃO-AGRUPADOS Primeiro encontra-se a posição e em seguida identifica a classe para cada separatriz. As posições são calculadas da seguinte maneira: PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 43 1 – Posição da Mediana: PMe = 2 n 2 – Posição dos Quartis: PQx = . n 4 x , x = 1, 2, 3 3 – Posição dos Decis: PDx = . n 10 x , x = 1, 2, ..., 9 4 – Posição dos Percentis: PPx = . n 100 x , x = 1, 2, ..., 99 em que: x refere-se à determinação da separatriz (exemplo para quartil, x=1,2,3); n refere-se ao número de elementos dos dados ou distribuição. Exemplo 1.14: Considere o tempo (anos) de 24 máquinas utilizadas numa indústria. Calcule os Quartis. 17 18 19 20 21 22 23 24 25 26 27 29 32 33 35 38 39 42 44 46 48 50 54 57 Calculando os quartis, temos: 1 2 3 1 24 6 elemento = 22 anos 4 4 2 24 12 elemento = 29 anos 4 3 24 18 elemento = 42 anos 4 o Q o Q o Q x n P P Mediana P Em relação aos quartis, encontramos os 6º, 12º e o 18º elemento da distribuição dos dados, que correspondem aos números 22, 29 e 42. Assim, podemos concluir que 25% das máquinas têm idade de até 22 anos de uso, como também metade delas têm até 29 anos e 25% têm ao menos 42 anos. 25% das máquinas têm mais de 42 anos de uso na indústria. OBS: No Exemplo, todos os quartis resultaram num elemento inteiro (Q1 = 6º elemento; Q2 = 12°; Q3 = 18°). No entanto, nem sempre isso ocorrerá, pois é possível que o elemento de uma separatriz resulte num valor decimal, como pode ser visto no Exemplo a seguir: PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 44 Exemplo 1.15: Dados em que o elemento as separatriz é decimal: 12 13 17 19 21 22 22 1 1 7 1,75 elemento=??? 4 4 o Q x n P Nesse exemplo, o 1º quartil resultou no elemento 1,75°, ou seja, o Q1 se encontra entre o 1° e o 2° número dos dados em rol. O procedimento será realizar uma ponderação entre esses dois elementos, na qual será dado maior peso ao 2º elemento, uma vez que a separatriz está mais próxima dele que o 1º. A seguir será apresentado a metodologia para esse procedimento: METODOLOGIA QUANDO O ELEMENTO DA SEPATRIZ É DECIMAL 1Sx Sxi i iP x x x pd xi = Primeiro número da ordem da separatriz xi+1 = Segundo número da ordem da separatriz pdSx = Parte decimal do valor de PSx No Exemplo 1.15, temos que: 12 13 12 0,75 12,75SxP OBS: Quando o elemento da separatriz resultar num valor decimal, mesmo se a variável for discreta, deverá ser utilizado este procedimento, no entanto, recomenda-se que ao final, arredonde o nº para um valor inteiro. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 45 Exercício 1.5: Considere o tempo (anos) de 26 máquinas utilizadas numa indústria. Calcule as separatrizes abaixo: 17 18 19 20 21 22 23 24 25 26 27 29 32 33 35 38 39 42 44 46 48 50 54 57 61 62 Calcule e interprete: a) 3º quartil; b) 4º decil e 6º decil; c) 17º e 85º percentil. 1.10 - Medidas De Dispersão Utilizaremos o termo dispersão para indicar o grau de afastamento de um conjunto de números em relação a sua média, pois ainda que consideremos a média como um número que tem a faculdade de representar uma série de valores ela não pode por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. O nosso objetivo é construir medidas que avaliem a representatividade da média, para isto usaremos as medidas de dispersão. Uma breve reflexão sobre as medidas de tendência central permite-nos concluir que elas não são suficientes para caracterizar totalmente uma sequência numérica. Se observarmos as seguintes sequências: X: 70, 70, 70, 70, 70 Y: 67, 70, 70, 71, 72 Z: 1, 44, 70, 70, 165 Calculando a média aritmética de cada um desses conjuntos, obtemos: 350 70 5 ix X X n iy 350 Y 70 n 5 iz 350 Z 70 n 5 PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br46 Observamos, então, que os três conjuntos apresentam a mesma média aritmética igual a 70. Calculando a mediana para os três, dará também o mesmo resultado, ou seja, 70. Assim, pensaríamos que essas três variáveis são iguais, no entanto, são sequências completamente distintas do ponto de vista da variabilidade de dados. Na sequência X, não há variabilidade dos dados. A média 70 representa bem qualquer valor da série. Na sequência Y, a média 70 representa bem a série, mas existem elementos da série levemente diferenciados da média 70. Na sequência Z, existem muitos elementos bastante diferenciados da média 70. Concluímos que a média 70 representa otimamente a sequência X, representa razoavelmente bem a sequência Y, mas não representa bem a sequência Z. Nosso objetivo é construir medidas que avaliem a representatividade da média. Para isto, usaremos as medidas de dispersão. Observe que na sequência X os dados estão totalmente concentrados sobre a média 70, não há dispersão de dados. Na sequência Y, há forte concentração dos dados sobre a média 70, mas há fraca dispersão de dados. Já na série Z há fraca concentração de dados em torno da média 70 e forte dispersão de dados em relação à média 70. As principais medidas de dispersão absolutas são: amplitude total, variância, desvio padrão e coeficiente de variação. 1.10.1 – Variância È a medida de dispersão mais utilizada. É definida como sendo o quociente entre a soma dos quadrados dos desvios e o número de elementos. É classificada em dois tipos: Variância Populacional ( 2 ) 2 2 i X X N Variância Amostral (s 2 ) 2 2 1 iX X S n OBS: O valor da variância eleva a unidade de medida ao quadrado. Por exemplo, dados em anos, o resultado da variância será dada em anos quadrados. Veja o exemplo a seguir. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 47 Exemplo 1.16: Calcule a variância da estatura do tempo em anos do funcionamento de 5 geradores de certa indústria automobilística: 1,92 1,72 1,82 1,80 1,84 Antes de calcular a variância, é necessário calcular a média ( X ). Logo: 1,92 1,72 1,82 1,80 1,84 9,1 1,82 5 5 X anos 2 2 2 2 2 2 2 2 2 2 2 2 2 1,92 1,82 1,72 1,82 1,82 1,82 1,80 1,82 1,84 1,82 1 5 1 0,1 0,1 0 0,02 0,02 0,01 0,01 0 0,0004 0,0004 4 4 0,0208 0,0052 anos . 4 iX X S n Exercício 1.6: Calcule a variância do número de incisões feitas em três crianças numa cirurgia dos membros superiores e inferiores. Comenta sobre a variabilidade. Laboratório Corpo de prova I II III IV A 2,59 1,45 1,09 4,79 B 1,99 1,99 1,99 1,99 C 0,80 0,01 3,98 7,59 ATENÇÃO: “Desvantagem” do uso da variância No cálculo da variância, quando elevamos ao quadrado a diferença )x(x i , a unidade de medida da série fica também elevada ao quadrado. Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados são expressos em metros, a variância é expressa em metros quadrados. No entanto, em algumas PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 48 situações, a unidade de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados. Logo, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Nesse caso, o que podemos fazer? Solução: Utilizar o DESVIO PADRÃO como medida. 1.10.2 - Desvio Padrão Medida de dispersão que apresenta as propriedades da variância e apresenta a mesma unidade de medida dos dados. É a raiz quadrada da variância. Notações: 1) Quando a sequência de dados representa uma população a variância será denotada por 2 e o desvio padrão correspondente por . 2) Quando a sequência de dados representa uma amostra a variância será denotada por 2S e o desvio padrão correspondente por S. Desvio Padrão Populacional (σ) 2 iX X N Desvio Padrão Amostral (s) 2 1 iX X S n OBS: Quanto maior o valor do desvio padrão significa que mais dispersos estão os elementos em torno de sua média. Exercício 1.7: Calcule o desvio-padrão do Exercício 1.6. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 49 Interpretação do Desvio Padrão O desvio padrão é, sem dúvida, a mais importante das medidas de dispersão. É fundamental que o interessado consiga relacionar o valor obtido do desvio padrão com os dados da série. Quando uma curva de frequência representativa da série é perfeitamente simétrica ( MoMdX ), podemos afirmar que os intervalos: ] x ,x[ contém aproximadamente 68% dos valores da série. ]2 x ,2x[ contém aproximadamente 95% dos valores da série. ]3 x ,3x[ contém aproximadamente 99% dos valores da série. OBS: Quando a distribuição não é perfeitamente simétrica, estes percentuais apresentam pequenas variações para mais ou para menos, segundo o caso. Ou seja, na presença de assimetria ou outliers, as três propriedades definidas acima não ocorrem com exatidão. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 50 Exemplo: Suponha uma série com média 100x e desvio padrão 5 , podemos interpretar estes valores da seguinte forma: 1. Os valores da série estão concentrados em torno de 100. 2. O intervalo [95, 105] contém aproximadamente 68% dos valores da série. O intervalo [90, 110] contém aproximadamente 95% dos valores da série. O intervalo [85, 115] contém aproximadamente 99% dos valores da série. 1.10.3 - Coeficiente de Variação Dissemos antes que, por serem as unidades do desvio-padrão as mesmas que as unidades dos dados originais, é mais fácil entender o desvio-padrão do que a variância. No entanto, aquela mesma propriedade torna difícil comparar a variação para valores originados de diferentes populações, ou seja, quando as medidas de duas ou mais variáveis são expressas em unidades diferentes como peso/altura, capacidade/comprimento, etc. Usa-se então o Coeficiente de Variação (CV), que é uma medida relativa, que expressa o desvio padrão como uma porcentagem da média aritmética e ele não tem unidade específica. Quanto mais próximo de zero, mais homogênea é a distribuição. Quanto mais distante, mais dispersas. O CV mede a dispersão em relação à média. É a razão entre o desvio padrão e a média. O resultado obtido dessa operação é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem. 100 s CV X ANÁLISE: 1. DISPERSÃO BAIXA: CV ≤ 15% 2. DISPERSÃO MÉDIA: 15% ≤ CV ≤ 30% 3. DISPERSÃO ALTA: CV ≥ 30% OBS.: Um CV alto indica que a dispersão dos dados em torno da média é muito grande. PVE004 – Estatística – Prof. Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br 51 Exemplo 1.17: Alturas e Pesos de Homens. Usando os dados amostrais de alturas e pesos de 40 homens de uma turma de estatística, encontramos as estatísticas dadas
Compartilhar