Baixe o app para aproveitar ainda mais
Prévia do material em texto
Notas de aula PROBABILIDADE E ESTATÍSTICA Eng. Bioprocessos e Biotecnologia Daniela Trentin Nava e Regiane Slongo Fagundes 1 2 2 de Março de 2020 1Professoras da UTFPR - Câmpus Toledo. 2Esta apostila é o resultado de compilações encontradas em diversos materiais pesquisados e que constam na bibliografia. Conteúdo 1 Conceitos iniciais 4 1.1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 O que é ESTATÍSTICA???? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Pesquisas, dados, variabilidade e estat́ıstica . . . . . . . . . . . . . . . . . . . . . . 6 1.4 Pesquisa Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.1 Finalidade da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.2 Tipos de Pesquisas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.5 Estat́ıstica descritiva e inferência estat́ıstica . . . . . . . . . . . . . . . . . . . . . 10 1.6 População e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.1 Terminologia Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.7 Classificação das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.7.1 Variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.7.2 Variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.7.3 Natureza dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2 Amostragem 16 2.1 Amostragem probabiĺıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.1 Amostragem casual simples . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.1.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.1.4 Amostragem por meio de conglomerados . . . . . . . . . . . . . . . . . . . 21 2.2 Amostragem não-probabiĺıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2.1 Amostragem a Esmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2.2 Amostragem intencional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.3 Amostragem por cota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3 Estat́ıstica Descritiva 28 3.1 Organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.1 Tabelas de distribuições de frequências . . . . . . . . . . . . . . . . . . . . 29 3.1.2 Tabela de distribuição de frequências bidimensional . . . . . . . . . . . . . 33 3.2 Apresentações gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.3 Medidas descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3.1 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . 38 1 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 3.3.2 Medidas de dispersão ou Medidas de Variabilidade . . . . . . . . . . . . . . 47 3.3.3 Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4 Elementos de Probabilidade 60 4.1 Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2 Experimento aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.3 Espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.4 Evento Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.5 Definição axiomática de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 64 4.6 Probabilidade condicional e independência . . . . . . . . . . . . . . . . . . . . . . 66 4.7 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.9 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5 Distribuições de Probabilidade 76 5.1 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.1.1 Variáveis aleatórias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.1.2 Variáveis aleatórias cont́ınuas . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2 Distribuições teóricas de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 85 5.2.1 Principais distribuições teóricas discretas de probabilidades . . . . . . . . . 85 5.2.2 Principais distribuições teóricas cont́ınuas de probabilidades . . . . . . . . 94 5.3 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6 Tamanho amostral 116 6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2 Dimensionamento de uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2.1 Variável intervalar e população infinita . . . . . . . . . . . . . . . . . . . . 116 6.2.2 Variável intervalar e população finita . . . . . . . . . . . . . . . . . . . . . 117 6.2.3 Variável Nominal ou ordinal e população infinita . . . . . . . . . . . . . . . 117 6.2.4 Variável Nominal ou ordinal e população finita . . . . . . . . . . . . . . . . 118 7 Estimação 119 7.1 Estimador e Estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.2 Qualidades de um bom estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.3 Estimação por pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.3.1 Estimador da média populacional µ . . . . . . . . . . . . . . . . . . . . . . 120 7.3.2 Estimador da variância populacional σ2 . . . . . . . . . . . . . . . . . . . . 120 7.3.3 Estimador do desvio padrão populacional σ . . . . . . . . . . . . . . . . . 120 7.3.4 Estimador da proporção populacional P . . . . . . . . . . . . . . . . . . . 120 7.4 Estimação por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.4.1 I.C. para a média populacional µ . . . . . . . . . . . . . . . . . . . . . . . 121 7.4.2 I.C. para a variância populacional σ2 . . . . . . . . . . . . . . . . . . . . . 123 7.4.3 I.C. para o desvio padrão populacional σ . . . . . . . . . . . . . . . . . . 125 7.4.4 I.C. para a proporção populacional p . . . . . . . . . . . . . . . . . . . . . 125 2 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 7.5 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 8 Teste de hipóteses 129 8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 8.2 Passos para realizar um T.H. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 8.3 Teste para a média populacional µ . . . . . . . . . . . . . . . . . . . . . . . . . . 131 8.4 Teste para a diferença ente duas médias populacionais µ1 e µ2 . . . . . . . . . . . 132 8.5 Teste para a variância populacional σ2 . . . . . . . . . . . . . . . . . . . . . . . . 136 8.6 Teste para a igualdade de duas variâncias populacionais σ21 e σ 2 2 . . . . . . . . . . 137 8.7 Teste para a proporção populacional p . . . . . . . . . . . . . . . . . . . . . . . . 139 8.8 Teste para duas proporções populacionais . . . . . . . . . . . . . . . . . . . . . . . 139 8.9 Teste de normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 8.10 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 9 ANAVA 147 9.1 Introdução .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 9.2 Conceitos Básicos sobre Experimentação . . . . . . . . . . . . . . . . . . . . . . . 147 9.2.1 Tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 9.2.2 Unidade experimental ou parcela . . . . . . . . . . . . . . . . . . . . . . . 148 9.2.3 Repetição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 9.2.4 Variável resposta ou variável dependente . . . . . . . . . . . . . . . . . . . 148 9.2.5 Delineamento experimental (Design) . . . . . . . . . . . . . . . . . . . . . 149 9.2.6 Modelo associado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 9.3 ANAVA - fator único . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 9.3.1 Testes de comparação de médias . . . . . . . . . . . . . . . . . . . . . . . . 151 9.4 ANAVA - fator duplo sem repetição . . . . . . . . . . . . . . . . . . . . . . . . . . 154 9.5 ANAVA - fator duplo com repetição . . . . . . . . . . . . . . . . . . . . . . . . . . 156 9.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 10 Regressão linear simples 165 10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 10.2 Exemplo motivacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 10.3 Gráfico de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 10.4 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 10.5 O modelo probabiĺıstico de RLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 10.5.1 Estimação dos parâmetros β0 e β1 . . . . . . . . . . . . . . . . . . . . . . . 168 10.6 Verificação do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 10.6.1 Coeficiente de explicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.6.2 Análise de variância do modelo . . . . . . . . . . . . . . . . . . . . . . . . 171 10.7 Funções linearizáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 10.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 11 Bibliografia 177 3 Caṕıtulo 1 Conceitos iniciais 1.1 INTRODUÇÃO A Estat́ıstica é um processo que permite a análise e a interpretação de dados provenientes de uma ou mais amostras, com o objetivo de inferir caracteŕısticas de populações. Sendo aplicável a qualquer ramo do conhecimento onde se manipulam dados experimentais. Trabalha com a coleta, apresentação, análise e uso de dados para a resolução de problemas, tomada de decisões, desenvolvimento de estimativas e planejamento e desenvolvimento tanto de produtos quanto de procedimentos. A estat́ıstica é usada em vários sentidos. Pode referir-se não só a simples tabulação de informações numéricas, como a relatórios de transações na bolsa de valores, como ao corpo de técnicas utilizadas para processar ou analisar dados. A palavra Estat́ıstica é de origem grega statistós que significa estabelecer ou verificar. Este ramo da ciência também pode ser definido como a parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre determinada população ou amostra e os métodos de obtenção de conclusões, fazer inferência, ilações ou predições com base nesses dados. Historicamente, o crescimento e o desenvolvimento da estat́ıstica moderna podem ser relaci- onados a três fenômenos isolados - a necessidade do governo de coletar dados sobre os cidadãos, o desenvolvimento da teoria da probabilidade e o advento da informática. Dados têm sido coletados através de toda a história. Nas civilizações Eǵıpcias, Grega e Romana, dados primários eram coletados com propósito de taxações e finalidades militares. Na 4 UTFPR - Câmpus Toledo Professoras Daniela e Regiane idade Média, igrejas registraram dados e informações sobre nascimentos, mortes e casamentos. Nos Estados Unidos, a Constituição de 1790 determinava a realização de censo a cada 10 anos. Atualmente, informações numéricas são necessárias para cidadãos e organizações de qualquer natureza, e de qualquer parte do globo. Nas últimas décadas têm ocorrido um crescimento acentuado do uso das técnicas estat́ısticas, uma vez que através delas é posśıvel estudar fenômenos e prever alguns resultados, e ainda é posśıvel melhorar ı́ndices. A essência de uma análise estatı́stica é tirar conclus~oes sobre uma populaç~ao, ou universo, com base em uma amostra de observaç~oes. 1.2 O que é ESTATÍSTICA???? Segundo o Dicionário de Ĺıngua Portuguesa Aurélio: 1 Parte da matemática em que se investigam processos de obtenção, organização e análise dedados sobre uma coleção de seres quaisquer, e métodos de tirar conclusões e fazer predições com base nesses dados. 2 Conjunto de elementos numéricos relativos a um fato social. Para muitas pessoas, a palavra estat́ıstica faz lembrar longas colunas de números, gráficos e di- agramas que mostram de que forma o governo está gastando o dinheiro dos impostos. No passado, esta palavra referia-se exclusivamente à informações numéricas de que os governos necessitavam para planejar sua conduta. Os estat́ısticos eram pessoas que coletavam grandes quantidades de informações numéricas. Alguns estat́ısticos ainda realizam este tipo de trabalho, mas existem outros que auxiliam a conduzir e interpretar experimentos cient́ıficos e pesquisas profissionais. As mudanças no significado da palavra estat́ıstica acompanharam as mudanças ocorridas no tipo de trabalho realizado pelos estat́ısticos. A palavra estat́ıstica pode ser utilizada para designar dados numéricos, como, por exemplo, estat́ısticas esportivas ou estat́ısticas financeiras. Entretanto, a palavra pode também se referir à estat́ıstica como uma disciplina própria da mesma forma que a matemática ou a economia. Assim, conceituando temos que: A estat́ıstica é o ramo da matemática interessado nos métodos cient́ıficos para coleta, orga- nização, resumo, apresentação e análise de dados, bem como na obtenção de conclusões válidas e na tomada de decisões razoáveis baseadas em tais análises. Portanto, a estat́ıstica é uma ciência que se preocupa com o planejamento de uma pesquisa, envolvendo desde a forma de coleta das observações obtidas em experimentos ou levantamentos, até a maneira como será feita a organização, a descrição, o resumo dos dados e a avaliação e afirmação sobre caracteŕısticas de interesse do pesquisador. Tudo isso corresponde às fases do método estat́ıstico. As fases do método estat́ıstico são então: 1. Definição do Problema Consiste na: (a) formulação correta do problema; (b) examinar outros levantamentos realizados no mesmo campo (revisão da literatura); 5 UTFPR - Câmpus Toledo Professoras Daniela e Regiane (c) saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipóteses, etc.) 2. Planejamento Determinar o procedimento necessário para resolver o problema: (a) Como levantar informações; (b) Tipos de levantamentos: por censo (completo) ou por amostragem (parcial); (c) Cronograma, custos, etc. 3. Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode ser: (a) Direta - diretamente da fonte; (b) Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). 4. Apuração dos dados ou sumarização Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho de coordenação e de tabulação. 5. Apresentação dos dados É a fase em que são mostrados os resultados obtidosna coleta e na organização. 6. Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Obtêm-se conclusões que auxiliam o pesquisador nas tomadas de decisões. Observaç~ao: As análises estat́ısticas dependem da forma de como os dados são coletados, e o planejamento estat́ıstico da pesquisa indica o esquema sob o qual os dados serão obtidos. Portanto, o planejamento da pesquisa e a análise estat́ıstica dos dados estão intimamente ligados. PLANEJAMENTO DA PESQUISA =⇒ ANÁLISE ESTATÍSTICA Assim, o pesquisador deve possuir razoável conhecimento de estat́ıstica para desenvolver suas pesquisas, ou então consultar um estat́ıstico para auxiliá-lo. Vale ressaltar que esta consulta deve ser feita antes do ińıcio da pesquisa, ainda durante a fase de elaboração do projeto. 1.3 Pesquisas, dados, variabilidade e estat́ıstica Normalmente a Estat́ıstica está associada a números, tabelas e números, mas a importância da Estat́ıstica fica melhor representada por dois ingredientes comuns: dados e variabilidade. Em geral, a busca por melhorias na qualidade de um processo produtivo implica a redução da variabilidade. A variabilidade pode ser reduzida com investimentos em pessoal, máquinas 6 UTFPR - Câmpus Toledo Professoras Daniela e Regiane e tecnologia, mas muitas vezes ela pode ser acomodada com o conhecimento de relações entre fatores do processo e caracteŕısticas funcionais do produto, o que envolve conhecimentos de engenharia, pesquisas, dados e análises estat́ısticas. Logo após a Revolução Industrial, métodos estat́ısticos foram incorporados nos processos industriais para garantir a qualidade dos produtos. Amostras de itens produzidos eram avaliadas sistematicamente para inferir se o processo estava sob controle. Mais recentemente, a avaliação da qualidade passou a ser feita ao longo do processo produtivo como forma de corrigir eventuais falhas no sistema assim que elas aparecessem. Isso levou a um aumento da qualidade do produto final e redução de custos, pois se reduziriam drasticamente as perdas por defeitos. Além do acompanhamento estat́ıstico da qualidade, as indústrias costumam fazer experimen- tos estatisticamente planejados para encontrar a combinação dos ńıveis dos fatores do processo que levem a melhor qualidade posśıvel. Na outra ponta, as empresas levantam dados de amostras de consumidores para realizar pesquisas de marketing direcionadas ou para adequar os produ- tos aos clientes. O planejamento dessas amostras e a análise dos dados necessitam de técnicas estat́ısticas. Muitas vezes, a relação entre estat́ıstica e engenharia é ainda mais estreita. Os próprios métodos de engenharia costumam incorporar intrinsecamente procedimentos probabiĺısticos ou estat́ısticos. A Estat́ıstica pode ser dividida em 4 grandes grupos: 1. Amostragem: subconjuntos com as mesmas caracteŕısticas da população, usada em quase tudo na Estat́ıstica; 2. Estat́ıstica Descritiva: descreve e organiza os dados através de tabelas, gráficos e números ı́ndices; 3. Probabilidade: estudo de fenômenos aleatórios que ocorrem ao acaso (incerteza); 4. Inferência Estat́ıstica: ferramentas para tomadas de decisão acerca da população (Testes de hipóteses, Intervalos de confiança, ANOVA). 1.4 Pesquisa Estat́ıstica Pesquisa é um conjunto de atividades orientadas para a busca de um determinado conhecimento. Para merecer qualificativo de cient́ıfica a pesquisa deve ser feita de modo sistematizada, utilizando 7 UTFPR - Câmpus Toledo Professoras Daniela e Regiane para isto métodos próprios e técnicas espećıfica. A pesquisa cient́ıfica se distingue de outras modalidades quaisquer de pesquisa pelo método, pela técnica, por estar voltada para a realidade emṕırica e pela forma de comunicar o conhecimento. 1.4.1 Finalidade da Pesquisa Descobrir respostas para questões, mediante as aplicações de métodos cient́ıficos, e, tentar co- nhecer e explicar fenômenos que ocorrem no mundo existente. 1.4.2 Tipos de Pesquisas • Pesquisa bibliográfica: Pesquisa bibliográfica é aquela que se desenvolve tentando expli- car um problema a partir das teorias publicadas em diversos tipos de fontes: livros, artigos, manuais, enciclopédias, anais, meios eletrônicos, etc. A realização da pesquisa bibliográfica é fundamental para que se conheça e analise as principais contribuições teóricas sobre um determinado tema ou assunto. A pesquisa bibliográfica pode ser realizada com diferentes fins: – para ampliar o grau de conhecimentos em uma determinada área, capacitando o in- vestigador a compreender ou delimitar melhor um problema de pesquisa; – para dominar o conhecimento dispońıvel e utilizá-lo como base ou fundamentação na construção de um modelo teórico explicativo de um problema, isto é, como instrumento auxiliar para a construção e fundamentação de hipóteses; – para descrever ou sistematizar o estado da arte, daquele momento, pertinente a um determinado tema ou problema. Ao analisar essas finalidades pode-se inferir que a pesquisa bibliográfica pode ser realizada em ńıvel de pesquisa exploratória, quando apenas se quer ter maiores conhecimentos ou uma certa familiaridade sobre um assunto; oferecer informações mais precisas ao investigador no momento da construção de problemas ou questões de pesquisa e fundamentar na análise e discussão de resultados de pesquisas emṕıricas • Pesquisa documental: A pesquisa documental assemelha-se muito com a pesquisa bi- bliográfica. Ambas adotam o mesmo procedimento na coleta de dados. A diferença está, essencialmente, no tipo de fonte que cada uma utiliza. Enquanto a pesquisa documental utiliza fontes primárias, a pesquisa bibliográfica utiliza fontes secundárias. O quadro abaixo apresenta alguns tipos de documentos de fontes primárias e secundárias, este por sua vez, diferenciar as principais fontes utilizadas pela pesquisa bibliográfica e documental. • Pesquisa experimental: A pesquisa experimental está interessada em verificar a relação de causalidade que se estabelece entre as variáveis, isto é, em saber se a variável X (inde- pendente) determina a variável Y (dependente). Para isto, cria-se uma situação de controle rigoroso neutralizando todas as influências alheias que Y pode sofrer. • Estudo de caso e controle: Nos estudos de caso controle investiga-se os fatos após a sua ocorrência, sem manipular a variável independente. Neste tipo de pesquisa o investigador 8 UTFPR - Câmpus Toledo Professoras Daniela e Regiane não pode, conforme o seu desejo, manipular a variável independente, mas sim localizar grupos cujos indiv́ıduos sejam bastante semelhantes entre si, verificando as conseqüências naturais que o acréscimo de uma variável possa produzir em um grupo e comparar com o outro que se manteve em condições normais. • Levantamento: As pesquisas do tipo levantamento procuram analisar, quantitativamente, caracteŕısticas de determinada população. Caracterizam-se pela interrogação direta das pessoas cujo comportamento se deseja conhecer. Basicamente, procede-se à solicitação de informações a um grupo significativo de pessoas acerca do problema estudado para, em seguida, mediante análise quantitativa, obterem-se as conclusões correspondentes aos dados pesquisados. Os levantamentos podem abranger o universo dos indiv́ıduos que compõem a população, no caso, um censo, ou apenas uma amostra, um subconjunto da população. Os censos geralmente são desenvolvidos por instituições governamentais em decorrência do grande investimento financeiro, necessário para a sua realização. As pesquisas por amostragem apresentam vantagens e limitações. Entre as vantagens estão o conhecimento direto da realidade, economia, rapidez e quantificação dos dados. Entre as limitações estão a possibilidade de não fidedignidade nas respostas, de pouca profundidade no estudo da estrutura e dos processos sociais e delimitada apreensão do processo de mudança. Os estudos por levantamentos, por serem de natureza descritiva/quantitativa, pouco se aproximam de estudos explicativos, bem pelo contrário, podem estar muito mais próximos de estudos exploratórios. • Estudo de caso: Estudo de caso pode ser definido com um estudo exaustivo, profundo e extenso de uma ou de poucas unidades, empiricamente verificáveis, de maneira que permita seu conhecimento amplo e detalhado. Nas ciências, durante muito tempo, o estudo de caso foi encarado como procedimento pouco rigoroso, que serviria apenas para estudos de maneira exploratória. Hoje, porém, é encarado como o delineamento mais adequado para a investigação de um fenômeno contemporâneo dentro de seu contexto real, onde os limites entre o fenômeno e o contexto não são claramente percebidos. O estudo de caso, como modalidade de pesquisa, pode ser utilizado tanto nas ciências biomédicas como nas ciências sociais. Nas ciências biomédicas é utilizado para a inves- tigação das peculiaridades que envolvem determinados casos cĺınicos e nas ciências soci- 9 UTFPR - Câmpus Toledo Professoras Daniela e Regiane ais para a investigação das particularidades que envolvem a formação de determinados fenômenos sociais. Por unidade-caso podemos entender uma pessoa, uma famı́lia, uma comunidade, uma em- presa, um regime poĺıtico, uma doença, etc. Para a coleta de dados no estudo de casos geralmente utilizam-se as técnicas da pesquisa qualitativa, sendo a entrevista a principal delas. • Estudo de campo: O estudo de campo é um tipo de pesquisa que procura o aprofun- damento de uma realidade espećıfica. É basicamente realizado por meio da observação direta das atividades do grupo estudado e de entrevistas com informantes que captam as explicações e interpretações do que ocorre naquela realidade. 1.5 Estat́ıstica descritiva e inferência estat́ıstica Os governos vêm, de longa data, utilizando recenceamentos como forma de contar indiv́ıduos e propriedades, e o escopo de descrever, resumir e analisar dados de censos levou ao desenvol- vimento de métodos que consistem o que se chama estat́ıstica descritiva, que compreende o manejo dos dados para resumi-los ou descrevê-los, sem ir além, isto é, sem fazer nenhuma inferência. Por exemplo, se os testes feitos em um laboratório mostraram que um determinado metal atinge de 0 a 60 graus em 18, 7 19, 2 16, 2 12, 3 17, 5 13, 9 minutos, afirmamos que a metade deles atinge 60 graus em 16,3 minutos, esta é uma caracteŕıstica da estat́ıstica descritiva. Embora a estat́ıstica descritiva seja um ramo importante da estat́ıstica as informações es- tat́ısticas quase sempre são obtidas de amostras, e isto significa que sua análise exige genera- lizações que ultrapassam os dados. Assim, a inferência estat́ıstica têm sido muito utilizada, e seus métodos têm apresentados resultados interessantes. Logo, para se resolver um problema de probabilidade, supõe-se conhecer certas carac- teŕısticas de uma população. Então, respondemos a questões relativas à amostra extráıda da- 10 UTFPR - Câmpus Toledo Professoras Daniela e Regiane quela população. Em um problema estat́ıstico, admitimos muito pouco sobre uma população. Usamos a informação sobre uma amostra para respondermos a questões relativas à população. Os métodos da inferência estat́ıstica permitem prever a duração média da vida útil de uma calculadora manual, estimar o valor de consumo de água do ano de 2010, comparar eficiência de dois programas de dieta, determinar a dosagem ideal para determinado medicamento, entre várias coisas. 1.6 População e amostra Define-se população como um conjunto de elementos que possuem caracteŕısticas similares. Amostra pode ser definida como uma parte da população, um subconjunto, ou ainda um fragmento ou exemplar representativo da população. Geralmente, é a partir deste subconjunto da população que se estabelecem ou estimam as propriedades e caracteŕısticas dessa população. Na maioria dos casos, os pesquisadores fazem uso de amostras com o objetivo de descrever e fazer inferências na população. 1.6.1 Terminologia Estat́ıstica • Unidade experimental, amostral ou de análise: É o objeto ou indiv́ıduo que será estudado na população, e sobre os quais obtêm-se os dados. 11 UTFPR - Câmpus Toledo Professoras Daniela e Regiane • Dados: É o valor ou resposta que toma a variável em cada unidade experimental. É o resultado de uma observação. É a matéria prima da estat́ıstica. • Variável: É uma caracteŕıstica observável, suscept́ıvel de adotar distintos valores ou ser expresso em várias categorias. Exemplos: Idades; Sexo; Série; Horas de estudo; Horas de treino; etc... • Informação: É o resultado dos dados processados (ou organizados) de acordo com certos objetivos. • Estat́ıstica: É qualquer função dos dados emṕıricos (baseado apenas na experiência, e não no estudo) que é usada com fins descritivos ou anaĺıticos. É uma medida resumo dos dados. • Parâmetros: São as caracteŕısticas mais importantes da população. Comumente são desconhecidos. 1.7 Classificação das variáveis Os dados estat́ısticos constituem a matéria-prima das pesquisas estat́ısticas, e nada mais são do que informações sobre fatos observados. 1.7.1 Variáveis qualitativas São caracteŕısticas cujos dados não são numéricos, isto é, são apresentados como uma qualidade ou atributo. Ex: Sexo, estado civil, ńıvel de escolaridade. 1. Nominal: Não existe nenhuma ordenação ou hierarquia nos posśıveis resultados. Ex: sexo, estado civil, região de procedência. 2. Ordinal: Existe uma certa ordem ou hierarquia nos posśıveis resultados. Ex: Nı́vel de escolaridade, ńıvel de satisfação. 12 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 1.7.2 Variáveis quantitativas É uma caracteŕıstica em estudo cujos resultados se referem a quantidades, isto é, são medidas numa escala numérica. Ex: idade, salário, número de filhos, etc. 1. Discretas: Cujos resultados se referem a dados que podem assumir valores inteiros (N). Ex: idade, número de pessoas, número de filhos por famı́lia, etc. 2. Cont́ınuas: São dados que podem assumir qualquer valor de um conjunto de números reais (R). Ex: peso, altura, consumo mensal de energia, etc. Exemplo: Classifique cada uma das variáveis: Variável tipo (natureza) Condição de saúde (doente, não doente) Tipo de parto (normal, cesáreo) Nı́vel de colesterol sérico (mg/100cc) Tempo de um procedimento cirúrgico (minutos) Número de praias consideradas polúıdas Custo de procedimento (reais) Peso (g) Estado nutricional (desnutrição, eutrofia, sobrepeso, obesidade Consumo de energia (Kcal) Realização do desjejum (sim/não) Número de escolares por turma Realização de atividade f́ısica diária (sim/não) Tempo assistido de TV/dia (< 2h, 2 a 4h, > 4h) Percentual de gordura corporal (%) Estado civil Tempo de processamento de um algoritmo Número de sucessos em 20 rep. de um exper. Nı́vel de escolaridade Cor dos olhos Classificação de peça (Def./não Def.) Estado de uma lâmpada (ligada/desligada) N. buracos em 100km de rodovia 1.7.3 Natureza dos dados Principalmente em pesquisas sociais, o analista se defronta com situações em que dispõe de muitos dados, e é dif́ıcil absorver as informações que procura investigar, e portanto é dif́ıcil captar intuitivamente todas as informações que os dados contém. É necessário reduzir as informações até o ponto que elas possam ser interpretadas com clareza, isto é, resumi-las através de medidas-śınteses, comumente chamadas de estat́ısticas descritivas. Assim, uma estat́ısitca descritiva é um número que descreve sozinho uma caracteŕıstica de um conjunto de dados. 13 UTFPR - Câmpus Toledo Professoras Daniela e Regiane As pessoas normalmente se lembram da estat́ıstica quando se vêem diante de grandes quan- tidades de informação.Na percepção do senso comum, o emprego de métodos estat́ısticos seria algo semelhante à prática da mineração. Um estat́ıstico seria um tipo de minerador bem suce- dido, capaz de explorar e processar montanhas de números e delas extrair valiosas conclusões. Entretanto, a atividade estat́ıstica mais importante não é a análise de dados, e sim o planeja- mento dos experimentos em que os dados devem ser obtidos. Quando isso não for feito da forma apropriada, o resultado muitas vezes é uma montanha de números estéreis, da qual estat́ıstico algum conseguiria quaisquer conclusões. Para tal, devemos projetar o planejamento de forma que ele seja capaz de fornecer exatamente o tipo de informação que procuramos. Quando se pretende fazer um estudo estat́ıstico completo, existem várias faces do trabalho que devem ser observadas: 1. definição do problema: definição ou formulação correta do problema a ser estudado; 2. planejamento: determinação do procedimento necessário para resolver o problema, espe- cialmente em como levantar informações sobre o objeto de estudo; 3. coleta de dados: obtenção, reunião e registro sistemático de dados; 4. operação dos dados: sumarização, consiste em resumir os dados através de sua contagem e agrupamento; 5. apresentação dos dados: pode ser em forma de tabelas ou gráficos; 6. análise e interpretação dos dados: mais importante e mais delicada fase, consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema e propor medidas que solucionem o mesmo. 1.8 Exerćıcios 1. Há alguma evidencia que sugere que as pessoas com hepatite C crônica tem um ńıvel de enzima do f́ıgado que flutua do normal ao anormal. Cinquenta pacientes diagnosticados com hepatite C foram selecionados e sues ńıveis de enzima do f́ıgado registrados diariamente, durante um mês. Descreva a população, a amostra e a variável resposta. 14 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 2. Realizou-se um estudo para determinar se a exaustão esta relacionada a ńıveis de cortisol. Setenta e oito indiv́ıduos foram selecionados e seus ńıveis de cortisol foram medidos 30 minutos após acordarem. Descreva a população, a amostra e a variável resposta neste problema. 15 Caṕıtulo 2 Amostragem Em quase todos os casos de estudos estat́ısticos, uma estimativa está associada a uma pesquisa ou a uma verificação de caracteŕısticas, que devido a custos acesśıveis com resultados satisfatórios, não é realizada sobre todos os elementos da população, mas sim sobre uma parte dela, chamada de amostra. Assim, um dos objetivos da estat́ıstica é tirar conclusões sobre o “todo” (população) a partir das informações fornecidas por “parte representativa” do todo (amostra). Assim, realizadas as fases de descrição dos dados. (estat́ıstica descritiva), é feita uma análise dos resultados, obtidos através dos métodos da Estat́ıstica Inferencial ou Indutiva, que tem por base a indução, inferência de dados com indução da precisão, obtida por meio da teoria da probabilidade. A Estat́ıstica lida não somente com a organização e análise de dados depois de sua coleta, como também com o desenvolvimento de técnicas de coleta (Amostragem). Não basta saber descrever os dados convenientemente e dominar as técnicas estat́ısticas as- sociadas para tal. Antes de tudo, é preciso garantir que a amostra ou amostras que serão usadas sejam obtidas de maneira adequada, para evitar que erros grosseiros aconteçam e leve a perder os resultados. É de suma importância que os dados sejam de uma amostra representativa da população, ou seja, a amostra deve manter as caracteŕısticas principais da população. Para tal, assumiremos que a população seja finita e composta de N elementos, salvo quando explicitamos o contrário. O número de elementos que serão amostrados será representado por n. 16 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Os problemas de amostragem podem ser de dif́ıcil entendimento dependendo do que se deseja estudar em uma população. Por exemplo, em pesquisas de opinião há uma grande complexidade de coleta de dados, e, em tais casos é necessário maiores cuidados. Distinguem-se dois tipos de amostragem: (1) Amostragem probabiĺıstica: quando todos os ele- mentos da população tem probabilidades conhecidas, e diferente de zero, de pertencer à amostra. (2) Em caso contrário, a amostragem é dita ser não-probabiĺıstica. Vantagens de um levantamento por amostragem 1. Menor custo; 2. Menor tempo; 3. Maior amplitude do universo; 4. Menor erro da medida. 2.1 Amostragem probabiĺıstica Desta maneira, a amostragem probabiĺıstica implica um sorteio com regras bem determinadas, cuja realização só é posśıvel se a população é finita e totalmente acesśıvel. A amostragem probabiĺıstica é a melhor recomendação que se deve fazer no sentido de garantir a representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre população e amostra. Além disso, as amostragens probabiĺısticas são particularmente importantes nos processos de inferência, pois os métodos estat́ısticos são constrúıdos sob suas propriedades. Descreveremos a seguir alguns tipos de amostragens probabiĺısticas. 2.1.1 Amostragem casual simples Também conhecida como simples ao acaso, aleatória, casual, simples, elementar, randômica, é equivalente a um sorteio lotérico. Nela, todos os elementos da população têm igual probabilidade de pertencer à amostra. 17 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Sendo N o número de elementos da população e n o número de elementos da amostra, cada elemento da população tem probabilidade n N de pertencer à amostra (considernado-se amostras sem reposição). É a técnica amostral mais utilizada em pesquisas. Na prática, enumera-se os elementos da população de 1 a N , e sorteia-se, a seguir, por meio de um dispositivo aleatório qualquer, n números da sequência, estes números comporão a amostra. A seleção de uma amostra aleatória simples pode ser facilitada com o uso de números aleatórios, ou seja, números resultantes de sucessivos sorteios aleatórios do conjunto {1, 2, 3, · · · , 9} fazendo com que todo número com mesma quantidade de algarismos tenha a mesma probabili- dade de ocorrência. Exemplo 1: Obtenha uma amostra casual simples de tamanho n = 6 da sua turma de Probabi- lidade e Estat́ıstica, em que N = , usando um dispositivo de sorteio aleatório. Exemplo 2: Queremos realizar uma pesquisa de opinião sobre a qualidade de um curso uni- versitário, que tem cerca de 1000 alunos, perguntando aspectos relativos ao encadeamento das disciplinas no curŕıculo. Decidimos utilizar amostragem aleatória simples para selecionar os respondentes. Este método de amostragem é o mais apropriado? Exemplo do BioEstat: Para determinar a estatura média de uma população de 350 alunos da segunda série do Ensino Fundamental, tomou-se amostra aleatória de 40 estudantes, precedida da listagem numérica de todos os discentes desse universo. 18 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 2.1.2 Amostragem sistemática Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente, temos uma amostragem sistemática. Assim: 1. calcula-se o intervalo de seleção, dado por r = N/n, desprezando as decimais 2. sorteia-se o primeiro elemento do conjunto, a1, que deverá ser menor ou igual a r; 3. completa-se a amostra, extraindo um elemento a cada r elementos. Assim, teremos a PA de razão r, dada por: ( a1, a1 + r, a1 + 2r, . . . , a1 + (n− 1)r). Por exemplo, em uma linha de produção onde são produzidos 300 itens por dia, uma amostra sistemática de tamanho 10, deve escolher elementos de cada 30 itens produzidos. Ou ainda, seja N = 800 e n = 50, supondo a população ordenada, a amostra sistemática é composta peloselementos de posição múltipla de 16 (800 50 = 16)!!! A principal vantagem da amostragem sistemática está na grande facilidade de coleta, en- tretanto existe um grande perigo: pois se existem ciclos de variação da variável de interesse, a amostra sistemática conterá a caracteŕıstica do ciclo; especialmente se o peŕıdo coincidir com a retirada do elemento. Exemplo 1: Obtenha uma amostra sistemática de tamanho n = 6 da sua turma de Probabilidade e Estat́ıstica, em que N = . Exemplo 2: Suponhamos que desejamos estudar o estado de conservação da rodovia BR277 com 180 Km. Para tal, estudaremos uma amostra aleatória de 30 elementos. Quais elementos poderão ser escolhidos? 19 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Exemplo 3: Uma operadora telefônica dispõe de uma lista ordenada alfabeticamente com todos os seus assinantes e pretende saber a opinião de seus assinantes comerciais sobre seus serviços na cidade de Florianópolis. Supondo que há 25037 assinantes comerciais, e a amostra precisa ter no mı́nimo 800 elementos, mostre como seria organizada uma amostragem sistemática para selecionar os respondentes. Resposta: A operadora dispõe de uma lista ordenada alfabeticamente com todos os seus assinantes, o intervalo de retirada será: r = N/n = 25037/800 = 31, 2965. Como o valor de r é fracionário algo precisa ser feito. Aumentar o tamanho da amostra não resol- verá o problema, porque 25037 é um número primo. Como não podemos reduzir o tamanho de amostra, devendo permanecer igual a 800, se excluirmos por sorteio 237 elementos da população, e refizermos a lista teremos: r = N/n = 24800/800 = 31. A cada 31 assinantes um é retirado para fazer parte da amostra. Devemos sortear o ponto de partida: um número de 1 a 31 (do 1o ao 31o assinante). 2.1.3 Amostragem Estratificada Muitas vezes a população se divide em subpopulações ou estratos, com caracteŕısticas comuns em cada estrato, e diferente de estrato para estrato. E pode ocorrer que os estratos não sejam bem representados na amostra simples, por exemplo, pois os tamanhos dos estratos diferem. Por exemplo, se para estudar a dureza de certo aço temos corpos de prova de dois fornecedores, então a população dos corpos de prova pode ser dividida em dois estratos. Sob os diversos estratos da população são realizadas seleções aleatórias de forma independente. A amostra completa é obtida através da agregação das amostras de cada estrato. • Amostragem estratificada proporcional: a proporcionalidade do tamanho de cada estrato da população é mantida na amostra. Por exemplo, se um estrato abrange 20% da população, ele também deve abranger 20% da amostra. 20 UTFPR - Câmpus Toledo Professoras Daniela e Regiane • Amostragem estratificada uniforme: selecionamos o mesmo número de elementos em cada estrato. É o processo usual quando se deseja comparar os diversos estratos. • Amostragem estratificada ótima: quando se toma em cada estrato um número de elemen- tos proporcional ao número de elementos do estrato e também à variação da variável de interesse no estrato, medida pelo seu desvio padrão. Primeiramente a população N é dividida em L sub-populações (estratos) com N1, N2, · · · , NL elementos. Para cada estrato, escolhe-se ni elementos aleatoriamente, com i = 1, · · · , L, totali- zando n elementos. ni = todos iguais : ni = n L , proporcionais a Ni : ni = nWi, em que Wi = Ni N , tamanho ótimo (considera a variabilidade) : ni = n Nisi∑ i=1 LNisi . Exemplo 1: Selecionar aleatoriamente 60 pessoas da população organizada da seguinte forma: 50 solteiros, 210 casados e 40 outras. Exemplo 2: Considere uma população de tamanho 100, onde existem 4 estratos, com 50, 25, 10 e 15 elementos cada um. (a) Extraia uma amostra estratificada proporcional de tamanho 10. (b) Extraia uma amostra estratificada uniforme de tamanho 10. Exemplo do BioEstat: A população de uma cidade de 600 habitantes foi dividida em dois estratos: urbano e rural, com a finalidade de se estudar a incidência de malária em cada grupo de seus residentes. O estrato urbano possui 400 habitantes e o rural, 200. O tamanho total da amostra deve compreender 60 pessoas. Deve-se notar que o tamanho da amostra retirada de cada subconjunto é proporcional ao tamanho de cada estrato em relação ao tamanho da população. 2.1.4 Amostragem por meio de conglomerados Ao contrário da amostragem estratificada, a amostragem de conglomerados tende a produzir uma amostra que gera resultados menos precisos, quando comparada com uma amostra aleatória 21 UTFPR - Câmpus Toledo Professoras Daniela e Regiane simples de mesmo tamanho. Contudo, seu custo financeiro tende a ser bem menor, especialmente em amostragens de grandes populações. Quando a população apresenta uma subdivisão por meio de pequenos grupos, chamados de conglomerados, é posśıvel - e conveniente - fazer-se a amostragem por conglomerados, que consiste em sortear um número suficiente de conglomerados, cujos elementos construirão a amostra. Ou seja, as unidades de amostragem, sobre as quais é feito o sorteio, passam a ser os conglo- merados, e não mais os elementos individuais da população. Exemplo 1: Pesquisa Nacional por Amostra de Domićılios (PNAD) do IBGE. Coleta informações demográficas e sócio-econômicas sobre a população brasileira. Utiliza amostragem por conglo- merados. Primeiro estágio: amostras de munićıpios (conglomerados) para cada uma das regiões geográficas do Brasil; Segundo estágio: setores censitários sorteados em cada munićıpio (conglomerado sorteado); Terceiro estágio: domićılios sorteados em cada setor censitário. Exemplo do BioEstat: Calcular o peso médio de estudantes da quinta série do ensino funda- mental das escolas públicas de um munićıpio. O total de estabelecimentos de ensino é de 52 escolas (conglomerados do 1o estágio), cada uma com 10 turmas da quinta série (conglomerados do 2o estágio), e cada turma apresentando 40 alunos matriculados (unidades simples, 3o estágio). Foram selecionadas 5, 4 e 8 unidades dos estágios 1o, 2o e 3o, respectivamente, constituindo, ao final, amostra de 160 discentes (5 x 4 x 8). 2.2 Amostragem não-probabiĺıstica As amostras não-probabiĺısticas são também, muitas vezes, empregadas na estat́ıstica, por sim- plicidade ou inacessibilidade de toda a população. Nestes casos, supõe-se um tamanho amostral e usa-o para coletar as amostras. A obtenção de uma amostra probabiĺıstica exige que se obtenha uma listagem com os elemen- tos da população. Em suma, exige acesso a todos os elementos da população, que a população 22 UTFPR - Câmpus Toledo Professoras Daniela e Regiane acesśıvel seja igual à população alvo. Nem sempre é posśıvel obter tal listagem na prática, o que teoricamente inviabilizaria a retirada de uma amostra aleatória. Então deve-se recorrer à amostragem não probabiĺıstica. Ao usar a amostragem não probabiĺıstica o pesquisador não sabe qual é a probabilidade de que um elemento da população tem de pertencer à amostra. Portanto, os resultados da amostra não podem ser estatisticamente generalizados para a população, porque não se pode estimar o erro amostral. Se as caracteŕısticas da população acesśıvel forem semelhantes às da população alvo os resultados podem ser equivalentes aos de uma amostragem probabiĺıstica, mas não podemos garantir a sua confiabilidade. Alguns dos usos habituais da amostragem não probabiĺıstica são os seguintes: a) Como etapa preliminar em projetos de pesquisa; b) em projetos de pesquisa qualitativa; c) em casos onde a população de trabalho não pode ser enumerada. 2.2.1 Amostragem a Esmo É a amostragem em que o amostrador, para simplificar o processo, procura ser aleatório sem, no entanto realizar propriamente o sorteio usando algum dispositivo aleatório confiável. Por exemplo, se desejarmos retirar uma amostra de 100 parafusos de uma caixacontendo 1000 evidentemente não faremos uma amostragem casual simples, pois seria extremamente trabalhosa, mas procederemos a retirada simplesmente a esmo. Os resultados da amostragem a esmo são em geral equivalentes aos de uma amostragem probabiĺıstica se a população é homogênea e se não existe a possibilidade de o amostrador ser inconscientemente influenciado por alguma caracteŕıstica dos elementos da população. Exemplo 5: Imagine um lote de 10000 parafusos, do qual queremos tirar uma amostra de 100, se fôssemos realizar uma amostragem aleatória simples o processo seria muito trabalhoso. Então simplesmente retiramos os elementos a esmo. Este tipo de amostragem também pode ser utilizado quando a população for formada por material cont́ınuo (gases, ĺıquidos, minérios), bastando homogeneizar o material e proceder a retirada da amostra. 23 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 2.2.2 Amostragem intencional É uma amostragem não probabiĺıstica e consiste em selecionar um subgrupo de população que, com base nas informações dispońıveis, possa ser considerado representativo, de toda a população. A principal vantagem da amostragem intencional esta nos baixos custos de sua seleção. A amostragem intencional não é considerada um bom método, pois os dados podem ser facilmente manipulados, direcionados aos interesses do pesquisador ou de quem encomendou a pesquisa. Exemplo 6: Por exemplo, suponhamos que você quer saber a opinião de estudantes universitários brasileiros sobre poĺıtica. Para realizar uma amostra probabiĺıstica, seria necessário ter acesso a todos os estudantes universitários brasileiros, selecionar um grupo aleatório e realizar a pesquisa. Já para realizar uma amostra por conveniência, podeŕıamos abordar três universidades próximas, simplesmente porque representam o local onde a população da pesquisa “reside” e perguntar a alguns estudantes do peŕıodo matutino que concordam em participar. 2.2.3 Amostragem por cota Parece semelhante a uma amostragem estratificada proporcional, da qual se diferencia por não empregar sorteio na seleção dos elementos. A população é dividida em vários subgrupos, na realidade é comum dividir em um grande número para compensar a falta de aleatoriedade, e seleciona-se uma cota de cada subgrupo, proporcional ao seu tamanho. Na amostragem por cotas os elementos da amostra são escolhidos pelos entrevistadores (de acordo com os critérios...), geralmente em pontos de grande movimento, o que sempre acarreta certa subjetividade (e impede que qualquer um que não esteja passando pelo local no exato mo- mento da pesquisa possa ser selecionado). Na prática muitas pesquisas são realizadas utilizando amostragem por cotas. Exemplo 7: Em uma pesquisa de opinião eleitoral podeŕıamos dividir a população de eleitores por sexo, ńıvel de instrução, faixas de renda entre outros aspectos, e obter cotas proporcionais ao tamanho dos grupos (que poderia ser obtido através das informações do IBGE). Exemplo 8: Se definirmos segmentos por sexo numa população onde há 60% masculino e 40% feminino e queremos uma amostra de n = 1000, podeŕıamos coletar 600 pessoas do sexo masculino e 400 do sexo feminino. 2.3 Exerćıcios 1. Uma população de 1000 elementos foi dividida em 3 estratos, sendo um com 100 elementos (E1), outro com 300 elementos (E2) e o último com 600 elementos (E3). Pretende-se retirar uma amostra de 60 elementos para uma pesquisa, qual deve ser o tamanho da amostra em cada estrato proporcionalmente? 2. Selecione 8 alunos da população listada abaixo, através de amostragem casual simples, usando um dispositivo de sorteio aleatório, considere usar com reposição e sem reposição. 24 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Número Nome Notas Número Nome Notas 1 Alysson 5,8 19 Isabela 7,0 2 Amanda 7,3 20 Jessica 2,1 3 Anderson 2,1 21 Jhonatan 3,9 4 Angela 7,5 22 João 5,6 5 Arthur 8,2 23 José 7,8 6 Artur 4,3 24 Kaio 6,5 7 Camila 5,6 25 Leandro 4,6 8 Cayo 6,6 26 Let́ıcia 7,8 9 Cesar 5,4 27 Lucas 4,9 10 Cezar 7,8 28 Maicon 6,5 11 Daniel 9,5 29 Maresa 4,5 12 Fabio 3,2 30 Maria 6,7 13 Fagner 4,0 31 Mauŕıcio 5,5 14 Gabriela 3,7 32 Nathan 5,4 15 Glória 8,4 33 Ricardo 0,3 16 Gryele 6,5 34 Thais 1,3 17 Herily 3,4 35 Thayse 2,5 18 Igor 6,7 36 Valeria 5,8 3. Selecione uma amostra estratificada uniforme, de tamanho n = 6 do exerćıcio 1. 4. Identifique o tipo de amostragem utilizado. (a) Ao escalar um júri um tribunal de justiça decidiu selecionar aleatoriamente 4 pessoas brancas, 3 morenas, e 4 negras. (b) Um cabo eleitoral escreve o nome de cada senador do Brasil, em cartões separados, mistura e extráı 10 nomes. (c) Um administrador hospitalar faz uma pesquisa com as pessoas que estão na fila de espera para serem atendidas pelo sistema SUS, entrevistando uma a cada 10 pessoas da fila. (d) Ao escalar uma comissão para atuar em determinado projeto, uma empresa decidiu selecionar aleatoriamente 4 pessoas brancas, 3 pardas e 4 negras. (e) Uma professora escreve o nome de todos os seus alunos em pedaços de papel e coloca em uma caixa. Depois de misturá-los, sorteia 10 nomes. (f) Um administrador de uma sala de cinema faz uma pesquisa com as pessoas que estão na fila de espera para comprar ingresso, entrevistando uma pessoa a cada 10 presentes na fila. (g) Deseja-se selecionar uma amostra de domićılios da cidade de São Paulo. As ruas estão identificadas pelas letras de A a F. As casas de cada rua estão identificadas pelo nome da rua, seguido por um número. Primeiro foram sorteadas duas ruas (B e F) e depois, foram selecionados ao acaso 50% dos domićılios de cada rua 25 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 5. Um pesquisador pretende levantar dados sobre o número de moradores por domićılio, usando a técnica de amostragem simples sistemática. Para isso, o pesquisador visitará cada domićılio selecionado. Se nenhuma pessoa estiver presente na ocasião da visita, o pesquisador exclúıra o domićılio da amostra. Esta última determinação introduz tendenci- osidade. Por quê? 6. Com o objetivo de fazer testes de qualidade com determinados produtos de uma indústria optou-se por realizar um levantamento por amostragem. A população é constitúıda por: produto A: A1, A2, A3, A4, A5, A6, A7, A8, A9, A10 produto B: B1, B2, B3, B4, B5, B6, B7, B8, B9, B10 produto C: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10, C11, C12, C13, C14, C15, C16, C17, C18, C19, C20, C21, C22, C23, C24, C25, C26, C27, C28, C29, C30 Realizar uma amostragem aleatória estratificada proporcional por produto para obter uma amostra global de tamanho 10. 7. Comente os seguintes planos de amostragens, apontando suas incoerências, quando for o caso: (a) Com a finalidade de estudar o perfil dos consumidores de um supermercado, observaram- se os consumidores que compareceram ao supermercado no primeiro sábado do mês; (b) Com a finalidade de estudar o perfil dos consumidores de um supermercado, fez-se a coleta de dados durante um mês, tomando a cada dia um consumidor da fila de cada caixa do supermercado, variando sistematicamente o horário da coleta dos dados; (c) Para avaliar a qualidade dos itens que saem de uma linha de produção, observaram-se todos os itens das 14 às 14:30min; (d) Para avaliar a qualidade dos itens que saem de uma linha de produção, observou-se um item a cada meia hora, durante todo o dia; 8. Um pesquisador obteve as seguintes observações. Classifique cada conjunto de dados re- sultante como categórico ou numérico. Se o conjunto for numérico, determine se é discreto ou cont́ınuo. (a) O número de livros lidos por alunos do Ensino Médio durante um ano acadêmico. (b) A posição da ponte móvel de Belmar, New Jersey, ao meio dia, em dias de julho. Suponha que a ponte não esteja se movendo, e esteja ou aberta ou fechada ao tráfego de barcos. (c) O tempo (em minutos) necessário para um corte de cabelo. (d) O númerode guardas de segurança em serviço em prédios de escritórios. (e) Os tipos de doces recebidos em casa no dia de Halloween. (f) A pressão do ar em bolas de futebol no ińıcio dos jogos colegiais. (g) Os pesos de várias resmas de papel. (h) O número de carros levados pelo guincho em uma rodovia, durante certos peŕıodos de 24 horas. 26 UTFPR - Câmpus Toledo Professoras Daniela e Regiane (i) O número de jogos ganhos pelo Brasil durante a Copa do mundo. (j) Os diagnósticos de pacientes em um pronto atendimento de emergência. (k) O número de degraus de escadas de incêndio em prédios de apartamentos. (l) O número de folhas em árvores frut́ıferas. (m) As razões pelas quais vários automóveis não passam na inspeção. (n) Os pesos dos reboques de trator completamente carregados. (o) As áreas de várias fazendas em Toledo. (p) O plano de telefonia escolhido pelos clientes. (q) O número de rotações por minuto de motores de carros. (r) O estado em que várias famı́lias passaram as últimas férias. (s) Os tempos necessários para compilação de programas de computador. (t) O número de abelhas em colméias. 9. Para as questões a seguir imagine um experimento em que se dividam os elementos em dois grupos: Um grupo experimental e um grupo de controle. (a) Por que os grupos devem ser tão semelhante quanto posśıvel? (b) As pessoas devem saber em que grupo estão? (c) Qual é o melhor sistema de dividir os indiv́ıduos pelos dois grupos? 10. Diversas universidades e faculdades institúıram programa de instrução suplementar (IS), em que o monitor se encontra regularmente com um grupo de estudantes matriculados em um curso para promover discussões sobre o material desse curso e melhorar o domı́nio da disciplina. Suponha que os estudantes de um grande curso de estat́ıstica são aleatoriamente divididos em grupo de controle que não participará do IS e um grupo de tratamento que o fará. No final do peŕıodo, é determinada a pontuação total de cada estudante do curso. (a) As pontuações do grupo IS são uma amostra da população existente? Caso seja, qual é? Caso contrário, qual é a população conceitual relevante? (b) Qual você acha que é a vantagem de dividir aleatoriamente os estudantes em dois grupos em vez de deixar que cada um escolha o grupo a qual participará? (c) Por que os investigadores não colocaram todos os estudantes no grupo de tratamento? 27 Caṕıtulo 3 Estat́ıstica Descritiva Com o advento da informática, o mundo encheu-se de dados. As empresas tem dados de suas atividades, de seus funcionários, de seus clientes, etc. Mas para que estes dados sejam informa- tivos, necessitamos organizá-los de forma adequada. Este é o papel da Estat́ıstica Descritiva. A Estat́ıstica Descritiva é a fase na qual os dados de um experimento ou pesquisa, são orga- nizados, resumidos, descritos, apresentados e interpretados. Esta fase é de grande importância para uma pesquisa, pois nela, podemos perceber as tendências do nosso de dados. Após a coleta dos dados experimentais, devemos organizá-los e apresentá-los, e esta apresentação, pode ser feita através de tabelas e gráficos. 3.1 Organização e apresentação de dados No dia-a-dia nos deparamos com variáveis qualitativas e variáveis quantitativas, estas últimas podendo ser cont́ınuas (idade, peso, diâmetro) ou discretas (n. de filhos, n. de defeitos por uni- dade). O método mais comum de resumir dados consiste em apresentá-los em forma condensada de tabelas ou gráficos. Suponha o banco de dados abaixo, que são notas de um teste de coordenação f́ısica aplicado a 20 estudantes, após terem ingerido uma quantidade de álcool igual a 10% de seu peso: 69 84 52 93 61 74 79 65 88 63 57 64 67 72 74 55 82 61 68 77 Pergunta: O que podemos fazer para tornar esta massa de informação mais utilizável??? 28 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 1. alguns autores acham interessante calcular valores extremos; 2. algumas vezes é interessante ordenar os dados, ou seja criar um rol de dados; 3. entretanto, para um banco grande de dados, a ordenação é uma tarefa bastante dif́ıcil. É conveniente então usar a técnica de apresentação em ramo-e-folhas que oferece uma boa visualização global dos dados. Para tal, decompomos os algarismos em dezenas e unidades, marcando junto valores com mesmas dezenas. As dezenas ficam alinhadas a esquerda, e as unidades à direita. Cada linha representa a posição de um ramo e cada algarismo à direita da reta vertical pode ser considerado como uma folha; 4. ou em forma de Tabelas: 3.1.1 Tabelas de distribuições de frequências As apresentações através de tabelas deverão ser realizadas em uma pesquisa, mediante alguma convenção ou norma, dependendo de qual instituição, congresso ou órgão, esta tabela será apre- sentada. Mas alguns prinćıpios/elementos básicos podem ser utilizados: • Número: vem sempre depois da palavra Tabela e antes do t́ıtulo, serve para que se possa identificar a tabela ao citá-la no texto; • Tı́tulo: onde é dada uma noção inicial ao leitor sobre o que é a tabela; • Cabeçalho: para que sejam identificados os conteúdos referentes a cada coluna da tabela. O cabeçalho deve conter o suficiente para responder as questões: o que está sendo repre- sentado? onde ocorreu? Quando ocorreu? • Coluna Indicadora: que especifica as diferentes categorias da variável; • Corpo: é representado por colunas e subcolunas dos quais são registrados os dados numéricos e informações. • Rodapé ou pé: onde é identificada a fonte original dos dados, ou alguma nota referente a tabela. Por exemplo, 29 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Tabela 1: Notas finais dos estudantes da disciplina de Probabilidade e Estat́ıstica 2014.2 Notas frequência 00 ` 10 4 10` 20 5 20` 30 6 30` 40 8 40` 50 12 50` 60 7 60` 70 5 70` 80 3 Fonte: Diário de classe da profa. Regiane Slongo Fagundes. Observação: Não há linhas laterais, ponto final em cada linha e linhas horizontais no corpo da tabela separando as linhas!!! Esta tabela é chamada de distribuição de frequência ou distribuição. Se os dados estão agrupados em categorias não numéricas, a tabela se chama distribuição por categorias (ou qua- litativa). Por exemplo, considere as 2439 queixas sobre caracteŕısticas de conforto nos aviões de uma companhia aérea: Tabela 2: Queixas sobre caracteŕısticas de conforto nos aviões de uma companhia aérea Natureza das reclamações n. de reclamações espaço insuficiente para pernas 719 assentos desconfortáveis 914 corredores estreitos 146 espaço insuficiente p/ bagagem mão 218 banheiros insuficientes 58 outras 384 Fonte: Montgomery e Runger, (2009). É posśıvel transformar uma tabela como esta em uma distribuição numérica mediante codi- ficação dos dados, por exemplo, atribuindo às seis alternativas os números 1, 2, 3, 4, 5 e 6, mas isto nos daria dados nominais que são numéricos apenas em sentido trivial. A construção de uma tabela de frequência consiste essencialmente de três etapas: 1. escolha das classes (intervalos ou categorias); 2. enquadramento dos dados nessa categoria; 3. contagem do número de elementos em cada classe. A etapa mais dif́ıcil é a primeira, a saber, a escolha de uma classificação conveniente. Em distribuições numéricas, consiste em decidir quantas classes utilizar e a amplitude de cada uma. Esta escolha é puramente arbitrária, mas costuma-se observar: 1. raramente usam-se menos de seis classes ou mais de quinze classes. O número exato depende de cada situação; 2. ter certeza que cada elemento se enquadra em uma e somente uma classe; 30 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 3. sempre que posśıvel, as classes devem ter amplitudes iguais, geralmente são múltiplos de 5; Segundo Fonseca e Martins (2012), há duas aparentes soluções para a definição do número de intervalos: a)Se o número de elementos (n) for menor que 25 então o número de classes (k) é igual a 5; se n for maior que 25, então o número de classes é aproximadamente a raiz quadrada positiva de n. Ou seja: ** Para n ≤ 25, k = 5 ** Para n > 25, k = √ n. b) Outro critério utilizado na determinação do número de classes k é através da fórmula emṕırica de Sturges: k = 1 + 3, 32 log n onde n representa o total de observações. A amplitude (h) de cada classe será dada por h = A k onde A = Xmax −Xmin representa a amplitude total das observações, definida como a diferença entre o maior e o menor valores observados. Existem 4 variações de frequências, a saber 1. Frequência absoluta simples (fi): é o número de vezes em que cada elemento aparece na amostra ou população. 2. Frequência Absoluta Simples Acumulada (Fi): É a soma das frequências dos dados anteriores. 3. Frequência Relativa (fri): É a razão entre o valor de cada frequência e o número total de dados existentes na observação. Ou seja: fri = fi n , i = 1, · · · , k 4. Frequência Relativa Acumulada (Fri): É a soma das frequências relativas dos dados anteriores. Exemplo 1: Quarenta alunos da UTFPR - Toledo foram questionados quanto ao número de livros lidos no segundo semestre de 2016. 4 2 1 0 3 1 2 0 1 2 0 2 1 1 0 4 3 2 3 5 6 0 1 6 5 3 2 1 6 4 3 4 5 3 2 1 0 2 1 0 31 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 1. Organize os dados e construa as 4 variações da tabela de distribuição de frequências; 2. Qual o percentual de alunos que leram menos do que 3 livros? 3. Qual o percentual de alunos que leram 4 ou mais livros? Exemplo 2: Os dados a seguir representam a idade 50 funcionários (colocados em ordem cres- cente) selecionados aleatoriamente da população de uma indústria X. 18 20 20 21 22 24 25 25 26 27 29 29 30 30 31 31 32 33 34 35 36 36 37 37 37 37 38 38 38 40 41 43 44 44 45 45 45 46 47 48 49 50 51 53 54 54 56 58 62 65 Organize os dados e construa as 4 variações da tabela de distribuição de frequências. Interprete os resultados. 32 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Exemplo 3: Construa uma distribuição de frequências simples (fi) para as seguintes notas obti- das por 40 estudantes em um teste. 75 89 66 52 90 68 83 94 77 60 38 47 87 65 97 49 65 72 73 81 63 77 91 88 74 37 85 76 74 63 69 72 31 87 76 58 63 70 72 65 Organize os dados e construa as 4 variações da tabela de distribuição de frequências. Interprete os resultados. 3.1.2 Tabela de distribuição de frequências bidimensional Muitas vezes, estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis. Assim, vamos estudar como organizamos e resumimos os dados para uma distribuição conjunta de duas variáveis em forma de tabelas. Essas tabelas podem apresentar freqüências relativas as quais servem para apresentar estimativas de riscos, ou seja, dão estimativas das probabilidades de dano. O exemplo mostrado abaixo apresenta o número de nascidos vivos registrados, classificados segundo dois fatores: o ano de registro e o sexo. Tabela 3: Nascidos vivos registrados segundo o ano de registro e o sexo Ano reg. Total Masculino Feminino 1984 1.307.758 1.251.258 2.559.038 1985 1.339.059 1.280.545 2.619.604 1986 1.418.050 1.361.203 2.779.253 Nota: Nascimentos ocorridos no ano de registro. Fonte: IBGE (1980). 3.2 Apresentações gráficas Quando as distribuições de frequência têm como principal objetivo condensar grandes conjuntos de dados em uma forma fácil de assimilar, é melhor apresentar essas distribuições graficamente. Uma figura fala mais alto que mil palavras! Para as distribuições de frequência, a forma mais comum de apresentação gráfica é o his- tograma. Um histograma é constrúıdo, representando-se as medidas ou observações que são agrupadas em uma escala horizontal, e as frequências de classe em uma escala vertical; traçam-se então retângulos, cujas bases são iguais aos intervalos de classe e cujas alturas são as frequências de classe correspondentes. As marcações na escala horizontal de um histograma podem ser os pontos médios, os limites de classe, as fronteiras de classe ou outros valores básicos arbitrários. 33 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Observaç~ao: os retângulos de um histograma vão de uma fronteira de classe até a próxima. Não é posśıvel traçar histogramas de distribuições com classes abertas; exige-se, outrossim, cuidado especial quando os intervalos de classe não são todos iguais. Figura 3.1: Exemplo de histograma. Exemplo 1: Obtenha o histograma das notas finais dos estudantes da disciplina de Probabilidade e Estat́ıstica 2014.2 Análogos aos histogramas são os gráficos de barras. As alturas dos retângulos, ou barras, representam as frequências de classe como em um histograma, mas não se tem necessariamente em vista uma escala horizontal cont́ınua. 34 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Figura 3.2: Exemplo de gráfico de barras. Exemplo 2: Obtenha o gráfico de barras do número de livros lidos no segundo semestre de 2016 na UTFPR - Toledo. Outra forma, não tanto utilizada, é o poĺıgono de frequência. Aqui, as frequências de classe são marcadas nos pontos médios, e os valores sucessivos são unidos por segmentos retiĺıneos. Se faz necessário acrescentar classes com frequência zero em ambos os extremos da distribuição para ligar o gráfico à escala horizontal. Figura 3.3: Exemplo de poĺıgono de frequências. Exemplo 3: Obtenha o poĺıgono de frequências das notas finais dos estudantes da disciplina de Probabilidade e Estat́ıstica 2014.2 35 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Aplicando a uma distribuição cumulativa técnica idêntica, obtemos a chamada ogiva. Em uma ogiva, entretanto, as frequências são acumuladas são marcadas nas fronteiras de classe, e não nos pontos médios. Figura 3.4: Exemplo de ogiva. Exemplo 4: Obtenha o gráfico ogiva das notas finais dos estudantes da disciplina de Probabili- dade e Estat́ıstica 2014.2 Embora o aspecto visual dos histogramas, gráficos em barras, poĺıgonos de frequência e ogivas constitua acentuada melhoria sobre as simples tabelas, há várias maneiras em que as distribuições podem ser apresentadas de forma ainda mais eficiente. Duas formas, bastante utilizada por jornais e revistas, são o pictograma e o gráfico de setores, conhecido também como gráfico de pizza. Para construir um gráfico de setor, começamos por converter a distribuição em uma distri- buição percentual. Como um ćırculo completo corresponde a 360 graus, obtemos os ângulos centrais dos diversos setores multiplicando as percentagens por 360. Existem bastante variações destes gráficos. Um aspecto negativo neste tipo de gráfico é que ele é de dif́ıcil comparação com outros, o que não ocorre com os histogramas. Exemplo 5: Obtenha o gráfico de setores do número de livros lidos no segundo semestre de 2016 na UTFPR - Toledo. 36 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Figura 3.5: Exemplo de gráfico de setores ou de pizza. E, informações numéricas podem ser resumidas através de mapas, que podem ser feitos somente com auxilio de programas gráficos. Figura 3.6: Exemplo de mapa. 3.3 Medidas descritivas Quando analisamos uma variável qualitativa, basicamente constrúımos sua distribuição de frequências. No entanto, ao explorarmos variáveis quantitativas, temos condições de empregar algumas me- didas descritivas, que sintetizam as caracteŕısticas da distribuição. Vamos falar de medidas de tendência central (MTC), dispersão (MD) e de forma (A e K). 37 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Figura 3.7: Figura ilustrativa. 3.3.1 Medidas de tendência central Média aritmética simples O conceito de média é bastante familiar. Seja (x1, x2, · · · , xn) uma amostra de n observações de certa variávelaleatória X. A média aritmética dessas observações é definida por: x̄ = x1 + x2 + · · ·+ xn n = ∑n i=1 xi n A média resume os dados de forma a torná-los mais informativos. Exemplo 1: Uma indústria de componentes eletrônicos está interessada em determinar a vida útil de certo tipo de bateria. Uma amostra, em horas, segue abaixo: 123 116 122 110 145 126 125 111 118 117. Calcule a média de vida útil da bateria. Exemplo 2: Um gerente de supermercado, que deseja estudar a movimentação de pessoas em seu estabelecimento, constata que 295, 1002, 941, 768, 1283 pessoas entraram na loja nos últimos 5 dias. Dê o número médio de pessoas na loja. Exemplo 3: Se o salário médio anual pago aos três administradores de uma firma é R$156000, 00. Algum deles pode receber um salário anual superior a R$500000, 00? Propriedades da média 1. A soma algébrica dos desvios de um conjunto de valores em relação ao média aritmética é zero; 2. A soma algébrica dos quadrados dos desvios de um conjunto de valores em relação a média aritmética é mı́nima; 38 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 3. Somando ou subtraindo uma constante a todos os valores de uma variável, a média ficará acrescida ou subtráıda a essa constante; 4. Multiplicando ou dividindo todos os valores de uma variável por uma constante, a média ficará multiplicada ou dividida por essa constante Vantagens do emprego da média aritmética: 1. Como faz uso de todos os dados para seu cálculo, pode ser determinada com precisão matemática; 2. Pode ser determinada quando somente o valor total e o número de elementos forem conhe- cidos. Desvantagens do emprego da média aritmética: 1. Não pode ser empregada para dados qualitativos; 2. É influenciada por valores extremos, podendo, em alguns casos, não representar a série. Para você pesquisar: Investigue outras médias e suas principais propriedades, como por exem- plo: média geométrica, média harmônica, média aritmética ponderada, média hipergeométrica. Mediana É o valor que ocupa a posição central de um conjunto de dados ordenados. É a medida do elemento do meio se n é ı́mpar, ou a média dos elementos centrais se n é par: x̃ = Me = { x(n+12 ) , se n ı́mpar; x(n2 ) +x(n2 +1) 2 , se n par. Nota: Para calcular a mediana é necessário que os dados estejam ordenados!!! Exemplo 1: Determine a mediana da vida útil das baterias. 110 111 116 117 118 122 123 125 126 145. Exemplo 2: Considere o número de pessoas que frequentam a disciplina de uma instituição: 40, 32, 37, 30, 24 Dê a mediana. Vantagem do emprego da mediana 39 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 1. A mediana não é influenciada por valores extremos. Desvantagens do emprego da mediana 1. A mediana é uma medida que exige uma ordenação de categorias, da mais alta a mais baixa, assim ela só pode ser obtida para variáveis qualitativas ordinais ou para as quantitativas, jamais para variáveis qualitativas nominais; 2. Não inclui todos os valores da distribuição; Moda A moda de um conjunto de dados é o número que teve maior número de repetições. Quando não há número que mais repete, dizemos que o conjunto é amodal. Se houverem dois valores com iguais sequências, o conjunto é bimodal. E se houverem vários números, dizemos que é um conjunto multimodal. Exemplo 1: Determine a moda da vida útil das baterias. 110 111 116 117 118 122 123 125 126 145. Vantagens do emprego da moda 1. A moda é uma medida que requer apenas o conhecimento da frequência absoluta e pode ser utilizada para qualquer tipo de variáveis, tanto qualitativas, quanto quantitativas; 2. É de uso prático. Exemplificando: os empregadores geralmente adotam a referência modal de salário. Também carros e roupas são produzidos tomando como referência o tamanho modal. Desvantagens do emprego da moda 1. Não inclui todos os valores da distribuição; 2. Mostra-se ineficiente quando a distribuição é amplamente dispersa. Quartis A mediana também é conhecida como segundo quartil, e é um quantil dentre vários existentes. Por exemplo: os quartis, os decis e os percentis, que dividem o banco de dados em 4, 10 e 100 partes, respectivamente. Para obter os quartis: Q1 = X(n4 ) e Q3 = X(3n4 ) , 1. Ordene os dados em ordem crescente; 40 UTFPR - Câmpus Toledo Professoras Daniela e Regiane 2. Calcule o Quartil desejado. 3. Se X(∗) não for inteiro, arredonde para o primeiro inteiro acima para encontrar o quartil desejado. 4. Se X(∗) for inteiro, calcule o quartil fazendo a média entre o entre as observações X(∗) e X(∗+1). Exemplo 1: Calcule os quartis da vida útil das baterias. 110 111 116 117 118 122 123 125 126 145. Exemplo 2: Os registros de uma biblioteca mostram que 22 alunos do ensino médio consultaram os seguintes números de livros durante o último ano: 62, 73, 40, 72, 79, 88, 35, 51, 48, 42, 75 65, 69, 82, 50, 66, 103, 68, 54, 38, 52, 72 Ache a Me = Q2, Q1 e Q3. Exemplo 3: Ao testarem um novo sistema de coleta de reśıduos sanitários, engenheiros consta- taram que 21 residências despejavam os seguintes litros por uma hora: 69 58 70 80 46 61 65 74 75 55 67 56 70 72 61 66 58 68 70 68 58 Determine os quartis. O diagrama de caixas ou Gráfico Boxplot Uma forma de apresentar graficamente os conceitos discutidos é através do diagrama de caixas ou Box-plot. Trata-se de um retângulo que representa o desvio interquart́ılico. Esse retângulo 41 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Figura 3.8: Exemplo de um diagrama caixas ou boxplot. representa, portanto, a faixa dos 50% dos valores mais t́ıpicos da distribuição. O retângulo é divi- dido no valor correspondente à mediana; assim, ele indica o quartil inferior, a mediana e o quartil superior. Entre os quartis e os extremos, são traçadas linhas. Caso existam valores discrepantes (além de 1, 5dq), a linha é traçada até o último valor não discrepante, e os valores discrepantes são indicados por pontos. Eventuais pontos muito discrepantes (além de 3dq) normalmente são representados por śımbolos diferentes para serem bem destacados. Interpretando o diagrama de caixa 1. a caixa central inclui os 50% dos dados centrais; 2. os bigodes mostram a amplitude dos dados, isto é, a diferença entre o maior e menor valores; 3. a simetria é indicada pela caixa e bigodes e pela localização da média; 4. é relativamente fácil comparar grupos, construindo diagramas de caixa lado a lado, con- forme figura a seguir; Em um Box-plot, para reconhecer simetria nos dados: 1. a distância de Q1 à mediana é igual à distância da mediana até Q3; 2. a distância do valor mı́nimo até Q1 é igual a distância do valor máximo até Q3; 3. a mediana é igual a média. Detectando outlier Um boxplot pode ser formado para indicar explicitamente a presença de outlier. 42 UTFPR - Câmpus Toledo Professoras Daniela e Regiane Figura 3.9: Exemplo de comparação de diversos boxplots. Qualquer observação distante mais do que 1, 5(Q3−Q1) do quarto mais próximo é um outlier. Um outlier é extremo se estiver a mais de 3(Q3 − Q1) do quarto mais próximo. Caso contrário é moderado. Exemplo 1: Determinar o box-plot esquemático para da vida útil das baterias e verifique se ocorre presença de outlier. Exemplo 2: Um artigo reportou dados sobre um experimento, investigando o efeito de muitas variáveis de processos na oxidação, em fase de vapor, e naftaleno. Uma amostra da conversão percentual molar de naftaleno em anidrido maléico resulta em: 4, 2 4, 7 4, 7 5, 0 3, 8 3, 6 3, 0 5, 1 3, 1 3, 8 4, 8 4, 0 5, 2 4, 3 2, 8 2, 0 2, 8 3, 3 4, 8 5, 0 Determinar o box-plot esquemático e verifique se ocorre presença de outlier. Exemplo 3: As nove medidas que seguem são temperaturas de fornalha, registradas em bateladas sucessivas de um processo de fabricação de semicondutores (unidades em oF ) 953 950 948 955 951 949 957 954
Compartilhar