Prévia do material em texto
CONCEITOS BÁSICOS E ESTATÍSTICA DESCRITIVA 2 1 Introdução Um engenheiro é alguém que resolve problemas de interesse da sociedade, pela aplicação eficiente de princípios científicos. Os engenheiros executam isso por meio do refinamento do produto ou do processo existente ou pelo projeto de um novo produto ou processo que encontre as necessidades dos consumidores. O método de engenharia, ou cientifico, é a abordagem para formular e resolver esses problemas. O campo da estatística lida com a coleta, apresentação, análise e uso dos dados para tomar decisões, resolver problemas e planejar produtos e processos. Em termos simples, estatística é a ciência de dados. Em razão de muitos aspectos da prática de engenharia envolverem o trabalho com dados, obviamente algum conhecimento de estatística é importante para qualquer engenheiro. Especificadamente, técnicas estatísticas podem ser uma ajuda poderosa no planejamento de novos produtos e sistemas, melhorando os projetos existentes e planejando, desenvolvendo e melhorando os processos de produção. 2 Conceitos básicos Dados: Coleção de observações, tais como medidas, gêneros ou respostas de pesquisas. Estatística: Ciência do planejamento de estudos e experimentos, da obtenção de dados e, em seguida, de sua organização, resumo, apresentação, análise e interpretação e, então, estabelecimento de conclusões com base nesses dados. Significância estatística: Alcança-se a significância estatística em um estudo quando obtemos um resultado que é de ocorrência muito improvável por puro acaso. População: é a coleção completa de todas as medidas, ou dados, a serem considerados. Censo: Coleção de dados obtidos de todos os membros da população. Amostra: é uma subcoleção de membros selecionados de uma população. 2.1 Tipos de dados Um parâmetro é uma medida numérica que descreve alguma característica de uma população. Uma estatística é uma medida numérica que descreve alguma característica de uma amostra. 2.1.1 Quantitativo/categórico Dados quantitativos consistem em números que representam contagens ou medidas. 3 Dados categóricos consistem em nomes ou rótulos que não são números que representem contagens ou medidas. Dados categóricos são, algumas vezes, codificados com números, mas esses números são, na verdade, uma maneira diferente de se expressarem nomes. 2.2 Discreto/Contínuo Os dados quantitativos podem ser descritos pela distinção entre os tipos discreto e contínuo. Dados discretos surgem quando os valores de dados são quantitativos e o número de valores é finito ou enumerável. Dados contínuos surgem de infinitos valores quantitativos possíveis, em que o conjunto de valores não é enumerável. Exemplo 01: Quais dos seguintes descrevem dados discretos? a) Os números de pessoas entrevistadas em uma pesquisa. b) As alturas exatas de indivíduos em uma amostra de estudantes. c) O número de jogos de futebol que devem ser jogados para ganhar a copa do mundo de futebol. 2.3 Níveis de mensuração Outra maneira comum de se classificarem dados é por meio do uso de quatro níveis de mensuração: nominal, ordinal, intervalar e razão. O nível nominal de mensuração é caracterizado por dados que consistem em nomes, rótulos ou categorias apenas. Os dados não podem ser colocados em um esquema de ordem. Dados em nível ordinal de mensuração podem ser arranjados em alguma ordem, mas diferenças obtidas entre os valores dos dados não podem ser determinadas ou não são significativas. Dados em nível intervalar de mensuração podem ser colocados em ordem e as diferenças entre valores de dados podem ser encontradas e são significativas. No entanto, os dados nesse nível não têm um ponto inicial zero natural do qual nada da quantidade está presente. Dados estão no nível de mensuração de razão se podem ser colocados em ordem, as diferenças podem ser encontradas e são significativas, e há um ponto zero inicial natural, em que zero indica que nada da quantidade está presente. 4 Exemplo 02: Determine qual dos quatro níveis de mensuração (nominal, ordinal, intervalar, razão) é mais apropriado. a) Cores de M&M. b) O filme Avatar teve uma classificação de 4 estrelas em uma escala de 5 estrelas. c) Volumes de cérebros (cm³). d) Modelos de carros. e) Níveis de chumbo no sangue. f) Temperaturas corporais. 3 Distribuições de frequência Ao se trabalhar com grandes conjuntos de dados, uma distribuição de frequência em geral é útil para organizá-los e resumi-los. Uma distribuição de frequência mostra como o conjunto de dados é dividido entre várias categorias ou classes, listando as categorias juntamente com o número (frequências) de valores dados em cada uma delas. 3.1 Definições • Limites inferiores de classe: são os menores números que podem pertencer às diferentes classes. • Limites superiores de classe: são os maiores números que podem pertencer às diferentes classes. • Ponto médio das classes: são os valores no centro da classe. Cada ponto médio da classe pode ser encontrado somando-se o limite inferior da classe ao limite superior de classe e dividindo-se a soma por 2. • Amplitude de classe: é a diferença entre dois limites inferiores de classe consecutivos em uma distribuição de frequência. 3.2 Como construir uma distribuição de frequência Para criar uma distribuição de frequências que seja útil, você deve considerar a quantidade de classes que seria apropriada para os seus dados e, do mesmo modo, determinar uma amplitude adequada para cada um dos intervalos de classe. De modo geral, uma distribuição de frequências deve conter pelo menos 5, e não mais do que 15 classes, uma vez que o fato de ter uma quantidade demasiadamente pequena ou demasiadamente grande de classes não agrega nenhum tipo de nova informação com relação aos dados. 5 Construímos distribuições de frequência pelas seguintes razões: podemos resumir grandes conjuntos de dados, podemos analisar os dados para ver a distribuição e identificar valores atípicos e termos uma base para a construção de gráficos. 1. Selecione o número de classes, em geral entre 5 e 20. 2. Calcule a amplitude de classe 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 = (𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 𝑑𝑜𝑠 𝑑𝑎𝑑𝑜𝑠) − (𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑜𝑠 𝑑𝑎𝑑𝑜𝑠) 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠 Arredonde esse resultado para obter um número conveniente (em geral, arredonde para cima). O uso de um número específico de classes não é muito importante e, em geral, é conveniente mudar-se o número de classes de modo que sejam usados números convenientes para os limites de classe. 3. Escolha o valor mínimo dos dados, ou um valor conveniente que seja um pouco menor do que esse valor mínimo, para ser o primeiro limite inferior de classe. 4. Usando o limite inferior da primeira classe e a amplitude de classe, prossiga e liste os outros limites inferiores de classe. 5. Liste os limites inferiores de classe em uma coluna vertical e prossiga para preencher os limites superiores de classe. 6. Percorra o conjunto de dados colocando uma marca na classe apropriada para cada valor de dado. Conte as marcas para encontrar a frequência total para cada classe. Exemplo 03: O conjunto de dados inclui escores de QI de crianças que viviam próximo a uma fundição de chumbo. 70 85 86 76 84 96 94 56 115 97 77 128 99 80 118 89 141 88 96 96 107 86 80 107 101 91 125 96 99 99 115 106 105 96 50 99 85 88 120 93 87 98 78 100 105 87 94 89 80 111 104 85 94 75 73 76 107 88 89 96 72 97 76 107 104 85 76 95 86 89 76 96 101 108 102 77 74 92 Construa uma distribuição de frequência usando cinco classes. 6 3.3 Distribuição de frequência relativa Uma variação da distribuição de frequência básica é a distribuição de frequência relativa ou distribuição de frequência percentual, na qual cada frequência de classeé substituída pela frequência relativa (ou proporção) ou uma porcentagem. 𝐹𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑝𝑎𝑟𝑎 𝑢𝑚𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 = 𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑎 𝑢𝑚𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑠𝑜𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑎𝑠 𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎𝑠 𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒𝑚 𝑝𝑎𝑟𝑎 𝑢𝑚𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 = 𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑎 𝑢𝑚𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑠𝑜𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑎𝑠 𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎𝑠 × 100% Exemplo 04: Encontre a frequência relativa para as classes do exemplo 01. 7 3.4 Distribuição de frequência acumulada Na distribuição de frequência acumulada, a frequência para cada classe é a soma das frequências daquela classe e de todas as classes anteriores. Exemplo 05: Encontrar a frequência acumulada para os dados do exemplo 01. Exemplo 06: A tabela abaixo apresenta uma distribuição de frequência das áreas de 400 lotes. Áreas Número de lotes 300 ├ 400 14 400 ├ 500 46 500 ├ 600 58 600 ├ 700 76 700 ├ 800 68 800 ├ 900 62 900 ├ 1000 48 1000 ├ 1100 22 1100 ├ 1200 6 Determine: a) A amplitude total; b) O limite inferior da oitava classe; c) O limite superior da quinta classe; d) A amplitude do intervalo da segunda classe; e) A frequência da quarta classe; f) A frequência acumulada da quinta classe; g) O número de lotes cuja área não atinge 700 m²; h) O número de lotes cuja área atinge e ultrapassa 800 m²; i) A percentagem dos lotes cuja área não atinge 600 m²; 8 j) A classe do 72° lote; k) Até que classe estão incluídos 60% dos lotes. 3.5 Classe com valor único Se as observações de um conjunto de dados assumirem somente alguns poucos valores (inteiros) distintos, pode ser apropriado preparar uma tabela de distribuição de frequências utilizando classes com valor único – ou seja, classes que são compostas por valores únicos e não por intervalos. Essa técnica é especialmente útil nos casos relativos a dados discretos, com somente alguns poucos valores possíveis. Exemplo 07: A administração pública de uma grande cidade deseja conhecer a distribuição de veículos possuídos por domicílios naquela cidade. Uma amostra de 40 domicílios, aleatoriamente selecionados naquela cidade, produziu os seguintes dados sobre o número de veículos. 5 1 1 2 0 1 1 2 1 1 1 3 3 0 2 5 1 2 3 4 2 1 2 2 1 2 2 1 1 1 4 2 1 1 2 1 1 4 1 3 Construa uma tabela de distribuição de frequências para esses dados utilizando classes com valor único. 9 4 Histogramas Um histograma é um gráfico que consiste em barras de mesma largura e desenhadas adjacentes umas às outras (a menos que haja lacunas nos dados). A escala horizontal representa classes de valores de dados quantitativos e a escala vertical representa frequências. As alturas das barras correspondem aos valores das frequências. Figura 1. Histograma de resistência à compressão para 80 corpos de prova de uma liga de alumínio – lítio. 4.1 Distribuição normal Quando representada como um histograma, uma distribuição normal tem a forma de um “sino”. Em uma distribuição normal as frequências crescem até um máximo e, então, decrescem e o gráfico apresenta simetria, com a metade esquerda do histograma sendo aproximadamente uma imagem espelhada da metade direita, como mostra a Figura 2. Figura 2. Distribuição aproximadamente normal. 4.2 Assimetria Uma distribuição de dados é assimétrica se não é simétrica e se estende mais para um lado do que para o outro. Dados assimétricos à direita (também chamada positivamente 10 assimétrica) têm uma cauda direita maior (Figura 3a). Dados assimétricos à esquerda (também chamados negativamente assimétricos) tem uma cauda esquerda maior (Figura 3b). Exemplo 08: A tabela a seguir fornece a magnitude de terremotos. Use a distribuição de frequência para construir um histograma. As magnitudes parecem ser normalmente distribuídas? Magnitude Frequência 0,00 ├ 0,50 5 0,50 ├ 1,00 15 1,00 ├ 1,50 19 1,50 ├ 2,00 7 2,00 ├ 2,50 2 2,50 ├ 3,00 2 (a) (b) Figura 3. (a) Distribuição assimétrica à direita. (b) Distribuição assimétrica à esquerda. 11 5 Gráficos 5.1 Diagramas de dispersão Um diagrama de dispersão é um gráfico de pares de dados quantitativos (x,y) com um eixo horizontal x e um eixo vertical y. O eixo horizontal é usado para a primeira variável (x) e o eixo vertical para a segunda variável. O padrão dos pontos marcados é, em geral, útil para se determinar a existência, ou não, de uma correlação entre duas variáveis. A Figura 4 mostra um gráfico de dispersão. Figura 4. Gráfico de dispersão. 5.2 Gráfico de série temporal Um gráfico de série temporal é um gráfico de dados de série temporal que são dados quantitativos que foram coletados em pontos diferentes no tempo, tal como mensalmente ou anualmente, como mostra a Figura 5. Figura 5. Série temporal. 12 5.3 Gráfico de pontos Um gráfico de pontos é um gráfico no qual cada valor de dado é plotado como um ponto ao longo de uma escala de valores. Os pontos que representam valores iguais são empilhados. A Figura 6 mostra um exemplo de gráfico de pontos Figura 6. Gráfico de Pontos. 5.4 Diagrama de Ramo-e-Folhas Um diagrama de ramo-e-folhas representa dados quantitativos por meio da separação de cada valor em duas partes: o ramo (como o dígito mais à esquerda) e a folha (como o dígito mais a direita). Obtêm-se, em geral, melhores diagramas de ramo-e-folhas arredondando-se primeiro os valores dos dados originais. Além disso, diagramas de ramo-e- folhas podem ser expandidos, para incluir mais linhas, e podem ser condensados, para ter menos linhas. Uma vantagem do diagrama de ramo-e-folhas é que podemos ver a distribuição dos dados e ainda manter todos os valores de dados originais. Outra vantagem é que a construção de um diagrama de ramo-e-folhas é uma maneira rápida e fácil de ordenar os dados, e essa ordenação é necessária para alguns procedimentos estatísticos. Por exemplo, o diagrama de ramo-e-folhas da Figura 7 apresenta os escores de QI de um grupo exposto a chumbo com baixo nível de chumbo no sangue, o mesmo grupo do exemplo 03. O menor escore de QI de 50 é separado em seu ramo 5 e sua folha 0, e cada um dos valores restantes é separado de maneira semelhante. Figura 7. Diagrama de ramo-e-folhas. 13 5.5 Gráfico de barras Um gráfico de barra usa barras de igual largura para mostrar as frequências das categorias de dados categóricos. A escala vertical representa as frequências ou frequências relativas. A escala horizontal identifica as diferentes categorias dos dados qualitativos. As barras podem, ou não, ser separadas por um pequeno espaço. Um gráfico de barras múltiplas tem dois ou mais conjunto de barras, e é usado para a comparação de dois ou mais conjunto de dados. A Figura 8 mostra um gráfico de barras. Figura 8. Gráfico de barras. 5.6 Gráficos de Pareto Quando queremos que um gráfico de barras chame a atenção para as categorias mais importantes, podemos usar um gráfico de Pareto, que é um gráfico de barras para dados categóricos, com a condição adicional de que as barras são dispostas em ordem decrescente das frequências. Figura 9. Gráfico de Pareto. 14 5.7 Gráfico de setores Um gráfico de setores (ou gráfico de pizza) é um gráfico que retrata dados categóricos como setores de um círculo, no qual cada setor é proporcional à contagem de frequência para a categoria. Figura 10. Gráfico de setores. 5.8 Polígono de frequência Um polígono de frequência usa segmentos de reta ligados a pontos localizados diretamente acima dos valores dos pontos médios de classe. Um polígono de frequência é muito semelhante a um histograma, mas um polígono de frequência usa segmentos de reta em vez de barras. Figura 11. Polígono de frequência 5.9 Ogiva A ogivaenvolve frequências acumuladas. A ogiva usa fronteiras de classe ao longo da escala horizontal e as frequências acumuladas na escala vertical, como mostra a Figura 12. Figura 12. Ogiva. 15 5.10 Pictogramas Desenhos de objetos, chamados pictogramas, são, em geral, enganosos. Os dados, unidimensionais por natureza, são representados por objetos bidimensionais ou tridimensionais. Ao desenhar tais objetos, o artista pode criar falsas impressões, que distorcem, de maneira grosseira, as diferenças explicadas por esses princípios de geometria básica: Se você dobra cada lado de um quadrado, a área não dobra simplesmente, ela aumenta por um fator de 4; se você dobra cada lado de um cubo, o volume não dobra simplesmente, ele aumenta por um fator de oito. Figura 13. Pictograma. 16 6 Medidas de tendência central Uma medida de centro é um valor no centro, ou meio, do conjunto de dados. Há varias maneiras de se determinar o centro, de modo que há várias medidas de centro. 6.1 Medidas de centro para dados não agrupados 6.1.1 Média aritmética A média aritmética é, em geral, a mais importante de todas as medidas numéricas usadas para a descrição de dados. A média de uma amostra é denotada por �̅�, enquanto a média da população é representada por 𝜇. �̅� = ∑ 𝑥 𝑛 𝜇 = ∑ 𝑥 𝑁 Em que x é a variável usada para representar valores individuais dos dados, n representa o número de valores dados em uma amostra, N representa o número de valores dados em uma população. 6.1.1.1 Propriedades da média • Médias de amostras selecionadas de uma mesma população tendem a variar menos do que outras medidas de centro • A média de um conjunto de dados leva em conta todos os valores dos dados. • Uma desvantagem da média é que apenas um valor extremo pode afetá-la de maneira considerável. Exemplo 09: Considere a contagem de flocos de chocolates em cinco biscoitos de determinada marca: 22 22 26 24 23 Determine a média. 6.1.2 Mediana A mediana é a medida de centro de um conjunto de dados que é o valor do meio quando os dados originais estão arranjados em ordem crescente de magnitude. 17 A mediana será representada por Md e para encontrá-la, primeiro ordene os valores e depois siga um dos procedimentos seguintes: 1. Se o número de valores for ímpar, a mediana será o número localizado no meio exato da lista. 2. Se o número de valores for par, a mediana será encontrada pelo cálculo da média dos dois números do meio. A mediana não muda por grandes quantidades quando incluímos alguns poucos valores extremos. Exemplo 10: Ache a mediana dos cinco valores amostrais do exemplo 09. 6.1.3 Moda A modo de um conjunto de dados é o valor que ocorre com a maior frequência. Um conjunto de dados pode ter uma moda, mais de uma moda ou nenhuma moda. Quando dois valores ocorrem com maior frequência, cada um é uma moda, e o conjunto de dados é bimodal. Quando mais de dois valores ocorrem com maior frequência, cada um é uma moda e o conjunto de dados é multimodal. Quando nenhum valor se repete, dizemos que não há moda. A moda não é muito usada com dados numéricos, no entanto, é a única medida de centro que pode ser usada com dados no nível nominal de mensuração. Exemplo 11: Encontre a moda dos valores utilizados no exemplo 09. 6.1.4 Ponto médio O ponto médio de um conjunto de dados é a medida de centro que é exatamente o valor do meio do caminho entre os valores máximo e mínimo no conjunto original de dados. É encontrado somando-se o valor de dado máximo e o valor de dado mínimo e, a seguir, dividindo-se a soma por 2. 18 Exemplo 12: Encontre o ponto médio dos dados do exemplo 09. Regras de arredondamento: Para a média, a mediana e o ponto médio, use uma casa a mais das que são apresentadas no conjunto original de valores. Para a moda, deixe o valor sem arredondamento. Arredonde apenas a resposta final, não os valores intermediários que ocorrem durante os cálculos. 6.2 Medidas de tendência central para dados agrupados 6.2.1 Média aritmética Para calcular a média aritmética para dados agrupados, inicialmente encontre o ponto médio de cada uma das classes e, em seguida, multiplique os pontos médios (x) pelas frequências das classes correspondentes (F). A soma desses produtos fornece uma aproximação para a soma de todos os valores. Para encontra o valor da média aritmética, divida essa soma pelo número total de observações nos dados. �̅� = ∑ 𝑥 ∙ 𝐹 ∑ 𝐹 𝜇 = ∑ 𝑥 ∙ 𝐹 ∑ 𝐹 Exemplo 13: A tabela fornece a distribuição de frequências do número de encomendas recebidas a cada dia, durante os últimos 50 dias, no escritório de uma empresa de entrega de encomendas. Número de encomendas Número de dias 10 ├ 13 4 13 ├ 16 12 16 ├ 19 20 19 ├ 22 14 Calcule a média aritmética. 19 6.2.2 Mediana para dados agrupados Temos que determinar um valor tal que divida a distribuição em dois grupos que contenham o mesmo número de elementos. Inicialmente, temos que determinar a classe na qual se encontra a mediana (a classe mediana). Tal classe será aquela correspondente à frequência acumulada imediatamente superior a ∑ 𝐹 2 . Feito isso, um problema de interpolação resolve a questão, admitindo-se, agora, que os valores se distribuam uniformemente em todo o intervalo de classe e é dado pela fórmula a seguir 𝑀𝑑 = 𝑙 + ( ∑ 𝐹𝑖 2 − 𝐹𝑎(𝑖−1)) ℎ 𝐹 ∗ Em que 𝑙 é o limite inferior da classe mediana, 𝐹𝑎(𝑖−1) é a frequência acumulada da classe anterior à classe mediana; 𝐹 ∗ é a frequência simples da classe mediana, h é a amplitude do intervalo da classe mediana. Exemplo 14: Encontre a mediana para a distribuição de frequência do exemplo 13. 6.2.3 Moda para dados agrupados A classe que apresenta a maior frequência é denominada classe modal. A moda é determinada pela seguinte fórmula: 𝑀𝑜 = 𝑙𝑖 + ℎ(𝐹𝑖 − 𝐹𝑖−1) (𝐹𝑖 − 𝐹𝑖−1) + (𝐹𝑖 − 𝐹𝑖+1) Em que i é a ordem da classe modal; li é o limite inferior da classe modal, h é a amplitude da classe modal, Fi é a frequência absoluta da classe modal, Fi-1 é a frequência absoluta da classe anterior à classe modal. Exemplo 15: Encontre a moda para os dados da distribuição de frequência do exemplo 13. 20 7 Medidas de variação Além da tendência central, todo conjunto de dados pode ser caracterizado por meio da sua variação e seu formato. A variação mede a difusão, ou dispersão, dos valores em um determinado conjunto de dados. As medidas mais habitualmente utilizadas em estatística são o desvio-padrão e a variância. 7.1 Amplitude A amplitude de um conjunto de valores dados é a diferença entre o maior valor e o menor valor. 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = 𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 𝑑𝑜𝑠 𝑑𝑎𝑑𝑜𝑠 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑜𝑠 𝑑𝑎𝑑𝑜𝑠 Como a amplitude usa apenas os valores de dados máximo e mínimo, é muito sensível a valores extremos e não é tao útil quanto outras medidas de variação que usam todos os valores dos dados. Exemplo 16: Ache a amplitude dos seguintes números de flocos de chocolate em biscoitos: 22, 22, 26, 24. 7.2 Variância e Desvio-padrão O desvio-padrão é a medida de variação mais comumente usada na estatística. É uma medida de quanto os valores se afastam da média Em geral, um valor mais baixo de desvio- padrão, para determinado conjunto de dados, indica que os valores daquele conjunto de dados estão dispersos ao longo de uma amplitude relativamente menor em torno da média aritmética. Em contrapartida, um maior valor de desvio-padrão, para um conjunto de dados, indica que os valores daquele conjunto de dados estão dispersos ao longo de uma amplitude relativamente maior em torno da média aritmética. O desvio-padrão é obtido extraindo-se a raiz quadrada positiva da variância.A variância calculada para os dados da população é representada por σ² e para os dados da amostra é representada por s². Consequentemente, o desvio-padrão calculado para dados de populações é representado por σ, enquanto o desvio-padrão calculado para dados de amostras é representado por s. A seguir estão as fórmulas para cálculo da variância e do desvio-padrão. 21 Variância amostral: 𝑠2 = ∑(𝑥 − �̅�)² 𝑛 − 1 Variância populacional: 𝜎2 = ∑(𝑥 − 𝜇)² 𝑁 Desvio-padrão amostral: 𝑠 = √ ∑(𝑥−�̅�)² 𝑛−1 ou 𝑠 = √ 𝑛(∑ 𝑥²)−(∑ 𝑥)² 𝑛(𝑛−1) Desvio-padrão populacional: 𝜎 = √ ∑(𝑥 − 𝜇)² 𝑁 • O desvio-padrão é uma medida de quanto os valores se afastam da média • O valor do desvio-padrão é usualmente positivo. É zero apenas quando todos os valores dos dados são o mesmo número. • O valor do desvio-padrão pode crescer drasticamente com a inclusão de um ou mais valores atípicos • A unidade do desvio-padrão é a mesma unidade dos valores originais. • O desvio-padrão amostral é um estimador viesado do desvio-padrão populacional Exemplo 17: Encontre o desvio-padrão para os flocos de chocolate das amostras de biscoito do exemplo anterior. 7.3 Coeficiente de variação Ao compararmos a variação em dois conjuntos de dados diferentes, os desvios- padrão só devem ser comparados se os dois conjuntos de dados usarem a mesma escala e unidades de medida e tiverem, aproximadamente, a mesma média. Se as médias forem 22 substancialmente diferentes, ou se as amostras usarem escalas ou unidades de medidas diferentes, pode-se usar o coeficiente de variação. Coeficiente de variação amostral: 𝐶𝑉 = 𝑠 �̅� ∙ 100% Coeficiente de variação populacional: 𝐶𝑉 = 𝜎 𝜇 ∙ 100% Exemplo 18: Compare a variação de números de flocos de chocolate em biscoitos que tem �̅� = 24,0 flocos e s = 2,6 flocos e pesos de refrigerantes com �̅� = 0,81682 lb e s = 0,000751 lb. 7.4 Variância e desvio-padrão para dados agrupados As fórmulas para cálculo de variância e desvio-padrão para dados agrupados são mostradas a seguir. Variância amostral: 𝑠2 = ∑(𝑥−�̅�)²∙𝐹 𝑛−1 ou (∑ 𝑥²∙𝐹)− (∑ 𝑥∙𝐹)² 𝑛 (𝑛−1) Variância populacional: 𝜎2 = ∑(𝑥−𝜇)²∙𝐹 𝑁 ou 𝜎2 = ∑ 𝑥2∙𝐹− (∑ 𝑥∙𝐹)² 𝑁 𝑁 Desvio-padrão amostral: 𝑠 = √ ∑(𝑥−�̅�)²∙𝐹 𝑛−1 ou 𝑠 = √ (∑ 𝑥²∙𝐹)− (∑ 𝑥∙𝐹)² 𝑛 (𝑛−1) Desvio-padrão populacional: 𝜎 = √ ∑(𝑥−𝜇)²∙𝐹 𝑁 ou √ ∑ 𝑥2∙𝐹− (∑ 𝑥∙𝐹)² 𝑁 𝑁 Exemplo 19: Calcule a variância e o desvio-padrão para o conjunto de dados do exemplo 13. 23 8 Medidas de posição relativa e diagrama em caixa Medidas de posição relativa são números que mostram a localização de valores de dados em relação a outros valores dentro do mesmo conjunto de dados. 8.1 Escores z Encontra-se um escore z, também chamado de valor padronizado, convertendo-se um valor para uma escala padronizada. Um escore z é o número de desvios-padrão que um valor de dado se afasta da média. O escore z é calculado usando uma das seguintes fórmulas: População 𝑧 = 𝑥 − 𝜇 𝜎 Amostra 𝑧 = 𝑥 − �̅� 𝑠 Arredonde os escores z para duas casas decimais. Escores z podem ser utilizados para ajudar a identificar valores usuais ou não usuais. Um valor é não usual se a estiver a mais de dois desvios padrões da média, então: Valores usuais: -2 ≤ escore z ≤ 2 Valores não usuais: Escores z 2 Exemplo 19: Qual dos dois valores de dados seguintes é mais extremo? • O biscoito Chips Ahoy com 30 flocos de chocolate (entre 40 biscoitos com média de 24,0 flocos de chocolate e desvio-padrão de 2,6 flocos de chocolate) • A lata de Coca regular com um peso de 0,8295 lb (entre 36 latas de Coca regular com peso médio de 0,81682 lb e desvio-padrão de 0,00751 lb). Ambos os valores de dados são os maiores valores em seus respectivos conjunto de dados, mas qual deles é mais extremo em relação ao conjunto de dados dos quais eles vieram? 24 Exemplo 20: Suponha que uma grande amostra de homens adultos tenha taxas de pulsação com média de 67,3 batimentos por minuto e desvio-padrão de 10,3 batimentos por minuto. Uma taxa de pulsação de 48 batimentos por minutos é usual ou não usual? 8.2 Percentis Percentis são medidas de localização denotados por P1, P2, P3, ..., P99, que dividem o conjunto de dados em 100 grupos com cerca de 10% dos valores em cada um deles. O processo para encontrar um percentil que corresponde a um determinado valor de x é dado pela expressão 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑑𝑜 𝑣𝑎𝑙𝑜𝑟 𝑥 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑚𝑒𝑛𝑜𝑟𝑒𝑠 𝑑𝑜 𝑞𝑢𝑒 𝑥 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 ∙ 100 Para o procedimento inverso, ou seja, converter um percentil em valor de dados, pode-se usar o seguinte procedimento: Exemplo 21: A tabela a seguir lista as contagens de flocos de chocolate em 40 biscoitos. Ache o percentil para um biscoito com 23 flocos de chocolate. Encontre o valor do 18° e 25° percentil. 19 19 20 20 20 20 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 25 25 25 25 25 25 25 26 26 26 26 26 26 27 27 28 28 30 25 8.3 Quartis Assim como há 99 percentis que dividem os dados em 100 grupos, há três quartis que dividem os dados em quatro grupos. Os quartis são denotados por Q1, Q2 e Q3 e tem cerca de 25% dos valores em cada grupo. Q1 (Primeiro Quartil): Mesmo valor de P25. Separa os 25% inferiores dos 75% superiores dos valores ordenados Q2 (Segundo Quartil): Mesmo que P50 e mesmo que a mediana, separa os 50% dos valores ordenados inferiores dos 50% superiores. Q3 (Terceiro Quartil): Mesmo que P75. Separa os 75% valores ordenados inferiores dos 25% superiores. Os quartis podem ser calculados como os percentis ou: 𝑄1 : 𝑛+1 4 valor na ordem de classificação 𝑄3 : 3(𝑛+1) 4 valor na ordem de classificação Use as seguintes regras para calcular os quartis: • Se o valor na ordem de classificação corresponde a um número inteiro, então o quartil é igual à medição que corresponde àquele valor na ordem de classificação. • Se o valor na ordem de classificação corresponde a um número que seja uma fração, o quartil é igual à medição que corresponde à média entre as medições referentes aos dois valores envolvidos na ordem de classificação. A diferença entre o terceiro quartil e o primeiro quartil para um determinado conjunto de dados é chamada de amplitude de interquartil (AIQ), que é uma medida de dispersão. 𝐴𝐼𝑄 = 𝑄3 − 𝑄1 Exemplo 22: Os dados a seguir correspondem a idades (em anos) de nove empregados de uma empresa seguradora: 47 28 39 51 33 37 59 24 33 a) Encontre os valores dos três quartis. Em que posição se coloca a idade de 28 anos em relação às idades desses empregados? b) Encontre a amplitude interquartil. 26 8.4 Percentis e Quartis para dados agrupados em classes 8.4.1 Percentis Para calcular os percentis para dados agrupados em classes, primeiramente deve-se encontrar a classe em que o percentil está usando 𝑘∙∑ 𝐹𝑖 100 , em que k é o percentil em uso e Fi as frequências de cada classe. Em seguida, calcula-se o percentil pela fórmula: 𝑃𝑖 = 𝑙𝑃𝑖 (𝑘 ∑ 𝐹𝑖 100 − 𝐹𝑎𝑖−1) ℎ 𝐹𝑃𝑖 Em que: 𝑙𝑃𝑖 é o limite inferior da classe em que está o percentil; 𝐹𝑎𝑖−1 é a frequência acumulada da classe anterior à classe em que está o percentil; ℎ é a amplitude da classe em que está o percentil; 𝐹𝑃𝑖 é a frequência absoluta da classe em que está o percentil. 8.4.2 Quartis • Primeiro quartil: Primeiramente, encontra-se a classe em que o quartil está pela frequência acumulada usando ∑ 𝐹𝑖 4 , depois, determina-se o quartil pela fórmula: 𝑄1 = 𝑙𝑄1 + ( ∑ 𝐹𝑖 4 − 𝐹𝑎𝑖−1) ℎ 𝐹𝑄1 Em que: 𝑙𝑄1 é o limite inferior da classe em que está o primeiro quartil; 𝐹𝑎𝑖−1 é a frequência acumulada da classe anterior à classe emque está o quartil; ℎ é a amplitude da classe em que está o quartil 𝐹𝑄1 é a frequência absoluta da classe em que está o quartil. • Terceiro quartil: Primeiramente, encontra-se a classe em que o quartil está pela frequência acumulada usando 3∙∑ 𝐹𝑖 4 , depois, determina-se o quartil pela fórmula: 𝑄3 = 𝑙𝑄3 + ( 3 ∙ ∑ 𝐹𝑖 4 − 𝐹𝑎𝑖−1) ℎ 𝐹𝑄3 27 Exemplo 23: Dada a distribuição, determinar os quartis (Q1 e Q3), a mediana e o percentil 72. Classes Fi 7├ 17 6 17├ 27 15 27├ 37 20 37├ 47 10 47├ 57 5 28 9 Resumo dos Cinco Números e Diagrama em Caixa Para um conjunto de dados, o resumo dos cinco números consiste nos seguintes cinco valores: 1. Mínimo 2. Primeiro Quartil, Q1 3. Segundo Quartil, Q2 4. Terceiro Quartil, Q3 5. Máximo Um diagrama em caixa ou boxplot (ou diagrama em caixa bigode) é um gráfico de um conjunto de dados que consiste em uma linha que se estende do valor mínimo ao valor máximo, e em um caixa com linhas traçadas no primeiro quartil, Q1, na mediana e no terceiro quartil, Q3. Um diagrama de caixa é mostrado na Figura 14. Figura 14. Exemplo de diagrama de caixa. O resumo dos cinco números é usado para a construção de um diagrama em caixa, como no procedimento seguinte: 1. Ache o resumo dos cinco números; 2. Construa uma escala com valores que incluam os valores máximos e mínimos dos dados; 3. Construa uma caixa estendendo-se de Q1 a Q3, e trace uma linha na caixa do valor de Q2. 4. Trace linhas estendendo-se para fora da caixa até os valores mínimos e máximo dos dados. Exemplo 24: Encontre o resumo de cinco números e construa o diagrama em caixa para os dados da tabela abaixo. 19 19 20 20 20 20 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 25 25 25 25 25 25 25 26 26 26 26 26 26 27 27 28 28 30 29 10 Assimetria e Curtose O padrão da distribuição dos valores de dados ao longo do intervalo inteiro onde está contida a totalidade de valores é chamada de formato. O formato de uma distribuição de valores de dados pode ser descrito por meio de duas estatísticas: assimetria e curtose. A assimetria mede a dimensão pela qual os valores de dados não são simétricos em torno da média aritmética. Em uma distribuição simétrica, os valores abaixo da média aritmética estão distribuídos exatamente do mesmo modo que os valores acima da média aritmética, e a assimetria é igual a zero. Em distribuições assimétricas à esquerda, a maior parte dos valores se encontra na parcela superior da distribuição. Uma longa cauda e uma distorção para a esquerda são causadas por alguns valores extremamente pequenos. Uma vez que a estatística da assimetria para esse tipo de distribuição será sempre menor do que zero, o termo assimétrica negativa é também utilizado para descrever essa distribuição. Esses valores extremamente pequenos puxam a média aritmética para baixo, de modo tal que a média aritmética passa a ser menor do que a mediana. Na distribuição assimétrica à direita, a maior parte dos valores está posicionada na parcela inferior da distribuição. Uma longa cauda é causada por alguns valores extremamente grandes. Uma vez que a estatística da assimetria para esse tipo de distribuição será sempre maior do que zero, o termo assimétrica positiva é também utilizado para descrever esse tipo de distribuição. Esses valores extremamente grandes puxam a média aritmética para cima, de modo tal que a média aritmética passa a ser maior do que a mediana. A Figura 15 mostra os histogramas para cada tipo de simetria. Figura 15. Histograma para uma curva: (a) Simétrica; (b) assimétrica à direita; (c) assimétrica à esquerda. 30 O coeficiente de assimetria (As) pode ser calculado pelo 1° ou 2° coeficiente de Pearson como mostram as fórmulas. • 1° Coeficiente de Pearson 𝐴𝑠 = �̅�−𝑀𝑜 𝑠 ou 𝐴𝑠 = 𝜇−𝑀𝑜 𝜎 • 2° Coeficiente de Pearson 𝐴𝑠 = 𝑄1 + 𝑄3 − 2𝑀𝑑 𝑄3 − 𝑄1 A curtose mede a extensão na qual valores que sejam muito diferentes da mediana afetam o formato da distribuição de um determinado conjunto de dados. A curtose afeta a acentuação do pico da curva da distribuição – ou seja, o quão ingremente a curva cresce se aproximando do centro da distribuição. A curtose compara o formato do pico de uma distribuição normal, que é a curva mesocúrtica. Uma distribuição que tenha um pico no centro crescendo de maneira mais íngreme do que o pico de uma distribuição normal é chamada de leptocúrtica. Uma distribuição que tenha um pico no centro crescendo de maneira mais lenta (mais achatada) do que o pico correspondente a uma distribuição normal é chamada de platicúrtica. Uma distribuição leptocúrtica apresenta maior concentração de valores nas proximidades da média aritmética, em comparação com a distribuição normal, enquanto uma distribuição plarticúritica apresenta menor concentração, ao se comparar com a distribuição normal. Pelo fato de afetar o formato do pico central, a concentração relativa de valores próximos à média aritmética também afeta as extremidades, ou caudas, da curva de uma distribuição. Uma distribuição leptocúrtica apresenta uma quantidade muito maior de valores nas caudas, do que uma distribuição normal. A Figura 16 mostra curvas com os diferentes tipos de curtose. Figura 16. Tipos de curtose. O coeficiente de curtose (K) pode ser calculado pela seguinte fórmula: 31 𝐾 = 𝑄3 − 𝑄1 2(𝑃90 − 𝑃10) Se K = 0,263 a curva é mesocúrtica, se K > 0,263 é platicúrtica e se K32% Acredita em astrologia 26% Acredita em magia 20% 7) Uma indústria produz suportes de aço para equipamentos elétricos. O principal componente do suporte é uma placa de aço em baixo relevo, obtida de uma bobina de aço de calibre 14. Ela é produzida por meio de uma punção progressiva de uma prensa de 250 toneladas, com uma operação de limpeza que posiciona duas formas de 90 graus no aço plano, de maneira a fabricar o baixo-relevo. A distância de um lado da forma até o outro é crítica, em razão da necessidade de o suporte ser à prova d’água quando utilizado em ambientes externos. A empresa exige que a largura do baixo-relevo esteja entre 8,31 polegadas e 8, 61 polegadas. As amplitudes dos baixos-relevos, coletados a partir de uma amostra contendo 49 baixos-relevos são dadas abaixo: 8,312 8,343 8,317 8,383 8,348 8,410 8,351 8,373 8,481 8,422 8,476 8,382 8,484 8,403 8,414 8,419 8,385 8,465 8,498 8,447 8,436 8,413 8,489 8,414 8,481 8,415 8,479 8,429 8,458 8,462 8,460 8,444 8,429 8,460 8,412 8,420 8,410 8,405 8,323 8,420 8,396 8,447 8,405 8,439 8,411 8,427 8,420 8,498 8,409 a) Construa a distribuição de frequência usando 10 intervalos de classe, a distribuição de frequência relativa em porcentagem e a frequência relativa acumulada. b) O que você pode concluir em relação ao número de placas de baixo-relevo que atenderão aos requisitos da empresa, no que se refere a estar entre 8,31 polegadas e 8,61 polegadas de largura? 8) Dada a distribuição de frequência Idade ao ganhar o Oscar de melhor ator Frequência 20 ├ 30 1 30 ├ 40 26 40 ├ 50 35 50 ├ 60 13 60 ├ 70 6 70 ├ 80 1 a) Encontre a frequência relativa. b) Encontre a frequência acumulada. 9) A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma empresa de ônibus: Número de acidentes 0 1 2 3 4 5 6 7 Número de motoristas 20 10 16 9 6 5 3 1 Determine: a) O número de motoristas que não sofreram nenhum acidente; b) O número de motoristas que sofreram pelo menos quatro acidentes; 34 c) O número de motoristas que sofreram menos de três acidentes; d) O número de motoristas que sofreram no mínimo três e no máximo cinco acidentes; e) A percentagem dos motoristas que sofreram no máximo dois acidentes. 10) Use a distribuição de frequência para construir um histograma. O histograma parece representar dados que têm uma distribuição normal? Por quê? Taxa de pulsação (batimentos por minuto) Frequência 40├50 1 50├60 7 60├70 17 70├80 9 80├90 5 90├100 1 11) Examinando o histograma abaixo, que corresponde às notas relativas à aplicação de um teste de inteligência a um grupo de alunos, responda: a) Qual é o intervalo de classe que tem maior frequência? b) Qual a amplitude total da distribuição? c) Qual o número total de alunos? d) Qual é a frequência do intervalo de classe 110├120? e) Quais são os dois intervalos de classe tais que a frequência de um é o dobro da frequência do outro? f) Quantos alunos receberam notas de testes entre 90 (inclusive) e 110? g) Quantos alunos receberam notas não inferiores a 100? 12) As trincas em aço e ferro causadas por fadiga de corrosão caustica foram estudadas em decorrência de falhas em rebites de caldeiras de aço e em rotores a vapor. Considere as observações a seguir sobre o comprimento da trinca (μm) como resultados de testes de fadiga por corrosão devido as cargas constantes em amostras de barras de tração lisas durante um período de tempo fixo. Qual a média dos comprimentos das trincas? 35 16,1 9,6 24,9 20,4 12,7 21,2 30,2 25,8 18,5 10,3 25,3 14,0 27,1 45,0 23,3 24,2 14,6 8,9 32,4 11,8 28,5 13) A pressão mínima de injeção (psi) em amostras de moldagem por injeção de milho de alta amilose foi determinada por oito amostras diferentes (pressões mais altas correspondem a maior dificuldade de processamento), resultando nas observações a seguir: 15,0 13,0 18,0 14,5 12,0 11,0 8,9 8,0 Determine os valores da média amostral e da mediana. Suponha que desejemos que os valores da média e da mediana sem expressos em quilogramas por polegada quadrada (ksi) em vez de psi. É necessário mudar as unidades de cada observação ou os valores calculados podem ser usados diretamente? 14) A propagação de trincas por fadiga em diversas peças de aeronaves tem sido objeto de muitos estudos nos últimos anos. Os dados a seguir consistem dos tempos de propagação (horas de voo/104) para atingir um determinado tamanho de trinca em furos de fixadores propostos para uso em aeronaves militares: 0,736 0,863 0,865 0,913 0,915 0,937 0,983 1,007 1,011 1,064 1,109 1,132 1,140 1,153 1,253 1,394 Calcule os valores da média e da mediana amostrais. Em quanto a maior observação da amostra pode ser diminuída sem afetar o valor da mediana? 15) Um experimento para estudar a vida útil (em horas) de um certo tipo de componente consiste em colocar dez componentes em operação e observá-los por 100 horas. Oito dos componentes apresentaram falhas nesse período e esses valores de vida útil foram registrados. Os tempos de vida útil dos componentes que funcionam após 100 horas são representados por 100+. As observações resultantes foram: 48 79 100+ 35 92 86 57 100+ 17 29 Que medidas de tendência central podem ser calculadas e quais os valores dessas medidas? 16) A seguir estão listadas as receitas brutas (em milhões de dólares) de bilheteria do filme Harry Potter e o Enigma do Príncipe. O filme estreou nos Estados Unidos em uma quarta- feira, e as quantias estão listadas em ordem para os 14 primeiros dias de apresentação do filme. Calcule a média, a mediana, a moda, a amplitude, a variância e o desvio-padrão dos dados. 58 22 27 29 21 10 10 8 7 9 11 9 4 4 17) O monóxido de carbono é medido, em San Francisco na Califórnia, em cinco dias diferentes, e a média desses cinco valores é 0,62 partes por milhão. Quatro dos valores (em partes por milhão) são 0,3; 04; 1,1 e 0,7. Ache o valor faltante. 18) Encontre a média e o desvio-padrão dos dados na distribuição de frequência dada. 36 Idade dos vencedores do Oscar de Melhor Ator ao serem premiados Frequência 20├30 27 30├40 34 40├50 13 50├60 2 60├70 4 70├80 1 80├90 1 19) Calcule a média, a mediana e a moda da distribuição amostral abaixo. Classes Fi 0 ├ 2 5 2 ├ 4 8 4 ├ 6 14 6 ├ 8 10 8├ 10 7 20) Calcule a média, a mediana, a moda, o primeiro e o terceiro quartis, o 10°, o 1°, o 23°, o 15° e o 90° percentil da distribuição abaixo. Classes Fi 150 ├ 158 5 158 ├ 166 12 166 ├ 174 18 174 ├ 182 27 182 ├ 190 8 21) Sendo: Idade (anos) N° de pessoas 10 ├ 14 15 14 ├ 18 28 18 ├ 22 40 22 ├ 26 30 26├30 20 30├34 15 34├38 10 38├42 5 Determinar a) A média; b) A mediana; c) A moda; d) O primeiro quartil; e) O percentil 80. 22) Um artigo em Transactions of the Institution of Chemical Engineers (Vol. 34, 1956, pp. 280-293) reportou dados sobre um experimento investigando o efeito de muitas variáveis de processos na oxidação, em fase vapor, de naftaleno. Uma amostra da conversão percentual molar de naftaleno em anidrido maleico resulta em: 4,2; 4,7; 4,7; 5,0; 3,8; 3,6; 3,0; 5,1; 3,1; 3,8; 4,8; 4,0; 5,2; 4,3; 2,8; 2,0; 2,8; 3,3; 4,8 e 5,0. Calcule a média e o desvio-padrão da amostra e construa o diagrama de caixa. 37 23) Barack Obama tem um patrimônio líquido de $3.670.505. Os 17 membros do Ramo Executivo têm um patrimônio líquido médio de $4.939.455 com desvio-padrão de $7.775.948. Qual é a diferença entre o patrimônio líquido do ex-presidente e o patrimônio líquido médio do ramo executivo? De quantos desvio-padrão é a diferença? O patrimônio líquido de Obama é usual ou não usual? 24) O Wescheler Adult Integelligence Scale mede os escores de QI com um teste planejado de modo que a média é 100 e o desvio-padrão é 15. Considere o grupo deescores de QI que não são usuais. Quais os escores de QI que separam os usuais dos não usuais? 25) O homem vivo mais alto é Sultan Kosen, que tem uma altura de 247 cm. A mulher mais alta é Defen Yao, que tinha 236 cm de altura. Alturas de homens tem uma média de 175 cm e desvio-padrão de 7 cm. Alturas de mulheres tem média de 162 cm e desvio-padrão de 6 cm. Em relação à população do mesmo gênero, quem é mais alto? 26) Os dados a seguir se referem a duração de tempo (em segundos) de 24 erupções do gêiser Old Faithful no Yellowstone National Park. Os tempos de duração estão ordenados do menor para o maior. 110 120 178 213 234 234 235 237 240 243 245 245 250 250 251 252 254 255 255 259 260 266 269 273 Encontre: a) O percentil correspondente a 213 s. b) O percentil correspondente a 250 s. c) P60. d) P50. e) Q1. f) Q3. 27) Prevenir a propagação de trinca de fadiga em estruturas de aviões é um importante elemento de segurança em aeronaves. Um estudo de engenharia para investigar a trinca de fadiga em 9 asas carregadas ciclicamente reportou os seguintes comprimentos (em mm) de trinca: 2,13; 2,96; 3,02; 1,82; 1,15; 1,37; 2,04; 2,47; 2,60. Calcule a média e o desvio-padrão da amostra. Prepare um diagrama de pontos dos dados. 28) O pH de uma solução é medido oito vezes por uma operadora que usa o mesmo instrumento. Ela obteve os seguintes dados: 7,15; 7,20; 7,18; 7,19; 7,21; 7,20; 7,16 e 7,18. Calcule a média e o desvio-padrão da amostra. Faça comentários sobre a maiores fontes potenciais de variabilidade nesse experimento. 29) A concentração de uma solução é medida seis vezes por uma operadora que usa o mesmo instrumento. Ela obtém os seguintes dados: 63,2; 67,1; 65,8; 64,0; 65,1 e 65,3 (gramas por litro). Calcule a média, a variância e o desvio-padrão da amostra. Suponha que o valor desejado para essa solução tenha sido especificado em 65 gramas por litro. Você acha que o valor médio calculado aqui é suficientemente próximo do valor-alvo, para que se possa afirmar que a solução está correta? Justifique sua resposta. 30) Os seguintes dados são as temperaturas de um efluente, em dias consecutivos, na descarga de uma estação de tratamento de esgoto: 43 47 51 48 52 50 46 49 45 52 46 51 44 49 46 51 38 49 45 44 50 48 50 49 50 a) Calcule a média, a mediana, a variância e o desvio-padrão da amostra. b) Construa um diagrama de caixa dos dados e faça comentários a respeito da informação obtida nesse diagrama. 31) Considere os seguintes resultados relativos a três distribuições de frequência: Distribuições �̅� Mo A 52 52 B 45 50 C 48 46 Determine o tipo de simetria de cada uma delas. 32) Considerando a distribuição de frequência relativa aos pesos de cem operários de uma fábrica: Pesos (kg) Número de operários 50 ├ 58 10 58 ├ 66 15 66 ├ 74 25 74 ├ 82 24 82 ├ 90 16 90 ├ 98 10 Determine o coeficiente de assimetria. 33) O gráfico abaixo mostra o número de novos casos de COVID-19 por dia na Coréia do Sul no período compreendido entre 18 de fevereiro e 29 de março de 2020. Sabendo que P10=74; P90=517,8; Q1=88; Q3=338,5. Qual o grau de achatamento da distribuição? 34) Num teste aplicado a 20 alunos, obteve-se a seguinte distribuição de pontos: Pontos Número de alunos 35 ├ 45 1 45 ├ 55 3 55 ├ 65 8 65 ├ 75 3 75 ├ 85 3 85 ├ 95 2 39 a) Calcular o coeficiente de assimetria. b) Calcular o coeficiente de curtose. 35) É dada a distribuição dos salários semanais de 100 funcionários: Salário por semana (R$) Número de empregados 500 ├ 1000 26 1000 ├ 1500 43 1500 ├ 2000 17 2000 ├ 2500 9 2500 ├ 3000 5 a) A distribuição populacional é assimétrica? b) A distribuição populacional é leptocúrtica? 40 Respostas 1) Os valores de 1010 e 55% são ambos estatísticas porque são baseados em uma amostra. A população consiste de todos os adultos dos Estados Unidos. 2) a) população; b) amostra; c) amostra; d) população. 3) a) parâmetro; b) estatística; c) parâmetro. 4) Não. Para cada classe, a frequência nos diz quantos valores estão dentro da faixa de valores, mas não há como se determinar os escores exatos de QI na classe. 5) 6) Não. A soma das porcentagens é 199% não 100%, então cada respondente poderia responder “sim” a mais do que uma categoria. A tabela não mostra a distribuição de um conjunto de dados entre várias categorias diferentes. Em vez disso, mostra respostas à cinco questões separadas. 7) 8) b) Todas as placas atenderão aos requisitos da companhia. 9) a) 20; b) 15; c) 46; d) 20; e) 65,88% 10) O histograma parece representar uma distribuição normal. As frequências crescem até um máximo e então decrescem, e o histograma é simétrico, com a metade esquerda sendo razoavelmente uma imagem espelhada da metade direita. 11) a) 100├110; b)110; c)139; d)14; e)50├60 e 120├ 130; f)48; g)54 12) 21,18 μm Notas Frequência 30├40 4 40├50 6 50├60 9 60├70 11 70├80 9 80├90 7 90├100 4 Classes Fi fi (%) fai (%) 8,310 ├ 8,330 3 6,12 6,12 8,330 ├ 8,350 2 4,08 10,20 8,350 ├ 8,370 1 2,04 12,24 8,370 ├ 8,390 4 8,16 20,41 8,390 ├ 8,410 4 8,16 28,57 8,410 ├ 8,430 15 30,61 59,18 8,430 ├ 8,450 7 14,29 73,47 8,450 ├ 8,470 5 10,20 83,67 8,470 ├ 8,490 5 10,20 93,88 8,490 ├ 8,510 3 6,12 100,00 Idade Fi fi Fai 20 ├30 1 0,012 1 30 ├ 40 26 0,317 27 40 ├ 50 35 0,427 62 50 ├ 60 13 0,158 75 60 ├ 70 6 0,073 81 70 ├ 80 1 0,012 82 41 13) �̅� = 12,55 psi; Md = 12,50 psi. Não, pode-se multiplicar os valores da média e da mediana pelo fator de conversão. 14) �̅� = 1,0297; Md = 1,0090; A maior observação pode ser diminuída em até 0,383 sem alterar o valor da mediana. 15)Md = 68 16) �̅� = 16,4 milhões de dólares; Md = 10 milhões de dólares; Mo = 4 milhões de dólares, 9 milhões de dólares e 10 milhões de dólares; AT= 54 milhões de dólares; s² = 210,9 milhões de dólares ao quadrado; s = 14,5 milhões de dólares. 17) 0,6 parte por milhão 18) �̅� = 36,3 anos; s = 12,3 anos. 19) �̅� = 5,3; Md = 5,3; Mo = 5,2. 20) �̅� = 172,4; Md = 174; Mo = 176,6; Q1 = 166,2; Q3 = 179,2; P10 = 159,3; P1 = 151,1; P23 = 165,4; P15 = 161,7; P90 = 183,0. 21) a) �̅� = 23,0; b) Md = 21,8; c) Mo = 20,2; d) Q1=17,7; e) P80 = 29,5. 22) �̅� = 4,0; s = 0,931 23) A diferença é -1.268.950, z = -0,16, é usual. 24) 70 e 130. 25) Defen Yao é relativamente mais alta porque seus escore z é maior, ou seja, está mais desvios-padrões acima da média. 26) a) 13; b) 50; c) 251; d) 247,5; e) 234,5; f) 255 27) �̅� = 2,173 mm; s² = 0,4303 mm; s = 0,6560 mm 28) �̅� = 7,184; s² = 0,000427; s = 0,02066. A repetibilidade do equipamento, intervalo de tempo entre as leituras das amostras e habilidade do operador em usar o equipamento. 29) �̅� = 65,08; s = 1,367. A média da amostra é próxima o suficiente do valor alvo para aceitar a solução como conforme. 30) �̅� = 48,12; Md = 49; s² = 7,246; s = 2,692. Os dados parecem ser assimétricos. 31) A: simétrica, B: assimétrica negativa, C: assimétrica positiva 32) As = 0,07 33) K = 0,2822 (platicúrtica) 34) a) As = 0,38; b) K = 0,26 35) a) As=0,32 (assimétrica positiva); b) K = 0,23 (leptocúrtica) 42 12 Referências Bibliográficas DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Cengage Learning, 2005. FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. 6ª edição. São Paulo: Editora Atlas, 2011. MANN, PREM S. Introdução à estatística. 8ª edição. Rio de Janeiro: LTC: 2015. MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade para Engenheiros. 6 ª edição. Rio de Janeiro: LTC, 2018. TRIOLA, M.F. Introdução à Estatística. 12ª edição. Rio de Janeiro: LTC, 2017.