Baixe o app para aproveitar ainda mais
Prévia do material em texto
Capítulo 1 Introdução 7 Neste capítulo, apresentaremos algumas terminologias básicas e estabeleceremos as bases para o curso. Explicaremos em termos gerais o que são estatística e probabilidade e os problemas que essas duas áreas de estudo se propõem a resolver. Machine Translated by Google OBJETIVO DO APRENDIZADO Este exemplo ilustra o significado das seguintes definições. Começamos com um exemplo simples. Existem milhões de automóveis de passageiros nos Estados Unidos. Qual é o valor médio deles? É obviamente impraticável tentar resolver esse problema diretamente avaliando o valor de cada carro no país, somando todos esses números e depois dividindo por quantos números houver. Em vez disso, o melhor que podemos fazer seria estimar a média. Uma maneira natural de fazer isso seria selecionar aleatoriamente alguns dos carros, digamos 200 deles, determinar o valor de cada um desses carros e encontrar a média desses 200 números. O conjunto de todos esses milhões de veículos é chamado de população de interesse, e o número associado a cada um, seu valor, é uma medida. O valor médio é um parâmetro: um número que descreve uma característica da população, neste caso o valor monetário. O conjunto de 200 carros selecionados da população é chamado de amostra, e os 200 números, os valores monetários dos carros que selecionamos, são os dados da amostra. A média dos dados é chamada de estatística: um número calculado a partir dos dados da amostra. . Capítulo 1 Introdução Uma medição3 é um número ou atributo calculado para cada membro de uma população ou de uma amostra. As medições dos elementos da amostra são chamadas coletivamente de dados da amostra4 conceitos. Uma população1 é qualquer coleção específica de objetos de interesse. Uma amostra2 é qualquer subconjunto ou subcoleção da população, incluindo o caso em que a amostra consiste em toda a população, caso em que é denominado censo. 1. Aprender as definições básicas usadas em estatística e algumas de suas principais 8 2. Os objetos examinados. 1. Todos os objetos de interesse. 4. As medições de uma amostra. 3. Um número ou atributo calculado para cada membro de um conjunto de objetos. Definição Definição 1.1 Definições e Conceitos Básicos Machine Translated by Google 6. Um número calculado a partir dos dados da amostra. 8. A organização, exibição e descrição dos dados. algum aspecto da população. 7. Coleta, exibição, análise e inferência de dados. 5. Um número que resume 9 Um parâmetro5 é um número que resume algum aspecto da população como um todo. Uma estatística6 é um número calculado a partir dos dados da amostra. Continuando com nosso exemplo, se o valor médio dos carros em nossa amostra foi de $ 8.357, então parece razoável concluir que o valor médio de todos os carros é de cerca de $ 8.357. Ao raciocinar dessa forma, fizemos uma inferência sobre a população com base nas informações obtidas da amostra. Em geral, a estatística é um estudo de dados: descrevendo propriedades dos dados, o que é chamado de estatística descritiva, e tirando conclusões sobre uma população de interesse a partir de informações extraídas de uma amostra, o que é chamado de estatística inferencial. Calcular o único número $8.357 para resumir os dados foi uma operação de estatística descritiva; usá-lo para fazer uma declaração sobre a população era uma operação de estatística inferencial. Estatística descritiva8 é o ramo da estatística que envolve organizar, exibir e descrever dados. Capítulo 1 Introdução 1.1 Definições e Conceitos Básicos Estatística7 é uma coleção de métodos para coletar, exibir, analisar e tirar conclusões a partir de dados. Definição Definição Definição Machine Translated by Google 10. Medições para as quais não existe escala numérica natural. 11. Medidas numéricas que surgem de uma escala numérica natural. 9. Tirar conclusões sobre uma população com base em uma amostra. A relação entre uma população de interesse e uma amostra extraída dessa população talvez seja o conceito mais importante em estatística, pois tudo Dados qualitativos10 são medidas para as quais não há escala numérica natural, mas que consistem em atributos, rótulos ou outras características não numéricas. 1.1 Definições e Conceitos Básicos Capítulo 1 Introdução Os dados qualitativos podem gerar estatísticas de amostra numérica. No exemplo do automóvel, por exemplo, podemos estar interessados na proporção de todos os carros com menos de seis anos. Em nossa mesma amostra de 200 carros, pudemos observar para cada carro se ele tem menos de seis anos ou não, o que é uma medida qualitativa. Se 172 carros na amostra tiverem menos de seis anos, que é 0,86 ou 86%, então estimaríamos que o parâmetro de interesse, a proporção populacional, seja aproximadamente o mesmo que a estatística amostral, a proporção amostral, ou seja, cerca de 0,86. 10 A medição feita em cada elemento de uma amostra não precisa ser numérica. No caso dos automóveis, o que se nota sobre cada carro pode ser sua cor, sua marca, seu tipo de carroceria etc. Esses dados são categóricos ou qualitativos, ao contrário de dados numéricos ou quantitativos , como valor ou idade. Esta é uma distinção geral. Dados quantitativos11 são medidas numéricas que surgem de uma escala numérica natural. A estatística inferencial9 é o ramo da estatística que envolve tirar conclusões sobre uma população com base nas informações contidas em uma amostra retirada dessa população. Definição Definição Definição Machine Translated by Google Figura 1.1 O Grande Quadro das Estatísticas a média ÿ (esta é a letra grega minúscula mu, o símbolo tradicional para este parâmetro) e a proporção da população p, respectivamente. Os outros símbolos na figura representam outros parâmetros e estatísticas que encontraremos. 1.1 Definições e Conceitos Básicos mais repousa sobre ele. Essa relação é ilustrada graficamente na Figura 1.1 "O Grande Quadro da Estatística". Os círculos na caixa grande representam elementos da população. Na figura havia espaço para apenas um pequeno número deles, mas em situações reais, como o exemplo do nosso automóvel, eles poderiam muito bem chegar aos milhões. Os círculos pretos sólidos representam os elementos da população que são selecionados aleatoriamente e que juntos formam a amostra. Para cada elemento da amostra há uma medida de interesse, denotada por um x minúsculo (que indexamos como x1 , … , xn para diferenciá-los); essas medições formam coletivamente o conjunto de dados de amostra. A partir dos dados, podemos calcular várias estatísticas. Para antecipar a notação que será usada mais tarde, podemos calcular a média amostral e a proporção amostral ̂p, e tomá- las como aproximações da população 11 Capítulo 1 Introdução x ÿÿ Machine Translated by Google • Estatística é um estudo de dados: descrevendo propriedades de dados (estatística descritiva) e tirando conclusõessobre uma população com base em informações de uma amostra (estatística inferencial). • A distinção entre uma população com seus parâmetros e uma amostra com suas estatísticas é um conceito fundamental em estatística inferencial. 1.1 Definições e Conceitos Básicos • As informações de uma amostra são usadas para fazer inferências sobre a população da qual a amostra foi extraída. 12 Capítulo 1 Introdução PRINCIPAIS CONSIDERAÇÕES Machine Translated by Google 4. Explique o que significa o termo dados de amostra. 1º de janeiro de 1842. 7. Dê um exemplo de uma população e duas características diferentes que podem ser uma. As 30 leituras de alta temperatura dos últimos 30 dias. b. As pontuações de 40 alunos em um teste de inglês. c. Os tipos sanguíneos de 120 professores de uma escola de ensino médio. d. Os últimos quatro dígitos dos números de segurança social de todos os alunos de uma turma. e. Os números nas camisas de 53 jogadores de futebol em uma equipe. 6. Explique o que é uma estatística . 10. Identifique as seguintes medidas como quantitativas ou qualitativas: 8. Descreva a diferença entre estatística descritiva e estatística inferencial. uma. Os sexos dos primeiros 40 recém-nascidos em um hospital de um ano. b. A cor natural do cabelo de 20 modelos selecionados aleatoriamente. c. As idades de 20 modelos de moda selecionados aleatoriamente. d. A economia de combustível em milhas por galão de 20 carros novos comprados no mês passado. e. A afiliação política de 500 eleitores selecionados aleatoriamente. Capítulo 1 Introdução de interesse. 11. Identifique as seguintes medidas como quantitativas ou qualitativas: 2. Explique o que significa o termo amostra. 9. Identifique cada um dos seguintes conjuntos de dados como uma população ou uma amostra: 1.1 Definições e Conceitos Básicos 3. Explique como uma amostra difere de uma população. 1. Explique o que significa o termo população. Ilustre com um exemplo. 12. Um pesquisador deseja estimar o valor médio gasto por pessoa pelos visitantes de um parque temático. Ele pega uma amostra aleatória de quarenta visitantes e obtém uma média de US$ 28 por pessoa. 5. Explique o que é um parâmetro . uma. As médias de notas (GPAs) de todos os alunos de uma faculdade. b. Os GPAs de um grupo de estudantes selecionados aleatoriamente em um campus universitário. c. As idades dos nove juízes da Suprema Corte dos Estados Unidos em d. O sexo de cada segundo cliente que entra em um cinema. e. Os comprimentos de corvinas do Atlântico capturados em uma viagem de pesca à praia. 13 EXERCÍCIOS Machine Translated by Google 14. Um pesquisador deseja estimar a proporção de todos os adultos que possuem um telefone celular. Ele pega uma amostra aleatória de 1.572 adultos; 1.298 deles possuem um telefone celular, portanto 1298ÿ1572 ÿ 0,83 ou cerca de 83% possuem um telefone celular. 16. 15. Um sociólogo deseja estimar a proporção de todos os adultos em uma determinada região que nunca se casaram. Em uma amostra aleatória de 1.320 adultos, 145 nunca se casaram, portanto 145ÿ1320 ÿ 0,11 ou cerca de 11% nunca se casaram. celular? Explique completamente. 14 uma. Qual é a população de interesse? b. Qual é o parâmetro de interesse? c. Com base nessa amostra, sabemos o valor médio gasto por pessoa pelos visitantes do parque? Explique completamente. uma. O que deve ser verdade de uma amostra para fornecer uma estimativa confiável do valor Capítulo 1 Introdução uma. Qual é a população de interesse? b. Qual é o parâmetro de interesse? c. Qual é a estatística envolvida? d. Com base nessa amostra, conhecemos a proporção de todos os adultos que nunca se casaram? Explique completamente. b. O que deve ser verdade de uma amostra para dar certo conhecimento do valor América nos últimos cinco anos. Ele pega uma amostra aleatória de 235 recém-nascidos e obtém uma média de 3,27 quilos. uma. Qual é a população de interesse? b. Qual é o parâmetro de interesse? c. Com base nessa amostra, conhecemos o peso médio dos recém-nascidos na América do Sul? Explique completamente. 13. Um pesquisador deseja estimar o peso médio dos recém-nascidos no Sul de um determinado parâmetro populacional? uma. Qual é a população de interesse? b. Qual é o parâmetro de interesse? c. Qual é a estatística envolvida? d. Com base nesta amostra, conhecemos a proporção de todos os adultos que possuem um de um determinado parâmetro populacional? 1.1 Definições e Conceitos Básicos Machine Translated by Google estudo estatístico, todos os elementos de uma amostra estão disponíveis para observação, o que normalmente não é o caso de uma população. 13. uma. População. b. Amostra. c. População. d. Amostra. e. Amostra. 15 7. Todos os alunos atualmente matriculados em uma determinada faculdade formam uma população. Duas características populacionais de interesse podem ser o GPA médio e a proporção de alunos com mais de 23 anos. 1.1 Definições e Conceitos Básicos uma. Todos os recém-nascidos na América do Sul nos últimos cinco anos. b. O peso médio ao nascer de todos os recém-nascidos na América do Sul nos últimos cinco anos. c. Não, não exatamente, mas sabemos o valor aproximado da média. Capítulo 1 Introdução uma. Qualitativo. b. Qualitativo. c. Quantitativo. d. Quantitativo. e. Qualitativo. estude. 9. 3. Uma amostra, sendo um subconjunto, é tipicamente menor que a população. Em um 1. Uma população é a coleção total de objetos que são de interesse em uma estatística uma. Todos os adultos da região. b. A proporção de adultos na região que nunca se casaram. c. A proporção calculada a partir da amostra, 0,1. d. Não, não exatamente, mas sabemos o valor aproximado da proporção. 5. Um parâmetro é um valor que descreve uma característica de uma população. Em um estudo estatístico, o valor de um parâmetro é tipicamente desconhecido. 11. 15. RESPOSTAS Machine Translated by Google OBJETIVO DO APRENDIZADO 1. Para obter uma visão geral do material no texto. Outra questão que surge é que diferentes amostras têm diferentes níveis de confiabilidade. O exemplo que demos na primeira seção parece bastante simples, mas há alguns problemas significativos que ele ilustra. Supomos que os 200 carros da amostra tinham um valor médio de $ 8.357 (um número que é conhecido com precisão), e concluímos que a população tem uma média de aproximadamente a mesma quantia, embora seu valor preciso ainda seja desconhecido. O que aconteceria se alguém pegasse outra amostra exatamente do mesmo tamanho da mesma população? Ele obteria a mesma média amostral que nós, $ 8.357? Quase certamente não. De fato, se o investigador que colheu a segunda amostra relatasse exatamente o mesmo valor, imediatamente suspeitaríamos de seu resultado. A média amostral é um exemplo do que é chamado de variável aleatória: um número que varia de tentativa para tentativa de um experimento (nestecaso, de amostra para amostra), e o faz de uma maneira que não pode ser prevista com precisão. As variáveis aleatórias serão um objeto central de estudo para nós, começando no Capítulo 4 "Variáveis Aleatórias Discretas". Nós supomos que nossa amostra de tamanho 200 teve uma média de $ 8.357. Se uma amostra de tamanho 1.000 rendesse um valor médio de $ 7.832, então naturalmente consideraríamos este último número como uma estimativa melhor do valor médio de todos os carros. Como isso pode ser expresso? Uma ideia importante que desenvolveremos no Capítulo 7 "Estimativa" é o do intervalo de confiança: a partir dos dados vamos construir um intervalo de valores para que o processo tenha uma certa chance, digamos 95% de chance, de gerar um intervalo que contenha a média real da população. Assim, em vez de relatar uma única estimativa, $ 8.357, para a média populacional, diríamos que temos 95% de certeza de que a verdadeira média está dentro de $ 100 da nossa média amostral, ou seja, entre $ 8.257 e $ 8.457, o número $ 100 calculado dos dados da amostra, assim como a média da amostra foi de US$ 8.357. Isso indicará automaticamente a confiabilidade da amostra, pois para obter a mesma chance de conter o parâmetro desconhecido, uma amostra grande normalmente produzirá um intervalo mais curto do que uma pequena. Mas, a menos que façamos um censo, nunca poderemos ter certeza absoluta do verdadeiro valor médio da população; o melhor que podemos fazer é fazer declarações de probabilidade, um conceito importante que começaremos a estudar formalmente no Capítulo 3 "Conceitos Básicos de Probabilidade". Capítulo 1 Introdução 16 1.2 Visão geral Machine Translated by Google fwk-shafer-ch04#fwk-shafer-ch04 fwk-shafer-ch07#fwk-shafer-ch07 fwk-shafer-ch07#fwk-shafer-ch07 fwk-shafer-ch03#fwk-shafer-ch03 PRINCIPAIS LEVANTAMENTOS Capítulo 1 Introdução 1.2 Visão geral Geralmente, o valor de nossos dados é tão bom quanto a amostra que os produziu. Por exemplo, suponha que desejamos estimar a proporção de todos os estudantes de uma grande universidade que são mulheres, o que denotamos por p. Se selecionarmos 50 alunos aleatoriamente e 27 deles são do sexo feminino, então uma estimativa natural é 17 amostra. As conclusões feitas sobre os parâmetros populacionais são declarações de probabilidade. Várias vezes nesta introdução usamos o termo “amostra aleatória”. • As estatísticas calculadas a partir de amostras variam aleatoriamente de amostra para A amostragem pode ser feita não apenas para estimar um parâmetro populacional, mas para testar uma afirmação feita sobre esse parâmetro. Suponha que um pacote de alimentos afirme que a quantidade de açúcar em uma porção do produto é de 14 gramas. Um grupo de consumidores pode suspeitar que é mais. Como eles testariam as alegações concorrentes sobre a quantidade de açúcar, 14 gramas versus mais de 14 gramas? Eles podem pegar uma amostra aleatória de talvez 20 pacotes de alimentos, medir a quantidade de açúcar em uma porção de cada um e calcular a média dessas quantidades. Eles não estão interessados na verdadeira quantidade de açúcar em uma porção em si; seu interesse é simplesmente se a afirmação sobre o valor real é precisa. Dito de outra forma, eles estão amostrando não para estimar a quantidade média de açúcar em uma porção, mas para ver se essa quantidade, seja ela qual for, é maior que 14 gramas. Mais uma vez, porque só se pode ter certo conhecimento fazendo um censo, as idéias de probabilidade entram na análise. Examinaremos testes de hipóteses começando no Capítulo 8 "Teste de hipóteses". p ÿ ̂p = 27 / 50 = 0,54 ou 54%. Quanta confiança podemos depositar nessa estimativa depende não apenas do tamanho da amostra, mas de sua qualidade, se é ou não verdadeiramente aleatória, ou pelo menos verdadeiramente representativa de toda a população. Se todos os 50 alunos da nossa amostra fossem de uma Faculdade de Enfermagem, então a proporção de alunas da amostra provavelmente seria maior do que a de todo o campus. Se todos os 50 alunos fossem selecionados de uma Faculdade de Ciências da Engenharia, então a proporção de alunos em todo o corpo discente que são mulheres poderia ser subestimada. Em ambos os casos, a estimativa seria distorcida ou tendenciosa. Na prática estatística, um esquema de amostragem imparcial é importante, mas na maioria dos casos não é fácil de produzir. Para este curso introdutório, assumiremos que todas as amostras são aleatórias ou pelo menos representativas. Machine Translated by Google fwk-shafer-ch08#fwk-shafer-ch08 fwk-shafer-ch08#fwk-shafer-ch08 medições individuais feitas em uma amostra. 12. Uma lista explícita de todos os 13. Uma tabela listando cada valor distinto x e sua frequência f. 14. Com que frequência um valor x aparece em um conjunto de dados. Um conjunto de dados também pode ser apresentado por meio de uma tabela de frequência de dados13, uma tabela na qual cada valor distinto x é listado na primeira linha e sua frequência14 f, que é o número de vezes que o valor x aparece no conjunto de dados, é listados abaixo dele na segunda linha. 1. Aprender duas formas de apresentação dos dados no texto. Neste livro, usaremos dois formatos para apresentar conjuntos de dados. A primeira é uma lista de dados12, que é uma listagem explícita de todas as medidas individuais, seja como um display com espaço entre as medidas individuais, ou em notação de conjunto com medidas individuais separadas por vírgulas. Os dados obtidos medindo a idade de 21 alunos selecionados aleatoriamente matriculados em cursos de calouros de uma universidade poderiam ser apresentados como a lista de dados Capítulo 1 Introdução ou em notação definida como 18 OBJETIVO DO APRENDIZADO EXEMPLO 1 2018 17 17 18 18 2018 1919 19 19 18 18 19 24 {18,18,19,19,19,18,22,20,18,18,17,19,18,24,18,20,18,21,20,17,19} 18 1822 20 21 1.3 Apresentação de Dados Machine Translated by Google 19 1 22x 21 12 24 f 17 5 18 8 13 20 A tabela de frequência de dados é especialmente conveniente quando os conjuntos de dados são grandes e o número de valores distintos não é muito grande. • Os conjuntos de dados podem ser apresentados listando todos os elementos ou fornecendo uma tabela de valores e frequências. 19 Capítulo 1 Introdução O conjunto de dados do exemplo anterior é representado pela tabela de frequência de dados 1.3 Apresentação de Dados PRINCIPAIS LEVANTAMENTOS EXEMPLO 2 Machine Translated by Google 105 23 1 3 26 1 100 27 27 2 1 34 x 24 3 97 25 24 5 4 . 31 24 x 101 f 1 35 7 22 1 98 22 25 6 2 {1,5,2,3,5,1,4,4,4,3,2,5,1,3,2, 1,1,1,2} f 32 102 23 3 f 22 x 5 2 24 99 22 26 4 2 33 103 26 1 2. Liste todas as medições para o conjunto de dados representado pela tabela de frequência de dados a seguir. 4. Construa a tabela de frequência de dados para o conjunto de dados a seguir. 3. 20 1. {31,32,32,32,32,32,33,33,33,33,33,33,34,34,34,34,35,35}.Capítulo 1 Introdução 1.3 Apresentação de Dados 3. Construa a tabela de frequência de dados para o conjunto de dados a seguir. 1. Liste todas as medições para o conjunto de dados representado pela tabela de frequência de dados a seguir. EXERCÍCIOS RESPOSTAS Machine Translated by Google Capítulo 2 Estatísticas descritivas 21 Conforme descrito no Capítulo 1 "Introdução", a estatística naturalmente se divide em dois ramos, estatística descritiva e estatística inferencial. Nosso principal interesse é em estatística inferencial, como mostra a Figura 1.1 "O Grande Quadro da Estatística" no Capítulo 1 "Introdução". No entanto, o ponto de partida para lidar com uma coleção de dados é organizá-los, exibi-los e resumi-los de forma eficaz. Esses são os objetivos da estatística descritiva, tema deste capítulo. Machine Translated by Google fwk-shafer-ch01#fwk-shafer-ch01 fwk-shafer-ch01_s01#fwk-shafer-ch01_s01_f01 fwk-shafer-ch01#fwk-shafer-ch01 Diagramas de caule e folha Um ditado bem conhecido é que “uma imagem vale mais que mil palavras”. Esse ditado se mostra verdadeiro quando se trata de apresentar informações estatísticas em um conjunto de dados. Há muitas maneiras eficazes de apresentar dados graficamente. As três ferramentas gráficas apresentadas nesta seção estão entre as mais usadas e são relevantes para a apresentação subsequente do material neste livro. Suponha que 30 alunos em uma aula de estatística fizeram um teste e obtiveram as seguintes pontuações: Como a turma se saiu na prova? Uma rápida olhada no conjunto de 30 números não fornece uma resposta clara imediatamente. No entanto, o conjunto de dados pode ser reorganizado e reescrito para tornar as informações relevantes mais visíveis. Uma maneira de fazer isso é construir um diagrama de caule e folha como mostrado na Figura 2.1 "Diagrama de caule e folha". 1. Aprender a interpretar o significado de três representações gráficas de conjuntos de dados: diagramas de haste e folha, histogramas de frequência e histogramas de frequência relativa. 22 Os números na casa das dezenas, de 2 a 9, e adicionalmente o número 10, são as “hastes” e estão dispostos em ordem numérica de cima para baixo à esquerda de uma linha vertical. O número nas unidades colocadas em cada medida é uma “folha”, e é colocado em uma fileira à direita da haste correspondente, o número na casa das dezenas dessa medida. Assim, as três folhas 9, 8 e 9 na linha encabeçada com a haste 6 correspondem às três notas do exame nos anos 60, 69 (na primeira linha de dados), 68 (na terceira linha) e 69 (também na terceira linha). A exibição torna-se ainda mais útil para alguns propósitos reorganizando as folhas em ordem numérica, conforme mostrado na Figura 2.2 "Diagrama Ordenado de Caule e Folha". De qualquer forma, com os dados reorganizados, certas informações de interesse se tornam aparentes imediatamente. Existem duas pontuações perfeitas; três alunos obtiveram notas abaixo de 60; a maioria dos alunos marcou Capítulo 2 Estatísticas Descritivas OBJETIVO DO APRENDIZADO 100 90 25 40 69 74 7786 83 97100 90 93 73 9070 76 6858 73 83 87 71 80 95 92 69 70 78 73 2.1 Três Exibições de Dados Populares Machine Translated by Google anos 80. 23 nos anos 70, 80 e 90; e a média geral está provavelmente na casa dos 70 ou baixa 2.1 Três Exibições de Dados Populares Capítulo 2 Estatísticas Descritivas Figura 2.1 Diagrama de caule e folha Figura 2.2 Diagrama de caule e folha ordenado Machine Translated by Google Neste exemplo, as partituras têm um caule natural (o lugar das dezenas) e a folha (o lugar das unidades). Pode-se espalhar o diagrama dividindo cada número de casa das dezenas em categorias inferiores e superiores. Por exemplo, todas as pontuações nos anos 80 podem ser representadas em duas hastes separadas, 80s inferiores e 80s superiores: Observe que todos os dados originais podem ser recuperados do diagrama de haste e folha. 24 Isso não será verdade nos próximos dois tipos de exibições gráficas. 2.1 Três Exibições de Dados Populares Vamos ilustrá-lo usando o mesmo conjunto de dados da subseção anterior. Para as 30 pontuações do exame, é natural agrupar as pontuações na escala padrão de dez pontos e contar o número de pontuações em cada grupo. Assim, há dois 100s, sete pontuações nos 90s, seis nos 80s e assim por diante. Construímos então o diagrama mostrado na Figura 2.3 "Histograma de frequência" desenhando para cada grupo, ou classe, uma barra vertical cujo comprimento é o número de observações naquele grupo. Em nosso exemplo, a barra rotulada 100 tem 2 unidades de comprimento, a barra rotulada 90 tem 7 unidades de comprimento e assim por diante. Enquanto os valores de dados individuais são perdidos, sabemos o número em cada classe. Esse número é chamado de frequência2 da classe, daí o nome histograma de frequência. O diagrama de haste e folha não é prático para grandes conjuntos de dados, portanto, precisamos de uma maneira diferente, puramente gráfica, de representar os dados. Um histograma de frequência1 é um desses dispositivos. Capítulo 2 Estatísticas Descritivas As definições de caules e folhas são flexíveis na prática. O objetivo geral de um diagrama de haste e folha é fornecer uma exibição rápida de como os dados são distribuídos ao longo do intervalo de seus valores; alguma improvisação pode ser necessária para obter um diagrama que melhor atenda a esse objetivo. Histogramas de frequência como os dados são distribuídos em toda a faixa de seus valores, coletando- os em classes e indicando o número de medições em cada classe. 2. De uma classe de medições, o número de medições no conjunto de dados que estão na classe. 1. Um dispositivo gráfico mostrando 38 8 0 3 6 7 Machine Translated by Google O mesmo procedimento pode ser aplicado a qualquer coleção de dados numéricos. Em geral, a definição das classes no histograma de frequência é flexível. O objetivo geral de um histograma de frequência é praticamente o mesmo de um diagrama de haste e folha, para fornecer uma exibição gráfica que dê uma noção da distribuição de dados em toda a faixa de valores que aparecem. Não discutiremos o processo de construção de um histograma a partir de dados, pois na prática isso é feito automaticamente com software estatístico ou até calculadoras portáteis. 25 As observações são agrupadas em várias classes e a frequência (o número de observações) de cada classe é anotada. Essas classes são organizadas e indicadas em ordem no eixo horizontal (chamado de eixo x), e para cada grupo é desenhada uma barra vertical, cujo comprimento é o número de observações desse grupo. A exibição resultante é um histograma de frequência para os dados. A semelhança na Figura 2.1 "Diagrama de caule e folha" e na Figura 2.3 "Histograma de frequência" é aparente, principalmente se você imaginar girar o diagrama de caule e folha de lado girando- o um quartode volta no sentido anti-horário. 2.1 Três Exibições de Dados Populares Capítulo 2 Estatísticas Descritivas Figura 2.3 Histograma de frequência Machine Translated by Google proporção de todas as medições no conjunto de dados que estão na classe. como os dados são distribuídos em toda a faixa de seus valores, coletando- os em classes e indicando a proporção de medições em cada classe. 4. Um dispositivo gráfico mostrando 3. De uma classe de medições, a 26 Em nosso exemplo das pontuações do exame em uma aula de estatística, cinco alunos pontuaram na casa dos 80. O número 5 é a frequência do grupo rotulado “80s”. Como há 30 alunos em toda a aula de estatística, a proporção dos que pontuaram nos anos 80 é de 5/30. Capítulo 2 Estatísticas Descritivas O mesmo procedimento pode ser aplicado a qualquer coleção de dados numéricos. As classes são selecionadas, a frequência relativa de cada classe é anotada, as classes são organizadas e indicadas em ordem no eixo horizontal e para cada classe é desenhada uma barra vertical, cujo comprimento é a frequência relativa da classe. A exibição resultante é uma 2.1 Três Exibições de Dados Populares O número 5/30, que também pode ser expresso como 0,16 ÿ. 1667, ou como 16,67%, é a frequência relativa3 do grupo rotulado “80s”. Cada grupo (anos 70, 80 e assim por diante) tem uma frequência relativa. Podemos assim construir um diagrama desenhando para cada grupo, ou classe, uma barra vertical cujo comprimento é a frequência relativa desse grupo. Por exemplo, a barra para os anos 80 terá comprimento de 5/30 unidades, não 5 unidades. O diagrama é um histograma de frequência relativa4 para os dados e é mostrado na Figura 2.4 "Histograma de frequência relativa". É exatamente o mesmo que o histograma de frequência, exceto que o eixo vertical no histograma de frequência relativa não é a frequência, mas a frequência relativa. ÿÿ Figura 2.4 Histograma de Frequência Relativa Histogramas de Frequência Relativa Machine Translated by Google histograma de frequência relativa para os dados. Um ponto-chave é que agora, se cada barra vertical tiver 1 unidade de largura, a área total de todas as barras será de 1 ou 100%. O histograma de frequência relativa é importante porque a marcação no eixo vertical reflete o que é importante visualmente: os tamanhos relativos das barras. Quando o tamanho n de uma amostra é pequeno, apenas algumas classes podem ser usadas na construção de um histograma de frequência relativa. Esse histograma pode se parecer com o do painel (a) da Figura 2.5 "Tamanho da amostra e histogramas de frequência relativa". Se o tamanho da amostra n fosse aumentado, mais classes poderiam ser usadas na construção de um histograma de frequência relativa e as barras verticais do histograma resultante seriam mais finas, conforme indicado no painel (b) da Figura 2.5 "Tamanho da amostra e histogramas de frequência relativa" . Para uma amostra muito grande, o histograma de frequência relativa pareceria muito bom, como aquele em (c) da Figura 2.5 "Tamanho da amostra e histogramas de frequência relativa". Se o tamanho da amostra aumentasse indefinidamente, o histograma de frequência relativa correspondente seria tão fino que pareceria uma curva suave, como a do painel (d) da Figura 2.5 "Tamanho da amostra e histogramas de frequência relativa". 27 Capítulo 2 Estatísticas Descritivas Embora os histogramas da Figura 2.3 "Histograma de frequência" e da Figura 2.4 "Histograma de frequência relativa" tenham a mesma aparência, o histograma de frequência relativa é mais importante para nós, e serão histogramas de frequência relativa que serão usados repetidamente para representar dados neste texto. Para ver por que isso acontece, reflita sobre o que você está realmente vendo nos diagramas que comunicam informações sobre os dados de forma rápida e eficaz. São os tamanhos relativos das barras. A barra rotulada “70s” em qualquer figura ocupa 1/3 da área total de todas as barras e, embora não possamos pensar nisso conscientemente, percebemos a proporção de 1/3 nas figuras, indicando que um terço da as notas eram na década de 70. 2.1 Três Exibições de Dados Populares Machine Translated by Google É comum em estatística representar uma população ou um conjunto de dados muito grande por uma curva suave. É bom ter em mente que tal curva é, na verdade, apenas um histograma de frequência relativa muito fino no qual as barras verticais extremamente estreitas desapareceram. Como a área de cada barra vertical é a proporção dos dados que se encontram no intervalo de números sobre o qual essa barra está, isso significa que, para quaisquer dois números a e b, a proporção dos dados entre os dois números a e b é a área sob a curva que está acima do intervalo (a,b) no eixo horizontal. Esta é a área mostrada na Figura 2.6 "Um Histograma de Frequência Relativa Muito Fino". Em particular, a área total sob a curva é 1, ou 100%. Capítulo 2 Estatísticas Descritivas 282.1 Três Exibições de Dados Populares Figura 2.5 Tamanho da amostra e histogramas de frequência relativa Machine Translated by Google PRINCIPAIS CONSIDERAÇÕES 29 Capítulo 2 Estatísticas Descritivas 2.1 Três Exibições de Dados Populares • As representações gráficas de grandes conjuntos de dados fornecem uma visão geral rápida da natureza dos dados. • Uma população ou um conjunto de dados muito grande pode ser representado por uma curva suave. Esta curva é um histograma de frequência relativa muito fino no qual as barras verticais extremamente estreitas foram omitidas. • Quando uma curva derivada de um histograma de frequência relativa é usada para descrever um conjunto de dados, a proporção de dados com valores entre dois números aeb é a área sob a curva entre a e b , conforme ilustrado na Figura 2.6 "A Very Fine Histograma de Frequência Relativa". Figura 2.6 Um Histograma de Frequência Relativa Muito Fino Machine Translated by Google 77 93 92 82 8,5 7.6 9.3 8,0 85 70 4.9 2 2 8,5 0 1 8.2 70 88 100 85 9.6 7,7 8.2 80 76 9.2 4 1 2.9 1,5 75 68 3 ÿ1 7,0 70 69 96 6,5 85 8,8 8,7 f 8,5 53 7,0 x 6.9 82 Capítulo 2 Estatísticas Descritivas 2. Descreva uma vantagem de um diagrama de haste e folha sobre uma frequência 1. Descreva uma diferença entre um histograma de frequência e um histograma de frequência relativa. Construa um histograma de frequência e um histograma de frequência relativa para o conjunto de dados. histograma de frequência para o seguinte conjunto de dados. Para os histogramas, use as classes 51–60, 61–70 e assim por diante. histograma de frequência para o seguinte conjunto de dados. Para os histogramas, use as classes 6.0–6.9, 7.0–7.9 e assim por diante. 4. Construa um diagrama de haste e folha, um histograma de frequência e um diagrama relativo 3. Construa um diagrama de haste e folha, um histograma de frequência e um diagrama relativo30 5. Um conjunto de dados contém n = 10 observações. Os valores x e suas frequências f estão resumidos na tabela de frequência de dados a seguir. histograma. 2.1 Três Exibições de Dados Populares EXERCÍCIOS BÁSICO Machine Translated by Google FORMULÁRIOS 7. Um conjunto de dados tem a seguinte tabela de distribuição de frequência: 31 8. Uma tabela de algumas das frequências relativas calculadas a partir de um conjunto de dados é O número p ainda não foi calculado. Termine a tabela e construa o histograma de frequência relativa para o conjunto de dados. 2.1 Três Exibições de Dados Populares 9. As pontuações de QI de dez alunos selecionados aleatoriamente de uma escola primária são O número a é desconhecido. Você pode construir um histograma de frequência? Se sim, construa- o. Se não, diga por que não. 6. Um conjunto de dados contém as n = 20 observações Os valores x e suas frequências f Capítulo 2 Estatísticas Descritivas dado. 10. São dadas as pontuações de QI de dez alunos selecionados aleatoriamente de uma escola primária para alunos academicamente superdotados. estão resumidos na tabela de frequência de dados a seguir. Agrupando as medidas nos anos 80, 90 e assim por diante, construa um diagrama de haste e folha, um histograma de frequência e um histograma de frequência relativa. Agrupando as medidas por seus dígitos comuns de centenas e dezenas, construa um diagrama de haste e folha, um histograma de frequência e um histograma de frequência relativa. A frequência do valor 0 está ausente. Encontre a e esboce um histograma de frequência e um histograma de frequência relativa para o conjunto de dados. ÿ1 4 2 1 uma 4 99 119 2 x 145 107 142 138 f ÿ n 0,3 0,2 0,1 p 2 2 1 uma 125 133 100 f f 0 3 138 137 118 2 1 x 108 160 152 105 105 3 3 1 87 1 x 140 139 3 Machine Translated by Google EXERCÍCIOS ADICIONAIS Construa um histograma de frequência relativa para o conjunto de dados. 13. Amostras aleatórias, cada uma com tamanho n = 10, foram retiradas dos comprimentos em centímetros de três tipos de peixes comerciais, com os seguintes resultados: Capítulo 2 Estatísticas Descritivas 12. Em uma determinada loja de utensílios de cozinha, uma panela elétrica de arroz automática é um item popular. As vendas semanais das últimas 20 semanas são mostradas. 14. Durante uma campanha de doação de sangue de um dia, 300 pessoas doaram sangue em um centro móvel de doação. Os tipos sanguíneos desses 300 doadores estão resumidos abaixo. 11. Durante uma campanha de doação de sangue de um dia, 300 pessoas doaram sangue em um centro móvel de doação. Os tipos sanguíneos desses 300 doadores estão resumidos na tabela. 2.1 Três Exibições de Dados Populares Construa um histograma de frequência relativa com as classes 6–10, 11–15 e 16–20. 32 Agrupando as medidas por seus dígitos comuns de centenas e dezenas, construa um diagrama de haste e folha, um histograma de frequência e um histograma de frequência relativa para cada uma das amostras. Compare os histogramas e descreva quaisquer padrões que eles exibam. 14 18 142 99 145 13 120 138 119 108 17 Tipo sanguíneo 82 15 60 B 15 137Amostra 2: 14 125 160 9 32 83 118 100 Frequência 20 16 8074 16 19 UM JEITO 138 133 87 18 82Amostra 3: 12 19 O 152 105 16 15 8079 15 12 136 140 139 105 Amostra 1: 15 8282 15 UMA 107 Machine Translated by Google Identifique o tipo sanguíneo que tem a maior frequência relativa para essas 300 pessoas. Você pode concluir que o tipo de sangue que você identificou também é mais comum para todas as pessoas da população em geral? Explique. Nas vendas no varejo, um estoque muito grande compromete o capital, enquanto um estoque muito pequeno custa perda de vendas e satisfação do cliente. Usando o histograma de frequência relativa para esses dados, encontre aproximadamente quantas panelas elétricas de arroz devem estar em estoque no início de cada semana se uma. a loja não deve ficar sem estoque até o final de uma semana por mais de 15% das semanas. 2.1 Três Exibições de Dados Populares 15. Em uma determinada loja de utensílios de cozinha, as vendas semanais de uma panela elétrica de arroz automática nas últimas 20 semanas são as seguintes. das semanas; e 33 Capítulo 2 Estatísticas Descritivas b. a loja não deve ficar sem estoque no final de uma semana por mais de 5% O 15 Tipo sanguíneo 9 15 14 32 12 16 20 19 14 120 1816 UM JEITOB 1519 UMA Frequência 17 13 12 18 136 15 15 15 16 Machine Translated by Google 0 0 9 6 8 5 7 8 O UM JEITO 7 6 2 2 0,04 10 0 0,4533 ÿ1 0 9 3 6 5 7 8 0 3 5 BTipo sanguíneo f ÿ n 11 10 0 7 2 x UMA 0,1067 1 3 8 8 f ÿ n 0,3 0,4 0,2 0,1 5 5 9 5 9 5 8 0 12 0,4 9 5 Capítulo 2 Estatísticas Descritivas 3. frequências. 5. Observando que n = 10 a tabela de frequência relativa é: 9. 11. Observando n = 300, a tabela de frequência relativa é, portanto: 1. A escala vertical em um são as frequências e no outro é a relativa Os histogramas de frequência e frequência relativa são gerados de forma semelhante. Os histogramas de frequência e frequência relativa são gerados de forma semelhante. 2.1 Três Exibições de Dados Populares 13. Os diagramas de caule e folha listados para as Amostras 1, 2 e 3 nessa ordem. 34 7. Como n é desconhecido, a é desconhecido, então o histograma não pode ser construído. Um histograma de frequência relativa é então gerado. RESPOSTAS Machine Translated by Google Capítulo 2 Estatísticas Descritivas 2.1 Três Exibições de Dados Populares 35 8 15 5 13 8 8 15 0 13 10 11 2 8 9 9 10 9 5 8 16 11 7 7 6 73 6 5 7 8 16 2 0 12 0 14 5 12 9 9 14 7 Machine Translated by Google As tabelas de frequência relativa são fornecidas abaixo na mesma ordem. 36 As tabelas de frequência são fornecidas abaixo na mesma ordem. Capítulo 2 Estatísticas Descritivas 2.1 Três Exibições de Dados Populares 16 5 1 0,1 0,5 2 120 ~ 129 9 110 ~ 119 1 80 ~ 89 0 130 ~ 139 13 1 8 90 ~ 99 70 ~ 79 3 Comprimento f ÿ n 7 2 10 120 ~ 129 Comprimento f 4 14 90 ~ 99 100 ~ 109 140 ~ 149 5 0 80 ~ 89 1 Comprimento f Comprimento f ÿ n 11 1 9 0,2 Comprimento f 100 ~ 109 15 0,1 150 ~ 159 110 ~ 119 0 2 2 2 2 3 1 0,1 160 ~ 169 6 Comprimento f 80 ~ 89 Comprimento f 12 7 60 ~ 69 Machine Translated by Google 15. uma. 19. 2.1 Três Exibições de Dados Populares Capítulo 2 Estatísticas Descritivas b. 20. 37 0,5 80 ~ 89 160 ~ 169 0,7 0,1 0,2 Comprimento f ÿ n Comprimento f ÿ n 0,1 140 ~ 149 60 ~ 69 150 ~ 159130 ~ 139 Comprimento f ÿ n 0,3 70 ~ 79 0,1 Machine Translated by Google O significativo 38 1. Aprender o conceito de “centro” de um conjunto de dados. 2. Aprender o significado de cada uma das três medidas do centro de um conjunto de dados - a média, a mediana e a moda - e como calcular cada Esta seção poderia ser intitulada “três tipos de médias de um conjunto de dados”. Qualquer tipo de“média” deve ser uma resposta à pergunta “Onde fica o data center?” É, portanto, uma medida da localização central do conjunto de dados. Veremos que a natureza do conjunto de dados, conforme indicado por um histograma de frequência relativa, determinará o que constitui uma boa resposta. Diferentes formas do histograma exigem diferentes medidas de localização central. Capítulo 2 Estatísticas Descritivas A primeira medida de localização central é a “média” usual que é familiar a todos. Na fórmula da definição a seguir, introduzimos a notação de soma padrão ÿ, onde ÿ é a letra grega maiúscula sigma. Em geral, a notação ÿ seguida de um segundo símbolo matemático significa somar todos os valores que o segundo símbolo pode assumir no contexto do problema. Aqui está um exemplo para ilustrar isso. 1. OBJETIVOS DE APRENDIZADO 2.2 Medidas de Localização Central Machine Translated by Google 1 + 3 + 4 = 8 ÿx = = 13 x = = 1 + 9 + 16 = 26 = = 0,75 4 + (4 ÿ 1) 2 1 + 2 n 3 = 2 ÿx (1 - 1) ÿÿ 2 ÿ1 0 2 ÿ (x ÿ 1) ÿx = n x Definição 1 3 4 = = 2 + 3 ÿÿ + 3 ÿx 2 + (ÿ1) + 0 + 2 4 + (3 ÿ 1) ÿÿ Solução: , 392.2 Medidas de Localização Central Encontre ÿx A média amostral5 de um conjunto de n dados amostrais é o número x Capítulo 2 Estatísticas Descritivas Solução: e ÿ(xÿ1) Encontre a média dos dados da amostra , Na definição, seguimos a convenção de usar n minúsculo para denotar o número de medidas em uma amostra, que é chamado de tamanho da amostra. definido pela fórmula 22 2 = 0 2 + 4 2 2 ÿx 22 2 para o conjunto de dados 2 5. A média familiar de um conjunto de dados de amostra. EXEMPLO 2 EXEMPLO 1 Machine Translated by Google 1,90 3,00 2,53 3,71 2,12 1,76 2,71 1,39 4,00 3,33 = ÿÿ 10 ÿx 26,45 x = 2,645 10 n = 1,90 + 3,00 + 2,53 + 3,71 + 2,12 + 1,76 + 2,71 + 1,39 + 4 = Capítulo 2 Estatísticas Descritivas Encontre a média amostral. 402.2 Medidas de Localização Central Solução: Uma amostra aleatória de dez alunos é retirada do corpo discente de uma faculdade e seus GPAs são registrados da seguinte forma. EXEMPLO 3 Machine Translated by Google ÿÿ . Nos exemplos acima, os conjuntos de dados foram descritos como amostras. Portanto, as médias eram médias amostrais, denotadas por x há uma medida para cada elemento da população, então a média é calculada exatamente pelo mesmo processo de somar todas as medidas e dividir por quantas delas existem, mas agora é a média da população e é denotado por ÿ, a letra grega minúscula mu. Solução: Se os dados provêm de um censo, de modo que Uma amostra aleatória de 19 mulheres além da idade fértil forneceu os seguintes dados, onde x é o número de filhos ef é a frequência desse valor, o número de vezes que ocorreu no conjunto de dados. Neste exemplo os dados são apresentados por meio de uma tabela de frequência de dados, apresentada no Capítulo 1 "Introdução". Cada número na primeira linha da tabela é um número que aparece no conjunto de dados; o número abaixo é quantas vezes ele ocorre. Assim, o valor 0 é observado três vezes, ou seja, três das medições no conjunto de dados são 0, o valor 1 é observado seis vezes e assim por diante. No contexto do problema, isso significa que três mulheres da amostra não tiveram filhos, seis tiveram exatamente um filho e assim por diante. A lista explícita de todas as observações neste conjunto de dados é, portanto, 2.2 Medidas de Localização Central Capítulo 2 Estatísticas Descritivas Encontre a média amostral. 41 O tamanho da amostra pode ser lido diretamente da tabela, sem primeiro listar todo o conjunto de dados, como a soma das frequências: n = 3 + 6 + 6 + 3 + 1 = 19. A média da amostra pode ser calculada diretamente da tabela também: 4 n 3 31 = 1 2x 19 0 1 36 0 × 3 + 1 × 6 + 2 × 6 + 3 × 3 + 4 × 1ÿx = 6 =x 3 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 4 ÿÿ 19 f = 1,6316 EXEMPLO 4 Machine Translated by Google fwk-shafer-ch01#fwk-shafer-ch01 A mediana 6. A média familiar de um conjunto de dados de população. Capítulo 2 Estatísticas Descritivas Suponha que estamos interessados na renda média anual dos funcionários de uma grande corporação. Tomamos uma amostra aleatória de sete funcionários, obtendo os dados da amostra (arredondados para a centena de dólares mais próxima e expressos em milhares de dólares). 2.2 Medidas de Localização Central A média de dois números é o número que está a meio caminho entre eles. Por exemplo, a média dos números 5 e 17 é (5 + 17) ÿ 2 = 11, que é 6 unidades acima de 5 e 6 unidades abaixo de 17. Nesse sentido, a média 11 é o “centro” do conjunto de dados { 5,17}. Para conjuntos de dados maiores, a média também pode ser considerada como o “centro” dos dados. A média populacional6 de um conjunto de N dados populacionais é o número ÿ definido pela fórmula 42 A média (arredondada para uma casa decimal) é x = 47,4, mas a afirmação “a renda média dos funcionários desta empresa é de $ 47.400” é certamente enganosa. É aproximadamente o dobro do que seis dos sete funcionários da amostra ganham e não chega nem perto do que qualquer um deles ganha. É fácil ver o que deu errado: a presença de um executivo na amostra, cujo salário é tão grande em comparação com o de todos os outros, fez com que o numerador na fórmula para a média amostral fosse muito grande, puxando a média muito para à direita de onde pensamos que a média “deveria” estar, ou seja, cerca de US$ 24.000 ou US$ 25.000. O número 192,5 em nosso conjunto de dados é chamado de outlier, um número que está muito distante da maioria ou de todas as medições restantes. Muitas vezes um outlier é resultado de algum tipo de erro, mas nem sempre, como é o caso aqui. Obteríamos uma medida melhor do “centro” dos dados se dispuséssemos os dados em ordem numérica, Para ver por que outro conceito de média é necessário, considere a seguinte situação. ÿÿ ÿx Definição N µ = 24,8 22,8 24,6 192,5 25,2 18,5 23,7 18,5 22,8 23,7 24,6 24,8 25,2 192,5 Machine Translated by Google 7. O valor médio quando os dados estão listados em ordem numérica. A mediana amostral7 ̃x de um conjunto de dados amostrais para o qual há um número ímpar de medidas é a medida do meio quando os dados são organizados em ordem numérica. A mediana amostral ̃x de um conjunto de dados amostrais para o qual há um número par de medições é a média das duas medições intermediárias quando os dados são organizados em ordem numérica. em seguida, selecione o número do meio na lista, neste caso 24.6. O resultado é chamado de mediana do conjunto de dados e tem a propriedade de que aproximadamente metade das medidas são maiores do que são e aproximadamente metade são menores. Nesse sentido, localiza o centro dos dados. Se houver um número par de medidas no conjunto de dados, haverá dois elementos do meio quando todos estiveremalinhados em ordem, então tomamos a média dos dois do meio como a mediana. Assim temos a seguinte definição. A mediana é um valor que divide as observações em um conjunto de dados de forma que 50% dos dados estejam à esquerda e os outros 50% à direita. De acordo com a Figura 2.6 "Um histograma de frequência relativa muito fino", portanto, na curva que representa a distribuição dos dados, uma linha vertical traçada na mediana divide a área em duas, área 0,5 (50% da área total 1) à esquerda e área 0,5 (50% da área total 1) à direita, conforme mostrado na Figura 2.7 "A Mediana". Em nosso exemplo de renda, a mediana, US$ 24.600, claramente forneceu uma medida muito melhor do meio do conjunto de dados do que a média de US$ 47.400. Isso é típico para situações em que a distribuição é assimétrica. (A assimetria e a simetria das distribuições são discutidas no final desta subseção.) A mediana populacional é definida de forma semelhante, mas não teremos ocasião de nos referir a ela novamente neste texto. 2.2 Medidas de Localização Central Capítulo 2 Estatísticas Descritivas 43 Definição Machine Translated by Google fwk-shafer-ch02_s01#fwk-shafer-ch02_s01_s03_f03 fwk-shafer-ch02_s01#fwk-shafer-ch02_s01_s03_f03 são 0 e 2, então ̃x = (0 + 2) / 2 = 1. Calcule a mediana amostral para os dados da Nota 2.11 "Exemplo 2". Os dados em ordem numérica são -1, 0, 2, 2. As duas medidas do meio 44 Solução: Capítulo 2 Estatísticas Descritivas 2.2 Medidas de Localização Central EXEMPLO 5 Figura 2.7 A Mediana Machine Translated by Google 1,39 1,76 1,90 2,12 2,53 2,71 3,00 3,33 3,71 4,00 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 4 O número de observações é 19, o que é ímpar, então há uma medida intermediária, a décima. Como a décima medida é 2, a mediana é ̃x = 2. a mediana desses dados é ̃x = (2,53 + 2,71) / 2 = 2,62. Os dados em ordem numérica são Capítulo 2 Estatísticas Descritivas Solução: 45 Os dados em ordem numérica são Calcule a mediana da amostra para os dados da Nota 2.12 "Exemplo 3". O número de observações é dez, que é par, então há duas medidas intermediárias, a quinta e a sexta, que são 2,53 e 2,71. Portanto, o 2.2 Medidas de Localização Central Solução: É importante notar que poderíamos ter calculado a mediana sem antes listar explicitamente todas as observações no conjunto de dados. Já vimos na Nota 2.13 "Exemplo 4" como encontrar o número de observações diretamente das frequências listadas na tabela: n = 3 + 6 + 6 + 3 + 1 = 19. Como logo acima descobrimos que a mediana é a décima observação. A segunda linha da tabela na Nota 2.13 "Exemplo 4" mostra que quando os dados são listados em ordem haverá três 0s seguidos de seis 1s, então a décima observação é um 2. A mediana é, portanto, 2. Calcule a mediana amostral para os dados da Nota 2.13 "Exemplo 4". EXEMPLO 7 EXEMPLO 6 Machine Translated by Google Capítulo 2 Estatísticas Descritivas 46 uma. Quando a distribuição é simétrica, como nos painéis (a) e (b) da Figura 2.8 "Skewness of Relative Frequency Histograms", a média e a mediana são iguais. b. Quando a distribuição é como mostrado no painel (c) da Figura 2.8 "Skewness of Relative Frequency Histograms", diz-se que está assimétrica à direita. A média foi puxada para a direita da mediana pela longa “cauda direita” da distribuição, os poucos valores de dados relativamente grandes. c. Quando a distribuição é como mostrado no painel (d) da Figura 2.8 "Skewness of Relative Frequency Histograms", diz-se que está assimétrica à esquerda. A média foi puxada para a esquerda da mediana pela longa “cauda esquerda” da distribuição, os poucos valores de dados relativamente pequenos. A relação entre a média e a mediana para várias formas comuns de distribuição é mostrada na Figura 2.8 "Skewness of Relative Frequency Histograms". 2.2 Medidas de Localização Central As distribuições nos painéis (a) e (b) são ditas simétricas devido à simetria que exibem. Diz-se que as distribuições nos dois painéis restantes são assimétricas. Em cada distribuição traçamos uma linha vertical que divide a área sob a curva ao meio, que de acordo com a Figura 2.7 "A Mediana" está localizada na mediana. Os seguintes fatos são verdadeiros em geral: Figura 2.8 Distorção dos Histogramas de Frequência Relativa Machine Translated by Google 8. O valor mais frequente em um conjunto de dados. Capítulo 2 Estatísticas Descritivas O modo de amostra8 de um conjunto de dados de amostra é o valor que ocorre com mais frequência. Em um histograma de frequência relativa, o ponto mais alto do histograma corresponde ao modo do conjunto de dados. A Figura 2.9 "Modo" ilustra o modo. 2.2 Medidas de Localização Central 47 O modo de população é definido de maneira semelhante, mas não teremos ocasião de nos referir a ele novamente neste texto. Talvez você já tenha ouvido uma declaração como “O número médio de automóveis de propriedade das famílias nos Estados Unidos é de 1,37” e se divertiu com a ideia de uma fração de um automóvel parada em uma garagem. Nesse contexto, a seguinte medida para localização central pode fazer mais sentido. Definição Figura 2.9 Modo O modo Machine Translated by Google ÿ1 0 2 0 48 Para qualquer conjunto de dados há sempre exatamente uma média e exatamente uma mediana. Isso não precisa ser verdade para o modo; vários valores diferentes podem ocorrer com a maior frequência, como veremos. Pode até acontecer que todos os valores ocorram com a mesma frequência, caso em que o conceito de moda não faz muito sentido. Os dois valores mais frequentemente observados no conjunto de dados são 1 e 2. O valor 0 é o mais frequentemente observado e, portanto, a moda é 0. 2.2 Medidas de Localização Central Capítulo 2 Estatísticas Descritivas Solução: Solução: Encontre a moda do conjunto de dados a seguir. A moda é uma medida da localização central, uma vez que a maioria dos conjuntos de dados da vida real tem mais observações perto do centro do intervalo de dados e menos observações nas extremidades inferior e superior. O valor com a frequência mais alta geralmente está no meio do intervalo de dados. Calcule o modo de amostra para os dados da Nota 2.13 "Exemplo 4". A média, a mediana e a moda respondem à pergunta “Onde está o centro do conjunto de dados?” A natureza do conjunto de dados, conforme indicado por um histograma de frequência relativa, determina qual deles dá a melhor resposta. Portanto modo é um conjunto de dois valores: {1,2}. EXEMPLO 9 PRINCIPAIS LEVANTAMENTOS EXEMPLO 8 Machine Translated by Google 2 2 d. ÿ (x ÿ 3) a mesa 4. Encontre a média, a mediana e a moda para a amostra 8. Encontre a média, a mediana e a moda para os dados da amostra representados por 3. Encontre a média, a mediana e a moda para a amostra a mesa 7. Encontre a média, a mediana e a moda para os dados da amostra representados por d. ÿ (x ÿ 1)uma. ÿx 1. Para o conjunto de dados de amostra {1,2,6} encontre 49 6. Encontre a média, a mediana e a moda para a amostra 2.2 Medidas de Localização Central Capítulo 2 Estatísticas Descritivas uma. ÿx é maior que o9. Crie um conjunto de dados de amostra de tamanho n = 3 para o qual a média x mediana ̃x . 5. Encontre a média, a mediana e a moda para a amostra 2. Para o conjunto de dados de amostra {ÿ1,0,1,4} encontre 71 2 0 3 1 2b . ÿx c. ÿ (xÿ3) 1 2 3 4 f 1f ÿ1 0 1 4 1 1 1 1 2b . ÿx c. ÿ (xÿ1) 2 x 4 2 1 2 7 1 ÿÿ x 1ÿ1 3 3 4 4 BÁSICO EXERCÍCIOS Machine Translated by Google FORMULÁRIOS 12. Crie um conjunto de dados de tamanho n = 4 para o qual a mediana ̃x e a moda são diferentes. 11. Crie um conjunto de dados de amostra de tamanho n = 4 para o qual a média x moda sejam todas idênticas. Encontre a média, a mediana e a moda desse conjunto de dados. 2.2 Medidas de Localização Central 13. Encontre a média e a mediana para o nível de colesterol LDL em uma amostra de dez pacientes cardíacos. 50 idêntico, mas a média x é menor que o a mediana ̃x Encontre a média, a mediana e a moda desse conjunto de dados. 10. Crie um conjunto de dados de amostra de tamanho n = 3 para o qual a média x mediana ̃x . 16. O número de passageiros em cada um dos 120 veículos observados aleatoriamente durante a hora do rush da manhã foi registrado, com os seguintes resultados. , uma pesquisa com 52 domicílios. Capítulo 2 Estatísticas Descritivas , 15. Encontre a média, a mediana e a moda para o número de veículos possuídos em 17. Vinte e cinco caixas de 1 lb de pregos 16d foram selecionadas aleatoriamente e o número de pregos em cada caixa foi contado, com os seguintes resultados. e 14. Encontre a média e a mediana para o nível de colesterol LDL em uma amostra de dez pacientes cardíacos em dieta especial. 1 135 162 3 152 7 84 1 160 0 50 110 15 1 153 4 4 3 139 158 1 47 113 f 29 f 145 1 1 51 152 11 5 5 18 147 2 48 ÿÿ 2 3 131 148 2 2 x 132 148 6 x 127 f 6 2 ÿÿ 133 x 49 138 12 3 ÿÿ 150 3 3 Machine Translated by Google 12 56f 109 7 11 x 6 493 421 222 378 500* 8 28 5 77 39 222 421 378 450* 500* 4 68 5567 3 40 x 29 2 f 11 10 b. Você consegue encontrar a mediana da amostra para o conjunto de dados? Se sim, encontre-o. Se não, por que Encontre a média, a mediana e a moda. não? explique por que não. por que não. uma. Você consegue encontrar a média amostral para o conjunto de dados? Se sim, encontre-o. Se não, por que b. Você consegue encontrar a mediana da amostra para o conjunto de dados? Se sim, encontre-o. Se não, uma. Você consegue encontrar a média amostral para o conjunto de dados? Se sim, encontre-o. Se não, explique onde 500* indica que o quinto camundongo sobreviveu por pelo menos 500 dias, mas o tempo de sobrevivência (ou seja, o valor exato da observação) é desconhecido. onde * indica que o camundongo sobreviveu por pelo menos o número determinado de dias, mas o valor exato da observação é desconhecido. 18. Cinco camundongos de laboratório com leucemia do timo são observados por um período predeterminado de 500 dias. Após 500 dias, quatro camundongos morreram, mas o quinto sobreviveu. Os tempos de sobrevivência registrados para os cinco camundongos são 51 Capítulo 2 Estatísticas Descritivas 19. Cinco camundongos de laboratório com leucemia do timo são observados por um período predeterminado de 500 dias. Após 450 dias, três camundongos morreram e um dos camundongos restantes é sacrificado para análise. Ao final do período de observação, o último camundongo restante ainda sobrevive. Os tempos de sobrevivência registrados para os cinco camundongos são 2.2 Medidas de Localização Central 21. Cordelia registra seu tempo de deslocamento diário para o trabalho todos os dias, com precisão de minuto, por dois meses e obtém os seguintes dados. não? 20. Um jogador mantém registro de todas as jogadas de um par de dados ao jogar um jogo de tabuleiro e obtém os seguintes dados. EXERCÍCIOS ADICIONAIS Machine Translated by Google 22. Um diagrama ordenado de caule e folha fornece as pontuações de 71 alunos em um exame. 23. Um homem joga uma moeda repetidamente até sair cara e registra o número de lançamentos necessários. (Por exemplo, se der cara no primeiro lançamento, ele registra um 1; se der coroa nos dois primeiros lançamentos e cara no terceiro, ele registra um 3.) 2.2 Medidas de Localização Central 24. a. Construa um conjunto de dados consistindo de dez números, todos, exceto um, acima da média, onde a média é a média. b. É possível construir um conjunto de dados como na parte (a) quando a média é a mediana? Explique. Capítulo 2 Estatísticas Descritivas sobre o mesmo ou marcadamente diferente, e por quê? b. Calcule a média, a mediana e a moda. b. Calcule a média, a mediana e a moda. uma. Encontre a média dos dados. b. Encontre a mediana dos dados. 25. Mostre que não importa que tipo de média seja usada (média, mediana ou moda), é impossível que todos os membros de um conjunto de dados estejam acima da média. uma. Com base nas frequências, você espera que a média e a mediana sejam uma. Com base no formato da tela, você espera que a média e a mediana sejam aproximadamente iguais ou marcadamente diferentes, e por quê? Os dados são mostrados. 52 6 30 4 f 4 12 6 0 8 10 27 5 3 1 0 36 9 3 1 6 2 28 7 8 4 8 1 4 f 0 3 56 x 32 7 8 3 1 3 2 3 x 0 7 16 0 5 9 26 4 3 28 8 2 7 9 9 7 9 2 7 6 208 2 1 1 8 10 7 1 31 2 4 7 98 2 9 2 2 2 7 7 0 74 8 8 1 5 4 1 5 6 6 2 29 4 1 384 8 5 1 1 4 5 8 8 9 0 12 2 6 8 0 7 3 Machine Translated by Google EXERCÍCIOS DE GRANDES CONJUNTOS DE DADOS uma. Calcule a média, a mediana e a moda. b. Forme um novo conjunto de dados, Conjunto de Dados II, adicionando 3 a cada número no Conjunto de Dados I. uma. Considere os dados como provenientes de um censo de todos os calouros de uma pequena faculdade no final de seu primeiro ano acadêmico de estudos universitários, no qual o GPA de cada pessoa foi medido. Calcule a média da população µ. http://www.gone.2012books.lardbucket.org/sites/all/files/data1.xls 2.2 Medidas de Localização Central 53 uma. Calcule a média e a mediana das 1.000 pontuações do SAT. b. Calcule a média e a mediana dos 1.000 GPAs. 29. O Grande Conjunto de Dados 1 lista as pontuações do SAT de 1.000 alunos. 27. Comece com o seguinte conjunto de dados, chame-o de Conjunto de Dados I. 30. O Grande Conjunto de Dados 1 lista os GPAs de 1.000 alunos. 26. b. O peso médio por saca pode ser calculado com base nas informações fornecidas? Caso contrário, construa dois conjuntos de dados com o mesmo total, mas com medianas diferentes. http://www.gone.2012books.lardbucket.org/sites/all/files/data1.xls 28. O Grande Conjunto de Dados 1 lista as pontuações do SAT e GPAs de 1.000 alunos. por saco? população.Calcule a média amostral x uma. Vinte sacos de grãos pesam um total de 1.003 lb. Qual é o peso médio Capítulo 2 Estatísticas Descritivas Declare o princípio geral que você espera que seja verdade. população. Calcule a média amostral x Calcule a média, mediana e moda do Conjunto de Dados II. c. Forme um novo conjunto de dados, Conjunto de Dados III, subtraindo 6 de cada número no Conjunto de Dados I. Calcule a média, mediana e moda do Conjunto de Dados III. d. Comparando as respostas das partes (a), (b) e (c), você consegue adivinhar o padrão? uma. Considere os dados como provenientes de um censo de todos os alunos de uma escola de ensino médio, no qual a pontuação SAT de cada aluno foi medida. Calcule a média da população µ. b. Considere as primeiras 25 observações como uma amostra aleatória extraída disso e compare-a com ÿ. c. Considere as próximas 25 observações como uma amostra aleatória extraída desta e compare-a com ÿ. ÿÿ 5 ÿ2 6 14 ÿ3 0 1 4 3 2 5 ÿÿ http://www.gone.2012books.lardbucket.org/sites/all/files/data1.xls Machine Translated by Google http://www.gone.2012books.lardbucket.org/sites/all/files/data1.xls http://www.gone.2012books.lardbucket.org/sites/all/files/data1.xls http://www.gone.2012books.lardbucket.org/sites/all/files/data1.xls 2.2 Medidas de Localização Central Capítulo 2 Estatísticas Descritivas http://www.gone.2012books.lardbucket.org/sites/all/files/data7B.xls população. Calcule a média amostral x 54 b. Considere as primeiras 25 observações como uma amostra aleatória extraída disso e compare- a com ÿ. c. Considere as próximas 25 observações como uma amostra aleatória extraída desta e compare-a com ÿ. uma. Calcule o tempo médio e mediano de sobrevivência para todos os camundongos, sem considerar 31. Grandes conjuntos de dados 7, 7A e 7B listam os tempos de sobrevivência em dias de 140 camundongos de laboratório com leucemia tímica desde o início até a morte. ao gênero. http://www.gone.2012books.lardbucket.org/sites/all/files/data7.xls população. Calcule a média amostral x b. Calcule o tempo de sobrevivência médio e mediano para os 65 camundongos machos (registrados separadamente no Grande Conjunto de Dados 7A). c. Calcule o tempo de sobrevivência médio e mediano para os 75 camundongos fêmeas (registrados separadamente no Grande Conjunto de Dados 7B). http://www.gone.2012books.lardbucket.org/sites/all/files/data7A.xls ÿÿ ÿÿ Machine Translated by Google http://www.gone.2012books.lardbucket.org/sites/all/files/data7B.xls http://www.gone.2012books.lardbucket.org/sites/all/files/data7.xls http://www.gone.2012books.lardbucket.org/sites/all/files/data7A.xls = 48,96, ̃x = 49, moda = 49 = 3. 18ÿÿÿÿ ÿÿ ÿÿ ÿÿ = 2,5, ̃x = 2,5, modo = {1,2,3,4} . = 146,9, ̃x = 147,5 ÿÿ 25. Média: nxmin ÿ ÿx então dividir por n resulta em xmin ÿ x = 6. 18ÿÿÿÿ = 1502,8 ÿÿ = 3, ̃x = 2, moda = 2. ÿÿ ˜x = 6, moda = 8. = -2. 81ÿÿÿÿ ÿÿ = 28,55, ̃x = 28, moda = 28 ÿÿ = 1535,2 b. Sim, ̃x = 421. ÿÿ ˜x = 3, moda = 5. ÿÿ ÿÿ = 2,05, ̃x = 2, moda = 1 = 2,6, ̃x = 2, moda = 2 = 3, ̃x = 2, moda = 2. ÿÿ ÿÿ ÿÿ ˜x = ÿ3, modo = ÿ1. uma. Não, os tempos de sobrevivência do quarto e quinto camundongos são desconhecidos. 23. x 5. x Capítulo 2 Estatísticas Descritivas 19. não está acima da média. Mediana: a medida do meio, ou média das duas b. x 55 é pelo menos tão grande quanto xmin , então o valor mínimo é c. x d. Se um número é adicionado a cada medição em um conjunto de dados, então a média, 13. x medidas intermediárias, ̃x não acima da média. Modo: o modo é uma das medidas, e não é 27. d. 14. 11. {0,1,1,2}. 15. x então o valor mínimo , 1. 7. x b. 41. 2.2 Medidas de Localização Central , c. x 3. x , , uma. µ = 1528,74 17. x , c. 0. 9. {0,0,3}. b. x 21. x maior do que ele mesmo. uma. x mediana e moda mudam por esse número. 29. uma. 9. RESPOSTAS Machine Translated by Google 31. 56 Capítulo 2 Estatísticas Descritivas 2.2 Medidas de Localização Central uma. x b. x c. x = 455,8933 e ̃x = 448 ÿÿ ÿÿ = 665,9692 e ̃x = 667 ÿÿ = 553,4286 e ̃x = 552,5 Machine Translated by Google Conjunto de dados I: 40 38 42 40 39 39 43 40 39 40 Conjunto de dados II: 46 37 40 33 42 36 40 47 34 45 1. Aprender o conceito de variabilidade de um conjunto de dados. Observe os dois conjuntos de dados na Tabela 2.1 "Dois conjuntos de dados" e a representação gráfica de cada um, chamada de gráfico de pontos, na Figura 2.10 "Gráficos de pontos de conjuntos de dados". Capítulo 2 Estatísticas Descritivas 57 2. Aprender a calcular três medidas da variabilidade de um conjunto de dados: o intervalo, a variância e o desvio padrão. Tabela 2.1 Dois conjuntos de dados Os dois conjuntos de dez medições centram-se cada um no mesmo valor: ambos têm média, mediana e moda 40. No entanto, uma olhada na figura mostra que eles são marcadamente diferentes. No conjunto de dados I as medições variam apenas ligeiramente do centro, enquanto que no conjunto de dados II as medições variam muito. Assim como anexamos números a um conjunto de dados para localizar seu centro, agora desejamos associar a cada conjunto de dados números que medem quantitativamente como os dados se espalham OBJETIVOS DE APRENDIZADO Figura 2.10 Gráficos de pontos de conjuntos de dados 2.3 Medidas de Variabilidade Machine Translated by Google EXEMPLO 10 A primeira medida de variabilidade que discutimos é a mais simples. O intervalo9 de um conjunto de dados é o número R definido pela fórmula Capítulo 2 Estatísticas Descritivas Encontre o intervalo de cada conjunto de dados na Tabela 2.1 "Dois conjuntos de dados". O intervalo é uma medida de variabilidade porque indica o tamanho do intervalo ao longo do qual os pontos de dados são distribuídos. Um intervalo menor indica menos variabilidade (menos dispersão) entre os dados, enquanto um intervalo maior indica o contrário. As outras duas medidas de variabilidade que consideraremos são mais elaboradas e também dependem se o conjunto de dados é apenas uma amostra extraída de uma população muito maior ou é a própria população inteira (ou seja, um censo). Solução: do centro ou cluster próximo a ele. Essas novas quantidades são chamadas de medidas de variabilidade, e discutiremos três delas. 58 onde xmax é a maior medida no conjunto de dados e xmin é a menor. 2.3 Medidas de Variabilidade Para o Conjunto de Dados II, o máximo é 47 e o mínimo é 33, então o intervalo é R = 47 ÿ 33 = 14. Para o conjunto de dados I, o máximo é 43 e o mínimo é 38, então o intervalo é R = 43 ÿ 38 = 5. Definição R = xmax ÿ xmin 9. A variabilidade de um conjunto de dados medido pelo número R = xmax ÿ xmin . A Variação e o Desvio Padrão O intervalo Machine Translated by Google 2 1 2 2 ÿx 2 2 1 2 segundos 2 segundos n n 2 2 ÿ (x ÿ x ÿÿ) n ÿ 1 (ÿx) = (ÿx) = nÿ1 ÿx 2 Definição ÿ nÿ1 ÿ (x - x ÿÿ) s = ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿ ÿ (x - x ÿÿ) n ÿ 1 ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿ nÿ1 ÿ = ÿÿÿÿÿÿÿÿÿÿÿ ÿ . Capítulo
Compartilhar