Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade I ESTATÍSTICA Profa. Alessandra Teixeira Estatística Interpretar processos em que há variabilidade. “Estatísticas” indica qualquer coleção de dados quantitativos, ou, ainda, ramo da matemática que trata da coleta, da análise, da interpretação e da apresentação de massa de dados numéricos. “Estatística” é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. Áreas da estatística Estatística descritiva: descreve e analisa determinada população, utilizando métodos numéricos e gráficos, para se determinarem padrões, em um conjunto de dados e, assim, apresentar a informação. Estatística inferencial: conjunto de métodos para a tomada de decisões, nas situações em que há incerteza, variações ou outras generalizações acerca de um conjunto maior de dados. Classificação dos dados Dados Qualitativos Quantitativos Discretos Contínuos Classificação dos dados Estado Civil Grau de Instrução Nº filhos Salário (x. min) Idade (anos-meses) Casado Ensino Médio 2 19,40 32 10 Solteiro Ensino Superior *** 4,00 23 03 Solteiro Ensino Fundamental *** 10,53 25 08 Casado Ensino Médio 1 4,56 48 11 Solteiro Ensino Fundamental *** 16,22 31 05 Fonte: da autora Elementos da estatística População. Amostra. Formas iniciais de tratamento de dados A tabela mostra uma pesquisa sobre o número de filhos por funcionário de uma certa empresa: Dados brutos Rol 0 2 1 2 3 5 2 0 2 1 2 0 0 1 1 2 3 3 1 2 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 Distribuição de frequências Organiza os dados de acordo com as ocorrências dos diferentes resultados observados. Apresentada em tabela ou gráfico. Tabela: apresenta de forma resumida um conjunto de dados. Tabelas de Frequência. Tabelas de Frequência Relativas. Tabelas de Frequência Acumuladas. Tabelas Título Coluna Indicadora Cabeçalho Rodapé Distribuição de frequências Gráficos: são usados para visualizar facilmente a natureza da distribuição dos dados. Um gráfico é uma figura constituída a partir de uma tabela, pois é quase sempre possível locar um dado tabulado num gráfico. Colunas Barras Linhas Setores Dispersão Histograma Polígono de frequência Etc. Gráfico em colunas Fonte: https://emilioparme.wordpress.com/2012/08/15/utilizando-o- google-charts-parte-2-multiplas-series-e-graficos-combinados/ Gráfico em barras Fonte: https://www.tecmundo.com.br/excel/1745-saiba-qual-tipo-de- grafico-representa-melhor-os-seus-dados-no-excel-2007.htm Gráfico em linhas Fonte: https://www.tecmundo.com.br/excel/1745-saiba-qual-tipo-de-grafico- representa-melhor-os-seus-dados-no-excel-2007.htm Gráfico em setores Total __________360º Parte___________ xº Fonte: http://portaldoprofessor.mec.gov.br/fichaTecnicaAula.html?aula=23097 Diagrama de dispersão Fonte: http://wikiciencias.casadasciencias.org/wiki/index.php/Diagrama_ou_gr%C3%A1fico_de_dispers%C3%A3o Histograma Fonte: da autora 0 2 4 6 8 10 12 148. 152. 156. 160. 164. 168. 172. 176. Número de alunos estatura Estatura de 40 alunos Polígono de frequência 0 2 4 6 8 10 12 148. 152. 156. 160. 164. 168. 172. 176. Nú me ro de al un os Estatura Estatura de 40 alunos Fonte: da autora Interatividade São dados os seguintes experimentos: I. Lançar uma moeda cinco vezes e observar o número de caras. II. Numa linha de produção, observar dez itens, tomados ao acaso, e verificar quantos estão defeituosos. III. Verificar o tempo que internautas ficam em site de reportagem. IV. Em uma realização de projeto, verificar a porcentagem do término do projeto após 6 meses. Quais dos itens acima terão eventos classificados como variáveis aleatórias discretas? a) I e II. b) I e IV. c) II e IV. d) III. e) I, II, III e IV. Resposta São dados os seguintes experimentos: I. Lançar uma moeda cinco vezes e observar o número de caras. II. Numa linha de produção, observar dez itens, tomados ao acaso, e verificar quantos estão defeituosos. III. Verificar o tempo que internautas ficam em site de reportagem. IV. Em uma realização de projeto, verificar a porcentagem do término do projeto após 6 meses. Quais dos itens acima terão eventos classificados como variáveis aleatórias discretas? a) I e II. b) I e IV. c) II e IV. d) III. e) I, II, III e IV. Distribuição de Frequência – faixa etária de crianças Dificulta estabelecer em torno de qual valor tendem a se concentrar as idades das crianças, ou, ainda, as que se encontram acima ou abaixo de determinada idade. Dados brutos: 6 10 9 14 7 4 8 11 12 5 9 13 9 10 8 6 7 14 11 6 12 11 15 13 12 11 4 10 7 13 10 9 8 12 13 7 Faixa etária de crianças Organizar os dados em rol 4 6 8 10 11 13 4 7 8 10 12 13 4 7 8 10 12 13 5 7 9 10 12 14 6 7 9 11 12 14 6 8 9 11 13 15 Faixa etária de crianças Tabela de frequência Idade Frequência 4 3 5 1 6 3 7 4 8 4 9 3 10 4 11 3 12 4 13 4 14 2 15 1 Idade Frequência 4 6 4 6 8 7 810 7 1012 7 1214 8 1416 3 Idade Frequência 4 6 4 6 8 7 810 7 1012 7 1214 8 1416 3 4 6 8 10 11 13 4 7 8 10 12 13 4 7 8 10 12 13 5 7 9 10 12 14 6 7 9 11 12 14 6 8 9 11 13 15 Faixa etária de crianças Tabela de frequência Limites de classe (4 6) Amplitude de um intervalo de classe hi = Li – li Faixa etária de crianças Ponto médio de uma classe Ponto médio de uma classe (xi) Xi = (Ii + Li)/2 x1 = (4 + 6)/2 = 5. Idade xi Frequência 4 6 5 4 6 8 7 7 810 9 7 1012 11 7 1214 13 8 1416 15 3 Idade xi Fi Fr Fa 4 6 5 4 (4/36)*100 = 11% 4 6 8 7 7 19% 11 810 9 7 19% 18 1012 11 7 19% 25 1214 13 8 22% 33 1416 15 3 8% 36 Total 36 98% ~ 100% 36 Faixa etária de crianças Frequências Mais um exemplo – estatura Construção da tabela de frequência Suponhamos termos feito uma coleta de dados relativos às estaturas de 40 alunos, que compõem uma amostra dos alunos de uma faculdade, resultando a seguinte tabela de valores: Tabela – Dados Brutos Estaturas de 40 alunos da faculdade a 166 160 161 150 162 160 165 167 164 160 162 168 161 163 156 173 160 155 164 168 155 152 163 160 155 155 169 151 170 164 154 161 156 172 153 157 156 158 158 161 Estatura Construção da tabela de frequência Tabela – Rol Estaturas de 40 alunos da faculdade a 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Rol Decidir o número de classes da tabela de frequência. Regra de Sturges: i = 1 + 3,3*log n = i = 1 + 3,3*log 40 = 6,27 Regra do Quadrado: = 6,32 40 Estatura Construção da tabela de frequência 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Determinar a amplitude de classe, dividindo a amplitude pelo número de classes. Amplitude de variação: 173 – 150 = 23 cm. 23 / 6 = 3,83 (arredondar o resultado para mais) Classes Estatura Frequência 1 150 154 4 2 154 158 9 3 158 162 11 Estatura Construção da tabela de frequência Estatura xi fi fr fa 150 154 152 4 0,10 ou 10% 4 154 158 156 9 0,225 ou 22,5% 13 158 162 160 11 0,275 ou 27,5% 24162 166 164 8 0,20 ou 20% 32 166 170 168 5 0,125 ou 12,5% 37 170 174 172 3 0,075 ou 7,5% 40 Total 40 1 ou 100% 40 Medidas de tendência central Como podemos descrever estes dados? Como podemos resumir estes dados? Média. Mediana. Moda. 0 2 4 6 8 10 12 148. 152. 156. 160. 164. 168. 172. 176. Nú me ro de al un os Estatura Estatura de 40 alunos Estatura Xi Fi 150 154 152 4 154 158 156 9 158 162 160 11 162 166 164 8 166 170 168 5 170 174 172 3 Total 40 Média É a soma dos valores de todas as observações dividida pelo número de observações envolvidas. Vantagem: leva em conta todos os valores no seu cálculo. Número de filhos – média 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 Nº de filhos fi 0 4 1 5 2 7 3 3 4 0 5 1 Total 20 Média ponderada Um aluno fez um teste (peso 1) e duas provas (peso 2), tirando 8 no teste, 5 na primeira prova e 6 na segunda prova. A sua média (ponderada) será: Se o teste e a prova tivessem o mesmo peso (e não importa qual o valor do peso, importa apenas a relação entre os pesos), a média seria, aproximadamente, 6,33. Interatividade Em um levantamento realizado em maio, com os 134 funcionários da empresa XK, em relação a variável expressa em unidades monetárias (u.m.), obteve-se a tabela abaixo. Determine a média. a) 3 salários. b) 4 salários. c) 5 salários. d) 6 salários. e) 7 salários. Salário Nº de funcionários 3 32 5 34 7 40 9 28 d) 6 salários Média Salário Nº de funcionários Xifi 3 32 3x32 = 96 5 34 5x34 = 170 7 40 7x40 = 280 9 28 9x28 = 252 saláriosx 95,5 134 798 134 25228017096 Resposta Mediana (Md) Divide uma série ordenada de dados em duas partes iguais. Ocupa a posição central. Não é afetada por valores extremos. A amostra pode ter número ímpar de elementos ou número par de elementos. Calcular a posição da mediana com a fórmula a seguir: Posição mediana = (n + 1)/2. Mediana – nº ímpar de elementos Um conjunto de dados indica o salário de funcionários de uma empresa xi = {6, 9, 3, 5, 2, 9, 5, 5, 8, 7, 1, 7, 2}, em que n = 13. Rol - {1, 2, 2, 3, 5, 5, 5, 6, 7, 7, 8, 9, 9} Posição mediana = (n+1)/2 Posição mediana = (13+1)/2 = 7 (indica a posição) Então Md = 5 Mediana – nº par de elementos Exemplo: número de filhos Posição mediana = (20 + 1) / 2 = 10,5 Então: Md = (2 + 2)/2 = 2 filhos 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 Moda (Mo) Um conjunto de dados ao dado que ocorre com maior frequência. A moda não é afetada por valores extremos. É utilizada para fins descritivos apenas, uma vez que é, dentre as medidas de tendência, a mais variável de amostra para amostra. Uma moda: unimodal. Duas modas: bimodal. Mais de duas modas: multimodal. Nenhuma moda: amodal. Número de filhos – moda Mo = 2 filhos (unimodal). 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 Nº de filhos fi 0 4 1 5 2 7 3 3 4 0 5 1 Total 20 Medidas de dispersão Medidas que mostram a dispersão dos dados em torno da tendência central. A variação se refere a quanto os valores podem diferir entre si e pode ser medida por números específicos. Os números relativamente próximos uns dos outros têm baixas medidas de variação, enquanto os valores mais dispersos têm maior medida de variação. 0 2 4 6 8 10 12 148. 152. 156. 160. 164. 168. 172. 176. Nú me ro de al un os Estatura Estatura de 40 alunos Medidas de dispersão Amplitude Amplitude Total = Valor máximo – Valor mínimo Variância Desvio padrão Coeficiente de variação 100 x s CV Amplitude – número de filhos Amplitude Total = Valor máximo – Valor mínimo Amplitude Total = 5 – 0 = 5 Nº de filhos fi 0 4 1 5 2 7 3 3 4 0 5 1 Total 20 Variância – número de filhos 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 𝑠² = (𝑥𝑖 − 𝑥 )² 𝑛 𝑥 = 1,65 𝑠² = 0 − 1,65 2 + 0 − 1,65 2 + ⋯ + 3 − 1,65 2 + (5 − 1,65)² 20 𝑠² = −1,65 2 + −1,65 2 + ⋯ + 1,35² + 3,35² 20 𝑠² = 2,7225 + 2,7225 + ⋯ + 1,8225 + 11,2225 20 𝑠² = 30,55 20 𝑠² = 1,5275 𝑓𝑖𝑙ℎ𝑜𝑠² Número de filhos Variância (s²) Nº de filhos fi 0 4 (-1,65)² = 2,72 2,724 = 10,88 1 5 (-0,65)² = 0,42 0,425 = 2,10 2 7 0,35² = 0,12 0,12 7 = 0,84 3 3 1,35² = 1,82 1,82 3 = 5,46 4 0 2,35² = 5,52 5,52 0 = 0 5 1 3,35² = 11,22 11,22 1 = 11,22 Total 20 = 30,50 𝑠² = (𝑥𝑖 − 𝑥 )² ∙ 𝑓𝑖 𝑛 𝑠² = 30,50 20 = 1,525 𝑓𝑖𝑙ℎ𝑜𝑠² (𝒙𝒊 − 𝒙 )² (𝒙𝒊 − 𝒙 )² ∙ 𝒇𝒊 Número de filhos – desvio padrão (s) 𝑠² = 1,525 𝑓𝑖𝑙ℎ𝑜𝑠² 𝑠 = 1,525 𝑠 = 1,23 𝑓𝑖𝑙ℎ𝑜𝑠 Interatividade Dada a tabela do número de erros de impressão da primeira página de um jornal durante 50 dias, assinale a alternativa correta. a) O tamanho da amostra é igual a 52. b) A média é igual a 10,5 erros. c) O desvio padrão é igual a 17,3 erros. d) O desvio padrão é igual a 4,2 erros. e) A variância é igual a 4 erros². Erros fi xi . fi (xi – x)² * fi 7 11 7 x 11 = 77 (7 – 12,7)² x 11 = 357,4 11 14 11 x 14 = 154 (11 – 12,7)² x 14 = 40,5 15 14 15 x 14 = 210 (15 – 12,7)² x 14 = 74,1 19 9 19 x 9 =171 (19 – 12.7)² x 9 = 357,2 48 = 612 = 829,2 Resposta a) O tamanho da amostra é igual a 52. b) A média é igual a 10,5 erros. c) O desvio padrão é igual a 17,3 erros. d) O desvio padrão é igual a 4,2 erros. e) A variância é igual a 4 erros². Erros xi fi xi . fi (xi – x)² * fi 5 9 7 11 7 x 11 = 77 (7 – 12,7)² x 11 = 357,4 9 13 11 14 11 x 14 = 154 (11 – 12,7)² x 14 = 40,5 13 17 15 14 15 x 14 = 210 (15 – 12,7)² x 14 = 74,1 17 21 19 9 19 x 9 =171 (19 – 12.7)² x 9 = 357,2 Total 48 = 612 = 829,2 Coeficiente de variação (CV) O coeficiente de variação é a razão entre o desvio padrão e a média. O resultado é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem. O coeficiente de variação mede a dispersão em relação à média, comparando dois conjuntos de dados diferentes. 100 x s CV Coeficiente de variação Idade Estatura 100 x s CV 100 65,1 23,1 CV %55,74CV 100 161 57,5 CV %46,3CV Exemplo Considere uma população de 40 profissionais liberais que foram questionados sobre o número de revistas e/ou jornais que eles são assinantes. Obteve-se os seguintes dados: 2 0 4 3 1 2 3 0 2 1 3 1 2 4 4 0 3 2 1 3 2 1 3 0 2 3 2 1 2 3 4 1 2 2 1 3 3 0 2 0 Exemplo Rol Nº de publicações Nº de profissionais 0 6 1 8 2 12 3 10 4 4 0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 Exemplo – gráfico 0 2 4 6 8 10 12 14 1 2 3 4 5 Nº de pr of iss ion ais Nº de publicações Nº de assinantes 0 1 2 3 4 Fonte: da autora Exemplo – média e moda Média = 1,95 publicação Moda Mo = 2 publicações Nº de publicações Nº de profissionais xi.fi 0 6 0x6 = 0 1 8 1x8 = 8 2 12 2x12 = 24 3 10 3x10 = 30 4 4 4x4 = 16 Total 40 (xifi) = 78 95,1 40 78 40 16302480 x Exemplo – mediana Mediana Posição: (40 + 1)/2 = 20,5 Então: Md = (2 + 2)/2 = 2 publicações 0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 Exemplo – amplitude Amplitude Total = Valor máximo – Valor mínimo AmplitudeTotal = 4 – 0 = 4 Nº de publicações Nº de profissionais 0 6 1 8 2 12 3 10 4 4 Exemplo – variância Sabendo que a média é 1,95 publicações Nº de publicações Nº de profissionais (xi – x)².fi 0 6 (0 – 1,95)² 6 = 22,82 1 8 (1 – 1,95)² 8 = 7,22 2 12 (2 – 1,95)² 12 = 0,03 3 10 (3 – 1,95)² 10 = 11,03 4 4 (4 – 1,95)² 4 = 16,81 Total 40 = 57,91 ²45,1 40 91,57 ² 2 publicação n xx s Exemplo – desvio padrão Sabendo que a média é 1,95 publicações Nº de publicações Nº de profissionais (xi – x)².fi 0 6 (0 – 1,95)² 6 = 22,82 1 8 (1 – 1,95)² 8 = 7,22 2 12 (2 – 1,95)² 12 = 0,03 3 10 (3 – 1,95)² 10 = 11,03 4 4 (4 – 1,95)² 4 = 16,81 Total 40 = 57,91 publicaçãos 20,145,1 Exemplo – coeficiente de variação Um CV igual a 61,54% indica que a dispersão dos dados em relação à média é muito grande, ou seja, a dispersão relativa é alta. %54,61100 95,1 2,1 CV Interatividade É dada uma tabela de uma amostra das notas dos alunos da disciplina de estatística. I. A amostra tem 5 alunos. II. A média da nota é igual a 3. III. A moda da nota é igual a 6,5. IV. A variância não pode ser usada como parâmetro para medir a variabilidade dos dados. Assinale a alternativa com as afirmações incorretas. a) I. b) II. c) III e IV. d) I, II e IV. e) I, II, III e IV. Nota Alunos 6,3 2 8,4 3 5,3 2 9,5 3 6,5 5 Resposta d) I, II e IV (alternativas incorretas). I. A amostra tem 5 alunos. II. A média da nota é igual a 3. III. A moda da nota é igual a 6,5. IV. A variância não pode ser usada como parâmetro para medir a variabilidade dos dados. Nota Alunos xifi 6,3 2 12,6 8,4 3 25,2 5,3 2 10,6 9,5 3 28,5 6,5 5 32,5 Total 15 109,4 3,7 15 4,109 x ATÉ A PRÓXIMA!
Compartilhar