Baixe o app para aproveitar ainda mais
Prévia do material em texto
FUNDAMENTOS DA ESTATÍSTICA Aula 1 - Conceitos Básicos Conceituação da Estatística É a ciência que utiliza dados obtidos de população ou amostras, organizando-os e analisando-os, para a tomada de decisões. Campos de aplicação Praticamente em todas as ciências, como as ciências sociais, da saúde e tecnológica. População População é um conjunto de elementos com características definidas no tempo de no espaço. Exemplo: os alunos de Estatística da Universidade Estácio de Sá, neste semestre. População pode ser finita ou infinita. Amostras Amostra é uma parte da população. A amostra tem de ser representativa da população, não pode ser tendenciosa. Parâmetros e estimativas (estatísticas) Parâmetros são valores fixos obtidos de população. Estimativas (estatísticas) são valores variáveis obtidos de amostras. Exemplo de parâmetros e estimativas Tabela 1. Percentuais de intenções de votos em dois candidatos e o resultado da eleição. Candidato A Candidato B Pesquisa 1 60% (estimativa) 40% (estimativa) Pesquisa 2 62% (estimativa) 38% (estimativa) Pesquisa 3 61% (estimativa) 39% (estimativa) Eleição 60,3% (parâmetro) 39,7% (parâmetro) Pesquisa 1 com 2% de erro: implica dizer que se a eleição fosse realizada naquela data, o candidato B teria entre 38% a 42% dos votos e realmente obteve 39,7% dos votos. Outros exemplos de parâmetros e estimativas Uma pesquisa realizada em uma amostra, com 2% de erro (para mais ou menos), mostrou que a eficiência de uma droga A foi de 90% (estimativa). Implica dizer que a verdadeira eficiência da droga A (parâmetro) deve estar compreendida entre 88% a 92%. Pesquisa com amostras, com 3% de erro, determinou eficiência para a droga A de 91,9% e para a droga B de 87,5%. Implica dizer que a verdadeira eficiência da droga A deve estar entre 88,9% a 94,9% e da droga B entre 84,5% a 90,5%. Portanto, as eficiências das drogas não diferem estatisticamente entre si, pois existe um intervalo comum entre as duas drogas, que é de 88,9% a 90,5%, ou seja, neste intervalo tanto pode estar a eficiência da droga A quanto da droga B. Variáveis qualitativas e quantitativas Variáveis qualitativas (qualidade) – nominais e ordinais. Variáveis quantitativas (quantidade) – discretas e continuas. Exemplos de variáveis qualitativas e quantitativas Variáveis qualitativas nominais – doenças, cores, times de futebol etc. Variáveis qualitativas ordinais – classe social (A, B, C etc.), tipos de queimadura (1º. grau, 2º. grau etc.), didática de um professor (péssima,ruim, razoável, boa, excelente). Variáveis quantitativas discretas – número de alunos, número de gols da seleção brasileira de futebol, batimentos cardíacos, salário etc. Variáveis quantitativas contínuas – pressão sistólica, taxa de glicose no sangue, velocidade, idade dos alunos, etc. Resumo População e amostras Parâmetros e estimativas Variáveis qualitativas nominais e ordinais Variáveis quantitativas discretas e contínuas Simulados 1. Foi realizada uma pesquisa entre os pesos de Micardis por comprimido e verificou-se que a média era de 78 mg de Micardis/comprimido ± 4 mg de Micardis/comprido. Isto significa que: ( ) a média verdadeira (parâmetro) deve ser inferior a 74 mg de Micardis/comprimido ( ) a média verdadeira (parâmetro) deve ser superior a 82 mg de Micardis/comprimido ( ) a média verdadeira (parâmetro) deve ser inferior a 78 mg de Micardis/comprimido ( ) a média verdadeira (parâmetro) deve ser superior a 78 mg de Micardis/comprimido ( ) a média verdadeira (parâmetro) deve ser entre 74 a 82 mg de Micardis/comprimido 2. As variáveis: (a) tipos de esporte, (b) quantidades de jogadores expulsos, (c) quantidades de produtos farmacêuticos fora da validade são, respectivamente, exemplos de variáveis: ( ) qualitativas, qualitativas, qualitativas ( ) quantitativas, quantitativas, quantitativas ( ) quantitativas, quantitativas, qualitativas ( ) quantitativas, qualitativas, quantitativas ( ) qualitativas, quantitativas, quantitativas 3. A diferença entre população e amostra é que: ( ) a amostra é um todo e a população é uma parte do todo ( ) a população é um subconjunto e a amostra é um conjunto ( ) a população tem variáveis discretas e as amostras têm variáveis contínuas ( ) a população é um todo e a amostra é a parte do todo ( ) a população tem variáveis contínuas e as amostras têm variáveis discretas 4. A amostra, que é uma parte da população, tem de ser representativa da população. Supondo que uma população fosse constituída de 80% do sexo feminino e 20% do sexo masculino, foi retirada uma amostra que acusou para o sexo feminino 45% e para o masculino 55%. Nestas condições: ( ) a amostra é representativa da população pois os percentuais de sexos não influenciam em nenhuma hipótese, qualquer que seja o estudo ( ) a amostra não é representativa da população pois para ser, haveria necessidade de que na amostra exatamente 80% fossem do sexo feminino ( ) a amostra é representativa da população pois expressa os atributos da população ( ) a amostra é representativa da população pois todas as amostras são representativas da população ( ) a amostra não é representativa da população tendo em vista que os percentuais encontrados diferem em muito do valor populacional 5. Em uma pesquisa com erro de 3% para mais ou para menos, verificou-se que o medicamento A teve eficiência de 85% e o medicamento B com 90,6% de eficiência. Desta pesquisa conclui-se que: ( ) os medicamentos são estatisticamente diferentes quanto à eficiência, sendo o B mais eficiente do que o A ( ) os medicamentos são estatisticamente diferentes quanto à eficiência, sendo o B menos eficiente do que o A ( ) os medicamentos não são estatisticamente diferentes quanto à eficiência, pois nos intervalos de confiança dos percentuais dos dois medicamentos existe uma margem de interseção que é de 87,6% a 88% ( ) os medicamentos são estatisticamente diferentes quanto à eficiência, pois nos intervalos de confiança dos percentuais dos dois medicamentos existe uma margem de interseção que é de 87,6% a 88% ( ) os medicamentos são estatisticamente diferentes pois o que importa são os percentuais obtidos e não o erro da pesquisa que foi de 3% 6. Um medicamento somente é liberado para o público se a sua eficiência for igual ou maior do que 90%. Foi realizada uma pesquisa com um medicamento, com margem de erro de 3%. Para que o medicamento seja liberado há necessidade de sua eficiência ser: ( ) 90% ( ) entre 87% a 93% ( ) acima de 93% ( ) acima de 90% ( ) igual ou acima de 87% Aula 2 - Amostras POPULAÇÃO E AMOSTRAS Importância da utilização de amostras ao invés de população Pesquisa mais econômica Pesquisa mais rápida Pesquisa mais confiável AMOSTRAS PROBABILÍSTICAS EM PESQUISAS DE CAMPO Casualizada, randômica ou aleatória Estratificada Estratificada proporcional AMOSTRAS CASUALIZADAS, RANDÔMICAS OU ALEATÓRIAS Todos os elementos da população têm a mesma chance de participarem da amostra. Exemplo: uma população de 200 elementos, deseja-se obter um amostra de 15 elementos. Assim, serão sorteados 15 elementos ou senão será utilizada uma tabela de números aleatórios. AMOSTRAS ESTRATIFICADAS E AMOSTRAS ESTRATIFICADAS PROPORCIONAIS Amostra estratificada – os elementos da população são divididos em estratos, onde todos os elementos de cada estrato têm a mesma característica. De cada estrato é obtida uma certa quantidade de elementos para comporem a amostra. Amostra estratificada proporcional – é uma amostra estratificada, onde a quantidade de elementos de cada estrato para compor a amostra é proporcional ao tamanho do estrato. Amostras semi-probabilísticas em pesquisas de campo Sistemática Por conglomerados Por quotas Amostras não-probabilísticasem pesquisas de campo Amostras por conveniência – adota-se um processo prático e conveniente para a obtenção dos dados. RESUMO Amostras probabilísticas Amostras semi-probabilísticas Amostras não-probabilísticas SIMULADOS 1. O curso de Fundamentos da Estatística é constituído por 30 turmas. Assim, foram sorteadas três turmas e trabalhou-se com os elementos das turmas sorteadas. Neste caso, a amostra é: ( ) casualizada ( ) sistemática ( ) estratificada ( ) por conglomerados ( ) por conveniência 2. O curso de Fundamentos da Estatística é constituído por 30 turmas. Assim, de cada turma foram retiradas uma certa quantidade de elementos. Neste caso, a amostra é: ( ) casualizada ( ) sistemática ( ) estratificada ( ) por conglomerados ( ) por conveniência 3. Uma população é dividida em 4 estratos A, B, C e D, respectivamente, com as seguintes quantidades de elementos: 50, 60, 140 e 150. Assim, retirando-se 10% de cada estrato, obtém-se, respectivamente 5, 6, 14 e 15 elementos para comporem a amostra. A amostra de 40 elementos assim obtida é denominada: ( ) estratificada proporcional ( ) sistemática ( ) estratificada ( ) por conglomerados ( ) por conveniência 4. O curso de Fundamentos da Estatística é constituído por 30 turmas, com um total de 2.000 alunos. Assim, foi realizado um sorteio de 50 elementos para a composição da amostra. Neste caso, a amostra é: ( ) casualizada ( ) sistemática ( ) estratificada ( ) por conglomerados ( ) por conveniência 5. Uma população é constituída de 200 elementos e resolveu-se obter uma amostra de 8 elementos. Desta forma, as fichas dos elementos foram colocadas em ordem, de 1 a 200, após dividiu-se 200 por 8 obtendo-se 25. Então, o primeiro elemento para participar da amostra foi sorteado entre 1 a 25, saindo o 5º. elemento. Desta forma, a amostra ficou constituída dos 5º., 30º., 55º., 80º., 105º., 130º., 155º., 180º. elementos. Esta amostra é: ( ) casualizada ( ) sistemática ( ) estratificada ( ) por conglomerados ( ) por conveniência 6. Um órgão de pesquisa de opinião resolveu pesquisar qual seria o próximo governador de um estado. Assim, por ter uma noção a respeito da população, foram determinadas as características de inclusão e exclusão da pesquisa. Por exemplo, deveriam ser pesquisados diversos eleitores, sendo que alguns grupos com certas características. Por exemplo, na amostra deveria ter 5 eleitores do sexo masculino, com idade entre 40 a 50 anos, renda per-capita de 80 mil dólares por ano, com curso superior. Assim, o pesquisador abordou um eleitor que parecia apresentar estas características. Este tipo de amostra é: ( ) casualizada ( ) sistemática ( ) estratificada ( ) por quotas ( ) por conveniência 7. Um médico deseja fazer uma pesquisa sobre diabetes e, assim, resolve trabalhar com somente os seus pacientes. Este tipo de amostra é: ( ) casualizada ( ) sistemática ( ) estratificada ( ) por conglomerados ( ) por conveniência Aula 3 – Séries estatísticas, dados absolutos e dados relativos Organização e agrupamento dos dados Importância da organização e do agrupamento dos dados Tabelas (séries estatísticas) Tipos de séries estatísticas Séries históricas, cronológicas, temporais ou marchas – quando há somente variação do tempo. Tabela 1. Ocorrência de Tuberculose na Clínica A, em função dos anos. Anos Quantidades de casos 1990 200 1995 270 2000 320 2005 410 2010 500 Séries geográficas, espaciais, territoriais ou de localização – quando há somente variação do local. Tabela 2. Quantidades de doentes com Aids, no ano de 2010, em alguns municípios do estado do Rio de Janeiro. Municípios Quantidades Niterói 4.500 Friburgo 2.500 Teresópolis 1.800 Petrópolis 1.200 Duque de Caxias 3.000 Séries específicas ou categóricas – quando há somente variação da espécie. Tabela 3. Quantidades de doentes com Aids, Câncer, Sífilis, Silicose e Tuberculose, no ano de 2.010, em Teresópolis. Doenças Quantidades Aids 1.800 Câncer 3.200 Sífilis 500 Silicose 200 Tuberculose 2.300 Séries conjugadas (tabelas de contingência ou tabelas de dupla entrada) – quando há variação de duas variáveis. Tabela 4. Quantidades de doentes no município de Niterói, em função do tempo e das doenças. Doenças 2000 2005 2010 Aids 3.000 3.800 4.500 Câncer 4.000 3.800 3.600 Sífilis 550 545 505 Tuberculose 1.000 1.600 2.400 Dados brutos (frequências absolutas) e dados relativos (frequências relativas) Dados brutos – são resultados de contagem Dados relativos – são resultados de uma relação entre dados brutos Na Tabela 4, Aids cresceu de 3.000, em 2.000, para 4.500 casos, em 2.010, ou seja, um crescimento absoluto de 1.500 casos e um crescimento relativo de 50%. Copiar do slide 8 ao 15 Resumo Tabelas (séries estatísticas) Tipos de séries estatísticas em função da espécie, local e tempo Dados absolutos e relativos Proporção, percentagem (porcentagem) Índices, coeficientes e taxas Simulados Simulados 1. Tabela 1. Tuberculose em função do tempo na cidade A. Anos Quantidades de doentes 2.000 500 2.005 650 2.010 800 Considerando-se o ano de 2.010 com relação ao 2.000, a opção correta é: ( ) série temporal com aumento percentual de 0,60% ( ) série categórica com aumento percentual de 60% ( ) série geográfica com aumento de 0,60% ( ) série temporal com aumento percentual de 60% ( ) série categórica com aumento de 0,60% 2. Tabela 2. Quantidades de doentes na cidade A, em 2008. Doenças Quantidades de doentes Tuberculose 5.000 Aids 2.000 Câncer 3.000 Considerando-se os valores, a opção correta é: ( ) série temporal com 60% de doentes com Câncer ( ) série categórica com 40% de doentes com Aids ( ) série geográfica com 40% de doentes com Aids ( ) série temporal com 40% de doentes com Aids ( ) série geográfica com 60% de doentes com Câncer Aula 4 – Organização de dados: dados isolados e agrupados sem intervalos de classes. Dados isolados Dados isolados relativos a número de filhos/família, em 50 famílias pesquisadas. 3 2 0 3 1 4 0 1 2 2 2 2 4 0 2 3 1 3 2 1 3 1 2 3 1 3 2 3 0 2 2 3 1 2 3 2 3 2 3 2 2 3 2 3 0 4 1 2 1 1 Dados agrupados em uma tabela de frequências sem intervalos de classes. Tabela 1. Número de filhos/família, em uma amostra de 50 famílias de Niterói, RJ, em 2010. Número de Filhos/família Classes (Xi) Número de famílias (fi) Frequência relativa (fr) Frequência relativa percentual (fr%) 0 5 0,10 10% 1 10 0,20 20% 2 18 0,36 36% 3 14 0,28 28% 4 3 0,06 6% Total 50 1,00 100% Gráfico de dados agrupados em uma tabela de frequências sem intervalos de classes. Gráfico 1. Número de filhos/família, em uma amostra de 50 famílias de Niterói, RJ, em 2010. Resumo Dados isolados Organização dos dados em uma tabela de frequências sem intervalos de classes Frequências absolutas e realtivas Gráfico dos dados de uma tabela de frequências sem intervalos de classes Simulados Simulados Tabela 2. Número de filhos/família, em uma amostra de 200 famílias de Niterói, RJ, em 2010. Número de Filhos/família Classes (Xi) Número de famílias (fi) Frequência relativa (fr) Frequência relativa percentual (fr%) 0 10 0,05 5% 1 50 0,25 25% 2 70 0,35 35% 3 40 0,20 20% 4 30 0,15 15% Total 200 1,00 100% Tabela3. Número de filhos/família, em uma amostra de 500 famílias de Niterói, RJ, em 2010. Número de Filhos/família Classes (Xi) Número de famílias (fi) Frequência relativa (fr) Frequência relativa percentual (fr%) 0 60 1 120 2 180 3 100 4 Total 40 500 Aula 5 – Organização de dados: dados agrupados em intervalos de classes. Dados isolados Dados isolados relativos a 80 alturas (m) de alunos de uma classe. 1,64 1,64 1,62 1,50 1,63 1,70 1,57 1,65 1,69 1,65 1,62 1,56 1,64 1,64 1,77 1,57 1,66 1,58 1,67 1,58 1,78 1,65 1,63 1,79 1,63 1,75 1,67 1,51 1,68 1,65 1,64 1,71 1,65 1,62 1,67 1,61 1,65 1,76 1,66 1,72 1,56 1,53 1,67 1,73 1,59 1,66 1,60 1,80 1,67 1,60 1,63 1,66 1,71 1,65 1,55 1,63 1,73 1,65 1,69 1,65 1,73 1,59 1,67 1,80 1,70 1,64 1,59 1,65 1,65 1,72 1,67 1,72 1,65 1,71 1,67 1,76 1,66 1,71 1,67 1,71 Copia o slide 4 Dados agrupados em uma tabela de frequências em intervalos de classes. Tabela 1. Tabela de frequências das alturas de 80 alunos de um classe. Classes ponto médio de classe Xi Frequência simples fi Freq. relativa fr Freq. relativa percentual fr% 1,50 |----- 1,56 4 1,56 |----- 1,62 12 1,62 |----- 1,68 40 1,68 |----- 1,74 16 1,74 |-----|1,80 8 Total 80 Dados agrupados em uma tabela de frequências em intervalos de classes. Tabela 1. Tabela de frequências das alturas de 80 alunos de um classe. Classes ponto médio de classe Xi Frequência simples fi Freq. relativa fr Freq. relativa percentual fr% 1,50 |----- 1,56 1,53 4 0,05 5% 1,56 |----- 1,62 1,59 12 0,15 15% 1,62 |----- 1,68 1,65 40 0,50 50% 1,68 |----- 1,74 1,71 16 0,20 20% 1,74 |-----|1,80 1,77 8 0,10 10% Total 80 1,00 100% Resumo Dados isolados Confecção de uma tabela de frequências em intervalos de classe Frequências absolutas, relativas e relativas percentuais Simulado Completar e discutir a tabela de frequências. Tabela 2. Tabela de frequências das alturas de 80 alunos de um classe. Classes ponto médio de classe Xi Frequência simples fi Freq. relativa fr Freq. relativa percentual fr% 1,50 |----- 1,58 4 1,58 |----- 1,66 12 1,66 |----- 1,74 40 1,74 |----- 1,82 16 1,82 |-----|1,90 8 Total 80 Aula 6 – Gráficos Principais tipos de gráficos Cartogramas – gráficos que apresentam informações utilizando mapas. Por exemplo, as condições do tempo no Brasil. Pictogramas – gráficos que utilizam imagens representativas dos temas abordados nas pesquisas efetuadas. Diagramas – gráficos que utilizam o sistema cartesiano para a sua confecção. Principais diagramas Gráficos em barras horizontais Gráficos em barras verticais (colunas) Gráficos em setores (pizzas) Gráficos em linhas Histogramas Polígonos de frequências Gráficos em barras horizontais Gráfico 1. Doentes em uma determinada cidade, em 2011. Gráficos em barras horizontais Gráfico 1. Doentes em uma determinada cidade, em 2011. Gráficos em barras verticais (colunas) Gráfico 1. Doentes em uma determinada cidade, em 2011. Gráficos em barras verticais (colunas) Gráfico 1. Doentes em uma determinada cidade, em 2011. Gráficos em setores (pizzas) Gráfico 1. Doentes em uma determinada cidade, em 2011. Gráficos em setores (pizzas) Gráfico 1. Doentes em uma determinada cidade, em 2011. Gráficos em linhas Gráfico 1. Evolução de uma doença na cidade A, segundo os anos. Gráficos em séries conjugadas Gráfico 1. Doentes em uma determinada cidade, em função dos anos. Gráficos em séries conjugadas Gráfico 1. Doentes em uma determinada cidade, em função dos anos. Gráficos em séries conjugadas Gráfico 1. Doentes em uma determinada cidade, em função dos anos. Gráficos em séries conjugadas Gráfico 1. Doentes em uma determinada cidade, em função dos anos. Histogramas Exemplo de um histograma. � Polígono de frequências Exemplo de um polígono de frequências. � Resumo Formas de apresentação de uma pesquisa Apresentação oral, escrita, figuras, slides, banner, filmes, figuras, fotografias, multimídia, tabelas e gráficos Principais tipos de gráficos: cartogramas, pictogramas e diagramas Aplicação e interpretação dos gráficos Aula 7 – Medidas de tendência central: dados isolados e agrupados sem intervalos de classes. Média, moda e mediana em dados isolados Mediana em dados isolados Mediana é o valor central de uma distribuição de dados ordenados. Como determinar a mediana – os valores são colocados em ordem crescente ou decrescente e a mediana será exatamente o valor central para número ímpar de elementos. Para número par de elementos, a mediana será obtida pela soma dos dois elementos centrais dividida por 2. Mediana em dados isolados Determinação da mediana para número ímpar de elementos: Exemplo 1: 2, 3, 5, 6, 8, 8, 9 - a mediana (Md ou Mi) será 6. Exemplo 2: 1, 3, 3, 4, 7, 8, 8, 9, 9. Md = 7 Exemplo 3: 7, 3, 1, 3, 9, 8, 9, 4, 9. Se não colocássemos os valores em ordem crescente ou decrescente, iríamos errar e determinar a mediana como se fosse o valor 9. Entretanto, devemos colocar os valores em ordem crescente: 1, 3, 3, 4, 7, 8, 8, 9, 9 e, assim, a mediana será determinada corretamente, ou seja, Md = 7. Moda em dados isolados Moda é o valor da variável de maior ocorrência. Se não houver nenhum valor de maior ocorrência, a distribuição é denominada amodal. Um único valor de maior ocorrência, a distribuição é denominada unimodal. Dois valores de maior ocorrência, a distribuição é denominada bimodal. Três valores de maior ocorrência, a distribuição é denominada trimodal. Mais de três valores de maior ocorrência, a distribuição é denominada polimodal. Distribuição amodal: 8, 5, 2, 4, 7, 3 (não existe valor que ocorre maior quantidade de vezes. Distribuição unimodal: 2, 4, 5, 3, 2, 1, 3, 2 (Mo = 2) Distribuição bimodal: 3, 5, 6, 6, 6, 3, 3, 5, 2, 1 (Mo = 3 e 6) Distribuição trimodal: 1, 4, 4, 4, 1, 1, 5, 6, 7, 7, 5, 5 (Mo = 1, 4, e 5) Média em dados isolados A média é denomina µ (mu) se for para a população e para a amostra é denominada (xis-barra). Existem diversos tipos de média, como a aritmética, a geométrica e a harmônica. No entanto, iremos trabalhar com a média aritmética que doravante a denominaremos de somente “média” A média da amostra é dada por: Esta média é denominada “média aritmética simples”, que é para dados apresentados sem frequências, ou seja, dados não agrupados. Média em dados isolados e propriedades da média Sejam as amostras: A: x1 = 8, x2 = 10 e x3 = 12. A = (8 + 10 + 12)/3 = 30/3 = 10. B: x1 = 16, x2 = 20 e x3 = 24. A = (16 + 20 + 24)/3 = 60/3 = 20. C: x1 = 4, x2 = 5 e x3 = 6. A = (4 + 5 + 6)/3 = 15/3 = 5. D: x1 = 10, x2 = 12 e x3 = 14. A = (10 + 12 + 14)/3 = 36/3 = 12. E: x1 = 6, x2 = 8 e x3 = 10. A = (6 + 8 + 10)/3 = 24/3 = 8. A:= (-2) + (0) + (2) = 0 Propriedades da média, da mediana e da moda A soma dos desvios dos valores em relação à média é nula, isto é, Somando-se a todos os valores uma constante, a média, a mediana e a moda ficarão somadas desta constante. Subtraindo-se de todos os valores uma constante, a média, a mediana e a moda ficarão subtraídos deste constante. Multiplicando-se todos os valores por uma constante, a média, a mediana e a moda ficarão multiplicados pela constante. Dividindo-se todos os valores por uma constante, a média, a mediana e a moda ficarão divididos pela constante. Relação entre a média, a mediana e a moda Média = mediana = moda distribuição simétrica Média maior do que a moda distribuição assimétrica positiva Média menor do que a moda distribuição assimétrica negativa Dados isolados e agrupados Consumo de latinhas de cerveja em uma amostra de 10 pessoas: 10, 5, 0, 0, 0, 20, 10, 0, 0, 5. Representação simples: x1 = 10, x2 = 5, x3 = 0, x4 = 0, x5 = 0, x6 = 20, x7 = 10, x8 = 0, x9 = 0, x10 = 5 = (10 + 5 + ...+ 5)/10 = 50/10 = 5 cervejas/pessoa. Representação por frequências: x1 = 10, f1 = 2, x2 = 5, f2 = 2, x3 = 0, f3 = 5, x4 = 20, f4 = 1 = = = 5 cervejas/pessoa. Neste caso, com frequências, a média é denominada “média aritmética ponderada”. Dados agrupados em uma tabela de frequências sem intervalos de classes. Tabela 1. Número de filhos/família, em uma amostra de 50 famílias de Niterói, RJ, em 2010. Número de Filhos/família Classes Número de famílias Frequências acumuladas 0 5 0 5 1 10 10 15 2 20 40 35 3 10 30 45 4 5 20 50 50 100 Dados agrupados em uma tabela de frequências sem intervalos de classes. Média = = = 2 filhos/família. Moda = 2 filhos/família Mediana = 2 filhos/família Resumo Medidas de tendência central (média, moda e mediana) Medidas de tendência central em dados isolados Distribuições simétrica e assimétrica Propriedades da média, da moda e da mediana Medidas de tendência central em dados agrupados Exercícios Exercício 1: são dadas as amostras abaixo: 1. Determinar a média, a moda e a mediana dos dados: 5, 3, 3, 7, 7. 2. Determinar a média, a moda e a mediana dos dados:: x1 = 10, f1 = 2, x2 = 5, f2 = 2, x3 = 20, f4 = 1 Exercício 2 – Determinar a média, a moda e a mediana da amostra. Tabela 3. Número de filhos/família, em uma amostra de 500 famílias de Niterói, RJ, em 2010. Número de Filhos/família Classes Número de famílias Frequências acumuladas 0 60 1 120 2 180 3 100 4 40 Total 500 Aula 8 – Medidas de tendência central: dados agrupados em intervalos de classes. Dados agrupados em uma tabela de frequências em intervalos de classes. Tabela 1. Tabela de frequências das alturas de 80 alunos de um classe. � Dados agrupados em uma tabela de frequências em intervalos de classes. Tabela 1. Tabela de frequências das alturas de 80 alunos de um classe. � Determinação da média aritmética ponderada (Tabela 1) Determinação da moda bruta (Tabela 1) Moda bruta – a moda bruta é o ponto médio da classe modal. Ponto médio da classe modal = (LI + LS)/2 = (1,62 + 1,68)/2 Ponto médio da classe modal = 3,30/2 = 1,65 m. A moda bruta será igual a 1,65 m (Mo = 1,65 m). Dados agrupados em uma tabela de frequências em intervalos de classes (Tabela 1) Determinação da moda pela fórmula de Czuber: Mo = LI + . IC, onde: LI é o limite inferior da classe modal, = (fmax. – fant.), = (fmax. – fpost) e IC = intervalo de classe. = (40 – 10) = 30 e = (40 – 20) = 20 LI = 1,62 e IC = 0,06 Determinação da moda pela fórmula de Czuber: Mo = LI + . IC, onde: LI é o limite inferior da classe modal, = (fmax. – fant.), = (fmax. – fpost) e IC = intervalo de classe. Mo = 1,62 + . 0,06 = 1,62 + .0,06 = 1,62 + 0,036 Mo = 1,656 m. Determinação da mediana: Md = LI + ( ). IC, onde: LI é o limite inferior da classe de referência, é a frequência acumulada anterior à classe de referência, é a frequência simples da classe de referência, IC é o intervalo de classe e a classe de referência é a classe cuja frequência acumulada seja imediatamente superior ao valor Determinação da mediana: Md = LI + ( ). IC Md = 1,62 + ( ) . 0,06 = 1,62 + ( ) . 0,06 Md = 1,62 + 0,7 . 0,06 = 1,62 + 0,042 = 1,662 m. Dados agrupados em uma tabela de frequências em intervalos de classes. Tabela 2. Tabela de frequências das alturas de 80 alunos de um classe. � Determinação da média aritmética ponderada (Tabela 2) A Tabela 2 é uma distribuição de dados simétrica e neste caso a média é exatamente igual ao valor do ponto médio da classe central. Determinação da moda bruta (Tabela 2) Moda bruta – a moda bruta é o ponto médio da classe modal. Ponto médio da classe modal = (LI + LS)/2 = (1,62 + 1,68)/2 Ponto médio da classe modal = 3,30/2 = 1,65 m. A moda bruta será igual a 1,65 m (Mo = 1,65 m). Dados agrupados em uma tabela de frequências em intervalos de classes (Tabela 2) Determinação da moda pela fórmula de Czuber: Mo = LI + . IC, onde: LI é o limite inferior da classe modal, = (fmax. – fant.), = (fmax. – fpost) e IC = intervalo de classe. = (50 – 10) = 40 e = (50 – 10) = 40 LI = 1,62 e IC = 0,06 Determinação da moda pela fórmula de Czuber: Mo = LI + . IC, onde: LI é o limite inferior da classe modal, = (fmax. – fant.), = (fmax. – fpost) e IC = intervalo de classe. Mo = 1,62 + . 0,06 = 1,62 + .0,06 = 1,62 + 0,03 Mo = 1,65 m. A distribuição é simétrica e, assim, a média = mediana = moda Determinação da mediana: Md = LI + ( ). IC, onde: LI é o limite inferior da classe de referência, é a frequência acumulada anterior à classe de referência, é a frequência simples da classe de referência, IC é o intervalo de classe e a classe de referência é a classe cuja frequência acumulada seja imediatamente superior ao valor Determinação da mediana: Md = LI + ( ). IC Md = 1,62 + ( ) . 0,06 = 1,62 + ( ) . 0,06 Md = 1,62 + 0,5 . 0,06 = 1,62 + 0,03 = 1,65 m. Valores obtidos da média, da mediana e da moda, nas Tabelas 1 e 2. Tabela 1: média (1,6665) > mediana (1,662) > moda (1,656), portanto a distribuição é assimétrica à direita. Tabela 2: média (1,65) = mediana (1,65) = moda (1,65), então a distribuição é simétrica. Determinação da moda e da mediana em tabelas especiais Tabela 3: as frequências anteriores e posteriores à classe modal são iguais. Neste caso, a moda será igual ao ponto médio da classe modal, ou seja, será igual à moda bruta. Tabela 4: a soma das frequências anteriores à classe de referência é igual à soma das frequências posteriores à classe de referência. Neste caso, a mediana será igual ao ponto médio da classe de referência. Dados agrupados em uma tabela de frequências em intervalos de classes. Tabela 3. Tabela de frequências das alturas de 80 alunos de um classe. � Determinação da média aritmética ponderada, da mediana e da moda (Tabela 3) Mo = LI + . IC = 1,62 + . 0,06 Mo = 1,62 + 0,5 . 0,06 = 1,62 + 0,03 = 1,650 m Mi = LI + .IC = 1,62 + . 0,06 = 1,62 + . 0,06 Mi = 1,62 + 0,026 = 1,646 mDados agrupados em uma tabela de frequências em intervalos de classes. Tabela 4. Tabela de frequências das alturas de 80 alunos de um classe. � Determinação da média aritmética ponderada, da mediana e da moda (Tabela 4) Mo = LI + . IC = 1,62 + . 0,06 Mo = 1,62 + 0,027 = 1,647 m Mi = LI + .IC = 1,62 + . 0,06 = 1,62 + . 0,06 Mi = 1,62 + 0,03 = 1,650 m Aula 9 – Medidas de dispersão ou de variabilidade IMPORTÂNCIA DAS MEDIDAS DE DISPERSÃO Vamos supor que iremos obter 15 amostras de sangue de Martha e, de modo a verificar a confiabilidade dos laboratórios A, B e C, diremos que são amostras de sangue de 5 pessoas diferentes. Deste modo, em cada laboratório informaremos que as amostras são de Kellen, Keila, Karla, Maria, Conceição. Depois de uma semana, obtemos os resultados e dos resultados determinamos a média, haja vista que os valores tratam-se da mesma pessoa, Martha, cujas médias estão contidas na Tabela 1. Tabela 1. Resultados das médias de exame de sangue da Martha, relativos a hemácias/mm3, com 5 nomes diferentes. Nomes Lab. A Lab. B Lab. C Kellen - - - Keila - - - Karla - - - Maria - - - Conceição - - - Médias 5,0 5,0 5,0 Há evidências para afirmar qual é o melhor laboratório e qual é o pior laboratório, conhecendo-se somente as médias? Tabela 1. Resultados de exame de sangue da Martha, relativos a hemácias/mm3, com 5 nomes diferentes. Nomes Lab. A Lab. B Lab. C Kellen 6,0 5,1 9,0 Keila 5,0 4,8 2,0 Karla 5,5 5,0 8,0 Maria 4,5 5,2 5,0 Conceição 4,0 4,9 1,0 Médias 5,0 5,0 5,0 Há evidências para se afirmar qual é o melhor e qual é o pior laboratório? Da Tabela 1, podem ser tiradas as seguintes conclusões: Não só a média é suficiente para mostrar a distribuição dos dados; b) Quanto menor a variação, mais confiáveis são os dados; Necessitamos de uma medida de variação (dispersão ou de variabilidade) para estudarmos a distribuição dos dados. Determinação da amplitude � Determinação do desvio médio absoluto � Relação entre a variância e o desvio padrão Existe uma relação entre a variância e o desvio padrão: A variância é o desvio padrão ao quadrado e o desvio padrão é a raiz quadrada positiva da variância. Se o desvio padrão vale 5, então a variância vale 25; se o desvio padrão vale 10, então a variância vale 100. Se a variância vale 16, então o desvio padrão vale 4; se a variância vale 9, então o desvio padrão vale 3. Se a variância vale 25 kg2, então o desvio padrão vale 5 kg; se o desvio padrão vale 10 kg, então a variância vale 100 kg2. Determinação da variância e do desvio padrão em população POPULAÇÃO A variância em população é representada por (2 (sigma-dois) e o desvio padrão por ( (sigma). (2 = e o desvio padrão ( é a raiz quadrada positiva da variância. Seja a população: X1 = 5, X2 = 4, X3 = 8, X4 = 2 e X5 = 6. Determine a média, a variância e o desvio padrão. Determinação da variância e do desvio padrão em amostra AMOSTRA A variância em amostra é representada por s2 (esse-dois) e o desvio padrão por s (esse). s2 = e o desvio padrão s é a raiz quadrada positiva da variância. Seja a amostra: X1 = 5, X2 = 2, X3 = 8, X4 = 2 e X5 = 8. Determine a média, a variância e o desvio padrão. Cálculo da média: = Cálculo da variância: S2 = = [(5-5)2 + (2-5)2 + (8-5)2 + (2-5)2 + (8-5)2]/(5-1) S2 = [(0)2 + (-3)2 + (3)2 + (-3)2 + (3)2] / 4 = 36/4 = 9. Cálculo do desvio padrão: S = = 3. Propriedades da variância e do desvio padrão AMOSTRAS Sejam as amostras: A x1 = 10, x2 = 8 e x3 = 12. Então s2 = 4 e s = 2. B x1 = 15, x2 = 13 e x3 = 17. Então s2 = 4 e s = 2. C x1 = 5, x2 = 3 e x3 = 7. Então s2 = 4 e s = 2. D x1 = 30, x2 = 24 e x3 = 36. Então s2 = 36 e s = 6. E x1 = 5, x2 = 4 e x3 = 6. Então s2 = 1 e s = 1. Propriedades da variância e do desvio padrão POPULAÇÃO/AMOSTRAS Propriedades da variância e do desvio padrão: Somando-se ou subtraindo-se a todos os valores uma constante, a variância e o desvio padrão não se alteram; Multiplicando-se ou dividindo-se todos os valores por uma constante, a variância ficará multiplicada ou dividida pelo quadrado da constante enquanto que o desvio padrão ficará multiplicado ou dividido pela constante. Variabilidade absoluta (s – desvio padrão) e variabilidade relativa (CV (%) – coeficiente de variação) Sejam as amostras: A B C D E s = 2 2 5 10 25 = 10 20 50 100 500 CV = 20% 10% 10% 10% 5% CV = CV(E) = Determinação da variância em uma Tabela de frequência para dados agrupados sem intervalos de classes. Tabela 1. Quantidades de filhos por família No. filhos/família Xi No. famílias fi Xi fi (Xi - )2.fi 0 10 0 (0 - 2)2.10 = 40 1 20 20 (1 - 2)2.20 = 20 2 40 80 (2 - 2)2.40 = 0 3 20 60 (3 - 2)2.20 = 20 4 10 40 (4 - 2)2.10 = 40 100 200 120 Determinação da variância em uma Tabela de frequência para dados agrupados sem intervalos de classes. Cálculo da média = 200/100 = 2. Cálculo da variância s2 = s2 = 120 / (100 – 1) = 120 / 99 = 1,21. Então, s = (desvio padrão) Determinação da variância em uma tabela de frequências para dados agrupados com intervalo de classe. Tabela 1. Tabela de frequências das alturas de 80 alunos de um classe. Classes Xi fi Xi fi (Xi - )2 fi 1,50 |--- 1,56 1,53 10 15,30 (1,53 - 1,65)2 10 1,56 |--- 1,62 1,59 20 31,80 (1,59 -1,65)2 20 1,62 |--- 1,68 1,65 40 66,00 (1,65 - 1,65)2 40 1,68 |--- 1,74 1,71 20 34,20 (1,71 -1,65)2 20 1,74 |---| 1,80 1,77 10 17,70 (1,77 -1,65)2 10 100 165,00 0,432 Determinação da variância em uma Tabela de frequência para dados agrupados com intervalos de classes. AMOSTRA Cálculo da média = 165/100 = 1,65. Cálculo da variância s2 = s2 = 0,432 / (100 – 1) = 0,432 / 99 = 0,0044. Então, s = (desvio padrão) Aula 10 – Noções de correlação Correlação linear simples e regressão linear simples Variável independente (x) Idade Regressão Regressão correlação peso altura Variável dependente (y) Variável dependente (y) Diagrama de dispersão Coeficiente de correlação linear positivo Coeficiente de correlação linear negativo Coeficiente de correlação linear perfeito e negativo Coeficiente de correlação linear perfeito e positivo Coeficiente de correlação nulo Coeficiente de correlação nulo ou próximo de zero Correlação curvilínea Correlação curvilínea Coeficiente de correlação linear simples - classificação e variação R => coeficiente de correlação linear simples de Pearson Campo de variação: -1 ≤ r ≤ 1. Se r = 0 (correlaçãolinear nula) r = 1 (correlação linear perfeita positiva) r = -1 (correlação linear perfeita negativa) 0 < r < 0,3 correlação linear muito fraca e positiva -0,3 < r < 0 correlação linear muito fraca e negativa 0,3 ≤ r 0,6 correlação linear fraca e positiva -0,6 < r ≤ -0,3 correlação linear fraca e negativa 0,6 ≤ r < 1 correlação linear forte e positiva -1 ≤ r ≤ -0,6 correlação linear forte e negativa r => coeficiente de correlação linear simples de Pearson Campo de variação: -1 ≤ r ≤ 1. Se r = 0 (correlação linear nula) Valor de r positivo – ambas as variáveis têm o mesmo sentido: var. 1 var. 2 var. 1 var. 2 ou Valor de r negativo – as variáveis têm sentidos contrários. Var. 1 var. 2 var. 1 var. 2 ou Coeficiente de correlação linear simples – fórmula para a sua determinação. Sejam os pares de variáveis dependentes. Determine r: x y 1 9 2 8 3 10 4 11 5 12 Coeficiente de correlação linear simples – fórmula para a sua determinação. x y ( x - ) (y - ) (x - ) (y - ) (x - )2 (y - )2 1 9 -2 -1 2 4 1 2 8 -1 -2 2 1 4 3 10 0 0 0 0 0 4 11 1 1 1 1 1 5 12 2 2 4 4 4 soma 0 0 9 10 10 Determinação do coeficiente de correlação linear simples de Pearson � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� _1555494594.unknown _1555689801.unknown _1555690035.unknown _1555691671.unknown _1555691820.unknown _1555691837.unknown _1555690066.unknown _1555690006.unknown _1555689726.unknown _1555689779.unknown _1555689712.unknown _1555494066.unknown _1555494436.unknown _1555494571.unknown _1555494416.unknown _1555493734.unknown _1555494027.unknown _1555493695.unknown
Compartilhar