Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 CURSO DE LICENCIATURA EM EDUCAÇÃO FÍSICA 1º PERÍODO SEMESTRE 2014/1 FUNDAMENTOS DE ESTATÍSTICA 1. Introdução A palavra “ESTATÍSTICA” significava, originalmente, um conjunto de informações reunidas sobre a população de pessoas e a Economia, que eram de interesse do Estado. O termo população hoje é mais abrangente, não se restringindo às pessoas. Atualmente a Estatística engloba as técnicas relacionadas à aplicação da teoria matemática para auxiliar e justificar cientificamente as tomadas de decisões em situações de incertezas. É inerente da Estatística o método de estudar uma população para fins da tomada de decisões, planejando experiências e efetuando investigações de maneira a obter, com maior rapidez, com mínimo custo e conhecida precisão, resultados capazes de permitir conclusões válidas. À Estatística não interessa unidades individuais, mas grupos, conjuntos ou agregados, porque seu objetivo é o estudo da chamada população. Em qualquer problema, a população pode ser pequena, grande, finita ou infinita, com uma ou mais características que podem ser estudadas. Ao número total de observações sobre uma população denomina-se “TAMANHO” e, no caso de um número finito de observações este é designado normalmente pela letra N. Assim podemos dizer que: Uma população consiste da totalidade das observações a partir das quais se deseja tomar uma decisão. Os métodos estatísticos interpretam as observações depois de transformadas em tabelas e gráficos. O processamento matemático destes métodos enfatiza os aspectos importantes dos valores associados às observações, descarta os valores díspares, ou seja, transforma números em informações. 2 O planejamento e a execução da pesquisa, a descrição e análise dos resultados, assim como a formulação de expectativas de ocorrências, com base nesses resultados, pertencem ao domínio da Estatística, em diversos campos de aplicação. De acordo com as circunstâncias, a Estatística é método ou ciência. Ela será considerada método quando, por exemplo, na Física, na Biologia, na Educação Física, na Medicina ou na Pedagogia, aplica-se a populações específicas, isto é, serve a uma ciência ou ramo profissional específico, isto é, se torna um instrumento. Ela é ciência quando, graças às suas teorias que lhe são próprias, estuda populações independentemente de sua natureza. A pesquisa estatística pode ser realizada sobre uma população finita ou infinita. Podemos observar todos os N elementos da população (se finita) ou apenas parte dela. No entanto nem sempre é viável observar todos os elementos de uma população, por vários motivos, mas principalmente por restrições de custo. Por esses motivos, normalmente retira-se uma parte da população, chamada de ”AMOSTRA”, esta de tamanho n < N, com as mesmas características da população. Dependendo da aplicação a Estatística abrange três campos: a Estatística Descritiva, o Cálculo das Probabilidades e a Inferência Estatística. A Estatística Descritiva se ocupa com a descrição, a organização e resumo das observações obtidas de uma população ou de uma amostra. Com ela são realizados cálculos, construídos gráficos e tabelas para auxiliar as interpretações. Em particular, a Estatística Descritiva pode responder, entre outras perguntas, qual o valor “típico” que caracteriza todas as observações, qual a expectativa de valor médio, qual a amplitude de variação dos valores. O Cálculo das Probabilidades avalia e quantifica os erros cometidos devido à caracterização da população ter sido construída a partir de uma amostra da mesma. O Cálculo das Probabilidades fornece uma base racional para lidar com situações influenciadas por fatores não controlados, relacionados com a acaso. O conhecimento das probabilidades fornece base para o desenvolvimento das técnicas da tomada de decisão. Mediante o auxílio das ferramentas da Estatística Descritiva e do Cálculo das Probabilidades, a Inferência Estatística interpreta, os resultados obtidos das amostras retiradas de uma população, fazendo uma estimativa de parâmetros da população ou um teste de hipótese sobre ela. 3 O relacionamento entre os campos da Estatística e o desenvolvimento de um estudo estatístico e a ação sobre uma população pode ser esquematizado como na Figura 1. FIG. 1 – Desenvolvimento de um estudo estatístico e ação sobre a população. POPULAÇÃO AMOSTRA ESTATÍSTICA DESCRITIVA CÁLCULO DE PROBABILIDADES INFERÊNCIA ESTATÍSTICA 4 2 – ESTATÍSTICA DESCRITIVA 2.1 – INTRODUÇÃO A Estatística Descritiva estuda a descrição das observações coletadas e permite fazer comentários simples a respeito delas, mas não se preocupa com a abrangência das interpretações dos resultados obtidos. A finalidade da Estatística Descritiva é descrever as variáveis em estudo de maneira informativa e significativa. 2.2 – APRESENTAÇÃO DOS DADOS Os dados coletados devem ser organizados e agrupados de forma que seu manuseio, visualização e compreensão sejam simplificados. Dispostos de forma adequada é possível detectar erros e inconsistências ocorridas durante um processo de coleta de dados. Assim é facilitado o processo de descarte de alguns dados incluídos nesta categoria. Seja por exemplo os dados que se referem às alturas dos alunos de turma de estudantes de Educação Física, expressas em centímetros. 168 172 170 181 169 173 164 175 182 177 176 173 170 186 183 170 168 166 169 180 175 164 181 179 172 169 174 171 178 166 Apresentados na forma de listagem, os dados são denominados DADOS BRUTOS; não foram ainda submetidos a qualquer tipo de tratamento. Assim como apresentados é difícil, determinar, por exemplo, se os valores estão concentrados ou dispersos e qual o menor ou o maior valor. Dispondo os dados em ordem crescente, ou seja, fazendo um ROL dos dados, tem-se uma idéia inicial do comportamento dos valores. A seguir apresentamos o Rol das alturas dos alunos citados no exemplo anterior: 164 164 166 166 168 168 169 169 169 170 170 170 171 172 172 173 173 174 175 175 176 177 178 179 180 181 181 182 183 186 Os dados agora possuem uma maior “comunicação” com o analista: ROL: Conjunto ordenado de valores, de modo crescente ou decrescente. 5 constata-se que das 30 observações o menor valor é 164 e o maior é 186; a diferença entre o maior valor e o menor valor é 22 que constitui a AMPLITUDE DE VARIAÇÃO ou simplesmente AMPLITUDE. Quando se realiza o tratamento de grandes quantidades de dados, é conveniente agrupá-los em um certo número de CLASSES. Alguns procedimentos devem ser observados na confecção das Classes, no entanto eles não são rígidos e sofrem adequações em função das características e peculiaridades do estudo que se está realizando: A – As Classes devem abranger todas as observações; B – O extremo superior de uma Classe é o extremo inferior da Classe subseqüente; C – Cada valor observado deve enquadra-se em apenas uma Classe; D – A quantidade de Classes, de modo geral, não deve ser inferior a 5 ou superior a 25; Um critério muito adotado para a determinação do número de classes é o chamado Critério de Oliveira, que recomenda: n = √N , para N ≤ 100 n = 5 log N , para N > 100 , onde: n = número de classes e N = número de observações. E – As Classes normalmente são consideradas intervalos fechados à esquerda e abertosà direita, ou seja, [Li , Ls) onde: Li = limite inferior da classe e Ls = limite superior da classe. Por exemplo, podemos agrupar os dados anteriormente apresentados, de acordo com uma faixa de alturas. 1º - Elaboramos o Rol dos dados coletados. 164 164 166 166 168 168 169 169 169 170 170 170 171 172 172 173 173 174 175 175 176 177 178 179 180 181 181 182 183 186 6 2º - Determinamos a amplitude (A). A = Maior valor – Menor valor A = 186 – 164 → A = 22 3º - Determinamos o número de classes. n = √30 → n = 5,47 como o número de classes é inteiro, usaremos a princípio n = 6 4º - Determinamos o tamanho “c” de cada classe (amplitude da classe). Para a determinação do tamanho de cada classe, utilizamos a expressão a seguir: C = A / (n-1) assim, teremos: C = 22 / (6-1) C = 4,4 Como as alturas foram tomadas em números inteiros, deve-se fixar os limites das classes também em números inteiros. Portanto, usaremos C = 5 5º - Determinamos o limite inferior da primeira classe e posteriormente construímos as demais. Li1 = menor valor – (C/2) Li1 = 164 – (5/2) Li1 = 164 – 2,5 → Li1 = 161,5 → Li1 = 162 Para o nosso exemplo foram então determinadas as seguintes classes. [162 --- 167) [167 --- 172) [172 --- 177) [177 --- 182) [182 --- 187) [187 --- 192) Podemos verificar que as cinco primeiras classes englobam todas as observações, assim a última classe poderá ser descartada. 7 A Tabela 1 apresenta a Distribuição de freqüência das alturas dos alunos Tabela 1. Distribuição de freqüência absoluta e relativa das alturas dos alunos do 1º Período de Licenciatura em Educação Física. Classes Tabulação Frequências absolutas Frequências relativas 162| --- 167 |||| 4 0,13 (13%) 167| --- 172 ||||||||| 9 0,30 (30%) 172| --- 177 |||||||| 8 0,27 (27%) 177|----182 182| --- 187 |||||| ||| 6 3 0,20 (20%) 0,10 (10%) Total 30 1,00 (100%) Nota: A forma de escrever a classe 162| --- 167 é equivalente a [162 --- 167). A construção de uma distribuição de freqüência de uma forma geral pode seguir a sequência descrita abaixo: 1º) Organizar os dados Dados brutos → dados elaborados (rol) 2º) Calcular a amplitude total A = (maior valor observado – menor valor observado) 3º) Calcular o número de classes N menor ou igual a 100 → n = √N N maior que 100 → n = 5 logN 4º) Calcular a amplitude de classes (C) C = A / (n – 1) 8 5º) determinar o limite inferior da primeira classe e posteriormente construir as demais classes Li1 = (menor valor da amostra) – (C/2) Onde C é a amplitude de classes Exercício 1) Abaixo são relacionados os salários semanais (em Reais) de 60 operários de uma associação esportiva. 110 120 125 136 145 150 165 172 180 185 110 120 125 140 145 155 165 172 180 190 115 120 130 140 145 158 168 175 180 190 115 120 130 140 147 158 168 175 180 195 117 120 130 140 150 160 170 175 180 195 117 123 135 142 150 163 170 178 185 198 a) Construir uma tabela de distribuição de freqüências adequada para os dados apresentados. b) Interpretar os valores da terceira classe. 9 2.3 – MEDIDAS ESTATÍSTICAS Neste curso estudaremos dois tipos fundamentais de medidas estatísticas: as medidas de tendência central e as medidas de dispersão. As chamadas medidas de tendência central identificam o valor representativo em torno do qual os dados tendem a se agrupar, com maior ou menor freqüência. As medidas de dispersão mostram o grau de afastamento dos valores observados em relação àquele valor representativo. 2.3.1 – MEDIDAS DE TENDÊNCIA CENTRAL 2.3.1-1 – Média Aritmética (X): É a soma de todos os valores observados divididos pelo número total de observações. X = (x1 + x2 + x3 + ... + xn) / N Onde xi, são os valores observados e N o número total de observações. 2.3.1-2 – Média Aritmética Aparada ou Média Aparada: É a média aritmética calculada com a exclusão de elementos discrepantes do conjunto observado. Normalmente são os valores extremos ou valores que claramente denotam um equívoco na apuração do dado. 2.3.1-3 – Média aritmética de dados agrupados (Xa): É calculada quando os dados são apresentados em uma tabela de distribuição de freqüência. Nesta situação normalmente os valores dos dados observados não são conhecidos. Xa = (Pm1.f1 + Pm2.f2 + Pm3.f3 + ... Pmn.fn) / N Onde Pmi são os valores do ponto médio da classe considerada e fi os valores da freqüência absoluta da classe considerada. 10 2.3.1-4 – Mediana (Md): É o valor central de um conjunto “N” ordenado de valores (rol); se “N” é impar, a mediana é única; se “N” é par a mediana é a média aritmética dos dois valores centrais do conjunto. 2.3.1-5 – Moda (Mo): É o valor que apresenta a maior freqüência em um conjunto de observações. 2.3.1-6 – Ponto médio da classe (Pm): É a média entre os limites de uma classe. Neste caso os limites da classe são os números que delimitam a classe, e não os valores que fazem parte da classe. Pm = ( Li + LS ) / 2 2.3.1-7 – Ponto médio da amostra (PmA): É a média aritmética entre o menor e maior valor observado da amostra. PmA = ( menor valor + maior valor ) / 2 11 2.3.2 – MEDIDAS DE DISPERSÃO As medidas de dispersão servem para verificarmos a representatividade das medidas de posição, pois é muito comum encontrarmos séries que, apesar de terem a mesma média, são compostas de maneira distinta. Assim, por exemplo, para as séries de valores “a” e “b” apresentadas a seguir: a) 25, 28, 31, 34, 37 b) 17, 23, 30, 39, 46 temos xa = xb = 31 No entanto nota-se que os valores da série “a” estão mais concentrados em torno da média 31, do que os valores da série “b”. É importante, portanto medir a dispersão (“espalhamento”) dos dados em torno da média, para isto utilizaremos as medidas de dispersão. 2.3.2-1 – Desvio Padrão O Desvio Padrão é a raiz quadrada positiva da média aritmética dos quadrados das diferenças entre cada valor e a média aritmética do conjunto e é denotada pela letra grega σ (sigma). Assim, Se os dados estiverem agrupados em uma distribuição de freqüência, o caçulo será feito da forma abaixo apresentada. N 12 NOTA: Lembrar que nesta forma de cálculo Xi é o valor médio da classe e fi a freqüência da mesma. 2.3.2-2 – Coeficiente de variação: Trata-se de uma medida de dispersão, útil para a compreensão em termos relativos do grau de concentração em torno da média de séries distintas. É dado por: Cv = ( σ / X ) .100 13 3 – GRÁFICOS ESTATÍSTICOS O gráfico estatístico é uma forma de se apresentar os dados estatísticos, cujo objetivo é produzir uma compreensão mais rápida do fenômeno em estudo, seucomportamento e suas tendências, uma vez que a linguagem visual é mais facilmente assimilada do que as séries numéricas. Para que um gráfico cumpra a sua função, alguns requisitos devem ser observados: - O gráfico deve ser simples, não fazendo uso excessivo de traços e informações secundárias que venham a confundir o observador; - O gráfico deve possibilitar uma correta compreensão e interpretação dos valores representados; - Os dados representados graficamente devem expressar fidelidade ao estudo que se está realizando. 3.1- TIPOS DE GRÁFICOS 3.1.1 – Gráfico de Colunas: O gráfico de colunas é representado em um plano por meio de retângulos. A base do retângulo situa-se no eixo horizontal, e a altura corresponde a um valor proporcional ao que ela representa. Seja por exemplo, a representação através de um gráfico de colunas, de um levantamento estatístico sobre o número de filhos em uma amostra de famílias. Número de famílias 16 13 10 7 4 1 Número de filhos 0 1 2 3 4 5 14 3.1.2 – Gráfico de Barras: O gráfico de barras é representado em um plano por meio de retângulos onde a base de cada um deles situa-se no eixo vertical, e o comprimento do retângulo corresponde a um valor proporcional ao que ele representa. Número de filhos 5 4 3 2 1 0 Número de famílias 1 4 10 13 16 3.1.3 – Histograma: O histograma é o gráfico utilizado para representar uma distribuição de freqüência. Na elaboração de um histograma, constroem-se retângulos cujas bases coincidem com as classes, e a altura de cada retângulo representa a freqüência da classe correspondente. Seja por exemplo, a amostra de alturas de uma turma de estudante. Frequência 18 12 6 3 2 140 150 160 170 180 190 Altura (cm) 15 3.1.3 – Polígono de Frequências: Com base no histograma, é possível construir um polígono de freqüências. O polígono é determinado unindo-se os pontos médios da parte superior de cada retângulo e prolongando-se a linha até pontos médios de uma classe anterior à primeira considerada e de uma classe posterior à última considerada, as quais a freqüência é zero. Frequência 18 12 6 3 2 140 150 160 170 180 190 Altura (cm) 3.1.4 – Gráfico de setores: Na elaboração de um gráfico de setores, dividimos um círculo em setores circulares, com ângulos de medidas proporcionais às freqüências das classes. Exemplo: Considerando todas as edições dos jogos Pan-Americanos, o Brasil conquistou um total de 923 medalhas. Destas, 239 foram medalhas de ouro, 283 de prata e 401 de bronze. Faça uma representação destes dados através de um gráfico de setores. Resolução: 923 medalhas correspondem a todo o círculo, ou seja, 360°, a partir desta definição determinamos todos os setores proporcionalmente à freqüência de cada classe. Medalhas de ouro: 239 923 --------------- 360° X° 239 x 360° 239 --------------- X° 923 Assim, teremos: X° = 93,2° , correspondendo a 25,9 % do total de medalhas. Medalhas de prata: 283 923 --------------- 360° X° 283 x 360° 283 --------------- X° 923 Assim, teremos: X° = 110,4° , correspondendo a 30,7 % do total de medalhas. 16 Medalhas de bronze: 401 923 --------------- 360° X° 401 x 360° 401 --------------- X° 923 Assim, teremos: X° = 156,4° , correspondendo a 43,4 % do total de medalhas. Gráfico de Setores ouro bronze prata 3.1.5 – Gráfico de Segmento: O gráfico de segmento apresenta a variação de um fato ou ocorrência ao longo do tempo. Os pontos assinalados no plano correspondentes à ocorrência no instante especificado, em seguida são ligados por segmentos estabelecendo-se o gráfico. Seja o gráfico que apresenta a evolução do Índice de Desenvolvimento Humano (IDH) do Brasil de 1975 a 2005. 0,700 0,649 1975 1980 1985 1990 1995 2000 2005 Evolução do IDH no Brasil ao longo dos anos 25,9% 30,7% 43,4% 0,789 0,800 0,753 0,789 0,685
Compartilhar