Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA APLICADA AULA 2 Profa. Aline Purcote 2 CONVERSA INICIAL Cada ferramenta fornece um tipo de informação, e o seu uso depende, geralmente, do tipo de variável que está sendo investigada. Ao realizar uma pesquisa nos deparamos com dois tipos de variáveis, que são características observadas e que podem assumir diferentes valores. Estes valores devem ser organizados em um conjunto de dados de maneira prática e racional. Mas como fazer isso para facilitar a geração de informações? É importante conhecermos os principais tipos de tabelas, gráficos e medidas para realizar uma boa análise descritiva dos dados. Desta forma, vamos verificar como os dados se distribuem e quais observações são mais frequentes. Na aula 1 verificamos que há vários tipos de tabelas para apresentação de dados, e uma delas é a tabela de distribuição de frequência. Mas o que é uma tabela de distribuição de frequência, e como ela auxilia na apresentação dos dados? Nesta aula vamos classificar e contextualizar os tipos de variáveis, definir dado bruto, rol e frequência, e construir tabelas de distribuição de frequência. CONTEXTUALIZANDO Você já realizou uma pesquisa? Já participou de uma respondendo a um questionário? Recorda-se das perguntas realizadas? Em uma pesquisa encontramos diversas variáveis, e obtemos diferentes dados para gerar informações que serão base para tomada de decisão. Por exemplo, podemos utilizar em uma pesquisa um questionário para coleta de dados, com perguntas referentes a características como sexo, grau de instrução e estado civil, e outras que denotam quantidade, como idade e número de filhos. Ao finalizar a coleta destes dados, eles ainda não se encontram prontos para análise; desta maneira, não conseguimos obter muitas informações com uma simples análise. Para facilitar a geração de informação, podemos apresentar os dados de diferentes formas, e uma delas é a tabela de distribuição de frequência, que constitui o tipo de tabela mais importante para a Estatística Descritiva. 3 TEMA 1 – VARIÁVEIS Na descrição ou análise de um conjunto de dados estatísticos, podemos associar certos tipos de variáveis que podem assumir diferentes valores numéricos ou não numéricos. Estas variáveis podem ser classificadas em variáveis qualitativas e variáveis quantitativas. Variáveis qualitativas As variáveis qualitativas estão associadas a características que denotam qualidade ou atributo, portanto, uma característica não numérica. Exemplos: Sexo: masculino ou feminino; Cor dos olhos: castanhos, verdes etc.; Desempenho de funcionários: ótimo, bom, ruim; Qualidade dos produtos: defeituoso ou perfeito; Grau de instrução; Estado civil. Quando uma variável qualitativa apresentar uma ordenação natural com intensidades crescentes de realização, chamamos de qualitativas ordinais. Caso não ocorra uma ordem natural entre seus valores, são classificadas como qualitativas nominais. Qualitativas ordinais: classe social: baixa, média ou alta; grau de instrução. Qualitativas nominais: sexo: masculino ou feminino; cor dos olhos: castanhos, verdes etc. Variáveis quantitativas As variáveis quantitativas estão associadas a valores numéricos; representam contagens ou medidas. Exemplos: Altura; Peso; Idade; Número de irmãos; Número de filhos; Número de carros. 4 As variáveis quantitativas podem ser classificadas em discretas, quando se trata de contagem e números inteiros, ou em contínuas, quando tratamos de medidas. Quantitativa discreta: número de irmãos, número de filhos, número de carros (0, 1, 2, ...). Quantitativa contínua: altura ( 1,55m, 1,80m, 1,73m...), peso. Desta forma as variáveis podem receber as seguintes classificações: TEMA 2 – DADO BRUTO, ROL, FREQUÊNCIA Em uma pesquisa, após a fase de coleta dos dados, obtemos os dados originais que precisam ser organizados para realização de análises; a estes dados chamamos de dados brutos. Segundo Castanheira (2010), dados brutos são a relação dos resultados obtidos em uma pesquisa e que foram transcritos aleatoriamente, ou seja, fora de qualquer ordem. Vamos supor que uma pesquisa foi realizada em uma turma em relação à idade de cada aluno. O primeiro aluno pesquisado possui 14 anos, o segundo 15 anos e assim sucessivamente, até o último aluno da turma, obtendo-se assim os seguintes resultados: 14 15 16 17 18 19 14 15 16 17 14 15 16 14 15 16 15 16 15 15 Com os dados brutos temos interesse em saber qual a idade que mais aparece nesta turma, mas uma simples verificação dos dados obtidos nesta 5 pesquisa, transmite pouca informação. Desta forma podemos organizar os dados para facilitar a sua interpretação. A organização dos dados em ordem numérica, crescente ou decrescente recebe o nome de rol. Colocando os dados brutos obtidos em nossa pesquisa em ordem crescente temos o seguinte rol: 14 14 14 14 15 15 15 15 15 15 15 16 16 16 16 16 17 17 18 19 Agora ficou mais fácil verificar a idade que mais aparece nesta turma, pois utilizamos o rol, que facilitou a nossa análise; no entanto, podemos melhorá-la ainda mais agrupando os valores iguais. Ao número de vezes que um mesmo número se repete, denominamos de frequência. Frequência ou frequência absoluta (f) é o número de vezes que um mesmo resultado acontece na pesquisa, isto é, quantas vezes que um mesmo valor se repete. Em nosso exemplo, temos a idade 14 anos se repetindo 4 vezes, e isso significa que esta idade possui frequência igual a 4. O mesmo ocorre com a idade 15 anos, que possui frequência igual a 7; a idade 16 anos possui frequência igual a 5; a idade 17 anos, frequência igual a 2; e as idades 18 e 19 anos aparecendo uma única vez com frequência igual a 1. Mas o que isso significa? Nossa pesquisa foi realizada em uma turma em relação à idade de cada aluno, por isso dissemos que 4 alunos possuem idade igual a 14 anos, 7 anos possuem idade igual a 15 anos, e assim sucessivamente para as demais idades apresentadas na pesquisa. Voltando à nossa pergunta inicial, qual a idade que mais aparece nesta turma? Verificando a frequência, temos que a idade 15 anos possui frequência igual a 7, ou seja, 7 alunos possuem 15 anos. Desta forma, 15 anos é a idade que mais aparece na turma pesquisada. TEMA 3 – DISTRIBUIÇÃO DE FREQUÊNCIA Já definimos dado bruto, rol e frequência, e verificamos como a frequência facilita nossa interpretação e análise; porém, a frequência pode ainda ser organizada em uma tabela chamada de distribuição de frequência. Distribuição de frequência é a apresentação dos resultados de uma pesquisa por meio de uma tabela que mostra a frequência de ocorrência de cada 6 resultado. É uma forma de representação da frequência de cada valor distinto da variável em estudo. Voltando à pesquisa realizada em uma turma em relação à idade de cada aluno, tínhamos os seguintes dados brutos e rol: Dados Brutos: 14 15 16 17 18 19 14 15 16 17 14 15 16 14 15 16 15 16 15 15 Rol: 14 14 14 14 15 15 15 15 15 15 15 16 16 16 16 16 17 17 18 19 Após o rol, verificamos a frequência que cada dado apareceu na pesquisa, e agora colocaremos esta informação em uma tabela que contém duas colunas: a primeira com os dados apresentados na pesquisa, e na segunda a frequência com que cada dado aparece. Em nossa pesquisa, os dados referem-se às idades, desta forma temosa seguinte distribuição de frequência: Idade Frequência (f) 14 4 15 7 16 5 17 2 18 1 19 1 Além das frequências simples, podemos incluir na tabela de distribuição a frequência acumulada e a frequência relativa. A frequência absoluta acumulada ou apenas frequência acumulada (fa) é o somatório das frequências. Para calcular a frequência acumulada repetimos o primeiro valor e somamos com o próximo até a última frequência. Vamos verificar na tabela abaixo o cálculo da frequência acumulada com base no nosso exemplo: 7 Idade Frequência (f) fa 14 4 4 15 7 11 16 5 6 17 2 18 18 1 19 19 1 20 Observe que o valor encontrado na frequência acumulada sempre é igual à quantidade de dados que temos na pesquisa. Se contarmos a quantidade de valores fornecidos no dado bruto, temos 20 dados, que é exatamente o valor final que encontramos. Atrelado ao conceito de frequência absoluta, temos o conceito de frequência relativa (fr) de uma variável, que é o quociente entre a frequência absoluta (f) e o número de elementos (N) da amostra, ou seja: N f f r Em que N = f , isto é, N é igual à soma das frequências. A frequência relativa frequentemente é representada na forma de porcentagem, facilitando a interpretação e gerando informações importantes que facilitam a análise dos dados. Em nosso exemplo temos N = 20; assim calculamos a frequência relativa dividindo cada frequência por 20, e depois multiplicando o valor por 100 para encontrarmos o resultado em porcentagem. Se somarmos as porcentagens encontradas, o valor final será sempre 100%. Idade Frequência (f) fr 14 4 4/20 = 0,20 x 100 = 20% 15 7 7/20 = 0,35 x 100 = 35% 16 5 5/20 = 0,25 x 100 = 25% 17 2 2/20 = 0,10 x 100 = 10% 18 1 1/20 = 0,05 x 100 = 5% 19 1 1/20 = 0,05 x 100 = 5% 100% 8 Com a tabela de distribuição de frequência com frequência acumulada e relativa podemos realizar várias análises que ajudam em nossa tomada de decisão. Em nosso exemplo podemos ter as seguintes perguntas: Quantos alunos possuem idade menor ou igual a 16 anos? Qual a porcentagem de alunos que possuem idade menor ou igual a 16 anos? Qual a idade que aparece com maior porcentagem? Para responder às perguntas, vamos analisar as tabelas de frequência acumulada e relativa que elaboramos acima. Quantos alunos possuem idade menor ou igual a 16 anos? Para responder esta pergunta, analisamos a tabela da fa. Se queremos alunos que possuem idade menor ou igual a 16 anos, significa que os alunos podem ter 14, 15 e 16 anos; verificando a frequência acumulada, temos um total de 16 alunos (4+7+5 =16), conforme a tabela a seguir: Idade Frequência (f) Fa 14 4 4 15 7 11 16 5 16 17 2 18 18 1 19 19 1 20 Qual a porcentagem de alunos que possuem idade menor ou igual a 16 anos? Como a pergunta solicita porcentagem, vamos utilizar a tabela de frequência relativa. Se queremos alunos que possuem idade menor ou igual a 16 anos, significa que os alunos podem ter 14, 15 e 16 anos; somando a frequência relativa, temos um total de 80% (20%+35%+25% = 80%), ou seja, 80% da turma possui idade menor ou igual a 16 anos, conforme a tabela que segue: 9 Idade Frequência (f) Fr 14 4 4/20 = 0,20 x 100 = 20% 15 7 7/20 = 0,35 x 100 = 35% 16 5 5/20 = 0,25 x 100 = 25% 17 2 2/20 = 0,10 x 100 = 10% 18 1 1/20 = 0,05 x 100 = 5% 19 1 1/20 = 0,05 x 100 = 5% 100% Qual a idade que aparece com maior porcentagem? Novamente utilizamos a frequência relativa, pois foi solicitada a porcentagem de alunos que aparecem com maior frequência. Para encontrar o resultado, verificamos qual a idade que apresenta maior porcentagem – que neste caso é 15 anos – e que representa 35% dos alunos. Observe: Idade Frequência (f) fr 14 4 4/20 = 0,20 x 100 = 20% 15 7 7/20 = 0,35 x 100 = 35% 16 5 5/20 = 0,25 x 100 = 25% 17 2 2/20 = 0,10 x 100 = 10% 18 1 1/20 = 0,05 x 100 = 5% 19 1 1/20 = 0,05 x 100 = 5% 100% Até o momento construímos uma distribuição de frequência para uma pesquisa com variáveis quantitativas, mas podemos elaborar uma distribuição para uma variável qualitativa utilizando os mesmos procedimentos realizados até o momento. Por exemplo, consideramos uma pesquisa que pretende conhecer a preferência de cor de um determinado grupo. Após a coleta de dados foram obtidos os seguintes dados brutos (Fonte: <http://www.ebah.com.br/content/ABAAAelsYAD/resumo-bioestatistica>): 10 Azul Rosa Preto Azul Azul Rosa Rosa Preto Azul Preto Rosa Preto Rosa Rosa Amarelo Azul Rosa Azul Preto Rosa Neste exemplo temos as cores: azul, rosa, preto e amarelo, e um total de 20 dados, ou seja, foram pesquisadas 20 pessoas. Com estas informações verificamos quantas vezes cada cor aparece na pesquisa, e após isso construímos a distribuição de frequência para a variável cor preferida: Cor Frequência Azul 6 Rosa 8 Preto 5 Amarelo 1 Total 20 Com base na distribuição de frequência verificamos a cor preferida do grupo, e podemos calcular a frequência acumulada e relativa. TEMA 4 – DISTRIBUIÇÃO DE FREQUÊNCIA POR CLASSE Imagine realizarmos uma pesquisa em relação à idade de um grupo de 1.000 pessoas. Quantas idades diferentes podem aparecer? Neste caso, se utilizarmos a tabela de distribuição de frequência vista anteriormente, teremos muitas linhas que equivalem às idades diferentes que aparecerão na pesquisa. Segundo Castanheira (2010), quando o número de resultados obtidos em uma pesquisa é demasiadamente grande, é comum agruparmos esses resultados em faixas de valores, denominadas de classes ou intervalos. Você já respondeu a alguma pesquisa em que não é perguntada a sua idade, mas sim a faixa de idade à qual você pertence? Por exemplo, não 11 respondemos que temos 25 anos, mas sim que temos entre 20 a 30 anos de idade. Suponha que a tabela abaixo demonstre a distribuição de frequência da idade de um grupo de 100 pessoas: Verificamos que esta tabela possui, na primeira coluna, faixas de valores, e não apenas um valor como a distribuição de frequência trabalhada anteriormente. Assim, ela recebe o nome de distribuição de frequência por classe ou intervalos. Vamos entender como funciona esta distribuição: Classe – é o intervalo do grupo. A tabela indica que 20 pessoas têm entre 0 e 10 anos e 40 pessoas têm entre 20 e 30 anos. O primeiro grupo é a primeira classe (de zero a 10), a segunda linha é a segunda classe (10 a 20), e assim por diante. Esta tabela é formada por 4 classes. Limites de um intervalo ou classe – são os números extremos de cada intervalo ou classe. Aos valores à esquerda de cada classe, damos o nome de Limite inferior (Li), e os valores à direita, chamamos de Limite superior (Ls) das classes ou intervalos. Desta maneira, na primeira classe temos: 0 – Limite inferior 10 – Limite superior O símbolo ├ representa que a classe ou intervalo é fechado à esquerda, ou seja, o limite inferior pertence ao intervalo e, se aberto à direita, o limite superior não pertence ao intervalo. Em nosso exemplo o limite inferior está incluído na classe e o limite superior não. Vamos verificar a segunda classe 10|--- 20, o 10 faz parte da segunda classe e não da primeira; já o 20 não faz parte da segunda classe, mas está sendo considerado como sendo da terceira classe. Qualquer que seja a idade, ela se encaixa em apenas um dosintervalos. Ao subtrair o limite superior do Limite inferior de determinada classe ou intervalo, temos a Amplitude do Intervalo ou classe (A): 12 A = Ls –Li Por exemplo, na segunda classe temos uma amplitude igual a 10, ou seja, A = 20 – 10 = 10. Se calcularmos a amplitude para as demais classes observamos que todas as classes têm a mesma amplitude, então, na distribuição de frequência apresentada as classes têm amplitude igual a 10, ou seja, A = 10. Quando trabalhamos com uma distribuição de frequência por classe ou intervalo, assumimos que para todo intervalo o resultado é um valor único igual ao ponto medido do respectivo intervalo. O Ponto Médio da Classe ou intervalo (Pm) é a soma do Limite superior (Ls) com o Limite Inferior (Li) dividido por 2, ou seja, o ponto médio é o valor que está no meio do intervalo: 2 LiLs Pm Considerando a primeira classe do nosso exemplo, temos o seguinte ponto médio: 5 2 010 2 LiLs Pm Utilizando a mesma fórmula encontramos o ponto médio das demais classes: A distribuição de frequência por classe ou intervalos facilita na representação de uma grande quantidade de dados, mas vale lembrar que quando agrupamos os dados em faixa de valores não conseguimos ter a frequência exata de dados apenas da faixa de valores. Ao resumir os valores individuais em intervalos ou classes, estamos conscientes de que algum erro pode estar sendo inserido. 13 TEMA 5 – NÚMERO DE CLASSES OU INTERVALOS Já estudamos os principais conceitos de uma distribuição de frequência por classe ou intervalos; e como determinar a quantidade de intervalos? Como construir uma distribuição de frequência por classe? Para construção de uma Distribuição de Frequência por classes ou intervalos seguimos algumas etapas que vão auxiliar na geração da tabela e apresentação dos resultados: 1. Colocar os valores obtidos em ROL; 2. Calcular a amplitude total = maior valor – menor valor; 3. Determinar número de classes: não há uma fórmula exata, mas podemos utilizar os seguintes métodos: Número de Classes = Método de Sturges: i = 1+3,3.log n , em que n é o número total de observações. 4. Determinar a amplitude da classe: 5. Construir a Distribuição de Frequência por Intervalo de Classe. Recomenda-se que o número mínimo de intervalos seja igual a 5 e o número máximo igual a 20, o que facilita a construção da tabela com um mínimo de precisão e de informação. Lembrando que todos os intervalos precisam ter o mesmo tamanho, ou seja, a mesma amplitude. Vamos considerar os seguintes dados coletados em uma pesquisa referente à idade de um grupo de funcionários de uma determinada empresa e construir uma tabela de distribuição por classe. Dados Brutos: 24 23 22 28 35 21 23 23 33 34 24 21 25 36 26 22 30 32 25 26 33 34 21 31 25 31 26 25 35 33 Amostra 14 1. Colocar os valores obtidos em ROL: 21 21 21 22 22 23 23 23 24 24 25 25 25 25 26 26 26 28 30 31 31 32 33 33 33 34 34 35 35 36 2. Calcular a amplitude total = maior valor – menor valor: Verificamos no rol qual o maior e o menor valor encontrado nesta pesquisa e depois subtraímos para encontrar a amplitude total. Maior valor = 36 Menor valor = 21 Amplitude total = 36 – 21 = 15 3. Determinar número de classes: temos dois métodos e podemos escolher um deles para aplicação, em nosso exemplo vamos resolver das duas formas para verificar as diferenças no cálculo: Número de Classes = No exemplo, a amostra é igual a 30, que é a quantidade de dados apresentada nos dados brutos. Número de Classes = Método de Sturges: i = 1+3,3.log n, em que n é o número total de observações. No exemplo, temos n = 30, assim aplicamos a fórmula: i = 1+3,3.log n i = 1+3,3.log 30 i = 1+3,3.1,47712 i = 1+ 4,87450 i = 5,87450 = 6 Nos dois métodos arredondamos o valor obtido para o inteiro mais próximo à maior, e obtemos o mesmo número de classes, assim nossa distribuição vai conter 6 classes. 4. Determinar a amplitude da classe: para o cálculo precisamos da amplitude total e o número de classe já calculados nos passos 2 e 3: Amostra 647723,530 15 Amplitude total = 15 Número de Classes = 6 35,2 6 15 A Sempre que a divisão resultar em um número não inteiro, arredondar para o inteiro mais próximo e maior que o encontrado na divisão. Desta forma nossa distribuição terá uma amplitude de classe igual a 3. 5. Construir a Distribuição de Frequência por Intervalo de Classe: para construção da distribuição utilizaremos o rol e a amplitude da classe. Rol: 21 21 21 22 22 23 23 23 24 24 25 25 25 25 26 26 26 28 30 31 31 32 33 33 33 34 34 35 35 36 Amplitude das classes = 3 Como nossa amplitude das classes é igual a 3, significa que precisamos agrupar os valores de 3 em 3 e assim formaremos nossas classes para construção da distribuição. Para construção da primeira classe consideramos o primeiro valor, que é 21, ou seja, nosso limite inferior; para encontrar o limite superior, somamos 3 e temos 24. Na segunda, seguimos o mesmo raciocínio, mas agora começando em 24 mais 3, e o limite superior será 27. Siga este procedimento até chegarmos em 6 classes, que é o número de classe que precisamos encontrar. Para encontrar a frequência de cada classe verificamos quantas vezes o os números daquela classe aparecem. Por exemplo, na primeira classe o limite inferior é 21 fechado, ou seja, contamos o 21, mas o superior é 24 aberto, não sendo considerado no cálculo da frequência, assim contamos apenas os valores 21, 22 e 23. Verificamos quantas vezes estes valores aparecem, ou seja, a frequência destes valores é igual a 8. Repetimos este procedimento para todos os valores do rol, e depois formamos a nossa tabela de distribuição de frequência conforme segue: 16 TROCANDO IDEIAS Verificamos nesta aula os tipos de variáveis e como apresentar os dados coletados em uma pesquisa utilizando distribuição de frequência. Você já participou de alguma pesquisa que utilizou variáveis quantitativas e qualitativas? Que pesquisa era esta? Você teve acesso aos resultados da pesquisa? NA PRÁTICA A Estatística está presente em nosso cotidiano, e nos deparamos constantemente com dados e diferentes tipos de variáveis, por isso, saber organizar e apresentar dados é de fundamental importância. A apresentação de dados por Distribuição de Frequência auxilia na geração de informações para uma tomada de decisão mais precisa; desta forma, podemos utilizá-la nas diferentes pesquisas realizadas tanto com dados quantitativos como qualitativos. Os cálculos da frequência, frequência acumulada e relativa auxiliam na geração das informações, dando base para diferentes análises e tomadas de decisão, conforme o exemplo apresentado neste link: <http://brasilescola.uol.com.br/matematica/aplicacao-estatistica- frequencia-absoluta-frequencia-.htm>. FINALIZANDO Nesta aula conhecemos os tipos de variáveis que podem aparecer em uma pesquisa; como organizar um dado bruto; como elaborar uma Distribuição de Frequência; e como calcular frequência acumulada e relativa além da interpretação dos resultados obtidos. Observamos, ainda, a construção e diferenças entre uma Distribuição de Frequência e Distribuição de Frequência por classe ou Intervalos.17 REFERÊNCIAS CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. Curitiba: InterSaberes, 2010. LARSON, R.; FARBER, B. Estatística aplicada. 2. ed. São Paulo: Pearson, 2004. MARTINS, G. de A. Estatística geral e aplicada. 3. ed. São Paulo: Atlas, 2010.
Compartilhar