Baixe o app para aproveitar ainda mais
Prévia do material em texto
License-436601-29124-0-7 ESTATÍSTICA Representação por gráficos: histogramas, polígonos de frequências e ogiva Nem sempre é fácil visualizar os dados usando apenas a distribuição de frequências. Por isso, é útil empregarmos representações gráficas. Agora, você aprenderá a construir os gráficos oriundos da distribuição de frequências. Clique na figura para assistir ao vídeo Histograma O gráfico mais importante para representar a distribuição de frequências é o histograma, que relaciona as frequências absolutas ou relativas com os valores de cada classe, representados por colunas. No eixo horizontal (abscissas), dispomos os intervalos das classes, e, no vertical, os valores de cada classe, representados pela altura da coluna, de maneira semelhante ao gráfico de colunas. Veja um exemplo na figura a seguir. License-436601-29124-0-7 ESTATÍSTICA Fonte: marekuliasz, Shutterstock, 2017. O histograma é um dos principais gráficos na estatística, auxiliando- nos a analisar a distribuição e o comportamento dos dados. Vamos construir um histograma? Primeiro, vamos elaborar um rascunho. Para tanto, retome a tabela “Distribuição de frequências dos salários de 15 empregados de uma empresa”. No eixo vertical, colocaremos quantos empregados existem em cada classe, e, no horizontal, os intervalos de classe referentes a cada faixa salarial. A primeira classe agrupa 2 empregados. No histograma, colocaremos essa informação na primeira coluna, agrupando um empregado por cima do outro. Nas abscissas, colocaremos o intervalo da classe referente à faixa salarial desses empregados, isto é, de aproximadamente R$ 1.000,00 até R$ 2.000,00. Nosso rascunho não para por aí. A segunda classe tem 4 empregados, que ganham de aproximadamente R$ 2.000,00 até R$ 3.400,00, os quais também devemos empilhar, mas, agora, à License-436601-29124-0-7 ESTATÍSTICA direita da primeira classe. Fazemos isso para dar continuidade nos valores da renda, pois ela é uma variável contínua, logo, cada classe é sequência de sua anterior. A terceira classe é a maior, com 5 empregados. A quarta tem apenas 3, e, por fim, a última contém somente 1, que é o que ganha mais, o que pode indicar um chefe imediato dos demais. E o que aconteceria se uma classe não tivesse nenhum empregado? Nesse caso, deixaríamos o espaço referente a ela sem nenhum valor e prosseguiríamos para a construção da classe posterior. E agora, como ficou nosso rascunho de histograma? Observe: Número de trabalhadores 5 4 3 2 1 R$ 1.000,00 a R$ 2.200,00 R$ 2.200,00 a R$ 3.400,00 R$ 3.400,00 a R$ 4.600,00 R$ 4.600,00 a R$ 5.800,00 R$ 5.800,00 a R$ 7.000,00 Salários Fonte: Elaborado pelo autor, Shutterstock, 2017. Para transformar esse rascunho em um histograma, imagine que cada classe em que empilhamos os funcionários seja uma coluna colada na outra, desta forma: License-436601-29124-0-7 ESTATÍSTICA Número de trabalhadores 5 4 3 2 1 R$ 1.000,00 a R$ 2.200,00 R$ 2.200,00 a R$ 3.400,00 R$ 3.400,00 a R$ 4.600,00 R$ 4.600,00 a R$ 5.800,00 R$ 5.800,00 a R$ 7.000,00 Salários Fonte: Elaborado pelo autor, Shutterstock, 2017. Agora, podemos obter a versão final do histograma. Número de trabalhadores 5 4 3 2 1 R$ 1.000,00 a R$ 2.200,00 R$ 2.200,00 a R$ 3.400,00 R$ 3.400,00 a R$ 4.600,00 R$ 4.600,00 a R$ 5.800,00 R$ 5.800,00 a R$ 7.000,00 Salários Agora que temos um histograma, podemos usá-lo como base para criar um polígono de frequências. Vamos em frente? License-436601-29124-0-7 ESTATÍSTICA Polígonos de frequências Um polígono de frequências é um gráfico de linhas construído com base em um histograma. Segundo Triola (2008), para elaborá-lo, precisamos nos basear nas frequências absolutas ou relativas. Esse tipo de gráfico nos fornece a informação da tendência das classes, assim, percebemos se os valores estão aumentando, diminuindo ou permanecendo constantes. Começamos a orientação pelo topo central da primeira coluna e então seguimos para o centro. Depois, seguimos para o topo central da segunda coluna e assim por diante. Posicionamos o ponto inicial e o final do polígono no eixo horizontal, respectivamente, no ponto médio da classe imediatamente anterior à primeira classe e no ponto médio imediatamente posterior à última classe dos dados, simbolizando que não existem dados nesses dois pontos. Veja o resultado: Polígono de frequências com o histograma por baixo (a) e sem o histograma (b) (a) Número de trabalhadores 5 4 3 2 1 R$ 1.000,00 a R$ 2.200,00 R$ 2.200,00 a R$ 3.400,00 R$ 3.400,00 a R$ 4.600,00 R$ 4.600,00 a R$ 5.800,00 R$ 5.800,00 a R$ 7.000,00 Salários (b) License-436601-29124-0-7 ESTATÍSTICA Número de trabalhadores 5 4 3 2 1 R$ 1.000,00 a R$ 2.200,00 R$ 2.200,00 a R$ 3.400,00 R$ 3.400,00 a R$ 4.600,00 R$ 4.600,00 a R$ 5.800,00 R$ 5.800,00 a R$ 7.000,00 Salários Perceba que, em b), omitimos o histograma depois de construir o polígono de frequências sobre ele, procedimento que é opcional. Agora, observando o gráfico, o que você consegue constatar? Note que a concentração de empregados nas primeiras classes é baixa e vai aumentando até chegar à classe com maior frequência, isto é, a faixa salarial onde há mais funcionários. Depois, a quantidade de empregados que ganham maiores salários vai diminuindo. Um histograma representa graficamente uma distribuição de frequências, e o polígono de frequências o utiliza para indicar a tendência das classes. Ogiva Uma ogiva é semelhante ao polígono de frequências, mas usa como base as frequências acumuladas absolutas ou relativas. Com elas, conseguimos diagnosticar a velocidade com que as classes chegam à sua totalidade. License-436601-29124-0-7 ESTATÍSTICA Vamos, então, construir uma ogiva? Novamente, usaremos a tabela “Distribuição de frequências dos salários de 15 empregados de uma empresa”, mas, desta vez, tomando os valores das frequências relativas acumuladas. Olhou novamente a tabela? Lá, você pode constatar que a frequência relativa acumulada da primeira classe é 13,33%. A reta da ogiva referente a uma classe vai em direção ao seu ponto médio, partindo do eixo horizontal, no ponto médio da classe imediatamente anterior a ela. Note que é por isso que a linha sempre inicia no zero, pois não temos informações antes da primeira classe. Para desenharmos a próxima reta, partimos do centro da coluna em direção ao centro da segunda coluna, pulando para os 40% da segunda classe. O gráfico dá outro salto, chegando a 73,33% da terceira classe, sobe posteriormente para 93,33% da quarta classe e finaliza atingindo o total de 100% da quinta classe. Veja o resultado: (a) R$ 1.000,00 a R$ 2.200,00 R$ 1.000,00 a R$ 3.400,00 R$ 1.000,00 a R$ 4.600,00 R$ 1.000,00 a R$ 5.800,00 R$ 1.000,00 a R$ 7.000,00 Salários Número de trabalhadores a) License-436601-29124-0-7 ESTATÍSTICA (b) Número de trabalhadores b) R$ 1.000,00 a R$ 2.200,00 R$ 1.000,00 a R$ 3.400,00 R$ 1.000,00 a R$ 4.600,00 R$ 1.000,00 a R$ 5.800,00 R$ 1.000,00 a R$ 7.000,00 Salários As ogivas são muito utilizadas no estudo de probabilidades, que você estudará em unidades posteriores. Agora você já sabe como resumir um grande volume de dados brutos, representando-os por tabelas de frequências, e como representá-los graficamente, facilitando sua visualização. License-436601-29122-0-5 ESTATÍSTICA Regra de Sturges para identificação de classes; distribuição em classes; limites de intervalo Até agora, você viu a regra empírica para encontrar as distribuições de frequência, que é a mais simples para calcular o número de classes. Para usá-la, Triola (2008) recomenda que o número de classes fique entre 5 e 20, de modo que a amplitude das classes resulte em números redondos, o que facilita a leitura. Mas também podemos usar um método matemático para definir a quantidade de classes da tabela: a Regra de Sturges. Regra de Sturges para identificação de classes Em muitos softwaresestatísticos, o número de classes é obtido pela regra de Sturges, para não considerar a interferência do pesquisador em sua construção, diferentemente do método empírico. A regra de Sturges consiste em: k = 1 + 3,332 × log 10 (n) onde: k: número de classes; n: tamanho da amostra. O valor de k dificilmente será inteiro, portanto, você precisará arredondá-lo. Mas como? Sempre que tiver valores menores que 5 nas casas decimais, arredonde para baixo. Do contrário, para valores maiores, arredonde para cima. Por exemplo, você deve arredondar 3,6 para 4, e 3,4 para 3. E se o número da casa decimal for justamente 5? Nesse caso, arredondar para cima ou para baixo fica a seu critério. Lembre-se de realizar o arredondamento de forma adequada, pois sempre precisaremos de um valor inteiro para k. License-436601-29122-0-5 ESTATÍSTICA Relembre nosso exemplo dos salários. Mas, agora, suponha que, em vez de 15 empregados, temos 30. Como saber qual o número de classes (k)? Basta substituir n na fórmula pelo número de elementos da amostra (30): k = 1 + 3,332 × log 10 (30) = 5,92 ≅ 6 Assim, teremos 6 classes. Distribuição em classes A distribuição em classes ocorre quando subdividimos nossa amostra em intervalos de valores igualmente espaçados, ou seja, com o mesmo intervalo. Recorde nossa primeira tabela, com R$ 1.000,00 -| R$ 2.200,00; R$ 2.200,00 -| R$ 3.400,00 e assim por diante. Nessa distribuição, temos que saber qual será o valor do intervalo das classes e, para isso, precisamos primeiro definir a amplitude dos dados. E como fazer isso? Mais uma vez, vamos utilizar o exemplo dos salários. Agora, vamos esmiuçá-lo, coletando o salário por hora dos 30 empregados, como mostra o quadro a seguir. 8,3 10,2 11,5 12,4 13,5 8,5 10,3 11,6 12,6 13,8 8,8 10,3 11,6 12,6 14,2 9,6 10,4 12,1 12,9 14,3 9,7 10,4 12,3 13,2 15,2 9,8 10,7 12,4 13,3 20,0 Observe que esses dados já estão ordenados, iniciando na primeira coluna de cima para baixo. Para distribui-los, vamos pegar o resultado que obtivemos pela Regra de Sturges, obtendo 6 classes. Cada uma representa os empregados que ganham a mesma faixa de salários pago por hora. License-436601-29122-0-5 ESTATÍSTICA Com os dados organizados, queremos agora descobrir o quanto esses salários variam. É aí que entra o cálculo da amplitude total (At), obtida quando efetuamos a diferença entre o maior valor (máximo) e o menor (mínimo): At = máximo – mínimo At = 20,0 – 8,3 = 11,7 Como o valor máximo é R$ 20,0 por hora, e o menor, R$ 8,3, a amplitude é R$ 11,7, evidenciando uma grande diferença salarial entre os empregados. Agora, podemos calcular os limites dos intervalos da classe. A amplitude da classe é a primeira medida que temos para saber se existem grandes discrepâncias de valores entre nossos dados. Limites de intervalo Os limites dos intervalos das classes definem os valores que dividirão as classes quando uma termina e outra começa. Dessa forma, podemos descobrir como foram obtidos os valores dos limites de intervalo para a nossa primeira tabela. Você já pensou como foi definido o limite inferior de R$ 1.000,00 e o superior de R$ 2.200,00 na primeira classe, por exemplo? Esses valores são importantes, pois, sem eles, não conseguiríamos dividir nossa amostra em classes. Eles são obtidos dividindo a amplitude total pelo número de classes: At IC= k Vamos, então, utilizar o valor do número de classes e da amplitude dos salários que descobrimos anteriormente? Dessa forma, temos: 11,7 IC= =1,87 2IC= =1,87 2≅IC= =1,87 2≅ 11,7 IC= =1,87 2 11,7 6 IC= =1,87 2 6 IC= =1,87 2 License-436601-29122-0-5 ESTATÍSTICA O intervalo de classe, é, então 2. Note que arredondamos o resultado para trabalharmos com números inteiros. Os limites de intervalo podem ser o limite inferior ou limite superior da classe. É conveniente que o limite inferior da primeira classe coincida com o menor valor de nossa amostra, para incluir todos os valores em nossa distribuição de frequência. Dessa forma, a primeira classe será composta pelo limite inferior (8,3) e esse valor acrescido do intervalo de classe (2), resultando no limite superior de 10,3, ou seja: 8,3 |– (8,3 + 2) 8,3 |– 10,3 Como adotamos o intervalo fechado à esquerda e aberto à direita, o limite inferior da segunda classe será o mesmo que o limite superior da primeira mais esse valor acrescido do intervalo de 2: 10,3 |– (10,3 + 2) 10,3 |– 12,3 Consegue imaginar como proceder nas demais classes? Terceira classe: 12,3 |– (12,3 + 2) 12,3 |– 14,3 Quarta classe: 14,3 |– (14,3 + 2) 14,3 |– 16,3 Quinta classe: 16,3 |– (16,3 + 2) 16,3 |– 18,3 License-436601-29122-0-5 ESTATÍSTICA Sexta classe: 18,3 |– (16,8 + 2) 18,3 |– 20,3 Agora, que tal calcular as frequências absolutas e relativas para cada classe? Essa operação resulta na tabela a seguir. Classes fi fri (%) Fac Frac (%) 8,30 |- 10,30 7 23,33 7 23,33 10,30 |- 12,30 9 30,00 16 53,33 12,30 |- 14,30 11 36,67 27 90,00 14,30 |- 16,30 2 6,67 29 96,67 16,30 |- 18,30 0 0,00 29 96,67 18,30 |- 20,30 1 3,33 30 100.00 Total 30 100 Agora, observe os dados. Que conclusões você consegue tirar? Vamos interpretá-los juntos. Por exemplo, observe a frequência absoluta acumulada da terceira classe. Seu valor indica que 27 funcionários recebem salários abaixo de R$ 14,30 por hora. Analisando as frequências acumuladas, podemos concluir que aproximadamente 90% dos salários estão até R$ 14,30. Por sua vez, analisando a última classe, composta pelos funcionários que recebem os maiores salários (de R$ 18,30 até aproximadamente R$ 20,30 por hora) e sua frequência relativa (3,33), podemos constatar que os maiores salários servem apenas 3,3% dos funcionários da empresa. Veja que 53,33% dos funcionários (16 empregados) recebem até R$ 12,30, sendo que 23,33% (7 empregados) ganham entre R$ 8,30 e R$ 10,30. Antes de partir para a próxima etapa do nosso estudo, vamos resumir os procedimentos para a construção de uma distribuição de frequências. License-436601-29122-0-5 ESTATÍSTICA 1 Coletar os dados brutos. 2 Dispor os dados em um rol. 3 Calcular a amplitude total. 4 Obter o número de classes pela Regra de Sturges. 5 Construir os intervalos das classes. 6 Desenhar a tabela, incluindo os valores das frequências absolutas e relativas. Memorize o roteiro para construção de distribuições de frequências. License-512057-28774-0-4 ESTATÍSTICA Distribuições de frequência de variáveis qualitativas e quantitativas discretas com representações gráficas Você já sabe que, antes de fazermos análises estatísticas, precisamos organizar e classificar os dados obtidos, certo? Uma forma de fazer isso é construindo tabelas de distribuição de frequências. Tabelas para distribuição de frequências De acordo com Triola (2008), usamos as tabelas de distribuição de frequências para resumir os dados estatísticos. Podemos ter distribuições de frequências tanto para variáveis qualitativas quanto para quantitativas discretas e contínuas. Aqui, abordaremos a distribuição de frequências para variáveis qualitativas e para as quantitativas discretas. Clique na figura para assistir ao vídeo License-512057-28774-0-4 ESTATÍSTICA Por meio das tabelas de distribuições de frequências, apresentamos dados qualitativos ou quantitativos de forma resumida e objetiva. Para organização e classificação de dados de variáveis qualitativas, devemos colocar, na tabela de distribuição de frequências, uma coluna com as classes e a outra com a frequência. Cada classe será uma categoria, e a frequência absoluta será o número de repetições de cada categoria. Classe i Estado civil Frequência absoluta (fi) Frequência relativa (fri) Frequência acumulada (Faci) Frequência relativa acumulada (Fraci) 1 Solteiro 12 0,2105 12 0,2105 2 Casado 25 0,4386 37 0,6491 3 Viúvo 5 0,0877 42 0,7368 4 Divorciado 15 0,2632 57 1,0000 - Total 57 1,0000 - - Agora, e quanto precisamos fazer a distribuiçãode frequências de variáveis quantitativas? Segundo Tiboni (2010), os dados quantitativos permitem duas formas de apresentação e podem ser ou não agrupados por classes. Geralmente, as variáveis discretas são agrupadas em distribuições por ponto ou valores, e as contínuas, em distribuições por intervalos ou classes. Você verá mais adiante nesta unidade um exemplo prático de construção de tabela de distribuição de frequências com variáveis quantitativas discretas. Antes, você estudará as representações gráficas que podem ser feitas a partir dessas tabelas. Representações gráficas Você já compreendeu em unidades anteriores a importância de utilizar as representações gráficas, não é mesmo? Por meio delas, a visualização de uma distribuição de frequências de uma variável fica mais fácil. Você também sabe que existem vários tipos de gráficos, certo? Devemos escolher o mais apropriado conforme o tipo de variável que será representada. License-512057-28774-0-4 ESTATÍSTICA Para as variáveis qualitativas, usamos os gráficos de setores ou pizza e os de barras. No gráfico de setores ou pizza, representamos cada um dos setores pelo percentual de cada categoria da variável. Esse tipo de gráfico é adequado somente para as variáveis qualitativas nominais, pois, não conseguimos expressar uma ordem por meio dele. Já nos gráficos de barras, adequados para as variáveis qualitativas ordinais, o eixo horizontal x (abcissas) traz as categorias, e o vertical y (ordenadas), a frequência, que pode ser tanto a absoluta quanto a relativa. E quando estamos trabalhando com uma variável quantitativa discreta, como o número de filhos por mãe? Essa variável assume valores de um conjunto enumerável, portanto, assumimos que cada valor (número de filhos) é uma classe. É por isso que também usamos o gráfico de barras para representar esse tipo de variável. No eixo x (horizontal), colocamos o número de filhos, e, no y (vertical), as frequências absolutas ou relativas. A figura a seguir traz exemplos desses dois tipos de gráficos. 9 8 7 6 5 4 3 2 1 Fonte: Ico Maker, Shutterstock, 2017. (Adaptado). License-512057-28774-0-4 ESTATÍSTICA Os gráficos de barras ou colunas e os gráficos de pizza ou setores são apropriados para representar variáveis qualitativas e quantitativas discretas. A seguir, você verá um exemplo completo para entender como construir uma tabela de distribuição de frequências e seu gráfico. Exemplo prático Vamos ilustrar tudo o que você estudou até aqui? Para isso, imagine que uma pesquisa realizada em uma fábrica revela o número de peças defeituosas por caixa. A amostra de peças defeituosas coletada foi: 2 1 1 0 2 0 0 0 1 0 1 0 0 2 1 1 0 0 1 1 0 1 2 0 0 1 2 1 0 0 A partir da amostra, pense um pouco e responda às questões a seguir. a. Qual o número de dados da pesquisa? O número de dados coletados é n = 30. b. Quais são as quantidades de defeitos observados na amostra que poderão ser utilizadas na construção de uma tabela de frequências? As categorias são: 0, 1 e 2 peças com defeitos por caixa. c. Qual o número de classes? São três classes, que representarão as caixas com 0, 1 e 2 defeitos, respectivamente. d. Elabore a tabela de distribuição de frequências, discriminando os valores de cada frequência: absoluta, relativa e acumulada. License-512057-28774-0-4 ESTATÍSTICA Classe i Peças com defeito por caixa (xi) Frequência absoluta (fi) Frequência relativa (fri) Frequência relativa (fri)% Frequência acumulada (Faci) 1 0 14 0,4667 46,67 14 2 1 11 0,3667 36,67 25 3 2 5 0,1667 16,67 30 - Total 30 1,0000 100,00 - e. A partir da tabela, responda: quais os valores das frequências absolutas de cada classe? Na primeira classe: 14; na segunda: 11 e na terceira: 5. f. Construa o gráfico que representa os dados coletados. Classe 1 (0 defeitos por caixa) Classe 1 (1 defeitos por caixa) Classe 1 (2 defeitos por caixa) 46,67% 36,67% 16,67% Finalizamos mais uma unidade. Esperamos que você tenha conseguido entender como identificar variáveis qualitativas e quantitativas em uma população ou amostra e organizar/ classificar variáveis discretas por meio de frequências e gráficos. Variáveis e suas classificações e tabela de distribuição de frequências são conceitos básicos para sua representação gráfica. License-512057-28204-0-3 ESTATÍSTICA Definições básicas para dados brutos e rol de dados e frequências Você sabe que um dos objetivos da estatística é nos fornecer meios para sintetizarmos os dados de uma amostra de forma a facilitar sua leitura por meio da análise descritiva dos dados, certo? Para tanto, precisamos conhecer uma série de conceitos. Você estudará agora as definições básicas de dados brutos, rol de dados, classes e frequências para prepará-lo no aprendizado das distribuições de frequências. Vamos lá? Dados brutos ou primitivos Segundo Triola (2008), os dados são observações (tais como medidas e respostas em pesquisas) que tenham sido coletadas. Agora, pense em uma pesquisa. Assim que coletamos seus dados, eles ainda precisam ser organizados para, então, passarem por uma análise mais criteriosa. Nesse momento, os métodos estatísticos são muito importantes para uma percepção clara da variabilidade dos dados coletados. Então, logo após a coleta dos dados, antes de organizá-los, teremos o que chamamos de dados brutos ou primitivos por meio dos quais faremos análises estatísticas. Fonte: Aaban, Shutterstock, 2017. (Adaptado). License-512057-28204-0-3 ESTATÍSTICA Como exemplo, podemos citar o conjunto das alturas de 100 estudantes do sexo feminino, obtidos de uma lista alfabética do registro de uma universidade. Logo após sua coleta, como os elementos da amostra ainda não estão organizados, fica difícil termos uma noção de qual será a menor e a maior altura entre as estudantes. Daí a necessidade de ordenar os dados. Veremos como fazer isso a seguir. Dados brutos, também chamados de primitivos, são aqueles coletados durante uma pesquisa e que ainda não foram organizados. Rol de dados Você percebeu que, após uma pesquisa, temos os dados de forma não organizada. Precisamos, então, organizá-los em seu rol para que, então, possamos fazer sua análise descritiva, usando, por exemplo, tabelas de frequência e cálculo de medidas de posição. Mas o que é um rol? O rol de dados é a ordenação dos valores obtidos (dados brutos) em ordem crescente ou decrescente de grandeza numérica ou qualitativa. Veja abaixo, à esquerda, que os dados, nesse caso, quantitativos, estão desorganizados. Já à direita, estão organizados em ordem crescente, de cima para baixo. Dados brutos Rol de dados 6 14 5 8 8 6 4 6 7 9 10 12 9 7 6 6 4 10 5 6 8 10 11 13 14 11 12 5 11 7 5 6 8 10 11 14 10 13 10 12 8 10 6 7 8 10 12 14 O rol de dados é importante para construirmos tabelas de frequência, que você estudará ainda nesta unidade. License-512057-28204-0-3 ESTATÍSTICA Quer praticar um pouco? Vejas estes números: 17, 45, 38, 27, 6, 48, 11, 57, 34, 22. Como você os disporia em um rol? Existem duas formas. Em ordem crescente de grandeza, você deve ordená-los da seguinte forma: 6, 11, 17, 22, 34, 38, 45, 48, 57. Em ordem decrescente, fica: 57, 48, 45, 38, 34, 27, 22, 17, 11, 6. Uma vez que temos dados ordenados, podemos calcular a amplitude total de uma amostra, isto é, a diferença entre o maior e o menor valor observado nos valores da amostra. Também empregamos o rol para o calcular as estatísticas de posição, como decis, quartis e a mediana, que serão estudados em unidades posteriores. Na próxima unidade, você entenderá melhor a definição de amplitude na distribuição de frequência de dados numéricos agrupados em intervalos de classe. Agora, é importante que você conheça os tipos de frequência. Tipos de frequências Segundo Tiboni (2010), frequência é o número de vezes que um elemento se repete em uma amostra. A frequência absoluta ou simples (fi) é definidapelo número de vezes que o elemento aparece na amostra ou o número de elementos pertencentes a uma classe. A frequência relativa (fri) é definida pela razão entre a frequência absoluta e o tamanho da amostra (número total de dados coletados na pesquisa). Representa a proporção de observações de um valor (ou de uma classe) em relação ao número total de observações, facilitando comparações. Já a frequência absoluta acumulada (Fac), é a soma das frequências absolutas dos valores inferiores ou iguais ao valor dado, enquanto a frequência relativa acumulada (Frac), é a soma das frequências relativas dos valores inferiores ou iguais ao valor dado. License-512057-28204-0-3 ESTATÍSTICA As frequências podem ser absolutas, relativas ou acumuladas. Você conseguirá compreender melhor esses conceitos ao acompanhar o seguinte exemplo: temos uma amostra (n = 18) referente à pontuação que os candidatos de um concurso atingiram na disciplina Matemática: 17, 14, 13, 12, 11, 08, 12, 15, 05, 20 18, 14, 15, 11, 10, 10, 11, 13. Esses são os dados brutos, que precisaremos primeiro organizar em um rol de dados em ordem crescente, da seguinte forma: 05, 08, 10, 10, 11, 11, 11, 12, 12, 13, 13, 14, 14, 15, 15, 17, 18, 20. Vamos encontrar as frequências absoluta e relativa das pontuações 10 e 11. Primeiro: qual é a frequência absoluta da pontuação 10? É 2, pois o número 10 aparece duas vezes na amostra. Já a frequência relativa é 0,11, valor que corresponde à razão 2/18. Observe: pegamos a frequência absoluta e dividimos pelo número de elementos da amostra, que é 18. Agora, você sabe qual a frequência absoluta da pontuação 11? É 3, pois o número 11 aparece três vezes na amostra. Pegamos, então, esse valor e dividimos por 18 para obter a frequência relativa, que é 0,17. Note que estamos exemplificando uma pequena amostra. Na prática, é comum trabalharmos com grandes bancos de dados, por isso, para descobrir as frequências, podemos usar os recursos tecnológicos estudados na unidade anterior. License-512057-28776-0-4 ESTATÍSTICA Variáveis qualitativas e quantitativas Segundo Triola (2008), a pesquisa é uma das muitas ferramentas que podemos usar para a coleta dos dados que compõem uma população ou amostra. Esses dados podem ser quantitativos ou qualitativos. Vamos nos aprofundar nesse tema? Variáveis Vamos relembrar o conceito de variável? Conforme Tiboni (2010), as variáveis são características que podem ser observadas ou medidas em cada elemento da população. Em outras palavras, é um conjunto de resultados possíveis de um fenômeno. Temos uma variável quando conseguimos observar pelo menos uma característica nos elementos de uma população, por exemplo: sexo (masculino ou feminino), número de filhos (0,1, 2, 3,..., n), entre outras. Você lembra que as variáveis podem ser classificadas em quantitativas e qualitativas? Vamos compreender melhor a seguir. Clique na figura para assistir ao vídeo License-512057-28776-0-4 ESTATÍSTICA As variáveis são observações ou medidas de cada elemento da população e podem ser qualitativas ou quantitativas. Variáveis quantitativas As variáveis quantitativas são aquelas que podem ser medidas em uma escala quantitativa, ou seja, seus valores são expressos por números. Consegue citar alguns exemplos? Idade, salários, comprimentos, notas avaliativas, peso, níveis de colesterol, taxa de glicose etc. Fonte: Elena Abrazhevich, Shutterstock, 2017. Essas variáveis podem ser discretas ou contínuas. Conforme Tiboni (2010), as variáveis discretas assumem os valores de um conjunto enumerável, ou seja, apenas valores inteiros. Por exemplo: número de filhos, de carros em um estacionamento, de televisores em uma residência, entre outros. License-512057-28776-0-4 ESTATÍSTICA Já as variáveis contínuas assumem infinitos valores numéricos entre dois limites. Triola (2008) explica que elas resultam de infinitos valores possíveis que correspondem a alguma escala contínua que cobre um intervalo de valores sem vazios, interrupções ou saltos. Por exemplo: peso, altura, volume, idade, áreas, perímetros, diâmetros etc. Fonte: TaLaNoVa, Shutterstock, 2017. As variáveis quantitativas podem ser contínuas ou discretas. Variáveis qualitativas ou categóricas Se as variáveis quantitativas expressam números, o que as variáveis qualitativas mostram? Segundo Tiboni (2010), as variáveis qualitativas, também conhecidas como categóricas, não possuem dados quantitativos, mas, sim, expressam uma qualidade ou atributo. São definidas por várias categorias ou, ainda, representam uma classificação do indivíduo. Assim, usamos esse tipo de variável para definir sexo, raça, cor da pele, estado civil, grau de instrução, cidade natal etc. License-512057-28776-0-4 ESTATÍSTICA Elas podem ser nominais e ordinais. Temos variáveis nominais quando não existe ordenação entre as categorias. É o caso do sexo, cor dos olhos, tipo sanguíneo ou a classificação das pessoas em doente/sadio e fumante/não fumante, por exemplo. Por sua vez, as variáveis ordinais pressupõem ordenação natural entre as categorias. Por exemplo: estágio de uma doença (1º, 2º e 3º graus), mês de observação (janeiro, fevereiro e assim por diante), classificação em concursos, altura classificada como baixa, média e alta e temperatura (fria, morna e quente). As variáveis qualitativas podem ser nominais ou ordinais. Conseguiu entender as diferenças entre os tipos de variável? Que tal exercitar sua compreensão por meio de alguns exemplos? Vamos lá! Primeiro, classifique as variáveis a seguir em qualitativas, quantitativas discretas ou quantitativas contínuas. A Diâmetro: quantitativa contínua. B Salários: quantitativa contínua. C Religião: qualitativa. D Quantidade de pacientes em um hospital: quantitativa discreta. E Cargos de uma empresa: qualitativa. F Preço: quantitativa contínua. G Nome de bairros: qualitativa. H Velocidade: quantitativa discreta. I Marcas de perfume: qualitativa. J Consumo de energia elétrica: quantitativa contínua. K Grau de instrução: qualitativa. License-512057-28776-0-4 ESTATÍSTICA Agora, listamos cinco casos. Consegue dizer qual é a variável de cada um e qual seu tipo? Pense um pouco antes de ler as respostas! A Nível de satisfação dos clientes. Variável: nível de satisfação. Classificação: variável qualitativa ordinal. B Horário de partida dos aviões. Variável: horário. Classificação: variável quantitativa contínua. C Variação mensal do índice Bovespa. Variável: índice Bovespa. Classificação: variável quantitativa contínua. D Cor dos olhos dos funcionários de um banco. Variável: cor dos olhos. Classificação: variável qualitativa nominal. E Pessoas da terceira idade em uma fila de banco durante uma semana. Variável: pessoas da terceira idade. Classificação: variável quantitativa discreta. Quantas você acertou? Vamos treinar mais um pouco? Suponha que o gerente de um supermercado pesquisou a preferência dos clientes na compra de frutas. Na amostra de 50 clientes, a fruta preferida foi a goiaba. Com base nesse contexto, especifique a população, o número de elementos da amostra e o tipo de variável. Conseguiu achar a solução? Vamos à resposta. A população é o conjunto de todos os clientes do supermercado. O número de elementos da amostra é 50, e a variável é qualitativa nominal. Até agora, você estudou as variáveis e seus tipos e viu exemplos práticos. A seguir, você será apresentado a outras definições importantes para a estatística: dados brutos, rol de dados e os tipos de frequências. License-508036-28208-0-4 ESTATÍSTICA Construção de tabelas, gráficos e séries estatísticas através dos recursos tecnológicos Você já sabe a importância das tabelas e dos gráficos para sintetizar em um mesmo local os resultados sobre determinado assunto, certo? Também percebeu como a tecnologia pode nos auxiliar nessa tarefa. Fonte: tsyhun, Shutterstock, 2017. A partir de agora, você estudará comoelaborar tabelas e gráficos utilizando o Excel, verá as vantagens em usar planilhas eletrônicas e quais as formas mais adequadas de representação de cada tipo de série estatística. Construção de tabelas no Excel Segundo Triola (2008), ao explorarmos um conjunto de dados por meio de uma representação gráfica, estamos procurando aspectos que revelem características úteis ou interessantes do conjunto de dados. Lembre-se de que é preciso saber interpretar os resultados, e os recursos tecnológicos, como o Excel, podem nos ajudar ao facilitar e automatizar alguns procedimentos. License-508036-28208-0-4 ESTATÍSTICA O Excel oferece algumas maneiras de criar e apresentar os dados resumidos em uma tabela. Uma delas é digitar manualmente os valores que a compõem. A tabela a seguir, por exemplo, foi construída a partir de informações retiradas do site do Instituto Brasileiro de Geografia e Estatística (IBGE). Ano Taxa de fecundidade 1940 6,16 1950 6,21 1960 6,28 1970 5,76 1980 4,35 1991 2,85 2000 2,38 Fonte: Baseado em INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2017. (Adaptado). A tabela traz a taxa de fecundidade no Brasil de acordo com os censos demográficos realizados de 1940 a 2000 e foi digitada e formatada manualmente no Excel. Também podemos usar um recurso mais avançado, que são as tabelas dinâmicas. Com elas, é possível desenvolver tabelas de maneira praticamente automática de acordo com a base de dados. Também conseguimos inserir estatísticas descritivas apenas selecionando a opção desejada, como médias, máximo, contagem, desvio padrão entre outros. No Excel, as tabelas dinâmicas possibilitam a rápida criação, visualização e até mesmo a atualização de tabelas estatísticas. License-508036-28208-0-4 ESTATÍSTICA Construção de gráficos no Excel A partir dos dados incluídos em uma tabela do Excel, você pode gerar facilmente um gráfico. Fonte: Skovoroda, Shutterstock, 2017. Lembra-se da tabela da taxa de fecundidade no Brasil? A seguir, temos a representação gráfica das suas informações, em um gráfico de colunas gerado a partir do recurso inserir gráficos do Excel. As representações gráficas devem ser simples, ter clareza e expressar a verdade sobre o fenômeno estudado. Ta xa d e fe cu nd id ad e 7 6 5 4 3 2 1 0 1960 1970 1980 1991 2000 6,28 5,76 4,35 2,85 2,38Taxa defecundidade Fonte: Baseado em INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2017. (Adaptado) License-508036-28208-0-4 ESTATÍSTICA Você pode editar o visual do gráfico, alterando as cores das barras, linhas e fundos, editando textos de títulos e eixos, inserindo legendas etc. Além disso, de modo semelhante às tabelas dinâmicas, também é possível construir gráficos dinâmicos. Por meio deles, é possível demonstrar visualmente a análise de dados de uma planilha, com atualização dinâmica e opções de filtragem para avaliação de subconjuntos de dados. Podemos elaborar gráficos dinâmicos, por exemplo, durante uma apresentação em uma reunião, demonstrando aos espectadores uma visão completa dos resultados. As séries estatísticas e os recursos tecnológicos Na unidade anterior, você viu que uma série estatística é toda tabela que apresenta um conjunto de dados distribuídos em função de três elementos ou fatores: época, local e a espécie. Conforme a variação de um desses elementos, temos uma série temporal, geográfica ou específica. Na série temporal, cronológica ou histórica, a evolução do tempo é predominante. Por exemplo: a expectativa de vida das mulheres brasileiras nos anos 1980 a 2002. Em outras palavras, apenas o tempo é variável. Na série geográfica, territorial ou de localidade, o fator geográfico é o elemento variável. Por exemplo: a taxa de desemprego por região em outubro de 2016. Nesse exemplo, o que varia é o local. Na série específica ou categórica, os dados estão em correspondência com categorias ou espécies. É o caso da receita líquida das empresas de tecnologia no Brasil em 2016. Nesse caso, as empresas, que são as categorias ou espécies, é que variam. Podemos representar quase todos os tipos de séries por meio do gráfico de colunas. Já quando queremos representar séries temporais, o gráfico adequado é o de linhas. A figura a seguir ilustra os dois tipos de gráficos. License-508036-28208-0-4 ESTATÍSTICA Fonte: jijomathaidesigners, Shutterstock, 2017. Os gráficos de linhas são utilizados para representar as séries temporais, principalmente quando abrangem um longo período. Os recursos tecnológicos para análise de em banco de dados são essenciais, principalmente quando nossa população ou amostra são grandes. Diante disso, você obteve uma noção básica sobre ferramentas apropriadas para a exploração dos dados e construção de gráficos, com ênfase ao Excel, por ser muito conhecido e de fácil manuseio. Na próxima unidade, você estudará a distribuição de frequências de variáveis discretas. License-508036-28482-0-4 ESTATÍSTICA Ferramentas computacionais para a análise estatística Ao longo das unidades anteriores, você conseguiu perceber como a estatística está presente em muitas áreas, não é mesmo? A informática também. Por isso, várias ferramentas tecnológicas têm sido desenvolvidas para utilização em diversos segmentos, seja por empresas públicas ou privadas e pelo público acadêmico. Tratam-se dos chamados softwares estatísticos, que auxiliam a análise estatística dos dados nas tomadas de decisão e nas pesquisas científicas. Fonte: jannoon028, Shutterstock, 2017. A estatística e a tecnologia Você já sabe que a estatística é uma ciência exata que nos fornece recursos para coletar, resumir, organizar, analisar e interpretar dados, correto? Agora, você verá como a tecnologia nos auxilia a interpretar e analisar informações por meio de tabelas e gráficos. License-508036-28482-0-4 ESTATÍSTICA Segundo Lapponi (2005), a estatística é mais do que trabalhar com números porque, mesmo com toda a praticidade dos programas estatísticos, que fornecem resultados rápidos na organização dos dados e construção de gráficos, os analistas devem saber interpretar os resultados. Na prática, o que isso significa? Perceba que, mesmo com ferramentas cada vez mais práticas para a análise de dados estatísticos, devemos ser prudentes ao utilizá-las, não agindo de forma mecanizada, mas, sim, sabendo interpretar os resultados obtidos. Suponha uma pesquisa, com a amostra já coletada. A partir dela, já podemos realizar a análise exploratória dos dados, fazer gráficos e inferências, inclusive por meios tecnológicos. Imagine agora, que, nessa mesma amostra, existem dados discrepantes (os chamados outliers), que não são retirados do conjunto de dados na hora de fazer a análise. Assim, possivelmente teremos resultados que não condizem com a realidade e faremos conclusões erradas sobre o estudo em questão. Dessa forma, apesar de toda a facilidade que as ferramentas tecnológicas proporcionam, devemos sempre estar baseados na teoria para identificar possíveis incoerências. Os recursos tecnológicos facilitam a coleta, organização, análise e interpretação de dados estatísticos. A seguir, você conhecerá alguns softwares estatísticos. Softwares estatísticos Muitos softwares ou programas estatísticos são compostos por ferramentas criadas para pessoas que possuem conhecimento na área da estatística. License-508036-28482-0-4 ESTATÍSTICA Fonte: Scanrail1, Shutterstock, 2017. Esses softwares funcionam em computadores comuns, porém são capazes de rodar também em computadores e servidores de alta performance, ampliando sua capacidade de manipulação de dados para milhões de registros de informações. Triola (2008) cita os seguintes exemplos. Statdisk: desempenha várias funções e testes estatísticos e pode gerar histogramas e diagramas de dispersão. Não é um software livre. Minitab: possui um ambiente completo para a análise de dados, por exemplo, estatística descritiva,análise das séries temporais, correlação, regressão, controle estatístico de processo, planejamento de experimentos, análise de sobrevivência, entre outros. O Minitab possui boa parte dos principais métodos estatísticos em uma interface gráfica bem organizada e pode gerar todos os tipos de gráficos estudados na unidade 4. Não é um software livre. Excel: é o software de planilha eletrônica mais conhecido e utilizado. Possui ferramentas que possibilitam muitas análises estatísticas, como cálculo de estatísticas descritivas, testes estatísticos, a juste de regressão linear, correlações, distribuições License-508036-28482-0-4 ESTATÍSTICA de probabilidade, entre outros. Pode gerar histogramas, polígonos de frequência, gráficos de colunas, linhas, setores ou pizza e diagramas de dispersão. Não é um software livre, mas seu valor é mais acessível se comparado a outros softwares pagos mencionados nesta Unidade. Além disso, temos o Libre Office, que traz uma planilha de cálculos similar e é livre. Clique na figura para assistir ao vídeo Outros softwares também amplamente conhecidos são listados a seguir. SPSS: um dos softwares mais utilizados na área acadêmica e por pesquisadores das ciências sociais, é bastante completo para a análise de dados. Não é um software livre. BioEstat: utilizado nas diversas áreas de conhecimento por estudantes e pesquisadores, mas com maior frequência na área de ciências biológicas. É prático e de fácil manuseio, além de ter licença gratuita para utilização. O avanço tecnológico de hardwares e softwares possibilita o constante crescimento das análises estatísticas em uma velocidade e volume de dados cada vez maior. License-508036-28482-0-4 ESTATÍSTICA Você já utilizou ou ao menos ouviu falar em quais desses softwares? Exploraremos mais o Excel, por ser mais acessível e de fácil utilização. Vamos começar? Utilizando o Excel Você já explorou ao menos um pouco o Excel? Que tal aprofundar um pouco seus conhecimentos? Com um pouco de conhecimento e prática, o Excel é uma ferramenta extremamente útil para análises estatísticas e manipulação da base de dados. Esse software dispõe de várias funções úteis para o manuseio e a análise de dados: planilhas, tabelas, gráficos e ferramentas estatísticas para análise exploratória dos dados. As planilhas são organizadas em linhas numeradas e colunas identificáveis por letras (A, B, C, D etc.). Cada um dos espaços é chamado de célula ou casela. Veja um exemplo na figura a seguir. Note as colunas A, B, C e D,... e as linhas numeradas em ordem crescente. Fonte: Peter Sobolev, Shutterstock, 2017. Nessas planilhas, inserimos os bancos de dados provenientes das pesquisas realizadas e, a partir deles, realizamos consultas, cálculos estatísticos, gráficos, entre outras atividades. A partir de agora, você aprenderá como utilizar esse software. License-516599-28480-0-7 ESTATÍSTICA Análise descritiva de dados A estatística descritiva nos possibilita organizar e descrever um conjunto de dados por meio de tabelas e gráficos, que você conhecerá ao longo desta aula. Vamos começar entendendo o que são as tabelas. Tabelas estatísticas Você sabe no que podemos utilizar as tabelas? Em artigos científicos, órgãos governamentais, empresas, jornais, entre outros, justamente por transmitirem informações rápidas aos leitores e possibilitarem comparações. Segundo Triola (2008), quando trabalhamos com grandes conjuntos de dados, muitas vezes é útil organizar e resumi-los com a construção de uma tabela que liste os seus diferentes possíveis valores (individualmente ou em grupos), juntamente com suas frequências correspondentes (ou contagens). Para a sua construção, algumas regulamentações devem ser seguidas. Fonte: karelnoppe, Shutterstock, 2017. License-516599-28480-0-7 ESTATÍSTICA Segundo Tiboni (2010), a tabela é um conjunto de observações sobre um determinado assunto, organizadas e distribuídas num quadro que apresenta a seguinte estrutura: o título, que explica o que a tabela contém, o cabeçalho, que especifica o conteúdo de cada coluna, e o rodapé, que traz demais informações sobre a tabela e a fonte dos seus dados. Veja um exemplo a seguir. Ano População Total 1980 119.002.706 1991 146.825.475 1996 157.070.163 2000 169.799.170 2010 190.755.799 Fonte: INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2017. (Adaptado). A tabela é um quadro que representa de forma sintética um conjunto de dados numéricos para facilitar seu entendimento e leitura. Tipos de gráficos Conseguiu compreender o que é uma tabela? Mas ela não é a única forma de representação de dados numéricos. Conforme Magalhães e Lima (2015), muitas vezes, a informação contida nas tabelas pode ser mais facilmente visualizada em gráficos. De acordo com Tiboni (2010), os principais tipos de gráficos são os seguintes. Gráfico de linhas: representa séries cronológicas de um período grande, por exemplo, comparativos de temperaturas, série histórica do número de habitantes de determinado local ao longo de vários anos e consumo de energia elétrica. License-516599-28480-0-7 ESTATÍSTICA Gráfico de colunas ou barras: faz correspondências entre elementos de uma série estatística e a figura geométrica de um retângulo, que pode ser vertical (colunas) ou horizontal (barras). Usado para representar a taxa de fecundidade de uma mulher (número médio de filhos), a população de um local em vários anos etc. Gráfico de setores ou pizza: é representado por um círculo dividido em setores para comparar o valor de cada setor com o total. Usado, por exemplo, para ilustrar escolaridade, sexo, receita municipal, produção pecuária, entre outros. Fonte: RomanR, Shutterstock, 2017. (Adaptado). Histograma: ilustra uma distribuição de frequência por meio de retângulos justapostos, cada um relacionado a uma classe da distribuição de frequências. Como exemplos, estão a distribuição do número de filhos por famílias e a espessura de peças produzidas por uma empresa em um determinado mês. License-516599-28480-0-7 ESTATÍSTICA 30 25 20 15 10 5 0 Fr eq uê nc ia Polígono de frequências: gráfico de configuração linear obtido quando calculamos o ponto médio de cada intervalo de classe e o marcamos na parte superior do retângulo do histograma. Ao unirmos todos os pontos médios, obtemos a linha do polígono de frequências. Um exemplo é o polígono de frequência da distribuição do número de filhos por famílias. 30 25 20 15 10 5 0 Fr eq uê nc ia Ogiva: gráfico que representa a frequência acumulada, útil para determinar valores que estão abaixo de outro, por exemplo, o polígono de frequência acumulada da distribuição do número de filhos por famílias. License-516599-28480-0-7 ESTATÍSTICA 120 100 80 60 40 20 0 Fr eq uê nc ia a cu m ul ad a Diagrama de dispersão: é representado pelos eixos cartesianos x e y, cada um correspondendo às variáveis que poderão estar correlacionadas no estudo. No eixo vertical, temos y, a variável dependente, e no das abcissas, x, a variável independente. Você verá o assunto com mais profundidade em outras aulas. Clique na figura para assistir ao vídeo License-516599-28480-0-7 ESTATÍSTICA Va riá ve l D ep en de nt e Variável Independente Os gráficos estatísticos são representações visuais que possibilitam uma análise mais rápida dos dados estatísticos. Tipos de séries e séries estatísticas do IBGE Você já ouviu falar em séries estatísticas? Elas são muito úteis para representar dados como a expectativa de vida das mulheres e as taxas de desemprego, de alfabetização, de juros, entre muitos outros exemplos. Mas o que são? A distribuição de um conjunto de dados em função da época, espécie e local é chamada série estatística. De acordo com Tiboni (2010), as séries estatísticas são tabelas representadas por um conjunto de dados estatísticos, classificadas nos tipos a seguir. License-516599-28480-0-7 ESTATÍSTICATemporal: também chamada de cronológica, histórica ou evolutiva, é a série na qual os dados são observados segundo a época de ocorrência. Por exemplo, o consumo de energia elétrica durante o ano em determinada cidade de 1970 a 2010. Geográfica: também chamada de espacial, territorial ou de localização, é a série na qual os dados são observados segundo a localidade da ocorrência. Um exemplo é o número de empresas fiscalizadas em determinado ano por estado. Específica: também chamada de categórica, é a série na qual os dados são observados segundo a modalidade de ocorrência, como ao mostrar o número de matrículas no Ensino Superior realizadas por área de ensino em 2016. Distribuição de frequências: é a série estatística na qual os dados são agrupados com suas respectivas frequências absolutas. Alguns exemplos são: o número de acidentes por dia na Rua X em julho de 2017 e a altura dos alunos da classe escolar x em março de 2017. Quando ordenadas em um determinado intervalo, as informações constituem as séries estatísticas históricas, que nos permitem verificar mudanças em indicadores como saúde, educação, habitação, trabalho, demografia e economia e aprimorar a metodologia para coleta dos dados. Você sabe onde visualizar algumas séries estatísticas? Uma fonte importante é o Instituto Brasileiro de Geografia e Estatística (IBGE). O IBGE tem como principal objetivo divulgar para os diversos públicos, como a área acadêmica, órgãos governamentais e setores privados, informações provenientes de suas pesquisas, demonstrando a realidade socioeconômica e demográfica do país, úteis como ferramentas para tomada de decisões e para agregar conhecimentos. O gráfico a seguir mostra um exemplo de série histórica com dados do IBGE. Nela, verificamos o comportamento da taxa de analfabetismo de pessoas com 10 anos ou mais de 1992 a 2011 no Brasil. License-516599-28480-0-7 ESTATÍSTICA 17 16 15 14 13 12 11 10 9 8 7 1992 1995 1998 1999 2001 2002 2003 2004 2005 2006 2007 2009 2009 2011 Fonte: INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2011. (Adaptado). Você chegou ao final desta aula, que o ajudou a reconhecer a importância das tabelas, gráficos e séries estatísticas. Posteriormente, você verá os recursos tecnológicos que podem ser aproveitados para a análise estatística em sua construção. License-372076-28484-0-5 ESTATÍSTICA Conceitos gerais da experimentação e tipos de amostragem Dependendo das questões que pesquisaremos e do público disponível e acessível para uma pesquisa, uma série de considerações devem ser feitas para decidir qual método de amostragem usar. Vamos investigar esse assunto! Conceitos gerais da experimentação Como definir quais elementos da população vão compor uma amostra? Bolfarine e Bussab (2005) alertam que precisamos pesquisar, planejar, executar, corrigir e analisar de forma adequada o procedimento proposto e usado de coleta de dados. A forma de planejar um experimento não é fechada como uma receita de bolo, pois depende dos objetivos de pesquisa e dos resultados que pretendemos obter com ela, do conhecimento acerca da população etc. Vamos voltar aos tipos de estudos abordados na unidade anterior para explorá-los um pouco mais e observar suas formas de condução. Os conhecimentos que você obteve em unidades anteriores sobre classificação de variáveis e tipos de estudos vão ajudá-lo a delinear seus experimentos de forma mais clara. Critérios para determinação de experimento Você se lembra dos conceitos de estudos observacionais e experimentais? O que os difere é que, nos experimentais, há interferência no sujeito objeto do estudo, diferentemente dos observacionais. Vamos aprofundar um pouco esse tema. Dentro dos estudos experimentais, há algumas variações, de acordo com os seguintes critérios apresentados por Triola (2008): controle de efeito, réplica e aleatorização. License-372076-28484-0-5 ESTATÍSTICA O controle de efeito se refere às formas de contornar possíveis efeitos que não são necessariamente provocados pela variável de estudo. Para contorná-los, Triola (2008) sugere os seguintes experimentos: cegos, nos quais o sujeito submetido ao estudo não sabe se está recebendo um tratamento ou placebo (tratamento sem efeito), e em blocos, em que grupos de participantes são submetidos a diferentes tratamentos. Em experimentos com unidades de experimento vivas, como testes com vacinas e medicamentos em humanos, a pesquisa pode contar aplicadores, isto é, pessoas designadas apenas para administração dos tratamentos que compõem o experimento. Quando esses aplicadores não são os próprios pesquisadores, é possível executar o experimento duplo-cego, uma vez que o pesquisador tem a informação de qual tratamento será administrado, mas não a repassa nem aos aplicadores nem aos sujeitos do estudo. Porém, quando o tratamento é aplicado ao sujeito pelo próprio pesquisador, esse recurso do duplo cego fica inviável. Quando tanto o sujeito da pesquisa quanto o aplicador não sabem qual é o tratamento usado, temos um estudo duplo-cego. Triola (2008) cita como exemplo o estudo de eficácia da vacina Salk, contra a poliomielite. Segundo Campos, Nascimento e Maranhão (2003), ela era produzida a partir do vírus morto e começou a ser utilizada no Brasil a partir de 1955. A partir da década de 1960, foi substituída pela vacina Sabin. Como você lidaria com os possíveis efeitos em um experimento similar? Existem várias formas, como mostra o diagrama a seguir. • Somente os pacientes não sabem se estão recebendo tratamento ou placebo. Experimento cego Experimento duplo-cego • Nem os médicos que aplicam as vacinas nem os pacientes sabem se a aplicação da vacina é um placebo ou um tratamento. Experimento em blocos • Mais tratamentos podem ser testados ao mesmo tempo, possibilitando verificar melhores formulações ou marcas. Fonte: Baseado em Triola (2008). License-372076-28484-0-5 ESTATÍSTICA Compreendeu o controle de efeito? A próxima questão abordada por Triola (2008) é a réplica, que se refere à repetição de grupos de elementos no experimento para aumentar o tamanho amostral e para que os resultados possam ser confirmados ou verificados. Imagine um trecho de terra, dividido em vários quadrantes. Nele, um pretendemos testar diferentes tipos de adubos. Para ter certeza de que os resultados obtidos não vêm de uma porção de terra muito irrigada do quadrante ou que tenha sido exposta a mais sol que as demais, podemos cultivar várias mudinhas em um mesmo quadrante, apenas variando o local do plantio. Assim, colocamos algumas plantas mais na borda, outras no centro do quadrante. Cada uma dessas mudas de um quadrante específico é uma réplica do mesmo tratamento. Por fim, a aleatorização diz respeito à forma como os dados são coletados, para que não haja viés na coleta. Segundo Triola (2008), a amostra aleatória é aquela em que os elementos são selecionados da população, com a mesma probabilidade. Vamos supor um caso clássico: o sorteio de bolas numeradas em uma urna. Para um sorteio justo, todas as bolas devem ter condições iguais de serem sorteadas: mesmo peso, formato e volume. Dessa forma, se tivermos seis bolas nessa urna, numeradas de 1 a 6, a chance de sortear qualquer uma necessariamente é de 1/6 ou cerca de 0,167. Entretanto, em certas situações, por exemplo, pesquisas com doenças raras, a aleatorização e a réplica ficam inviáveis. Tipos de amostras Bolfarine e Bussab (2005) citam dois tipos de amostras: as não probabilísticas e as probabilísticas. Você consegue imaginar as diferenças entre elas? Conforme Triola (2008), as não probabilísticas são aquelas que proporcionam fácil acesso aos dados, sem qualquer outra preocupação. Já as probabilísticas são aquelas em que cada sujeito tem chance conhecida (mas não necessariamente igual) de ser selecionado. Além disso, esse tipo de amostra nos possibilita tirar conclusões acerca da população, desde queseja executada com todo rigor necessário. License-372076-28484-0-5 ESTATÍSTICA Bolfarine e Bussab (2005) dividem em dois tipos as amostras não probabilísticas. O primeiro é a amostra criteriosa, quando utilizamos algum critério de seleção, mas que não chega a tornar a pesquisa probabilística. Um exemplo é a seleção de alunos da 3ª série do Ensino Médio para participar de uma pesquisa sobre a qualidade da escola. Podemos selecionar apenas aqueles com 75% de presença e que, portanto, usufruem mais dos espaços e serviços da escola do que os demais. Ainda assim, essa amostra não seria coletada de forma aleatória, por isso, não é considerada probabilística. O segundo é a amostra intencional, quando a seleção dos participantes é feita pela identificação ao gosto do pesquisador, muito mais que a criteriosa. Podemos citar como exemplo a seleção dos maiores especialistas em determinada doença para a validação de um instrumento de pesquisa. Quanto às amostras probabilísticas, podemos dividi-las em quatro tipos, conforme o quadro a seguir. Amostra Descrição Aleatória simples Uma amostra de n sujeitos é coletada aleatoriamente. Sistemática Escolhe-se um ponto inicial e, a seguir, é selecionado cada k-ésimo elemento da população. Estratificada A amostra tem estratos condizentes com os populacionais, por exemplo, gênero e faixa etária. Por conglomerado A população é dividida em seções e, após o sorteio de n seções, todos os sujeitos das seções serão pesquisados. Fonte: Elaborado pela autora, baseado em Triola (2008). Quer entender melhor? Observe as figuras a seguir, que representam as ideias das amostras probabilísticas. Fonte: Ajay Kumar Singh, Shutterstock, 2017. Fonte: flydragon, Shutterstock, 2017. (Adaptado). Fonte: ESB Professional, Shutterstock. (Adaptado). License-372076-28484-0-5 ESTATÍSTICA Na urna, idealmente cada objeto possui a mesma chance de ser sorteado, representado a amostragem aleatória simples. Já as fichas representadas na segunda imagem podem, por exemplo, representar a lista de moradores dos bairros de uma cidade, da qual escolhemos alguns dos bairros para fazer uma pesquisa representando uma amostragem por conglomerado. Além disso, assumindo que a lista seja de elementos de uma população, a seleção do k-ésimo elemento a partir de um ponto de partida é também a representação de amostragem sistemática. Por fim, o exemplo ilustrado na terceira figura representa uma amostragem estratificada a ser executada a fim de mensurarmos, por exemplo, a opinião de funcionários sobre o plano de saúde oferecido como benefício de uma determinada empresa, mantendo a mesma proporção de homens e mulheres. Independentemente do tipo de amostragem probabilística com a qual trabalhamos, Triola (2008) aponta um conceito muito importante: o erro amostral, que é a diferença entre o resultado amostral e o verdadeiro resultado populacional. As diferenças que encontraremos entre os resultados gerados a partir do experimento com amostras são erro amostral, já equívocos no planejamento e na execução do experimento, na manipulação da base de dados e qualquer outra situação causada pelo pesquisador causam erro não amostral. Erros não amostrais são originados quando uma ou mais das etapas de pesquisa são feitas de forma inadequada. Chegamos ao fim de mais uma unidade! Caso tenha ficado curioso sobre os tipos de amostragem, não deixe de conferir a bibliografia da disciplina. Até a próxima! License-372076-28484-0-5 ESTATÍSTICA License-477005-28478-0-5 ESTATÍSTICA Classificações, fontes de dados e tipos de coletas Você já conhece o conceito de amostra, certo? Vamos expandi-lo um pouco. Independente da forma como ela é coletada, precisa representar bem a diversidade encontrada na população. Vamos investigar mais as características atreladas aos conceitos de população e amostra? Classificações Inicialmente, vamos recapitular os conceitos de população e amostra apresentados na primeira unidade. De acordo com Triola (2008), população é o nome dado à coleção completa de todos os elementos a serem estudados, e amostra é um subconjunto de elementos da população. O autor apresenta dois outros conceitos importantes para o trabalho com dados: parâmetro e estatística. O termo parâmetro é empregado à medida numérica que descreve uma característica populacional, ao passo que estatística é o termo usado para a medida que descreve uma característica amostral. Esses termos serão utilizados ao longo das unidades e ajudam a identificar a origem do conjunto de dados. As características que um parâmetro ou estatística descrevem podem ser, por exemplo, a média, o desvio padrão ou a variância, conceitos que serão trabalhados com mais profundidade em unidades posteriores. Agora, vamos contextualizar os conceitos em um caso prático hipotético para que você os compreenda melhor. Primeiro, observe a figura a seguir. License-477005-28478-0-5 ESTATÍSTICA Fonte: egd, shutterstock, 2017. Suponha que um pesquisador verificou que, em um trecho de rodovia, transitaram entre as 16 e 20 horas uma média de 3000 carros durante todo o ano de 2015. Em 2016, ele quis verificar a média de carros no mesmo local e horários, porém, somente para o mês de dezembro. Durante a pesquisa, verificou que a média dessa amostra de tempo era de 2237 carros. Considerando esse caso, qual dado é o parâmetro e qual é a estatística? A média verificada em 2015 é um parâmetro, pois se trata de toda a informação populacional. Já a média verificada em 2016 é uma estatística, pois é uma parte da informação coletada em apenas uma parte do período, isto é, uma amostra. Fontes de dados Coletar uma amostra exige certos cuidados para não tomarmos decisões equivocadas. Quer entender o porquê? Vamos considerar dois exemplos para identificar a ideia de representatividade populacional na amostra. Bolfarine e Bussab (2005) citam um exemplo simples do cotidiano: uma sopa. License-477005-28478-0-5 ESTATÍSTICA Fonte: Liv friis-larsen, Shutterstock, 2017. Quando cozinhamos uma sopa e desejamos testar seu tempero ou temperatura, não precisamos tomar tudo, basta uma colher. Além disso, devemos mexer a sopa antes de prová-la, ou poderemos tirar conclusões equivocadas. Como? Veja: se pegarmos uma colher da borda do prato, onde a sopa está mais fria, podemos julgar que toda ela está em uma temperatura agradável, entretanto, no centro, está quente demais para ser consumida. Agora, considere outro exemplo. Uma operadora de TV por assinatura quer realizar uma pesquisa de opinião sobre a qualidade do serviço. É provável que, mesmo tendo muitos recursos, seja inviável contatar todos os seus clientes. Inúmeras razões podem levar a essa falta de informação, como a dificuldade de encontrar os clientes no horário comercial, a disponibilidade deles e até mesmo seu interesse em responder a pesquisa. Assim, é mais adequado trabalhar com uma amostra. License-477005-28478-0-5 ESTATÍSTICA O processo de trabalhar com a coleta de dados amostrais é denominado amostragem. Após optar pela amostragem, a empresa deve decidir qual é o método mais adequado à pesquisa e à natureza da população. Trataremos dos métodos de amostragem em unidades posteriores, mas já é importante citar algumas possíveis características da população que podem influenciar os resultados da pesquisa por amostragem. Para tanto, veja a figura a seguir. Fonte: Ollyy, Shutterstock, 2017. Você consegue identificar 25 pessoas de diferentes etnias, gêneros, idades, cortes de cabelo, que utilizam ou não óculos, com e sem cabelos longos etc. Que outras características você consegue identificar? Considerando que há uma diversidade de variáveis, License-477005-28478-0-5 ESTATÍSTICA imagine o que pode acontecer ao não considerá-las na pesquisa. Vamos exercitar melhor essas considerações em unidades posteriores, quando vamos tratar dos tipos de amostragem. Diante disso, podemos afirmarque as coletas de dados assumem critérios que as tornam tendenciosas ou não tendenciosas. Perceba que uma amostra tendenciosa não representa a população a qual pertence e, por essa razão, é considerada uma amostra ruim (TRIOLA, 2008). Ainda de acordo com Triola (2008), há duas fontes distintas de dados: estudos observacionais, quando coletamos informações, mas não interferimos no sujeito do estudo, ou estudos experimentais, quando aplicamos tratamentos e observamos seus efeitos no sujeito de estudo. Na próxima unidade, aprofundaremos esses conceitos. Clique na figura para assistir ao vídeo License-477005-28478-0-5 ESTATÍSTICA Tipos de coleta de dados Os dados podem ser coletados de diferentes formas e com propósitos variados. Bolfarine e Bussab (2005) destacam a importância do instrumento de coleta de dados utilizado, bem como a forma como o aplicador se comunica na abordagem da pesquisa. Por exemplo, um questionário aplicado por meio de uma entrevista oral é uma forma de coleta de dados com comunicação verbal, e a entrevista é o seu instrumento. Telefone E-mail Coleta em campo Fonte: Tachjang; studiostock; Sergey Nivens, Shutterstock.com Você pode utilizar um instrumento de outro pesquisador, quando atender às suas necessidades de sua pesquisa, ou criar um próprio. Além da aplicação de questionários, é possível utilizar acesso a bases de dados de instituições, registros como prontuários, entre outros. São inúmeras as formas de coletas de dados, e a mais adequada ao seu estudo depende do tipo de pesquisa e da forma com que o estudo é delineado. Na próxima unidade, você aprofundará seus conhecimentos sobre planejamento experimental e técnicas de amostragem e verá a importância de conduzir de forma correta seus experimentos. License-477615-28096-0-4 ESTATÍSTICA Histórico, evolução, aplicabilidade e definições básicas da estatística: população, amostra e variáveis Não se sabe ao certo desde quando os conhecimentos e conceitos estatísticos são aplicados. A única certeza é de que o pensamento estatístico é bem antigo. Vamos ver como ele surgiu e evoluiu ao longo da história? Histórico, evolução, aplicabilidade Há registros do uso de levantamento de dados com mais de 2.000 anos na China. Você deve imaginar, entretanto, que essa atividade mudou bastante ao longo do tempo. A estatística como conhecemos hoje é fruto de anos de dedicação de inúmeros pesquisadores e profissionais de diferentes áreas. Uma delas é Florence Nightingale, que, no século XIX, através de estudos estatísticos, descobriu que a alta mortalidade dos soldados era causada por más condições de saneamento (CONSELHO FEDERAL DE ENFERMAGEM, 2012). Em uma pesquisa na internet, você pode encontrar muitos outros profissionais que contribuíram para a evolução da estatística. A partir da década de 1980, a estatística avançou rapidamente. Segundo Triola (2008), com os computadores, a estatística se tornou acessível e ágil. E no que podemos usá-la? Sua aplicabilidade é ilimitada: educação, saúde, jogos etc., pois todo dado coletável pode ser tratado estatisticamente. Definições básicas da estatística: população e amostra Para Magalhães e Lima (2015), estatística é um conjunto de técnicas que permite organizar, descrever, analisar e interpretar dados e é agrupada em três áreas: estatística descritiva, probabilidade e estatística inferencial. Cada uma será estudada License-477615-28096-0-4 ESTATÍSTICA mais profundamente em unidades posteriores. O que você deve saber agora é que só é possível fazer estudos estatísticos se conhecer bem dois conceitos: população e amostra. De acordo com Triola (2008), população é a coleção completa de dados que desejamos entender. Dela, parte a amostra, que é um subconjunto de elementos populacionais. Dê uma olhada na imagem a seguir. Fonte: Shutterstock, 2017. Perceba que o conjunto de todas as peças do quebra-cabeça forma a população, e a peça destacada em vermelho é uma possível amostra dela. Fique atento às diferenças entre população e amostra, pois nas próximas unidades você estudará os cálculos para cada situação. Você já ouviu falar em censo, correto? Ele só pode ser feito quando temos acesso a todos os dados da característica de interesse. Assim, não há necessidade de extrapolar os dados, basta quantificar e apresentá-los. Quando o censo não é possível, seja por qualquer razão (tempo, acesso etc.), utilizamos a técnica de coleta de amostras, denominada amostragem, selecionando sob certos critérios alguns elementos da população para coleta de dados. License-477615-28096-0-4 ESTATÍSTICA Definições básicas da estatística: variáveis Na estatística, tratamos dados como variáveis. Variáveis ContínuasDiscretasOrdinaisNominais Qualitativas Quantitativas Fonte: TRIOLA, 2008 (Adaptado). Para classificar as variáveis, o primeiro passo é descobrir se são numéricas ou não. Caso não sejam numéricas, são classificadas como qualitativas e retratam qualidades das variáveis. Veja a foto a seguir. Quais tipos de variáveis você conseguiria detectar? Fonte: Shutterstock, 2017. License-477615-28096-0-4 ESTATÍSTICA Agora, volte ao diagrama e note que essas variáveis ainda podem ser classificadas em mais dois tipos: as ordinais e nominais, cuja ordem influencia ou não, respectivamente, o tratamento das informações. Tome como exemplo de variável qualitativa ordinal a posição em uma fila (1º, 2º e assim por diante) e de variável qualitativa nominal a cor de cabelo (loiro, castanho etc.). E as variáveis numéricas? Estas são chamadas de quantitativas, já que expressam quantidades, e também podem ser de dois tipos: discretas e contínuas. As discretas são aquelas cuja medida é finita ou enumerável, normalmente valores inteiros, oriundos de contagens. Uma forma fácil de identificar sua natureza é verificar se é possível agrupar dados iguais. Por exemplo, as idades em anos e o peso em quilos. Quando as variáveis assumem valores nos números reais, tidas como infinitas ou não enumeráveis, são classificadas de quantitativas contínuas. Segundo Triola (2008), elas resultam de infinitos valores possíveis que correspondem a alguma escala continua que cobre um intervalo de valores sem vazios, interrupções ou saltos. Fonte: Shutterstock, 2017. License-477615-28096-0-4 ESTATÍSTICA O peso pode assumir infinitos valores em um certo intervalo. Considere uma balança de alta precisão, onde uma pessoa pesa 98,5347 kg. Perceba que dificilmente outra pessoa terá exatamente o mesmo peso, com essa precisão. Percebeu que uma mesma variável pode ser discreta ou contínua? Isso depende da sua forma de apresentação. Por exemplo, a idade apresentada em anos é classificada como quantitativa discreta, mas, se forem considerados os dias, podem surgir valores como 32,4 ou 25,7, tornando-a quantitativa contínua. É o mesmo que ocorre com o peso: considerando apenas os quilos, é uma variável discreta, mas, ao contar também os gramas, torna- se contínua. Para interpretar resultados obtidos de análises, a natureza da variável deve sempre ser considerada. Na próxima unidade, você aprofundará seus conhecimentos sobre acesso e coleta de dados, considerando fontes disponíveis e confiáveis e a forma correta de coletar amostras.
Compartilhar