Buscar

ESTATÍSTICA 2

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

ESTATÍSTICA - Unidade 2
Síntese Tabular de Dados - Resumo da análise por meio de tabelas
 
Na análise exploratória de dados, em última instância, todos os resultados são apresentados ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O quê? Quem? Quando? Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas. A tabela a seguir é um exemplo de formato de tabelas, apresentando um modelo para síntese de variáveis categóricas de uma base de dados.
 
TABELA 1 - Análise exploratória de variáveis categóricas: a síntese de variáveis categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas categorias, a frequência de valores em cada categoria e os respectivos percentuais. 
 
Síntese numérica de dados - Separatrizes, Medidas de posição (média, mediana e moda) e medidas de variabilidade (soma dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação) e Medidas de curtose e assimetria.
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como apresentado na tabela. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir quatro aspectos:
1. separatrizes;
2. um valor típico, medida de posição ou de tendência central;
3. uma medida do grau de variabilidade ou de dispersão dos dados;
4. medidas de assimetria e curtose.
Separatrizes: o objetivo das separatrizes é separar em partes iguais a amostra ou dados da pesquisa já ordenados. Percentil: divide os dados em 100 partes. Encontramos a posição da parte dentro dos dados ordenados.
P_10 representa 10% dos dados; 
P_50 é igual à mediana e representa 50% dos dados;
P_90 representa 90% dos dados.
 
Valor Típico ou Medida de Posição ou de Tendência Central 
 
O objetivo é encontrar o valor característico, aquele que melhor represente os dados. Vamos discutir as duas possibilidades mais aplicadas a problemas de pequeno e médio porte na área de ciências exatas e engenharia: a média ( x ¯ ) e a mediana (Md).
 
Média aritmética ()
 
A média aritmética talvez seja a medida mais utilizada em estatística e uma das mais importantes. Pode ser calculada diretamente, usando calculadoras, como a científica e a financeira, bem como depender de todos os dados da distribuição que estiverem à disposição.
Contudo, destaca-se o fato de que a média é sensível aos valores muito extremos do conjunto de dados. Para chegar a ela, é preciso considerar se os dados estão agrupados ou não, pois, em cada caso, o cálculo se dará de uma maneira diferente.
 
Média aritmética de dados não agrupados: é a média aritmética simples ou simplesmente média. A média é definida como o somatório dos dados dividido pela quantidade de dados analisados. Essa definição pode ser representada matematicamente pela fórmula:
 
 
  
Média aritmética de dados agrupados, mas não organizados em classes: 
 
Chamada de média aritmética ponderada é quando os dados estão organizados, contados e organizados na frequência. Nesse caso, as variáveis têm importâncias diferentes, de acordo com a quantidade de vezes que cada dado aparece.
 
 
Média aritmética de dados agrupados em classes: o cálculo da média para dados agrupados é muito parecido com a média ponderada. A diferença é que, quando os dados estão organizados em classes, precisamos calcular o ponto médio dessas classes.
 
  
 
Para calcular o ponto médio de uma classe, basta fazer uma média aritmética dos extremos da classe, ou seja, somar o seu limite inferior com o seu limite superior e dividir o resultado por 2.
 
 
 Mediana (Md) 
 
A mediana é uma medida de tendência central que divide o conjunto de dados analisado em duas partes iguais, cada um com o mesmo número de elementos. Isso significa que "abaixo da mediana deverão estar 50% dos elementos analisados. Acima da mediana deverão estar 50% dos dados analisados" .Tem sua aplicação conveniente quando o conjunto de dados analisados tem valores extremos, ou seja, há valores grandes e pequenos dentro do mesmo conjunto de dados.
Mediana para dados não agrupados: nesse caso, devemos considerar a quantidade de elementos presentes na série que está sendo analisada.
Se a quantidade de dados for ímpar: a mediana é o elemento central. A posição do elemento central é dada pela fórmula: (n+1)/2 , em que n é o número de dados.
Se a quantidade de dados for par: a mediana é igual à média aritmética simples dos dois elementos centrais.
Mediana para dados agrupados sem intervalo de classe: o cálculo é semelhante ao anterior, quando os dados não estão agrupados. Contudo, a utilização da tabela com as frequências acumuladas auxilia no trabalho. Acompanhe os exemplos disponibilizados a seguir.
Mediana para dados agrupados em intervalos de classe: nesse caso, para determinar a mediana, é necessário seguir alguns passos. Veja: 
1º passo: determinar a posição da mediana, que é dada por n. É preciso determinar que metade dos dados seja menor e a outra metade seja maior que a mediana, sendo n o número de dados. 
2º passo: determinar a classe mediana. Com o resultado do 1º passo, basta procurar, na coluna da frequência acumulada, em qual intervalo esse valor se enquadra. A classe mediana é a classe na qual está a mediana.
3º passo: determinar a mediana. Para isso, vamos usar a fórmula:
 
 
lMd = limite inferior do intervalo de classe mediana;
Fant = frequência acumulada da classe anterior à classe mediana;
fMd = frequência simples da classe mediana;
n = número de elementos coletados na pesquisa;
hMd = amplitude do intervalo de classe.
 
Não se esqueça de que para obter a mediana é necessário, antes de tudo, colocar os dados em ordem crescente. Não ordenar os dados é a principal fonte de erro no cálculo da mediana!
a) Se média e mediana forem semelhantes, então usar a média para representar os dados.
b) Se média e mediana forem muito diferentes, então usar a mediana para representar os dados.
 
 
Moda (Mo)
Moda é o valor que ocorre com maior frequência na distribuição dos dados. Quando não existe um valor com maior número de repetições, a moda não existe. Dizemos que o conjunto de dados é amodal. Ao contrário, se mais de um dado do conjunto aparece com o mesmo e maior número de repetições, dizemos que o conjunto de dados é multimodal. 
 
Moda para dados agrupados em intervalos de classe: aqui utilizaremos a fórmula de King para o cálculo da moda. Segundo Bruni (2007), há também as fórmulas de Czuber e a de Pearson. A fórmula é:
 
 
 
l = limite inferior da classe modal;
fant = frequência da classe imediatamente anterior;
fpost = frequência da classe imediatamente posterior;
h = amplitude da classe modal.
 
Quando há valores razoavelmente próximos, ou seja, sem grande variação, a média e a mediana são próximas uma da outra.
 
  
MEDIDA DO GRAU DE VARIABILIDADE OU DE DISPERSÃO DOS DADOS
O objetivo é identificar o quanto os dados são heterogêneos, são imprevisíveis, em suma, quantificar o grau de variabilidade de uma variável quantitativa.
 
Amplitude total (AT)
A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e o valor máximo (máx), o que nos leva à sua amplitude (AT):
 
AT = máx - mín. 
 
Cálculo da amplitude total para dados não agrupados em intervalos de classe: nesse caso, a amplitude total é a diferença entre o maior e o menor valor do conjunto de dados coletados.
 
 
A amplitude é determinada de modo fácil, mas como considera apenas os valores extremos, sua interpretação fica dificultada, podendo distorcer as análises.
 
Variância (s^2) 
 
A variância considera todos os dados coletados
para a variável que está sendo estudada. É o valor que corresponde à média aritmética dos quadrados dos desvios em relação à média. A variância é difícil de ser interpretada. A fórmula para a determinação da variância populacional é: 
 
xi = elemento do conjunto;
x = média aritmética;
n = quantidade de elementos do conjunto.
Contudo, quando o cálculo da variância trata de uma amostra e não de uma população, o que é muito comum em estatística, a fórmula sofre uma correção e o denominador será "n - 1" e não n. Esse ajuste visa corrigir o fato de o número de elementos da amostra ser menor que o número de elementos da população. Então:
 
 
  
Desvio padrão (s) 
 
Essa medida de dispersão permite corrigir a dificuldade de interpretação da variância. O desvio padrão corresponde à raiz quadrada da variância. Assim:
 
s = √s^2 
 
Quanto mais próximo de 0 for o desvio padrão, menor a dispersão do conjunto de dados.
 
Coeficiente de variação (cv)
As medidas de dispersão relativas são aquelas que analisam uma medida de tendência central, geralmente a média aritmética, e as medidas de dispersão, em geral o desvio padrão, de uma única vez. O coeficiente de variação é a medida de dispersão relativa mais usual e representa a razão entre o desvio padrão e a média aritmética. Pode ser representado da seguinte maneira:
 
 Como obter o grau de variabilidade de uma variável? Isso é feito pelo coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a média:
 
 
 
Além de ser uma medida adimensional, o que possibilita comparações entre diferentes variáveis, o CV pode ser interpretado de forma absoluta:
 
QUADRO 1 - Definição e interpretação do grau de variabilidade de um conjunto de dados 
 
 
Síntese gráfica de dados 
TABELA 2 - Gráficos mais úteis 
 
 
 
MEDIDAS DE ASSIMETRIA E CURTOSE
Assimetria e curtose - uma visão geral
A assimetria é a propriedade que indica a tendência de concentração maior dos dados em relação ao ponto central da distribuição, ou "mede o grau de afastamento de uma distribuição em relação a um eixo central”. Assim, quando nos referimos a esse eixo central, as curvas podem ser chamadas, basicamente, de simétricas ou assimétricas. No caso das curvas simétricas, é a média que representa o eixo de simetria, sendo que as distribuições à esquerda e à direita desse eixo são iguais. Uma curva será simétrica quando a média, a moda e a mediana são iguais, ou seja, apresentam um mesmo valor. Já as curvas assimétricas são aquelas em que a média não tem simetria.
 
Curvas simétricas e assimétricas 
 
 
 
Na figura, a curva B representa uma curva simétrica e as curvas A e C são exemplos de curvas assimétricas. Ainda, ao analisar a figura, é possível afirmar que a curva A representa uma assimetria negativa, pois os valores estão concentrados à esquerda do eixo central e, nesse caso, de modo geral, a média é menor que a mediana, enquanto a curva C representa uma assimetria positiva e os valores estão concentrados à direita do eixo central e, em geral, a média é maior que a mediana. Já a curtose é a característica que analisa o grau de achatamento ou alongamento de uma distribuição. Portanto, no caso da curtose, a análise é feita no eixo vertical.
 
Diferentes curtoses 
 
 
 
Ao analisar a figura, é possível observar que há três formas diferentes para a curtose. As curvas achatadas como a curva (c) são chamadas de platicúrticas e dizemos que têm menor curtose, enquanto as curvas alongadas como a curva (a) recebem o nome de leptocúrticas e têm alta curtose. Já as curvas perfeitas, com mediana curtose, como a curva (b), são chamadas de mesocúrticas .
Na análise da assimetria em relação à média, moda e mediana, conforme já destacado, as distribuições são classificadas como simétricas quando a média, a moda e a mediana são iguais e, nesse caso, o grau de assimetria será nulo.
 
Distribuição simétrica 
 
 
 
Temos também as distribuições assimétricas, que podem ser positivas ou negativas.
Distribuição assimétrica positiva 
 
 
Observe que a média é maior que a mediana e a mediana é maior que a moda. Nesse caso temos muitos dados com valores baixos e também muitos dados com valores altos. Um exemplo simples são os salários no Brasil: temos muitos brasileiros que ganham pouco e poucos brasileiros que ganham muito.
 
Distribuição assimétrica negativa 
 
 
 
 Já nessa figura, a média é menor que a mediana e a mediana é menor que a moda.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais

Outros materiais