Buscar

58949_3208_21.07.2014 15.05.09_Estatistica_Parte2_Slide_Dunas_2014.2

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
Métodos Quantitativos
 Engenharia Elétrica
Prof. Norton González
sjunior@fanor.edu.br
norton sng@hotimail.com
 @norton sng 
Graduação em Engenharia Elétrica
Disciplina: Estatística 
Professor: Norton González
2014.2
*
Distribuição de Frequências
Introdução:
	Para um melhor entendimento sobre o conceito de “distribuição de frequências” usaremos o seguinte exemplo (González, 2009).
	Um professor, ao aplicar um teste em uma turma, deseja fazer uma pesquisa sobre a estatura dos seus 50 alunos. A lista dos resultados obtidos foi a seguinte (dados brutos) (González, 2009):
 	
*
Para a elaboração da distribuição de frequências dos dados mencionados, anteriormente, precisamos realizar os seguin-tes passos abaixo (González, 2009):
1º Passo: definição do Número de Classes ( i ).
Utilizam-se, normalmente, três maneiras distintas para se determinar este valor:
a) Regra de Sturges: 
 
b) Regra do Quadrado: 
 
c) Regra da Potência:
 
Onde N é o número de elementos do conjunto. No segundo caso, utilizaríamos o quadrado perfeito mais próximo.
 i = N1/2
 2i ≥ N
 i = 1 + 3,3log(N)
*
2º Passo: cálculo da Amplitude Amostral (AA). É a diferença entre seu maior e seu menor elemento quando feito o rol do conjunto (Xmáx. – Xmin.) (González, 2009). 
 
3º Passo: cálculo da Amplitude do Intervalo de Classes (h). Terá que ser maior do que o quocien-te entre a AA (Amplitude Amostral) e o i (número de classes de uma distribuição de frequências): 
h > AA/i
 
4º Passo: escolher os limites de classe, preferindo, sempre que possível, números inteiros.
 
5º Passo: construir, finalmente, a tabela de frequências.
*
Agrupando os resultados por classes ou intervalos, obteremos a seguinte distribuição de frequências para o nosso exemplo mencionado: 
O arranjo ou organização dos dados brutos por classes, junto com as frequências correspondentes, é chamado de Distribuição de Frequências (González, 2009).
Importante: conforme dito anteriormente, a Distribuição de Frequências é também um tipo de série estatística. Somente a utilizaremos em duas situações:
 *Quando os dados da amostra forem dados contínuos. (Lembrando: dados obtidos por medição);
 *Quando os dados da amostra forem discretos (Lembrando: dados obtidos por contagem), porém, em número acima de 30 (trinta) elementos.
8
17
15
1,70 I – 1,80 
1,80 I – 1,90 
1,60 I – 1,70 
1,50 I - 1,60 
8
Frequências (fi) 
Alturas (em metros) 
1,90 I – 2,00 
2
50
Total 
*
Elementos de uma Distribuição de Frequência:
Classes: são os intervalos de variação de variável. São representados por i = 1, 2, 3, 4, ..., k; onde k é o número total de classes da distribuição (González, 2009).
Frequência de uma classe: indica o número de elementos de uma classe, isto é, o total de vezes que cada valor entra na constituição de uma classe.
Intervalo de classe: é o conjunto de números que constitui o intervalo. É a forma mais comum de agrupar os dados.
Os intervalos de classe são:
1) 3l—5: fechado à esquerda e aberto à direita. Inclui o limite inferior e exclui o limite superior.
2) 3—l5: aberto à esquerda e fechado à direita. Exclui o limite inferior e inclui o limite superior.
3) 3l—l5: fechado à esquerda e à direita. Inclui os dois limites.
4) 3—5: aberto à esquerda e à direita. Exclui os dois limites.
*
Limites de classe: são os extremos de uma classe.
	l = limite inferior
	L = limite superior
 
Ponto Médio de uma classe: é aquele que divide o intervalo de classe em partes iguais (González, 2009). Chamaremos Ponto Médio de PMi, e o calcularemos do seguinte modo: PMi = (L+l)/2
 
Importante: o Ponto Médio de uma classe é o seu legítimo representativo. Os pontos médios de uma distribuição de frequências estão em progressão aritmética, isto é, a diferença entre eles é constante.
 
Amplitude de um intervalo de classe: é a medida do intervalo que define a classe. É obtida pela diferença entre os limites superior e inferior dessa classe. É indicada po h. Temos então: 
 h = L-l
*
Importante: a diferença entre os pontos médios é também igual a amplitude de classe.
 
Obs.: o limite superior de uma classe é o ponto médio do intervalo dessa classe somado com a metade da amplitude da classe. Temos então:
L = PMi + (h/2)
 
Obs.: o limite inferior de uma classe é o ponto médio do intervalo dessa classe subtraído da metade da amplitude de classe. Logo:
 
l = PMi – (h/2)
 
Amplitude total da distribuição: é a diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo) (González, 2009). É designada por AT.
 
AT = Lsuc – lipc
*
Tipos de Frequências:
 
Frequência Simples ou Absoluta (fi)
Indica quantos elementos da amostra pertencem a cada classe (González, 2009).
Obs.: a soma das frequências absolutas é chamada de frequência total ou tamanho da amostra e corresponde ao número total dos dados, geralmente denotada por n.
 
Frequência Absoluta Acumulada Crescente (fac)
Indica o número inferior ao limite superior da classe.
Obs.: é a soma da frequência absoluta de uma classe, com as frequências absolutas de todas as classes anteriores. É conhecida também, como frequência “abaixo de”.
 
Frequência Absoluta Acumulada Decrescente (fad)
Indica o número superior ao limite inferior da classe.
Obs.: é a soma da frequência absoluta de uma classe, com as frequências absolutas de todas as classes posteriores. É conhecida também, como frequência “acima de”.
*
Frequência Relativa (Fi)
Indica em porcentagem, o número de elementos de cada classe (González, 2009) .
Obs.: é determinada quando dividimos a frequência absoluta de cada classe, pela frequência total, isto é, pelo tamanho da amostra. Ou seja: 
Obs.: para o seu cálculo em porcentagem, basta multiplicar o seu valor por 100 e acrescentar o sinal %.
Obs.: a soma das frequências relativas será igual a um, (ou bastante próximo a um).
 
*
Frequência Relativa Acumulada Crescente (Fac)
Indica a porcentagem inferior ao limite superior da classe (González, 2009).
Obs.: é a soma da frequência relativa de uma classe, com as frequências relativas de todas as classes anteriores. É conhecida também, como frequência relativa “abaixo de”.
 
Frequência Relativa Acumulada Decrescente (Fad)
Indica a porcentagem superior ao limite inferior da classe.
Obs.: é a soma da frequência absoluta de uma classe, com as frequências absolutas de todas as classes posteriores. É conhecida também, como frequência relativa “acima de”.
*
Gráficos Estatísticos - São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as tabelas estatísticas (González, 2009).
 
Características – Uso de escalas, sistema de coordenadas, simplicidade, clareza e veracidade.
 
Gráficos de Informação – São gráficos destinados principalmente ao público em geral, objetivando proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações desejadas estejam presentes.
Gráficos de Análise – São gráficos que prestam-se melhor ao trabalho estatístico, fornecendo elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Os gráficos de análise frequentemente vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um texto explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico.
*
Uso indevido dos Gráficos – Podem trazer uma idéia falsa dos dados que estão sendo analisados, chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construção de escalas (González, 2009).
 
Classificação dos Gráficos – Diagramas, Estereogramas, Pictogramas e Cartogramas.
 
1 Diagramas – São gráficos dispostos em duas dimensões. São os mais usados
na representação de séries estatísticas. Eles podem ser:
 
a) Gráficos em barras horizontais
b) Gráficos em barras verticais
Quando as legendas não são breves usa-se de preferência os gráficos em barras horizontais. Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados.
*
c) Gráficos em barras compostas
d) Gráficos em colunas superpostas
 
Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentar cada barra ou coluna segmentada em partes componentes. Servem para representar comparativamente dois ou mais atributos (González, 2009).
 
e) Gráficos em linhas ou lineares
 
São frequentemente usados para representação de séries cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico.
Quando representamos, em um mesmo sistema de coordenadas, a variação de dois fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é denominada de área de excesso.
*
f) Gráficos em setores
 
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no máximo, sete dados (González, 2009).
 
Obs.: as séries temporais geralmente não são representadas por este tipo de gráfico.
*
g) Gráficos temporais
Quando os dados representam observações análogas feitas ao longo do tempo, é conveniente grafá-los em relação ao tempo ou em relação à ordem em que as observações foram feitas. É assim que são feitos os Gráficos temporais. Sempre que os dados são coletados ao longo do tempo, é conveniente grafar as observações em ordem cronológica, marcando o tempo na escala horizontal do gráfico e, na escala vertical, a variável que está sendo medida. Ligando os pontos por segmentos de reta podemos visualizar qualquer modificação ao longo do tempo. Os padrões em um gráfico temporal contribuem para melhor compreendermos os dados. Os resumos da distribuição de uma variável que não levam em conta a ordem temporal, tais como caule e folhas e os histogramas, podem ser enganosos quando há uma variação sistemática ao longo do tempo. Muitos conjuntos interessantes de dados são séries temporais, medidas de uma variável tomadas a intervalos regulares de tempo. Os dados econômicos e sociais do governo são quase sempre publicados como séries temporais. Outros exemplos de séries temporais são: taxas mensais de desemprego, produto interno bruto trimestral, registros meteorológicos, a demanda por eletricidade e as medidas de artigos produzidos por determinado processo de fabricação (Moore & McCabe, 2002).
*
h) Ogiva
 Um gráfico de linha que apresenta as frequências acumuladas (Triola, 2013).
i) Gráfico de pontos
 É um gráfico no qual cada valor de dado é plotado como um ponto ao longo de uma escala de valores. Os pontos que representam valores iguais são empilhados (Triola, 2013).
  
j) Gráficos de Pareto
  É um gráfico de barras para dados qualitativos , com a condição adicional de que as barras são dispostas em ordem decrescente da frequência (Triola, 2013). 
*
k) Gráficos do tipo diagrama de caixas, ou box plot
Um gráfico de caixas é um gráfico do resumo dos cinco números de um conjunto de observações que consiste da menor observação, do primeiro quartil, da mediana, do terceiro quartil e da maior observação, escritos em ordem ascendente com os outliers suspeitos marcados individualmente (González, 2011).
 Obs.: Outliers e as causas do seu aparecimento:
Erro de medição (falha no equipamento durante o experimento);
Erros de execução (erro na transcrição dos dados);
Evidências de uma ocorrência extraordinária ou de uma variabilidade não esperada dos dados.
 
l) Gráficos de caule e folhas, ou stem and leaf
 
Um gráfico caule e folhas dá um quadro rápido da forma de uma distribuição, incluindo, ao mesmo tempo, os valores efetivos no gráfico. O gráfico caule e folhas funciona melhor para pequenos números de observações, que sejam todos maiores que zero (Moore & McCabe, 2002) .
*
2 Estereogramas – São gráficos dispostos em três dimensões, pois representam volume. São usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem (González, 2009).
 
3 Pictogramas – São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos (González, 2009). 
 
4 Cartogramas – São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas (González, 2009).
*
Representação gráfica de uma distribuição
 
Histograma, Polígono de frequência e Polígono de frequência acumulada
 
	Em todos os gráficos acima utilizamos o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas) colocamos os valores da variável e na linha vertical (eixo das ordenadas), as frequências (González, 2009). 
Histograma – É formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. A área de um histograma é proporcional à soma das frequências simples ou absolutas (González, 2009).
*
Polígono de frequência – É um gráfico em linha, sendo as frequências marcadas sobre perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. Para realmente obtermos um polígono (linha fechada), devemos completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e da posterior à última, da distribuição (González, 2009).
 
Polígono de frequência acumulada – É traçado marcando-se as frequências acumuladas sobre perpendiculares ao eixo horizontal, levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe (González, 2009).
 
Obs.: uma distribuição de frequência sem intervalos de classe é representada graficamente por um diagrama onde cada valor da variável é representado por um segmento de reta vertical e de comprimento proporcional à respectiva frequência (González, 2009).
*
Obrigado!

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando