Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Análise Exploratório de Dados
Creativision 1 / 67
Introdução
A finalidade da Análise Exploratória de Dados (AED) é examinar os
dados previamente a aplicação de qualquer técnica estatística. Desta
forma o analista consegue um entendimento básico de seus dados e
das relações existentes entre as variáveis analizadas.
Após a coleta e a digitação de dados em um banco de dados
apropriado, o próximo passo é a análise descritiva. Esta etapa é
fundamental, pois uma análise descritiva detalhada permite ao
pesquisador familiarizar-se com os dados, organizá-los e sintetizá-los
de forma a obter as informações necessárias do conjunto de dados
para responder as questões que estão sendo estudadas.
Creativision 2 / 67
Etapas da AED
Para realizar uma AED recomenda-se seguir as seguintes etapas:
preparar os dados para serem acessíveis à qualquer técnica
estatística;
realizar um exame gráfico da natureza das variáveis individuais a
analizar e uma análise descritiva que permita quantificar alguns
aspectos gráficos dos dados;
realizar um exame gráfico das relações entre as variáveis
analizadas e uma análise descritiva que quantifique o grau de
inter-relação entre elas;
identificar os possíveis casos atípicos (outliers);
avaliar, se for necesário, a presença de dados ausentes (missing);
avaliar, se for necesário, algumas suposições básicas, como
normalidade, lineariedade e homocedasticidade.
Creativision 3 / 67
Etapas da AED
A AED extrai informações de um conjunto de dados sem o peso das
suposições de um modelo probabilístico e as técnicas gráficas
desempenham um importante papel nesta forma de abordagem.
Para que a AED possa ser compreendida, a seguir mostramos a
estratégia de análise da Estatística Clássica, Estatística Bayesiana e
estas duas são confrontadas com a Análise Exploratória de Dados.
Creativision 4 / 67
Etapas da AED
Abordagem Estratégia
Estatística Clássica Problema → Dados → Modelo → Análise
Estatística Bayesiana Problema → Dados → Modelo Priori → Análise
AED Problema → Dados → Análise → Modelo
De acordo com o quadro acima, diferentemente do que é feito na
Estatística Clássica e Estatística Bayesiana, na Análise Exploratória
de Dados não há a imposição de um modelo aos dados, mas sim um
trabalho de mineração nos dados que pode eventualmente indicar
qual o melhor modelo.
A AED vai além do uso descritivo da estatística, procura olhar de
forma mais profunda os dados, sem resumir muito a quantidade de
informações.
Creativision 5 / 67
Extracção da informação
As técnicas a serem utilizadas dependem da natureza de mensuração
das variáveis de interesse:
Extração de dados tabulados : Por exemplo, dados como
CAGED, da ONU, etc
Extração de dados não tabulados É preciso utilizar técnicas
computacionais como: Web Scraping.
Creativision 6 / 67
Escalas de Mensuração
As técnicas a serem utilizadas dependem da natureza de mensuração
das variáveis de interesse:
Nominal: as variáveis são medidas em classes discretas, mas
não é possível estabelecer ordem.
Ordinal: as variáveis são medidas em classes discretas entre as
quais é possível definir uma ordem, segundo uma relação
descritível mas não quantificável.
Intervalar: as variáveis assumem valores quantitativos, não
possuem zero absoluto, i.e. não possuem uma medida de
ausência de atributo.
Razão: as variáveis assumem valores quantitativos, cuja relação
exata entre estes é possível definir porque esta escala possui um
zero absoluto.
Creativision 7 / 67
Escalas de Mensuração
O tipo da análise que pode ser realizado depende da escala de
medida da variável analizada. Na tabela a seguir se sugerem
representações gráficas e resumos descritivos numéricos mais
recomendáveis para realizar essa análise.
Escala de Representações Medidas de Medidas de
medida Gráficas tendência central dispersão
Diagrama de barras
Nominal Diagrama de linhas Moda
Diagrama de pizza
Ordinal Boxplot Mediana Intervalo Interquartílico
Histogramas
Intervalo Poligono de frequências Média Desvio padrão
Razão Média Geométrica Coeficiente de Variação
Creativision 8 / 67
Etapas do Processo Estatístico na pesquisa
1 Formulação ou definição do problema de pesquisa. É o
estágio do planejamento da investigação que corresponde ao que
deve ser feito, todos os detalhes devem ser corrigidos por escrito
de forma explícita. Nesta fase, o problema com o qual estamos
lidando deve ser claro e conciso, a natureza do problema deve ser
descrita, enunciada e delimitada para ser estudada. Você deve
determinar os objetivos, isto é, determinar que estudo será feito,
qual é o seu destino. Um objetivo representa o que se espera que
seja alcançado no futuro como resultado de um processo.
Creativision 9 / 67
Etapas do Processo Estatístico na pesquisa
2 Coleta de dados. É o primeiro passo da execução de tudo o
planejado na fase anterior. A coleta de dados consiste em obter a
informação necessária de acordo com os objetivos propostos. A
coleta pode ser feita com um levantamento da população ou com
uma extração de amostras.
3 Organização de dados. Refere-se à condensação dos dados
coletados. A organização dos dados inclui a correção,
classificação e tabulação da informação.
4 Apresentação de dados. Existem três maneiras de apresentar
dados: são formas literais, forma tabular e forma gráfica. É o
início da análise de informações.
Creativision 10 / 67
Etapas do Processo Estatístico na pesquisa
5 Análise de dados. Os métodos utilizados para analisar dados
estatísticos são numerosos, variando de uma simples observação
ao uso de métodos e modelos complicados. Envolve o cálculo de
medidas de resumo, realização de testes estatísticos,
comparação de variáveis e análise dos resultados de acordo com
o problema e objetivos propostos.
6 Interpretação e conclusões. No final da investigação, deve ser
estabelecido em que medida os objetivos foram alcançados, se o
investimento global se justifica com os resultados finais. Os
resultados devem ser interpretados de forma adequada para
chegar a conclusões válidas do estudo e tomar decisões lógicas.
Creativision 11 / 67
Fontes de Informação
As fontes de informação são classificadas em fontes primárias
quando as informações são obtidas das próprias unidades de
observação e fontes secundárias referem-se à informação já
processada, que se encontra nas instituições, bibliotecas, arquivos,
registros, etc.
Creativision 12 / 67
Métodos de coleta de dados
Registro
Constitui um método de obtenção de dados, cuja base é anotar o que,
como, quando e onde a informação é produzida, nos dando uma visão
dinâmica da população.
Observação
A informação é obtida em forma direta, espontanea ou estruturada, o
elemento em estudo não tem participação na obtenção da informação.
Uma pessoa observa e registra os dados produzidos. Requer pessoal
treinado e não é aplicável a estudos em larga escala. A observação é
um método clássico de investigação científica; Além disso, é a
maneira básica pela qual obtemos informações sobre o mundo que
nos rodeia. A observação, por sua utilidade, é um método que pode
ser usado, junto com outros, para coletar informações.
Creativision 13 / 67
Métodos de coleta de dados
Pesquisa
É feito através da entrevista e do questionário.
Entrevista: É uma conversa ou comunicação oral e pessoal com um propósito
definido, tendo em comum que uma pessoa (entrevistadora) solicita informações
de outro entrevistado chamado para obter dados sobre um determinado
problema. O entrevistador faz perguntas previamente preparadas e impressas
na forma de um programa que contém instruções para o entrevistador, as
perguntas que devem ser feitas e os espaços para as respostas. As entrevistas
podem ser pessoais ou por telefone.
Questionários: não exigem a participação do entrevistador, o entrevistado lê as
questões e registra as respostas correspondentes em um documento. É usado
quando os tópicos a serem investigados são simples e não exigem explicações
elaboradas, ou quando os elementos a serem estudados estão amplamente
dispersos. É menos dispendiosoe cobre uma área geográfica maior. A
limitação que tem é que pode haver uma grande ausência de respostas.
Creativision 14 / 67
Métodos de coleta de dados
Pesquisa
O uso dos Formulários:
Formulário É um tipo de questionário em que o entrevistador auxilia os
entrevistados na hora de responder às questões.
Creativision 15 / 67
Métodos de coleta de dados
Exemplo- Fonte: Lakatos & Marconi(2003)
Exemplo de um Questionário com pergunta dicotômica,
Forma A: Você acha que os Estados Unidos deveriam permitir discursos
públicos contra a democracia?
Forma B: Você acha que os Estados Unidos deveriam proibir discursos públicos
contra a democracia?
Creativision 16 / 67
Métodos de coleta de dados
Exemplo- Resultados
Reaultados do Questionário aplicado:
Forma A:
Deveriam permitir 21%
Não deveriam permitir 62%
Não deram opinião 17%
Forma B:
Não deveriam proibir 39%
Deveriam proibir 46%
Não deram opinião 15%
Creativision 17 / 67
Métodos de coleta de dados
Reomendação
Modo de perguntar no Questionário:
Incliuir a forma positiva e negativa: Você acha que os Estados Unidos deveriam
permitir ou proibir discursos públicos contra a democracia?
Creativision 18 / 67
Métodos de coleta de dados
Experimento
Requer controle das variáveis; A experimentação pura é realizada em
laboratórios onde, para testar hipóteses em humanos, o experimento
controlado é usado levando em conta os fatores relevantes.
También existen otras maneras de recopilar a informação e isso é feito
pela Internet e/ou dos processos de simulação.
Creativision 19 / 67
Organização de dados
As informações obtidas, antes de serem organizadas e analisadas,
são conhecidas como dados brutos, uma vez que ainda não foram
tratados por qualquer método estatístico. A maior quantidade de
dados e os detalhes podem não conter a informação mais útil para a
tomada de decisões.
Uma parte importante do planejamento dos sistemas de informação é
resumir e apresentar os dados para que informações críticas possam
ser obtidas rápida e facilmente.
A organização dos dados coletados inclui a correção, classificação e
tabulação dos dados.
Creativision 20 / 67
Organização de dados
Correção dos dados: Os dados coletados por pesquisas são
aqueles que precisam de uma correção extensiva, em
comparação com os outros métodos de coleta, pois os
entrevistadores e os entrevistados são uma fonte potencial de
erro.
Classificação dos dados: Os dados após corrigidos devem ser
classificados de acordo com as quatro grandes bases: Tempo,
Lugar, Qualidade e Quantidade.
Tabulação de Dados: Os dados classificados devem ser
ordenados em tabelas estatísticas. A tabulação dos dados
coletados em uma amostra depende diretamente do tipo de
variável que queremos analisar.
Creativision 21 / 67
Apresentação de dados
Uma vez que os dados estatísticos foram processados e sistematizados, eles
estão prontos para representação. A apresentação dos dados pode ser feita
através de uma apresentação Literal, Tabular, Grafica.
Apresentação literal: é a apresentação de dados estatísticos dentro
de um relatório. Esta forma de apresentação de informação é usada
quando uma série de dados inclui poucos valores, por isso é mais
apropriado descrever o comportamento dos dados; através da forma
escrita, destacando a importância da informação principal.
Apresentação tabular: é a apresentação através de tabelas
estatísticas.
Apresentação gráfica: é a apresentação através de gráficos, é um
complemento da apresentação tabular, serve para facilitar sua
compreensão e avaliação dos dados. Os gráficos são um recurso
favorito de estatística descritiva.
Creativision 22 / 67
Tabelas e gráficos
São representações ilustrativas, que servem para organizar e
possibilitar a interpretação do trabalho desenvolvido, de forma clara e
objetiva.
A escolha entre o uso de tabela ou gráfico está associada às
características dos dados e ao objetivo a que se propõe, sendo
recomendável priorizar o uso de tabelas, pois estas apresentam
valores precisos.
Creativision 23 / 67
Presentação Tabular
Quando tabelas e gráficos forem transcritos de outros documentos
(cópia direta), é necessária na indicação da fonte, a expressão
"Extraído de:".
Devem ser usadas tabelas: quando for importante apresentar valores
precisos e não apenas tendências e, quando a quantidade de dados
for muito grande, exigindo que os mesmos sejam sumarizados.
Creativision 24 / 67
Presentação Tabular
Tabela é a forma não discursiva de apresentação de informações,
representadas por dados numéricos e codificações, dispostos em uma
ordem determinada, segundo as variáveis analisadas de um
fenômeno.
Existem várias regras para a apresentação de tabelas, porém, essas
não devem ser rígidas. Muitas vezes a criatividade na sua montagem
e edição é necessária para alcançar melhor comunicação. Para a
elaboração de tabelas e figuras, conta-se com inúmeros recursos de
informática que possibilitam a respectiva apresentação na forma
variada de gráficos.
Creativision 25 / 67
Presentação Tabular
Recomenda-se que a tabela:
seja suficientemente completa para ser entendida, dispensando
consulta ao texto;
contenha somente os dados necessários ao seu entendimento;
seja estruturada da forma mais simples e objetiva;
inclua os dados logicamente ordenados e
apresente dados, unidades e símbolos consistentes com o texto.
Creativision 26 / 67
Presentação Tabular
Elementos Essenciais da Tabela
As tabelas são compostas por elementos essenciais representados
pelo número, título, cabeçalho, colunas indicadoras e casas.
Número
deve figurar quando houver mais de uma tabela;
é precedido da palavra Tabela, ambos grafados em negrito, e
localizados no topo da tabela;
a numeração das tabelas deve ser sequencial, indicada por
algarismos arábicos;
Sua menção no texto é obrigatória, na ordem em que é referida.
Creativision 27 / 67
Presentação Tabular
Título
Deve ser completo, conciso e claro, indicando todo o conteúdo da
tabela;
Deve ser apresentado na seguinte ordem: natureza do fato
estudado (o quê), variáveis escolhidas para análise do fato
(como), local (onde) e a época (quando) em que os fatos foram
observados;
O título da tabela é colocado na sua parte superior, grafado com
letras minúsculas, respeitando as regras gramaticais do idioma,
com espaçamento simples entre as linhas.
Creativision 28 / 67
Presentação Tabular
Cabeçalho
Parte superior da tabela que indica o conteúdo das colunas.
Coluna indicadora
Espaço vertical que especifica o conteúdo das linhas.
Casa
Cruzamento de uma linha com uma coluna, onde são indicados os
dados e informações.
Creativision 29 / 67
Presentação Tabular
Elementos Complementares da Tabela
Além dos elementos essenciais podem ser acrescidos às tabelas
elementos complementares, como fonte e notas.
Fonte
A fonte indica a entidade responsável pelo fornecimento dos dados ou
a referência ao documento de onde foram extraídos. Deve ser
posicionada no rodapé da tabela.
o nome da instituição como fonte deve aparecer por extenso, ou
de forma abreviada se conhecida nacional e internacionalmente;
caso a fonte consultada seja uma publicação, deve-se indicar a
referência completa do documento, ou remeter à referência na
listagem final da tese;
a palavra fonte deve ser grafada com a inicial maiúscula, seguida
por dois pontos.
Creativision 30 / 67
Presentação Tabular
Notas e chamadas
Referem-se aos esclarecimentos gerais ou específicos do conteúdo
da tabela. São colocadas no rodapé da tabela logo abaixo da fonte.
as notas apresentam informações de natureza geral destinadas a
conceituar ou esclarecer o conteúdo da tabela e a indicar a
metodologia adotada na coleta e elaboração de dados. Cada nota
deve ser indicada em linha própria, podendo ou não ser
numerada ou identificada por símbolos gráficos;
as chamadas notas específicas servem para esclarecer minúcias
em relação às casas, colunas ou linhas. São indicadas em
algarismos arábicos ou símbolos gráficos;
A palavra "nota"deve ser grafada com a inicial maiúscula, seguidapor dois pontos.
Creativision 31 / 67
Exemplo de Tabela
Tabela: Taxa bruta de inscrição em programas de desenvolvimento infantil
País Período Idade Primeiro ano Último ano
Argentina 1991 1997 3-5 48,4 55,8
Bolivia 1990 1999 4-5 32,2 36,4
Brasil 1/ 1991 1997 4-6 50,5 58,5
Colombia 2/ 1991 1997 3-5 13,2 29,6
Costa Rica 1990 1998 2-6 25,6 29,6
Cuba 1997 0-5 98
Chile 1990 1997 0-5 23,1
Equador 1990 1998 0-5 6,9 13,4
Guatemala 1992 1998 5-6 31,3 37,4
Honduras 1990 1999 4-6 17,1 38,9
México 1990 1998 3-5 62,2 76,9
Nicaragua 1995 1998 3-6 17,2 23,6
Panamá 1990 1998 3-5 17,4 22,2
Paraguai 1990 1997 4-6 8,9 22,6
Perú 1993 1998 3-5 52,3 61,5
Rep. Dominicana 1989 1997 3-5 5,7 27,3
Uruguai 1996 1999 3–5 51,9 63,2
1 / Base de Dados do Instituto da Estatística da UNESCO (junho de 1999).
2 / Para 1991, a fonte é "Instituto da UNESCO para Base de Dados de Estatística".
Fonte: OREALC / UNESCO Santiago. Relatório Regional das Américas: Avaliação da Educação para todos no ano 2000.
Creativision 32 / 67
Gráficos e Figuras
Representação gráfica
Figura é a denominação genérica atribuída aos gráficos, fotografias,
gravuras, mapas, plantas, desenhos ou demais tipos ilustrativos.
Quando a figura for representada apenas por gráficos, a denominação
pode ser feita por esta palavra (gráfico).
Os gráficos representam dinamicamente os dados das tabelas,
sendo mais eficientes na sinalização de tendências.
Deve-se optar por uma forma ou outra de representação dos
dados, isto é, não utilizar tabela e gráfico para uma mesma
informação.
O gráfico bem construído pode substituir de forma simples, rápida
e atraente, dados de difícil compreensão na forma tabular.
Creativision 33 / 67
Exemplo
Dataset "Household Expenditures", do livro do J. Aitchison
A base contém observações dos gastos domiciliares (em HK - Hong
Kong dollars) de 40 domicílios, nos seguintes grupos de despesas:
1 Moradia, incluindo gaz, luz, etc
2 Alimentacao, incluindo bebidas e tabaco
3 Outros bens, incluindo vestuario e bens duraveis
4 Servicos, incluindo transporte e veiculos
Creativision 34 / 67
Gráfico de barras
Para construir um gráfico de barras, representamos os valores da
variável no eixo das abscissas e suas frequências ou porcentagens no
eixo das ordenadas. Para cada valor da variável desenhamos uma
barra com altura correspondendo à sua frequência ou porcentagem.
Este tipo de gráfico é interessante para as variáveis qualitativas
ordinais ou quantitativas discretas, pois permite investigar a presença
de tendência nos dados.
Creativision 35 / 67
Gráfico de Barras
Creativision 36 / 67
Diagrama Circular
Para construir um diagrama circular ou gráfico de pizza, repartimos
um disco em setores circulares correspondentes às porcentagens de
cada valor (calculadas multiplicando-se a frequência relativa por 100).
Este tipo de gráfico adapta-se muito bem para as variáveis qualitativas
nominais.
Creativision 37 / 67
Diagrama Circular
Creativision 38 / 67
Histograma
O histograma consiste em retângulos contíguos com base nas faixas
de valores da variável e com área igual à frequência relativa da
respectiva faixa. Desta forma, a altura de cada retângulo é
denominada densidade de frequência ou simplesmente densidade
definida pelo quociente da área pela amplitude da faixa.
Alguns autores utilizam a frequência absoluta ou a porcentagem na
construção do histograma, o que pode ocasionar distorções (e,
consequentemente, mais interpretações) quando amplitudes
diferentes são utilizadas nas faixas.
Creativision 39 / 67
Histograma
Creativision 40 / 67
Histograma
Creativision 41 / 67
Boxplot
Para construí-lo, desenhamos uma caixa com o nível superior dado
pelo terceiro quartil (Q3) e o nível inferior pelo primeiro quartil (Q1). A
mediana (Q2) é representada por um traço no interior da caixa e
segmentos de reta são colocados da caixa até os valores máximo e
mínimo, que não sejam observações discrepantes.
O critério para decidir se uma observação é discrepante pode variar;
chamaremos de discrepante os valores maiores do que
Q3 + 1, 5 ∗ (Q3 − Q1) ou menores do que Q1 − 1, 5 ∗ (Q3 − Q1).
O Boxplot fornece informações sobre posição, dispersão, assimetria,
caudas e valores discrepantes.
Creativision 42 / 67
Boxplot
Creativision 43 / 67
Boxplot
Creativision 44 / 67
Gráfico de linha ou sequência
Adequados para apresentar observações medidas ao longo do tempo,
enfatizando sua tendência ou periodicidade.
Creativision 45 / 67
Polígono de frequências
Semelhante ao histograma, mas construído a partir dos pontos
médios das classes.
Creativision 46 / 67
Diagrama de dispersão
Adequado para descrever o comportamento conjunto de duas
variáveis quantitativas. Cada ponto do gráfico representa um par de
valores observados.
Creativision 47 / 67
Descrição dos dados
É importante conhecer e saber construir os principais tipos de tabelas,
gráficos e medidas resumo para realizar uma boa análise descritiva
dos dados. Cada ferramenta fornece um tipo de informação e o seu
uso depende, em geral, do tipo de variável que está sendo
investigada.
variável qualitativa* variável quantitativa
tabela de frequências medidas de posição: média, mediana, moda
gráfico de barras medidas de dispersão: variância, desvio-padrão,
diagrama circular (pizza) amplitude, coeficiente de variação
tabela de frequências
histograma
boxplot
gráfico de linha ou sequência
polígono de frequências
*Esta abordagem também pode ser interessante para as variáveis quantitativas discretas.
Creativision 48 / 67
Distribuição de Frequências
A distribuição de frequência é uma disposição tabular de uma série de
classes mutuamente exclusivas que vão de suas respectivas
frequências ou número de elementos que a compõem. Essa
distribuição de frequência pode ser dada em termos absolutos ou
relativos ou em termos acumulados (absoluto e / ou relativo). Assim,
chamaremos a distribuição de frequência para o conjunto de classes
ao lado das frequências correspondentes a cada uma delas.
Classificação
Distribuição de frequência de variáveis quantitativas discretas
Distribuição de frequência de variáveis quantitativas contínuas
Creativision 49 / 67
Distribuição de Frequências de variáveis quantitativas
discretas
Para construir uma distribuição de frequência quando a massa de
dados é composta por variáveis quantitativas discretas, o seguinte
deve ser levado em consideração:
Classifique os valores em forma ascendente, desta forma, a
primeira coluna é construída, que é a classificação dos dados em
categorias mutuamente exclusivas chamadas de classe Yi.
Execute a contagem de cada classe e escreva-as em uma
segunda coluna, que constitui as frequências absolutas ni.
Para calcular as frequências relativas (hi), divida cada
frequência absoluta entre o número total de observações
hi = ni/n, esses valores são colocados em uma terceira coluna.
Creativision 50 / 67
Distribuição de Frequências de variáveis quantitativas
discretas
Também podemos calcular as frequências acumuladas absoluta e
relativa.
As frequências acumuladas absolutas Ni somar as frequências
absolutas até a classe determinada: Ni = n1 + . . . + ni.
As frequências acumuladas relativas Hi se obtem somando as
frequências relativas até a classe escolhida: Hi = h1 + . . . + hi.
Creativision 51 / 67
Distribuição de Frequências de variáveis quantitativas
discretas
Propriedades
As frequências têm as seguintes propriedades:
1 0 < ni < n, n1 + . . . + nk = n, k : Número total de classes
2 0 < hi < 1, h1 + . . . + hk = 1.
3 Ni = n1 + . . . + ni = Ni−1 + ni, N1 = n1, Nk = n.
4 Hi = h1 + . . . + hi = Hi−1 + hi, H1 = h1, Hk = 1.
Observação
Se a tabela de frequência tiver muitas categorias, as variáveis
discretas devem ser tratadas como contínuas.
Creativision 52 / 67
Distribuição de Frequências de variáveis quantitativas
discretas
Frequência Frequência Frequência Frequência
Classes absoluta relativa absoluta relativa
acumulada acumulada
C ni hi Ni Hi
c1 n1 h1 = n1
n
N1 = n1 H1 = N1
n
= h1
. . . . . . .. . . . . . . .
cj nj hj =
nj
n
Nj = n1 + n2 + . . . + nj Hj = N1
n
= h1 + h2 + . . . + hj
. . . . . . . . . . . . . . .
ck nk hk = nk
n
Nk = n Hk = 1
n 1
Creativision 53 / 67
Exemplo
Os seguintes dados correspondem ao número de filhos por família em
50 famílias pesquisadas
2 0 3 4 1 4 0 0 3 2 0 1 1 1 3 4 3
6 6 2 2 3 3 1 5 2 2 5 3 3 3 2 4 4
2 2 0 2 3 5 1 3 4 4 1 3 3 1 5 5
a) Desenvolva uma distribuição de frequência, usando todos os tipos
de frequências.
b) Faça um gráfico de barras
Creativision 54 / 67
Solução a)
Classes ni hi Ni Hi
0 5 0,10 5 0,10
1 8 0,16 13 0,26
2 10 0,2 23 0,46
3 13 0,26 36 0,72
4 7 0,14 43 0,86
5 5 0,10 48 0,96
6 2 0,04 50 1,00
50 1,00
Creativision 55 / 67
Solução b)
Creativision 56 / 67
Distribuição de Frequências de variáveis quantitativas
contínuas
Quando a massa de dados é composta por variáveis quantitativas
contínuas, existem vários critérios para o desenvolvimento de uma
distribuição de frequência, isso dependerá do tamanho do grupo, do
número de classes que deseja obter, etc. Aqui apresentamos as
seguintes recomendações:
Encontre entre os dados os valores máximo e mínimo e calcule o
intervalo (R) dos dados que é a diferença entre o valor máximo e
mínimo.
O número de intervalos de classe ou categorias (k) deve ser
estabelecido, então a amplitude de intervalo C = R/k deve ser
encontrada.
Creativision 57 / 67
Distribuição de Frequências de variáveis quantitativas
contínuas
O número de intervalos k, deve ser determinado de forma a que
possamos trabalhar confortavelmente e ver bem a estrutura dos
dados; então, para nos dar uma ideia de quantas classes serão
necessárias, recomenda-se usar um dos seguintes valores
aproximados:
k =
{ √
n, se n é pequeno
1 + 3, 32 log(n), em outro caso
Construa a primeira coluna que é a classificação dos dados em
intervalos mutuamente exclusivos chamados intervalos de
classe (LIi, LSi)
Creativision 58 / 67
Distribuição de Frequências de variáveis quantitativas
contínuas
Execute a contagem de cada classe e escreva-as em uma
segunda coluna, que constitui as frequências absolutas ni
Para calcular as frequências relativas hi dividir a frequência
absoluta entre o número total de observações, hi = ni/n, estes
valores são colocados numa terceira coluna.
Também podemos calcular as frequências acumuladas
absolutas Ni e as frequências cumulativas relativas Hi, da
mesma forma que foram calculadas para a distribuição de
frequência para dados discretos
Creativision 59 / 67
Representação Gráfica da Distribuição de
Frequências
Histograma
É construído a partir da distribuição de frequência, representando em
cada intervalo, um retângulo que possui esse segmento como base. O
critério para calcular a altura de cada retângulo é manter a
proporcionalidade entre as frequências absolutas (ou relativas) de
cada intervalo e sua área. Os histogramas são gráficos de barras
verticais, construídos nos limites reais de cada classe. Ao desenhar o
histograma, a variável aleatória de interesse é representada ao longo
do eixo horizontal; o eixo vertical representa a frequência absoluta ou
a relativa por classe.
Creativision 60 / 67
Representação Gráfica da Distribuição de
Frequências
Polígono de frequência
Tal como acontece com os histogramas, ao desenhar o polígono de
frequência, a variável aleatória de interesse é representada ao longo
do eixo horizontal, mas dada nos pontos médios e no eixo vertical, a
frequência absoluta ou relativa é representada. O polígono é
construído representando as frequências absolutas ou relativas com
seus respectivos pontos médios e, então, conectando a sucessão de
pontos médios por linhas retas.
Creativision 61 / 67
Representação Gráfica da Distribuição de
Frequências
Ojiva
O gráfico de uma distribuição de frequências acumuladas é conhecido
como uma ojiva. Este diagrama acumulado construído com variáveis
discretas tem a forma de uma escada, no eixo horizontal são
colocadas as marcas de classe e, no eixo vertical, as frequências
acumuladas são colocadas de forma absoluta ou relativa.
O diagrama integral ou Ojiva para uma variável contínua é um gráfico
de linha definido na abcisa a partir dos extremos dos intervalos em
que organizamos a tabela variável e em ordenadas por alturas
proporcionais às frequências acumuladas.
Creativision 62 / 67
Exemplo
Os seguintes dados correspondem às alturas em centímetros de uma
determinada planta.
33 50 61 69 80 35 30 52 53 64 65 71 84 73 81
35 53 65 73 85 41 55 65 74 85 88 74 66 55 41
57 42 66 76 77 89 91 66 59 45 47 67 60 98 77
97 77 60 48 68 58 64 73 68 76 41 65 76 59 64
a) Prepare a tabela de distribuição de frequência com 7 intervalos
de classe.
b) Faça um histograma das alturas das plantas
Creativision 63 / 67
Solução a)
Observamos que:
Xmax = 98; Xmin = 30
Amplitude = R = Xmax − Xmin = 98 − 30 = 68
Número de intervalo de classes: k = 7
Amplitude do intervalo: c = R/k = 68/7 = 9, 7 ∼ 10
Creativision 64 / 67
Solução a)
[LIi − LSi] ni hi Ni Hi Yi
[30 − 40) 4 0,066 4 0,066 35
[40 − 50) 7 0,117 11 0,183 45
[50 − 60) 10 0,167 21 0,350 55
[60 − 70) 17 0,283 38 0,633 65
[70 − 80) 12 0,200 50 0,833 75
[80 − 90) 7 0,117 57 0,950 85
[90 − 100] 3 0,050 60 1,000 95
60 1,00
Creativision 65 / 67
Solução b)
Creativision 66 / 67
Bibliografia)
Aitchison, J. (1986) The Statistical Analysis of Compositional
Data, Monographs on Statistics and Applied Probability
(Chapman & Hall Ltd, London).
Creativision 67 / 67

Mais conteúdos dessa disciplina