Aula de Estatística 01

•

UNB

2

0

2

0

Bruna Luiza

18/10/2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

23.873 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

S 
Estatística Descritiva 
Descrição de dados: representação gráfica e tabular de dados. 
Démerson André Polli 
Departamento de Estatística – UnB 
Introdução 
S  O grupo de indivíduos ou objetos para o qual os resultados de 
uma pesquisa, nas diferentes áreas do conhecimento, se aplicam é 
chamado de população. Em outras palavras, sempre que se faz 
uma pesquisa, o interesse é que os resultados do trabalho 
científico/acadêmico sejam referente à população. Por exemplo: 
uma prestadora de serviços de telefonia móvel deseja conhecer 
quais clientes (população) compraria um novo tipo de assinatura; 
um laboratório farmacêutico deseja lançar um novo medicamento 
contra fibromialgia, e deseja saber se o remédio é eficaz (para a 
população dos portadores da doença); uma fábrica de requeijão 
deseja verificar se um aditivo ABHT 890 melhora a consistência 
do produto (a população é um lote de produção). 
Introdução 
S  No entanto, a obtenção de informações a respeito de uma 
população pode exigir muito tempo ou ainda muito recurso 
financeiro. Por exemplo, imagine que você vai lançar um novo 
serviço de taxi VIP aqui no DF. Para lançar o serviço é necessário 
conhecer as pessoas de classe social A ou B+ que comprariam tal 
serviço; e, neste caso, é necessário perguntar a cada pessoa do DF 
em tais classes sociais se o serviço é de interesse. Quanto tempo 
você demoraria para investigar isto? E quanto gastaria para 
cumprir esta tarefa? Lançar o produto sem conhecer o mercado 
pode ser bastante perigoso! 
Introdução 
S  Não é exagero dizer que a única razão da Estatística existir é o 
fato de que o conhecimento de características de uma população 
pode ser muito dispendiosa ou tomar muito tempo. Para resolver 
este problema é comum selecionar um subconjunto da população, 
a amostra, e observar os dados neste subconjunto. Tendo feito tal 
coisa, é o interesse dizer que a população se comporta da mesma 
forma que a amostra - este é o principal objetivo de se estudar 
Estatística!!! 
Introdução 
S  Nesta primeira aula queremos entender como uma variável (ou 
mais variáveis) se comporta(m) na população, partindo de uma 
amostra de elementos desta população, é interessante saber como 
os possíveis valores da variável se distribuem na amostra. Este 
padrão de comportamento é chamado de distribuição de 
frequências desta variável e nos dá uma ideia de como os valores 
possíveis para tal variável são observados na população. 
Introdução 
S  Em um primeiro momento a análise de dados é feita observando 
as características da amostra. Quais são os valores mais 
frequentes? Existem subgrupos na amostra cuja a(s) variável(eis) 
de interesse se comporta(m) de forma diferente? É possível 
visualizar indícios sobre alguns questionamentos sobre a variável 
de interesse ao se observar a amostra? Perguntas deste tipo podem 
ser exploradas ao se observar o conjunto de dados obtidos da 
amostra. Neste primeiro módulo do curso iremos aprender 
algumas técnicas elementares de observação de características do 
conjunto de dados. 
O que é população? 
S  Uma definição simples de população é: "população é o conjunto 
de elementos para os quais o resultado de um levantamento de 
dados diz respeito". No texto introdutório desta aula foram 
elencados alguns exemplos, existem muitos outros (um bom 
exercício é pensar em exemplos de pesquisas e suas respectivas 
populações!). 
O que é população? 
S  No entanto, ao se realizar uma pesquisa nem sempre a população 
(toda) está acessível. Por exemplo: imagine que você deseja fazer 
uma pesquisa com levantamento de dados pelo Facebook a 
respeito da qualidade do sistema de transporte público no DF. A 
sua população de interesse ou população alvo são os moradores 
do DF, no entanto com tal método de pesquisa somente serão 
entrevistados aqueles moradores do DF que possuem acesso à 
Internet e uma conta no Facebook (este grupo é conhecido de 
população acessível). Reparem que as duas populações são 
bastante diferentes! Desejamos conhecer a população alvo e temos 
acesso apenas à população acessível. Se elas forem muito 
diferentes os resultados da população acessível não podem ser 
generalizados para a população alvo. 
O que é amostra? 
S  Nem sempre o acesso aos dados da população é possível, seja por 
custo, tempo ou dificuldade na observação dos elementos da 
população. Esta é o ponto no qual a Estatística começa a 
desempenhar o seu papel: se não é possível obter todos os 
elementos de interesse, podemos olhar para uma parte deste 
conjunto e tirar conclusões (usando o termo técnico, fazer 
inferências) sobre a população. No entanto, vimos que existem 
dois tipos de população: a população de interesse ou população 
alvo e a população acessível. 
O que é amostra? 
S  Como temos acesso apenas à população acessível (que pode 
inclusive ser a própria população de interesse) é necessário 
obter um subconjunto da população acessível para 
prosseguir com a pesquisa. Ao subconjunto da população 
acessível dá-se o nome de amostra. É na amostra que se 
obtém os dados (uma coleção de variáveis que se tem o 
interesse de estudar). 
O que é amostra? 
S  Para ficar mais claro, vamos a um exemplo. Imagine que seja de 
interesse medir o conhecimento basal desta turma de alunos em 
Estatística. Para isto, na próxima aula se aplica um teste com 
perguntas e problemas simples de Estatística. A população de 
interesse é toda a turma... a população acessível serão os alunos 
presentes na sala na próxima aula... e a amostra é qualquer 
subconjunto dos alunos presentes. 
Tipos de variáveis 
S  Na amostra se observam os dados: um conjunto de variáveis 
de interesse para a pesquisa. As variáveis podem ser 
classificadas em qualitativa nominal, qualitativa ordinal, 
quantitativa discreta e quantitativa contínua. 
Tipos de variáveis 
S  Uma variável é chamada de qualitativa quando denota uma 
qualidade ou qualificação; tais variáveis não possuem valor 
numérico. Por outro lado, uma variável é chamada de 
quantitativa quando denota uma quantidade. 
Tipos de variáveis 
S  Uma variável qualitativa nominal define um nome ou uma 
"etiqueta". São exemplos de variáveis nominais: nome, endereço, 
cidade em que reside, cidade de nascimento, modelo de 
automóvel, o RG (apesar de ser uma sequência de números, 
aquilo é um nome!), o CPF (idem), etc. 
Tipos de variáveis 
S  Uma variável qualitativa ordinal define uma classe com ordem 
intrínseca. São exemplos de variáveis ordinais: o grau de 
escolaridade (superior > médio, médio > fundamental, 
fundamental > não alfabetizado), a classe social (A > B, B > C, C 
> D, D > E), as menções da UnB (SS > MS, MS > MM, MM > 
MI, MI > II), etc. 
Tipos de variáveis 
S  Observe que variáveis nominais ordenadas por critérios externos 
não são chamadas de ordinais por este motivo: o nome dos alunos 
desta turma é uma variável qualitativa nominal... se a lista estiver 
ordenada alfabeticamente a variável (apesar de ordenada) 
continua a ser nominal (pois nada me diz, por exemplo que Ana > 
Bianca > ... > João > Pedro > ... etc.). 
Tipos de variáveis 
S  Uma variável quantitativa discreta assume valores em um 
conjunto enumerável de valores, em geral representa uma 
contagem. São exemplos de variáveis discretas: a sua idade em 
anos completos, a quantidade de filhos que a sua mãe teve, 
quantas vezes você passou férias nas ilhas de Java, etc. 
Tipos de variáveis 
S  Uma variável quantitativa contínua assume valores em um 
conjunto contínuo e não enumerável (pense que entre dois valores 
possíveis sempre existira outro valor possível). São exemplos de 
variáveis contínuas: o peso, a altura, a taxa de creatinina no 
sangue, o consumo de um automóvel (em quilômetros por litro), 
etc. 
Tiposde variáveis 
S  Observe que na natureza existem variáveis quantitativas 
contínuas. No entanto, os instrumentos de medida não conseguem 
ler os dados contínuos mas, ao invés disto, a leitura é discreta (por 
exemplo o seu peso é uma variável contínua, mas a balança mede 
em décimos de quilograma, portanto, é a leitura é discreta). 
Checkpoint I 
S  Um engenheiro florestal deseja pesquisar uma espécie de árvore 
quanto a uma epidemia. No entanto, apenas tem acesso às árvores em 
uma floresta na cidade de Cotia, SP. Com relação a este cenário, 
identifique a população de interesse e a população acessível. 
S  A população de interesse são todas as árvores de tal espécie e a 
população acessível são as árvores no estado de São Paulo. 
S  A população de interesse são todas as árvores de tal espécie e a 
população acessível são as árvores na cidade Cotia, SP. 
S  A população de interesse são todas as árvores de tal espécie e a 
população acessível são as árvores na floresta em Cotia, SP. 
S  A população de interesse são todas as árvores de tal espécie e a 
população acessível é idêntica à população de interesse. 
Checkpoint I 
S  Dentre as variáveis abaixo qual é qualitativa ordinal? 
S  Os números de CPF dos moradores de Campinas - SP, em 
ordem decrescente. 
S  A concordância com um determinado assunto (concorda 
muito, concorda, indiferente, discorda, discorda muito). 
S  O sobrenome dos alunos da turma, ordenados por número de 
matrícula. 
S  O peso em quilogramas de um Boeing 747-8. 
Representação tabular de 
variáveis qualitativas 
S  Algumas variáveis não assume valor numérico, mas mesmo assim 
pode ser de interesse para a análise estatística. Por exemplo, a 
cidade ou a unidade da federação (UF) que você nasceu; o seu 
nível de escolaridade ou a sua classe social são variáveis 
qualitativas (ou seja, denotam alguma qualidade a respeito do 
elemento amostral) ou categóricas. 
Representação tabular de 
variáveis qualitativas 
S  Para construir uma tabela de distribuição de frequências de dados qualitativos 
procedemos com uma contagem de quantas vezes cada valor observado na 
variável ocorreu na amostra. Por exemplo, suponha que se pergunte qual o 
nível de instrução de um respondente de um questionário e que, neste caso, as 
possíveis respostas sejam: analfabeto/sem instrução formal, fundamental 
incompleto, fundamental completo, médio incompleto, médio completo ou 
superior. Supondo que foram levantados os seguintes dados: 
S  4 respondentes analfabetos/sem instrução; 
S  5 respondentes com nível fundamental incompleto; 
S  12 respondentes com nível fundamental completo; 
S  7 respondentes com nível médio incompleto e 
S  2 respondentes com nível médio ou superior completo. 
Representação 
tabular de variáveis 
qualitativas 
Nível de 
Instrução 
Frequência 
Absoluta 
Frequência 
Relativa Para construir uma tabela de 
frequências é necessário criar 
(pelo menos) 3 colunas: a 
identificação da variável e as 
frequências absoluta e relativa. 
Representação 
tabular de variáveis 
qualitativas 
Nível de Instrução 
Freq. 
Absoluta 
Freq. 
Relativa 
Analfabeto/sem instrução 
Fund. incompleto 
Fund. completo 
Médio incompleto 
Médio completo/superior 
Na primeira coluna da tabela 
são apresentados os valores 
observados da variável de 
interesse. 
Representação 
tabular de variáveis 
qualitativas 
Nível de Instrução 
Freq. 
Absoluta 
Freq. 
Relativa 
Analfabeto/sem instrução 4 
Fund. incompleto 5 
Fund. completo 12 
Médio incompleto 7 
Médio completo/superior 2 
Na segunda coluna da tabela, 
a frequência absoluta, são 
apresentados as contagens 
observadas em cada categoria. 
Representação 
tabular de variáveis 
qualitativas 
Nível de Instrução 
Freq. 
Absoluta 
Freq. 
Relativa 
Analfabeto/sem instrução 4 13,33% 
Fund. incompleto 5 16,67% 
Fund. completo 12 40,00% 
Médio incompleto 7 23,33% 
Médio completo/superior 2 6,67% 
Na terceira coluna da tabela, a 
frequência relativa, são 
apresentados as percentagens 
referentes a cada categoria. 
Representação tabular de 
variáveis qualitativas 
S  Algumas observações importantes: 
S  O formato de tabela apresentado nesta aula não está em 
conformidade a Norma de Apresentação Tabular do IBGE (veja 
http://biblioteca.ibge.gov.br/visualizacao/monografias/GEBIS
%20-%20RJ/normastabular.pdf). 
S  As tabelas podem apresentar também uma linha de totais. 
S  Duas outras colunas que podem ser adicionadas à tabela são as 
frequências acumuladas (absoluta e relativa). 
S  A ordem de apresentação das categorias de uma variável nominal 
é livre. A ordem para uma variável ordinal deve seguir a ordem 
intrínseca da variável. 
Representação tabular de 
variáveis quantitativas discretas 
S  A construção da tabela é análoga aquela das variáveis 
qualitativas. Basta construir a tabela com um valor 
observado por linha. Por exemplo, suponha que em um 
conjunto de 15 casais existam 8 sem filhos, 5 com 1 filho, 5 
com 2 filhos e 2 com 3 ou mais filhos. 
Representação 
tabular de variáveis 
quantitativas 
discretas 
Filhos por casal 
Freq. 
Absoluta 
Freq. 
Relativa 
Nenhum filho 
1 filho 
2 filhos 
3 filhos ou mais 
Na primeira coluna da tabela 
são apresentados os valores 
observados da variável de 
interesse. 
Representação 
tabular de variáveis 
quantitativas 
discretas 
Filos por casal 
Freq. 
Absoluta 
Freq. 
Relativa 
Nenhum filho 8 
1 filho 5 
2 filhos 5 
3 filhos ou mais 2 
Na segunda coluna da tabela, 
a frequência absoluta, são 
apresentados as contagens 
observadas em cada categoria. 
Representação 
tabular de variáveis 
quantitativas 
discretas 
Filhos por casal 
Freq. 
Absoluta 
Freq. 
Relativa 
Nenhum filho 8 40,00% 
1 filho 5 25,00% 
2 filhos 5 25,00% 
3 ou mais filhos 2 10,00% 
Na terceira coluna da tabela, a 
frequência relativa, são 
apresentados as percentagens 
referentes a cada categoria. 
Representação tabular de 
variáveis quantitativas discretas 
S  Algumas observações importantes: 
S  No caso de tabelas para variáveis quantitativas discretas, cada 
valor observado é considerado uma categoria e é representado 
em uma linha da tabela. 
S  Se houver um número grande de valores distintos observados 
na variável, as categorias podem ser agrupadas (como na 
categoria “3 filhos ou mais” do exemplo anterior. 
S  Se houverem números não consecutivos é aconselhável definir 
intervalos; isto visa facilitar a leitura da tabela. 
Representação tabular de 
variáveis quantitativas contínuas 
S  A construção da tabela para variáveis contínuas difere dos casos 
anteriores pois os valores não podem ser representados 
diretamente na tabela. Para isto é necessário categorizar a 
variável. Por exemplo, imagine que o consumo medido em uma 
amostra de automóveis variou de 10,8 Km/l até 19,5 Km/l. 
Observe que a amplitude, ou seja, a diferença entre o maior e o 
menor valor é 8,7. Se desejamos criar uma tabela com 5 
intervalos, cada intervalo terá uma amplitude igual a 1,74 Km/l. 
Representação tabular de 
variáveis quantitativas contínuas 
S  Ao invés de representar intervalos com amplitude 1,74 Km/l é 
interessante escolher um intervalo maior cuja amplitude é 
múltiplo do número de intervalos (no caso 5). Para isto, basta 
selecionar um intervalo que inicie pouco antes do mínimo e 
termine pouco após o máximo. Por exemplo, o intervalo de 10,0 
Km/l a 20,0 Km/l resulta em 5 intervalos de dimensão 2,0 Km/l: 
10 a 12 Km/l, 12 a 14 Km/l, 14 a 16 Km/l, 16 a 18 Km/l e 18 a 
20 Km/l. Também é necessário definir com precisão os limites de 
cada intervalo, por exemplo, onde entra ovalor 16 Km/l? 
Representação tabular de 
variáveis quantitativas contínuas 
S  Se o intervalo contém o valor à esquerda mas não o da direita é 
chamado de intervalo fechado à esquerda. Por outro lado, se o 
intervalo contém o valor à direita mas não o da esquerda é 
chamado de intervalo fechado à direita. São exemplos de 
intervalos fechados à esquerda: [10; 12), [12; 14), [14; 16), [16 a 
18) e [18; 20). São exemplos de intervalos fechados à direita: (10, 
12], (12, 14], (14, 16], (16, 18], (18, 20]. 
Representação tabular de 
variáveis quantitativas contínuas 
S  Considere os intervalos fechados à esquerda para o consumo de 
combustível por automóvel: [10; 12), [12; 14), [14; 16), [16 a 18) e 
[18; 20). Imagine que em uma amostra de 50 automóveis se 
observou, respectivamente, em cada intervalo as contagens 12, 5, 
25, 5 e 3. A construção da tabela é análoga aos casos anteriores, 
representando os intervalos em cada linha da tabela. 
Representação 
tabular de variáveis 
quantitativas 
contínuas 
Consumo (Km/l) 
Freq. 
Absoluta 
Freq. 
Relativa 
[10, 12) 
[12, 14) 
[14, 16) 
[16, 18) 
[18, 20) 
Na primeira coluna da tabela 
são apresentados os valores 
observados da variável de 
interesse. 
Representação 
tabular de variáveis 
quantitativas 
contínuas 
Consumo (Km/l) 
Freq. 
Absoluta 
Freq. 
Relativa 
[10, 12) 12 
[12, 14) 5 
[14, 16) 25 
[16, 18) 5 
[18, 20) 3 
Na segunda coluna da tabela, 
a frequência absoluta, são 
apresentados as contagens 
observadas em cada categoria. 
Representação 
tabular de variáveis 
quantitativas 
contínuas 
Consumo (Km/l) 
Freq. 
Absoluta 
Freq. 
Relativa 
[10, 12) 12 24,0% 
[12, 14) 5 10,0% 
[14, 16) 25 50,0% 
[16, 18) 5 10,0% 
[18, 20) 3 6,0% 
Na terceira coluna da tabela, a 
frequência relativa, são 
apresentados as percentagens 
referentes a cada categoria. 
Representação tabular de 
variáveis quantitativas contínuas 
S  Algumas observações importantes: 
S  No caso de tabelas para variáveis quantitativas contínuas, é 
necessário categorizar a variável pois a frequência de cada 
valor individual é baixa; e haverá muitos valores distintos na 
variável.