Apresentação e resumo de dados (apoio extra às atividades 5 e 6)

Estatística I

•

ESTÁCIO

1

0

1

0

Yuri Carvalho

01/06/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.833 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Capítulo 2 - Apresentação e resumo de
dados
Estatística – 2019/20
Engenharia Mecânica e Engenharia e Gestão Industrial
Adaptado dos apontamentos de Fernando Sebastião
DMAT, ESTG – Instituto Politécnico de Leiria
Sumário
1. Noções básicas:
– População. Amostra. Unidade estatística.
– Atributo. Modalidades.
2. Quadros de frequências:
– Frequências absolutas.
– Frequências relativas.
– Dados agrupados em classes.
3. Redução dos dados:
– Medidas de localização.
– Medidas de dispersão.
– Medidas de assimetria.
4. Representação gráfica:
– Diagrama de barras.
– Diagrama de setores.
– Histograma.
– Boxplot.
2Apresentação e resumo de dados
3
Objetivos/resultados de aprendizagem
Gerais:
• Explorar a informação contida num conjunto de dados.
• Usar espírito crítico na análise dos resultados obtidos quer em termos
numéricos quer em termos computacionais.
Específicos:
No fim deste capítulo da unidade curricular o estudante deverá saber:
Noções básicas:
Identificar a população em estudo.
Identificar a amostra em análise.
Identificar a unidade estatística.
Identificar o atributo em estudo na população.
Distinguir atributos qualitativos e quantitativos.
Caracterizar as modalidades para um determinado atributo.
Apresentação e resumo de dados
4
Objetivos/resultados de aprendizagem
Específicos (continuação):
Quadros de frequências:
Determinar e interpretar as frequências absolutas.
Determinar e interpretar as frequências relativas.
Distinguir os vários tipos de frequências (absolutas e relativas).
Agrupar os dados em classes para um determinado atributo.
Representação gráfica de frequências:
Representar e interpretar o diagrama de barras para atributos qualitativos e
quantitativos.
Representar e interpretar o diagrama de setores para atributos qualitativos e
quantitativos.
Representar e interpretar o histograma.
Distinguir as várias representações gráficas.
Identificar as representações gráficas mais adequadas a cada tipo de atributo.
Apresentação e resumo de dados
5
Objetivos/resultados de aprendizagem
Específicos (continuação):
Redução dos dados:
Definir, determinar e interpretar as medidas de tendência central: média
aritmética, mediana e moda.
Definir, determinar e interpretar as medidas de dispersão, nomeadamente
amplitude total, amplitude interquartis, desvio padrão e variância.
Definir e determinar os percentis, nomeadamente os quartis.
Definir e identificar outliers.
Representar e interpretar diagramas de extremos e quartis.
Definir as medidas de assimetria.
Interpretar as medidas de assimetria através das medidas de tendência central
assim como através do coeficiente de assimetria.
Distinguir a simetria da assimetria negativa e da assimetria positiva.
Apresentação e resumo de dados
6
Tem como objetivo resumir a
informação mais importante
contida num conjunto de
dados, permitindo assim
facilitar a sua compreensão e
interpretação.
Descritiva Indutiva
Tem como objetivo tirar
conclusões sobre as
características da população
a partir da informação
contida numa amostra.
1. Noções básicas
Estatística
Apresentação e resumo de dados
7
Antes de iniciarmos o estudo das metodologias de Estatística descritiva,
importa referir alguma da terminologia comummente utilizada em
qualquer estudo estatístico.
Indivíduo ou unidade estatística
Unidade base sobre a qual o observador realiza as observações.
População ou universo
Conjunto formado por todos os indivíduos em estudo.
Amostra
Subconjunto finito da população que seja representativo desta.
Atributo ou variável
Característica em estudo na população.
Modalidades ou categorias
Resultados possíveis para um determinado atributo.
1. Noções básicas
Apresentação e resumo de dados
8
Uma variável é quantitativa (ex.: peso, altura, quantidade de calorias
consumidas diariamente, temperatura, número de clientes …) quando se
expressa numericamente. Caso contrário é qualitativa.
Atributos ou Variáveis
Qualitativas
Quantitativas
Quando assumem um conjunto de categorias que, embora possam ser
representadas por números, não tem significado transformá-las através
de operações usuais, tais como, adições ou subtrações.
1. Noções básicas
Apresentação e resumo de dados
9
Variáveis Qualitativas
Nominais Ordinais
Não se pode estabelecer
uma relação de ordem entre
as categorias.
Exemplos: sexo, cor, marca
automóvel, …
Exemplo: o sexo, feminino
ou masculino, pode ser
codificado por 0 ou 1.
Pode-se estabelecer uma relação
de ordem entre as categorias.
Exemplos: grau de satisfação,
nível de escolaridade, …
Exemplo: o grau de satisfação
relativamente a um serviço, pode
ser codificado por muito
insatisfeito (1), insatisfeito (2),
satisfeito (3) e muito satisfeito (4).
1. Noções básicas
Apresentação e resumo de dados
10
Variáveis Quantitativas ou de Escala
Discretas Contínuas
Podem tomar um nº finito ou
uma infinidade numerável de
valores (geralmente, as categorias
definem-se no conjunto dos
números inteiros).
Exemplos:
• Nº de clientes;
• Nº de animais de estimação.
Podem tomar uma infinidade de
valores (as categorias definem-se
no conjunto dos números reais).
Exemplos:
• Quantidade vendida de um
produto (em kg);
• Lucro anual (em euros).
1. Noções básicas
Apresentação e resumo de dados
11
Considere-se uma amostra de observações válidas sobre uma
característica que apresenta modalidades distintas 1 2 3 p.
Frequências absolutas (“Frequency”) – ni : número de observações que
pertencem à modalidade , com .
Verifica-se que:
Frequências relativas (“Valid Percent”) - i : percentagem de observações
que pertencem à modalidade , com .
Verifica-se que: e
2. Quadros de frequências
Definição de Frequências
Apresentação e resumo de dados
2. Quadros de frequências
12
counts:
Idade_grupo
Adulto Jovem Muito_jovem Muito_veterano Veterano
307 61 7 68 62
percentages:
Idade_grupo
Adulto Jovem Muito_jovem Muito_veterano Veterano
60.79 12.08 1.39 13.47 12.28
O Rcmdr fornece as frequências absolutas (“counts”), as frequências
relativas em percentagem (“percentages”).
Por exemplo, nesta amostra, existem 61 jogadores que são considerados
jovens, o que corresponde a 12,08% dos jogadores da amostra.
Variáveis Qualitativas
Apresentação e resumo de dados
13
Para o caso em que as variáveis são quantitativas discretas e o número
de modalidades é relativamente elevado, os dados são agrupados em
classes.
Para o caso em que as variáveis são quantitativas contínuas os dados são
agrupados em classes.
Variáveis Quantitativas - Dados agrupados em classes
2. Quadros de frequências
Quantas classes deverão ser utilizadas e quais são?
Apresentação e resumo de dados
14
2. Quadros de frequências
Seja i cada uma das observações da variável.
• Amplitude total dos dados: T i i
Quantas classes deverão ser utilizadas?
Variáveis Quantitativas - Dados agrupados em classes
Regra de Sturges: O número de classes, , a utilizar é o menor inteiro
tal que .
Para o caso em que as classes têm a mesma amplitude:
• Amplitude de cada classe:
Nota: Sempre que possível o número de classes deverá ser entre 5 e
20 inclusive.
Apresentação e resumo de dados
15
2. Quadros de frequências
Variáveis Quantitativas - Dados Agrupados em Classes
Notas:
• (válidos)
• classes pois
• i i
T C
No ficheiro DadosNBA.Rdata, considere-se a variável quantitativa contínua
Altura cujo número de modalidades é relativamente elevado, pelo que as
observações poderão ser agrupadas em classes conforme é exposto sem
seguida.
> numSummary(DadosNBA[,"Altura", drop=FALSE], statistics=c("quantiles"),
+ quantiles=c(0,.25,.5,.75,1))
0% 25% 50% 75% 100% n NA
175.26 193.04 203.20 208.28 220.98 504.00 1.00
Apresentação e resumo de dados
16
2. Quadros de frequências
Variáveis Quantitativas - Dados Agrupados em Classes
counts:
Altura_classes
(175,180] (180,185] (185,190] (190,196] (196,201] (201,206] (206,211] (211,216] (216,221]
6 13 78 32 122 46164 34 9
percentages:
Altura_classes
(175,180] (180,185] (185,190] (190,196] (196,201] (201,206] (206,211] (211,216] (216,221]
1.19 2.58 15.48 6.35 24.21 9.13 32.54 6.75 1.79
Como proceder para efetuar o agrupamento da variável Altura em classes?
Apresentação e resumo de dados
17
Se ao agrupar os dados em classes de igual amplitude, existir alguma que
não contenha observações, então não faz sentido usar essas classes!!!....
Neste caso pode-se diminuir o número de classes de igual amplitude ou
usar classes de diferentes amplitudes!
Variáveis Quantitativas - Dados agrupados em classes
2. Quadros de frequências
Apresentação e resumo de dados
Observação: A classes consideradas pelo Rcmd dão a ideia que as classe têm
amplitude 5 ou 6, no entanto tal deve-se a que os limites das classes estão
arredondadas às unidades. Na verdade, as classes têm iguais amplitudes
sendo o seu valor 5.08.
18
A redução dos dados tem por objetivo resumir a informação neles
contida, isto é, representar as observações através de alguns resultados
numéricos que analisam as características mais importantes.
Medidas de localização
Medidas de dispersão
Medidas de assimetria
3. Redução dos Dados
Servem para analisar se as frequências estão ou não distribuídas
simetricamente em torno das medidas de tendência central.
Dão indicação quer do centro da distribuição dos dados, quer de outros
pontos importantes dessa distribuição-
Dão informações quanto à variabilidade e flutuação dos dados, ou
seja, sobre “quanto” se dispersam os dados e “quanto” estão
espalhados em torno de um centro.
Apresentação e resumo de dados
19
Interpretação:
A média indica o valor que cada observação deveria ter para que a soma de
todas as observações fosse igual à verificada.
As medidas de tendência central
representam a localização do
centro das observações.
Média Aritmética
Mediana
Moda
Indica o valor em torno do qual se distribuem as observações.
Sejam , , as observações da variável.
Média Aritmética (“Mean”)
3.1 Medidas de localização
Apresentação e resumo de dados
20
3.1 Medidas de localização
Interpretação:
Pelo menos 50% das observações têm valor superior ou igual à mediana e
pelo menos 50% das observações têm valor inferior ou igual à mediana.
É o valor que divide as observações em duas partes iguais. Consideremos as
observações ordenadas por ordem crescente:
( ) ( ) ( ) ( ) ( )
Mediana (“Median”)

Apresentação e resumo de dados
21
3.1 Medidas de localização
É a modalidade ou categoria mais frequente na amostra e representa-se por
.
A moda não tem de ser única, pois pode haver mais do que uma modalidade
com igual frequência, sendo essa frequência máxima. Nesse caso, o SPSS
devolve o menor valor da moda.
Moda (“Mode”)
Observação:
Para variáveis qualitativas a única medida de tendência central que faz
sentido determinar é a moda.
Apresentação e resumo de dados
22
3.1 Medidas de localização
Exemplo:
Se todos os indivíduos tivessem a mesma altura, essa altura teria
que ser 200.8364 cm.
Pelo menos 50% dos jogadores têm altura inferior ou igual a 203.2
cm e pelo menos 50% dos jogadores têm altura superior ou igual a
203.2 cm .
O software não apresenta o valor da moda.
Apresentação e resumo de dados
mean 0% 25% 50% 75% 100% n NA
200.8364 175.26 193.04 203.2 208.28 220.98 504 1
23
3.1 Medidas de localização
Características mais importantes da média
• A média aritmética é a medida mais familiar e mais correntemente
utilizada.
• É uma medida influenciada por todos os valores observados.
• O valor da média pode ser enviesado por apenas alguns valores
extremos. Poder, por isso, deixar de ser representativa se a distribuição for
altamente assimétrica devido a alguns valores extremos.
• A média é a medida de tendência central mais eficiente quando se trata
de inferir sobre uma população a partir de dados recolhidos apenas para
uma amostra.
Características mais importantes da moda
• É, em geral, menos utilizada que a média e a mediana.
• Em algumas distribuições pode haver mais que uma moda. Nesse caso a
distribuição diz-se multimodal.
• O valor da moda não sofre a influência de valores extremos.
Apresentação e resumo de dados
24
3.1 Medidas de localização
Características mais importantes da mediana
• A mediana é fácil de calcular e de compreender.
• É determinada pelo número de observações e não pelo seu valor. Deste
modo, os valores extremos, quer sejam grandes ou pequenos, não afetam
o valor da mediana.
• É uma medida muito utilizada sobretudo para distribuições fortemente
assimétricas por não ser afetada por valores extremos.
• Para fins de inferência estatística, a mediana não satisfaz as
propriedades de um bom estimador.
Outras medidas:
Mínimo (minimum) e máximo (maximum)
Quartis (quartiles) – e
Apresentação e resumo de dados
25
3.1 Medidas de localização
Quartis (“Quartiles”):
Os três quartis ( 1, 2 e 3) são os valores que dividem os dados em 4
partes iguais em termos de percentagem de observações.
1 2 3i i
25 % obs.25 % obs.25 % obs. 25 % obs.
Consideremos as observações ordenadas por ordem crescente:
Os valores dos 1º, 2º e 3º quartis com , respetivamente, são
dados por:
( ) ( ) ( ) ( )
é natural
[ ] não é natural
[ ] é o maior número inteiro inferior a
Apresentação e resumo de dados
26
3.1 Medidas de localização
Nota: Existem diferentes formas de definir os quartis, podendo surgir valores
ligeiramente diferentes para o mesmo quartil. Uma possível definição é a
apresentada no slide anterior.
Percentis ou Quantis (”Percentiles”):
São os valores p tais que pelo menos das observações da amostra são
inferiores ou iguais a p e pelo menos das observações da
amostra são superiores ou iguais a p .
• 25 - percentil 25 (q1)
• 50 - percentil 50 (q2)
• 75 - percentil 75 (q3)
• 5 - percentil 5
• 95 - percentil 95
• 99 - percentil 99
Apresentação e resumo de dados
3.2 Medidas de Dispersão
27
As medidas de dispersão mais utilizadas são:
• Amplitude (range) – diferença entre o mínimo e o máximo
• Amplitude interquartis (interquartile range) – diferença entre o 3.º quartil
e o 1.º quartil
• Variância (variance) e desvio padrão (standard deviation) – e , o
desvio padrão é a raiz quadrada (positiva) da variância. São um indicador
do grau de afastamento dos dados relativamente à sua média aritmética.
Quanto maior é o seu valor maior é a dispersão dos dados.
• Coeficiente de variação –
̅
, é o quociente entre o desvio padrão e a
média. Interpreta-se de forma semelhante às 2 medidas anteriores mas
permite comparar amostras, quanto à dispersão, ainda que utilizem
escalas distintas (por exemplo, toneladas e quilos). Esta medida não é
calculada diretamente pelo SPSS.
Apresentação e resumo de dados
28
3.2 Medidas de Dispersão
É a diferença entre o valor observado mais elevado e o valor observado
mais baixo: T i i
As medidas de dispersão analisam o grau de variabilidade das
observações de um conjunto de dados em torno das medidas de
tendência central.
Amplitude Total (“Range”)
Amplitude Interquartis
É a amplitude do intervalo que contém 50% das observações centrais:
q 3 1.
50 % de observações
1 2 3i i
Apresentação e resumo de dados
29
3.2 Medidas de Dispersão
A variância é a média dos quadrados dos desvios das observações em
relação à média aritmética e é dada por:
Quanto maior for o valor da variância mais afastadas estão as observações
da média e logo existe uma maior dispersão das observações, e vice-versa.
Variância (“Variance”)
Alguns autores (e o SPSS) utilizam a variância corrigida em vez da variância
usual, que é dada por:
Apresentação e resumo de dados
30
3.2 Medidas de Dispersão
Quanto maior for o valor do desvio padrão mais afastadas estão as
observações da média e logo existe uma maior dispersão das observações, e
vice-versa.
Desvio Padrão (“Standard Deviation”)
O desvio padrão é a raiz quadrada da variância e é dado por:E o desvio padrão corrigido é dado por:
Nota:
Apresentação e resumo de dados
31
3.2 Medidas de Dispersão
Exercício 2: Observe a seguinte representação gráfica:
Apresentação e resumo de dados
32
3.2 Medidas de Dispersão
Coeficiente de Variação (CV)
As medidas de dispersão até agora apresentadas são medidas absolutas,
pois estão dependentes das unidades em que vem expressa a variável, não
servindo assim de medidas de comparação de dispersão de duas
distribuições diferentes, sobretudo se estas estiverem definidas em
unidades de medida diferentes. Quando tal acontece deve utilizar-se uma
medida de dispersão relativa.
O CV é uma medida de dispersão relativa, útil para a compreensão em
termos relativos do grau de concentração em torno das médias, de
distribuição de frequências distintas:
Um CV superior a 50% indica uma grande dispersão relativa e uma
pequena representatividade da média como medida estatística. Para
valores do CV inferiores a 50% a média será tanto mais representativa
quanto menor o valor deste coeficiente.
Apresentação e resumo de dados
33
3.2 Medidas de Dispersão
Coeficiente de Variação (CV)
Exercício 2: Considere as seguintes estimativas referentes a duas
amostrar de 50 pneus de marcas diferentes:
Marca 1:
Duração média: 50000 km Desvio-padrão: 12000 km
Marca 2:
Duração média: 30000 km Desvio-padrão: 8000 km
Em termos relativos, qual das marcas de pneus apresenta uma maior
dispersão relativa da sua duração? É a marca 2 pois
1 2
Apresentação e resumo de dados
34
3.3 Medidas de Assimetria
Medidas de assimetria (skewness):
Estas medidas caracterizam a forma da distribuição dos dados em torno
da média.
• Informam-nos sobre a forma como se distribuem os dados
horizontalmente, isto é, indicam-nos o grau de concentração dos
dados;
• Assimetria é o grau de afastamento que uma distribuição apresenta
do seu eixo de simetria.
• Este tipo de medidas têm bastante menos aplicação do que as
medidas de localização, ou de dispersão.
• Devem ser corretamente interpretadas, pois poderão não ser tão
credíveis na informação que transmitem, pelo que devem ser
tomadas como meros indicadores.
Apresentação e resumo de dados
35
3.3 Medidas de Assimetria
Coeficiente de Assimetria
• É uma medida que assume o valor zero quando a distribuição de
frequências da amostra é completamente simétrica e assume valores
diferentes de zero (positivos ou negativos) quando a distribuição não
é simétrica.
• Atenção que numa amostra é quase impossível observar simetria
pura. Por isso o coeficiente de assimetria assume valores quase
sempre diferentes de zero. Quanto mais afastado de zero estiver o
coeficiente maior é a assimetria.
Apresentação e resumo de dados
36
3.3 Medidas de Assimetria
Uma distribuição diz-se assimétrica positiva (alternativamente
assimétrica negativa) quando existe uma maior concentração de valores
na zona de valores mais reduzidos (alternativamente elevados) da
amostra e uma maior dispersão para os valores mais elevados.
Assimétrica positiva Quase simétrica Assimétrica negativa
Coef. ass. > 0 Coef. ass. ~ 0 Coef. ass. < 0
Apresentação e resumo de dados
37
3.3 Medidas de Assimetria
Assimetria por comparação da média, mediana e moda
A assimetria também pode ser avaliada comparando os valores da
média, mediana e moda.
moda média
mediana
Assimétrica positiva:
moda < mediana < média
Apresentação e resumo de dados
38
3.3 Medidas de Assimetria
Assimétrica negativa: média < mediana < moda
Distribuição simétrica: média = mediana = moda
Distribuição quase simétrica: média  mediana  moda
Apresentação e resumo de dados
39
3.3 Medidas de Assimetria
Grau de assimetria
Coeficiente de Pearson
ou, quando não dispomos da média ou desvio-padrão, utilizamos:
𝟏
𝒐
𝒆
𝟐
𝟑 𝟐 𝟐 𝟏
𝟑 𝟏
Apresentação e resumo de dados
40
Representação gráfica
Diagrama de Extremos e Quartis ou Caixa de Bigodes
(“Boxplot”)
3
1
i
Quanto menor for a distância entre 2 destas medidas em relação às
restantes, menor é a dispersão das observações nesse intervalo e vice-
versa.
Outlier
moderado
i
max (xi) não outlier
min (xi) não outlier
Sem outliers Com outliersOutlier
severo
Apresentação e resumo de dados