Buscar

teorico-4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Inserir Título Aqui 
Inserir Título Aqui
Estatística Aplicada 
a Análise de Dados
Estatística Descritiva e Medidas
Responsável pelo Conteúdo:
Profa. Dra. Marise de Barros Miranda Gomes 
Revisão Textual:
Profa. Dra. Selma Aparecida Cesarin
Nesta unidade, trabalharemos os seguintes tópicos:
• Introdução ao Tema
• Leitura Obrigatória
• Material Complementar Fonte: iStock/Getty Im
ages
Objetivos
Compreender as principais técnicas da Estatística, com relação às medidas de posição e 
dispersão e suas aplicações para descrever os conjuntos de dados.
Os principais temas abordados são: 
• Introdução à Estatística aplicada à análise de dados: população, amostra, organização e 
técnicas de descrição. Tipos de variáveis: numéricas e categóricas; 
• Medidas de posição: média, moda, mediana, frequência e limites; 
• Medidas de dispersão: máximo, mínimo, amplitude, quartis, variância e desvio padrão;
• Exemplos e aplicações das medidas para análise de dados.
Caro Aluno(a)!
Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o 
último momento o acesso ao estudo, o que implicará o não aprofundamento no material 
trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas.
Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você 
poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns 
dias e determinar como o seu “momento do estudo”.
No material de cada Unidade, há videoaulas e leituras indicadas, assim como sugestões 
de materiais complementares, elementos didáticos que ampliarão sua interpretação e 
auxiliarão o pleno entendimento dos temas abordados.
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de 
discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de 
propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de 
troca de ideias e aprendizagem.
Bons Estudos!
Estatística Descritiva e Medidas
UNIDADE 
Estatística Descritiva e Medidas
Introdução ao Tema
A Estatística é a Ciência Matemática que possibilita a obtenção de informações re-
levantes das massas ou do conjunto de dados, hoje, muito mais aplicável com o auxílio 
computacional e com a grande quantidade de ferramentas estatísticas. 
Além disso, a Estatística também é utilizada para simular tendências, comportamen-
tos e realizar previsões. As Bases de Dados, a Estatística e a Inteligência Artificial for-
mam um tripé que alicerça a busca pelo conhecimento relevante e não trivial de grandes 
volumes de dados, armazenados em diferentes formatos e locais. 
A busca por informações relevantes em grandes conjuntos de dados não é uma tarefa 
fácil. Preliminarmente, é preciso ter a clara necessidade da busca, de uma pergunta que 
precisa ser respondida por uma ou mais respostas. Depois, é preciso reconhecer quais 
conjuntos de dados podem representar respostas úteis. E este é o desafio, no qual o au-
xílio de uma ferramenta computacional ajuda a encontrar respostas úteis em “analitycs” 
de Big Data. 
Introdução à Estatística Aplicada à Análise de Dados
A aplicação de uma técnica Estatística a um conjunto de dados representa um modelo 
típico para tal conjunto. Em outro momento, pode ser que esse modelo já não seja mais 
válido, isto quer dizer, o modelo não se adapta a uma determinada mudança. Esse é um 
bom motivo para esclarecer a necessidade de utilizar modelos estatísticos. 
Primeiramente, há a necessidade de realizar a coleta ou a extração do conjunto de 
dados que pode representar respostas ou possíveis soluções. Para determinado conjunto 
de dados, uma ou mais soluções estatísticas podem ser aplicadas. 
Dependendo do volume do conjunto de dados que se quer analisar, a aplicação de 
técnicas Estatísticas pode requerer muito tempo. Por esse motivo, são criados modelos 
e testados em pequenos grupos do conjunto de dados, com o auxílio de ferramentas 
estatísticas computacionais. Testar ou simular modelos é uma prática muito eficiente na 
aferição ou na acreditação de uma solução estatística. 
Os modelos podem ser considerados para representar a realidade amostrada em 
estudo, destacando aspectos relevantes e desprezando detalhes insignificantes. De 
maneira geral, a técnica estatística auxilia na sumarização, na descrição e na facilidade 
de interpretação do que está sendo estudado. 
6
7
Conhecer algumas definições possibilita esclarecer a Ciência que estuda os dados, a 
Estatística e como aplicá-la nas análises de contexto. Os dados são as observações re-
gistradas. Quando um conjunto de dados tem algum significado dentro de um contexto, 
então, tem-se a informação. 
Exemplo
A representação numérica a seguir remete à ideia do número 1, apenas um número.
Figura 1 – Dado numérico, verde número 1
Fonte: iStock/Getty Images
Se essa observação estiver repetida, em sequência ou não, registrando um determinado 
conjunto de observações, como o exemplo a seguir:
1,1, 2, 3, 3, 4, 5, 5, 1, 1, 2, 2, 7, 7, 8, 9, 2, 2, 2, 2, 2, 3, 3, 4, 5, 7, 8, 8, 1, 2, 3
tem-se o registro de um conjunto de dados numéricos, que podem significar a sequência 
de pedidos de um produto industrial; a venda de remédios por uma rede de farmá-
cias; o consumo de maços de cigarros/dia de homens fumantes... 
Se a esse conjunto de dados numéricos observados e registrados associar-se um con-
texto, um significado, tem-se a informação. 
Esse exemplo de conjunto de dados possibilita, dentro de determinado contexto, 
extrair informação relevante. 
Uma informação relevante é aquela que responde à pergunta, ajuda na tomada de 
decisão, retorna uma medida ou faz parte de um conjunto solução. A sua representação 
pode ser sumarizada na forma de Tabela, Gráfico ou Dashboard.
7
UNIDADE 
Estatística Descritiva e Medidas
Tabela 1 – Estudo IBGE –Tabela das 15 maiores Concentrações Urbanas – 2015
Concentrações urbanas 
com população maior que 
300.000 hab e municípios de 
Boa Vista (RR) e Palmas (TO)
Área
km² Percentual (%)
Total Densa Pouco densa Densa Pouco densa
Total 15167,40 13927,22 1240,18 91,82 8,18
São Paulo/SP 2016,20 1879,52 136,68 93,22 6,78
Rio de Janeiro/RJ 1505,55 1432,83 72,72 95,17 4,83
Belo Horizonte/MG 786,59 654,59 132,00 83,22 16,78
Brasília/DF 680,14 626,50 53,63 92,11 7,89
Porto Alegre/RS 675,93 626,22 49,71 92,65 7,35
Curitiba/PR 581,22 551,65 29,57 94,91 5,09
Goiânia/GO 538,09 479,05 59,04 89,03 10,97
Campinas/SP 474,38 439,23 35,15 92,59 7,41
Fortaleza/CE 397,05 366,69 30,36 92,35 7,65
Recife/PE 389,79 362,16 27,63 92,91 7,09
Salvador/BA 348,77 340,70 8,08 97,68 2,32
São José dos Campos/SP 290,82 257,66 33,16 88,60 11,40
Vitória/ES 245,60 229,19 16,41 93,32 6,68
Manaus/AM 241,26 231,48 9,79 95,94 4,06
Belém/PA 229,91 218,28 11,63 94,94 5,06
Fonte: https://goo.gl/QGpmkb
Para realizar as sumarizações dos dados, representá-los na forma gráfica ou agrupados 
em dashborad (painéis), técnicas estatísticas são aplicadas para demonstrar como esses 
conjuntos de dados se comportam. 
As sumarizações são realizadas em geral e parte do conjunto de dados. Cada vez 
mais volumosos, os conjuntos de dados não permitem que sejam aplicadas técnicas 
estatísticas a todo o conjunto. Até porque, a variabilidade dos dados, sua dinâmica e a 
mudança temporal não permitem uma representação eficiente dessa massa de dados. A 
densidade é um fator determinante para a aplicação de determinada técnica estatística 
para análise. 
Diante de tal restrição, por conta da volumetria do conjunto, a análise amostral é 
a mais recomendada. Para isso, vale lembrar um conceito de população, amostra e 
organização, no contexto da estatística. 
A Estatística, como definem Larson e Farber (2015), é a Ciência que coleta, organiza, 
permite representar comportamentos e apoiar a tomada de decisão. 
Os conjuntos de dados são chamados de população e amostra. A população é 
todo o conjunto, é a coleção de todas as observações registradas; a amostra é parteda população.
8
9
Se P é a população, então A = P-1, é a amostra.
Os dados da amostra são utilizados para formar conclusões quanto ao comportamen-
to das populações. A seleção aleatória é uma técnica para separar os dados apropriados 
ao estudo.
As observações registradas são os parâmetros contidos na população, característica 
populacional. A Estatística aplica-se à amostragem, permitindo a análise de caracterís-
ticas amostrais. 
O que diferencia os métodos estatísticos aplicados é a organização dos dados. Essa 
organização ramifica a Estatística em descritiva e inferencial. 
A Estatística descritiva, estudada nesta Disciplina, é a que descreve a organização, 
a sumarização e a representação dos dados. Já a Estatística inferencial trata de even-
tos probabilísticos e busca padrões que relacionam ocorrências de comportamentos 
aos dados. 
Em geral, a Estatística descritiva responde à pergunta ou confirma afirmações, por 
meio de observações registradas e conhecidas. Já a Estatística inferencial busca deter-
minar padrões e prováveis respostas a parâmetros populacionais desconhecidos. 
Classificação dos Dados
O conjunto de dados reflete um comportamento que se relaciona à natureza do 
dado observado. 
Os dados podem ser classificados como numéricos ou categóricos, em coletas está-
ticas. Mas são denominados, também, conjuntos de variáveis, considerando a dinâmi-
ca da arquitetura de Big Data. 
Os tipos de dados ou variáveis são os numéricos e os categóricos, assim classificados: 
Tabela 2
Tipo Exemplo Classificação
Dados categóricos Feminino, F, alto, idoso, verde Dados Qualitativos
Dados numéricos 1, 1º, 1980, 12 anos, 50 Kg Dados Quantitativos
Medidas
A importância da medida nos conjuntos de dados é determinada por níveis de men-
suração. O conjunto de dados reflete o nível mensurável que pode ter relevância em 
função da técnica estatística que lhe é mais adequada.
9
UNIDADE 
Estatística Descritiva e Medidas
Pedidos
Manutenção
Atividades de Rede HOJE SEMANA
Julho 01 Julho 02 Julho 03 Julho 04 Julho 05 Julho 06 Julho 07
MÊS ANO Status
Visitantes Uso do dispositivo
Ganhos Vendas
Figura 2 
Fonte: Adaptado de iStock/Getty Images
Observação Importante: Toda a medida é efetuada empregando uma técnica es-
tatística. A técnica Estatística empregada é a aproximação de um modelo mate-
mático para determinado conjunto de dados. Esse modelo matemático estatístico 
tenta explicar o comportamento do conjunto de dados. Não será perfeito; é sempre 
uma aproximação. Visto que os modelos matemáticos são equacionados para con-
juntos de dados ideais que se amoldam aos modelos. Já os conjuntos de dados em 
estudo são reais e, portanto, a Estatística tratará de criar hipóteses e aproximá-las 
do melhor modelo, dando-lhes a explicação relevante por meio da análise que ca-
racteriza o seu comportamento.
A classificação dos quatro níveis de mensuração é nominal, ordinal, intervalar e 
racional e, de acordo com o tipo de dados, são representados no Quadro a seguir.
Tabela 3
Tipo Exemplo Classificação Nível de Mensuração
Dados categóricos Feminino, F, alto, idoso, verde Dados Qualitativos
Nível nominal
Nível ordinal
Dados numéricos 1, 1º, 1980,12 anos, 50 Kg Dados Quantitativos
Nível ordinal
Nível intervalar
Nível racional
10
11
Tabela 4 – Resumo das operações nos quatro níveis de medida
Nível de Medida
Categorizar 
os dados
Ordenar os dados
Subtrair os 
valores dos dados
Determinar se o 
valor de um dado é 
múltiplo de outro
Nominal Sim Não Não Não
Ordinal Sim Sim Não Não
Intervalar Sim Sim Sim Não
Racional Sim Sim Sim Sim
Fonte: Larson; Farber (2015).
Média
A média é um modelo matemático que descreve para onde se concentra a posição 
do conjunto de dados. Essa técnica determina o ponto de equilíbrio das frequências 
distribuídas no conjunto. A média pode dar algum significado ao conjunto de dados em 
função de sua variabilidade. 
Pequenas variabilidades das frequências distribuídas ao longo do conjunto de dados 
tendem a ser bem representadas pela média. No entanto, se a variabilidade de dados 
for muito dispersa, a média não representará uma boa medida de posição do ponto de 
equilíbrio desses dados. 
A média é calculada pela soma de todas as observações que se deseja estudar, 
dividindo-se a soma pela quantidade de números das observações. 
Exemplo
Coletaremos a idade das pessoas que ficam na fila do Banco às 10 horas da manhã, 
em uma determinada sexta feira. Essa coleta tem o objetivo de inferir sobre a necessidade 
de priorizar o atendimento aos idosos.
Tabela 5
Cliente Idade
1 18
2 60
3 32
4 33
5 47
6 21
7 64
8 72
11
UNIDADE 
Estatística Descritiva e Medidas
A média das idades é calculada da seguinte maneira:
M_idade=
M_idade=
18 60 32 33 47 21 64 72
8
347
8
+ + + + + + +
M_idade=43,3, considera-se aproximadamente 43 anos em média.
Percebe-se que o resultado obtido pela média nos levará a uma decisão de não prio-
rizar o atendimento ao idoso. Embora tenhamos 3 pessoas com 60 anos ou mais, que 
representam aproximadamente 37% da amostra, a média nos retorna um valor de 43 
anos de idade. 
A média é uma medida de posição que precisa ser usada com critério, para um 
conjunto de dados fixos. Nesse caso, a melhor solução seria mover a média em dois 
segmentos, um de 18 a 47 anos, e outra medida calculando a média das pessoas com 
60 anos ou mais. 
Refazendo os cálculos: 
Tabela 6
Cliente Idade
1 18
2 60
3 32
4 33
5 47
6 21
7 64
8 72
M_idade=
M_idade=
M_idade=30,2 consider
18 60 32 33 47 21
5
151
5
+ + + + +
aa-se
aproximadamente 30 anos em média.
M_idade2=
M_idade2=
M_idade2=65,3 considera-se
ap
60 64 72
3
347
8
+ +
rroximadamente 65 anos em média.
Verificando o conjunto com 8 observações, podemos afirmar que: 
A média M_idade 1 = 30 anos representa 63% de toda a amostra
A média M_idade 2 = 65 anos representa 37% de toda a amostra
Ao mover a média para representar o conjunto de dados de forma equilibrada, 
diminuindo a variabilidade, as médias móveis em dois subconjuntos ou segmentos
da amostra podem ser os melhores modelos estatísticos que os representam.
12
13
A solução: Sim, há a necessidade de priorizar o atendimento, pois a idade média de 
65 anos representa 37% dos clientes no horário determinado. 
Quanto maior a variabilidade dos elementos que compõem os conjuntos de dados, 
maior será a necessidade de segmentá-los. No entanto, se o conjunto de dados tivesse 
pouca variabilidade, a média representaria com propriedade o conjunto. 
Lembre-se de que a média ou média aritmética é uma medida de posição ou de 
tendência central; é a soma das observações obtidas e registradas, dividida pela quantidade 
de observações registradas. 
Mas como saber se a média está sendo aplicada corretamente ao conjunto de dados estudado?
Mediana
A mediana é a medida de posição que qualifica a média, ou seja, quem vai determi-
nar se a média está sendo aplicada de forma correta ao conjunto de dados em estudo. 
O que determina isso é o afastamento ou a aproximação do valor da média em relação 
à mediana. 
A mediana é a medida de posição ou de tendência central, que ocupa a posição 
central do conjunto dos valores da amostra em ordem crescente ou decrescente. Esse 
conjunto pode ser par ou ímpar. Sendo ímpar, o valor da média é aquele que está no 
centro do conjunto de dados observados. Se o conjunto for par, a mediana será o valor 
médio entre os dois números centrais da série de dados. 
Neste exemplo, toma-se o mesmo conjunto de dados da Tabela de idades que foi 
usado para estudar a média:
Tabela 7
Cliente 1 2 3 4 5 6 7 8
Idade 18 60 32 33 47 21 64 72
Organizando as idades, que são as observações, da menor para a maior idade, temos:
Tabela 8
Idade 18 21 32 33 47 60 64 72
33 47
Média
Média par=40
par = +33 47
2
Idade 18 21 32 33 40 47 60 64 72
13
UNIDADE 
Estatística Descritiva e Medidas
Um novo valor médio, na posição central, determina a mediana, valor 40. 
Recordando que a média de todo o conjuntode dados foi calculada em 43 anos de 
idade. Se a mediana de todo o conjunto par, foi 40, significa dizer que a média não está 
próxima da mediana. O que de fato denota uma variabilidade de dados e a média não 
representa adequadamente o conjunto. 
Por outro lado tomado, como base agora a segmentação do conjunto exemplo 
em estudo.
Tabela 9
Idade 18 21 32 33 47
Mediana=32
M_idade=30,2
Diferença diminui entre a média M_idade 1 e a mediana.
Tabela 10
Idade 60 64 72
Mediana=64
M_idade 2=65
Diferença diminui entre a média M_idade 2 e a mediana.
Observação importante
Nos dois ensaios anteriores, a mediana é dada para um conjunto de dados ímpares 
e, portanto, a mediana é exatamente o número de posição central. Quando há uma 
menor variabilidade do conjunto de dados, melhor é a média, pois se aproxima da me-
diana. Quando a variabilidade é maior, a média tende a se distanciar da posição central 
da mediana. 
Moda
Moda em um conjunto de observações é o dado que se repete, no mínimo, mais de 
uma vez, aquele que ocorre com maior frequência. No presente exemplo, não há ne-
nhum dado que se repete e, portanto, não ocorre a moda para esse conjunto. 
No exemplo a seguir, incluindo mais um dado no conjunto, tem-se a moda 32, pois 
se repete duas, no mínimo, duas vezes.
Tabela 11
Cliente 1 2 3 4 5 6 7 8 9
Idade 32 18 60 32 33 47 21 64 72
14
15
Frequência
Na maioria dos conjuntos de dados, várias repetições acontecem. As notas dos alu-
nos, a altura das pessoas, a temperatura ou a pressão sanguínea... são patamares de 
dados discretos e não contínuos. Como as notas, que são de 0, 1, 2 até a nota 10. Pode 
ser de 0,5 em 0,5, 0; 0,5; 1,0; 1,5; 2,0; 2,5; até 9,5; 10,0.
Há 50 observações de notas apontadas aleatoriamente. 
Tabela 12
Notas de alunos
3 8 8 7 9 9 4 4 5 5
9 2 2 7 7 6 9 9 8 7
7 10 2 9 9 9 4 3 5 9
2 3 1 8 8 5 4 5 9 10
2 3 5 6 9 9 9 9 8 4
Organizando o conjunto de dados anterior, em ordem crescente de notas, temos:
Tabela 13
Notas de alunos
1 2 2 2 2 2 3 3 3 3
4 4 4 4 4 5 5 5 5 5
5 6 6 7 7 7 7 7 8 8
8 8 8 8 9 9 9 9 9 9
9 9 9 9 9 9 9 9 10 10
A distribuição de frequências, por nota, é a seguinte:
Tabela 14
Notas Frequências
Nota 1 1
Nota 2 5
Nota 3 4
Nota 4 5
Nota 5 6
Nota 6 2
Nota 7 5
Nota 8 6
Nota 9 14
Nota 10 2
15
UNIDADE 
Estatística Descritiva e Medidas
A seguir, a representação gráfica da distribuição de frequências das notas dos alunos.
Figura 3 – Histograma de frequências de notas
Limites ou Outliers
Os limites ou outliers são os dados que se encontram muito distantes da distribuição 
normal de frequências. Representam os limites inferior e superior do conjunto de dados, 
dependendo da variabilidade do conjunto. 
Por esse motivo, é importante avaliar dentro desses limites a mediana e a média. A 
mediana é a posição central, desconsiderando o viés dado por esses pontos extremos. 
No entanto, o cálculo da média é influenciado ou enviesado pelos outliers. 
Em geral, uma distribuição de frequência ou distribuição normal considera percentu-
ais distantes do intervalo relacionado ao desvio padrão. 
Este percentual é uma tolerância assumida com o objetivo de apontar certo grau de 
confiabilidade ao estudo estatístico e se pode considerar que na distribuição normal: 
• 68% das observações encontram-se a uma distância da média inferior a uma vez o 
desvio padrão;
• 95% das observações encontram-se a uma distância da média inferior a duas vezes 
o desvio padrão;
• 99,7% das observações encontram-se a uma distância da média inferior a três 
vezes o desvio padrão.
Com esses padrões percentuais como critério, é possível definir análises mais robustas 
e profundas em relação a fatos ou dados que estão fora dessas faixas. 
Estes outliers ou limites inferiores e superiores são muito comuns em medidas de 
dispersão, em função e variabilidades extensas nas observações. 
16
17
Medidas de Dispersão
As medidas de dispersão, também chamadas de afastamento ou distanciamento, 
são técnicas que verificam o quanto os valores das observações estão dispersos, afastados 
ou equidistantes em relação às medidas de posição, média e tendência central, a mediana.
Medida de Dispersão: Máximo e Mínimo
O valor máximo de um conjunto de observações é o seu maior valor em ampli-
tude máxima. 
O valor mínimo de um conjunto de observações é o seu menor valor em am-
plitude mínima. 
A amplitude de um conjunto de dados é a diferença entre o maior e o menor valor 
do conjunto de dados. 
Dado o conjunto de dados a seguir, em que foram registradas 20 observações de 
notas de alunos e sua correspondente frequência, presença nas aulas, o valor mínimo do 
conjunto de dados em relação a nota do aluno é 0 (zero) e o valor máximo de nota é 0 
valor 10 (dez). A diferença entre 0 e 10, são 10, que é a amplitude. 
Tabela 15 – Conjunto de notas e presença dos alunos
Aluno Nota Frequência
1 4 75
2 5 76
3 5 88
4 8 88
5 4 80
6 10 90
7 0 30
8 4 30
9 8 75
10 9 76
11 9 100
12 0 10
13 10 100
14 5 80
15 4 85
16 9 87
17 9 77
18 7 78
19 5 90
20 6 92
17
UNIDADE 
Estatística Descritiva e Medidas
Figura 4 – Gráfi co de dispersão do Conjunto de notas e presença dos alunos
Nota-se que a variabilidade dos dados apontam uma aglomeração entre 70 a 100 de 
frequência, e as notas com maior densidade, entre 4 e 10. 
A média de nota será de 6,05 e a mediana é de 5,5. 
A média de frequência será de 75,35 e a mediana é de 80. 
Para a variável nota, o valor máximo é de 10 e a nota mínima é zero. 
Para a variável frequência, o valor máximo de presença é de 100% e o valor mínimo 
é de 30%.
Verifica-se, pelo Gráfico de Dispersão, que há uma tendência às maiores frequências 
e notas acima de 4. 
Então, a medida particionada em quartis revelará em qual faixa há maior densidade 
de notas. Os quartis definem percentual de 25%, 50% e 75%. O 1º quartil comporta 
25%, o segundo quartil é a mediana, os 50%, e o 3º quartil, os 75%. 
Nesse sentido, vale lembrar-se da variância dos dados e do desvio padrão. A va-
riância é a medida de dispersão definida como a média do quadrado dos desvios dos 
elementos em relação à média e o desvio padrão de um conjunto de dados é dado pela 
raiz quadrada da variância.
Para calcular o desvio padrão, é preciso calcular a variância. Com o desvio padrão, 
é possível adotar qual percentual de tolerância é aceitável em um intervalo confiável 
de medida.
18
19
Tabela 16
X médiaX médiaX - X (médiaX-X) ^2 S SD
nota média variância (var) ^2 Desvio Desvio Padrão
4 6,05 2,05 4,2025 8,8921053 2,981963324
5 6,05 1,05 1,1025
5 6,05 1,05 1,1025
8 6,05 -1,95 3,8025
4 6,05 2,05 4,2025
10 6,05 -3,95 15,6025
0 6,05 6,05 36,6025
4 6,05 2,05 4,2025
8 6,05 -1,95 3,8025
9 6,05 -2,95 8,7025
9 6,05 -2,95 8,7025
0 6,05 6,05 36,6025
10 6,05 -3,95 15,6025
5 6,05 1,05 1,1025
4 6,05 2,05 4,2025
9 6,05 -2,95 8,7025
9 6,05 -2,95 8,7025
7 6,05 -0,95 0,9025
5 6,05 1,05 1,1025
6 6,05 0,05 0,0025
168,95 somatória
Onde: 
X é a variável nota, média das notas, variância (diferença entre a média e cada nota), 
var^2 (variância ao quadrado), S é o desvio, e SD é o desvio padrão. 
O desvio padrão resultante das notas é de 2,98. Então, pode-se dizer que a média é 
6,05 ± 2,98.
Isso significa que a faixa confiável está no intervalo mínimo de 6,05 – 2,98 = 3,07, 
e a maior faixa será de 6,05 + 2,98 = 9,03.
Exemplos e Aplicações das Medidas para Análise de Dados: 
Sumarização e Visualização
Tomando como base os dados das notas e frequências de 20 alunos, representados 
na Tabela anterior, em conjunto com o conteúdo abordado, pode-se completar o estudo 
aplicando-se diretamente na ferramenta as técnicas estatísticas ao conjunto de dados.
19
UNIDADE 
Estatística Descritiva e Medidas
Existem comandos em ferramentas estatísticas que já calculam os quartis. O comando 
summary (sumarização) da linguagem de programação Estatística R retorna a seguinte 
informação, em relação à nota e à frequência:
Tabela 17
Nota Frequência
Min.: 0.00 Min.:10.00 Mínimo1st Qu.:4.00 1st Qu.:75.75 1º Quartil - 25%
Median: 5.50 Median: 80.00 Mediana - 50%
Mean: 6.05 Mean: 75.35 Média
3rd Qu.: 9.00 3rd Qu.:88.50 3º Quartil - 75%
Max.:10.00 Max.:100.00 Máximo
Resultados do comando summary em R
Interpretação
dos resultados
Figura 5 – Análise dos dados estatísticos por meio de sua representação gráfi ca – Visualização
O que se verifica ao analisar os box plot das duas variáveis em estudo é que, para as 
notas, o valor do conjunto tem menor variabilidade, todos os dados estão dentro da faixa 
de análise. A faixa ao meio do box representa a mediana (5,5), percebendo-se a pouca 
distância da média. Já na análise do box plot de frequência, fica evidente o outlier entre 
5 até mais ou menos 75%. 
Essa análise pelo gráfico auxilia o entendimento das medidas de posição e dispersão. 
20
21
Orientações para Leitura Obrigatória
A Estatística não é uma Ciência nova. Derivada do termo em latim status (estado), 
possivelmente começou a ter alguma aplicabilidade na Alemanha, por volta de 1748, 
por Achenwall. 
Gottfried Achenwall foi um historiador e jurista alemão, um dos intelectuais que mais 
significativamente contribuiu para o desenvolvimento da Statistik – uma Ciência que 
guarda muito poucas relações com a atual Estatística, pois concernia à descrição abran-
gente das características sócio-político-econômicas dos diferentes estados parecendo, 
nesse sentido, empregada nas escolas para estudos geopolíticos tão somente. 
Ao longo da Idade Média, e até o século XVIII, a Estatística foi purista, apenas des-
critiva, procurando traduzir a regularidade observada de certos fenômenos, de caráter 
econômico e sociológico. 
Nunca se falou, empregou e estudou Estatística como agora. A sua maior força veio 
da quantidade de dados a serem estudados e, atualmente, é um protocolo científico 
capaz de obter, sintetizar, prever e inferir sobre dados. 
Com base na ressignificação da Estatística nos dias atuais recomenda-se do Capítulo 1 
– “As fases do método estatístico (Estatística descritiva)” – p. 17-20). 
21
UNIDADE 
Estatística Descritiva e Medidas
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Sites
ECO R
Informações sobre o Projeto R aplicada a análise de dados de Ecologia.
https://goo.gl/HjbqiL
 Leitura
Índice Nacional da Construção Civil varia 0,58 em Julho
Leia atentamente a notícia do IBGE e avalie se as análises apresentadas estão relacionadas 
a estudos estatísticos.
https://goo.gl/xg72RD
Portal IPEA – Instituto de Pesquisas Economia Aplicada
https://goo.gl/HstWVu
Solução de Big Data é um dos segredos da Alemanha na Copa
Equipe consegue analisar inúmeros dados de treinamentos e jogos, o que ajuda a melhorar 
o desempenho do time. 
https://goo.gl/wKXeLQ
22
23
Referências
CASTANHEIRA, N. P. Estatística Aplicada a todos os Níveis. Curitiba: InterSa-
beres, 2012.
LARSON, R; FARBER, B. Estatística Aplicada. São Paulo: Pearson Education do 
Brasil, 2015.
MEDEIROS, L. F. Banco de Dados: princípios e prática. Curitiba: InterSaberes, 2013.
TARAPANOFF, K. Análise da Informação para tomada de decisão: desafios e 
soluções. Curitiba: InterSaberes, 2015.
23

Continue navegando