Buscar

Apostila Estatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 134 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Notas de Aula de Introdução 
à Estatística 
 
Professor Kleison Freitas 
 
 
2017.1 
 
 
 
 
 
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 2 
 
Informações Sobre a Disciplina 
 
- Apresentação: Cursando a disciplina de Introdução à Estatística, o acadêmico poderá utilizar a 
ferramenta estatística na tomada de decisões que tangem às funções empresariais ou acadêmicas, através de 
uma postura crítica e reflexiva. 
 
- Objetivos 
1. O aluno compreenderá o uso da estatística na prática do seu curso de formação; 
2. Entenderá a metodologia de uma pesquisa estatística, desde o entendimento do briefing até a sua eficaz 
execução, com foco na inferência estatística; 
3. Utilizar a objetividade e a probabilidade como uma base nas tomadas de decisões; 
4. Simultaneamente desenvolver cálculos básicos da estatística e interpretá-los. 
 
- Metodologias: Utilizar as técnicas estatísticas através de aulas expositivas possibilitando o discente na 
resolução de problemas em sua área de atuação e formação. 
 
- Sistema de Avaliação: Haverá 3 avaliações parciais durante o semestre. A média do aluno será 
composta pela média aritmética das notas das avaliações. Se a Média ≥ 7, o aluno estará aprovado por média. 
O aluno estará reprovado se a Média < 4. Na situação de 4 ≤ Média < 7, o aluno deverá submeter-se a uma 
avaliação final (AF) e sua média final será dada por: Média Final Após AF = (Média + AF)/2. Nesse caso, o 
aluno será aprovado se AF  4 e MF  5. 
 
- Sistema de frequência: O aluno deve ter no mínimo 75% de frequência. Se o aluno tiver acima de 24 
faltas estará reprovado por falta, visto que cada aula são duas faltas ou duas presenças, respectivamente. O 
aluno deverá administrar as suas faltas. 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 3 
 
Informações Sobre o Professor Kleison Freitas 
Graduação 
Curso: Estatística 
Instituição: Universidade Federal do Ceará - Ano de Conclusão: 2004 
 
Pós-Graduação 
Curso: Mestrado em Logística e Pesquisa Operacional 
Instituição: Universidade Federal do Ceará - Ano de Conclusão: 2009 
 
Curso: MBA em Administração e Marketing 
Instituição: Centro Universitário Internacional Uninter – Paraná – SC - Em andamento 
 
Experiência no Magistério 
1. Professor da Universidade Federal do Ceará (UFC). 
Setor de estudo: Probabilidade e Estatística. 
Departamento de Estatística e Matemática Aplicada (DEMA) do Centro de Ciências. 
Cursos em que já ministrou/ministra aulas: Biblioteconomia, Ciências Atuariais, Ciências Biológicas, Ciências 
Contábeis, Computação, Engenharia de Alimentos, Engenharia Elétrica, Engenharia Mecânica, Engenharia 
Metalúrgica, Engenharia de Pesca, Geografia, Química, Matemática e Publicidade e Propaganda. 
Desde Abril de 2006. 
 
2. Professor das Faculdades Nordeste (FANOR)/Devry Brasil. 
Cursos de graduação em que ministrou/ministra aulas: Administração, Ciências Contábeis, Construção de 
Edifícios, Engenharia Ambiental, Engenharia Civil, Engenharia Elétrica, Engenharia de Produção, 
Engenharia Química, Gestão Comercial, Logística, Marketing, Nutrição, Processos Gerenciais, Psicologia, 
Recursos Humanos e Sistema de Informação. 
Disciplinas: Estatística, Bioestatística e Pesquisa Operacional. 
Desde Agosto de 2007. 
 
Curso de pós-graduação em que ministrou/ministra aulas: MBA´s em Negócios. 
Disciplina: Métodos Quantitativos e Pesquisa Operacional. 
Desde Abril de 2010 
Disciplina: Métodos Quantitativos e Pesquisa Operacional. 
Desde Abril de 2010 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 4 
 
Calculadoras Sugeridas e Obrigatórias 
 
 
 
 
 
 
 
 Modelo Casio fx 82 MS ou HP – Modelo: 12C 
 
Bibliografia Recomendada 
 
 TRIOLA, M. F. Introdução à Estatística. 11ª Edição. Rio de Janeiro. Livros Técnicos e Científicos, 2013. 
 MORETIN, L. G. Estatística básica: Probabilidade e Inferência. Volume único. São Paulo: Pearson, 
2010. 
 LAPONNI, J.C. Estatística Usando o Excel. 4ª Edição. Editora Campus, 2005. 
 
 
 
 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 5 
 
Nota de Aula 1 – Introdução Geral à Estatística 
 
 
1. ESTATÍSTICA: É uma ciência que utiliza teorias probabilísticas para explicar a frequência da ocorrência 
de eventos, tendo como objetivo maior obter, organizar e analisar dados, a fim de estimar a previsão de 
fenômenos, conforme o caso estudado. 
De forma prática e didática, a estatística se resume na: 
 
 
   
 
A estatística é uma ciência importante, útil e com um escopo abrangente de aplicação em negócios, 
administração política física e ciências sociais, dentre outras áreas, quase ilimitado. 
Na prática empresarial e industrial, a Estatística é uma ferramenta-chave e segura para entender 
sistemas variáveis, controlar processos, sumarizar dados e tomar decisões baseados nos mesmos. 
 
1.1. Aplicações: Algumas ciências utilizam à estatística como uma ferramenta própria, possuindo-a com suas 
terminologias próprias, como sendo: 
 Bioestatística: É o planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa 
na área biológica, médica e áreas da saúde em geral; 
 Estatística Econômica ou Econometria: É um ramo da estatística direcionado para a análise de fenômenos 
econômicos; 
 Estatística aplicada à Engenharia: É um ramo da estatística que estuda as suas aplicações no controle de 
processos de produtos e serviços, no planejamento de novas estratégias de produção, nas vendas, no controle 
de qualidade, em ensaios destrutivos e não destrutivos, com o objetivo de verificar a porcentagem de peças 
não conforme as especificações ou a probabilidade de vida de equipamentos ou peças, dentre outras; 
 Estatística Física: É o ramo da física que através da estatística analisa sistemas físicos de alta complexidade, 
com elevado número de entidades constituintes, como os átomos, as moléculas, os íons, entre outros; 
 Estatística aplicada à Contabilidade: A estatística é utilizada na área da contabilidade para comparar o sexo 
de carteira de clientes, para comparar cargos de funcionários da empresa, onde se compara o custo gasto 
colocando os mais importantes acima da pirâmide para comparação entre cargos similares, variação e 
montagem na estrutura de cargos e salários, contagem de estoque, de imobilizado, perdas, juros, dentre 
outros; 
Coleta de Dados 
Tratamento dos 
Dados 
Apresentação dos 
Resultados 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 6 
 
 Estatística Populacional: É o ramo da estatística relacionado à população e à demografia (área da ciência 
geográfica que estuda a dinâmica populacional humana, ou seja, as taxas de natalidade, mortalidade, 
imigração, emigração, densidade populacional, IDH, dentre outros); 
 Estatística Social: É o ramo da estatística que avalia fatores relativos à realidade social, econômica e 
ambiental de um país e seu uso para a formulação e a avaliação de políticas públicas; 
 Estatística Comercial; 
 Estatística Psicológica; 
 Dentre outras áreas. 
 
1.2. Origem: 
A palavra estatística originou-se da expressão latina statisticum, que significa “Estado”, que depois de 
várias significados, surgiu em alemão a palavra statistik que significa “análise de dados sobre o Estado”. O 
Estado teve fundamentalimportância na origem da Estatística como ciência, pois originalmente, as 
estatísticas eram colhidas para as finalidades relacionadas com o Estado, como os recenseamentos, por 
exemplo. Como disciplina, só no século XIX é que se estruturou, mas já era conhecida desde a antiguidade, 
há mais de 4 mil anos. 
Nas decisões do dia-a-dia, o indivíduo há de forma direta ou indireta que se basear em dados 
observados para isso. Por exemplo, ao decidir pelo seguro de um carro de uma determinada seguradora, 
geralmente, este procura verificar se este seguro satisfaz as suas necessidades, ou seja, se o seu preço é 
compatível com o seu orçamento, além de outras características. 
Posteriormente, compara se dados deste seguro com o de outras seguradoras e, através de uma 
análise processada internamente em sua mente, toma-se a decisão de adquiri-lo ou não. 
Essa analogia não difere na realização das pesquisas científicas, que tem por objetivo responder as 
indagações ou comprovar as hipóteses elaboradas pelo pesquisador. E para isso, é preciso, inicialmente, 
coletar dados que possam fornecer informações relevantes para responder esses questionamentos, mas para 
que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto a sua análise devem ser feitas 
de forma criteriosa e objetiva. Para isso, o planejamento eficaz da realização de uma pesquisa científica é 
necessário. Mas para isso é necessário entender o que realmente é uma pesquisa. 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 7 
 
1.3. Variáveis: São as características associadas ao objeto de estudo investigado ou do experimento realizado. 
Podendo ser: 
 
 Qualitativas ou Categorizadas: São variáveis que exprimem qualidade do elemento investigado. 
Podendo ser: 
 Nominal: Quando o dado se apresenta sob o aspecto qualitativo e não importa a ordem de disposição 
delas, ou seja, não há uma hierarquia embutida. 
Exemplos: Tipo de espécie de uma planta, Tipo de adubo utilizado, Área da Biologia pretendida, Gênero 
de pacientes de um hospital, dentre outros. 
 Ordinal: Quando há uma hierarquia embutida, ou seja, um grau de relevância de um indivíduo para 
outro mediante suas características. 
Exemplos: Classe social, Grau de instrução, Desempenho (ótimo, bom, regular, ruim e péssimo), Cargo 
dos funcionários na empresa, Grau de dor (forte, moderada ou leve), dentre outros. 
 
 Quantitativas ou Numéricas: São atributos resultantes de uma contagem ou mensuração. Podendo ser: 
 Discreta: São todas as variáveis numéricas cujos valores se obtém a partir de procedimento de 
contagem originado de um conjunto amostral finito ou enumerável. As variáveis discretas assumem 
valores inteiros. Exemplos: Número de peixes encontrados em um rio, Número de pacientes vacinados 
contra uma doença, dentre outros. 
 Contínua: São variáveis numéricas cujos valores são obtidos por procedimento de mensuração (ou 
não enumerável), de sorte que ao menos teoricamente, os resultados das medidas são capazes de 
variações insensíveis ou contínuas. As variáveis contínuas podem assumir qualquer valor num intervalo 
contínuo e são quantificadas em uma escala infinita de valores, por isso, diz-se que as variáveis contínuas 
são muito informativas. Exemplos: Peso, Altura, Temperatura, Espessura, Velocidade, Idade, Renda (em 
Reais), dentre outros. 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 8 
 
Nota de Aula 2 – Inferência Estatística - Amostragem 
 
 
1. INTRODUÇÃO: 
O profissional, na grande maioria das vezes, trabalha com limitações de tempo, escassez financeira, 
de recursos humanos, de produtos, de materiais, dentre outros, impedindo-o de analisar afundo o processo 
como um todo, mas de um lado não se faz necessário estudá-lo por inteiro, pois a Estatística defende que 
apenas o estudo de uma parcela deste pode atender de forma eficaz às necessidades desejadas. 
Desta forma, quando se deseja estudar uma população (ou universo) específica, o pesquisador tem 
duas formas possíveis de fazê-lo, ou de forma censitária, o que exige a observação de todos os elementos que 
formam essa população, ou analisar apenas uma parcela que represente este universo, ou seja, uma amostra. 
A finalidade da amostragem é permitir fazer suposições, predições, generalizações (ou inferências) 
acerca de características de uma população com base na análise de apenas alguns de seus elementos. Essa 
técnica é amplamente utilizada em diversas situações do dia-a-dia das empresas e de vários pesquisadores, de 
várias áreas profissionais, pois proporciona economia de recursos, de tempo, rapidez nos resultados e maior 
controle. No caso das indústrias, a verificação da qualidade de seus produtos, é um exemplo disto, pois é 
impossível analisar todos os produtos fabricados, pois muitos deles após a análise não podem ser mais 
comercializados, desta forma, isto implica em prejuízo para a empresa, portanto recorrer a um estudo de 
amostragem é o indicado. Outro exemplo, é analisar a opinião de moradores de um determinado bairro de 
um município em que analisar todos além de alto custo, é demorado e inacessível a todos. 
Desta forma, conhecer e entender os procedimentos básicos aplicáveis à realização de estudos 
estatísticos por inferência e por consequência utilizando uma amostra significativa, é uma condição si ne qua 
non para qualquer profissional de qualquer área, que queira ter uma segurança e consistência nas tomadas de 
decisões. Assim, para se inteirar do assunto, alguns conceitos iniciais são necessários: 
 
2. CONCEITOS INICIAIS: 
2.1. Inferência Estatística: É o processo de generalização do universo a partir de resultados particulares, ou 
seja, consiste em obter e generalizar conclusões para o todo com base no particular, isso quer dizer que a 
partir de amostras tiram-se conclusões para a população. 
2.2. População (N): É o conjunto de todos os elementos que possuem em comum determinadas 
características de interesse para uma pesquisa. Por exemplo: Pessoas, Maquinários, Soluções Químicas, 
Produtos, dentre outros. 
Quanto ao tamanho, a população pode ser classificada como finita ou infinita. Desta forma, as 
finitas são as que possuem um tamanho limitado de elementos, em que é possível identificar do primeiro até 
o último componente populacional, analogamente, as infinitas são aquelas cujo número de elementos é 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 9 
 
ilimitado, ou seja, impossível de identificar o último indivíduo. Assim, a população, nesse caso é tão grande 
que é dificultoso a sua análise com precisão. 
Portanto, a escolha em analisar toda a população (censo) é uma decisão arbitrária do pesquisador. 
Desta forma, os pesquisadores que optarem em utilizar o censo terão que verificar a seguinte medida 
estatística conhecida como parâmetro. 
 
2.3. Parâmetro: É a medida usada para descrever uma característica numérica da população em estudo e para 
isso é necessário uma análise integral desta. Assim, como na prática este procedimento se torna inviável, seu 
valor é quase sempre desconhecido, na maioria das vezes. Um exemplo prático de parâmetro é a Idade média 
de todos os alunos de uma sala de aula, ou seja, a média () e a variância (2), são exemplos de parâmetros. 
Muitos pesquisadores defendem que o censo proporciona uma precisão incontestável nos resultados 
estatísticos, pois todo o universo é analisado. No entanto, essa precisão pode ser contestada por diversos 
fatores, dentre eles, as mudanças comportamentais dos componentes da população, nos casos em que a 
pesquisa demanda período longo, ou por erros de coleta de dados, como informações inverídicas,dentre 
outras. Então, para abster-se desses fatores que o censo pode causar de forma implícita e, muitas das vezes, 
explícita, a utilização da amostragem é uma solução, pois a mesma permite que o pesquisador, ao contrário do 
censo, cometa alguns “equívocos” previsíveis e aceitáveis ao estudo, mas para que esses “equívocos” sejam 
toleráveis, faz-se necessário que o pesquisador entenda estatisticamente o que é amostragem. 
 
2.4. Amostra (n): É uma parcela significativa de uma população, ou seja, uma parte da população que a 
representa estatisticamente. 
Os pesquisadores que optarem em utilizar o processo de amostragem terão que utilizar as seguintes 
medidas estatísticas conhecidas como estimativa e margem de erro. 
 
2.5. Estimativa: É o valor numérico do estimador obtido com base nos resultados amostrais. Um exemplo 
prático de estimativa é a Idade média de uma parte significativa dos alunos de uma sala de aula, ou seja, a 
média amostral ( x ), a variância amostral (S²), são exemplos de estimadores. 
 
2.6. Margem de Erro (e): Um estudo em que se optou na utilização da amostragem como método de coleta 
de dados, sempre apresentará uma “falha” embutida nas suas análises, visto que não se analisou todo o 
universo. Essa “falha” é conhecida como margem de erro (ou erro amostral), e tem uma relação forte e 
inversamente proporcional com o tamanho da amostra e dos resultados que foram obtidos com a pesquisa, 
ou seja, quanto maior for a quantidade de elementos pesquisados, menor a quantidade de erros cometidos, ou 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 10 
 
seja, menor a margem de erro, mas em contra partida, maior o custo financeiro da mesma. E vice-versa 
quando o tamanho amostral for menor. 
Um exemplo prático de margem de erro é visto nas pesquisas eleitorais em que através de uma 
amostragem de eleitores um determinado candidato aparece com um percentual de tantos por centos de 
aceitação ao pleito, levando-se em consideração a margem de erro tolerável de tantos pontos percentuais para 
mais ou para menos, ou seja, ele estará entre x% e y% dentro da margem de erro, isso quer dizer que, se fosse 
analisada toda a população de eleitores, existem uma possibilidade de que no dia da eleição o resultado 
percentual do candidato fique entre x% e y%. 
A margem de erro é definida, na grande maioria das vezes, antes da coleta de dados, para evitar 
assim retrabalho aos pesquisadores do estudo, pois caso a margem de erro fique muito alta (acima de 5% para 
mais ou para menos), o retrabalho é inevitável ocasionando um custo a mais a quem encomendou a pesquisa, 
e isso ocorre, na prática, por falta de planejamento amostral adequado ao estudo almejado. 
Assim, para planejar um estudo estatístico com uso de amostragem faz-se necessário conhecer dois 
processos básicos de amostragens, as amostras não probabilísticas e as probabilísticas. 
 
3. TÉCNICAS DE AMOSTRAGEM: 
3.1. Amostras Não Probabilísticas: Uma amostra é não probabilística (ou não casual ou não aleatória), 
quando a probabilidade de seleção de cada unidade amostral da população é desconhecida. Nesse caso, não se 
podem supor os resultados obtidos para o universo da população, visto que a amostra, por ser não 
probabilística é não significativa. Desta forma, devem ser evitadas, porque além de não conhecer a margem 
de erro e a confiabilidade, introduzem tendenciosidade (ou viés ou vício) na seleção das unidades e estimação 
das mesmas, ou seja, distorcendo os dados do estudo para uma determinada direção. 
As amostras não probabilísticas mais comuns são: 
 
a) Amostras por Conveniência: As amostras por conveniência ocorrem quando as unidades a serem 
analisadas estão mais acessíveis ao pesquisador de acordo com as conveniências sociais, econômicas, de 
tempo, dentre outras. É um tipo de amostragem que é vantajosa por ser rápida, de baixo custo e de fácil 
acessibilidade, mas não há nada que a credite estatisticamente. 
 
b) Amostras por Cotas: São amostras em que se leva em conta a porcentagem de alguma(s) característica(s) 
da população de origem. 
 
c) Amostras por Julgamento ou Intencional: É uma forma de amostragem por conveniência na qual os 
elementos populacionais são selecionados com base no julgamento arbitrário do pesquisador, ou seja, o 
pesquisador identifica os elementos que corroborarão com o objetivo do seu estudo sem o risco de fugir 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 11 
 
deste objetivo pré-definido, ou seja, não há uma escolha aleatória dos elementos pesquisados e sim o 
contrário. 
 
d) Amostras de Voluntários: Quando a pesquisa inclui alguns procedimentos perigosos, difíceis ou 
dolorosos, desta forma a amostragem de sujeitos voluntários é a mais indicada, pois somente voluntários 
estarão dispostos a participar. O problema deste tipo de amostragem é que ao ser colocado um anúncio em 
uma rede social, por exemplo, para recrutar voluntários, só responderão pessoas muito especiais, como por 
exemplo, pessoas aventureiras, ou as pessoas mais corajosas ou as mais motivadas. E muita das vezes, este 
tipo de pessoa, nem faz parte do público-alvo do estudo. 
 
3.2. Amostras Probabilísticas: Uma amostra é probabilística (ou ao acaso ou aleatória) quando cada unidade 
amostral tem uma probabilidade conhecida e diferente de zero de ser escolhida frente a população de origem, 
garantindo, se for realizada de forma correta, a isenção de vícios. 
As técnicas de amostragem probabilística consistem em Amostra Aleatória Simples, Amostra 
Aleatória Estratificada, Amostra sistemática e Amostra por Conglomerado: 
 
a) Amostra Aleatória Simples (AAS): Selecionado por um processo ao qual a probabilidade de escolha de 
todos os elementos é a mesma para todos, ou seja, a população de origem é consideração homogênea, pois os 
seus elementos têm características parecidas entre si. 
a1) Fórmula para determinação do tamanho da amostra com AAS: 
 
 
 
 Fonte: Barbetta (2001) 
Onde: 
N = Tamanho da população 
n = Tamanho da amostra 
Se a confiança do estudo for de 95%, de acordo a tabela da Normal Padrão: 
²
1
0
e
n  , 
onde e = margem de erro. 
Se a confiança for 96%: 
²
06,2
0
e
n  
Se a confiança for 97%: 
²
17,2
0
e
n  
Se a confiança for 98%: 
²
33,2
0
e
n  
Se a confiança for 99%: 
²
575,2
0
e
n  
Se a confiança for 99,9%: 
²
3
0
e
n  
 
0
0.
nN
nN
n


 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 12 
 
 
OBS 1: O n0 representa a primeira aproximação do tamanho da amostra (n) caso não se conheça o N. 
 
OBS 2: Caso conheça o N seja muito grande (tender para o infinito), não é necessário considerar o seu 
tamanho exato. Neste caso, o cálculo da primeira aproximação (n0) já é suficiente para o cálculo. 
 
OBS 3: Uma amostra aleatória simples pode ser selecionada escrevendo os elementos da população, 
numerados de 1 a N, em N cartões, misturando-os numa urna e sorteando, “sem reposição”, n desses cartões. 
Ou seja, a amostra consiste daqueles elementos da população, cujas identificações correspondem aos 
números selecionados. Existirão 
)!(!
!
nNn
N
n
N







amostras possíveis diferentes de tamanho n. Nesse caso, 
haverá dependência nas retiradas, pois o fato de não recolocar o elemento retirado afeta a probabilidade de o 
elemento seguinte ser retirado. 
 
OBS 4: A amostra aleatória simples pode ser também “com reposição” consiste em selecionar n elementos 
um de cada vez, a partir dos elementos da população (N), repondo o elemento sorteado na população antes 
do próximo sorteio. Com tal procedimento, qualquerelemento pode ser sorteado mais do que uma vez. 
Nesse caso, haverá independência entre as retiradas, pois o fato de recolocar o elemento retirado não afeta a 
probabilidade de o elemento seguinte ser retirado. 
 
OBS 5: É bom lembrar que a partir de um determinado número da população a ser investigada, a amostra 
não sofre variação considerável para mais ou para menos e, portanto, não adianta aumentar o número 
amostral, imaginando que poderá haver mais resultados porque este não sofrerá alteração significativa. 
 
 
 
 
 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 13 
 
 
Exemplo 1 – Estudo sobre Indicadores de Saúde: Um epidemiologista é contratado pela prefeitura de 
Fortaleza para conhecer a quantidade de pessoas que frequentaram um determinado posto de saúde da capital 
no mês passado e verificar se estas pessoas são ou não vacinados contra a febre amarela e se, além disso, 
conhecem as formas de prevenção e os sintomas e malefícios advindos da doença. Com isso, o profissional 
contratado conseguiu levantar com o administrativo do posto que a quantidade de pessoas atendidas na 
emergência do posto no mês passado foi de 2.356. Assim, quantas pessoas deverão ser pesquisadas neste mês 
para responder aos questionamentos que possa levar a prefeitura tomar uma decisão com o resultado obtido, 
se for considerado: 
 
a) Uma margem de erro de 4%, com uma confiança de 95%? 
 
b) Se diminuirmos a margem de erro para 2%, qual será o tamanho da amostra (n), mantendo a mesma 
confiança de 95%? 
 
c) E se pesquisássemos 2000 pessoas, qual seria a margem de erro, com a confiança de 95%? 
 
Baseado nos itens anteriores: 
d) Se para a prefeitura o que importa é o resultado estatístico da pesquisa, qual das alternativas (“a”, “b” e 
“c”) você aconselharia ela a utilizar? Por quê? 
 
e) Se para a prefeitura o que importa é o quanto ela vai pagar pela pesquisa, ou seja, o custo da mesma, qual 
das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê? 
 
f) Se para a prefeitura o que importa é o resultado estatístico da pesquisa e ao mesmo tempo com menor 
custo, qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê? 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 14 
 
 
b) Amostra Aleatória Estratificada (AAE): Muitas vezes a população se divide em subpopulações (ou 
estratos), sendo razoável supor que em cada estrato a variável de interesse analisada apresenta um 
comportamento substancialmente diverso, ou seja, a população é considerada heterogênea, mas homogêneo 
dentro de cada estrato. 
Assim, deve-se adotar um tipo de amostragem que represente bem as diferentes características 
dentro de cada um dos grupos, podendo ser, por exemplo, proporcional ao tamanho de cada um deles. 
 
Exemplo 2 – Estudo na área da Ecologia e Meio Ambiente: Um estudante de Ciências Biológicas deseja 
estudar se existe diferença significativa entre o número de plantas com e sem flores localizadas dentro do 
Campus do Pici da Universidade Federal do Ceará, em relação às estações do ano (primavera, verão, outono e 
inverno), visto que há pressuposições de que, em geral, as plantas tendem a florescer mais no período da 
primavera do que nos outros períodos por causa dos recursos naturais disponíveis com abundância. Assim, o 
pesquisador selecionou aleatoriamente 3 blocos (bloco 906, 909 e 903) dentro do campus e contou a 
população de plantas de todas as espécies classificadas de pequeno porte localizadas no solo e o resultado foi 
de 15, 45 e 33 quantidades, respectivamente na estação atual. Para evitar a existência de vícios, uma amostra 
de plantas será analisada utilizando um critério estatístico proporcional por cada bloco, onde serão 
minuciosamente analisadas e terão o número de flores contadas, e assim sucessivamente durante as outras 
estações ao longo do ano. A partir disto pergunta-se, através de uma amostra aleatória estratificada 
proporcional e um confiança de 97%, quantas plantas serão analisadas por bloco? 
 
c) Amostra Sistemática (AS): Esse tipo de amostragem é uma variação da amostragem aleatória simples, 
mas que exige que um sistema aleatoriamente seja definido. 
Segue abaixo outros tipos de exemplos de amostras sistemáticas: 
Exemplo1: Um engenheiro de controle da qualidade seleciona cada centésima fonte de computador que passa 
em uma esteira transportadora. 
Exemplo2: Um professor retira da população para compor a amostra os alunos aleatoriamente escolhidos que 
possuem o algarismo “0” como último número da sua matrícula. 
Exemplo3: Uma indústria tem 900 máquinas e o engenheiro de produção deseja uma amostra formada por 50 
máquinas para uma pesquisa. Pode-se, neste caso, usar o seguinte procedimento: Como 900/50 = 18, 
escolhe-se por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a 
amostra, os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se supor que o 
número sorteado fosse 4, a amostra seria: 4ª máquina, 22ª máquina, 40ª máquina, 58ª máquina, 76ª máquina, 
dentre outros. Ao final, pode-se voltar ao início para completar a quantidade amostral a pesquisar. 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 15 
 
 
d) Amostra por Conglomerado: Primeiramente, na amostra por conglomerado, a população-alvo é dividida 
em estratos mutuamente exclusivos e coletivamente exaustivos. Após isso, reduz-se, arbitrariamente, a 
quantidade de estratos a serem analisados. Após isso, sorteiam-se quais grupos serão pesquisados e por fim, 
define-se qual o tipo de amostra probabilística deverá ser utilizada (AAS, AAE ou AS). Podendo também, se 
assim o pesquisador desejar, utilizar o censo nos grupos selecionados para coleta de dados. Com isso, a 
amostragem por conglomerado tem duas grandes vantagens: a viabilidade e o baixo custo, ou seja, a que traz 
o menor custo-benefício, se comparado às outras técnicas probabilísticas disponíveis. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 16 
 
 
Nota de Aula 3 – Correlação e Regressão Linear 
 
 
1. INTRODUÇÃO: 
Diversas decisões tomadas no dia-a-dia das empresas envolvem informações do tipo: volume de 
vendas previsto para subsidiar a área de produção, demanda estimada de produtos que indique se e quais 
equipamentos devem ser comprados, ou qual o lucro projetado para justificar determinados investimentos 
(CORRAR, 2009). 
Ainda de acordo o autor, dado um ambiente organizacional em contínua transformação, o que se 
procura é reduzir incertezas. Desta forma, os gestores demandam informações que os auxiliem a escolher, 
hoje, as que parecem ser as melhores alternativas sobre eventos que ocorrerão no futuro. Assim, permitir a 
antecipação de cenários futuros é a proposta dos modelos quantitativos de previsão, pois estes envolvem 
dados históricos e podem ser de dois tipos: por séries causais ou séries temporais. 
Corrar (2009) defende que os modelos causais estudam os fatores que tem influência sobre a 
variável a ser estimada, e a análise de regressão é um exemplo desse tipo de modelo. Já os modelos de séries 
temporais, por sua vez, envolvem projeções baseadas, exclusivamente, nas observações do passado da 
variável que se deseja estudar. 
Assim, esta nota de aula trata de modelos de séries temporais e de sua utilidade para as diversas áreas 
do conhecimento, mas para isso faz-se necessário relembrar os assuntos de Correlação de Pearson e Regressão 
Linear Simples. 
 
2. CORRELAÇÃO LINEAR:O estudo de correlação mostra uma forma de medir quanto e de que maneira se relacionam duas 
variáveis quantitativas por meio do qual se pode analisar a relação existente das variáveis em estudo, ou seja, 
qual alteração deve esperar em uma das variáveis, como consequência de alterações sofridas pela outra 
variável, ou seja, uma relação de causa de efeito. 
Para entendimento dessa relação entre duas variáveis, segue alguns exemplos práticos: o frio está 
para o setor farmacêutico, assim como o dia das mães está para o comércio, pois as vendas de medicamentos 
não controlados, como analgésicos, antigripais e vitaminas, disparam. Outro exemplo é o faturamento das 
empresas de energia elétrica é diretamente influenciada pela temperatura, especialmente no verão, onde a 
demanda por energia aumenta, pelo uso de ar condicionado e ventiladores, fazendo com que as empresas 
produtoras de energia aumentem seus lucros. De forma similar, par ao consumo de água, desta forma em 
Fortaleza, por exemplo, nos meses que ocorre o verão (dezembro até meados de março), o consumo de água 
nas residências aumenta de forma significativa. 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 17 
 
 
A priori essa relação pode ser verificada com auxílio de um gráfico de dispersão bidimensional, que 
será definido como eixo x, a variável causa e y, a variável efeito, como segue: 
 
2.1. Interpretação subjetiva do gráfico de dispersão: 
 
 
x 
y 
Correlação Positiva 
entre x e y 
x 
y 
Forte correlação 
Positiva entre x e y 
x 
y 
Correlação Positiva 
perfeita entre x e y 
 
 
 
 
 
 
 
 
Assim, a importância de tal determinação decorre do fato de que a presença de uma correlação pode 
conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa). 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 18 
 
 
2.2. Outliers: 
Os conhecidos como outliers, são os pontos discrepantes, ou as observações extremas que não são 
condizentes com o restante da massa de dados, conforme o Gráfico abaixo. As causas mais prováveis da 
ocorrência de outliers pode ser o registro incorreto dos dados, algum defeito no instrumento de medição 
utilizado, dentre outros. Caso isso ocorra, o outlier deve ser se possível, corrigido, em extremo caso eliminado. 
Desta forma, deve-se dar a devida atenção à causa de tais anomalias, pois esses dados discrepantes podem ser 
úteis para descobrir a causa dessa ocorrência. 
 
 
 
 
 
 
 
 
 
 
 
Como as conclusões tiradas de gráficos de dispersão tendem a ser subjetivas, necessita-se de 
métodos mais precisos e objetivos. Então se utiliza o coeficiente de correlação linear de Pearson para detectar 
padrões lineares. 
 
2.3. Coeficiente de Correlação de Pearson ( xyR ): 
O Coeficiente de Correlação de Pearson mede o grau de associação entre as duas variáveis analisadas, 
podendo ser fraca ou forte. Para isso, a notação matemática que permite verificar essa associação é a que 
segue: 
 
   

























 
n
Y
Y
n
X
X
n
YX
XY
Rxy
2
2
2
2
 
 
Assim, o valor de Rxy deve pertencer ao intervalo -1  Rxy  1, e a sua interpretação é a seguinte: 
 
0,00  Rxy  0,69 = Correlação fraca + 
0,70  Rxy  1,00 = Correlação forte + 
-0,69  Rxy  0,00 = Correlação fraca - 
-0,70  Rxy  -1,00 = Correlação forte - 
x 
y 
 
 
Outlier 
Diretamente proporcional:  x  y 
Inversamente proporcional:  x  y 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 19 
 
 
Contudo, em geral, uma correlação forte não é sinônima de uma relação causa-efeito entre as 
amostras ou variáveis. Há situações em que um coeficiente de correlação próximo de um ou de um menos 
um não significa que a maioria dos pares de valores esteja contida em uma reta (será visto em regressão 
linear). Desta forma, o simples conhecimento do coeficiente de correlação não é suficiente devido a 
anomalias na dispersão dos dados, por isso é recomendada a construção do gráfico de dispersão das amostras 
para melhor compreender o resultado, pois em alguns casos, a relação de causa e efeito pode ser provocada 
por um ou mais fatores ocultos, uma variável não considerada na análise. 
Por exemplo, suponha que o número de vendas diárias de um jornal e a produção diária de ovos 
tenha uma forte correlação positiva. Não se pode afirmar que o aumento do número de jornais vendidos 
resulte no aumento da produção de ovos. Para compreender a forte correlação positiva, devem-se procurar 
fatores ocultos, por exemplo, o aumento de riqueza da população que resulta em aumento de demanda dos 
dois produtos ao mesmo tempo, jornais e ovos. 
Conhecer a relação significativa entre as variáveis é de extrema importância para que assim o 
investigador possa realizar suas previsões com mais segurança, assim, faz-se necessário conhecer o que é 
regressão linear. 
 
3. REGRESSÃO LINEAR SIMPLES: 
Como visto anteriormente, o coeficiente de correlação (Rxy) apenas não mede com segurança a 
relação causa-efeito entre duas variáveis, apesar de essa relação poder estar presente. Por exemplo, uma 
correlação fortemente positiva entre as variáveis x e y não autoriza afirmar que variações da variável X 
provocam variações na Y, ou vice-versa. Entretanto, em uma regressão linear, a relação causa e efeito deve 
ser definida no início da análise. 
Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem predizer 
uma ou mais variáveis em termos de outras. Assim, é que se fazem estudos para predizer os seguintes 
exemplos: 
 Temperatura de uma cidade com relação ao consumo de medicamento para gripe; 
 Perda de peso de uma pessoa em decorrência do número de semanas que se submete a uma dieta de 800 
calorias-dia; 
 Despesa de uma família com médico e com remédio em função de sua renda; 
 Consumo per capita de certos alimentos em função do seu valor nutritivo e do gasto com propaganda na 
TV; 
 Taxa de juros em função da inflação; 
 Salário em função da escolaridade do trabalhador. 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 20 
 
 
Assim, no estudo de regressão linear simples, utilizam-se duas amostras (ou duas variáveis) e se 
objetiva em analisar a reta que melhor explica a relação entre essas duas variáveis, tendo previamente definido 
a variável independente (ou resposta ou causa) e a variável dependente (ou preditora ou efeito). 
A origem do termo “regressão” remonta a Francis Galton (1822 a 1911), que por volta de 1855, 
investigava relações entre características antropométricas de sucessivas gerações. Uma de suas constatações 
era de que “cada peculiaridade de um homem é transmitida aos seus descendentes, mas, em média, numa 
intensidade menor”. Por exemplo: embora pais com baixa estatura tendem a ter filhos também com baixa 
estatura, estes têm altura média do que a altura média de seus pais. O mesmo ocorre, mas em direção 
contrária, com pais com estatura alta. A esse fenômeno de a altura dos pais mover-se em direção à altura 
média de todos os homens ele chamou de regressão. 
O termo regressão remete ao passado, ou seja, para se fazer previsões estatísticas é necessário 
conhecer o passado (ou histórico) das variáveis de causa e efeito da empresa. Caso a empresa não possua 
estes dados e quiser fazer previsões, a saída é buscar dados do seu concorrente. 
 
3.1. Equação da reta: 
Uma vez que o comportamento entre as variáveis tende para uma relação linear, o próximo passo 
consiste em buscar determinar a respectiva equação de regressão linear simples. 
Toda retapode ser representada pela seguinte expressão matemática y = a + bx, onde x e y são as 
variáveis e a e b, seus respectivos coeficientes. Sendo: 
a = Coeficiente linear ou ponto que intercepta o eixo vertical y, ou seja, valor de y para x = 0 
b = Coeficiente angular ou Declividade da reta, ou seja, a variação de y por unidade de variação de x. 
O gráfico da equação y = a + bx é uma linha reta. Na prática, os valores de a e b costumam ser 
estimados. Para obter os valores dos coeficientes a e b, recorremos ao Cálculo Diferencial. Sendo: 
 
 
 
 
3.2. Coeficiente de determinação (R²): 
Indica a proporção da variação total da variável dependente que é explicada pela variação da variável 
independente, ou seja, mede a confiabilidade da previsão a ser realizada. Assim, quanto maior for o R², 
melhor será o poder de explicação da reta de regressão. 
A diferença do coeficiente de correlação (Rxy) para o coeficiente de determinação (R²), é que o 
primeiro mede a força da relação linear entre as variáveis, enquanto que o R² mede a explicação da reta de 
regressão. 
     
   ²²
²





xxn
xyxxy
a 
 
 
n
x
x
n
yx
xy
b
²
²



 


 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 21 
 
 
Dessa maneira, para apreciar o ajuste de uma reta, é melhor utilizar o coeficiente de determinação 
que mede o sucesso da regressão em explicar y, ou seja, o R² verifica quantos por centos de y pode ser 
explicado por x, o restante (%) são os sem explicação. 
 
4. SÉRIES TEMPORAIS: 
Segundo Corrar (2009), uma série temporal é um conjunto de observações sequenciais de 
determinada variável, expressas numericamente, obtidas em períodos regulares de tempo. Assim, a análise de 
séries temporais baseia-se na premissa segundo a qual os fatores que influenciaram o comportamento dos 
dados no passado continuam influenciando seus movimentos futuros. 
Desta forma, os dados coletados de uma série temporal podem sofrer a influência de diversos 
fatores, como: alterações macroeconômicas, mudanças no padrão tecnológico vigente, variações nas 
condições de natureza, ou mesmo podem ser afetados por fenômenos imprevisíveis, e por consequência 
disso, os dados podem sofrer alguma tendência (sazonalidade, por exemplo), que consiste em mudanças nos 
dados, fazendo-os serem no formato linear (diretamente ou inversamente proporcional), ou no formato de 
uma curva, como por exemplo, a exponencial, polinomial, potencial, dentre outras (Quadro 1). 
Tipo de Função Equação Original Equação Linearizada Variável X Variável Y 
Linear y = a + b.x y = a + b.x x y 
Exponencial y = a.ebx ln y = ln a + b.x x ln y 
Potência y = a.xb ln y = ln a + b.ln x ln x ln y 
Logarítmica y = a + b.ln x y = a + b.ln x ln x y 
Quadro 1: Principais transformações lineares 
Fonte: Adaptado de Corrar (2009) 
 
 
 
 
 
 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 22 
 
 
Exercício 1 – Estudo sobre Biologia animal – Mamíferos: Em um levantamento da fauna de uma 
caverna, um biólogo deseja estimar o peso dos morcegos capturados utilizando o diâmetro da cabeça dos 
mesmos. Para isso, o pesquisador capturou aleatoriamente 10 amostras de morcegos através de uma 
armadilha e obteve as seguintes medidas contidas no Quadro abaixo: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Assim, através dos dados: 
a) Faça o gráfico de dispersão 
b) Calcule o Coeficiente de Correlação de Pearson 
c) Através do Método de Regressão Linear, encontre a equação de previsão. 
d) Faça uma previsão de que se um morcego qualquer for capturado no mesmo local onde os dados foram 
coletados e este tiver o diâmetro cefálico de 3cm qual será o peso corporal dele? 
e) Essa previsão tem uma confiança de quantos porcentos? 
 
 
Morcego 
Diâmetro 
Cefálico (cm) 
Peso 
corporal (g) 
1 2,5 57 
2 4,5 78 
3 4 72 
4 2 58 
5 6 89 
6 3 63 
7 4 75 
8 5 84 
9 3 75 
10 1 48 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 23 
 
 
Anexo 1 – Manual da Calculadora Cientifica e HP 12C para 
Correlação e Regressão Linear 
 
Modelo: Casio fx 82MS 
1. Calcular Coeficiente de Correlação (Rxy): 
Colocar no modo que aceita valores de x e y: Clicar em Mode  3 (Reg)  1 (Lin) 
Digitar os seguintes pares ordenados (valores de x e) na calculadora: 
 
 
 
 
 
 
 
 
 
 
Digitar: 
2,5  (tecla do lado do M+)  57  M+ 
4,5   (tecla do lado do M+)  78  M+ 
... 
1   (tecla do lado do M+)  48  M+ 
Encontrar o valor do Coeficiente de Correlação (Rxy): Clicar em Shift  2 (S-VAR)  clicar na seta localizada em 
Replay duas vezes para a direita  Clicar no número 3 =  Aparecerá 0,9575 (Valor do Coeficiente de Correlação = 
95,75%). 
 
2. Calcular “a” e “b” da Regressão Linear: 
Não desligar a calculadora. Com os dados já digitados ir em: 
Clicar em Shift  2 (S-VAR)  clicar na seta localizada em Replay duas vezes para a direita  Clicar no número 1 =  
Aparecerá 40,675 (Valor do “a”). 
Clicar em Shift  2 (S-VAR)  clicar na seta localizada em Replay duas vezes para a direita  Clicar no número 2 =  
Aparecerá 8,35 (Valor do “b”). 
 
Diâmetro 
Cefálico (cm) 
Peso 
corporal (g) 
2,5 57 
4,5 78 
4 72 
2 58 
6 89 
3 63 
4 75 
5 84 
3 75 
1 48 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 24 
 
 
HP – Modelo: 12C 
 
Passos para o procedimento completo: 
1º) Digitar os pares ordenados na calculadora: y  Enter  x  + 
2º) Achar o valor de “a”: 0  g  2 
3º) Armazenar o valor de “a”: Clicar em STO  0 
4º) Achar o coeficiente de Correlação: Clicar em x  y 
5º) Achar o valor de a + b: Clicar em 1  g  2, depois 
Valor de b: Clicar em RCL (Recuperar o valor de b)  0  - 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 25 
 
 
Anexo 2 – Correlação e Regressão Linear com uso do Microsoft 
Excel 
 
CORRELAÇÃO: 
1º Passo: 
 Abrir o arquivo que encontra o banco de dados no Excel ou digitar os valores da tabela acima; 
 Identificar quais são as variáveis quantitativas e qual delas será x (causa) e y (Efeito); 
 
2º Passo: Construção do gráfico de dispersão entre x e y: 
 Selecionar as variáveis Diâmetro Cefálico (x) e Peso corporal (y)  Inserir gráfico  escolher gráfico de 
dispersão xy (ou Ponto)  Avançar  Clicar em “OK”. 
 
 
 
Formatação do gráfico: 
 Apagar a legenda 
 Título: Clique com botão direto do mouse dentro do gráfico: Opções do gráfico  Em Título: digitar 
“Relação entre Diâmetro Cefálico (cm) versus Peso corporal (g)”. 
 Formatar os eixos “x” e “y”, sendo Diâmetro Cefálico (cm) e Peso corporal (g), respectivamente; 
 Letra Times New Roman, tamanho 11; 
 Verificar se os dados do gráfico seguem uma tendência linear. Se sim, calcula-se a correlação linear entre 
as variáveis x e y; 
 
2º Passo: Fazer estudo de correlação linear entre x e y: 
Procedimento 1: Com a ferramenta FUNÇÃO: 
 Posicione o cursor em um local abaixo do banco de dados para visualizar o resultado; 
 Clicar em Inserir função  Em selecionar uma categoria, escolha “Estatística”  Selecione uma função: 
CORREL  OK  Em matriz 1: selecione todos os dados da variável x, em matriz 2: selecione todos os 
dados da variável y, inclusive com o título. Caso esqueça de selecionar o título, o programa calcula a 
correlação mesmo assim. 
 Com isso sairá o resultado da correlação entre x e y = 0,9575 = 95,75% 
 
 Diâmetro Cefálico (cm) Peso corporal (g) 
Diâmetro Cefálico (cm) 1 
Peso corporal (g) 0,95751 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 26 
 
 
Procedimento 2: Com a FERRAMENTA ANÁLISE DE DADOS: 
 Clicar em Inserir 
Ferramentas  Análise de dados  Clicar na função Correlação  OK  Em intervalo de entrada, 
selecionar tudo que compõe o banco de dados, inclusive o título  Clicar também em “Rótulos na primeira 
linha”, pois caso não clique, o programa não conseguirá ler o banco de dados, pois você está informando a 
ele que a primeira linha do banco de dados são as variáveis  Agrupados por coluna  Clicar em Nova 
saída  OK. O resultado será: 
 
PARA A REGRESSÃO LINEAR SIMPLES: 
 
Procedimento 1: Através da ferramenta FUNÇÃO: 
Para encontrar o valor de “a” (o intercepto), que é representado pela fórmula: 
 
 
 
CUIDADO para definir qual variável é x (independente) e qual é y (dependente), pois contrário o resultado 
de a e b será errado. 
 Clique em Inserir função  INTERCEPÇÃO  Selecione os dados da variável y, inclusive o título, e os 
dados da variável y. Resultará: a = 40,675 
 
Para encontrar o valor de “b” (o coeficiente angular, ou seja a inclinação da reta), que é representado pela 
fórmula: 
 
 
 
 
 Clique em Inserir função  INCLINAÇÃO  Selecione os dados da variável y, inclusive o título, e os 
dados da variável y. Resultará: b = 8,35 
 
Portanto a equação de previsão será: y = a + bx, ou seja, y = 40,675 + 8,35x, que representa: 
Peso = 40,675 + 8,35. Diâmetro Cefálico 
 
 
 
 
     
   ²²
²





xxn
xyxxy
a 
 
 
n
x
x
n
yx
xy
b
²
²



 


 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 27 
 
 
Procedimento 2: Através da ferramenta ANÁLISE DE DADOS: 
 Clique em Ferramentas  Análise de dados  Regressão  OK  Selecione separadamente a variável 
y e a variável x, inclusive os títulos  Clique em rótulos  Nova planilha. O que iremos utilizar segue 
abaixo: 
Estatística de regressão 
R múltiplo 0,957527 
R-Quadrado 0,916858 
R-quadrado ajustado 0,906466 
Erro padrão 3,975707 
Observações 10 
 
Onde o Coeficiente de determinação (R²) é igual a 0,9169, ou seja, 91,69% dos dados estão sendo explicados 
pela equação y = 40,675 + 8,35x, e 0,0831 = 8,31% não estão sendo explicados pela reta encontrada. 
 Coeficientes 
Interseção 40,675 
Diâmetro Cefálico (cm) 9,73 
 
O quadro acima mostra os coeficientes a e b da reta de regressão. 
 
Procedimento 3: Através do GRÁFICO DE DISPERSÃO: 
 Clique em algum dos pontos do gráfico com o botão direito: Clicar em Adicionar linha de tendência  
Clicar em Linear  Ir em Opções: Clicar em exibir equação do gráfico e Exibir valor de R² no gráfico, e 
sairá a y = 40,675 + 8,35x e R² = 91,69%. Assim: 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 28 
 
 
Fazendo previsões matemáticas com uso da equação de regressão linear: 
Se o diâmetro cefálico for de 2,5cm, 3cm e 3,5cm, assim, a projeção para cada um dos diâmetros estipulados 
será de: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 29 
 
 
Nota de Aula 4 – Medidas Descritivas para dados não 
agrupados 
 
 
1. INTRODUÇÃO: 
Para a maioria das pessoas, estatística significa descrever números da forma mais entendível possível, 
como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado atual, o índice 
de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de mulheres que assumem cargos 
de CEO no mercado brasileiro nos últimos dois anos, a proporção de eleitores que votarão em um 
determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma determinada loja de 
conveniência de um determinado Shopping Center, dentre outros. 
Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados sobre 
algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é apenas 
descrever estatisticamente essas informações. 
A descrição estatística dos dados verifica a localização central e a variabilidade desses dados através 
de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação. Ainda, há métodos 
ilustrativos que possibilitam uma melhor interpretação deles, como os gráficos, dos quais pode-se citar os 
histogramas, os diagramas de ramo-e-folhas, os diagramas de pontos, os gráficos de caixa (box-blot), dentre 
outros. 
A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para 
dados não agrupados. Esta nota de aula verificará apenas os dados não agrupados, e está divido em medidas 
de tendência central e medidas de dispersão. 
 
2. MEDIDAS DE TENDÊNCIA CENTRAL 
As chamadas medidas de tendência central têm por objetivo verificar o centro da distribuição dos 
dados, ou seja, verificar através de medidas específicas o centro do conjunto de dados. As medidas de 
tendência central mais utilizada são a média aritmética, a moda e a mediana. As usadas com menos 
frequências são as médias geométricas, harmônicas, quadráticas, cúbicas e biquadráticas. 
As outras medidas de posição usadas com menos intensidade são as separatrizes, que englobam: a 
própria mediana através dos decis, dos quartis e dos percentis. 
Para início desta nota de aula, a primeira medida de tendência central a ser analisada é a média 
aritmética simples, como segue: 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 30 
 
 
2.1. Média Aritmética Simples: É definida como sendo o quociente da soma de todos os valores de um 
conjunto de dados pelo total de valores deste conjunto. 
 
 Média amostral Média populacional 
 
n
x
X
n
i
i
 1 
N
x
N
i
i
 1 , Onde 
xi = Valores da variável 
n = Número de valores da amostra 
N = Número de valores da população 
 
OBS1: A média por ser influenciada por todos os valores do conjunto de dados é considerada como uma 
medida sensível, ao contrário das outras medidas de tendência central existentes. 
 
Propriedades: 
a) A média de um grupo de dados sempre será única, independente da sua localização; 
b) A soma algébrica dos desvios tomados em relação à média é sempre nula:  


n
i
i Xx
1
0 
c) O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n” 
valores da variável; 
 
d) Somando-se ou subtraindo-se uma constante “c” (valor invariável) a todos os valores de uma variável, a 
média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga, se 
multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente. 
 
n
cx
X
n
i
i


 1 e 
 
n
cx
X
n
i
i
 1
.
 e 
n
c
x
X
n
i
i







 1 
 
Falando ainda de média, há a média aparada, que não é tão utilizada na prática estatística pois a 
mesma tende a manipular o resultado final desta medida de tendência central, mas vale a pena conhecer o que 
é este tipo de medida como segue no próximo tópico. 
 
2.1.1. Média Aparada: Uma média aparada é calculada aparando-se certa porcentagem dos maiores ou 
menores valores do conjunto de dados. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 
10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valoresque sobraram. 
Podendo-se usar de forma arbitrária a porcentagem a ser retirada da amostra para um novo cálculo. Ao 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 31 
 
 
contrário da média aritmética, a média aparada é uma medida resistente, pois não sofre influência dos valores 
extremos. 
A segunda medida de tendência central a analisar é a moda, como segue no próximo tópico. 
 
2.2. Moda (Mo): Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê 
bastante. Na Estatística, como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece no 
conjunto de dados. Não é muito sensato dizer que a moda é uma medida de tendência central, pois nem 
sempre ela representa o centro do conjunto de dados, visto que ela identifica o(s) valor(es) que ocorre(m) 
com maior frequência, podendo ser único, se existir, como pode também não existir. Nesse caso, é mais 
correto chamá-la de medida de posição. 
Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda. 
Das diferentes medidas de tendência central, a moda é a única medida que pode ser usada com 
dados em nível nominal de mensuração, conforme o exemplo 1: 
 
Exemplo 1: Um estudo sobre tempos de reação de pessoas em um teste foi composto por 30 canhotos, 50 
destros e 20 ambidestros. Embora não possamos tomar a média numérica dessas características, podemos 
afirmar que a moda é destro, que é a característica com maior frequência. 
Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima, chama-
se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de forma 
máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto de dados 
não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é amodal. 
 
OBS2: Se o conjunto de dados tiver os valores: 1, 1, 2, 2, 3, 3, o conjunto é multimodal, pois todos os valores 
se repetem 2 vezes, ou seja, a frequência é a mesma para todos. Agora se for: 1, 2, 3, 4, é amodal, pois não há 
repetição de valores. 
E se for: 10, 10, 10, 10 é unimodal, pois o valor 10 é o que ocorre com maior frequencia. 
A terceira medida de tendência central a ser analisada é a mediana. Muitos confundem a mediana 
com a média, mas são medidas completamente diferente, tanto na sua forma de encontrar quanto na sua 
interpretação, como segue no próximo tópico. 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 32 
 
 
2.3. Mediana (Md): 
A mediana é uma medida de tendência central que ocupa a posição central dos dados observados, 
quando estes estão ordenados em ordem crescente ou decrescente (rol), tendo uma mudança na sua 
realização se a quantidade de dados é par ou ímpar. 
Sendo assim, se o conjunto de dados (n) é constituído por um número ímpar de dados, a mediana é 
o valor que fica no centro dos dados ordenados que pode ser encontrado através da seguinte notação: 






 
2
1n
 
Pelo exemplo 2, como segue, é possível verificar como é a realização da mediana para uma 
quantidade ímpar de valores. 
 
Exemplo 2: Notas de alunos de um determinado professor de matemática: 8 7 3 4 8 
Solução: 
Ordenar os dados: 3 4 7 8 8 
Mediana (Md) = 
Interpretação: 
Agora, se o conjunto de dados (n) é constituído por um número par de dados, a mediana é a média 
aritmética dos dois valores que ficam na posição central dos dados ordenados que pode ser encontrado 
através da seguinte notação: 
2
1
22












 nn
 
Pelo exemplo 3, como segue, é possível verificar como é a realização da mediana para uma 
quantidade par de valores. 
 
Exemplo 3: Notas de alunos de um determinado professor de matemática: 8 7 3 4 8 9 
Solução: 
Ordenar os dados: 3 4 7 8 8 9 
Mediana (Md) = 
Interpretação: 
A mediana tem como vantagem a não afetação por valores extremos, ao contrário da média 
aritmética, por isso a mediana é uma medida mais “robusta” (forte) que a média, pois na média qualquer 
alteração nos dados, modifica-se o valor da média, e a mediana nem sempre isso acontece. 
Depois de verificado as três medidas de tendência central que são utilizadas com maior freqüência, 
dentre as três, a média aritmética é a medida mais usada na tomada de decisão, pois a mesma é encontrada 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 33 
 
 
com uso de todos os valores do conjunto de dados, ao passo que a mediana e a moda não utiliza todos eles, e 
sim alguns ou nenhum dos valores (amodal), apresentado resultados “distorcidos” da realidade dos dados 
apresentados. 
Quando se descreve os dados, além das medidas de tendência central, é necessário analisar a 
variabilidade dos dados, pois através destas pode-se tirar algumas conclusões mais consistentes na tomada de 
decisão. Assim, o próximo item mostrar as medidas de variabilidades mais utilizadas no campo estatístico. 
 
3. MEDIDAS DE DISPERSÃO: 
Ao se fazer a descrição dos dados, além de verificar o centro da distribuição deles através das 
medidas de tendência central é prescindível verificar também se os dados se comportam de forma 
homogênea ou heterogênea, e isso será possível através das medidas de dispersão. 
Essa verificação é importante, pois através delas podem-se tomar decisões mais consistentes e 
eficazes. Um exemplo disso eram que os bancos, há uns anos atrás, costumavam exigir que os clientes 
formassem filas separados para os diversos guinches, mas atualmente passaram adotar a fila única. O motivo 
dessa modificação foi que o tempo médio de espera era o mesmo para ambos os formatos de filas, não 
afetando a eficiência dos caixas, mas a adoção de fila única ocorreu ao fato de os clientes preferirem tempos 
de espera com menor variação. Assim, é que milhares de bancos efetuaram essa modificação que resultou em 
uma variação menor (e clientes mais satisfeitos), mesmo que a média de tempo de atendimento não tenha 
sido afetada. 
Com isso, pode-se concluir que as medidas de dispersão avaliam a variabilidade dos dados com 
relação à sua média. As medidas de dispersão mais usadas são a amplitude total, variância, desvio padrão e 
coeficiente de variação. 
 
3.1. Variância (S²): 
A variância é uma medida de dispersão que mensura a variabilidade dos dados, através da soma do 
quadrado dos desvios pela quantidade de valores da variável menos um (n-1) no caso amostral, e por N se for 
populacional. 
Pela propriedade “b” da média aritmética, verifica-se que a soma dos desvios será sempre zero, 
fazendo com que o pesquisador suponha que não há desvio (ou variabilidade) no conjunto de dados 
analisado, mas se todos os valores não forem iguais, haverá variabilidade sim, mas mesmo assim sempre 
somando os desvios o resultado será zero. Nesse caso, para que esse problema seja contornando, eleva-se os 
desvios ao quadrado, ocasionando a não anulação dos mesmos. 
Com isso, a notação matemática da variância é: 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 34 
 
 
 Variância amostral Variância populacional 
 
 
1
1
2
2





n
Xx
S
n
i
i
 
 
N
x
n
i
i


 1
2
2

 , onde 
 
xi = Valores da variável xi = Valores da variável 
X = Média aritmética simples µ = Média populacional 
n = Número de valoresda amostra N = Número de valores da população 
Propriedades: 
a) A variância de uma constante “c” é igual a zero; 
b) Ao somar ou subtrair uma mesma constante “c” a todos os valores do conjunto de dados, a variância não 
ficará alterada; 
c) Se multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante “c”, a variância ficará 
multiplicada ou dividida, respectivamente, pela constante ao quadrado (c²). 
Mas, mesmo elevando os desvios ao quadrado, surge o seguinte questionamento: E se ao invés de 
elevar cada desvio ao quadrado e depois somar, não seria melhor utilizar o módulo, em que os desvios 
resultam em valores absolutos e depois utilizar a soma deles? Ou seja, assim: 


n
i
i Xx
1
? E após isso, dividir 
tudo pela quantidade de valores (n), obtendo aí o desvio médio dado pela seguinte notação 
n
Xx
DM
n
i
i


 1 ? 
A resposta para essa pergunta é não, pois o módulo fará com que os desvios negativos fiquem 
positivos, apresentando uma realidade distorcida dos dados. 
Ao elevar ao quadrado, todos os desvios são elevados ao quadrado e não somente alguns, portanto, 
o melhor a ser utilizado é a variância porque ela dá certeza absoluta que as amostras são diferentes. Já o 
módulo não dá essa informação de variabilidade, ao contrário, ele nos dá evidências de que as amostras são 
iguais. Por exemplo: Suponha que uma turma fez uma prova e a média desta foi 7,0, e um aluno tirou 8,0, ou 
seja, a dispersão foi de 1 ponto para mais (8 - 7 = 1 ponto). Se outro aluno tirar 6,0, a dispersão é 1 ponto 
para menos (6 – 7 = -1 ponto). Se usar o módulo, a dispersão ao invés de ser -1 e 1, será 1 e 1, mostrando 
que não há dispersão das notas dos dois alunos, ou seja, ao invés de um aluno ter tirado a nota 6 e o outro a 
nota 8, ambos tiraram a nota 8, pois o desvio com o uso do módulo foi 1 ponto para mais. 
Mas mesmo a variância sendo considerada a ideal para tomar decisões sobre a variabilidade dos 
dados, a mesma apresenta um grande problema com unidade de medida dos dados que a compõem, pois 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 35 
 
 
estes serão elevados ao quadrado, dificultando assim a sua interpretação, pois se a unidade de medida for em 
metro, será metro quadrado, se for em centímetro, ficará centímetro ao quadrado e assim por diante. 
Para contornar esse problema e verificar os dados com a unidade de medida original, aconselha-se 
tirar a raiz quadrada da variância. Nesse caso, chega-se a outra medida de dispersão, o chamado desvio 
padrão, mas antes de analisar esta medida de dispersão, faz-se necessário se atentar para as seguintes 
observações: 
 
OBS3: Para um melhor entendimento da divisão por “n-1” na fórmula da variância e não por “n” apenas, é 
que a variância trabalha encima de “n-1” valores, pois se subtende que pelo menos um valor é a própria média 
(não havendo dispersão de um valor, nesse caso). Portanto, a variabilidade será entre “n-1” valores e não “n”. 
Por exemplo, sejam os seguintes valores: 1, 2 e 3, a média é “2”, ou seja, um valor é a própria média, mas dois 
valores não, ou seja, 2 = n-1 = 3-1 = 2. Mas isso não tem 100% de certeza não, pois tem casos em que a 
média não é igual ao conjunto de valores. 
 
OBS4: Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos desvios 
por “n-1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação de 
Parâmetros, a variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²) se for 
dividido apenas por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ² deve-se 
dividir por “n-1”. 
Há uma demonstração que prova que E(S²) = ², mostrando que a esperança da variância amostral é igual a 
variância populacional, ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa de 
forma eficaz e inferencial a variância populacional, sem ter analisado a população em si. 
 
OBS5: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n superior a 
30) não há praticamente diferença entre S² e ², assim pode-se dividir por “n-1” ou por “n”, respectivamente 
que o resultado será aproximadamente o mesmo, pois, para comprovação S²/² será aproximadamente 1, 
não fazendo diferença nenhuma nos cálculos. Agora, se n for menor que 30, essa divisão será bem menor que 
1 mostrando que não é a mesma coisa, devendo assim não deixar de dividir por n-1 se for o amostral e por n 
se for o populacional. 
Após, as observações anteriores, faz-se necessário verificar a medida de dispersão realmente utilizada 
na tomada de decisão, o desvio padrão. 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 36 
 
 
3.2. Desvio Padrão (S): 
O desvio padrão é uma medida de variabilidade dos valores com relação à média deles, mas ao 
contrário da variância, esta medida utiliza-se à mesma unidade de medida dos dados originais, por isso esta é 
utilizada com maior frequência que a variância (S²). A notação matemática do desvio padrão, que é a raiz 
quadrada da variância é como segue: 
1-n
)(x
n
1i
2
i



X
S 
 
A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no próximo 
tópico. 
 
3.3. Coeficiente de Variação de Pearson (CV): 
O coeficiente de variação é uma medida de dispersão relativa que avalia o quanto o desvio padrão 
representa com relação à média aritmética de um conjunto de dados. Assim, quanto menor for o CV, mais 
homogêneo será o conjunto de dados, ou seja, com menor variabilidade entre eles, caso contrário haverá uma 
grande variabilidade. Assim, a notação do coeficiente de variação é a seguinte: 
 
100






X
S
CV 
 
Mas para afirmar se os dados são ou não passíveis de grandes ou pequenas variabilidades, adota-se 
o ponto de corte percentual como segue: 
Se CV < 50% (Há baixa dispersão entre os dados, ou seja, eles são homogêneos) 
Se CV  50% (Há alta dispersão entre os dados, ou seja, eles são heterogêneos) 
 
 
 
 
 
 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 37 
 
 
Exercício 1: Estudo de análise de risco no desenvolvimento de doenças através da Estatística 
Descritiva: O sódio é um metal alcalino utilizado para dar sabor e tempo de prateleira aos produtos doces e 
salgados. O excesso do consumo desse tipo de metal pode causar ao organismo do ser humano a hipertensão, 
problemas cardíacos, cálculos renais, retenção de líquidos, dentre outros. A Tabela Brasileira de Composição 
de Alimentos (TACO, Ministério da Saúde) informa que para cada 1 e ½ fatia de pão de forma (50g) deve-se 
ter em média 0,190g de sódio com margem de erro de 0,019g para mais (não podendo ultrapassar 0,209g) para 
não comprometer a saúde de seus consumidores. Assim, um engenheiro de alimentos tirou uma amostra de 5 
fatias aleatórias, por pacote de pão de forma (de 500g) da marca Pullman, de 10 tipos disponíveis nos 
supermercados de Fortaleza e anotou-se as seguintes quantidades de sódio, sendo: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Calcule e Interprete: 
a) Média 
b) Moda 
c) Mediana 
d) Variância 
e) Desvio Padrão 
f) Coeficiente de Variação. Os dados são homogêneos ou heterogêneos? 
g) De acordo o Ministério da Saúde, quais marcas estão reprovadas com relação a quantidade de 
sódio existente? 
 
 
 
 
Tipos de Pão de Forma Sódio (g) 
Zero % 0,208g 
12 grãos zero 0,219g 
Integral 0,152g 
12 grãos vitagrão 0,164g 
Vitagrão granola 0,143g 
Tradicional (sem casca) 0,219g 
Tradicional (com casca) 0,218g 
Tradicional XL 0,219g 
Milho 0,159g 
Coco 0,141g 
 
mailto:kleisonn@yahoo.com.brNotas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 38 
 
 
4. SEPARATRIZES: 
Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um 
conjunto de dados, pois são afetados, de forma exagerada por valores extremos, ou seja, são medidas 
sensíveis. Então analisar outras medidas de posição, com as separatrizes, se faz necessário, assim segue as 
medidas: 
 Quartis: Dividem os valores ordenados (em ordem crescente ou decrescente) da variável em quatro partes 
iguais através de três quartis (Q1, Q2 e Q3), ou seja, (25% abaixo, 50% abaixo e acima, 25% acima). 
 
Exemplo 4: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, 
calcule os quartis: 
2; 5; 6; 9; 10; 13; 15 
OBS: O conjunto de dados é ÍMPAR (n = 7), assim: 
2 5 6 9 10 13 13 
 
Q1 = P25 
 
Md = Q2 = P50 = D5 
 
Q3 = P75 
 
Solução: 
valor
n
Q 




 





 


2
4
17
4
1
1 = 5 anos 
25% das pessoas tem idade abaixo de 5 anos e 75% acima. 
valor
n
MdQ 




 





 


4
2
17
2
1
2 = 9 anos 
50% pessoas tem idade abaixo de 50% anos e 3 acima. 
valor
n
Q 




 





 


5,5
4
121
4
13
3 = Pega-se o 6º valor = 13 anos 
75% tem idade abaixo de 13 anos e 25% acima. 
 
Exemplo 5: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, 
calcule e interprete os quartis: 
1; 1; 2; 3; 5; 5; 6; 7; 9; 9 
 
OBS: O conjunto de dados é PAR (n = 10), mas ao dividir os dados ao meio sobram 5 valores para um lado e 
5 para o outro, ou seja, ao dividir fica uma quantidade ímpar para um lado e para o outro, assim: 
Quantidade Ímpar de Valores 
 
Quantidade Ímpar de Valores 
1 1 2 3 5 
 
5 6 7 9 9 
 
Q1 = P25 
 
(5 + 5)/2 = 5 
 
Q3 = P75 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 39 
 
 
5
2
55
2
65
2
1
2
10
2
10
2
1
22
2 
































nn
MdQ 
 
Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 5 valores para um lado e 5 valores para 
o outro, ou seja, uma quantidade ímpar para um lado e uma quantidade ímpar para o outro, assim, para 
calcular o quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso ímpar e não par, assim: 
23
4
110
4
1
1 




 





 


valor
n
Q 
78
4
110*3
4
13
3 




 





 


valor
n
Q 
 
Exemplo 6: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, 
calcule e interprete os quartis: 
 
1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13 
 
OBS: O conjunto de dados é PAR (n = 12). Ao dividir os dados ao meio ficam 6 valores para um lado e 6 
para o outro, ou seja, fica uma quantidade par para um lado e uma quantidade par para o outro, assim, as 
fórmulas devem ser, nesse caso as pares, assim: 
Quantidade Par de Valores 
 
Quantidade Par de Valores 
1 1 2 3 5 5 
 
6 7 9 9 10 13 
 
Q1 = (2+3)/2 = 2,5 
 
Q2 = (5 + 6)/2 = 5,5 
 
Q3 = (9+9)/2 = 
9 
 
5,5
2
65
2
76
2
1
2
12
2
12
2
1
22
2 
































nn
MdQ 
 
Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 6 valores para um lado e 6 valores para 
o outro, ou seja, uma quantidade par para um lado e uma quantidade par para o outro, assim, para calcular o 
quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso par, assim: 
5,2
2
32
2
43
2
1
4
12
4
12
2
1
44
1 
































nn
Q anos 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 40 
 
 
9
2
99
2
109
2
1
4
36
4
36
2
1
4
3
4
3
3 
































nn
Q anos 
 Decil: Divide o conjunto de dados em 10 partes iguais: 
D1 = 10%, D2 = 20%,.., D10 = 100% 
Decil 1 = Representa os 10% menores e os 90% maiores 
 
 Percentil: Divide a série em 100 partes iguais: 
P1 = 1%, P2 = 2%,.., P100 = 100% 
Assim: 
Md = Q2 = D5 = P50 
Q1 = P25 
Q3 = P75 
 
5. BOX-PLOT 
Quando tentamos descrever a aparência de uma pessoa conhecida, tendemos a focar características 
como altura, peso, idade e comprimento do cabelo. Do mesmo modo, quando descrevem distribuição de 
dados, estatísticos estão propensos a indicar a tendência central, dispersão, assimetria e outras características. 
No entanto, diz-se que uma imagem vale mais por mil palavras. A foto de uma pessoa é muito mais útil para 
provocar uma impressão em relação à aparência do que uma lista de seus atributos. 
 
Figura 1: Modelo de Box-Plot 
Da mesma maneira que uma representação 
gráfica de uma distribuição é muito mais eficiente do 
que uma lista de estatísticas (LEVIN, FOX e FORDE, 
2012). E dentre as representações gráficas utilizadas, 
existe o Box-Plot (também conhecido como Box and 
whisker plot), que foi proposto em 1977 por John Tukey. 
Assim, o Box-Plot (Figura 1) é um tipo de 
representação gráfica conveniente para revelar 
tendências centrais, dispersão, distribuição dos dados e 
a presença de outliers (dados discrepantes). A 
construção de um Box-plot exige o “resumo dos cinco 
números”, ou seja, o menor valor do conjunto de 
dados, o primeiro quartil, o segundo quartil, o terceiro 
quartil e o maior valor do conjunto de dados. 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística Professor Ms. Kleison Freitas – kleisonn@yahoo.com.br Página 41 
 
 
5.1. Interpretação do Box-Plot: O gráfico de Box-plot interpreta-se da seguinte forma: 
• A caixa (Box) propriamente contém a metade 50% dos dados (Q2 = Mediana). O limite superior da caixa 
indica o percentil de 75% dos dados (Q3) e o limite inferior da caixa indica o percentil de 25% (Q1). A 
distância entre esses dois quantis (Q3 – Q1) é conhecida como intervalo interquartílico (IIQ ou Tamanho da 
caixa). 
• Limite Inferior: Percentil 1 e Limite Superior: Percentil 9; 
• A linha no meio da caixa indica o valor de mediana (Q2) dos dados. 
• Se a linha mediana dentro da caixa não é equidistante (ter a mesma distância) dos extremos, diz-se então que 
os dados são assimétricos (à direita ou à esquerda). 
• Os extremos do gráfico indicam o valor mínimo e máximo, a menos que valores outliers estejam presentes. 
• Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers. 
 
5.2. O que é melhor utilizar: Amplitude Total ou o Intervalo Interquartílico? 
Para descrever a distribuição de um grande número de dados, a amplitude total perde grande parte 
de sua confiabilidade, pois ela utiliza apenas os valores extremos, tornando uma medida grosseira de 
variabilidade. 
Já o intervalo interquartílico usa os valores concentrados em torno do centro de uma distribuição, 
visto que esta medida inclui 50% dos valores do meio na distribuição quando estes são organizados em 
ordem de tamanho. 
 
Exemplo 7: Sejam os conjuntos de dados: 
Conjunto de dados 1: 40 48 53 56 62 65 94 
Resultados: 
Amplitude Total = 94 – 40 = 54 
Q1 = 48 
Q3 = 65 
IIQ = Q3 – Q1 = 65 – 48 = 17 
Média aritmética = 59,71 
Desvio Padrão = 17,28 
CV = 29% 
 
Conclusão: Pela amplitude total, a variabilidade dos dados não difere o que não é verdade, o que justifica o 
não grande uso dessa medida. 
Conjunto de dados 2: 40 48 53 62 85 94 
Resultados: 
Amplitude Total = 94 – 40 = 54 
Q1 = 48 
Q3 = 85 
IIQ = Q3 – Q1 = 85 – 48 = 37 
Média aritmética = 63,67 
Desvio Padrão = 21,43 
CV = 34% 
 
mailto:kleisonn@yahoo.com.br
 
Notas de Aula Introdução à Estatística

Outros materiais

Perguntas Recentes