Buscar

CAP 01

Prévia do material em texto

*
*
ESTATÍSTICA APLICADA À ENGENHARIA
Prof. Jouberson Moreira
Universidade Federal do Pará
Instituto de Tecnologia
Faculdade de Engenharia de Materiais
Campus de Ananindeua
*
*
CAPÍTULO I
Estatística Descritiva
Universidade Federal do Pará
Instituto de Tecnologia
Faculdade de Engenharia de Materiais
Campus de Ananindeua
*
*
I - Estatística Descritiva
Introdução
Conceitos e definições
Classificação dos dados
Caracterização e apresentação dos dados
Estatísticas amostrais
Regressão linear
Exercícios diversos sobre os assuntos da unidade.
*
Estatística ? 
O que é isso ?
1.1 INTRODUÇÃO
*
Estatística é...
a Ciência do aprendizado a partir dos dados.
*
Onde acho a Estatística no meu dia-a-dia ?
* Na média final que você ficou em uma dada matéria da 	sua escola...
* Nos meios de comunicação...
* Quando se fala, por exemplo, que aproximadamente 	 51% dos brasileiros são do sexo feminino...
*
Estatística na prática...
 Sorteio de Amostras de Populações
Populações: homogêneas ou heterogêneas
*
Como a Estatística pode ajudar ?
Fornecendo instrumentos que auxiliam a tomada de decisão em toda situação onde incertezas estão presentes.
*
Seu caráter interdisciplinar!
Qual é a principal vantagem de trabalhar com Estatística?
Pode trabalhar em qualquer área !
Pode trabalhar como empregado e/ou fazendo consultorias.
*
Podemos encontrar alguns exemplos nas seguintes áreas:
	* ciências médicas e biológicas
	* ciências sociais e econômicas
	* engenharias (inclusive de petróleo)
	* marketing e análise de mercado
	* financeira e bancária
	* indústria
	* etc.
Em que áreas o Estatístico pode trabalhar ?
*
O que preciso aprender para trabalhar com Estatística ?
1) Probabilidade
2) Matemática
3) Informática
*
*
1.1 Introdução
ESTATÍSTICA: É a disciplina que objetiva estudar os métodos científicos para a coleta, organização, resumo, apresentação e análise de dados, bem como obter conclusões válidas e tomar decisões razoáveis baseadas em tais análises.
Técnicas Estatísticas: São as várias técnicas por meio das quais é possível estudar conjuntos de dados e, a partir de uma amostra (se necessária), tirar conclusões válidas para conjuntos maiores (população).
*
*
1.1 Introdução
De uma maneira geral, as técnicas estatísticas são utilizadas em três etapas principais do trabalho de pesquisa:
 1. A coleta de dados, incluindo o planejamento do trabalho e da pesquisa;
 2. A apresentação dos dados coletados; e
 3. A análise dos dados coletados, com a formulação de conclusões e generalizações.
*
*
1.1 Introdução
Corresponde ao estabelecimento do método de coleta de dados (questionário ou teste ou ensaio de material) e elaboração dos questionamentos ou determinação das variáveis que serão estudadas, de acordo com o interesse do pesquisador;
 - Cálculo do tamanho da amostra, de acordo com a natureza da
 pesquisa, do tempo e do orçamento disponíveis.
COLETA DE DADOS
*
*
APRESENTAÇÃO DOS DADOS COLETADOS
1.1 Introdução
- Requer técnicas específicas para a transformação dos dados numéricos em tabelas ou gráficos (é a partir da organização dos dados coletados que se poderá elaborar a interpretação).
-Etapa simultânea à anterior, pois durante a própria organização dos dados já é possível ir percebendo a tendência geral da pesquisa.
ANÁLISE DOS DADOS COLETADOS
*
*
1.1 Introdução
No sentido de melhor esclarecer o significado da análise e interpretação dos dados, deve-se estabelecer uma distinção entre
ESTATÍSTICA DESCRITIVA 
e INFERÊNCIA ESTATÍSTICA
*
*
Estatística Descritiva: Objetiva sintetizar e representar de uma forma compreensível a informação contida num conjunto de dados.
Como o próprio nome sugere, constitui-se num conjunto de técnicas que objetivam descrever, analisar e interpretar os dados numéricos de uma população ou amostra.
Adquire importância quando o volume de dados for significativo.
Materializa-se na construção de tabelas e/ou gráficos ou no cálculo de medidas que representem convenientemente a informação contida nos dados.
1.1 Introdução
*
*
1.1 Introdução
Inferência Estatística: Baseada na análise de um conjunto limitado de dados (uma amostra), objetiva caracterizar o todo a partir do qual tais dados foram obtidos (a população).
Objetivo mais ambicioso que o da estatística descritiva.
Informações precisas.
Informações experimentais (amostra) e da literatura.
Os métodos e técnicas utilizados são mais sofisticados.
Técnicas: frequentista (clássica) e Bayesiana. 
*
*
1.1 Introdução
*
*
1.1 Introdução
*
*
I - Estatística Descritiva
Introdução
Conceitos e definições
Classificação dos dados
Caracterização e apresentação dos dados
Estatísticas amostrais
Regressão linear
Exercícios diversos sobre os assuntos da unidade.
*
*
1.2 Conceitos e Definições
População: É o conjunto de todos os elementos que contêm uma certa característica que se deseja estudar.
Como é comum a todos os elementos, esta característica varia em quantidade ou qualidade.
Uma população pode ter dimensão finita ou infinita.
Amostra: É um subconjunto de dados que pertencem à população. As amostras aleatórias são escolhidas por meio de processos (técnicas de amostragem) que garantem que o subconjunto obtido é representativo da população. 
*
*
1.2 Conceitos e Definições
Principais motivos para o estudo da amostra:
População infinita; 
2. Custo em termos de tempo ou de dinheiro que um estudo em toda a população implicaria; 
3. Obtenção de informação por meio de testes destrutivos, no âmbito industrial; 
4. Impossibilidade de acesso a todos os elementos da
 população.
*
*
1.2 Conceitos e Definições
OBSERVAÇÃO:
População finita: é aquela em que é possível realizar a enumeração de todos os seus elementos. Retrata um universo limitado.
 - Exemplos:
 • O número de medicamentos produzidos por uma indústria farmacêutica por mês; • O número de habitantes de determinada cidade; • O número de estudantes em uma sala de aula; • O número de doentes que apresentam determinada doença em um hospital; • O número de centros de saúde de uma cidade.
*
*
1.2 Conceitos e Definições
OBSERVAÇÃO:
População infinita: é aquela em que não é possível realizar a enumeração de seus elementos constituintes. Dessa forma, não é possível uma delimitação do universo, já que seus elementos não podem ser mensurados.
 - Exemplos:
 • Os resultados (cara ou coroa) obtidos em sucessivos lançamentos de uma moeda; • O conjunto de números inteiros, reais ou naturais; • Os pontos de uma reta; • A temperatura em cada ponto do Brasil.
*
*
1.2 Conceitos e Definições
Fases do método de análise estatística: 
• No âmbito da Estatística, o método de abordagem dos problemas pode ser dividido em cinco fases:
 1. Estabelecimento do objetivo da análise a efetuar (questões a serem resolvidas) e definição das populações correspondentes;
2. Concepção de um procedimento adequado para a seleção de uma ou mais amostras (escolha das técnicas de amostragem a utilizar).
3. Coleta de dados
4. Análise dos dados (Estatística Descritiva).
5. Estabelecimento de inferências a respeito da população (Inferência Estatística)
*
*
1.2 Conceitos e Definições
Fases do método de análise estatística:
*
*
I - Estatística Descritiva
Introdução
Conceitos e definições
Classificação dos dados
Caracterização e apresentação dos dados
Estatísticas amostrais
Regressão linear
Exercícios diversos sobre os assuntos da unidade.
*
*
1.3 Classificação dos Dados
Iniciando o estudo:
• Isso é necessário, pois podem ocorrer registros que não se encaixam no padrão geral observado e, dessa forma, a sua veracidade deve ser averiguada, pois podem tratar se de erros de observação, bem como do próprio registro ou provenientes de alterações do fenômeno em estudo.
 • Não existeuma estratégia única para iniciar o estudo descritivo, mas uma primeira recomendação seria começar por uma exploração visual dos dados levantados.
*
*
1.3 Classificação dos Dados
Iniciando o estudo:
• Embora estas análises já se encontrem disponíveis em vários softwares e calculadoras programáveis, para uma melhor interpretação das mesmas é conveniente conhecer as técnicas utilizadas.
 • Para se ter uma ideia mais concreta sobre os dados levantados, deve-se recorrer às tabelas e/ou gráficos que podem representar, de maneira sintética, as informações sobre o comportamento de variáveis numéricas levantadas.
*
*
1.3 Classificação dos Dados
Iniciando o estudo:
• Portanto, para se proceder um estudo descritivo, é importante:
 - Ordenação dos dados – fase onde se começa a ter uma ideia a respeito de algumas medidas de posição (média, mediana, etc.);
- Estatísticas amostrais – a partir de algumas medidas promove-se um resumo dos dados levantados, relativamente à posição, dispersão e forma;
 - Agrupamento dos dados e representação gráfica – revela a forma possível para a população em estudo e permite escolher a classe de modelos que deve ser explorada nas análises mais sofisticadas.
*
*
1.3 Classificação dos Dados
Dados brutos: Como primeiro resultado de uma pesquisa, obtêm-se dados brutos, ou seja, um conjunto de números ainda sem organização alguma.
 Rol: Os dados brutos são então ordenados de forma crescente ou decrescente, com a indicação da frequência de cada um, dando origem ao chamado rol.
*
*
Exemplo: Considere os dados brutos que representam a safra, em alqueires, por árvore, para um conjunto de 40 pessegueiros. 
*
*
1.3 Classificação dos Dados
Tabulação dos dados: Depois de elaborar o rol é preciso determinar quantas faixas terá a tabela de frequência. A fórmula de Sturges é utilizada para estabelecer o número aproximado de classes
 onde: n = número de elementos da amostra (tamanho da amostra) k = número de classes que a tabela de classes deverá conter.
*
*
*
*
1.3 Classificação dos Dados
• Observações: - k deverá ser no mínimo 3 e no máximo 20; - Como a variável k é um número inteiro, ela deverá ser aproximada para o maior inteiro (por exemplo, se k ≈ 6,4, usa-se k = 7).
Frequência de classes: O passo seguinte é subdividir os dados pelas classes ou categorias e determinar o número de indivíduos pertencentes a cada uma, resultando nas frequências de classes.
Apresentação final dos dados (tabela completa): Com base em todos os cálculos feitos anteriormente, pode-se fazer uma nova tabela com todas as frequências, as quais serão estudadas a posteriori.
Gráficos: A partir da tabela de frequências, faz-se o desenho gráfico, um recurso de visualização dos dados constantes na tabela.
*
*
1.3 Classificação dos Dados
Os dados que constituem uma amostra podem ser de quatro tipos, assim distribuídos:
• Qualitativos
 - Nominal
 - Ordinal
 • Quantitativos
- Intervalar 
- Absoluto
*
*
1.3 Classificação dos Dados
a) Dados nominais: Quando cada um deles for identificado pela atribuição de um nome que designa uma classe.
Exemplo: Classificação das pessoas pela cor do cabelo
 (preto, castanho, louro etc.).
*
*
1.3 Classificação dos Dados
b) Dados ordinais: São semelhantes aos dados nominais; contudo, nessa escala existe a possibilidade de se estabelecer uma ordenação dos dados nas classes, segundo algum critério relevante.
- Exemplo: Classificação de conceitos de avaliação na disciplina em insuficiente, regular, bom e excelente.
*
*
1.3 Classificação dos Dados
c) Dados intervalares: No caso da escala intervalar, os dados são diferenciados e ordenados por números expressos em uma ordem cuja origem é arbitrária.
 - Observação: Neste caso, pode-se atribuir um significado à diferença entre esses números, mas não à razão entre eles.
Por exemplo, o registro de temperaturas em ºC, em determinadas horas de dias sucessivos. Se em três dias consecutivos a temperatura atingir 5ºC, 10°C e 20ºC, não faz sentido dizer que o terceiro dia esteve duas vezes mais quente
que o segundo, pois se a temperatura fosse expressa em outra escala, a razão entre os valores registrados naqueles dias seria diferente.
*
*
1.3 Classificação dos Dados
d) Dados absolutos: Contrariamente ao que sucede com a escala intervalar, a escala absoluta tem origem fixa (nesta escala, o valor zero tem significado).
 Exemplo: Pesos de pessoas expressos em kg.
- Observações:
• Escala intervalar: temperatura de 0ºC não significa que não haja temperatura.
 • Escala absoluta: peso de 0 kg significa que não existe peso.
 • Em consequência ao fato da origem ser fixa, a razão entre os dados expressos numa escala absoluta passa a ter significado; uma pessoa
com 60 kg tem o dobro do peso de uma com 30 kg.
*
*
1.3 Classificação dos Dados
Observação: Quando se trabalha com dados quantitativos, é necessário que se faça a distinção entre os dados discretos e os contínuos.
Os dados denominam-se discretos quando são valores de uma variável aleatória discreta, que é a aquela que assume valores em pontos da reta real (por exemplo, número de páginas em um livro: 1 , 2, 3, 4, 5...).
Os dados são contínuos quando são valores de uma variável aleatória contínua, que é aquela que pode assumir qualquer valor em certo intervalo da reta real (por exemplo, o peso de funcionários de uma fábrica: 60,5 kg; 60,52 kg; ...).
*
*
I - Estatística Descritiva
Introdução
Conceitos e definições
Classificação dos dados
Caracterização e apresentação dos dados
Estatísticas amostrais
Regressão linear
Exercícios diversos sobre os assuntos da unidade.
*
1.4 Distribuição em frequência 
Uma distribuição de frequência é um método de grupamento de dados em classes, ou intervalos, de tal forma que se possa determinar o número ou a percentagem de observações em cada classe. O número ou percentagem numa classe chama-se frequência de classe. Uma distribuição de frequência pode ser apresentada sob forma gráfica ou tabular.
*
1.4 Caracterização e Apresentação dos Dados
Tabela de frequências:
Devido à necessidade das categorias estarem ordenadas, somente se pode falar de frequências acumuladas quando os dados estão em escalas ordinais, intervalar ou absoluta.
A representação tabular com todos os tipos de frequências é mostrada a seguir:
*
1.4 Caracterização e Apresentação dos Dados
Tabela de frequências:
Frequência absoluta (ni): O número de dados contidos numa classe ou categoria qualquer i (i = 1,..., k) de um conjunto de dados designa-se por frequência absoluta da classe ou categoria i.
Denotando-se por ni tal frequência e admitindo que as categorias especificadas contêm todos os dados, o número total de dados (n) é calculado por :
*
1.4 Caracterização e Apresentação dos Dados
Tabela de frequências:
Frequência relativa (fi): O número total de dados que pertencem a uma classe ou categoria qualquer i, quando expressos como uma proporção do número total de dados, designa-se por frequência relativa da classe ou categoria i e é dada por
As frequências relativas são muitas vezes definidas em termos percentuais.
*
1.4 Caracterização e Apresentação dos Dados
Tabela de frequências:
Frequência absoluta acumulada (Ni): Representa para cada classe ou categoria i, a frequência absoluta de dados que pertencem à classe ou às classes anteriores.
Frequência relativa acumulada (Fi): Representa para cada classe categoria i, a frequência relativa de dados que pertencem à classe ou às classes anteriores.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.4 Caracterização e Apresentação dos Dados
Tabela de frequências:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.4 Caracterização e Apresentação dos Dados
Exemplo
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Uma vez elaborada a tabela de frequências,segue-se o desenho do gráfico, um recurso de visualização dos dados constantes na tabela. 
Os tipos de gráficos mais comuns são: histograma; polígono de frequência, setograma e ogiva de Galton.
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Histograma: Este tipo de gráfico é utilizado para representar as frequências absolutas (ni) em relação à sua classe, e é assim construído:	
No eixo das abscissas marcam-se, em escala, as classes dos dados;
No eixo das ordenadas, marcam-se as frequências das classes;
Faz-se a correspondência entre cada intervalo no eixo das classes com um valor no eixo das frequências, formando um desenho de colunas paralelas.
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Histograma:
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
No eixo das abscissas, coloca-se o ponto médio de cada intervalo de classe;
No eixo das ordenadas, permanecem as frequências absolutas das classes (ni) ;
Ligam-se os pontos médios por segmentos de reta;
Para completar o polígono, acrescenta-se um ponto médio com frequência zero em cada uma das extremidades da escala horizontal.
Polígono de frequência: Utilizado para indicar o ponto médio ou representante de classe em suas respectivas frequências absolutas; normalmente, é construído sobre o histograma, da seguinte forma:
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Polígono de frequência:
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Histograma
Polígono de frequência:
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Gráfico em setores (Setograma): Também conhecido como gráfico de pizza, é utilizado para representar a frequência absoluta (ni) em valores relativos (%); é construído da seguinte forma:
Faz-se um círculo;
Cada setor é regido pela fórmula:
No círculo, distribui-se os valores das frequências percentuais
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Ogiva de Galton: Este tipo de gráfico é utilizada para representar as frequências acumuladas de uma distribuição; é construído da seguinte forma:
No eixo das abscissas coloca-se as classes dos dados, tal como no histograma;
No eixo das ordenadas, escreve-se uma das frequências acumuladas, marcando o ponto com os limites superiores (Li) de cada classe; inicia-se com a frequência zero e com limite inferior da 1ª classe.
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Ogiva de Galton:
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Gráfico linear: É o tipo de gráfico que apresenta os dados estatísticos por meio de uma linha poligonal. Os pontos da polígono são obtidos pelas informações contidas em cada linha da tabela, e marcados no plano utilizando o sistema cartesiano. São utilizados para representar séries cronológicas.
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Gráfico de colunas: É o tipo de gráfico que apresenta os dados estatísticos por meio de retângulos (colunas) dispostas em posições vertical. Todos os retângulos possuem a mesma base e a altura proporcional aos dados. Podem ser utilizados para representar qualquer série estatística.
*
1.4 Caracterização e Apresentação dos Dados
Gráficos estatísticos
Gráfico de colunas: Este tipo de gráfico é semelhante ao de colunas, onde os retângulos (barras) estão dispostos horizontalmente. É utilizado para legendas longas, em todas as séries.
*
1.4 Caracterização e Apresentação dos Dados
Dados Qualitativos:
Exemplo: Em uma amostra constituída de 120 peças, constatou-se que 100 não tinham qualquer defeito, 15 tinham defeitos recuperáveis e 5 apresentavam defeitos irrecuperáveis. Representar em uma tabela, e também graficamente, as frequências (absolutas e relativas) dos dados que constituem essa amostra:
*
1.4 Caracterização e Apresentação dos Dados
Dados Qualitativos:
*
1.4 Caracterização e Apresentação dos Dados
Dados Quantitativos:
Exemplo: Em um estudo realizado com o objetivo de caracterizar o comportamento dos clientes de um supermercado, analisou-se o número de ocupantes por veículo para 1000 veículos que entraram no estacionamento do referido supermercado, em um sábado. Os resultados encontram-se resumidos na tabela seguinte:
*
1.4 Caracterização e Apresentação dos Dados
Dados Quantitativos:
*
1.4 Caracterização e Apresentação dos Dados
Dados Quantitativos:
*
1.4 Caracterização e Apresentação dos Dados
Distribuições agrupadas: Essas distribuições são úteis quando existe um grande número de dados relativos a uma variável contínua, cujos valores observados são muito próximos uns dos outros. 
A frequência de cada classe é o número de observações que ela contém. 
No exemplo anterior, os dados observados correspondem a uma variável discreta; para o caso de dados relativos uma variável contínua existem algumas diferenças.
Dados Quantitativos:
*
1.4 Caracterização e Apresentação dos Dados
Exemplo: O conjunto de dados baixo representa o peso, em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático: 
	302,25; 299,20; 300,24; 297,22; 298,35; 303,76; 298,65; 299,38; 300,36; 299,16; 300,86; 299,83; 302,52; 300,12; 301,81; 297,99; 299,23; 298,73; 303,07; 299,07; 297,83; ... ; 300,80
Dados Quantitativos:
*
1.4 Caracterização e Apresentação dos Dados
No conjunto de dados mostrado não existe praticamente repetição de valores; logo, não é vantagem se utilizar os dados agrupados numa tabela de frequências, pois a mesma teria tantas linhas quanto o número de dados. 
No entanto, a tabela de frequências pode ser construída se os dados forem agrupados por classes: 
Dados Quantitativos:
*
1.4 Caracterização e Apresentação dos Dados
*
1.4 Caracterização e Apresentação dos Dados
Dados Quantitativos:
*
*
Exemplo: Considere os dados brutos que representam a safra, em alqueires, por árvore, para um conjunto de 40 pessegueiros. 
*
*
Exemplo: Considere os dados brutos que representam a safra, em alqueires, por árvore, para um conjunto de 40 pessegueiros.
*
*
Exemplo: Considere os dados brutos que representam a safra, em alqueires, por árvore, para um conjunto de 40 pessegueiros.
*
*
*
*
*
*
*
*
I - Estatística Descritiva
Introdução
Conceitos e definições
Classificação dos dados
Caracterização e apresentação dos dados
Estatísticas amostrais
Regressão linear
Exercícios diversos sobre os assuntos da unidade.
*
1.5 Estatísticas Amostrais
Nas seções anteriores foi visto a sintetização de dos dados sob a forma de tabelas, gráficos e distribuição de frequências.
O cálculo de estatísticas amostrais é uma forma mais sintética de descrever um conjunto de dados, ou seja, possibilita representar um conjunto de dados relativos à observação de determinado fenômeno de forma reduzida.
As estatísticas amostrais são calculadas com base nos dados, a partir das quais é possível descrever globalmente o conjunto de valores que os referidos dados tomam. 
*
1.5 Estatísticas Amostrais
Medidas de posição ou de tendência central:
Média aritmética, média geométrica, média harmônica, mediana, quartis, decis, percentis e moda.
Amplitude total, desvio médio, variância, desvio padrão, amplitude interquartílica e coeficiente de variação.
b) Medidas de dispersão:
Medidas de assimetria e medidas de curtose.
c) Medidas de forma:
As estatísticas amostrais ou medidas estatísticas são divididas em três grupos:
*
1.5 Estatísticas Amostrais
Medidas de posição:
Essas medidas nos orientam quanto à posição da distribuição no eixo x (eixo dos números reais);
Possibilitam comparações de séries de dados entre si pelo confronto desses números. 
São chamadas de medidas de tendênciacentral, pelo fato de representarem os fenômenos pelos seus valores médios, em torno dos quais tendem a concentrar-se os dados.
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição:
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 4
Exemplo: Determinar a média aritmética simples (média aritmética amostral) dos dados mostrados abaixo:
Medidas de posição:
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição:
Quando os dados estiverem agrupados numa distribuição de frequência usa-se a média aritmética dos valores xi ponderadas pelas respectivas frequências absolutas ni, assim:
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição:
Exemplo (dados agrupados): Determinar a média aritmética simples (média aritmética amostral) da distribuição dada abaixo:
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição:
Exemplo (dados agrupados):
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição
No caso da variável ser contínua e para dados agrupados em classes, visto que se perdeu os valores concretos do conjunto (ficaram afetados a uma determinada classe) não se pode calcular a média amostral diretamente dos valores dos dados. 
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição:
Deste modo, à cada classe vai ser atribuído um representante (xi), normalmente o ponto médio de cada classe, e a média amostral será calculada por meio desses representantes:
onde k é o número de classes do agrupamento, ni é a frequência absoluta da classe i e xi é o ponto médio da classe i, o qual é considerado como elemento representativo da classe.
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição:
Exemplo (dados agrupados em classes): Determinar a média da distribuição a seguir, a qual representa o peso, em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático (exemplo anterior):
*
1.5 Estatísticas Amostrais
a.1) Média aritmética: 
Medidas de posição:
Exemplo (dados agrupados em classes):
*
A tabela a seguir mostra a massa (em quilograma) de um grupo de pessoas. Os dados foram informados em intervalos. Determine a média aritmética dos dados agrupados em classe.
*
*
1.5 Estatísticas Amostrais
a.1) Média aritmética (Ponderada) 
Medidas de posição:
Às vezes, associam-se os números x1, x2, ..., xk a certos fatores de ponderação ou pesos w1, w2, ... , wk que dependem do significado ou importância atribuída aos mesmos. Nesse caso
	é denominada de média aritmética ponderada.
*
1.5 Estatísticas Amostrais
a.1) Média aritmética (Ponderada) 
Medidas de posição:
Exemplo: Em um curso, a avaliação final tem peso 3 e as parciais peso 1; a nota média de um estudante que obtenha nota 8,5 na avaliação final e 7,0 e 9,0 nas provas parciais, será:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
a.2) Média geométrica: A média geométrica G (ou ) de um conjunto de n números x1, x2, ..., xn é a raiz de ordem n do produto desses números:
Medidas de posição:
	- Exemplo: A média geométrica dos números 2, 4 e 8:
A média geométrica é muito utilizada nas situações envolvendo aumentos sucessivos. 
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
Por exemplo, vamos considerar um aumento de salário sucessivo de 15% no primeiro mês, 12% no segundo mês e 21% no terceiro mês. 
*
1.5 Estatísticas Amostrais
a.2) Média geométrica (dados agrupados): Se os elementos x1, x2, ..., xn ocorrem com as frequências n1, n2,..., nk, sendo n1+n2+...+nk = n a frequência total, a média geométrica G desses elementos será deduzida como:
Medidas de posição:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
a.3) Média harmônica: A média harmônica H (ou ) de um conjunto de n elementos x1, x2, ..., xn é a recíproca da média aritmética da recíproca dos elementos:
Medidas de posição:
	- Exemplo: A média harmônica dos números 2, 4 e 8:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Suponha que, em uma determinada viagem, um carro desenvolva duas
velocidades distintas, durante a metade do percurso ele manteve a 
velocidade de 50 km/h e durante a metade restante sua velocidade foi de
60 km/h. Vamos determinar a velocidade média do veículo durante o
 percurso.
A média harmônica está relacionada ao cálculo matemático das situações envolvendo as grandezas inversamente proporcionais. 
*
1.5 Estatísticas Amostrais
a.4) Mediana: Para os dados colocados em ordem crescente, 
 mediana (md, Me ou ) é o valor que divide a amostra, 
 ou população, em duas partes iguais. Assim:
Medidas de posição:
*
1.5 Estatísticas Amostrais
a.4) Mediana (série de elementos não agrupados):
Medidas de posição:
Considerando que os dados que integram a amostra são colocados em ordem crescente, formando um vetor (x1, x2, ..., xn) - amostra ordenada -, a mediana amostral é definida como segue:
*
1.5 Estatísticas Amostrais
a.4) Mediana (série de elementos não agrupados):
Medidas de posição:
Exemplo: Para as distribuições abaixo, determinar as respectivas medianas:
8, 5, 15,11, 4, 1, 7, 2, 9
Ordenando:
1, 2, 4, 5, 7, 8, 9, 11,15
Como n é ímpar, então:
8, 5, 15,11, 4, 1, 7, 2, 9, 3
Ordenando:
1, 2, 3, 4, 5, 7, 8, 9, 11,15
Como n é par, então:
*
1.5 Estatísticas Amostrais
a.4) Mediana (variáveis discretas, dados agrupados em 
 tabela de distribuição de frequência):
Medidas de posição:
Exemplo: Para a distribuição abaixo, determinar a mediana:
*
1.5 Estatísticas Amostrais
Medidas de posição:
Exemplo: Para a distribuição abaixo, determinar a mediana:
a.4) Mediana (variáveis discretas, dados agrupados em 
 tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição:
Exemplo: Para a distribuição abaixo, determinar a mediana:
a.4) Mediana (variáveis discretas, dados agrupados em 
 tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição:
Para variáveis contínuas, identifica-se a classe que contém a mediana (n/2), denominada classe Md (como a variável é contínua, não interessa se n é par ou ímpar); o valor aproximado para a mediana será calculado pela equação:
	onde: NMd-1 é a frequência absoluta acumulada da classe antes da classe mediana, n a dimensão da amostra e lMd , aMd e nMd são, respectivamente, o limite inferior, a amplitude e a frequência absoluta da classe mediana.
a.4) Mediana (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição:
Exemplo: Dada a distribuição amostral, calcular a mediana:
a.4) Mediana (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição:
Exemplo: 
1º Passo: Calcula-se n/2; como n=58, então 58/2=29º.
2º Passo: Identifica-se a classe Md pela Ni (classe Md=3ª).
3º Passo: Aplica-se a fórmula: 
 Neste caso li = 55, n = 58, Ni-1 = 17, ai = 10, ni = 18; logo:
a.4) Mediana (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
*
1.5 Estatísticas Amostrais
a.5) Quartis:
Medidas de posição:
Como já visto anteriormente, a mediana é a medida de posição que divide um conjunto de dados em duas partes iguais;
Os quartis dividem um conjunto de dados em quatro partes iguais, assim:
*
1.5 Estatísticas Amostraisa.5) Quartis: 
Medidas de posição:
	Q1 = 1º quartil, deixa 25% dos elementos;
	Q2 = 2º quartil, coincide com a mediana, deixa 50% dos 
 elementos;
	Q3 = 3º quartil, deixa 75% dos elementos.
*
1.5 Estatísticas Amostrais
a.5) Quartis (série de elementos não agrupados):
Medidas de posição:
A determinação de Qk (k = 1, 2 e 3), segue a fórmula:
Exemplo: Determine o 1º e o 3º quartis da série 185, 196, 207, 305, 574, 597, 612. E da série 185, 196, 207, 305, 574, 597 ? 
*
1.5 Estatísticas Amostrais
Medidas de posição:
A determinação de Qk (k = 1, 2 e 3), segue os passos:
1º Passo: Calcula-se a ordem kn/4;
2º Passo: Identifica-se a classe Qk pela frequência acumulada N;
3º Passo: Aplica-se a fórmula:
a.5) Quartis (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição
Exemplo: Dada a distribuição amostral, determinar Q1 e Q3:
a.5) Quartis (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição:
Exemplo: Para Q1.
1º Passo: Calcula-se n/4; como n = 58, então 58/4 = 14,5º.
2º Passo: Identifica-se a classe Q1 pela Ni (classe Q1 = 2ª).
3º Passo: Aplica-se a fórmula: 
 Neste caso lQ1 = 45, n = 58, NQ1-1 = 5, aQ1 = 10, nQ1 = 12; logo:
a.5) Quartis (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição:
Exemplo: Para Q3.
1º Passo: Calcula-se 3n/4; como n = 58, então 58/4 = 43,5º.
2º Passo: Identifica-se a classe Q3 pela NQ3 (classe Q3 = 4ª).
3º Passo: Aplica-se a fórmula: 
 Neste caso lQ3 = 65, n = 58, NQ1-1 = 35, aQ1 = 10, nQ1 = 14; logo:
a.5) Quartis (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
Medidas de posição:
Exemplo: Diante desses resultados, pode-se afirmar que, nesta distribuição, tem-se:
	ou seja: O valor de 52,92 deixa 25% dos elementos;
 O valor de 61,67 deixa 50% dos elementos;
 O valor de 71,07 deixa 75% dos elementos.
a.5) Quartis (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
a.6) Decis:
Medidas de posição:
Os decis dividem um conjunto de dados em dez partes iguais, assim:
*
1.5 Estatísticas Amostrais
a.6) Decis:
Medidas de posição:
	D1 = 1º decil, deixa 10% dos elementos da série;
	D2 = 2º decil, deixa 20% dos elementos da série;
	D5 = 5º decil, coincide com a mediana, deixa 50% dos 
 elementos da série;
	D6 = 6º decil, deixa 60% dos elementos da série;
	D7 = 7º decil, deixa 70% dos elementos da série;
	D8 = 8º decil, deixa 80% dos elementos da série;
	D9 = 9º decil, deixa 90% dos elementos da série.
*
1.5 Estatísticas Amostrais
a.6) Decis (série de elementos não agrupados:
Medidas de posição:
A determinação de Dk (k = 1, 2, ..., 9), segue a fórmula:
Exemplo: Determine o 5º e o 6º decis da série 185, 196, 207, 305, 574, 597, 612. 
*
1.5 Estatísticas Amostrais
Medidas de posição:
A determinação de Dk (k = 1, 2, ..., 9), para o caso de variáveis contínuas com os dados divididos em classes, segue os passos:
1º Passo: Calcula-se a ordem kn/10;
2º Passo: Identifica-se a classe Dk pela frequência acumulada N;
3º Passo: Aplica-se a fórmula:
a.6) Decis (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
a.7) Percentis:
Medidas de posição:
Os percentis dividem um conjunto de dados em cem partes iguais, assim:
*
1.5 Estatísticas Amostrais
a.7) Percentis:
Medidas de posição:
	P1 = 1º percentil, deixa 1% dos elementos;
	P2 = 2º percentil, deixa 2% dos elementos.
	P50 = 50º percentil, coincide com a mediana, deixa 50% dos 
 elementos;
	P99 = 99º percentil, deixa 99% dos elementos.
*
1.5 Estatísticas Amostrais
a.7) Percentis (série de elementos não agrupados):
Medidas de posição:
A determinação de Pk (k = 1, 2, ..., 99) para uma série de elementos não agrupados, segue a fórmula:
Exemplo: Determine o 50º e o 60º percentis da série 185, 196, 207, 305, 574, 597, 612. 
*
1.5 Estatísticas Amostrais
Medidas de posição:
A determinação de Pk (k = 1, 2, ..., 99), para o caso de variáveis contínuas com os dados divididos em classes, segue os passos:
1º Passo: Calcula-se a ordem kn/100;
2º Passo: Identifica-se a classe Pk pela frequência acumulada N;
3º Passo: Aplica-se a fórmula:
a.7) Percentis (variáveis contínuas com os dados divididos em
 classes, tabela de distribuição de frequência):
*
1.5 Estatísticas Amostrais
a.7) Exemplo (decil e percentil): Determinar o 4º decil e o 72º percentil da seguinte distribuição:
Medidas de posição:
*
1.5 Estatísticas Amostrais
a.7) Exemplo (decil e percentil): Determinar o 4º decil e o 72º percentil da seguinte distribuição:
Medidas de posição:
*
1.5 Estatísticas Amostrais
a.7) Exemplo (decil e percentil).
Medidas de posição:
Portanto, na distribuição analisada, tem-se que:
O valor 55,34 indica que 40% dos elementos da distribuição estão abaixo dele e os outros 60% acima.
O valor 69,82 indica que 72% dos elementos da distribuição estão abaixo dele e os outros 28% acima.
*
1.5 Estatísticas Amostrais
a.8) Moda
Medidas de posição:
Moda (Mo) é a medida que indica o valor ou a gama de valores nos quais a concentração dos dados amostrais é máxima.
Para variáveis discretas, a moda é o valor dos dados que ocorre com maior frequência; 
Para variáveis contínuas, a classe modal é o intervalo de classe com maior frequência.
*
1.5 Estatísticas Amostrais
a.8) Moda
Medidas de posição:
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal.
*
1.5 Estatísticas Amostrais
a.8) Moda
Medidas de posição:
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (dados não susceptíveis de ordenação).
*
1.5 Estatísticas Amostrais
a.8) Moda (distribuições simples)
Medidas de posição:
Para distribuições simples (sem agrupamento em classes), a identificação da moda é facilitada pela simples observação do elemento que apresenta maior frequência.
Exemplo: Para a distribuição abaixo Mo = 248.
*
1.5 Estatísticas Amostrais
a.8) Moda (dados agrupados)
Medidas de posição:
Para dados agrupados em classe, existem diversas fórmulas para o cálculo da moda:
Fórmula de Czuber: Após a identificação da classe modal, aplica-se a fórmula abaixo, onde
 l = limite inferior da classe modal;
Δ1= diferença entre a frequência absoluta da 
 classe modal e a imediatamente anterior;
Δ2 = diferença entre a frequência absoluta da 
 classe modal e a imediatamente posterior;
 ai = amplitude da classe modal. 
*
1.5 Estatísticas Amostrais
a.8) Moda (dados agrupados)
Medidas de posição:
Exemplo: Determinar a moda para a distribuição:
A classe com maior frequência absoluta é [55, 65[; logo, ela é a classe modal. 
Aplicando a fórmula de Czuber, tem-se:
*
1.5 Estatísticas Amostrais
Exemplo
*
1.5 Estatísticas Amostrais
a.8) Moda (dados agrupados)
Medidas de posição:
Densidades de classes: Quando as amplitudes das classes são diferentes, deve-se calcular as densidades de classes para identificar a classe modal, as quais são obtidas por meio da relação ni/ai.
*
1.5 Estatísticas Amostrais
a.8) Moda (dados agrupados)
Medidas deposição:
Exemplo: Determinar a moda para a distribuição:
classe modal
*
1.5 Estatísticas Amostrais
a.8) Moda (dados agrupados)
Medidas de posição:
Fórmula de Pearson: Fornece uma boa aproximação quando a distribuição apresenta razoável simetria em relação à média. É dada pela relação:
	ou seja, a moda é aproximadamente igual a diferença entre o triplo da mediana e o dobro da média
*
1.5 Estatísticas Amostrais
Observações:
Medidas de posição:
Média versus Mediana:
Diferença entre estas duas medidas fica mais clara quando se considera o exemplo das notas obtidas por um aluno como sendo: 10, 13, 11, 15, 14, 16, 18, 15, 14; nesse caso, como pode ser comprovado, a média aritmética e a mediana são iguais a 14.
Se esse aluno elevar a nota mais baixa, passando de 10 para 14, a mediana ainda será o mesmo valor, mas o valor da média sofrerá um aumento, passando para 14,4. 
*
1.5 Estatísticas Amostrais
Observações:
Medidas de posição:
A média, ao contrário da mediana, é uma medida de posição muito pouco resistente, isto é, ela é muito influenciada por valores muito grandes ou muito pequenos, mesmo que estes valores surjam em pequeno número na amostra. 
Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana. 
Média versus Mediana:
*
1.5 Estatísticas Amostrais
Observações:
Medidas de posição:
Entretanto, a preferência de uma ou de outra dependerá do contexto em que forem utilizadas: se a distribuição é simétrica essas medidas coincidem; caso contrário, observar que a mediana não é tão sensível quanto a média, às observações que são muito maiores ou muito menores do que as restantes; além disso, a média reflete o valor de todas as observações. 
Média versus Mediana:
*
1.5 Estatísticas Amostrais
Observações:
Medidas de posição:
Representação das distribuições dos dados na forma de uma curva de frequência:
Média versus Mediana:
*
1.5 Estatísticas Amostrais
Observações:
Medidas de posição:
A média geométrica de um conjunto de números positivos é menor ou igual à sua média aritmética, mas é maior ou igual à sua média harmônica:
O sinal de igualdade somente é válido quanto todos os números do conjunto de dados são idênticos.
Relação entre as médias aritmética, geométrica e harmônica:
*
1.5 Estatísticas Amostrais
São medidas estatísticas utilizadas para avaliar o grau de variabilidade ou dispersão, dos valores em torno da média.
Servem para medir a representatividade da média
Medidas de dispersão
Exemplo: Sejam as séries 20, 20, 20 e 15, 10, 20, 25, 30, como pode ser calculado, ambas possuem média aritmética igual a 20; entretanto, na primeira não existe dispersão, enquanto a segunda apresenta dispersão em torno da média 20; portanto, a média é muito mais representativa para a segunda série.
*
1.5 Estatísticas Amostrais
Medidas de dispersão
Exemplo: Para a série 10, 12, 15, 24, 25, 30, 36
 R = 36 – 10 = 26
b.1) Amplitude total (ou amplitude amostral): É definida como sendo a diferença entre o maior e o menor dos valores da série, ou seja:
Observação: É uma medida de dispersão muito limitada, pois depende apenas dos valores externos, o que a torna instável, não sendo afetada pela dispersão dos valores internos.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de dispersão
b.2) Desvio médio: O desvio médio de um conjunto de n números x1, x2 , ... , xn é definido por:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de dispersão
b.2) Desvio médio (dados agrupados): Se x1, x2 , ... , xn ocorrerem com as frequências n1, n2, ... , nn, respectivamente, o desvio médio poderá ser indicado da seguinte forma:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de dispersão
b.3) Variância: A variância de um conjunto de dados é definida como o quadrado do desvio padrão, evitando-se com isso que Σdi=0. 
Quando é necessário distinguir entre o desvio padrão de uma população e o de uma amostra dela extraída, adota-se frequentemente o símbolo σ para o primeiro e s para o último.
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.3) Variância:
Para o caso da variância populacional são adotadas as seguintes fórmulas:
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.3) Variância:
Para o caso da variância amostral são adotadas as seguintes fórmulas:
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.3) Variância:
Fórmulas práticas para os cálculos das variâncias:
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.4) Desvio padrão: Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para se conseguir uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, toma-se a raiz quadrada da variância e obtém-se o desvio padrão.
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.4) Desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:
o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados;
se s= 0, então não existe variabilidade, isto é, os dados são todos iguais.
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.4) Desvio padrão:
Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral:
Média aritmética:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de dispersão
b.4) Desvio padrão:
Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral:
Desvio médio:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de dispersão
b.4) Desvio padrão:
Exemplo: Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral:
Variância:
Desvio padrão:
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de dispersão
b.5) Amplitude interquartílica:
A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena.
Por esse motivo, define-se uma outra medida, a amplitude interquartílica.
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.5) Amplitude interquartílica:
Esta medida é, de certa forma, uma solução de compromisso, pois não é afetada, de um modo geral, pela existência de um pequeno número de valores demasiadamente grandes ou pequenos. É definida como sendo a diferença entre o 3º e 1º quartis; assim:
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.5) Amplitude interquartílica:
Alguns autores preferem calcular uma medida próxima da referida: a amplitude semi-interquartílica (ASI).
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de dispersão
b.6) Coeficiente de variação:
A variação ou dispersão real, determinada a partir do desvio padrão, ou qualquer outra medida de dispersão, é denominada dispersão absoluta; entretanto, uma variação ou dispersão, na medida de uma determinada distância, é inteiramente diferente quanto ao efeito, da mesma variação em uma distância menor. 
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.6) Coeficiente de variação:
A medida desse efeito é proporcionada pela dispersão relativa, definida por:
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.6) Coeficiente de variação:
Se a dispersão absoluta é o desvio padrão e a média é a aritmética, a dispersão relativa é denominada coeficiente de variação ou de dispersão,dado por:
coeficiente de variação é uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas.
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.6) Coeficiente de variação:
Diz-se que a distribuição possui baixa, média ou alta variabilidade (dispersão) conforme os seguintes valores:
		Baixa dispersão: CV ≤ 10%
		Média dispersão: 10% < CV < 20%
		Alta dispersão: CV ≥ 20%
Alguns analistas consideram valores diferentes:
		Baixa dispersão: CV ≤ 15%
		Média dispersão: 15% < CV < 30%
		Alta dispersão: CV ≥ 30%
*
1.5 Estatísticas Amostrais
Medidas de dispersão
b.6) Coeficiente de variação:
Exemplo: Em uma empresa, o salário médio dos homens é de $4.000,00, com desvio padrão de $1.500,00, e o das mulheres é em média de $3.000,00, com desvio padrão de $1.200,00. Então:
Desses valores conclui-se, portanto, que o salário das mulheres apresentam maior dispersão que os dos homens
*
1.5 Estatísticas Amostrais
Medidas de forma
Uma distribuição de frequência pode ser simétrica, assimétrica positiva ou assimétrica negativa.
c.1) Medidas de assimetria:
Denomina-se assimetria o grau de desvio ou afastamento da simetria de uma distribuição.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.5 Estatísticas Amostrais
Medidas de forma
Uma distribuição simétrica apresenta a igualdade entre as três medidas de posição, média aritmética, mediana e modo, ou:
Em uma distribuição assimétrica positiva, ou assimétrica à direita, tem-se que:
Em uma distribuição assimétrica negativa, ou assimétrica à esquerda, tem-se que:
c.1) Medidas de assimetria:
*
1.5 Estatísticas Amostrais
Medidas de forma
Existem várias fórmulas para o cálculo do coeficiente de assimetria, dentre elas duas são bastante utilizadas:
1º Coeficiente de Pearson:
2º Coeficiente de Pearson:
Se AS = 0, a distribuição é simétrica
 AS > 0, a distribuição é assimétrica positiva
 AS < 0. a distribuição é assimétrica negativa.
c.1) Medidas de assimetria:
*
1.5 Estatísticas Amostrais
Medidas de forma
Exemplo: Identificar o grau de assimetria da distribuição:
c.1) Medidas de assimetria:
*
1.5 Estatísticas Amostrais
Medidas de forma
Exemplo: 
c.1) Medidas de assimetria:
media
Amplitude de classe
*
1.5 Estatísticas Amostrais
Medidas de forma
Exemplo: 
c.1) Medidas de assimetria:
Como AS > 0, então a distribuição é assimétrica positiva. 
*
1.5 Estatísticas Amostrais
Medidas de forma
Denomina-se curtose o grau de achatamento de uma distribuição.
Uma distribuição de frequência pode ser:
Mesocúrtica: quando sua forma nem é achatada e nem delgada;
Leptocúrtica: quando apresenta a forma delgada;
Platicúrdica: quando apresenta a forma achatada.
c.2) Medidas de curtose:
*
1.5 Estatísticas Amostrais
Medidas de forma
c.2) Medidas de curtose:
*
1.5 Estatísticas Amostrais
Medidas de forma
Para medir o o grau de curtose utiliza-se o coeficiente:
onde Q3 = 3º quartil; P90 = 90º percentil; 
 Q1 = 1º quartil; P10 = 10º percentil.
Se K = 0,263 – a curva correspondente à distribuição é 
 mesocúrtica;
 K > 0,263 – a curva é platicúrdica;
 K < 0,263 – a curva é leptocúrdica.
c.2) Medidas de curtose:
*
1.5 Estatísticas Amostrais
Medidas de forma
Exemplo: Para a mesma distribuição do exemplo da assimetria, calcula-se ainda P10 e P90; logo:
c.2) Medidas de curtose:
Como K > 0,273, então a distribuição é do tipo platicúrtica. 
*
*
I - Estatística Descritiva
Introdução
Conceitos e definições
Classificação dos dados
Caracterização e apresentação dos dados
Estatísticas amostrais
Regressão linear
Exercícios diversos sobre os assuntos da unidade.
*
1.7 Regressão Linear
Relação entre duas variáveis
Em inúmeras ocasiões o estudo descritivo não se resume ao estudo de apenas uma variável; para se ter uma visão global do problema em estudo, muitas vezes é necessário a observação de duas ou mais variáveis. 
Nesse caso, em vez de uma amostra (x1, x2, ..., xn), passa-se a ter dados bivariados (xi, yi), i = 1, 2, ..., n.
Um dos objetivos desse estudo é a relação existente entre as variáveis do par.
*
1.7 Regressão Linear
Correlação linear
Para se ter uma ideia de como as duas variáveis se relacionam é comum representar graficamente esta relação por meio de um diagrama de dispersão. Esta representação consiste na marcação das observações em um sistema de eixos cartesianos. 
Se as variáveis fornecem um diagrama de dispersão em que os pontos se colocam ao redor de uma reta crescente ou decrescente, diz-se que essas variáveis estão linearmente correlacionadas. 
*
1.7 Regressão Linear
Correlação linear
Quanto menor a dispersão dos pontos em torno da reta, mais forte será a correlação.
A correlação linear será positiva ou negativa caso a tendência da reta seja crescente ou decrescente.
Se nenhuma tendência positiva ou negativa pode ser detectada, a explicação possível para os valores da segunda variável é sua média. Nesse caso, o eixo da dispersão será horizontal, contendo a média da segunda variável, e diz-se que as variáveis não são linearmente correlacionadas.
*
1.7 Regressão Linear
Correlação linear
*
1.7 Regressão Linear
Correlação linear
*
*
*
1.7 Regressão Linear
Correlação linear
Exemplo: A tabela abaixo mostra os dados da temperatura do gás combustível (ºF) e da respectiva taxa de calor (Btu/kwh) para uma turbina de combustão, para ser usada em refrigeração, construa o diagrama de dispersão para esses dados.
Desse diagrama pode-se extrair que talvez exista uma correlação linear entre as variáveis; esta relação pode ser traduzida por meio de uma reta.
*
1.7 Regressão Linear
Coeficiente de correlação linear
A determinação da correlação entre duas variáveis por meio de uma inspeção nos pares anotados ou no diagrama de dispersão correspondente é pouco precisa e subjetiva.
Essa dificuldade pode ser contornada pelo uso de uma medida que caracterize a correlação linear e seja independente do observador que esteja examinando os dados.
*
1.7 Regressão Linear
Coeficiente de correlação linear
Karl Pearson propôs o chamado coeficiente de correlação linear, o qual é dado pela relação:
	onde: Cov (x,y) é a covariância das variáveis x e y, e seu cálculo é dado por
	e sx2 e sy2 são as variâncias da variáveis x e y.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Coeficiente de correlação linear
Fazendo-se as devidas substituições e simplificações, obtém-se o coeficiente de correlação de forma mais simples:
	onde:
*
1.7 Regressão Linear
Coeficiente de correlação linear
r = -1, indica correlação linear negativa perfeita; os pontos (x,y) estão sobre uma reta com coeficiente angular negativo.
r = 0, indica que os pontos não estão correlacionados, nem apresentam tendência crescente ou decrescente.
r = 1, indica correlação linear positiva perfeita; os pontos (x,y) estão sobre uma reta com coeficiente angular positivo.
*
1.7 Regressão Linear
Coeficiente de correlação linear
Nos casos em que os pontos do diagrama de dispersão estão em uma reta vertical ou horizontal, o quociente que calcula o coeficiente de correlação não está definido, pois apresenta numerador e denominador nulos. Nesse caso, o coeficiente de correlação será considerado nulo.
*
1.7 Regressão Linear
Coeficiente de correlação linear
A correlação entre duas variáveis pretende captar o fato dessas variáveis apresentarem a mesma tendência ao crescimento, ou tendências contrárias.
O fato de duas variáveis evoluírem no mesmo sentido ou em sentidos opostos fornece uma ideia do que se pode esperar sobre um valor desconhecido da variável y para um particular valor de x.
*
1.7 RegressãoLinear
Coeficiente de correlação linear
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Coeficiente de correlação linear
Os problemas que envolvem estimativas de valores desconhecidos a partir de valores históricos são chamados problemas de previsão ou predição.
O conhecimento da correlação entre duas variáveis, embora possa fornecer uma pista para a previsão de um valor desconhecido de uma delas, nada informa a respeito da qualidade dessa previsão, ou seja, não se pode, em geral, com base apenas no conhecimento da correlação, transformar a incerteza da previsão em risco (isto só pe possível quando a correlação é perfeita).
Entretanto, o fato de duas variáveis serem correlacionadas levanta a possibilidade de uma relação causal entre elas, o que é importante em problemas de previsão.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Regressão linear simples
Como visto anteriormente, uma previsão construída baseada nas informações obtidas da correlação nada diz a respeito da confiabilidade do valor previsto.
Um método de previsão que permite a avaliação em termos de confiabilidade é a regressão linear, pois, satisfeitas determinadas condições, ela proporciona a transformação da incerteza em risco
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Regressão linear simples – Modelo teórico
Quando se verifica, quer por meio do gráfico de dispersão, quer pelo coeficiente de correlação linear, uma correlação forte entre duas variáveis, a relação entre essas variáveis pode ser descrita por meio de uma reta de regressão (a reta que melhor se ajusta aos dados). 
Essa reta serve de modelo matemático para expressar a relação linear entre duas variáveis.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Regressão linear simples – Modelo teórico
Considere o relacionamento de duas variáveis x e y com as seguintes características:
x: é a variável cujos valores são controlados e, portanto, determinados; ela é conhecida por variável independente ou variável de decisão;
y: variável aleatória; é a variável que se quer prever; seu valor depende do valor atribuído a x, embora para cada valor de x se possa ter vários valores de y, devido a sua característica aleatória (variável dependente de x).
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Regressão linear simples – Modelo teórico
O modelo teórico define a verdadeira reta de regressão, cuja equação pode ser escrita como:
O valor de y é dado por:
onde:
 é a parte funcional de y (a parte do valor de y explicada pelo valor de x);
U é a parte aleatória de y, a qual é introduzida no valor de y por fatores imponderáveis. 
*
1.7 Regressão Linear
Regressão linear simples – Modelo teórico
Nessas condições, dado um valor para x, a previsão ou expectativa para o correspondente valor de y é:
Entretanto, dificilmente se conhece a população dos valores de y para cada valor da variável controlada x. O que se conhece, geralmente, são alguns valores dos pares (x,y), ou seja, apenas uma amostra dessas variáveis.
Portanto, com base nos dados amostrais, deve-se pensar como estimar os valores de α e β, o que pode ser ser feito de forma eficiente por meio do método dos mínimos quadrados.
*
1.7 Regressão Linear
Método dos mínimos quadrados
Um dos métodos mais utilizados para ajustar uma reta a um conjunto de dados é o Método dos Mínimos Quadrados (MMQ), o qual consiste em determinar a reta que minimiza a soma dos quadrados dos desvios (os chamados erros ou resíduos) entre os verdadeiros valores de y e os valores estimados a partir da reta de regressão que se pretende ajustar, ŷ.
*
1.7 Regressão Linear
Método dos mínimos quadrados
Adota-se o quadrado das diferenças, pois como os pontos se situam acima e abaixo da reta estimada, as diferenças podem ser positivas ou negativas, e na soma podem anular-se, não refletindo o ajustamento.
Sendo números positivos, esses quadrados refletem a qualidade do ajuste através de sua soma.
*
1.7 Regressão Linear
Método dos mínimos quadrados
O modelo de regressão linear é a reta de regressão 
 
 ŷi = a + bxi + εi
	onde 
 ŷ é o estimador de y; 
 a e b os estimadores de α e β.
A reta estimada é obtida de tal modo que a soma dos quadrados dos desvios ou resíduos (εi = yi – ŷ) seja mínima, ou seja,
*
1.7 Regressão Linear
Método dos mínimos quadrados
Como tal, para estimar os parâmetros do modelo, é necessário que as primeiras derivadas em relação a a e a b sejam nulas, e as segundas sejam maiores ou iguais a zero, assim:
As estimativas dos mínimos quadrados para os parâmetros α e β são:
*
1.7 Regressão Linear
Coeficiente de explicação
Calculada a estimativa de mínimos quadrados para uma amostra dada, deve-se verificar a qualidade do ajuste dessa reta aos dados históricos.
Uma forma de medir a qualidade do ajuste é verificar qual a porcentagem da variação dos valores de y em relação à sua média pode ser explicada pela regressão de y sobre x, o que dará origem ao coeficiente de explicação R2.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Coeficiente de explicação
Do gráfico abaixo, onde ŷ = a + bx é a regressão de y sobre x, observa-se que o valor de yi correspondente a um valor xi pode ser composto de duas partes: a parte explicada pela média e a parte não explicada pela média.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
Interessa avaliar que porcentagem da parte não explicada pela média, , pode ser explicada pela regressão de y sobre x, isto é, por .
1.7 Regressão Linear
Coeficiente de explicação
	VE = variação explicada, a soma dos quadrados das variações em 
 relação à média.
Designando:
	 VT = variação total, soma dos quadrados das variações de y em 
 relação à sua média.
No método dos mínimos quadrados, ao invés de somar essas diferenças, soma-se o quadrado delas para evitar que valores positivos e negativos se anulem.
* *
ESTATÍSTICA APLICADA I - Estatística Descritiva
1.7 Regressão Linear
Coeficiente de explicação
O coeficiente de explicação R2 pode ser definido agora como sendo a porcentagem da variação total representada pela variação explicada.
*
1.7 Regressão Linear
Método dos mínimos quadrados
Exemplo: No exemplo anterior, observou-se no diagrama de dispersão uma possível relação linear entre as variáveis.
Confirme essa relação por meio do coeficiente de correlação;
Encontre a reta de regressão pelo método dos mínimos quadrados.
*
1.7 Regressão Linear
Método dos mínimos quadrados
Cálculos:
*
1.7 Regressão Linear
Método dos mínimos quadrados
Cálculos:
O valor da correlação e do coeficiente de explicação indicam uma forte correlação linear entre a temperatura do gás combustível e a taxa de calor. Pode-se, portanto, estimar, através do MMQ os parâmetros a e b e traçar a reta de regressão:
Sendo assim a reta de regressão é:
*
1.7 Regressão Linear
Método dos mínimos quadrados
Gráfico:
*
*
*
1.7 Regressão Linear
Funções linearizáveis
Para que se evite erros de previsão, a condição inicial para um estudo de regressão linear entre duas variáveis é que essas variáveis apresentem uma razoável correlação linear.
Caso os valores de y para crescentes valores de x variem de modo aleatório, sem apresentar qualquer tendência, o valor que melhor explica y é, geralmente, a sua média; entretanto, em alguns casos, o diagrama de dispersão apresenta uma tendência não linear, isto é, uma curva bem definida, em torno da qual os pontos parecem agrupar-se. 
*1.7 Regressão Linear
Funções linearizáveis
Existe um grupo de funções que apresentam diagramas ajustáveis a muitas dessas tendências, e que possuem a qualidade de poder transformar-se em funções lineares com a aplicação de logaritmos ou por mudança de variável.
A forma linear dessas funções transformadas pode então ser usada para estimar os parâmetros da curva ajustada àquela tendência, conforme será estudado a seguir.
*
1.7 Regressão Linear
Funções linearizáveis
Função potência: y = a.xb, com x ≥ 0 e b ≥ 0
Para este caso, a primeira e a segunda derivadas da função fornecem a forma da curva.
*
1.7 Regressão Linear
Funções linearizáveis
Função potência: y = a.xb, com x ≥ 0 e b ≥ 0
Se x = 0, então y = 0.
Para x > 0, aplicando o logaritmo, tem-se: ln y = ln a + b.ln x
Fazendo Y = ln y, A = ln a e X = ln x, tem-se a forma linear:
 Y = A + b.X
	O diagrama de dispersão de (X = ln x, Y = ln y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste.
*
1.7 Regressão Linear
Funções linearizáveis
Função exponencial: y = abx, a > 0, b > 0, x ≥ 0
Como no caso anterior, as derivadas fornecem a forma das curvas.
a
*
1.7 Regressão Linear
Funções linearizáveis
Função exponencial: y = abx, a > 0, b > 0, x ≥ 0
Aplicando o logaritmo, tem-se: ln y = ln a + x.ln b
Fazendo Y = ln y, A = ln a e B = ln b, tem-se a forma linear:
 Y = A + B.x
	O diagrama de dispersão de (x, Y=lny) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste.
*
1.7 Regressão Linear
Funções linearizáveis
Função hiperbólica, tipo I: 
A primeira e a segunda derivadas fornecem a forma das curvas.
*
1.7 Regressão Linear
Funções linearizáveis
Função hiperbólica, tipo I: 
Fazendo X = 1/x, obtém-se a forma linear:
 y = a + b.X
	O diagrama de dispersão de (X=1/x, y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste.
*
1.7 Regressão Linear
Funções linearizáveis
Função hiperbólica, tipo II: 
As derivadas da função indicam que a curva é decrescente e tem concavidade voltada para cima, com assíntotas em y = 0. Para x =0, y = 1/a.
*
1.7 Regressão Linear
Funções linearizáveis
Função hiperbólica, tipo II: 
Fazendo Y = 1/y, obtém-se:
	O diagrama de dispersão de (x, Y=1/y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste.
*
1.7 Regressão Linear
Funções linearizáveis
Função logaritmo: y = a + b.ln x, x > 0 
As derivadas indicam a forma da curva:
*
1.7 Regressão Linear
Funções linearizáveis
Função logaritmo: y = a + b.ln x, x > 0 
Fazendo X = ln x, obtém-se a forma linear:
	O diagrama de dispersão de (X=ln x, y) e o coeficiente de correlação correspondente podem indicar a oportunidade e qualidade do ajuste.
*
1.7 Regressão Linear
Funções linearizáveis
Exemplo: Um estudo sobre a oferta de mercado de um produto revelou as quantidades que os produtores estariam dispostos a oferecer a vários níveis de preços
*
1.7 Regressão Linear
Funções linearizáveis
Exemplo:
Construa um diagrama de dispersão para os dados da tabela;
Calcule o coeficiente de correlação linear das variáveis;
O diagrama de dispersão sugere o uso de alguma forma linearizável para ajustar os pontos?
Construa o gráfico de dispersão da forma linear correspondente à função escolhida em (c);
Calcule o coeficiente de correlação dos pares em (d);
Comente os resultados obtidos;
Calcule a regressão de y sobre x para a função de maior correlação;
Calcule o coeficiente de explicação para a função escolhida em (g);
Calcule a oferta para um preço de 15,00.
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Diagrama de dispersão
Gráf1
		427
		440
		447
		453
		460
		465
		470
		472
x
y
Sheet1
				10		10.5		11		11.5		12		12.5		13		13.5
				427		440		447		453		460		465		470		472
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Coeficiente de correlação.
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Coeficiente de correlação.
A forma do diagrama de dispersão sugere a curva logaritmica por suas características.
 y = a + b.ln x
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Diagrama de dispersão: a forma linear é y = a + b.X, com X = ln x.
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Coeficiente de correlação.
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Coeficiente de correlação.
A correlação obtida com a curva logarítmica é maior; portanto, essa função será escolhida para o processo de regressão.
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Cálculo da regressão linear:
Cálculo do R2.
	A regressão de y sobre x explica 97,6% das variações de y a partir de sua média; os outros 2,4% são atribuídos a fatores imponderáveis.
*
1.7 Regressão Linear
Funções linearizáveis
Solução:
Projeção da oferta para um preço de 15,00:
	A oferta esperada quando o preço for 15,00 é de 490,68 mil unidades.
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Continue navegando