Buscar

web I - Fundamentos de Estatística 2020 1 B- Mabel Lopes

Prévia do material em texto

FUNDAMENTOS DE 
ESTATÍSTICA
Webconferência I
Professor(a):Mabel Lopes
Temas abordados
• Introdução à estatística
• Classificação dos dados
• Planejamento experimental
• Distribuição de frequência e seus gráficos
• Considerações éticas
• Medidas de posição
• Medidas de variação
Introdução à Estatística
Mas e o que são dados? São informações que são geradas de observações, 
contagens, medições ou respostas e podem ser baseados na população ou 
em uma amostra.
De acordo com Larson e Farber (2010, p.3) estatística é a 
ciência que coleta, organiza, analisa, e interpreta dados para a 
tomada de decisões.
IMPORTANTE: a menos que uma população seja 
pequena, é geralmente impraticável obter todos os 
seus dados. Na maior parte dos estudos, a 
informação deve ser obtida a partir de uma amostra.
Introdução à Estatística
População: para estatística, a população é o conjunto de todos os elementos de 
um estudo.
Amostra: é o subconjunto de elementos da população que possa representá-la de 
maneira efetiva.
Exemplos: 
• Pesquisa de opinião pública: a população é o número total de habitantes de um 
país; a amostra é uma parte dessa população.
• Pesquisa de um novo tratamento para uma certa doença: a população é o 
conjunto total de pessoas com a doença ou que venham a ter a doença, um 
número que não é conhecido; a amostra é o conjunto de doentes escolhido 
para testar o tratamento.
O que se espera é que a amostra, sendo adequadamente escolhida, tenha 
características semelhantes (chamadas de parâmetros) às da população em 
estudo.
Introdução à Estatística
Parâmetro: é uma descrição numérica de uma característica da população.
Estatística: é uma descrição numérica de uma característica da amostra.
Os estudos da estatística dividem-se em dois ramos principais:
Estatística descritiva: trata da organização, resumo e apresentação dos 
dados. Fornece um resumo conciso dos dados. Os dados podem ser 
resumidos de forma numérica ou gráfica.
Estatística inferencial: usa uma amostra aleatória dos dados coletados de 
uma população para descrever e fazer inferências sobre a população. A 
ferramenta básica no estudo no estuda da estatística inferencial é a 
Probabilidade.
Classificação dos Dados
Tipos de Dados: 
•Qualitativos: consistem em atributos, classificações ou registros não-
numéricos.
•Quantitativos: consistem em medidas e contagens numéricas.
Planejamento Experimental
O objetivo de todo estudo estatístico é coletar dados e então usá-los para 
uma tomada de decisão. Antes de interpretar os resultados de um 
estudo, você deve determinar se ele é válido ou não. Para o 
planejamento de um estudo estatístico é necessário:
1. Identificar as variáveis de interesse;
2. Identificar a população do estudo;
3. Coleta de Dados ; (desenvolva um plano)
4. Produzir Interpretações;
5. Tomar Decisões;
6. Identifique todos os erros possíveis.
Distribuição de Frequência e 
seus Gráficos
Métodos de Representação de Dados: nesta seção você vai aprender 
formas de organizar e descrever um conjunto de dados.
Conjuntos de Dados com muitas entradas Distribuição de Frequência
Ex.: O conjunto de dados a seguir mostra a quantidade de minutos que 50 
pessoas passaram na internet durante sua sessão mais recente.
Distribuição de Frequência e 
seus Gráficos
Como fazer uma distribuição de frequência?
1. Determinar o número de classes (Recomenda-se de 5 a 20 classes);
2. Identificar a amplitude total e aferir a largura da classe;
3. Encontrar os limites, superior e inferior, de cada classe;
Sol.: 1. 6 classes (criadas por nós)
2. Amplit. Total: 118-10 =108 - Largura da classe: 108/6= 18
3. A soma de f, ∑f, é igual ao número de entradas no conj. de dados 
amostrais. 
Distribuição de Frequência e 
seus Gráficos
Ponto médio: é a metade da soma entre os valores do limite superior e 
inferior. No ex. anterior teríamos como ponto médio: 19, 38, 57, 76, 95 e 
114.
Frequência Relativa de uma classe: é um valor que corresponde à 
porcentagem dos dados que entra nessa classe, f/n.
Frequência Acumulada de uma classe: é a soma da frequência daquela 
classe com a de todas as classes anteriores.
Uma vez construída a tabela de distribuição de 
frequência, há alguns aspectos adicionais que 
auxiliam a melhorar a compreensão dos dados . 
Esses aspectos são o ponto médio, frequência 
relativa e cumulativa de cada classe.
Gráfico das distribuições de frequência
1. Histograma de Frequência: é um gráfico de barras que representa a 
distribuição de frequência de um conjunto de dados. Possui as seguintes 
propriedades: as barras devem ser desenhadas encostadas entre si, no 
eixo vertical ficam as frequências das classes e no eixo horizontal as 
subdivisões.
Uma vez que as barras consecutivas 
devem se encostar, elas começam e 
terminam nas fronteiras das classes. 
Pode-se marcar a escala horizontal tanto 
nos pontos médios como nas fronteiras de 
classe.
Fronteiras das classes são os números que separam as classes sem 
formar lacunas entre elas.
Fronteira inferior de cada classe= limite inferior - 0,5
Fronteira superior de cada classe=limite superior + 0,5
2. Polígono de Frequência Relativa: é um gráfico em forma de linha que 
enfatiza a mudança contínua nas frequências.
Importante: Um histograma e seu polígono de frequência são 
frequentemente traçados juntos. A escala horizontal deve consistir nos 
pontos médios das classes, enquanto a vertical deve conter os valores 
apropriados da frequência.
3. Histograma de Frequência Relativa: uma variação do histograma clássico 
onde a escala vertical mede as frequências relativas e não as frequências. 
4. Gráfico de Frequência Cumulativa (ogiva): tem como principal função 
identificar o quanto determinada classe é responsável ou não por um 
acréscimo na quantidade total.
1.Constrói-se uma distribuição de frequência que
inclua as frequências acumuladas.
2. Define-se os eixos vertical e horizontal. O vertical 
terá as frequências acumuladas e no horizontal os 
pontos máximos das fronteiras das classes.
3. Conecta os pontos da esquerda para a direita, 
traçando uma reta.
Outras Representações 
Gráficas
1. O Diagrama Ramo e Folhas: é uma forma de organizar os dados 
semelhante à distribuição de frequência. Esse divide os dados por sua 
ordem de grandeza. Um ou mais dígitos mais significativos são escolhidos 
para compor os ramos e, um ou mais dígitos menos significativos são 
escolhidos para compor as folhas.
Com o ramo e folhas dividem-se as dezenas de um 
lado e as unidades do outro. Nota-se que os dado
Estão mais concentrados nas dezenas 30 e 50.
2. Diagrama de pontos: deve-se traçar uma linha horizontal e dispor os 
valores das variáveis. Concluído isso, insere-se um ponto sobre cada 
ocorrência identificada.
3. Gráfico setorial (gráfico de pizza): é muito utilizado para visualização da 
distribuição de variáveis e diferentemente dos anteriores pode ser 
utilizado para variáveis qualitativas.
Como exemplo vamos utilizar o exemplo do livro.
Ex.: Construir um gráfico setorial sobre uma pesquisa realizada com 2,5 mil 
pessoas sobre a preferência do consumidor entre as 5 marcas mais 
famosas de água mineral.
Vamos reescrever a tabela incluindo as porcentagens referentes à 
preferência do consumidor para marca da água mineral.
4. Gráfico de Pareto: combina um gráfico de barras com um gráfico de 
linhas. O princípio de Pareto é geralmente utilizado quando analisamos a 
frequência de problemas ou as causas em um processo e quando 
analisamos os problemas mais frequentes e queremos focar na solução dos 
mais significantes. O princípio de Pareto informa que, para a maior parte 
dos eventos, 80% deles vêm de 20% das causas, conhecido como 80/20.
• Construa uma tabela listando os problemas nas linhas e a frequência de 
cada problema.
• Organize a coluna de frequência em ordem decrescente. Com isso, temos 
uma representação gráfica que destaca as classes de maior relevância.
• Adicione uma colunacom o total de frequência acumulada.
• Adicione outra coluna com os valores percentuais das frequências 
acumuladas.
• Gere dois tipos de gráficos combinados.
Ex.: Levantamento sobre peças defeituosas em uma empresa de 
embalagem, para que esta pudesse reduzir custos.
Note que defeitos do tipo “não selagem” são responsáveis por mais de 80% 
de todos os defeitos.
Considerações Éticas
A ética é fundamental no uso da estatística, de modo que apenas a verdade 
seja relatada sem que haja distorções de dados.
Algumas situações de comportamento antiético:
• Amostragem Tendenciosa: ocorre quando se escolhe um grupo que não 
representa totalmente uma população.
• Amostras de pequenas dimensões: acarreta em informações suspeitas.
• Representações de medida central mal escolhidas: esse tipo de problema 
geralmente envolve valores de média entre populações não uniforme.
• Enviesamento Social: ocorre quando um pesquisador precisa coletar dados 
que são considerados socialmente indesejáveis.
• Usar gráficos para criar uma boa (ou má) impressão: alteração de escalas 
em um gráfico, por exemplo, abre espaço para falsas impressões.
Medidas de Posição
As medidas de posição também chamadas de medidas de tendências 
central são valores únicos cuja função é representar o conjunto de dados 
com um todo.
Medidas de Posição mais utilizadas: 
1. Média (aritmética) : é a soma das entradas de um conjunto de dados 
dividida pelo número de entradas.
Média Populacional 𝜇 =
σ 𝑥
𝑁
Média Amostral ҧ𝑥 =
σ 𝑥
𝑛
Ex.: Supondo que 8 crianças de uma sala de aula do oitavo ano possuam as 
seguintes idades: 13, 16, 15, 17, 13, 16, 15 e 15.
A média é: (13+16+15+17+13+16+15+15)/8=120/8=15
Medidas de Posição
2. Mediana : a mediana é uma quantia que divide ao meio uma lista 
ordenada de valores. O número de entradas inferiores à mediana é 
exatamente igual ao número de entradas superiores. Se o conjunto de 
dados tem um número ímpar de entradas, a mediana é a entrada de 
dados do meio. Se o conjunto de dados tem o número par de entradas, a 
mediana é a média das duas entradas do meio.
Utilizando o exemplo anterior: 
Ordenando os valores temos:
13, 13, 15, 15, 15, 16, 16 e 17.
A mediana é (15+15)/2=15.
Medidas de Posição
3. Moda: é aquela entrada que ocorre com maior frequência em um 
conjunto de dados.
Ex.: 13, 13, 15, 15, 15, 16, 16 e 17.
A moda é o número 15 que aparece 3 vezes. 
Dica: A moda é a única medida de tendência central que pode ser aplicado a 
valores qualitativos.
Se nenhum valor é repetido o conjunto de dados não 
possui moda. E se duas entradas ocorrem com a 
mesma frequência elevada, cada entrada é uma 
moda e os dados são chamados bimodais.
Medidas de Variação
As medidas de variação, muitas vezes chamadas de medidas de dispersão, 
são usadas para descrever a variabilidade em uma amostra ou população.
1. Amplitude: é a diferença entre o maior e o menor valor presentes no 
conjunto de dados. 
Ex.: Preço de um remédio em várias farmácias.
Ordenando os valores temos: 
R$ 8,20 R$ 8,55 R$ 9,35 R$ 9,50 R$ 9,75 R$10,00 R$ 10,25 
A amplitude será R$ 10,25 - R$ 8,20 = R$2,05
IMPORTANTE: Pode apresentar um valor distorcido, 
se o conjunto de dados tiver um valor discrepante.
Apesar de ser fácil de calcular, não informa nada 
sobre os dados intermediários do conjunto.
Medidas de Variação
2. Desvio, Variância e Desvio Padrão.
O desvio de uma entrada x em uma população é a diferença entre a entrada 
média μ do conjunto de dados. 
Desvio de x= x- μ
Ex.: Desvio com relação ao preço do remédio de R$ 9,50 é R$ 9,50 – R$ 9,37 
= R$ 0,13
Obs.: Note que o desvio é aplicado de forma individual às entradas, e não ao 
conjunto todo. A soma de todos os desvios é zero, logo não faz sentido 
calcular a média de todos os desvios.
Para detectar como a distribuição de valores ocorre em toda amostra ou 
população é necessário o cálculo da Variância ou Desvio Padrão.
Medidas de Variação 
Variância: a variância populacional de um conjunto de dados de uma 
população com “N” entradas é :
Desvio Padrão: o desvio padrão populacional de um conjunto de dados de 
entrada “N” é a raiz quadrada da variância.
Importante: A desvantagem da 
variância consiste no fato de suas unidades 
normalmente não terem sentido, por 
ficarem elevadas ao quadrado. Com o 
desvio padrão podemos retomar a 
unidade original.
Medidas de Variação
Ex. da Farmácia.:
Variância σ² = 0,48
Desvio Padrão σ = 0,69
No caso do cálculo da variância e desvio padrão em amostras temos:
Preços 
Remédios
Desvio 
(x-μ)
Quadrados 
(x-μ)²
8,20 -1,17 1,37
8,55 -0,82 0,67
9,35 -0,02 0,00
9,50 0,13 0,02
9,75 0,38 0,14
10,00 0,63 0,40
10,25 0,88 0,77
Medidas de Variação
Interpretando o desvio padrão:
Regra Empírica:
Para dados com distribuição (simétrica) 
na forma de sino, o desvio padrão tem 
as seguintes características:
1. Cerca de 68% dos dados estão dentro
de um desvio padrão em relação à Média. 
2. Cerca de 95% do dados estão dentro 
de 2 desvios padrões em relação à média.
3. Cerca de 99,7% com 3 desvios padrão.
Lembre-se: o desvio padrão indica 
quando os pontos dos dados tendem 
a estar próximos ou distantes do 
valor da média do conjunto.
Ex.: A expectativa de vida de zebras de um determinado zoológico tem 
distribuição normal (simétrica). A expectativa de vida média de uma 
zebra é de 20,5 anos e o desvio-padrão é de 3,9 anos.
Qual a probabilidade de uma zebra viver entre 16,6 e 24,4 anos ?
Sol.: Utilizando-se a regra empírica:
A altura média x é 20,5.
A probabilidade de uma zebra viver entre
16,6 e 24,4 anos é de 34%+34%=68%.
Medidas de Variação
Obs.: Você deve ter notada que para calcular o desvio padrão e a variância, 
todas as entradas dos conjuntos de dados devem possuir a mesma unidade 
de medida. Quando isso não acontece, podemos utilizar o coeficiente de 
variação.
Coeficiente de Variação: é uma medida relativa de variação que expressa a 
variabilidade dos dados independente da unidade de medida que é usada. 
Mede a variabilidade dos dados com relação a média da amostra.
Quanto menor o coeficiente de variação, mais homogêneo é o conjunto de 
dados.

Continue navegando