Buscar

tratamento de dados

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Tratamento de Dados
Professora: Regina
1
Outliers: O que são?
 As observações que apresentam um grande afastamento das restantes ou são inconsistentes com elas são habitualmente designadas por outliers.
 Estas observações são também designadas por observações “anormais”, contaminantes, estranhas, extremas ou aberrantes.
2
Outliers: O que fazer com este tipo de observações?
A preocupação com observações outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente pensava-se que a melhor forma de lidar com este tipo de observações seria através da sua eliminação da análise.
 As opiniões não eram unânimes: uns defendiam a rejeição das observações “inconsistentes com as restantes”, enquanto outros afirmavam que as
	observações nunca deveriam ser rejeitadas simplesmente por parecerem inconsistentes com os restantes dados e que todas as observações deviam contribuir com igual peso para o resultado final.
3
Outliers: Causas do seu aparecimento.
Antes de decidir o que deverá ser feito às observações outliers é conveniente 	ter conhecimento das causas que levam ao seu aparecimento. Em muitos casos as razões da sua existência determinam as formas como devem ser tratadas. Assim, as principais causas que levam ao aparecimento de outliers são:
	• Erros de medição;
	• Erros de execução;
	• Variabilidade inerente dos elementos da 	população.
4
Outliers: Aplicação Práticas.
 Detecção de fraudes.
 Comportamento de gastos de consumidores.
 Em análises médicas (resultados não esperados de tratamentos).
 Pesquisa farmacêutica.
 Marketing.
 Etc.
5
Outliers: Estudo.
	O estudo de outliers, independentemente da(s) sua(s) causa(s), pode ser realizado em várias fases:
 A fase inicial é a da identificação das observações que são potencialmente aberrantes. A identificação de outliers consiste na detecção, com métodos subjetivos, das observações surpreendentes. A identificação é feita, geralmente, por análise gráfica ou, no caso de um número de dados ser pequeno, por observação direta dos mesmos. São assim identificadas as observações que têm fortes possibilidades de virem a ser designadas por
	outliers.
6
Na segunda fase, tem-se como objetivo a eliminação da subjetividade inerente à fase anterior. Pretende-se saber se as observações identificadas como outliers potenciais o são, efetivamente. São efetuados testes à ou às observações “preocupantes”. Devem ser escolhidos os testes mais adequados para a situação em estudo. As observações suspeitas são testadas quanto à sua discordância. Se for aceita a hipótese de algumas observações serem outliers, elas podem ser designadas como discordantes. Uma observação diz-se discordante se puder considerar-se inconsistente com os restantes valores depois da aplicação de um critério estatístico objetivo. Muitas vezes o termo discordante é usado como sinônimo de outlier.
7
Na última fase é necessário decidir o que fazer com as observações discordantes. A maneira mais simples de lidar com essas observações é
	eliminá-las. Como já foi dito, esta abordagem, apesar de ser muito utilizada, não é aconselhável. Ela só se justifica no caso de os outliers serem devidos a erros cuja correção é inviável. Caso contrário, as observações
	consideradas como outliers devem ser tratadas cuidadosamente pois contêm informação relevante sobre características subjacentes aos dados e poderão ser decisivas no conhecimento da população à qual pertence a amostra em estudo.
8
Outliers: Métodos de identificação.
 Gráfico de Box-plot 
 Modelos de discordância
 Teste de Dixon
 Teste de Grubbs
 Z-scores
 etc
9
O gráfico de Box é construído da seguinte forma:
 Calcula-se a mediana, o quartil inferior (Q1) e o quartil superior (Q3);
 Subtrai-se o quartil superior do quartil inferior = (L)
 Os valores que estiverem no intervalo de Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1-3L, serão considerados outliers podendo, portanto ser aceitos
	na população com alguma suspeita;
 Os valores que forem maiores que Q3+3L e menores que Q1-3L devem ser considerados suspeitos de pertencer à população, devendo ser investigada
	a origem da dispersão. Estes pontos são chamados de extremos.
Gráfico de Box-Plot
10
11
VALORES OUTLIER
Teste de Grubbs – Recomendado pela ISO (5 ≤ n ≤ 30):
Cálculo do G estatístico:
1) Determinar a média e o desvio padrão, considerando todos os ensaios.
 2) Ordenar os valores em ordem crescente, isto é:
x1 < x2 < x3 < ................< xn-1 < xn
 3) Supor a hipótese de que o menor valor, x1, ou se o maior valor, xn, são suspeitos como valores outliers.
4) O valor de G calculado é comparado com valores críticos, tabelados para cada nível de significância (normalmente 5% ou 95% de probabilidade).
12
12
CRITÉRIO
13
13
CRITÉRIO
5) Os valores tabelados consideram que os resultados experimentais obedecem a uma distribuição Normal,portanto a distribuição dos dados tem que respeitar uma distribuição normal
6)O critério de aceitação/ rejeição de dados pode exprimir-se como:
Gcalculado > Gcritico(tabela) Rejeitar valor suspeito
Gcalculado ≤ Gcrítico(tabela) Aceitar valor suspeito
14
14
TABELA
15
15
VALORES OUTLIER(EXEMPLO)
1)Os valores seguintes referem-se às concentrações de nitrito numa amostra de água de um rio: 0.403, 0.410, 0.401 e 0.380. A última observação é suspeita: deverá ser considerada um outlier? Considere 5%.
MÉDIA= 0,3985
DESVIO-PADRÃO=0,013
G=|0,380-0,3985|/0,013=1,42
NUMERO DE AMOSTRAS=4
NA TABELA PARA 4 AMOSTRAS=1,48
CONCLUSÃO: G CALCULADO≤ G CRITICO(TABELA)
 O VALOR PODE SER ACEITO (na amostra) A UM NÍVEL DE SIGNIFICÂNCIA DE 5%, ou seja, não é um outlier
16
16
2) 
17
18
19
20
OUTLIER(exercício)
IFRJ-PROFESSOR EUDES PEREIRA
21
1)
2)
3) 
21
Tabela completa para 1% e 5%
22
Dois valores discrepantes observados:
23
A técnica do Intervalo de Confiança diferencia-se da estimação por ponto, onde se calcula um único valor (estimativa) para o parâmetro populacional.
Vejamos os exemplos:
INTERVALO DE CONFIANÇA
Em estatística, um intervalo de confiança (IC) é um intervalo estimado de um parâmetro estatístico. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis.
Um intervalo estimado de um parâmetro é o intervalo entre duas estatísticas que inclui o valor verdadeiro do parâmetro, com alguma probabilidade. 
O intervalo de confiança da média é um dos mais comuns cálculos estatísticos. 
Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas desconhecido) θ . Podemos estimar um parâmetro θ usando informação de nossa amostra. 
Chamamos o único número que representa o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ . Contudo, sabemos que valor estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então, também seria interessante encontrar um intervalo de confiança que forneça um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais.
Um intervalo de confiança de 95% para um parâmetro populacional fornece um intervalo no 95% confiantes de cobertura do verdadeiro valor do parâmetro.
Tecnicamente, 95% de todos os intervalos de confiança que construirmos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Então se obtivermos um intervalo de confiança para o parâmetro θ para cada uma dentre 100 amostras aleatórias da população, somente 5, em média destes intervalos de confiança não conterão θ .
34
Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer que seja a distribuição da	variável de interesse para grande amostras, a distribuição das médias amostrais serão aproximadamente 	normalmente distribuídas, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. 
Então	podemos ter uma variável original com uma distribuição muito
diferente da Normal (pode até mesmo ser discreta),	mas se tomarmos várias amostras grandes desta distribuição, e então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva Normal.
TEOREMA CENTRAL DO LIMITE
35
A distribuição da média amostral é aproximadamente Normal com média μ e desvio-padrão .
Aqui μ e σ são a média e o desvio-padrão populacionais das medidas individuais de X, e n é tamanho da amostra.
A aproximação para a normal melhora a medida que o tamanho da amostra cresce. Esse resultado é conhecido como teorema central do limite e é notável porque permite-nos conduzir alguns procedimentos de inferência sem qualquer conhecimento da distribuição da população.
IC para a média populacional μ quando a variância σ² é conhecida:
Tipos de IC:
Para o caso de populações finitas usamos:
IC para a média populacional μ quando a variância σ² é desconhecida:
41
Exemplo: A amostra 9, 8, 12, 7, 9, 6, 11, 6, 10 e 9 foi extraída de uma população normal. Construir um IC para a média ao nível de 95%.
Para o caso de populações finitas usamos: 
IC para a variância
IC PARA PROPORÇÃO OU PROBABILIDADE p:
TABELAS
Este fluxograma descreve quando usamos a distribuição normal e quando usamos a distribuição t-Student
fluxograma
n ≥30?
sim
Usa-se a distribuição normal
não
A população tem distribuição normal?
não
Não usar distribuição Normal nem t-Student
sim
σ é conhecido? 
sim
Usar distribuição normall
não
Usar distribuição t-Student
Distribuição Qui-Quadrado
Distribuição t de Student
Com base nos exemplos anteriores, concluímos que:
O que pose ser observado na figura abaixo:
Distribuição F
Parâmetros da distribuição F:
Grau de liberdade do numerador:
Grau de liberdade do denominador: 
Média: para
Variância: para
Moda: para 
A distribuição F está tabelada. Utilizaremos as tabelas que nos dão as abscissas que deixam 5% na cauda à direita e que deixam 1% na cauda à direita.
76
Na tabela procede-se assim:
O maior valor de F é: F(9;5)=4,77
Para acharmos o menor valor de F deveremos procurar na tabela por F(5;9)=3,48 e calcular (1/3,48)=0,29, que é o valor procurado.
Teste de hipótese
É uma técnica para se fazer inferência estatística, ou seja, a partir de um teste de hipóteses, realizado com os dados amostrais, pode-se inferir sobre a população.
No caso das inferências através do IC, busca-se cercar o parâmetro populacional desconhecido.
Aqui formula-se uma hipótese quanto ao valor do parâmetro populacional, e pelos elementos amostrais faz-se um teste que indicará a aceitação ou rejeição da hipótese formulada.
É uma regra de decisão para aceitar ou rejeitar uma hipótese estatística com base nos elementos amostrais.
Hipótese estatística
Tipos de hipóteses
Tipos de erro
Configuração sobre o mecanismo dos erros.
Curva característica de operação (CCO)
Testes de significância.
Teste de significância para as médias.
Solução:
Exemplo.
Teste de significância para variâncias
Solução: 
Exemplo:
Teste de significância para proporções
Solução:
Exemplo:
Teste de significância para igualdade de duas variâncias.
Solução:
Exemplo:
Teste de significância para igualdade de duas médias.
Solução: 
Exemplo:
Solução:
Exemplo:
Teste de significância para igualdade de duas proporções:
Solução:
Exemplo:

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando