Prévia do material em texto
UNICARIOCA CURSO DE PÓS-GRADUAÇÃO ESPECIALIZAÇÃO EM CIÊNCIA DE DADOS 01- Uma caixa de ovos com 6 unidades possui probabilidade de 5% de ser quebrado em 3 situações: enquanto é manuseado, no transporte e nas gôndolas. Qual a probabilidade de na mesma caixa de ovos existirem 2 unidades quebradas? EXEMPLOS NO R Exemplos 02- Em uma fábrica de lâmpadas há uma linha de produção apenas para lâmpadas incandescentes. O embalamento é feito de forma que 10 unidades das lâmpadas são colocadas em cada embalagem. O gestor sabe que, dessa linha de produção, a probabilidade de sair uma lâmpada com defeito corresponde a 5%. Ele deseja saber... Qual a probabilidade de serem embaladas 3 lâmpadas com defeito na mesma embalagem? NO R FUNDAMENTOS DE ESTATÍSTICA APLICADA ANÁLISE COMPUTACIONAL DISTRIBUIÇÕES DE PROBABILIDADE CONTÍNUA DISTRIBUIÇÃO NORMAL T132 - ESTRUTURA DE DADOS - NOTA V2 MODA ASSIMETRIA – DEFORMAÇÃO ? MODA T146 - ALGORITMOS-II - NOTA V1 MODA ASSIMETRIA – DEFORMAÇÃO ? MODA PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 1 MANUEL T927 - ESTRUTURA DE DADOS - NOTA - V2 MODA ASSIMETRIA - DEFORMAÇÃO MENOR... MODA VIRTUAL- A – ESTATÍSTICA - NOTA V2 MODA MODA ASSIMETRIA ? The Galton Board - YouTube Tablero de Galton - YouTube Máquina de Galton (LADIF-UFRJ) - YouTube VOCÊ SABIA? - Tabuleiro de Galton - YouTube https://www.youtube.com/watch?v=4HpvBZnHOVI LINKS - TABULEIRO DE GALTON DISTRIBUIÇÃO NORMAL ALTURA E PESO DE PESSOAS NÍVEL DE CHUVAS ALTURA DE ÁRVORES EM UMA FLORESTA CONTROLE DE QUALIDADE AMOSTRAGEM - TESTE DE HIPÓTESES INTERVALO DE CONFIANÇA SEGUROS - ATUÁRIA PROBABILIDADE DE UM DECLARANTE SONEGAR IMPOSTO (MALHA FINA DA RECEITA FEDERAL) .......... É A MAIS IMPORTANTE DISTRIBUIÇÃO CONTÍNUA DE PROBABILIDADE SENDO UTILIZADA PARA DESCREVER INÚMERAS APLICAÇÕES PRÁTICAS COMO POR EXEMPLO: DISTRIBUIÇÃO NORMAL - EXEMPLOS DISTRIBUIÇÃO DO QUOCIENTE DE INTELIGÊNCIA (QI) Onde será que Madonna, Shakira, Sharon Stone, Nicole Kidman, Luana Araújo, Anitta... estão nesse gráfico ? DISTRIBUIÇÃO NORMAL - EXEMPLOS DISTRIBUIÇÃO DA ALTURA DE UM GRUPO SE INDIVÍDUOS PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 2 MANUEL DISTRIBUIÇÃO NORMAL 50% 50% É SIMÉTRICA ! PROBABILIDADE A área total limitada por essa curva e pelo eixo dos x é igual a 1 ou seja, é igual a soma de todas as probabilidades. A área compreendida entre X = a e X = b dá a probabilidade de X estar entre a e b, ou seja, P(a ≤ X ≤ b). )(xf ≤≤== b a bxaPdxxfÁrea )()( Função densidade ( ) 2 2 2e. 2 1 )( σ µ πσ −− = x xf Onde µ = MÉDIA σ = DESVIO PADRÃO π = 3.14159 VALOR DE PI e = 2.71828 BASE DO LOGARITMO NEPERIANO )(xf PROBABILIDADE SE X TIVER UMA DISTRIBUIÇÃO NORMAL Função densidade PROPRIEDADES DA NORMAL • TEM FORMA DE SINO • É SIMÉTRICA (MÉDIA = MODA = MEDIANA) • É UNIMODAL • SÃO VÁLIDOS OS VALORES DE PROBABILIDADES EXIBIDOS NA FIGURA E TABELA ABAIXO Intervalo Probabilidade (%) µ ± 1 σ 68,26% µ ± 2 σ 95,45% µ ± 3 σ 99,73% µ = Média σ = Desvio Padrão PARÂMETROS DA DISTRIBUIÇÃO NORMAL Uma distribuição Normal é perfeitamente caracterizada por sua média µ e sua variância σ2 e é denotada por N(µ,σ2) ou N(µ,σ) onde σ é o desvio padrão. DISTRIBUIÇÃO NORMAL PADRÃO Uma distribuição é chamada de Normal Padrão quando tem média µ=0 variância σ2 =1 e é denotada por N(0,1). PROPRIEDADES DA MÉDIA ARITMÉTICA 1. MULTIPLICANDO OU DIVIDINDO OS VALORES DE UMA VARIÁVEL POR UMA CONSTANTE, A MÉDIA FICARÁ MULTIPLICADA OU DIVIDIDA POR ESTA CONSTANTE. 2. SOMANDO OU SUBTRAINDO OS VALORES DE UMA VARIÁVEL UMA CONSTANTE, A MÉDIA FICARÁ AUMENTADA OU SUBTRAÍDA DESTA CONSTANTE. Obs. Essas propriedades valem para TODAS as MEDIDAS DE POSIÇÃO (MÉDIA-MODA-MEDIANA). TRANSFORMAÇÃO DE VARIÁVEL PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 3 MANUEL EXEMPLO: Suponha que a variável aleatória X tem média 4. Considere as variáveis a seguir: Y = X + 3 somando 3 Z = 2X + 1 multiplicando por 2 e somando 1 W = X/2 dividindo por 2 Então as médias de Y, Z e W serão respectivamente: �� = 4 �� = �� + 3 ̅ = 2�� + 1 � = �� 2 �� = 4 + 3 �� = 7 ̅ = 2 × 4 + 1 ̅ = 9 � = 4 2 � = 2 Y = X + 3 Z = 2X + 1 = � 2 �� = 4 EXEMPLO: Considere que as notas de 4 alunos em uma prova de Estatística foram X = {3 ; 4 ; 6 ; 7} A média da turma será: MÉDIA(X) = (3 + 4 + 6 + 7) / 4 = 5 Se o professor deu 1 ponto de conceito para cada aluno. As novas notas serão X = {4 ; 5 ; 7 ; 8} Qual a nova média da turma? NOVA MÉDIA = (4 + 5 + 7 + 8)/4 = 24/4 = 6 Usando a propriedade bastaria fazer: MÉDIA NOVA = MÉDIA ANTIGA + 1 = 5 + 1 = 6 Exemplo - Suponha que a MÉDIA dos salários dos empregados de uma empresa pública é de R$ 4.000,00 ! O sindicato negociou um aumento FIXO de R$ 200,00 reais para cada funcionário, além de um aumento percentual de 20% sobre o salário antigo. Qual a nova MÉDIA salarial dessa empresa? AUMENTO FIXO = R$ 200,00 cada salário será aumentado em R$ 200,00. AUMENTO PERCENTUAL = 20% cada salário será multiplicado por 1,20 ! MÉDIA ANTIGA = R$ 4.000,00 MÉDIA NOVA = 4.000 × 1,20 + 200 MÉDIA NOVA = 4.800 + 200 MÉDIA NOVA = R$ 5.000,00 !!!! X Y X Y MEDIDAS DE DISPERSÃO ONDE A DISPERSÃO É MAIOR A ou B ? GRÁFICO - A GRÁFICO - B VARIABILIDADE MEDIDAS DE DISPERSÃO x x n i = = + + + + + + + = 11 9 8 12 7 10 10 13 8 80 8 y y n i = = + + + + + + + = 2 18 1 5 19 5 0 30 8 80 8 y = 10 X = 11; 9; 8; 12; 7; 10; 10; 13 Y = 2; 18; 1; 5; 19; 5; 0; 30 x = 10 Calculando as médias dos conjuntos X e Y obtemos: Os conjuntos X e Y são semelhantes ? QUEM TEM A MAIOR DISPERSÃO X OU Y ? OBSERVE OS CONJUNTOS X E Y 11 9 8 12 7 10 10 13 2 18 1 5 19 5 0 30 0 5 10 15 20 25 30 35 1 2 3 4 5 6 7 8 V A L O R E S X -Y OBSERVAÇÕES DISPERSÃO X - Y X Y CONJUNTOS X E Y PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 4 MANUEL CONJUNTOS X E Y PREVISÃO - MÉDIA MÓVEL (t = 2) 11 9 8 12 7 10 10 13 2 18 1 5 19 5 0 30 0 5 10 15 20 25 30 35 1 2 3 4 5 6 7 8 V A L O R E S X -Y OBSERVAÇÕES DISPERSÃO X - Y X Y 2 por Média Móvel (X) 2 por Média Móvel (Y) MEDIDAS DE DISPERSÃO QUEM TEM A MAIOR DISPERSÃO ? VALORES FREQUÊNCIA MEDIDAS DE DISPERSÃO PRINCIPAIS MEDIDAS DE DISPERSÃO • DESVIO PADRÃO • VARIÂNCIA • COEFICIENTE DE VARIAÇÃO VARIÂNCIA Símbolos S2 ou σ2 S2 para AMOSTRA σ2 para POPULAÇÃO FÓRMULA n xx S i 2 2 )( − = MÉDIA DOS QUADRADOS DOS DESVIOS ! xxd ii −= xxd ii −= Desvios em relação à média VARIÂNCIA é expressa na unidade dos dados ao quadrado! PROPRIEDADES DA VARIÂNCIA • SOMANDO ou SUBTRAINDO uma CONSTANTE a todos os elementos de um conjunto de dados, a variância deste conjunto NÃO DE ALTERA. • MULTIPLICANDO ou DIVIDINDO todos os elementos de um conjunto de dados por uma CONSTANTE, a variância deste conjunto fica MULTIPLICADA ou DIVIDIDA pelo QUADRADO desta constante. PROPRIEDADES DA VARIÂNCIA X = 1 ; 4 ; 7 ; 10 Y = 3 ; 6 ; 9 ; 12 Y = X + 2 S2y = S2x NÃO SE ALTERA SOMAR/SUBTRAIR UMA CONSTANTE X = 1 ; 4 ; 7 ; 10 Y = 4 ; 16 ; 28 ; 40 Y = 4X S2y = 42 × S2x MULTIPLICAR/DIVIDIR POR UMA CONSTANTE S2y = 42×S2x fica multiplicada pelo QUADRADO da constante PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 5 MANUEL PROPRIEDADES DA VARIÂNCIA 22 XY SS = 222 4 XZ SS ×= 2 2 2 4 X W S S = Exemplo: Sejam X, Y, Z e W variáveis aleatórias assim definidas: Z = 4X + 6 MULTIPLICAR por uma CONSTANTE a VARIÂNCIA fica multiplicada pelo QUADRADO da constante. DIVIDIR por uma constante a VARIÂNCIA fica DIVIDIDA pelo QUADRADO da constante. Y = X + 2 SOMAR uma CONSTANTE não altera a variância. W = X/4 PROPRIEDADES DA VARIÂNCIA SOMAR UMA CONSTANTE SUBTRAIR UMA CONSTANTE AS DISTÂNCIAS ENTRE OS CUBOS NÃO MUDAM! AS DISTÂNCIAS ENTRE OS CUBOS TAMBÉM NÃO MUDAM! MEDIDASDE DISPERSÃO DESVIO PADRÃO é a raiz quadrada da variância. SÍMBOLO S ou σ S para AMOSTRA σ para POPULAÇÃO FÓRMULA 2SS = Mais fácil de interpretar que a variância é expresso na mesma unidade dos dados originais! MEDIDAS DE DISPERSÃO x S CV = COEFICIENTE DE VARIAÇÃO = DESVIO PADRÃO / MÉDIA Exemplo: Para um conjunto de dados relativos a estaturas têm-se: Média =161 cm e S=5,57 cm. Achar o CV deste conjunto de dados. x S CV = %45,30345,0 161 57,5 === cm cm CV ADIMENSIONAL (%) NÃO TEM DIMENSÃO ! MEDIDAS DE DISPERSÃO Exemplo: Consideremos os resultados das medidas de altura e peso de um mesmo grupo de indivíduos exibidos na tabela abaixo: Medidas Média S Estatura 175 cm 5,0 cm Peso 68 Kg 2,0 Kg Qual apresenta maior grau de dispersão - Estatura ou Peso ? %85,20285,0 175 5 === cm cm sCVEstatura %94,20294,0 68 2 === kg kg CVPeso Podemos comparar cm com kg ? DISPERSÃO ABSOLUTA Variância / Desvio Padrão Dispersão ABSOLUTA Coeficiente de Variação Dispersão RELATIVA TRANSFORMAÇÃO DE VARIÁVEL POR QUE TRANSFORMAR (NORMALIZAR) OS DADOS? ESCALAS DIFERENTES RENDA (Y) é 2.000 vezes maior que ANOS DE ESTUDO (X) - intervalos de variação muito diferentes! Regressão Linear Multivariada A RENDA (Y) influenciará muito o resultado devido aos valores maiores e não necessariamente porque ela é mais importante como um preditor de C (consumo). EXEMPLO-01 - VARIÁVEIS • ANOS ESTUDO (X) - varia de 0 a 30 anos • RENDA (Y) - varia de R$ 0,00 a R$ 60.000,00 �� = � + �� + �� PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 6 MANUEL TRANSFORMAÇÃO DE VARIÁVEL ALTURA(m) PESO (kg) CLASSIF 1,65 75 PEQUENO 1,85 90 GRANDE 1,88 80 ? EXEMPLO-02 - PROBLEMA DE CLASSIFICAÇÃO ALTURA PESO A+P Diferença 1,65 75 76,65 5,23 1,85 90 91,85 9,97 1,88 80 81,88 PEQUENO (?) QUAL O PROBLEMA ? ALTURA PESO A/MédA P/MédP SOMA DIF(abs) 1,65 75 0,92 0,92 1,84 0,19 1,85 90 1,03 1,10 2,13 0,11 1,88 80 1,05 0,98 2,03 GRANDE 1,79 81,67 Médias ALTURA(m) PESO (kg) CLASSIF 1,65 75 PEQUENO 1,85 90 GRANDE 1,88 80 ? OUTRA SOLUÇÃO - ELIMINANDO O EFEITO DAS UNIDADES (ESCALA) SEMPRE QUE SE USAR COMO MÉTRICA A DISTÂNCIA EUCLIDIANA.... TRANSFORMAÇÃO DE VARIÁVEL VARIÁVEL ALEATÓRIA X XXdeMédia XSXdePadrãoDesvio VARIÁVEL ALEATÓRIA TRANSFORMADA Z XS XX Z − = 0= − = XS XX ZZdeMédia 1== X X Z S S SZdePadrãoDesvio !!!!. CONSTANTESsãoSeXObs X TRANSFORMAÇÃO DE VARIÁVEL EXEMPLO - VARIÁVEL ALEATÓRIA X 4= XXdeMédia 3= XSXdePadrãoDesvio VARIÁVEL ALEATÓRIA TRANSFORMADA Z 3 4− = X Z 0 3 0 3 44 3 4 == − = − = X Z 1 3 3 3 === XZ S S 0=Z 1=ZS ��� = �� � = 1 0 =? XS XX Z − = Z VARIÁVEL NORMALIZADA! Quando subtraímos de uma variável aleatória (X) a sua MÉDIA e dividimos pelo seu DESVIO PADRÃO criamos uma nova variável aleatória (Z) que tem MÉDIA 0 (zero) e DESVIO PADRÃO 1! XS XX Z − = ZdeMédiaZ →= 0 ZdePadrãoDesvioSZ →=1 ZdeVariânciaSZ →=1 2 RELAÇÃO ENTRE UMA DISTRIBUIÇÃO NORMAL E A DISTRIBUIÇÃO NORMAL PADRÃO Uma variável aleatória (X) com distribuição Normal N(µ,σ) pode ser transformada em uma Normal Padrão através da seguinte TRANSFORMAÇÃO: = � − � = !(#, %) '() )é+,- .(/0 # ( 1-/,â34,- % PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 7 MANUEL EXEMPLO rnorm(n,media,desvio padrão) Vamos gerar 10.000 observações de uma variável aleatória (X) com distribuição Normal, média 5 e desvio padrão 1,5. FUNÇÃO RNORM - gera uma Normal PARÂMETROS n - número de observações média desejada desvio padrão desejado rnorm(10000,5.0,1.5) NO R Obs. A cada chamada da rotina é gerado um vetor aleatório diferente! par(mfrow=c(1,2)) x<-rnorm(10000,5,1.5) summary(x) hist(x) #histograma mean(x) # média var(x) # variância amostral sd(x) # desvio padrão amostral PARÂMETROS n - número de observações média desejada desvio padrão desejado c(1,2) uma linha (1) – duas colunas (2) NO R DISTRIBUIÇÃO NORMAL PRINCIPAIS FUNÇÕES rnorm(n,media,desvio padrão) FUNÇÃO RNORM - gera uma Normal n - número de observações - média - desvio padrão FUNÇÃO PNORM (x, média, desvio padrão) calcula P(X<x) pnorm(x,média,desvio padrão,lower.tail=TRUE) pnorm(x,média,desvio padrão,lower.tail=FALSE lower.tail = TRUE – CALCULA CAUDA INFERIOR (DEFAULT) lower.tail = FALSE – CALCULA CAUDA SUPERIOR FUNÇÃO QNORM (p, média, desvio padrão) calcula x tal que P(X<x)=p o contrário da PNORM qnorm(p,média,desvio padrão,lower.tail=TRUE) qnorm(p,média,desvio padrão,lower.tail=FALSE R par(mfrow=c(1,2)) x<-rnorm(10000,5,1.5) summary(x) hist(x) mean(x) var(x) sd(x) #----------------------------- z<-(x-mean(x))/sd(x) summary(z) hist(z) mean(z) var(z) sd(z) rnorm(n,media,desvio padrão) = � − �5 5 �5 = 6 75 = %. 6 �9 = �5 − �5 75 = # 79 = 75 − �5 75 79 = 75 75 = % GERAÇÃO DA VARIÁVEL Z - NORMAL PADRÃO NO R #------------------------------------------------------------------------------------- # CRIAÇÃO DA VARIÁVEL NORMALIZADA (xn) USANDO SCALE #------------------------------------------------------------------------------------- library('scales') xn <- scale(x) xn plot(xn) hist(xn) summary(xn) summary(z) var(xn) = � − � NORMAL NORMAL PADRÃO VARIÁVEL NORMAL X ~ N(µ,σ) VARIÁVEL NORMAL PADRÃO Z ~ N(0,1) = � − � O QUE VALE PARA Z VALE PARA X ⇐ O QUE VALE PARA X VALE PARA Z 5 = � + 9 PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 8 MANUEL = � − � NORMAL NORMAL PADRÃO VARIÁVEL NORMAL X ~ N(µ,σ) VARIÁVEL NORMAL PADRÃO Z ~ N(0,1) = � − � O QUE VALE PARA Z VALE PARA X ⇐ O QUE VALE PARA X VALE PARA Z 5 = � + 9 Quando uma variável aleatória X normalmente distribuída é transformado em um escore-Z, a distribuição de Z será uma distribuição Normal Padrão. Após essa transformação, a área que recai no intervalo (x1;x2) sob a curva normal de X é a mesma que aquela sob a curva normal padrão de Z no intervalo correspondente (z1;z2) Exemplo-01: Seja X a variável aleatória que representa os diâmetros de parafusos produzidos por determinada máquina em uma linha de produção. Suponha que X tem distribuição normal com média µ = 2,0 cm e desvio padrão σ = 0,04 cm. Calcular a probabilidade de: a) um parafuso produzido pela máquina ter um diâmetro maior que 2,0 cm. b) um parafuso produzido pela máquina ter um diâmetro maior do que 2,04 cm. c) um parafuso produzido pela máquina ter um diâmetro maior do que 2,05 cm. DISTRIBUIÇÃO NORMAL- EXEMPLOS DISTRIBUIÇÃO NORMAL Temos Média µ = 2,00 cm Desvio Padrão σ = 0,04 cm. Calcular a probabilidade de: a)um parafuso produzido pela máquina ter um diâmetro maior que 2,0 cm. Resposta Como a curva é simétrica P = 50% ! Ou seja: 50% estão abaixo da Média e 50% estão acima da Média ! 2 cm 50%50% DISTRIBUIÇÃO NORMAL Temos Média µ = 2,00 cm Desvio Padrão σ = 0,04 cm. Calcular a probabilidade de: b) um parafuso produzido pela máquina ter um diâmetro maior do que 2,04 cm. σ µ− = X Z Nesse caso precisamos transformar a variável X na variável Z usando a seguinte fórmula: X = 2,04 cm µ = 2,00 cm σ = 0,04 cm 00,1 04,0 04,0 04,0 00,204,2 == − =Z 2,00 2,04 Z = 1,00 1 desvio padrão DISTRIBUIÇÃO NORMAL Temos Média µ = 2,00 cm Desvio Padrão σ = 0,04 cm. σ µ− = X Z 2,00 2,04 Z = 1,00 O que significa Z = 1,00? Como podemos interpretar esse valor? X = 2,04 = 2,00 + 0,04 = µ + 1σ X = 2,04 cm µ = 2,00 cm σ = 0,04 cm Média + 1 Desvio Padrão Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,24220,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 COMO ACHAR O VALOR DA PROBABILIDADE NA TABELA PRIMEIRA DECIMAL Z = 1,00 PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 9 MANUEL 0,3413 É A ÁREA CINZA DESEJAMOS A ÁREA EM AMARELO 2,00 2,04 A ÁREA EM AMARELO = 0,50 - 0,3413 = 0,1587 ÁREA EM AZUL = 50% = 0,50 LOGO A PROBABILIDADE DO DIÂMETRO DO PARAFUSO SER MAIOR DO QUE 2,04 É 15,87% ! CÁLCULO DA PROBABILIDADE A PROBABILIDADE ENCONTRADA PELA TABELA É 0,3413 = 34.13% COMO A CURVA É SIMÉTRICA A ÁREA À DIREITA DA MÉDIA É IGUAL A ÁREA À ESQUERDA DA MÉDIA = 50% = 0,50 ! DISTRIBUIÇÃO NORMAL Temos Média µ = 2,00 cm Desvio Padrão σ = 0,04 cm. Calcular a probabilidade de: b) um parafuso produzido pela máquina ter um diâmetro maior do que 2,04 cm. σ µ− = X Z X = 2,04 cm µ = 2,00 cm σ = 0,04 cm 2,00 2,04 X = 2,04 cm µ = 2,00 cm σ = 0,04 cm P(X > 2,04) = ? FUNÇÃO PNORM (x, média, desvio padrão) Calcula P(X<x) em uma curva NORMAL 0.8413447σ µ− = X Z 1 - 0.8413447 0,1587 PARÂMETROS x - valor para o qual se quer calcular a probabilidade P(X<x) Média da variável X Desvio Padrão da Variável X X deve ter Distribuição Normal NO R X = 2,04 cm µ = 2,00 cm σ = 0,04 cm P(X > 2,04) = ? FUNÇÃO PNORM (x, média, desvio padrão) pnorm(2.04, 2, 0.04) pnorm(2.04, 2, 0.04) = 0.8413447 0.8413447σ µ− = X Z 1 - 0.8413447 0,1587 pnorm(2.04, 2, 0.04,lower.tail=TRUE) = 0.8413447 pnorm(2.04, 2, 0.04,lower.tail=FALSE) = 0.1586553 lower.tail = TRUE – CALCULA CAUDA INFERIOR (DEFAULT) lower.tail = FALSE – CALCULA CAUDA SUPERIOR 1 - pnorm(2.04, 2, 0.04) = 1 - 0.8413447 = 0,1587 NO R DISTRIBUIÇÃO NORMAL Temos Média µ = 2,00 cm Desvio Padrão σ = 0,04 cm. Calcular a probabilidade de: c) um parafuso produzido pela máquina ter um diâmetro maior do que 2,05 cm. σ µ− = X Z Nesse caso precisamos transformar a variável X na variável Z usando a seguinte fórmula: X = 2,05 cm µ = 2,00 cm σ = 0,04 cm 25,1 04,0 05,0 04,0 00,205,2 == − =Z Z = 1,25 2,00 2,05 Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 COMO ACHAR O VALOR DA PROBABILIDADE NA TABELA PARA Z = 1,25PRIMEIRA DECIMAL PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 10 MANUEL 0,3944 É A ÁREA CINZA DESEJAMOS A ÁREA EM AMARELO 2,00 2,05 A ÁREA EM AMARELO = 0,50 - 0,3944 = 0,1056 ÁREA EM AZUL = 50% = 0,50 LOGO A PROBABILIDADE DO DIÂMETRO DO PARAFUSO SER MAIOR QUE 2,05 É 10,56% ! CÁLCULO DA PROBABILIDADE A PROBABILIDADE ENCONTRADA PELA TABELA É 0,3944 = 39.44% COMO A CURVA É SIMÉTRICA A ÁREA À DIREITA DA MÉDIA É IGUAL A ÁREA À ESQUERDA DA MÉDIA = 50% = 0,50 ! X = 2,05 cm µ = 2,00 cm σ = 0,04 cm P(X > 2,05) = ? FUNÇÃO PNORM (x, média, desvio padrão) pnorm(2.05, 2, 0.04) pnorm(2.05, 2, 0.04) = 0.8943502 0.8943502σ µ− = X Z 1 - 0.8943502 0,1056 pnorm(2.05, 2, 0.04,lower.tail=TRUE) = 0.8943502 pnorm(2.05, 2, 0.04,lower.tail=FALSE) = 0.1056498 NO R DISTRIBUIÇÃO NORMAL Exemplo-02: Considere que X é a variável aleatória que representa a nota de uma prova de Estatística de 60 alunos. Suponha que X tenha distribuição normal com média µ = 5,0 e desvio padrão σ = 1,2. Calcular a probabilidade de: a) Um aluno tirar nota maior do que 7,0 na prova. b) Um aluno tirar nota maior do que 8,0 na prova. c) Quantos alunos tiraram nota maior do que 5,0 na prova ? d) Quantos alunos tiraram nota maior do que 6,0 na prova ? DISTRIBUIÇÃO NORMAL Temos Média µ = 5,0 Desvio Padrão σ = 1,2 Calcular a probabilidade de: a) Um aluno tirar uma nota maior do que 7,0 na prova. σ µ− = X Z Nesse caso precisamos transformar a variável X na variável Z usando a seguinte fórmula: X = 7,0 µ = 5,0 σ = 1,2 66,1 2,1 0,2 2,1 0,50,7 == − =Z Z = 1,66 COMO ACHAR O VALOR DA PROBABILIDADE NA TABELA PRIMEIRA DECIMAL Z = 1,66 Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 P = 0,4515 0,4515 DESEJAMOS A ÁREA EM AMARELO 5,0 7,0 A ÁREA EM AMARELO = 0,50 - 0,4515 = 0,0485 ÁREA EM AZUL = 50% = 0,50 LOGO A PROBABILIDADE DA NOTA SER MAIOR DO QUE 7,0 É 4,85% ! CÁLCULO DA PROBABILIDADE A PROBABILIDADE ENCONTRADA PELA TABELA É 0,4515 = 45,15 % COMO A CURVA É SIMÉTRICA A ÁREA À DIREITA DA MÉDIA É IGUAL A ÁREA À ESQUERDA DA MÉDIA = 50% = 0,50 ! PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 11 MANUEL X = 7,0 µ = 5,0 σ = 1,2 P(X > 7,0) = ? FUNÇÃO PNORM (x, média, desvio padrão) pnorm(7.0, 5.0, 1.2, lower.tail=FALSE) 0.9522096σ µ− = X Z 1 - 0.9522096 0.0477 pnorm(7.0, 5.0, 1.2, lower.tail=FALSE) = 0.04779035 P(X > 7,0) = 4.8% NO R DISTRIBUIÇÃO NORMAL Temos Média µ = 5,0 Desvio Padrão σ = 1,2 Calcular a probabilidade de: b) Um aluno tirar uma nota maior do que 8,0 na prova. σ µ− = X Z Nesse caso precisamos transformar a variável X na variável Z usando a seguinte fórmula: X = 8,0 µ = 5,0 σ = 1,2 50,2 2,1 0,3 2,1 0,50,8 == − =Z Z = 2,50 Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,49620,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 COMO ACHAR O VALOR DA PROBABILIDADE NA TABELA PARA Z = 2,50 P = 0,4938 PRIMEIRA DECIMAL 0,4938 DESEJAMOS A ÁREA EM AMARELO 5,0 8,0 A ÁREA EM AMARELO = 0,50 - 0,4938 = 0,0062 ÁREA EM AZUL = 50% = 0,50 LOGO A PROBABILIDADE DA NOTA SER MAIOR DO QUE 8,0 É 0,62% ! CÁLCULO DA PROBABILIDADE A PROBABILIDADE ENCONTRADA PELA TABELA É 0,4938 = 49,38 % COMO A CURVA É SIMÉTRICA A ÁREA À DIREITA DA MÉDIA É IGUAL A ÁREA À ESQUERDA DA MÉDIA = 50% = 0,50 ! X = 8,0 µ = 5,0 σ = 1,2 P(X > 8,0) = ? FUNÇÃO PNORM (x, média, desvio padrão) pnorm(8.0, 5.0, 1.2, lower.tail=FALSE) 0.9937903σ µ− = X Z 1 - 0.9937903 0.0062 pnorm(8.0, 5.0, 1.2, lower.tail=FALSE) = 0.006209665 P(X > 8,0) = 0.62% NO R DISTRIBUIÇÃO NORMAL Temos Média µ = 5,0 Desvio Padrão σ = 1,2 n = 60 alunos c) Quantos alunos tiraram nota maior do que 5,0 na prova ? 50% 50% 5,0 Como 5,0 é o valor da Média temos 50% acima e 50% abaixo. Logo 50% dos alunos tiraram nota maior do que 5,0 na prova = 30 alunos (30 = 0,50××××60) ! PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 12 MANUEL DISTRIBUIÇÃO NORMAL Temos Média µ = 5,0 Desvio Padrão σ = 1,2 n = 60 alunos d) Quantos alunos tiraram nota maior do que 6,0 na prova? σ µ− = X Z X = 6,0 µ = 5,0 σ = 1,2 83,0 2,1 0,1 2,1 0,50,6 == − =Z Z = 0,83 Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 COMO ACHAR O VALOR DA PROBABILIDADE NA TABELA PARA Z = 0,83PRIMEIRA DECIMAL 0,2967 DESEJAMOS A ÁREA EM AMARELO 5,0 6,0 A ÁREA EM AMARELO = 0,50 - 0,2967 = 0,2033 = 20,33% ÁREA EM AZUL = 50% = 0,50 LOGO 20,33% DOS ALUNOS TIRARAM NOTA MAIOR DO QUE 6 ! QUANTOS SÃO ? BASTA CALCULAR 20,33% DE 60 ! CÁLCULO DA PROBABILIDADE A PROBABILIDADE ENCONTRADA PELA TABELA É 0,2967 = 29,67 % COMO A CURVA É SIMÉTRICA A ÁREA À DIREITA DA MÉDIA É IGUAL A ÁREA À ESQUERDA DA MÉDIA = 50% = 0,50 ! 0,2967 5,0 6,0 LOGO 20,33% DOS ALUNOS TIRARAM NOTA MAIOR DO QUE 6 ! QUANTOS SÃO ? BASTA CALCULAR 20,33% DE 60 ! CÁLCULO DA PROBABILIDADE TEMOS 20,33% = 0,2033 LOGO 0,2033 ×××× 60 = 12,19 = 12 ALUNOS TIRARAM NOTA MAIOR DO QUE 6 ! X = 6,0 µ = 5,0 σ = 1,2 n = 60 alunos na > 6,0 ? P(X > 6,0) = ? FUNÇÃO PNORM (x, média, desvio padrão) pnorm(6.0, 5.0, 1.2, lower.tail=FALSE) σ µ− = X Z 0.2023284 pnorm(6.0, 5.0, 1.2, lower.tail=FALSE) = 0.2023284 na<-n*pnorm(x,media,dp,lower.tail=FALSE) message('número de alunos= ',round(na)) NO R DISTRIBUIÇÃO NORMAL Exemplo-02: Considere que X é a variável aleatória que representa a nota de uma prova de Estatística de 60 alunos. Suponha que X tenha distribuição normal com média µ = 5,0 e desvio padrão σ = 1,2. e) Qual o intervalo de notas em torno da média que contêm aproximadamente 68% das observações (notas). f) Qual o intervalo em torno da média que contêm 57 observações (notas)? g) Qual o valor de nota que deixa 15 observações abaixo e 45 acima? h) Qual o valor de nota que é superada por 25% das observações? PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 13 MANUEL DISTRIBUIÇÃO NORMAL e) Qual o intervalo de notas em torno da média que contêm aproximadamente 68% das observações. µ = 5,0 σ = 1,2 LI < P(X) < LS = 68% LI < P(X) < LS = 68% Intervalo Probabilidade (%) µ ± 1 σ 68,26% µ ± 2 σ 95,45% µ ± 3 σ 99,73% µ = 5,0 σ = 1,2 LI = µ - σ = 5,0 - 1,2 = 3,8 LS = µ - σ = 5,0 + 1,2 = 6,2 DISTRIBUIÇÃO NORMAL µ = 5,0 σ = 1,2 LI < P(X) < LS = 68% LI = µ - σ = 5,0 - 1,2 = 3,8 LS = µ - σ = 5,0 + 1,2 = 6,2 COMPROVE ESSE RESULTADO USANDO O R x<-3.8 media <- 5.0 dp <- 1.2 li<-pnorm(x,media,dp,lower.tail=FALSE) x<-6.2 media <- 5.0 dp <- 1.2 ls<-pnorm(x,media,dp,lower.tail=FALSE) li-ls = 0.6826895 DISTRIBUIÇÃO NORMAL µ = 5,0 σ = 1,2 LI < P(X) < LS = 68% LI = µ - σ = 5,0 - 1,2 = 3,8 LS = µ + σ = 5,0 + 1,2 = 6,2 OUTRA SOLUÇÃO.... x<-6.2 media <- 5.0 dp <- 1.2 1-2*ls<-pnorm(x,media,dp,lower.tail=FALSE) 6.2 68,26% x<-6.2 media <- 5.0 dp <- 1.2 pnorm(x,media,dp,lower.tail=FALSE) = 0.1586 1-2*pnorm(x,media,dp,lower.tail=FALSE)= 0.6826 0.1586 0.1586 DISTRIBUIÇÃO NORMAL µ = 5,0 σ = 1,2 LI < P(X) < LS = 68% LI = µ - σ = 5,0 - 1,2 = 3,8 LS = µ + σ = 5,0 + 1,2 = 6,2 SOLUÇÃO LORAINE.... media <- 5.0 dp <- 1.2 pnorm(6.2,media,dp)- pnorm(3.8,media,dp) 68,26% 6.2 3.8 DISTRIBUIÇÃO NORMAL f) Qual o intervalo em torno da média que contêm 57 observações? µ = 5,0 σ = 1,2 n = 60 LI < n < LS = 57 57/60 = 0,95 = 95% Intervalo Probabilidade (%) µ ± 1 σ 68,26% µ ± 2 σ 95,45% µ ± 3 σ 99,73% LI = µ - 2σ = 5,0 - 2×1,2 = 2.6 LS = µ + σ = 5,0 + 2,4 = 7.4 COMPROVE ESSE RESULTADO USANDO O R PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 14 MANUEL 7.4 95,45% x<-7.4 media <- 5.0 dp <- 1.2 pnorm(x,media,dp,lower.tail=FALSE) =0.0227 1-2*pnorm(x,media,dp,lower.tail=FALSE)= 0.9545 0.0227 0.0227 DISTRIBUIÇÃO NORMAL g) Qual o valor da nota que deixa 15 observações abaixo e 45 acima? Que valor é esse? µ = 5,0 σ = 1,2 n = 60 15 é 25% de 60 logo precisamos encontrar o 1º quartil da distribuição (q1). (15=60/4) p = 0.25 µ = 5.0 σ = 1.2 x = ? FUNÇÃO QNORM (p, média, desvio padrão) 0.75 σ µ− = X Z 0,25 PARÂMETROS p - valor de probabilidade para a qual se deseja calcular o valor da variável X Média da variável X Desvio Padrão da Variável X X deve ter Distribuição Normal NO R p = 0.25 µ = 5.0 σ = 1.2 x = ? FUNÇÃO QNORM (p, média, desvio padrão) 0.75 σ µ− = X Z 0,25 p<- 0.25 media <- 5.0 dp <- 1.2 qnorm(0.25,5,1.2) qnorm(0.25,5,1.2)= 4.190612 NO R p = 0.25 µ = 5.0 σ = 1.2 x = ? FUNÇÃO QNORM (p, média, desvio padrão) 0.75 σ µ− = X Z 0,25 x<- 4.190612 media <- 5.0 dp <- 1.2 pnorm(qnorm(0.25,5,1.2),5,1.2) 0,25 qnorm(0.25,5,1.2)= 4.190612 COMPROVANDO, OU SEJA CALCULANDO A PROBABILIDADE PARA 4,190612 COMO COMPROVAR ESSE RESULTADO? NO R DISTRIBUIÇÃO NORMAL Que valor é esse? µ = 5,0 σ = 1,2 n = 60 Nota superada por 25% das observações é o q3(75%) h) Qual o valor da nota que é superada por 25% das observações? 25% 25% 25% 25% PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 15 MANUEL p = 0.75 µ = 5.0 σ = 1.2 x = ? 0.75 σ µ− = X Z 0,25 FUNÇÃO QNORM (p, média, desvio padrão) p<- 0.75 media <- 5.0 dp <- 1.2 qnorm(0.75,5,1.2) qnorm(0.75,5,1.2)= 5.809388 NO R p = 0.75 µ = 5.0 σ = 1.2 x = ? FUNÇÃO QNORM (p, média, desvio padrão) 0.75 σ µ− = X Z 0,25 x<- 5.809388 media <- 5.0 dp <- 1.2 pnorm(qnorm(0.75,5,1.2),5,1.2) 0.75 qnorm(0.75,5,1.2) 5.809388 COMPROVANDO, OU SEJA CALCULANDO A PROBABILIDADE PARA 5.809388 NO R IRPF- MALHAS.... • FONTE • CARNÊ LEÃO • CADASTRO• FAZENDA (Malha Fina) MALHAS.... • FONTE (IRF_Informado (DIRF) = IRF Declarado (?) SIMPLES... • CARNÊ LEÃO Informado = Declarado (?) SIMPLES... • CADASTRO Valores inconsistentes ? SIMPLES... • FAZENDA (Malha Fina - vários parâmetros!) PROBLEMA... MUITA RETENÇÃO E POUCO RETORNO! MALHAS.... • FAZENDA (Malha Fina - vários parâmetros!) PROBLEMA... MUITA RETENÇÃO E POUCO RETORNO! COMO AUMENTAR A EFICIÊNCIA? CRITÉRIOS DE RETENÇÃO 27 PARÂMETROS - cair UM parâmetro! MALHA! Como resolver? CADASTRO DE VALORES - CADVAL POPULAÇÃO DE INTERESSE IRPF ≈≈≈≈ 34 MILHÕES MALHADOS CADVAL UNIVERSO MALHADOS MALHADOS Parâmetros (quais) Retorno Malha etc... PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 16 MANUEL CADASTRO DE VALORES - CADVAL MALHADOS MALHADOS Parâmetros Retorno Malha etc... ANÁLISE EXPLORATÓRIA MODELO SIMULAÇÕES RESULTADOS Os parâmetros têm distribuição NORMAL DISTRIBUIÇÃO NORMAL Exemplo-03: Um parâmetro de malha de determinado tributo tem distribuição Normal com média 12 e desvio padrão 4. Considerando que ficarão retidas em malha declarações que apresentarem o valor do parâmetro maior do que 22, e que a população é de 10.000.000 declarantes, calcule o número de declarações retidas no atual exercício fiscal. Temos dados do problema X = 22 Ponto de corte µ = 12 Média σ = 4 Desvio Padrão N = 10.000.000 número de declarantes MÉDIA PONTO DE CORTE RETIDAS EM MALHA DISTRIBUIÇÃO NORMAL σ µ− = X ZCálculo do valor de Z Z = 2,50 50,2 4 10 4 1222 == − =Z VAMOS CALCULAR AGORA O VALOR DA PROBABILIDADE PARA Z = 2,50 USANDO A TABELA NORMAL PADRÃO ! Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 COMO ACHAR O VALOR DA PROBABILIDADE NA TABELA PARA Z = 2,50 A PROBABILIDADE É P = 0,4938 PRIMEIRA DECIMAL 0,49388 DESEJAMOS A ÁREA EM AMARELO 12 22 A ÁREA EM AMARELO = 0,50 - 0,4938 = 0,0062 ÁREA EM AZUL = 50% = 0,50 LOGO A QUANTIDADE DE DECLARAÇÕES RETIDAS SERÁ: 0,0062 ×××× 10.000.000 = 62.000 DECLARAÇÕES ! CÁLCULO DA PROBABILIDADE E DO NÚMERO DE DECLARAÇÕES RETIDAS X = 22 µ = 12 σ = 4 P(X > 22) = ? N =10.000.000 FUNÇÃO PNORM (x, média, desvio padrão) σ µ− = X Z PARÂMETROS x - valor para o qual se quer calcular a probabilidade P(X>x) Média da variável X Desvio Padrão da Variável X X deve ter Distribuição Normal MÉDIA PONTO DE CORTE RETIDAS EM MALHA NO R PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 17 MANUEL X = 22 µ = 12 σ = 4 P(X > 22)? N= 10.000.000 FUNÇÃO PNORM (x, média, desvio padrão) pnorm(22, 12, 4) σ µ− = X Z pnorm(22, 12, 4,lower.tail= FALSE) = 0.006209665 MÉDIA PONTO DE CORTE RETIDAS EM MALHA ndr<-round(n*pnorm(x,media,dp,lower.tail=FALSE)) ndr = 62097 NO R DISTRIBUIÇÃO NORMAL Exemplo-04: Um parâmetro de malha de determinado tributo tem distribuição Normal com média 12 e desvio padrão 4. Considerando que ficarão retidas em malha declarações que apresentarem o valor do parâmetro maior do que 21, e que a população é de 10.000.000 declarantes, calcule o número de declarações retidas no atual exercício fiscal. Temos dados do problema X = 21 Ponto de corte µ = 12 Média σ = 4 Desvio Padrão N = 10.000.000 número de declarantes DISTRIBUIÇÃO NORMAL σ µ− = X ZCálculo do valor de Z Z = 2,25 25,2 4 9 4 1221 == − =Z VAMOS CALCULAR AGORA O VALOR DA PROBABILIDADE PARA Z = 2,25 USANDO A TABELA NORMAL PADRÃO ! Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 COMO ACHAR O VALOR DA PROBABILIDADE NA TABELA PARA Z = 2,25PRIMEIRA DECIMAL A PROBABILIDADE É P = 0,4878 0,4878 DESEJAMOS A ÁREA EM AMARELO 12 21 22 A ÁREA EM AMARELO = 0,50 - 0,4878 = 0,0122 ÁREA EM AZUL = 50% = 0,50 LOGO A QUANTIDADE DE DECLARAÇÕES RETIDAS SERÁ: 0,0122 ×××× 10.000.000 = 122.000 DECLARAÇÕES CÁLCULO DA PROBABILIDADE E DO NÚMERO DE DECLARAÇÕES RETIDAS X = 21 µ = 12 σ = 4 P(X > 21)? N= 10.000.000 FUNÇÃO PNORM (x, média, desvio padrão) pnorm(x,12, 4) 1-pnorm(x,media,dp) σ µ− = X Z #Calculando diretamente na causa superior pnorm(21, 12, 4,lower.tail= FALSE) = 0.01222447 MÉDIA PONTO DE CORTE RETIDAS EM MALHA ndr<-round(n*pnorm(x,media,dp,lower.tail=FALSE)) ndr = 122.245 NO R PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 18 MANUEL DISTRIBUIÇÃO NORMAL Exemplo-05: Um parâmetro de malha de determinado tributo tem distribuição Normal com média 12 e desvio padrão 4. Considerando que ficarão retidas em malha declarações que apresentarem o valor do parâmetro maior do que 12, e que a população é de 10.000.000 declarantes, calcule o número de declarações retidas no atual exercício fiscal. Temos dados do problema X = 12 Ponto de corte µ = 12 Média σ = 4 Desvio Padrão N = 10.000.000 número de declarantes NÚMERO DE DECLARAÇÕES RETIDAS = 5.000.000 A METADE ! OU SEJA 50% ! 12 50% DISTRIBUIÇÃO NORMAL Exemplo-06: Um parâmetro de malha de determinado tributo tem distribuição Normal com média 12 e desvio padrão 4. Considerando que a população é de 10.000.000 declarantes, calcule qual o valor do ponto de corte para que fiquem retidas em Malha apenas 40.000 declarações. DADOS DO PROBLEMA X = ? Ponto de corte µ = 12 Média σ = 4 Desvio Padrão N = 10.000.000 número de declarantes Declarações retidas = 40.000 QUAL O ALGORITMO PARA RESOLVER ESSE PROBLEMA? DISTRIBUIÇÃO NORMAL Solução: 01) Calculamos o percentual de retidos. Precisamos agora achar na tabela o valor de Z que corresponde a 0,496. 004,0 000.000.10 000.40 ==P 02) Precisamos calcular a área cinza (Área Tabulada - é a que está na Tabela Normal Padrão). P = 0,004 ÁREA TABULADA = 0,50 - 0,004 = 0,496 12 X=? Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,49530,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 COMO ACHAR O VALOR DE Z PARA P = 0,4960 P = 0,4960 CORRESPONDE NA TABELA A Z = 2,65 PRIMEIRA DECIMAL DISTRIBUIÇÃO NORMAL Agora podemos calcular o ponto de corte (X) usando a mesma fórmula para o cálculo de Z σ µ− = X Z Logo: X = µ + σ × Z = 12 + 4 × 2,65 = 12 + 10,6 = 22,6 ! Ou seja, para reter apenas 40.000 declarações na Malha o Ponto de Corte do parâmetro deve ser = 22,6 ! CÁLCULO DO PONTO DE CORTE Temos: X = ? Ponto de corte µ = 12 Média σ = 4 Desvio Padrão Z = 2,65 NO R X = ? µ = 12 σ = 4 N= 10.000.000 ndr=40.000 Perceptual de retidos pdr = 40.000/10.000.000 pdr= 0.0040 = 0,4% FUNÇÃO QNORM (p, média, desvio padrão) σ µ− = X Z qnorm(pdr,12, 4,lower.tail=FALSE) 22.6083 Ponto de corte que vai reter 40.000 declarações. MÉDIA PONTO DE CORTE %RETIDAS EM MALHA (pdr) QUAL O ALGORITMO PARA RESOLVER ESSE PROBLEMA? PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 19 MANUEL DISTRIBUIÇÃO NORMAL Exemplo-07: Um parâmetro de malha de determinado tributo tem distribuição Normal com média 12 e desvio padrão 4. Considerando que a população é de 10.000.000 declarantes, calcule qual o valor do ponto de corte para que fiquem retidas em Malha apenas 35.000 declarações. DADOS DO PROBLEMA X = ? Ponto de corte µ = 12 Média σ = 4 Desvio Padrão N = 10.000.000 número de declarantes Declarações retidas = 35.000 DISTRIBUIÇÃO NORMAL Solução: 01) Calculamos o percentual de retidos. Precisamos agora achar na tabela o valor de Z que corresponde a 0,4965. 0035,0 000.000.10 000.35 ==P 02) Precisamos calcular a área cinza (Área Tabulada - é a que está na Tabela Normal Padrão). P = 0,0035 ÁREA TABULADA = 0,50 - 0,0035 = 0,4965 12 X=? Segunda decimal de z 0 1 2 3 4 5 6 7 8 9 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 COMO ACHAR O VALOR DE Z PARA P = 0,4965 P = 0,4965 CORRESPONDE NA TABELA A Z = 2,70 PRIMEIRA DECIMAL DISTRIBUIÇÃO NORMAL Agora podemos calcular o ponto de corte (X) usando a mesma fórmula para o cálculo de Z σ µ− = X Z Logo X = µ + σ × Z = 12 + 4 × 2,70 = 12 + 10,8 = 22,8 ! Ou seja para reter apenas 35.000 declarações na Malha o Ponto de Corte do parâmetro deve ser = 22,8 ! Temos X = ? Ponto de corte µ = 12 Média σ = 4 Desvio Padrão Z = 2,70 X = ? µ = 12 σ = 4 N= 10.000.000 ndr = 35.000 QUAL O ALGORITMO PARA RESOLVER ESSE PROBLEMA? σ µ− = X Z MÉDIA PONTO DE CORTE FUNÇÃO QNORM (p, média, desvio padrão) qnorm(pdr,12, 4,lower.tail=FALSE) pdr = ndr/N pdr = 35.000/10.000.000 pdr = 0,0035 %RETIDAS EM MALHA (pdr) 22.7874 Ponto de corte que vai reter 35.000 declarações. NO R DISTRIBUIÇÃO NORMAL Exemplo-08: Um parâmetro de malha de determinado tributo tem distribuição Normal com média 12 e coeficiente de variação de 25%. Considerando que a população é de 20.000.000 declarantes, calcule o número de declarações retidas no exercício fiscal se o ponto de corte do parâmetro for 20. Se o valor médio da multa por declaração retida em malha é R$ 1.500,00 calcule o valor da Renuncia Fiscal (*) no exercício caso o ponto de corte passe de 20 para 22. (*) Renúncia Fiscal é o que a Receita Federal deixará de arrecadar por não reter as declarações em malha. PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 20 MANUEL NO R x1= 20 µ = 12 CV = 25% N= 20.000.000 = � − � MÉDIA PONTO DE CORTE RETIDAS EM MALHA �� = � → �0(;,4,(3'( +( <-/,-çã0 PRECISAMOS ACHAR O DESVIO PADRÃO (σσσσ ) = �� × ���� = 0,25 × 12 = 3 NO R x1= 20 µ = 12 CV = 25% σ = 3 N= 20.000.000 σ µ− = X Z MÉDIA PONTO DE CORTE RETIDAS EM MALHA FUNÇÃO PNORM (x, média, desvio padrão) pnorm(x1,media,dp,lower.tail=FALSE) ndrx1 = 76.608 ndrx1<-round(n*pnorm(x1,media,dp,lower.tail=FALSE)) NO R x2= 22 µ = 12 σ = 3 N= 20.000.000 σ µ− = X Z MÉDIA PONTO DE CORTE RETIDAS EM MALHA FUNÇÃO PNORM (x, média, desvio padrão) pnorm(x2,media,dp,lower.tail=FALSE) ndrx2 = 8581 ndrx2<-round(n*pnorm(x2,media,dp,lower.tail=FALSE)) NO R MÉDIA PONTO DE CORTE RETIDAS EM MALHA RENÚNCIA FISCAL DEIXARÃO DE SER EXAMINADAS ndrx1 = 76.608 ndrx2 = 8581 ndrx1 - ndrx2 = 76.608 - 8581 = 68.027 Valor médio da multa = R$ 1.500,00 RENÚNCIA FISCAL = 68.027× 1.500 RENÚNCIA FISCAL = R$ 102.040.500 Carpe Diem... PÓS GRADUAÇÃO EM CIÊNCIA DE DADOS ESTATÍSTICA - ANÁLISE COMPUTACIONAL 21 MANUEL