Baixe o app para aproveitar ainda mais
Prévia do material em texto
FACULDADE PIO XII CURSO DE ADMINISTRAÇÃO DE EMPRESAS 2º ANO APOSTILA DE ESTATÍSTICA PROF. PAULO CÉSAR ZANELLATO ALUNO:.................................................................................. TURMA:....................................... ANO:.......................... BIBLIOGRAFIA: COSTA, Sérgio F. Introdução ilustrada à Estatística. São Paulo: Harbra. CLARK, Jeffrey, DOWNING, Douglas. Estatística aplicada. São Paulo: Saraiva. CRESPO, Antonio Arnot. Estatística Fácil. São Paulo: Saraiva. DOWNING, D., CLARK J. Estatística Aplicada. São Paulo: Saraiva. FONSECA, J.S., MARTINS, G.A. Curso de estatística. São Paulo: Atlas. HOEL, Paul G. Estatística elementar. São Paulo: Atlas NAZARETH, Helenalda de S. Curso básico de estatística. São Paulo: Ática. SPIEGEL, Murray R. Estatística. São Paulo: Makron Books. STEVENSON, Willian J. Estatística aplicada à administração. São Paulo: Harper & Row. TOLEDO, Geraldo L. Estatística básica. São Paulo: Atlas. SUMÁRIO: 1 - Introdução à Estatística ...................................................... 01 2 - Distribuição de freqüência ................................................. 08 3 - Medidas de Posição ........................................................... 15 4 - Medidas de Dispersão ........................................................ 29 5 - Probabilidade ..................................................................... 33 6 - Distribuições de Probabilidade ........................................... 43 7 - Amostragem ...................................................................... 56 8 - Intervalo de confiança ........................................................ 76 9 - Testes de hipóteses ............................................................ 87 10 - Correlação e Regressão ................................................... 101 Apêndice I (tabela da curva normal reduzida) .......................... 129 Apêndice II (tabela t student) .................................................. 130 Apêndice III (tabela de números aleatórios) ............................ 131 INTRODUÇÃO À ESTATÍSTICA 01 CONCEITO DE ESTATÍSTICA: Dois conceitos geralmente aceitos: Uma coleção de dados quantitativos referentes a qualquer elemento ou grupo, especialmente quando os dados são obtidos e colecionados de forma sistêmica. Ex.: Pressão sangüínea, Jogos de futebol, empregos, etc... Ciência que lida com a coleta, tabulação, análise, interpretação e apresentação de dados quantitativos. Ex.: Pesquisa de mercado determinando preferências do consumidor, levantamento de índices de preços, etc... Uso em: • Controle de Qualidade; • Projeções de mercado; • Investimentos, etc.. INTRODUÇÃO À ESTATÍSTICA 02 POPULAÇÃO E AMOSTRA: PopulaçãoPopulação AmostraAmostraApresentaçãoApresentação InferênciaInferência População estatística ou universo estatístico compreende o conjunto de entes portadores de, pelo menos , uma característica comum. Amostra é o subconjunto finito de uma população. INTRODUÇÃO À ESTATÍSTICA 03 ESTATÍSTICA INDUTIVA E DESCRITIVA: •A Estatística Indutiva compreende a obtenção, a partir de um conjunto limitado de dados ( amostra ) , de conclu- sões sobre um grande conjunto de dados ( população ). •A Estatística Descritiva compreende a descrição e análise de um elemento ou grupo. Fases daFases da EstatísticaEstatística IndutivaIndutiva ouou InferencialInferencial DescritivaDescritiva ouou Dedutiva Dedutiva As conclusões ouAs conclusões ou inferências não podem serinferências não podem ser estabelecidas com certezaestabelecidas com certeza absolutaabsoluta Uso deUso de Probabilidade !!!Probabilidade !!! INTRODUÇÃO À ESTATÍSTICA 04 VARIÁVEIS: As Variáveis podem ser: 1 - Qualitativa: Quando seus valores são expressos por atributos. - Nominal: masculino, feminino, solteiro, casado, etc - Ordinal: grau de instrução, colocação, etc. 2 - Quantitativa: Quando seus valores são expressos por números. - Contínua: altura, comprimento, temperatura, etc. - Discreta: Peças produzidas, nº de filhos, etc. Conjunto de resultadosConjunto de resultados possíveis de um possíveis de um fenômeno. fenômeno. INTRODUÇÃO À ESTATÍSTICA 05 COLETA E APRESENTAÇÃO DE DADOS: COLETACOLETA OBSERVAÇÃOOBSERVAÇÃO DIRETADIRETA INDIRETAINDIRETA APURAÇÃO EAPURAÇÃO E APRESENTAÇÃOAPRESENTAÇÃO TABELASTABELAS GRÁFICOSGRÁFICOS Exportações brasileiras 03/95 SP 1344 MG 542 RS 332 ES 285 PN 250 SC 202 Fonte: SECEX Expor ta ç õe s bra s ile ira s 0 3 /9 5 0 500 1000 1500 SP MG RS E S P N SC Es tad o U S $ m i l h õ e s INTRODUÇÃO À ESTATÍSTICA 06 GRÁFICOS PARA APRESENTAÇÃO DE DADOS: A M O S T R A N º 2 0 D E FE IT O S FR E Q U Ê N C IA A 2 8 B 2 0 C 1 4 D 1 3 E 1 0 F 5 C Q - 0 1 /0 2 / 99 C O L UNA S 0 5 1 0 1 5 2 0 2 5 3 0 A B C D E F DEFEIT O S F R E Q U Ê N C I A BA RRA S 0 1 0 2 0 3 0 A B C D E F D E F E I T O S F REQ UÊNC IA L INHA S 0 5 1 0 1 5 2 0 2 5 3 0 A B C D E F DEFEIT O S F R E Q U Ê N C I A P IZ ZA A 31 % B 22 % C 16 % D 14 % E 11 % F 6 % INTRODUÇÃO À ESTATÍSTICA 07 ARREDONDAMENTO DE DADOS: Objetiva minimizar os erros acumulados por arredonda-Objetiva minimizar os erros acumulados por arredonda- mento.mento. Ex.: 12,8635 Ex.: 12,8635 �� 12,864 12,864 �� 12,86 12,86 �� 12,9 12,9 �� 13 13 NOTAÇÃO CIENTÍFICA: Emprega-se quando o número comporta muitos zeros.Emprega-se quando o número comporta muitos zeros. Ex.:Ex.: 500.000,00 = 5 x 10500.000,00 = 5 x 1055 854.000.000,00 = 8,54 x 10854.000.000,00 = 8,54 x 1088 0,0000355 = 3,55 x 100,0000355 = 3,55 x 10-5-5 ALGARISMOS SIGNIFICATIVOS: São os algarismos ou dígitos representativos, separadosSão os algarismos ou dígitos representativos, separados dos zeros necessários à localização da vírgula.dos zeros necessários à localização da vírgula. Exemplos:Exemplos: 5,32 5,32 �� 3 alg. significativos.3 alg. significativos. 32,30 32,30 �� 4 alg. significativos. 4 alg. significativos. 00,0018 = 1,8 x 10,0018 = 1,8 x 10-3-3 �� 2 alg. significativos. 2 alg. significativos. 00,001800 = 1,800 x 10,001800 = 1,800 x 10-3-3 �� 4 alg. significativos. 4 alg. significativos. DISTRIBUIÇÃO DE FREQUÊNCIA 08 A Distribuição de freqüência compreende um arranjo tabular dos dados por classes, juntamente com suas freqüências correspondentes. Dados Brutos e Rol: Intervalos de variação de uma variável. li Li AMOSTRAS 10 8 3 15 7 5 19 18 12 AMOSTRAS 3 5 7 8 10 12 15 18 19 AMOSTRAS 00 |---------- 05 05 |---------- 10 10 |---------- 15 15 |---------- 20 ClassesClasses Amplitude do intervalo de classe ( h ) h = Li - li Amplitude total da distribuição ( R ) R = Li ( máx ) - li ( mín ) Número de classes ou células ( K ) K = R / h Ponto médio de uma classe ( xi ) xi = ( Li + li ) / 2 O NÚMERO DE CLASSES É SUBJETIVO Métodos tradicionais: K = 1 + 3,22 log n ( R. Sturges , n > 100 ) K = ( n pequeno ) DISTRIBUIÇÃO DE FREQUÊNCIA 09 R E C O M E N D A Ç Ã O C L A S S E S O B S E R V AÇ Õ E S 5 a 9 < 1 0 0 8 a 1 7 d e 1 0 0 a 5 0 0 1 5 a 2 0 > 5 0 0 n DISTRIBUIÇÃO DE FREQUÊNCIA 10 Tipos de freqüências: Freqüência absoluta ( fi ) são os valores que realmente representam o número de dados de uma classe. Freqüência relativa ( fri ) são os valores das razões entre as freqüências simples e a freqüência total. Freqüência acumulada ( Fi ) é o total da das freqüências de todos os valores infe- riores ao limite superior do intervalo de uma dada classe. Freqüência acumulada relativa ( Fri ) é a freqüência acumulada da classe, divi- dida pela freqüência total. � � nfi � � fi fifri �� fiFi � � fi FiFri DISTRIBUIÇÃO DE FREQUÊNCIA 11 Regras gerais de uma distribuição de freqüências: 1 - Após ordenação dos dados de forma tabulada, deter- minar o maior e menor número e, então, calcular a amplitude total do rol ( R ); 2 - Definir o número de classes ( K ); 3 - Determinar as freqüências de classe ( fi , fri , Fi e Fri ). Exemplo: i ESTATURAS xi fi fri FI Fri [ cm ] 1 155 |----- 161 158 2 0,067 2 0,067 2 161 |----- 167 164 4 0,133 6 0,200 3 167 |----- 173 170 7 0,233 13 0,433 4 173 |----- 179 176 9 0,300 22 0,733 5 179 |----- 185 182 5 0,167 27 0,900 6 185 |----- 191 188 3 0,100 30 1,000 30 1,000 ESTATURAS DE ALUNOS [ cm ] 155 158 162 164 165 166 167 168 168 170 170 171 172 173 174 174 175 176 176 177 178 178 180 183 183 184 184 185 188 190 UFES DISTRIBUIÇÃO DE FREQUÊNCIA 12 Histogramas: Polígonos: ESTATURA DE ALUNOS 0 2 4 6 8 10 158 164 170 176 182 188 ESTATURAS [ cm ] F R E ESTATURA DE ALUNOS 0% 20% 40% 60% 80% 100% 158 164 170 176 182 188 ESTATURAS [ cm ] F R E ESTATURA DE ALUNOS 0 2 4 6 8 10 158 164 170 176 182 188 ESTATURAS [ cm ] F R E ESTATURA DE ALUNOS 0% 20% 40% 60% 80% 100% 158 164 170 176 182 188 ESTATURAS [ cm ] F R E DISTRIBUIÇÃO DE FREQUÊNCIA 13 Tipos de curvas de freqüência ou Ogivas: 1 - Quanto à Simetria e forma: Assimétrica para a esquerda Simétrica ( normal ) Assimétrica para a direita Forma de “ J “ Forma de “ J “ invertido Forma de “ U “ DISTRIBUIÇÃO DE FREQUÊNCIA 14 Tipos de curvas de freqüência ou Ogivas: 2 - Quanto ao achatamento: 3 - Quanto às modas: Normal Leptocúrtica Platicúrtica Unimodal Bimodal Multimodal MEDIDAS DE POSIÇÃO 15 Notação de Somatório: Exemplo: X = ( 1 , 2, -2, 10, -5 ) n n j XXXXXj ����� � � ......321 1 6510221)5(10)2(21 1 ������������� � � n j Xj MédiaMédia MedianaMediana ModaModa Medidas de Tendência Central: São medidas que representam a tendência dos dados em se agruparem em torno dos valores centrais. QQ33QQ22QQ11 SeparatrizSeparatriz MEDIDAS DE POSIÇÃO 16 Média aritmética ( ): Quociente da divisão da soma dos valores da variável pelo número deles. FÓRMULA PARA DADOS NÃO-AGRUPADOS. Exemplo: A produção leiteira de uma vaca, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 litros. Logo a produção média ao longo da semana será: X n XXX n Xj X n n j ��� �� � � ......211 14 7 98 7 12181615131410 �� ������ �X MEDIDAS DE POSIÇÃO 17 Propriedades da Média: 1ª : A soma algébrica dos desvios tomados em relação à média é nula. 2ª : Somando-se ou subtraindo-se uma constante ( c ) de todos os valores de uma variável, a média do conjunto fica aumentada ou diminuída dessa constante. 3ª : Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante ( c ), a média do conjunto fica multiplicada ou dividida por essa constante. � � � k i d 1 1 0 cXYcXY ii ����� cXYcXY ii ����� XXd ii �� MEDIDAS DE POSIÇÃO 18 Média aritmética para dados agrupados: Observações: 1ª - A fórmula da média aritmética para dados agrupados corresponde também à média aritmética ponderada, onde fi é a freqüência absoluta dos dados ou o peso de cada dado na distribuição. 2ª - No caso de distribuição de freqüência sem intervalos de classe, entende-se que Xi representa a variável em estudo. 3ª - No caso de distribuição de freqüência com intervalos de classe, entende-se que Xi representa o ponto médio de cada classe. � � � i ii f fx X MEDIDAS DE POSIÇÃO 19 Exemplos de Média aritmética para dados agrupados: 1º - Sem intervalo de classe: 2º - Com intervalo de classe: COMPOSIÇÃO FAMILIAR Nº DE MENINOS fi xi fi 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 34 78 ESTATURA DE ALUNO S i ESTATURAS [ cm ] x i f i x if i 1 150 | --- -- 1 54 152 4 608 2 154 | --- -- 1 58 156 9 1404 3 158 | --- -- 1 62 160 11 1760 4 162 | --- -- 1 66 164 8 1312 5 166 | --- -- 1 70 168 5 840 6 170 | --- -- 1 74 172 3 516 40 6440 29,2 34 78 ��� � � i ii f fx X 161 40 6440 ��� � � i ii f fx X MEDIDAS DE POSIÇÃO 20 Moda ( Mo ): Compreende o valor que ocorre com maior freqüência em uma série de valores. A Moda para dados não-agrupados: A moda consiste no valor que mais se repete. Exemplos: A = ( 7 , 8 , 9 , 10 , 11 , 12 , 13 , 15 ) Não há Moda � Série amodal B = ( 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 , 13 , 15 ) Mo = 10 � Série unimodal C = ( 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 10 ) Mo = 4 e 7 � Série bimodal MEDIDAS DE POSIÇÃO 21 A Moda para dados agrupados: 1º Caso: Sem intervalos de classe Ex.: � Mo = 2 2º Caso: Com intervalos de classe COMPOSIÇÃO FAMILIAR MENINOS fi 0 2 1 6 2 12 3 4 4 1 soma: 25 * 21 1* ** 2 h DD DlMo LlMobruta � � �� � � )( * 2 )( * 1 post ant ffD ffD �� �� MEDIDAS DE POSIÇÃO 22 Exemplo de Moda para dados agrupados: ESTATURA DE ALUNO S i ESTATURAS [ cm ] x i f i x if i 1 150 | --- -- 1 54 152 4 608 2 154 | --- -- 1 58 156 9 1404 3 158 | --- -- 1 62 160 11 1760 4 162 | --- -- 1 66 164 8 1312 5 166 | --- -- 1 70 168 5 840 6 170 | --- -- 1 74 172 3 516 40 6440 6,1594 32 2158 3811 2911 )( * 2 )( * 1 * 21 1* �� � �� ����� ����� � � �� Mo ffD ffD h DD DlMo post ant MEDIDAS DE POSIÇÃO 23 Mediana ( Md ): Compreende um número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem. A Mediana para dados não-agrupados: Exemplos: A = ( 7 , 8 , 9 , 10 , 11 , 12 , 13 , 15 , 18 ) Md = 11 B = ( 7 , 8 , 9 , 10 , 11 , 12 , 13 , 15 , 18 , 20 ) Md = ( 11 + 12 ) / 2 = 11,5 C = ( 7 , 8 , 9 , 10 , 11 , 11 , 12 , 13 , 15 , 18 ) Md = ( 11 + 11 ) / 2 = 11 MEDIDAS DE POSIÇÃO 24 A Mediana para dados agrupados: 1º Caso: Sem intervalos de classe Exemplo.: 2º Caso: Com intervalos de classe COMPOSIÇÃO FAMILIAR MENINOS fi 0 2 1 6 2 12 3 4 4 1 soma: 25 2 ª3 5,12 2 25 2 � � �� � Md classe fi ** )( * 2 f hF fi lMd ant � � � � � � � � � MEDIDAS DE POSIÇÃO 25 Exemplo de Mediana para dados agrupados: � Md i E S T A T U R A S x i f i F I [ cm ] 1 15 0 | - - - -- 1 5 4 15 2 4 4 2 15 4 | - - - -- 1 5 8 15 6 9 1 3 3 15 8 | - - - -- 1 6 2 16 0 1 1 2 4 4 16 2 | - - - -- 1 6 6 16 4 8 3 2 5 16 6 | - - - -- 1 7 0 16 8 5 3 7 6 17 0 | - - - -- 1 7 4 17 2 3 4 0 4 0 cmMd Md f hF fi lMd ant 5,160 11 413 2 40 158 2 * * )( * � �� � �� � � � � � � � � � � � � MEDIDAS DE POSIÇÃO 26 Relações entre a Média, Moda e Mediana: Assimetria Positiva ou à direitaAssimetria Positiva ou à direita MoMo MdMd MédiaMédia MédiaMédia = = MdMd = = MoMo SimetriaSimetria MédiaMédia MdMd MoMo Assimetria Negativa ou à esquerdaAssimetria Negativa ou à esquerda MEDIDAS DE POSIÇÃO 27 Separatrizes ( Quartil, Decil e Percentil ): São os valores de uma série ordenada que a dividem em quatro, dez ou em cem partes iguais. Para qualquer separatriz, utiliza-se a fórmula da Mediana, operando-se a seguinte mudança: Onde: k = Nº de partes da separatriz p = Separatriz ( 4 , 10 , 100 ) * * )( * 2 f hF fi lMd ant � � � � � � � � � p fikfi �� � 2 MEDIDAS DE POSIÇÃO 28 i E S T A T U R A S x i f i F I [ cm ] 1 15 0 | - - - -- 1 5 4 15 2 4 4 2 15 4 | - - - -- 1 5 8 15 6 9 1 3 3 15 8 | - - - -- 1 6 2 16 0 1 1 2 4 4 16 2 | - - - -- 1 6 6 16 4 8 3 2 5 16 6 | - - - -- 1 7 0 16 8 5 3 7 6 17 0 | - - - -- 1 7 4 17 2 3 4 0 4 0 Exemplo de Separatriz: � P8 � Q3 cm f hF fi lQ cm f hF fi lP ant ant 165 8 424 4 403 162 4 3 2,153 4 40 100 408 150 100 8 * * )( * 3 * * )( * 8 � �� � �� � � � � � � � � � � � � �� � �� � � � � � � � � � � � � � As medidas de Dispersão ou Variabilidade descrevem a diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação. Sejam os Conjuntos: A = ( 70 , 70 , 70 , 70 , 70 ) B = ( 68 , 69 , 70 , 71 , 72 ) C = ( 10 , 50 , 70 , 90 , 130 ) Como representar uma população, amostra ou conjunto de dados ? As medidas de dispersão são: - Amplitude Total. - Variância. - Desvio Médio. - Desvio Quartílico. - Desvio Padrão. - Desvio Percentílico. - Coeficiente de Variação. MEDIDAS DE DISPERSÃO 29 70x � Amplitude Total ( AT ): Diferença entre o maior e o menor valor observado. Desvio Médio ( DM ): Razão entre a soma dos desvios em relação à média ( valor absoluto ) e o número deles. Dados não-agrupados: Dados agrupados: Exemplo: MEDIDAS DE DISPERSÃO 30 )()( mínmáx xxAT �� n xx DM i� � � n xxifi DM � � � 8,2 5 61168666362 65/)118632()11,8,6,3,2( � ��������� � ������� DM xA MEDIDAS DE DISPERSÃO 31 Desvio-padrão ( S ): Raiz quadrada média dos quadrados dos desvios tomados em relação à média. Obs.: n - 1 graus de liberdade. Quando n > 30 , usar somente n no denominador, ao invés de n-1. Exemplo: � � 1 agrupados-nãoDados 2 � � � � n xx S i � � 1 agrupadosDados 2 � � � � n xxf S ii 67,35,13 4 54 4 2540916 15 )611()68()66()63()62( 65/)118632()11,8,6,3,2( 22222 ��� ���� � � ��������� � ������� S S xA MEDIDAS DE DISPERSÃO 32 Coeficiente de Variação ( CV ): Medida de dispersão relativa compreendida pela razão entre o desvio-padrão e a média. Variância ( ): É o quadrado do desvio-padrão. Desvio Quartílico ( DQ ): É o metade da diferença entre o 3º e o 1º quartil. Desvio Percentílico ( DP ): É a diferença entre o 90º e o 10º percentil. 100 x SCV �� 2S 2 13 QQDQ �� 1090 PPDP �� Probabilidade: Estudo dos experimentos aleatórios ou não determinísticos. Experimentos Aleatório Resultados não podem ser determinados antes da realização. Espaço Amostral ( S ) Conjunto formado por todos os resultados possíveis de um experimento aleatório. Evento Conjunto qualquer de resultados de um experimento aleatório. Experimento aleatório = Lançar dados Exemplo : S = { 1 , 2 , 3 , 4 , 5 , 6 } Evento A = { 2 } PROBABILIDADE 33 Propriedades dos Eventos: Seja E um evento de S, tal que E � S : Se: E = S � E é chamado evento certo. E = � � E é chamado evento impossível. E � S � Se E for unitário, então é chamado evento elementar. Exemplo: No lançamento de um dado comum, tem-se: A = { 2 , 4 , 6 } � S � A é um evento comum. B = { 1 , 2 , 3 , 4 , 5 , 6 } � S � B é um evento certo. C = { 4 } � S � C é um evento elementar. D = � � D é um evento impossível. Onde: A - Obter um número par. B - Obter um número menor ou igual a 6. C - Obter o número 4. D - Obter um número maior que 6. PROBABILIDADE 34 Teoria elementar da Probabilidade: A probabilidade de um evento A ( A � S ) é dada por P(A), tal que: Onde: n(A) é o nº de elementos do evento A. n(S) é o nº de elementos do espaço amostral S. Axiomas da Probabilidade: a) A probabilidade de um evento certo é 1. b) A probabilidade de um evento impossível é zero. c) A probabilidade de um evento E qualquer ( E � S ) é um número real P(E), tal que : 0 � P ( E ) � 1 d) A probabilidade de um evento elementar E qualquer é dado por : P ( E ) = 1 / n e) A probabilidade de um evento complementar é dado por : P ( Ä ) = 1 - P ( A ) PROBABILIDADE 35 n(S) n(A)P(A) � PROBABILIDADE 36 Teorema da Adição: a) Eventos mutuamente exclusivos: Exemplo: Em uma urna existem existem 10 bolas de 1 a 10. Uma bola é retirada ao acaso. A probabilidade da bola retirada ser um número primo ou maior que 8 é dado por: S = { 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 } � n ( S ) = 10 Primo: A = { 2 , 3 , 5 , 7 } � n ( A ) = 4 > 8: B = { 9 , 10 } � n ( B ) = 2 Logo: P ( A � B ) = P ( A ) + P ( B ) = ( 4 / 10 ) + ( 2 / 10 ) P ( A � B ) = 0,4 + 0,2 = 0,6 SS A B )B(P)A(P)BA(P ��� PROBABILIDADE 37 b) Reunião de dois eventos: Exemplo: Em uma urna existem existem 10 bolas de 1 a 10. Uma bola é retirada ao acaso. A probabilidade da bola retirada ser um número par ou maior que 4 é dado por: S = { 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 } � n ( S ) = 10 Par: A = { 2 , 4 , 6 , 8 , 10 } � n ( A ) = 5 > 4: B = { 5 , 6 , 7 , 8 , 9 , 10 } � n ( B ) = 6 A � B = { 6 , 8 , 10 } � n ( A � B ) = 3 Logo: P ( A � B ) = P ( A ) + P ( B ) - P ( A � B ) P ( A � B ) = ( 5/10 ) + ( 6/10 ) - ( 3/10 ) = 0,8 S (A � B) A B )BA(P-)B(P)A(P)BA(P ���� PROBABILIDADE 38 Teorema da Multiplicação: a) Eventoscondicionais ( dependentes ): - Ocorrência simultânea de dois eventos. Exemplo: Em uma urna contém 6 bolas vermelhas e 4 azuis. Ao se retirar 2 bolas consecutivas, a probabilidade da primeira ser azul e da segunda ser vermelha é dado por: 1ª retirada ( bola Azul ) � P ( A ) = 4 / 10 = 0,40 2ª retirada ( bola Verm. )� P ( V | A ) = 6 / 9 = 0,67 Logo: P ( A � V ) = P ( A ) x P ( V | A ) P ( A � V ) = 0,40 x 0,67 = 0,27 S (A � B) A B )A|B(P)A(P)BA(P ��� PROBABILIDADE 39 b) Eventos independentes: - Ocorrência de um evento independe da ocorrência de outro evento. Exemplo: De dois baralhos retiram-se, simultaneamente, uma carta do 1º baralho e uma carta do 2º baralho. A probabilidade de a carta do 1º baralho ser um rei e a do 2º baralho ser o 5 de ouro é dada por: Evento A = rei no 1º baralho. Evento B = 5 de ouro no 2º baralho. P ( A ) = 4/52 = 1/13 P ( B ) = 1/52 Logo: P ( A � B ) = P ( A ) x P ( B ) = ( 1/13 ) x ( 1/52 ) P ( A � B ) = 1/676 = 0,0015 )B(P)A(P)BA(P ��� PROBABILIDADE 40 c) Regra de Bayes: Sejam os eventos A1,.., A2, An mutuamente exclusivos dos quais conhece-se a probabilidade de ocorrência e seja B um evento para o qual também conhece-se sua probabi- lidade de ocorrência P ( B | Ai ). Logo: )n...,3,2,1,(i:Onde )A|B(P)A(P )A|B(P)A(P)B|A(P nn ii i � � � � � BB AA22AA11 AA33 AA66 AA55 AA44 PROBABILIDADE 41 Exemplo ( Regra de Bayes ): Dada a seguinte configuração: Escolhe-se uma urna ao acaso e dela extraiu-se uma bola ao acaso, verificando que a bola é branca. A probabilidade da bola ter vindo da urna U2 é dada por: 4068,0 59 24 8 3 3 1 3 1 3 1 9 1 3 1 3 1 3 1 )br | U2( P ) U3|br ( P ) U3( P ) U2|br ( P ) U2( P ) U1|br ( P ) U1( P ) U2|br ( P ) U2( P )br | U2( P 8 3 ) U3|br ( P 3 1 ) U3( P 3 1 9 3 ) U2|br ( P 3 1 ) U2( P 9 1 ) U1|br ( P 3 1 ) U1( P �� ����� � � ����� � � �� ��� �� Bolas Urnas ( Cores ) U1 U2 U3 Preta 3 4 2 Branca 1 3 3 Vermelha 5 2 3 Total 9 9 8 PROBABILIDADE 42 Análise Combinatória: Compreende o estudo das técnicas de contagem que permitem calcular o número de ocorrências de um evento. Ex.: combinações possíveis de letras e algarismos de placas de automóveis, números telefônicos, grupos de pessoas, etc. Princípio Fundamental da contagem: Arranjos e Permutações (importa a ordem dos elementos): Combinações (não importa a ordem dos elementos): r)!-(n n! A rn, � r)!-(n r! n! r n C rn, ��� � � �� � � � modos )( de ocorre 21 n n E �modos de ocorre 22 nE modos de ocorre 11 nE n! A P nn,n �� DISTRIBUIÇÕES DE PROBABILIDADE 44 Distribuição de Probabilidade: a) Distribuição discreta de Probabilidade: É definida quando uma variável x pode assumir um conjunto discreto de valores x1, x2, ... , xn , com as probabilidades P1, P2, ... , Pn, respectivamente, sendo o somatório P1 + P2 + ... + Pn = 1 . Exemplo: Lançamento de um dado. b) Distribuição Contínua de Probabilidade: Ocorre quando uma variável x pode assumir um conjunto contínuo de valores. X 1 2 3 4 5 6 P ( X ) 1/6 1/6 1/6 1/6 1/6 1/6 aa bb � ��� b a )bxa(Pdx)x(f Introdução: Variável aleatóriaVariável aleatória Suponha-se um espaço amostral S e que a cada ponto amostral seja atribuído um número. Fica então definida uma função chamada variável aleatóriavariável aleatória, indicada por uma letra maiúscula, sendo seus valores indicados por letras minúsculas. Ex.: Seja X ( nº de caras no lançamento de duas moedas ) uma variável aleatória que pode assumir os valores x1, x2 e x3. A cada valor xi correspondem pontos do espaço amostral. Associa-se a cada valor xi a probabilidade pi de ocorrência de tais pontos. A distribuição de probabilidade é formada pelos valores x1, x2 e x3 ( domínio da função ) e seus respectivos p1, p2 e p3 ( imagem da função ). DISTRIBUIÇÕES DE PROBABILIDADE 43 Nº DE CARAS PROBABILIDADE X P ( X ) x1 = 2 p1 = 0,25 x2 = 1 p2 = 0,50 x3 = 0 p3 = 0,25 �Domínio Imagem� � �1)(XP DISTRIBUIÇÕES DE PROBABILIDADE 45 Esperança Matemática: A Esperança matemática E ( X ) ou Média constitui o valor que se deseja ou se espera de um evento qualquer. Casos: - Variável aleatória discreta: - Variável aleatória contínua: Exemplos de Vad : 1 - Se a probabilidade de um homem ganhar um prêmio de R$ 10,00 é de 1/5 , então sua esperança matemática é: 2 - Em um certo negócio, um empresário pode ter um lucro de R$ 300,00 com probabilidade de 0,6 ou pode ter um prejuízo de R$ 100,00 com probabilidade de 0,4 . � �� )X(PX)X(E � ����� 00,25 110,00)X(PX)X(E dX)X(fX)X(E � �� �� �� 00,140)4,000,100()6,00,0030()X(E ������ Modelos de distribuição de probabilidade: As variáveis aleatórias podem ser discretas ou contínuas. Para ambas, existem modelos de distribuição de probabilidade específicos, que são aplicáveis em função do problema a ser resolvido. - Variáveis aleatórias discretas: 1ª - Binomial; 2ª - Multinomial; 3ª - Poisson. - Variáveis aleatórias contínuas: 4ª - Normal ( Gauss ). DISTRIBUIÇÕES DE PROBABILIDADE 46 Distribuições mais comuns GraphGraph .00.00 .25.25 .50.50 00 11 22 xx p(x)p(x) X� � X� � 1ª - Distribuição Binomial: CondiçõesCondições Ao se realizar uma mesma prova n vezes sucessivas e independentes, a probabilidade de que um evento se realize r vezes nas provas é dada pela seguinte função: DISTRIBUIÇÕES DE PROBABILIDADE 47 O experimento deve ser repetido, nas mesmas condições, um número finito de vezes ( n ); As provas repetidas devem ser independentes; Cada prova admite dois resultados: sucesso ( p ) ou fracasso ( q ); Durante o experimento, a probabilidade p do sucesso e a probabilidade q ( q = 1 - p ) do fracasso, manter-se-ão constantes. E(X) = np V(X) = npq r)(nr qp r n )r X ( P ) X ( ����� � � �� � � ���f Exemplo de distribuição binomial: Ao se realizar uma prova com 3 questões, onde a probabilidade de acerto é 0,2 em cada questão, calcular a probabilidade de ocorrerem 2 acertos. Solução: C = questão certa P ( C ) = 0,2 p = sucesso E = questão errada P ( E ) = 0,8 q = fracasso 1º modo - Possíveis eventos: C C E = P ( C ) x P ( C ) x P ( E ) = 0,2 x 0,2 x 0,8 C E C = P ( C ) x P ( E ) x P ( C ) = 0,2 x 0,8 x 0,2 E C C = P ( E ) x P ( C ) x P ( C ) = 0,8 x 0,2 x 0,2 Logo, P = 3 ( 0,2 x 0,2 x 0,8 ) = 0,096 2º modo - Através da função binomial: DISTRIBUIÇÕES DE PROBABILIDADE 48 ,09608,004,038,02,0 2 3 ) 2 X ( P )23(2 �������� � � �� � � �� � DISTRIBUIÇÕES DE PROBABILIDADE 49 2ª - Distribuição Multinomial: CondiçõesCondições Então, dado um determinado espaço amostral, ao se realizar n provas, a probabilidade de que A1 ocorra r1 vezes, A2 ocorra r2 vezes, ... , An ocorra rn vezes é equivalente a: É uma generalização da distribuição binomial; Repartição do espaço amostral em n eventos: Eventos: A1, A2, ..., An ( mutuamente exclusivos ) Probabilidades: p1, p2 ,..., pn ( respectivamente ); As probabilidades eqüivalem a 1: p1 + p2 + ... + pn = 1 r21 X r X 2 X 1 r21 r21ppp!X ... !X !X n!)X,...,X,(X P ���� DISTRIBUIÇÕES DE PROBABILIDADE 50 Exemplo de distribuição multinomial: Um dado é lançado 10 vezes. Calcular a probabilidade de terem aparecido duas vezes o nº 2 , duas vezes o nº 5 , três vezes o nº 1 e uma vez os demais resultados. Solução: n = 10 lançamentos de dado. p1 = p2 = p3 = p4 = p5 = p6 = 1/6 = 0,167 S = { 1 , 2 , 3 , 4 , 5 ,6 } Logo: %25,00025,0 6 1 6 1 6 1 6 1 6 1 6 1 1! 2! 1! 1! 2! 3! 10! ) 1X 2,X 1,X 1,X 2,X 3,X ( P 121123 654321 � �� � � � � � �� � � � � � �� � � � � � �� � � � � � �� � � � � � �� � � � � � � ������� DISTRIBUIÇÕES DE PROBABILIDADE 51 3ª - Distribuição de Poisson: CondiçõesCondições De posse da média de uma determinada ocorrência, a função massa de probabilidade é dada por: Onde: � = Média ou coeficiente de proporcionalidade; e � 2,718 ( logaritmo neperiano ); r = ocorrência. Aplicável em situações que envolvem observações por unidade de tempo, por exemplo, número de carros por minuto que chegam a um posto de pedágio. A probabilidade geralmente é pequena; A média do evento ( ocorrência ) é conhecida. E(X) = � = Np V(X) = � r! eλr)P(X λr � � �� DISTRIBUIÇÕES DE PROBABILIDADE 52 Exemplo de distribuição de Poisson: Em média, há 2 chamadas por hora num certo telefone. Calcular a probabilidade de: a) receber 3 chamadas em 2 horas; b) não receber nenhuma chamada em 90 minutos. Solução: letra a: r = 3 chamadas. � = 2 horas = 4 chamadas/hora. Logo: letra b: r = 0 � = 90 minutos = 3 chamadas/hora. Logo: 0,195 3! 718,24 r! eλ3)P(X 43λr � � � � �� �� 0,050 0! 718,23 r! eλ)0P(X 30λr � � � � �� �� DISTRIBUIÇÕES DE PROBABILIDADE 53 4ª - Distribuição Normal: Propriedades:Propriedades: É a mais importante e usual distribuição; A variável aleatória X pode assumir todo e qualquer valor real; A representação gráfica é uma curva em forma de sino, simétrica em torno da média x, que recebe o nome de curva normalcurva normal ou curva de Gausscurva de Gauss; A área limitada pela curva e pelo eixo das abscissas é igual a 1 e corresponde à probabilidade da variável x assumir qualquer valor real; A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo horizontal sem, contudo, alcançá-lo. X� � X� � DISTRIBUIÇÕES DE PROBABILIDADE 54 Condições da distribuição normal:Condições da distribuição normal: A função densidade da curva normal é dada por: Onde: Z = Variável aleatória que representa a probabilidade. X = Variável aleatória que representa a distribuição. � = Média da distribuição. � = Desvio padrão da distribuição. � = 0 ��= 1 Z� = 0 ��= 1 Z σ µXZ �� Standardized Normal DistributionStandardized Normal Distribution ����� � � � � � � � � � � xe x 2 2 1 2 σ 1(x) f � � DISTRIBUIÇÕES DE PROBABILIDADE 55 Exemplo de distribuição normal: Seja X a variável que representa o diâmetro de parafusos produzidos por uma máquina. Considerando que essa variável tenha distribuição normal com média de 2,00 cm e desvio padrão de 0,04 cm, calcular a probabilidade dos parafusos terem diâmetro entre 2,00 e 2,05 cm. Solução: A probabilidade refere-se ao intervalo: P ( 2,00 � X � 2,05 ) = P ( Z ) P ( 2,00 � X � 2,05 ) = 0,3944 = 39,44 % 3944,0)(25,1 04,0 00,205,2 σ µXZ ��������� ZPtab Conceito Amostras aleatórias: São amostras representativas da população, onde cada elemento tem a mesma possibilidade de ser incluido na amostra. Ex.: Análise nutricional de alimento: Sopa AMOSTRAGEM 56 Estudo das relações existentes entre uma população e as amostras dela extraídas. Conjunto de técnicas utilizadas para a seleção de uma amostra. Homogênea:Homogênea: Amostra representativa Amostra representativa Decantada:Decantada: Amostra não-representativaAmostra não-representativa e tendenciosae tendenciosa Amostras com e sem reposição: A amostra em que cada elemento de uma população pode ser escolhido mais de uma vez é denominada amostra com reposição, enquanto , se cada elemento não pode ser escolhido mais de uma vez, é denominada amostra sem reposição. A amostragem para populações finitas ou infinitas: � Retirada sucessiva de 10 bolas , sem reposição, de uma urna que contém 100 bolas � População finita; � Lançamento de moeda 50 vezes com contagem do número de caras � População infinita. Observação: Uma população finita, cuja amostragem é feita com reposição pode ser considerada teoricamente, como infinita, visto que qualquer número de amostras pode ser extraído sem exaurir a população. Para fins práticos, a amostragem de uma população finita muito grande pode ser considerada como a de uma população infinita. AMOSTRAGEM 57 Estimadores: Qualquer função real definida a partir dos elementos que compõem uma amostra. Estimadores Não Tendenciosos: A Média e Desvio-padrão das amostras serão estimadores não tendenciosos para a população se: AMOSTRAGEM 58 P o p u la ç ã oP o p u la ç ã o E s t im a d o re sE s t im a d o re s A m o s tra � � � � � �� �� �� � � A TA T ss 22 xx ss Inferência ou Indução Amostra Amostra S x PopulaçãoPopulação � � ESTIMATIVASESTIMATIVAS �� �� ][][ SExE Observação Importante: Para o cálculo do desvio-padrão amostral Para o cálculo do desvio-padrão amostral SS considera-se: considera-se: Seguido do fator de correção: Mas, pode-se usar simplesmente a equação: Contudo, se não for feita a correção ou simplesmente não usar n-1 , ocorrerá erro por tendenciosidade quando for usar S como estimador para a população, ou seja, a premissa para a não tendenciosidade não será mantida: AMOSTRAGEM 59 � � n xx S i� � � 2 1�n n � � 1 2 � � � � n xx S i ��][SE AMOSTRAGEM 60 Estimativa e Distribuição Amostral: A Estimativa compreende o valor numérico de uma estimador, podendo ser este, o desvio-padrão, a média, a variância, etc... A Distribuição Amostral, por sua vez, é fundamental para o processo de inferência ou indução estatística. Considere todas as possíveis amostras de tamanho n que podem ser extraídas de determinada população. Se para cada uma delas se calcular um valor do estimador, tem-se uma distribuição amostral desse estimador. Como o estimador é uma variável aleatória, pode-se determinar suas características, isto é, encontrar sua média, variância, desvio-padrão, etc... AMOSTRAGEM 61 Distribuição Amostral das Médias: Teorema 1:Teorema 1: A média da distribuição amostral das médias é igual àA média da distribuição amostral das médias é igual à média populacional.média populacional. Teorema 2:Teorema 2: Se a população é infinita, ou se a amostragem é comSe a população é infinita, ou se a amostragem é com reposição, então, o desvio-padrão da distribuição amostralreposição, então, o desvio-padrão da distribuição amostral das médias é dado por:das médias é dado por: Teorema 3:Teorema 3: Se a população é finita, ou se a amostragemé semSe a população é finita, ou se a amostragem é sem reposição, então, o desvio-padrão da distribuição amostralreposição, então, o desvio-padrão da distribuição amostral das médias é dado por:das médias é dado por: ��][xE n S �� 1� � � N nN n S � AMOSTRAGEM 62 Distribuição Amostral das Proporções: Teorema 1:Teorema 1: Para uma população infinita, em que a probabilidade doPara uma população infinita, em que a probabilidade do sucesso seja sucesso seja pp e, do fracasso seja e, do fracasso seja qq ( ( 1 - p1 - p ), a distribuição ), a distribuição amostral das proporções será dada por:amostral das proporções será dada por: Teorema 2:Teorema 2: Para uma população finita, cuja amostragem é obtida semPara uma população finita, cuja amostragem é obtida sem reposição, em que a probabilidade do sucesso seja reposição, em que a probabilidade do sucesso seja pp e, do e, do fracasso seja fracasso seja qq ( ( 1 - p1 - p ), a distribuição amostral das ), a distribuição amostral das proporções será dada por:proporções será dada por: n pqp �� �� npqnp �� �� AMOSTRAGEM 63 Dimensionamento da Amostra: Para o dimensionamento da amostra, deve-se considerarPara o dimensionamento da amostra, deve-se considerar dois fatores que determinarão a expressão matemática adois fatores que determinarão a expressão matemática a ser usada nos cálculos.ser usada nos cálculos. Os fatores são:Os fatores são: 1º - Nível de mensuração da variável: qualitativa ou1º - Nível de mensuração da variável: qualitativa ou quantitativa ( intervalar );quantitativa ( intervalar ); 2º - Tamanho da amostra: infinita ou finita. Nota-se, então, que poderão existir 4 casos em função do tipo de variável a ser estudada. Os casos são: � Variável intervalar e população infinita; � Variável intervalar e população finita; � Variável qualitativa e população infinita; � Variável qualitativa e população finita. AMOSTRAGEM 64 Dimensionamento da Amostra: 1º caso - Variável intervalar e população infinita1º caso - Variável intervalar e população infinita Onde: Z = abscissa da curva normal em função de um nível de confiança; � = Desvio-padrão da população, expresso na unidade da variável e, que pode ser determinado de pelo menos três formas: especificações técnicas, resgate de estudos semelhantes e conjeturas sobre possíveis valores; d = Erro amostral, expresso na unidade da variável, que compreende a máxima diferença que o investigador admite aceitar entre a verdadeira média populacional e a média amostral. 2 � � � � � � � � d Zn � dx ��� AMOSTRAGEM 65 Dimensionamento da Amostra: 2º caso - Variável intervalar e população finita2º caso - Variável intervalar e população finita Onde: Z = Abscissa da curva normal em função de um nível de confiança; � = Desvio-padrão da população, expresso na unidade da variável e, que pode ser determinado de pelo menos três formas: especificações técnicas, resgate de estudos semelhantes e conjeturas sobre possíveis valores; N = Tamanho da população; d = Erro amostral, expresso na unidade da variável, que compreende a máxima diferença que o investigador admite aceitar entre a verdadeira média populacional e a média amostral. 222 22 )1( � � ��� �� � ZNd NZn dx ��� AMOSTRAGEM 66 Dimensionamento da Amostra: 3º caso - Variável qualitativa e população infinita3º caso - Variável qualitativa e população infinita Onde: Z = Abscissa da curva normal em função de um nível de confiança; p[chapéu] = Estimativa da verdadeira proporção de um dos níveis da variável escolhida. Deve ser expresso em decimais; q[chapéu] = 1 - p[chapéu] d = Erro amostral, expresso em decimais. Compreende a máxima diferença que o investigador admite aceitar entre a verdadeira proporção da população ( p ) e a proporção das amostras ( p[chapéu] ). 2 2 ˆˆ d qpZn ��� dpp �� ˆ AMOSTRAGEM 67 Dimensionamento da Amostra: 4º caso - Variável qualitativa e população finita4º caso - Variável qualitativa e população finita Onde: Z = Abscissa da curva normal em função de um nível de confiança; p[chapéu] = Estimativa da verdadeira proporção de um dos níveis da variável escolhida. Deve ser expresso em decimais; q[chapéu] = 1 - p[chapéu] ; N = Tamanho da população; d = Erro amostral, expresso em decimais. Compreende a máxima diferença que o investigador admite aceitar entre a verdadeira proporção da população ( p ) e a proporção das amostras ( p[chapéu] ). qpZNd NqpZn ˆˆ)1( ˆˆ 22 2 ���� ��� � dpp �� ˆ AMOSTRAGEM 68 Composição da Amostra: Basicamente, existem dois métodos para composição da amostra: • Método Probabilístico: Este método exige que cada elemento da população possua determinada probabilidade ( normalmente iguais ) de ser selecionado. Somente com base em amostragens probabilísticas é que se podem realizar inferências ou induções sobre a população a partir do conhecimento da amostra; • Método Não probabilístico ou Intencional: São amostragens em que há uma escolha deliberada dos elementos da amostra. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não-probabilísticas não garantem a representatividade da população. AMOSTRAGEM 69 Composição da Amostra: Os Métodos Probabilísticos são subdivididos em quatro processos: 1º - Amostragem aleatória simples; 2º - Amostragem sistemática; 3º - Amostragem estratificada; 4º - Amostragem por conglomerados ( agrupamentos ). Os Métodos Não probabilísticos ou Intencionais, por sua vez, são subdivididos em três processos: 1º - Amostragem acidental; 2º - Amostragem intencional; 3º - Amostragem por quotas. A seguir, são caracterizados cada um dos processos acima descritos. AMOSTRAGEM 70 Composição da Amostra: 1º Método Probabilístico: Amostragem aleatória simples - Processo mais elementar e freqüentemente utilizado; - Atribui-se a cada elemento da população um número distinto, caso os elementos já não os possua. São efetuados sucessivos sorteios até completar o tamanho da amostra, previamente determinado; - Para a realização dos sorteios, utilizam-se tábuas de números aleatórios, que consistem em tabelas que apresentam seqüências dos dígitos de 0 a 9 distribuídos aleatoriamente; - Por exemplo, seja uma população finita de 1000 elementos, pode-se numerá-los de 000 a 999. Escolhe- se uma posição de qualquer linha da tabela de números aleatórios, faz-se o sorteio, ou seja, retiram-se conjuntos de três algarismos para se escolherem os elementos que irão compor a amostra. AMOSTRAGEM 71 Composição da Amostra: 2º Método Probabilístico: Amostragem sistemática - Variação da amostragem aleatória simples; - Conveniente quando a população está ordenada segundo algum critério, como fichas de um fichário, listas telefônicas, etc... - Calcula-se o intervalo da amostra N/n aproximando-o para um número inteiro mais próximo ( a ). Sorteia-se um número x entre 1 e ( a ), formando-se, assim, a amostra dos elementos correspondentes aos números seqüenciais: x ; x + a ; x + 2a ; x + 3a ; ... - Por exemplo, seja a populaçãocomposta de 1000 elementos e a amostra de 200 elementos. Logo: a = 1000 / 200 = 5 Se o número sorteado, de 1 a 5, for 3, os elementos da população numerados por 3, 8, 13, ... , 998 irão compor a amostra. AMOSTRAGEM 72 Composição da Amostra: 3º Método Probabilístico: Amostragem estratificada - Adotado em casos de população heterogênea, em que se podem distinguir subpopulações aproximadamente homogêneas, denominados estratos; - Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulação; - As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão, formação... Ou qualquer outro atributo que revele os estratos dentro da população. All Students Commuters Residents Sample AMOSTRAGEM 73 Composição da Amostra: 4º Método Probabilístico: Amostragem por conglomerados ( agrupamentos ) - Método adotado quando há extrema dificuldade em se identificar todos os elementos da população; - Consiste em identificar alguns subgrupos da população, realizar amostras aleatórias simples desses subgrupos ( conglomerados ou agrupamentos ) e , uma contagem completa para o conglomerado sorteado; - Exemplos típicos são quarteirões, famílias, organizações, agências, edifícios, etc... Companies (Clusters) Sample AMOSTRAGEM 74 Composição da Amostra: Métodos Não Probabilístico: 1º - Amostragem acidental: Trata-se de amostra formada por aqueles elementos que vão aparecendo até se compor o tamanho da amostra. Muito utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. 2º - Amostragem intencional: De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. Por exemplo, numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali estão. AMOSTRAGEM 75 Composição da Amostra: Métodos Não Probabilístico: 3º - Amostragem por quotas: Trata-se de um método bastante utilizado em levantamentos de mercado e em prévias eleitorais. Ele abrange três fases: • Classificação da população em termos de propriedades que se sabe, ou presume, serem relevantes para a característica a ser estudada; • Determinação da proporção da população para cada característica, com base na constituição da população; • Fixação de quotas para cada entrevistador a quem tocará a responsabilidade de selecionar interlocutores, de modo que a classe total observada ou entrevistada contenha a proporção de cada classe tal como determinado durante a etapa anterior ( classificação da população ). Trata-se de uma técnica para se fazer inferência estatística. A partir de um intervalo de confiança, construído com os elementos amostrais, pode-se inferir sobre um parâmetro populacional. O intervalo de confiança baseia-se na estimação. A partir da definição do estimador, define-se o intervalo que irá representar o fenômeno, atrelando-o a uma certa margem de confiança. A estimação pode ser pontual, quando o estimador é dado por um único valor ou, pode ser intervalar, quando o estimador é indicado por meio de um intervalo. INTERVALO DE CONFIANÇA 76 Estimação Estimativa Pontual Estimativa Intervalar Intervalo de Confiança Estimativa Intervalar O Intervalo de confiança ou Estimativa intervalar diferencia-se da Estimativa pontual na forma como se apresenta o Estimador. Na Estimativa pontual é calculado um único valor para o parâmetro populacional. Já no Intervalo de confiança busca-se um “ segmento “ ou intervalo ( x1 � ê � x2 ) que contenha o parâmetro desconhecido. Exemplo:Exemplo: Retira-se uma amostra de 500 brasileiros e calcula-se a média de suas alturas encontrando-se 1,66 m. Logo, uma estimativa pontual da verdadeira altura média ( � ) é dada pela média das amostras 1,66 m , desde que a amostra não seja tendenciosa. Já através do Intervalo de Confiança, poder-se-ia encontrar um intervalo, por exemplo ( 1,58 � � � 1,68 ) que, em 95% das vezes, incluiria � ( a verdadeira altura média dos brasileiros ). INTERVALO DE CONFIANÇA 77 Principais aplicações de Estimativa Intervalar: • Média: � Distribuição Normal ou Gauss ( n > 30 ); � Distribuição Student ( n � 30 ). • Proporção. INTERVALO DE CONFIANÇA 78 Distribuição Normal n > 30 Distribuição Student n � �30 Média Distribuição Normal n > 30 Proporção População Large Sample Small Sample Intervalo de Confiança para a Média: 1º Caso: Distribuição Normal ( large sample � n > 30 ) INTERVALO DE CONFIANÇA 79 90% Samples 95% Samples 99% Samples �+1.65��x �+2.58��x �x _ �X �+1.96��x �-2.58��x �-1.65��x �-1.96��x � �X�= � ± Z��x x x xx ZX ZErro ErroXZ XErro ErroX �� � �� � � � �� � � � � � �� )5( (4) (3) - (2) )1( INTERVALO DE CONFIANÇA 80 A expressão para o Intervalo de Confiança para as Médias é dada por: Obs.: Equação para populações infinitas. Se a população for finita, multiplicar o erro por: 1� � N nN n ZX n ZX ��� ������ 1. Dispersão dos dados: Mensurados por � 2. Tamanho da amostra: �X = � / �n 3. Intervalo de confiança: ���X - Z�X até�X + Z�X INTERVALO DE CONFIANÇA 81 Exemplo 1: Uma certa amostra de pão de tamanho n = 36 apresentou peso médio de 50g . Para uma margem de segurança de 95% , estime a média do peso da população � se � = 12. Exemplo 2: O � para garrafas de 2 litros de vinho é 0,05 litro. Uma amostra de 100 garrafas apresentou volume médio de 1.99 litros. Considerando 90% de confiança, estime o verdadeiro volume médio das garrafas. 2 liter2 liter 92.5308.46 92.350 36 1296.150 �� �� ������ � � � � n ZX 9982.19818.1 0082.099.1 100 05.0645.199.1 �� �� ������ � � � � n ZX INTERVALO DE CONFIANÇA 82 Intervalo de Confiança para a Média: 2º Caso: Distribuição Student ( small sample � n � 30 ). ( Gosset - início do séc. XX ) Considerações: • População normalmente distribuída; • Desvio padrão da população é desconhecido. Estimativa do Intervalo de confiança: Z t0 t (df = 5) Standard Normal t (df = 13) n StX n StX ������ � INTERVALO DE CONFIANÇA 83 Como consultar a tabela t Student: Exemplo 1: Uma amostra aleatória de tamanho n = 25 tem média 50 e desvio padrão 8. Para um intervalo de confiança de 95% , estime o valor da verdadeira média da população �. v t.10 t.05 t.025 1 3.078 6.314 12.706 2 1.886 2.920 4.303 3 1.638 2.353 3.182 v t.10 t.05 t.025 1 3.078 6.314 12.706 2 1.886 2.920 4.303 3 1.638 2.353 3.182 t0 t0 Assume: n = 3 df = n - 1 = 2 � = 0.10 �/2 = 0.05 2.920t values � / 2 0.05 3022.536978.46 3022.350 25 80639.250 �� �� ������ � � � n StX INTERVALO DE CONFIANÇA 84 Exemplo 2: Em testes dos 50 metros livres, um corredor obteve as seguintes marcas ( segundos ): 3.6 , 4.2 , 4.0 , 3.5 , 3.8 , 3.1. Qual a estimativa da média do corredor, considerando um intervalo de confiança de 90% ? • Média = 3.7 s • n = 6 • GL = 6 - 1 = 5• t = 2.0150 • S = 0.3899 0207.43793.3 3207.07.3 6 3899.00150.27.3 �� �� ������ � � � n StX INTERVALO DE CONFIANÇA 85 Intervalo de Confiança para a Proporção: Considerações: 1. Envolve variáveis qualitativas; 2. Fração ou % da população por categoria; 3. Proporção amostral ( p ): 4. Estimativa Intervalar ( Intervalo de confiança ): ^^ amostra da tamanho sucessos de númeroˆ �� n xp .0 .2 .4 .6 .8 1.0 P^ pP �ˆ� n qpzpp n qpzp ˆˆˆˆˆˆ �������� INTERVALO DE CONFIANÇA 86 Exemplo 1: Em uma consulta à 400 eleitores, 32 manifestaram intenção de votar num candidato X. Estime a proporção de votos deste candidato, considerando um intervalo de confiança de 95% e uma distribuição normal. Exemplo 2: Um diretor de produção de jornais deseja saber a proporção de jornais que apresentam defeitos. Após verificar aleatoriamente 200 jornais, ele verificou que 35 tinham defeitos. Estime a proporção da população que apresenta defeitos, considerando um intervalo de confiança de 90% . 1066.00534.0 0266.008.0 400 92.008.096.108.0 ˆˆˆ �� �� � ��� � ��� p p n qpZpp 2192.01308.0 0442.0175.0 200 825.0175.0645.1175.0 ˆˆˆ �� �� � ��� � ��� p p n qpZpp A hipótese estatística compreende uma suposição quanto ao valor de uma parâmetro populacional. São exemplos de hipóteses estatísticas: • A altura média de uma população é 1,65 m. H: � = 1,65 m • O desvio padrão dos salários de uma empresa é 200,00. H: � = 200,00 • A proporção de votos de um certo candidato é 45%. H: p = 45% Tipos de Hipóteses: Designa-se por H0 , chamada hipótese nula, a hipótese estatística a ser testada, e por H1 a hipótese alternativa. A hipótese nula expressa uma igualdade, enquanto a hipótese alternativa é dada por uma desigualdade. Ex.: H0: � = 1,65 m H1: � > 1,65 m TESTE DE HIPÓTESES 88 Trata-se de uma técnica para se fazer inferência estatística. A partir de um teste de hipóteses, realizado com os dados amostrais, pode-se inferir sobre a população. No caso das inferências através do Intervalo de Confiança, busca-se “cercar” o parâmetro populacional desconhecido. Aqui, formula-se uma hipótese quanto ao valor do parâmetro populacional, e pelos elementos amostrais faz-se um teste que indicará a aceitação ou rejeição da hipótese formulada. TESTE DE HIPÓTESES 87 População Amostra � � � �� � � �� �� �� �� Teste de hipótese é uma regra de decisão para aceitar ou rejeitar uma hipótese estatística com base nos elementos amostrais. Idéia Subjetiva do Teste de Hipóteses: Considere o julgamento de um réu. A priore, o réu é inocente até que se prove o contrário. Logo, a hipótese inicial ( inocência do réu ) pode anular a acusação, sendo então, do ponto de vista estatístico, chamada hipótese nula. A hipótese contrária, que visa provar a culpa do réu, é chamada de hipótese alternativa. • Hipótese Nula: H0: o réu é inocente • Hipótese Alternativa: H1: o réu é culpado Tipos de Erros: • Erro tipo I: Rejeição da hipótese nula H0 quando a mesma é verdadeira. • Erro tipo II: Aceitação da hipótese nula H0 quando a mesma é falsa. Obs.: O nível de significância de um teste ( � ) é a probabilidade de se cometer o erro tipo I. TESTE DE HIPÓTESES 89 Tipos de Teste de Hipóteses: Teste Unilateral Inferior Teste Unilateral Superior Teste Bilateral TESTE DE HIPÓTESES 90 Ho 1/2 � � Rejeição Rejeição Aceitação 1/2 Ho Rejeição Aceitação � Ho � Rejeição Aceitação Principais aplicações do Teste de Hipóteses: Equações estatísticas Normal: Student: Proporção: TESTE DE HIPÓTESES 91 Distribuição Normal n > 30 Distribuição Student n � �30 Média Distribuição Normal n > 30 Proporção População n XZ � �� � n S Xt ��� n qp ppZ � � � ˆ Etapas para realização dos Testes de Hipóteses: 1ª - Identificar Ho; 2ª - Identificar H1 ( atenção, pois H1 define o tipo de teste a ser empregado ); 3ª - Construir a região crítica para o teste escolhido; 4ª - Calcular o estimador e verificar se ele se situa na região de aceitação ou na região de rejeição da hipótese nula H0; 5ª - Decisão do teste: • Se o estimador estiver na região de aceitação, aceite H0; • Se o estimador estiver na região de rejeição, rejeite H0. TESTE DE HIPÓTESES 92 Ho Região de rejeição Região de aceitação Região de rejeição PontoPonto CríticoCrítico PontoPonto CríticoCrítico Exemplo 1: TESTE DE HIPÓTESES 93 Deseja-se averiguar se uma caixa de cereais contém 368 g do produto. Uma amostra aleatória de 36 caixas apresentou média de 372.5 g. Sabe-se que o desvio padrão vale 15 g. Teste o peso líquido da caixa de cereais ao nível de significância de 5%. H0: � = 368 H1: � � 368 � � 0.05 n � 36 Teste estatístico: Z0 1.96-1.96 .025 Reject H0 Reject H0 .025 Decisão: Aceita-se a hipótese nula H0. Conclusão: O peso líquido da caixa pode ser considerado igual a 368 g para � = 5%. 80.1 36 15 3685.372 �� � � � � n XZ � � 368 g368 g Exemplo 2: TESTE DE HIPÓTESES 94 Deseja-se averiguar se o pão caseiro de uma padaria pesa mais de 250 g. Uma amostra aleatória de 36 pães apresentou média de 254 g. Para um desvio padrão de 15 g, teste a possibilidade ao nível de significância de 5%. H0: � = 250 H1: � > 262 � � 0.05 n � 36 Teste estatístico: Decisão: Rejeita-se a hipótese nula H0. Conclusão: O peso do pão pode ser considerado superior que 250 g para � = 5%. 00.2 36 15 250255 �� � � � � n XZ � � Z0 1.645 .05 Reject Exemplo 3: TESTE DE HIPÓTESES 95 Um analista da Ford afirma que o consumo de combustível do modelo Escort é inferior a 10 Km/l. Modelos similares apresentam desvio padrão de consumo de 1.2 Km/l. Foi levantada uma amostra de 60 Escort’s e verificou-se uma média de 9.6 Km/l. Para um nível de significância de 1%, teste a afirmação do analista. Z0-2.33 .01 Reject H0: � = 10 H1: � < 10 � � 0.01 n � 60 Teste estatístico: Decisão: Rejeita-se a hipótese nula H0. Conclusão: O consumo do modelo Escort pode ser considerado menor que 10 Km/l para � = 1%. 58.2 60 2.1 106.9 �� � � � � n XZ � � Exemplo 4: TESTE DE HIPÓTESES 96 500 ml500 ml Uma fábrica de detergentes comercializa seu produto em frascos com volume de 500 ml. Uma amostra aleatória de 16 frascos apresentou um volume médio de 497.2 ml, com desvio padrão de 5 ml. Teste a produção desta fábrica ao nível de significância de 1%. Teste estatístico: Decisão: Aceita-se a hipótese nula H0. Conclusão: O volume do frasco de detergente pode ser considerado igual a 500 ml para � = 1%. 24.2 16 5 5002.497 �� � � � � n S Xt � H0: � = 500 H1: � � 500 � � 0.01 df � 16 - 1 = 15 t0 2.947-2.947 .005 Reject H0 Reject H0 .005 Exemplo 5: TESTE DE HIPÓTESES 97 A capacidade de um certo tipo de baterias é inferior a 140 ampere-hora? Uma amostra aleatória de 20 baterias apresentou médiade 138.47 com desvio padrão de 2.66. Assumindo distribuição normal, realize o teste ao nível de significância de 5%. Decisão: Rejeita-se a hipótese nula H0. Conclusão: A capacidade das baterias pode ser considerada inferior a 140 para � = 5%. H0: � = 140 H1: � < 140 � = 0.05 df = 20 - 1 = 19 57.2 20 66.2 14047.138 �� � � � � n S Xt � Teste estatístico: t0-1.729 .05 Reject Exemplo 6: TESTE DE HIPÓTESES 98 Pesquisa-se o preço médio de bichos de pelúcia. Foram coletadas 10 amostras similares e tomou-se os preços ( US$ ): 8 3 2 4 7 8 10 5 8 2. Para um nível de significância de 5%, existem evidências de que o preço médio dos bichos de pelúcia seja superior a US$ 5.00 ? Decisão: Aceita-se a hipótese nula H0. Conclusão: O preço médio dos bichos de pelúcia pode ser considerado US$ 5.00 para � = 5%. 77.0 10 87.2 0.57.5 �� � � � � n S Xt � Teste estatístico:H0: � = 5 H1: � > 5 � = 0.05 df = 10 - 1 = 9 t0 1.833 .05 Reject Exemplo 7: TESTE DE HIPÓTESES 99 Uma máquina produz caixas para cereais com índice de 10% de defeitos. Usando uma máquina mais moderna, foram coletadas 200 caixas, sendo 11 com defeitos. Teste, com 5% de significância, se a nova máquina apresenta menos defeitos. Decisão: Rejeita-se a hipótese nula H0. Conclusão: Existem evidências de que a máquina mais moderna apresente percentual de defeitos inferior a 10% para � = 5%. Teste estatístico:H0: p = 0.10 H1: p < 0.10 � = 0.05 n = 200 12.2 200 90.010.0 10.0 200 11 ˆ �� � � � � � � n qp ppZ Z0-1.645 .05 Reject Exemplo 8: TESTE DE HIPÓTESES 100 Uma auditoria detectou 4% de transações erradas em uma empresa. Após mudanças nos procedimentos, foram analisadas 500 transações, das quais 25 ainda apresentaram erros. Teste se houve alteração na proporção de erros, considerando 5% de significância? Decisão: Aceita-se a hipótese nula H0. Conclusão: Pode se considerar que o percentual de erros mantém-se em 4% para � = 5%. Teste estatístico:H0: p = 0.04 H1: p � 0.04 � = 0.05 n = 500 14.1 500 96.004.0 04.0 500 25 ˆ � � � � � � � n qp ppZ Z0 1.96-1.96 .025 Reject H0 Reject H0 .025 1 - Revisão de Geometria Analítica: O estudo da reta no R2: O conjunto R2 compreende todos os pares ordenados de números reais. Exemplo: ( 3 , 4 ) ; ( 4 , -5 ) ; ( -2 , 3 ) ; ( -4 , -2 ) ; ( 2 , 0 ) CORRELAÇÃO E REGRESSÃO 101 � � � � � )4,3( )5,4( � )3,2(� )2,4( �� x y )0,2( R}y e Rx|y){(x,R2 ��� Equação geral da reta: Dada uma reta r no plano cartesiano e supondo que r passe pelos pontos A(x1,y1) e B(x2,y2) sendo A � B , considera-se um ponto P(x,y) : Tem-se: O ponto P pertence à reta r se, e somente se, A, B e P forem colineares, isto é: CORRELAÇÃO E REGRESSÃO 102 � � � ),( 11 yxA ),( 22 yxB ),( yxP r x y )yy;x(xABAB )yy;x(xAPAP 1212 11 ����� ����� x-x1 y-y1 x2-x1 y2-y1 ���� 0∆rP 0� Desenvolvendo o determinante, encontra-se: CORRELAÇÃO E REGRESSÃO 103 0cbyax :será reta da geral equação a Logo, cyx-y xbx- xay-y :doConsideran 0)yxy(x)yx(x)xy(y 21122112 21122112 ��� ��� ������ 06-y2x será reta da equação a Logo, 06y-2x-041y-22x- 04)-1(y-1)-2(x-0 2- 1 4-y 1- x 0 4-2 1-2 4-y 1- x 0 y-y x- x y-y x- x :B(2,2) e A(1,4)por passa que reta da equação aObter :Exemplo 1212 11 �� ������ ��� ��� Condição para um ponto pertencer a uma reta: Dada uma reta de equação ax + by + c = 0 e um ponto P(x0,y0) , a condição para P pertencer a r é: ou seja, o par ( x0,y0) deve satisfazer à equação de r. CORRELAÇÃO E REGRESSÃO 104 a(x0) + b(y0) + c = 0 rQ0-26-(8)2(-2)6-)(y)2(x rP06-(-4)2(5)6-)(y)2(x :se- tem, Q(-2,8) e P(5,-4) pontos os e 06-y2x equação der reta a Dada :Exemplo QQ PP ������� ������ �� geral. equação à satisfaz (0,0) ponto o :origem pela passa reta a ), 0b e 0a ( 0c Caso )3º y eixor // xx0b :y eixo ao paralela é reta a ), 0a e ( 0b Caso )2º xeixor // yy0a : xeixo ao paralela é reta a ), 0b e ( 0a Caso )1º :Casos 12 12 ��� ���� �� ���� �� Equação reduzida e inclinação: Considera-se uma reta r: ax + by + c = 0 , onde b � 0. Nota-se que: CORRELAÇÃO E REGRESSÃO 105 qmxy :se-Tem q b cem b a :se-Fazendo b cx b aycaxby0cbyax �� ���� ����������� Equação reduzida da reta r 3qe 2 3-m:Onde 3 2 3x- y :logo 2 6 2 3x- y 6 3x - 2y 0 6 -2y 3x :assim obtida é reduzida equação a , 0 6 -2y 3x :r reta a Dada :Exemplo �� �� �������� �� Os Coeficientes na equação reduzida: Na equação reduzida y = mx + q , os coeficientes m e q são denominados, respectivamente, coeficiente angular e coeficiente linear da reta r. As suas interpretações geométricas são as seguintes: Coeficiente angular: m = tg � , onde � é o ângulo de inclinação da reta em relação ao eixo x. Coeficiente linear: q é a ordenada do ponto onde r corta o eixo y. Exemplo: A equação reduzida da reta r: y = x + 3 possui a seguinte representação gráfica: CORRELAÇÃO E REGRESSÃO 106 0 3�q 3- r ) ) 45ºα � 45ºα � x y 2 - Análise da Correlação e Regressão Simples: São exemplos da utilização desta análise: • Relação entre propaganda e vendas; • Relação entre taxa de juros e balança comercial; • Relação entre aluguel e idade de imóvel , etc. CORRELAÇÃO E REGRESSÃO 107 Compreende a análise de dados amostrais para identificar se e como duas variáveis estão relacionadas entre si numa determinada população. Sendo a relação entre variáveis de natureza quantitativa, a correlação é o instrumento adequado para descobrir e medir essa relação. Uma vez caracterizada a relação, procura- se descrevê-la através de uma função matemática. A regressão é o instrumento adequado para a determinação dos parâmetros dessa função. Objetivos da análise de Correlação e Regressão: • Avaliar se há ou não um relacionamento entre duas variáveis extraídas de uma população; • Caracterizar, quando houver, o grau de relacionamento (fraco ou forte) entre duas variáveis consideradas; • Predizer o valor de uma variável, variável dependente, dado que seja conhecido o valor de uma variável associada, variável independente. CORRELAÇÃO E REGRESSÃO 108 Os dois primeiros objetivos consistem no que se denomina Análise de Correlação, onde se procura identificar quais variáveis são potencialmente importantes na análise de um dado processo e o interesse está no grau do relacionamento. O terceiro objetivo compreende a Análise de Regressão, por apresentar como resultado a predição de valores de uma variável em função de valores de uma outra variável e, desta forma, requer o estabelecimento de uma equação matemática que expresse este relacionamento. 3 - Teoria da Correlação: 3.1 - Relação determinística e relação estatística: CORRELAÇÃO E REGRESSÃO 109 Relações determinísticas ou funcionais são aquelas em que suas variáveis satisfazem exatamente a uma determinada equação, formando uma correlação perfeita. Ex.: Leis da mecânica,fórmulas de área e volume, etc.. r π2C � Relações estatísticas ou probabilísticas são aquelas em que suas variáveis tendem, em menor ou maior grau, a se correlacionarem. Ex.: Peso e estatura, resistência e força, etc.. Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. Quando duas variáveis estão ligadas por uma relaçãoQuando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas.estatística, dizemos que existe correlação entre elas. 3.2 - Diagrama de dispersão: O diagrama de dispersão compreende a representação gráfica em um sistema coordenado cartesiano ortogonal dos pares ordenados ( x , y ) referentes as grandezas variáveis em análise, formando uma “ nuvem de pontos “. Exemplo: Considere a amostra aleatória de notas de dez alunos de uma faculdade nas disciplinas de matemática e estatística: Esse diagrama nos fornece uma idéia grosseira, porém útil da correlação existente entre as variáveis. CORRELAÇÃO E REGRESSÃO 110 Nº do notas aluno Matemática Estatística Xi Yi 1 5,0 6,0 8 8,0 9,0 24 7,0 8,0 38 10,0 10,0 44 6,0 5,0 58 7,0 7,0 59 9,0 8,0 72 3,0 4,0 80 8,0 6,0 92 2,0 2,0 NOTAS 0,0 2,0 4,0 6,0 8,0 10,0 0,0 2,0 4,0 6,0 8,0 10,0 3.3 - Correlação linear: A Correlação linear é caracterizada quando os pontos obtidos em um diagrama de dispersão, vistos em conjunto, formam uma elipse em diagonal. Quanto mais fina for a elipse, mais ela se aproximará de uma reta, sendo esta, a sua “ imagem “. É possível verificar que a cada correlação está associada como imagem uma relação funcional. Por esse motivo, as relações funcionais são chamadas relações perfeitas. No exemplo anterior, a reta imagem e respectiva equação que a representa é a seguinte: CORRELAÇÃO E REGRESSÃO 111 Nº do notas aluno Matemática Estatística Xi Yi 1 5,0 6,0 8 8,0 9,0 24 7,0 8,0 38 10,0 10,0 44 6,0 5,0 58 7,0 7,0 59 9,0 8,0 72 3,0 4,0 80 8,0 6,0 92 2,0 2,0 NOTAS y = 0,8632x + 0,8889 R2 = 0,8304 0,0 2,0 4,0 6,0 8,0 10,0 0,0 2,0 4,0 6,0 8,0 10,0 Assim, uma correlação é: • Linear positiva se os pontos do diagrama têm como imagem uma reta ascendente; • Linear negativa se os pontos têm como imagem uma reta descendente; • Não-linear se os pontos têm como imagem uma curva. Obs.: Se os pontos apresentam-se dispersos, não oferecendo uma imagem definida, concluímos que não há relação alguma entre as variáveis em estudo. CORRELAÇÃO E REGRESSÃO 112 CORRELAÇÃO LINEAR POSITIVA CORRELAÇÃO LINEAR NEGATIVA CORRELAÇÃO NÃO LINEAR NÃO HÁ CORRELAÇÃO 3.4 - Coeficiente de correlação linear ( r ): O instrumento empregado para a medida da correlação linear é o Coeficiente de correlação. Esse coeficiente indica o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação ( positivo ou negativo ). O coeficiente de correlação de Pearson ( r ) é dado por: onde: n é o número de observações. x é a variável independente. y é a variável dependente. Os valores limites de r são -1 e +1 , isto é, o valor de r pertence ao intervalo [ -1 , +1 ]. CORRELAÇÃO E REGRESSÃO 113 � �� � � � � �2222 yynxxn yxxyn r ��� � � �� �� � � Assim, para duas variáveis, conclui-se que: CORRELAÇÃO E REGRESSÃO 114 • Se a correlação é perfeita e positiva, então r = +1; • Se a correlação é perfeita e negativa, então r = -1; • Se não há correlação entre as variáveis, então r = 0. • Se a correlação é perfeita e positiva, então r = +1; • Se a correlação é perfeita e negativa, então r = -1; • Se não há correlação entre as variáveis, então r = 0. -1.0 +1.00 Correlação Positiva Perfeita Aumenta o grau de Correlação negativa -.5 +.5 Correlação Negativa Perfeita Sem Correlação Aumenta o grau de Correlação positiva r = 1 r = -1 r = .89 r = 0Y X Y X Y X Y X 1 - Para que uma relação possa ser descrita por meio do coeficiente de Pearson, é imprescindível que ela se aproxime de uma função linear. Na prática, verifica-se a linearidade da relação por meio da inspeção do diagrama de dispersão: se a elipse apresentar reentrâncias muito acentuadas, pode se tratar de correlação curvilínea. 2 - Para se firmar conclusões significativas sobre o comportamento simultâneo das variáveis analisadas, é necessário que 0,6 � | r | � 1,0. 3 - A correlação é relativamente fraca se 0,3 � | r | < 0,6. 4 - A correlação é muito fraca e, praticamente, não permite nenhuma conclusão se 0 < | r | < 0,3. CORRELAÇÃO E REGRESSÃO 115 Considerações importantes: Exemplo 1: Considerando a nota de dez alunos nas disciplinas de matemática e estatística, calcular o coeficiente de correlação: CORRELAÇÃO E REGRESSÃO 116 notas Matemática Estatística xy x2 y2 x y 5,0 6,0 30 25 36 8,0 9,0 72 64 81 7,0 8,0 56 49 64 10,0 10,0 100 100 100 6,0 5,0 30 36 25 7,0 7,0 49 49 49 9,0 8,0 72 81 64 3,0 4,0 12 9 16 8,0 6,0 48 64 36 2,0 2,0 4 4 4 65,0 65,0 473 481 475 NOTAS y = 0,8632x + 0,8889 0,0 2,0 4,0 6,0 8,0 10,0 0,0 2,0 4,0 6,0 8,0 10,0 � �� � � � � � 0,911r 554,19 505 525585 505r 4225-47504225-4810 4225-4730r 65-4751065-48110 6565-47310r yynxxn yxxyn r 22 2222 � �� � �� �� � �� � � ��� � � �� Logo, a correlação é linear positiva e muito significativa 3.5 - Coeficiente de determinação ( ) : CORRELAÇÃO E REGRESSÃO 117 2r Y X �Y Xi (Yi -�Y) desvio total (Yi -�Yi) - desvio não explicado ^ (Yi -�Y) desvio explicado ^ Yi Yˆ - Y explicado não desvio O - Y - Yˆ explicado desvio O - Y-Y totaldesvio O - :se- tem, Y seja Y de amostrais valoresdos média a que , e ) regressão de equação pela obtido ( Y de predito valor o como Yˆ doConsideran variável.outra qualquer de valor do toconhecimen o sem estimada é Y variáveluma onde acima, esquema o Supondo ii i i i � � � De posse dos desvios , obtêm-se as variações: CORRELAÇÃO E REGRESSÃO 118 � � � � � � y. depreditor bom um será ela que indicando , reta da tornoem dados dos dispersão pequena uma indica um de próximo r y. depreditor bom um será não ela e,conseguintpor e, regressão de reta da tornoem dados dos dispersão grande uma indica zero de próximo r :Conclusões 1 r 0 :que se-observa modo, Deste regressão. de reta da tornoem dados dos dispersão a indica , e correlação de ecoeficient do drado -qua o é ãodeterminaç de ecoeficient o , enteAnaliticam totalVariação explicada Variação r :compreende ãoDeterminaç de eCoeficient o Logo, Yˆ - Y explicada não A variação - Y - Yˆ explicada A variação - Y-Y totalA variação - 2 2 2 2 2 ii 2 i 2 i � � �� � � � � � � � CORRELAÇÃO E REGRESSÃO 119 1 - O Coeficiente de determinação R2 é o valor da variação de Y que é explicada pela reta de regressão. 2 - A parcela ( 1 - R2 ) é o valor da variação total não explicada por Y. 3 - Representações gráficas de R2: Considerações importantes: r2 = 1 r2 = 1 r2 = .8 r2 = 0Y X Y X Y X Y X Exemplo 2: CORRELAÇÃO E REGRESSÃO 120 Você é analista de mercado de uma fábrica de brinquedos
Compartilhar