Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade 3: Análise exploratória e relação entre variáveis 3.1 Primeiras Palavras Aprendemos nas unidades anteriores a coletar os dados e analisá-los. Coletados os dados, o próximo passo é analisá-los de modo a extrair informações relevantes sobre o problema em análise. Vimos que a habilidade de observar aspectos relevantes de um conjunto de dados coletados pode ter um peso significativo no desenvolvimento da carreira profissional. Identificar dados que se destacam do conjunto, fazer comparações (contrastar), indicar tendências e relações entre variáveis é o que se espera de uma boa análise. Nesta unidade, você aprenderá a estabelecer dependência entre variáveis. Para melhor entender o propósito de se estabelecer relações entre as variáveis, reveja o problema dos pardais, exemplo 4, que, com base em cinco variáveis da estrutura física dos pássaros, verifica-se se elas têm influência na resistência física dos pardais após passarem por uma forte tempestade. 3.2 Problematizando o tema Você certamente irá se deparar ao longo de sua carreira profissional com problemas que demandarão a análise de uma massa de dados. Novamente, a capacidade de análise é fundamental para identificar problemas, bem como suas causas e verificar o sucesso ou não das ações instrumentalizadas. Como já mencionado na Unidade 2, do ponto de vista industrial, há dois tipos de problemas. O primeiro tipo é uma fuga do padrão, ou, dito de outra forma, é quando um produto ou processo repentinamente passa a não ter o desempenho passado (histórico). É dito, nesse caso, que o processo saiu do controle. Nesse momento, cabe ao técnico identificar a causa e restabelecer o status quo, ou seja, voltar o processo ao padrão de desempenho anterior. Muitas das causas dos problemas de processos saírem do controle podem estar relacionadas a mais de uma característica de qualidade ou variável. Estabelecer relações entre variáveis permite ao engenheiro ou técnico reduzir custos de ensaios de medições, principalmente quando esses são ensaios destrutivos. Por exemplo, em um processo industrial, pode ocorrer de várias características de um produto estarem associadas. Um exemplo específico de duas características associadas de um componente de borracha utilizado em veículos é: a dureza superficial e a sua medida de elasticidade. Há vários métodos de medidas de dureza que podem ser utilizados, dependendo do material. O método Brinell é um método de medição da dureza utilizado principalmente nos materiais metálicos. O método Shore é utilizado na medição da dureza de materiais políméricos, elastômeros e borracha. A elasticidade é uma medida realizada com equipamentos específicos e o resultado é dado em porcentagem. Essas medidas são dependentes quando se avalia os produtos. Conhecer o grau de associação entre variáveis de produtos e processo auxiliará o engenheiro e técnicos em ações de controle e melhoria de processos. Esse assunto, associações entre variáveis ou características de um processo ou produto, é o tema desta unidade. 3.3 Análise gráfica da relação entre duas variáveis Há três situações com relação a associação entre duas variáveis: • Relação positiva; • Relação negativa; • Não há relação entre as variáveis. Tomemos as variáveis X1 e X2 das dimensões físicas dos pardais mostradas no caso 1 da Unidade 2. Intuitivamente associamos medidas físicas, tais como altura e peso. O caso dos pardais tem a mesma intuição. Para testá-la, vamos fazer um gráfico de dispersão, mostrado na figura 3.1, onde X1 - comprimento total, e X2 - extensão alar. Figura 3.1: Relação entre as variáveis X1 e X2 do caso dos pardais, da unidade 2. Observe na figura 3.1 que há uma associação entre as duas medidas do corpo de um pardal: quanto maior o comprimento total de um pardal, maior o comprimento alar. Podemos associar esse resultado às variáveis de processo, tais como temperatura e viscosidade de um fluído. O mesmo pode ser feito para produtos: quanto maior a dureza de um fundido, maior a resistência à tração. A figura 3.1 mostra uma relação positiva, mas há casos onde a relação é negativa. Para exemplificar, observe a figura 3.2. A medida que aumenta a variável na abscissa (eixo x), o valor da outra variável na ordenada (eixo y) diminui. Dizemos então que as variáveis são inversamente proporcionais. Quando se observa associações entre variáveis passamos a tratar de um problema estatístico multivariado, de acordo com a classificação mostrada na unidade 1. Outro aspecto associado à relação entre variáveis é que quando isso ocorre, dizemos que as variáveis são dependentes. Se nós dermos a probabilidade de ocorrência de 225,00 230,00 235,00 240,00 245,00 250,00 255,00 150,00 155,00 160,00 165,00 170,00 Relação entre X1 e X2 um dado valor de X, a probabilidade de Y se restringe, ou seja, fica condicionada ao valor de X. Assim, usaremos a notação ���|��� para determinar a probabilidade de ocorrer Y dado que � = ��. Figura 3.2: Relação negativa entre duas variáveis quaisquer. Assim, se o comprimento alar estiver entre 158 a 160 cm, uma estimativa é que o comprimento total estaria entre 241 a 244 cm. Chegamos a essa conclusão através da figura 3.3, a qual reproduz a figura 3.1 com uma reta arbitrária mostrando a tendência da relação entre as variáveis. Pode não haver relação entre as variáveis. Nesse caso não é possível fazer estimativas de uma das variáveis a partir da outra, como mostra a figura 3.4. Quando não há relação entre duas variáveis aleatórias, dizemos que elas são independentes. Caso haja relação, dizemos que elas são dependentes. A figura 3.4 mostra que altura e espessura, medidas de um produto, são independentes. 16,50 17,00 17,50 18,00 18,50 19,00 19,50 20,00 29,00 30,00 31,00 32,00 33,00 34,00 Relação Figura 3.3: A relação entre duas variáveis aleatórias. Figura 3.4: Variáveis não relacionadas. 3.4 Covariância e coeficiente de correlação dados Uma medida comum da relação entre duas é a covariância. A covariância é definida para variáveis aleatórias quantitativas contínuas e discretas, e é denotada por ���, �� ou ��. A covariância de duas variáveis aleatórias X e Y é definida como: 9,50 9,52 9,54 9,56 9,58 9,60 9,62 9,64 9,66 9,68 9,70 17,00 18,00 19,00 20,00 Altura x Espessura : A relação entre duas variáveis aleatórias. 4: Variáveis não relacionadas. Covariância e coeficiente de correlação amostral de Uma medida comum da relação entre duas variáveis aleatórias A covariância é definida para variáveis aleatórias quantitativas contínuas e discretas, e é denotada por . A covariância de duas variáveis aleatórias X e 21,00 22,00 Altura x Espessura ���, �� = ���� − ����� − ���� (1), onde ���� − ����� − ���� denota uma esperança matemática. Isso significa que X e Y têm uma tendência positiva ou negativa. Assim, Y tenderá a ter valores acima da média ��, quando X tiver um valor acima da média ��, e o mesmo ocorrendo para valores negativos (Y será negativo quando X for negativo) o que resultará em uma relação positiva entre as duas variáveis. Agora as relações forem inversas, a relação será negativa. Deste modo, quando X estiver acima da média, Y estará abaixo da média. Quando não houver dependência entre as variáveis X e Y, a covariância será Zero. A covariância populacional é dada por: ���, �� = �� = �� ∑ ��� − ������ ���� − ��� (2), onde N é o tamanho da população. Como, em geral, trabalhamos com amostras, a covariância amostral é dada por: ��� = �� ∑ ��� − �̅���� ���� − � � (3), Onde ! é o tamanho da amostra, e as médias populacionaissão substituídas pelas médias amostrais. A covariância é uma medida da relação linear (reta) entre duas variáveis. Uma dificuldade desta medida é que ela não pode ser comparável por razões de magnitude das escalas de medida, pois quanto maior a escala de medida, maior será a covariância. Outra medida adimensional mais utilizada para a relação entre duas variáveis é o coeficiente de correlação. A correlação populacional entre duas variáveis X e Y é dada por: "�� = #$%�&,'�()���)��� = *+, *+*, (4), onde V(X) e V(Y) são as variâncias e � - � são os desvios padrões populacionais das variáveis X e Y. A covariância amostral é da por: . = /+,0+ 0, (5), Distribuição Bivariada Uma maneira de mostrar a importância da covariância e do coeficiente de correlação e, por conseguinte, aprendermos a calcular esses coeficientes, é introduzirmos nesse ponto a idéia de distribuição bivariada. Quando falamos de análise bivariada, estamos a analisar a relação conjunta entre duas variáveis X e Y. A relação entre X e Y pode ser descrita pela probabilidade conjunta de todos os possíveis resultados de X e Y. A função densidade conjunta é denomina de 1��, ��. Uma discreta distribuição de probabilidade conjunta é descrita na tabela 3.1. A coluna total e linha total fornecem a densidade de probabilidade marginal de X e Y. Tabela 3.1: Distribuição de probabilidade bivariada. X\Y 1 2 ... c Total 1 1���, ��� 1���, �3� ... 1���, �#� 1����� 2 1��3, ��� 1��3, �3� ... 1��3, �#� 1���3� . . . . . . b 1��4 , ��� 1��4 , �3� ... 1��4 , �#� 1���4� Total 1����� 1���3� ... 1���#� 1 Exemplo: A tabela 3.2 ilustrará a aplicação do conceito de distribuição de probabilidade conjunta entre duas variáveis. Esse exemplo nos mostrará o conceito de dependência entre duas variáveis e utilizaremos do conhecimento sobre covariância para compreendermos o processo em análise. O exemplo da tabela 3.2 é hipotético. Imagine um tanque utilizado no tratamento superficial de peças que serão utilizadas em automóveis. Lotes de 1000 peças, em média, são colocados nesse tanque e, por meio de um processo eletroquímico, são depositadas camadas de óxidos na superfície das peças. A espessura da camada eletroquímica depositada é medida e as peças não conformes são descartadas. Ignorando-se a profundidade do tanque, deseja- se saber se há diferentes níveis de rejeição na área do tanque. Para verificar se de fato isso ocorre, o tanque foi dividido em partes de tamanho igual, e foi verificada após certo período a quantidade de peças rejeitadas. Esse resultado é mostrado na tabela 3.3. As variáveis X e Y indicam os lados do tanque. Em termos estatísticos, o objetivo é verificar se há relação entre X e Y. Tabela 3.2: Ocorrência de peças defeituosas em um tanque eletroquímico. X\Y 1 2 3 4 Total 1 0 1 4 3 8 2 1 3 2 3 9 3 2 3 5 6 16 4 2 3 6 6 17 Total 5 10 17 18 50 Para melhor compreensão das variáveis X e Y retornemos a unidade 1, onde representamos a coleta dos dados em uma matriz. A tabela 3.3 reproduz, parcialmente, no formato de uma matriz, os 50 produtos defeituosos da tabela 3.2 Tabela 3.3: Representação dos 50 produtos não conformes em relação às variáveis X e Y. Peça defeituosa Posição em X Posição em Y 1 1 2 2 2 4 3 4 2 4 3 1 5 2 4 6 4 3 . . . 50 2 3 A incidência de problemas de qualidade é avaliada em termos de X e Y. Portando, X e Y têm uma média e variância. Você irá observar que a incidência de defeitos varia mais em X do que em Y e que a média em X é um pouco menor do que em Y. Todas essas informações serão detalhadas na tabela 3.4. As figuras 3.5 e 3.6 indicam que as incidências de defeitos ocorrem com maior freqüência para valores altos de X e Y. A figura 3.5 mostra os pontos dispersos no espaço, enquanto que a figura 3.6 mostra os mesmos como uma superfície no espaço. Observe que as peças defeituosas variam nos eixos de X e de Y. 3D X e Y Figura 3.5: Dispersão dos defeitos em relação às variáveis X e Y. A tabela 3.4 mostra que, dado que ocorreu o defeito na peça, de qual área a peça foi fabricada. Assim, a probabilidade de um defeito ser proveniente da posição (1,2) no tanque é 0,02. Notação matemática: ��1,2� = 0,02. Para � = 1, ��� = 1� = 0,10, e para X=1, ��� = 1� = 0,16. Isso indica que a probabilidade do defeito ser proveniente da posição de Y=1 é de 0,10 e da posição de X=1, é de 0,16. Essas são probabilidades marginais. Superfície de X e Y > 6 < 5,75 < 4,75 < 3,75 < 2,75 < 1,75 < 0,75 < -0,25 < -1,25 Figura 3.6: Representação das variáveis X e Y em superfície. Tabela 3.4: Dado que a peça seja defeituosa, indica a probabilidade de ocorrer em uma dada área. X\Y 1 2 3 4 Total 1 0,00 0,02 0,08 0,06 0,16 2 0,02 0,06 0,04 0,06 0,18 3 0,04 0,06 0,10 0,12 0,32 4 0,04 0,06 0,12 0,12 0,34 Total 0,10 0,20 0,34 0,36 1,00 As médias amostrais de X e Y são as seguintes: �̂� = ���� = : ��1;� 4 ��� ����, �̂� = 1 × 0,16 + 2 × 0,18 + ⋯ + 4 × 0,34 = 2,84 �̂� = ���� = : �B1;� # ��� C�BD, �̂� = 1 × 0,10 + ⋯ + 4 × 0,36 = 2,96 Nas fórmulas acima, entram as freqüências relativas estimadas a partir dos dados coletados por um engenheiro ou técnico. Perceba que há deslocamento na média tanto em X como em Y da incidência de defeito. O que estamos dizendo com isso é que peças defeituosas ocorrem para maiores valores de X e Y. As variâncias amostrais de X e Y são as seguintes: F�3 = G��� = �H�3I − �̂�3 F�3 = 13 × 0,16 + 23 × 0,18 + ⋯ + 43 × 0,34 − 2,843 = 1,13 F�3 = G��� = �H�3I − �̂�3 F�3 = 13 × 0,10 + 23 × 0,20 + ⋯ + 43 × 0,36 − 2,963 = 0,96 Podemos calcular a covariância para verificar se há relação entre as variáveis. A covariância é dada por: ���, �� = F�� = �H��I − �̂��̂� Sendo que, �H��I = : : ���B # B�� 4 ��� 1���, �B� �H��I = �1��1��0,00� + �1��2��0,02� + ⋯ + �4��4��0,12� = 8,34 F�� = 8,34 − 2,96 × 2,84 = −0,066 Como a covariância é próxima de zero, isso indica que as variáveis X e Y são independentes, como se esperava, pois não há nenhuma ligação entre X e Y. O coeficiente de correlação permite uma análise mais fácil da relação entre as variáveis X e Y. " = �� J �3 �3 . = F�� J F�3 F�3 = −0,066√1,13 × 0,96 = −0,063 Como o coeficiente de correlação é um valor entre −1 ≤ . ≤ 1, podemos afirmar que não há evidência estatística de que há uma relação entre as variáveis X e Y. Combinação Linear É possível estimarmos a quantidade de peças defeituosas a partir dos dados do exemplo, aplicando propriedades da média (esperança matemática) e da variância. Quando as relações são lineares, a esperança matemática e a variância têm as seguintes propriedades: �HM� + N�I = M�H�I + N�H�I GHM� + N�I = M3GH�I + N3GH�I + 2MN O ���, �� onde M - N são constantes. Exemplo: Supondo que o engenheiro do processo decida triplicar as dimensões do tanque, em razão do aumento da demanda, e ele precise determinar a posição média de X e Y com base na incidência de peças defeituosas para fazer um planejamento da produção. Observe nas figuras 3.5 e 3.6 que a quantidade de peças defeituosas varia nos eixos de X e Y. Multiplicando por um fator três essas variáveis, teríamos as seguintes médias para as duas variáveis: �H3�I = 3�2,84� = 8,52 �H3�I = 3�2,96� = 8,88 A distribuição de defeitos terá sua média no novo tanque x=8,52 e y=8,88. Se pensarmos em termos de perímetro, a esperança da soma das variáveis será a soma da esperança matemática de X e Y, obtido como segue: ��� + �� = M���� + M���� ��� + �� = 8,52 + 8,88 = 17,40 A variância de X e Y para um fator multiplicadorde três será de: GH3�I = 33�1,14� = 10,21 GH3�I = 33�0,96� = 8,63 Como a covariância é zero, a variância total é a soma das variâncias: GH� + �I = GH�I + GH�I + 2O ���, �� GH� + �I = 1,13 + 0,96 = 2,09 Dos resultados acima, tiramos os seguintes axiomas: 1���, �B� ≥ 0, : : 1����, � # B�� 4 ��� � = 1, 1����, �� = ��� = �, � = ��. A soma da freqüência relativa dentro das células é maior ou igual a zero; a soma das freqüências relativas é 1, e a probabilidade de ocorrer um dado valor em uma célula é a probabilidade de ocorrer um dado �� e um dado �B. Outro resultado é que duas variáveis X e Y são independentes se a covariância dessas variáveis, ou coeficiente de correlação ", for igual a zero. Probabilidade Condicional Dado que uma peça defeituosa no tanque ocorreu em X=2, qual será a probabilidade de Y=4? 1�⋮���� = 1����, �� 1����T Para todo 1���� > 0. ��� = 2|� = 4� = ��� = 4, � = 2���� = 4� = 0,06 0,34 = 0,176 Dado que X=4 tenha ocorrido, a probabilidade de Y=2 é de 0,176. E de Y=4, qual seria a probabilidade? ��� = 4|� = 4� = V�&�W,'�W�V�&�W� = �,�3�,XW = 0,352. É razoável que a probabilidade de Y=4 seja maior que Y=2 quando X=4, caso haja dependência entre as variáveis. Como veremos, não é o caso. Independência de probabilidades Duas variáveis aleatórias são independentes quando o produto das probabilidades marginais são próximas da probabilidade conjunta. Se X e Y são estatisticamente independentes, a densidade conjunta é dada por: 1C�� , �BD = 1�����1���B� O produto das probabilidades marginais é dado na tabela 3.5. Observe que os dados da tabela 3.5 são muito próximos aos da tabela 3.4, indicando independência entre as variáveis X e Y. Tabela 3.5: Produto das probabilidades marginais. X\Y 1,00 2,00 3,00 4,00 Total 1,00 0,02 0,03 0,05 0,06 0,16 2,00 0,02 0,04 0,06 0,06 0,18 3,00 0,03 0,06 0,11 0,12 0,32 4,00 0,03 0,07 0,12 0,12 0,34 Total 0,10 0,20 0,34 0,36 1,00 3.5 Considerações finais Vários conceitos foram desenvolvidos nesta unidade. O conceito de independência entre duas variáveis, o de probabilidade condicional e medidas de associação entre variáveis. Você viu na figura 3.6 que a distribuição das variáveis X e Y tem um formato. Outro formato de curva é ilustrado na figura 3.7. Esta figura mostra a distribuição bivariada de X e Y, da mesma forma que a figura 3.6. Gráfico de Superfície > 4 < 3,25 < 2,25 < 1,25 < 0,25 < -0,75 Figura 3.7: Uma superfície de resposta de X e Y independentes. Gráfico de Contorno 5 4 3 2 1 0 -1 -2 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 X 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Y Figura 3.8: Gráfico de superfície dos dados da figura 3.7. Observe pela figura 3.8 que as variáveis aleatórias X e Y são independentes estatisticamente, pois uma não interfere na probabilidade da outra. 3.6 Leitura complementar Complemente o seu conhecimento sobre o assunto desta unidade, consultando as referências teóricas ou pesquisando na Internet. Após a leitura, tente explicar com suas palavras e exemplificando o que é independência estatística entre duas variáveis. Pesquise também a diferença entre covariância e independência entre duas variáveis. Tente, após a leitura desta unidade e das referências bibliográficas, explicar o que é combinação linear entre duas variáveis e dê exemplos.
Compartilhar