Buscar

3 - Análise exploratória e relação entre variáveis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Unidade 3: Análise exploratória e relação entre variáveis 
 
3.1 Primeiras Palavras 
Aprendemos nas unidades anteriores a coletar os dados e 
analisá-los. Coletados os dados, o próximo passo é analisá-los 
de modo a extrair informações relevantes sobre o problema em 
análise. Vimos que a habilidade de observar aspectos 
relevantes de um conjunto de dados coletados pode ter um 
peso significativo no desenvolvimento da carreira profissional. 
Identificar dados que se destacam do conjunto, fazer 
comparações (contrastar), indicar tendências e relações entre 
variáveis é o que se espera de uma boa análise. Nesta 
unidade, você aprenderá a estabelecer dependência entre 
variáveis. Para melhor entender o propósito de se estabelecer 
relações entre as variáveis, reveja o problema dos pardais, 
exemplo 4, que, com base em cinco variáveis da estrutura 
física dos pássaros, verifica-se se elas têm influência na 
resistência física dos pardais após passarem por uma forte 
tempestade. 
 
3.2 Problematizando o tema 
Você certamente irá se deparar ao longo de sua carreira 
profissional com problemas que demandarão a análise de uma 
massa de dados. Novamente, a capacidade de análise é 
fundamental para identificar problemas, bem como suas causas 
e verificar o sucesso ou não das ações instrumentalizadas. 
Como já mencionado na Unidade 2, do ponto de vista 
industrial, há dois tipos de problemas. O primeiro tipo é uma 
fuga do padrão, ou, dito de outra forma, é quando um produto 
ou processo repentinamente passa a não ter o desempenho 
passado (histórico). É dito, nesse caso, que o processo saiu do 
controle. Nesse momento, cabe ao técnico identificar a causa 
e restabelecer o status quo, ou seja, voltar o processo ao 
padrão de desempenho anterior. Muitas das causas dos 
problemas de processos saírem do controle podem estar 
relacionadas a mais de uma característica de qualidade ou 
variável. Estabelecer relações entre variáveis permite ao 
engenheiro ou técnico reduzir custos de ensaios de medições, 
principalmente quando esses são ensaios destrutivos. Por 
exemplo, em um processo industrial, pode ocorrer de várias 
características de um produto estarem associadas. Um 
exemplo específico de duas características associadas de um 
componente de borracha utilizado em veículos é: a dureza 
superficial e a sua medida de elasticidade. Há vários métodos 
de medidas de dureza que podem ser utilizados, dependendo 
do material. O método Brinell é um método de medição da 
dureza utilizado principalmente nos materiais metálicos. O 
método Shore é utilizado na medição da dureza de materiais 
políméricos, elastômeros e borracha. A elasticidade é uma 
medida realizada com equipamentos específicos e o resultado 
é dado em porcentagem. Essas medidas são dependentes 
quando se avalia os produtos. Conhecer o grau de associação 
entre variáveis de produtos e processo auxiliará o engenheiro e 
técnicos em ações de controle e melhoria de processos. 
Esse assunto, associações entre variáveis ou características de 
um processo ou produto, é o tema desta unidade. 
 
3.3 Análise gráfica da relação entre duas variáveis 
Há três situações com relação a associação entre duas 
variáveis: 
• Relação positiva; 
• Relação negativa; 
• Não há relação entre as variáveis. 
Tomemos as variáveis X1 e X2 das dimensões físicas dos 
pardais mostradas no caso 1 da Unidade 2. Intuitivamente 
associamos medidas físicas, tais como altura e peso. O caso 
dos pardais tem a mesma intuição. Para testá-la, vamos fazer 
um gráfico de dispersão, mostrado na figura 3.1, onde X1 - 
comprimento total, e X2 - extensão alar. 
 
Figura 3.1: Relação entre as variáveis X1 e X2 do caso dos 
pardais, da unidade 2. 
 
Observe na figura 3.1 que há uma associação entre as duas 
medidas do corpo de um pardal: quanto maior o comprimento 
total de um pardal, maior o comprimento alar. Podemos 
associar esse resultado às variáveis de processo, tais como 
temperatura e viscosidade de um fluído. O mesmo pode ser 
feito para produtos: quanto maior a dureza de um fundido, 
maior a resistência à tração. 
A figura 3.1 mostra uma relação positiva, mas há casos onde a 
relação é negativa. Para exemplificar, observe a figura 3.2. A 
medida que aumenta a variável na abscissa (eixo x), o valor da 
outra variável na ordenada (eixo y) diminui. Dizemos então que 
as variáveis são inversamente proporcionais. 
Quando se observa associações entre variáveis passamos a 
tratar de um problema estatístico multivariado, de acordo com a 
classificação mostrada na unidade 1. 
Outro aspecto associado à relação entre variáveis é que 
quando isso ocorre, dizemos que as variáveis são 
dependentes. Se nós dermos a probabilidade de ocorrência de 
225,00
230,00
235,00
240,00
245,00
250,00
255,00
150,00 155,00 160,00 165,00 170,00
Relação entre X1 e X2
um dado valor de X, a probabilidade de Y se restringe, ou seja, 
fica condicionada ao valor de X. Assim, usaremos a notação 
���|��� para determinar a probabilidade de ocorrer Y dado que 
� = ��. 
 
Figura 3.2: Relação negativa entre duas variáveis quaisquer. 
Assim, se o comprimento alar estiver entre 158 a 160 cm, uma 
estimativa é que o comprimento total estaria entre 241 a 244 
cm. Chegamos a essa conclusão através da figura 3.3, a qual 
reproduz a figura 3.1 com uma reta arbitrária mostrando a 
tendência da relação entre as variáveis. 
Pode não haver relação entre as variáveis. Nesse caso não é 
possível fazer estimativas de uma das variáveis a partir da 
outra, como mostra a figura 3.4. 
Quando não há relação entre duas variáveis aleatórias, 
dizemos que elas são independentes. Caso haja relação, 
dizemos que elas são dependentes. A figura 3.4 mostra que 
altura e espessura, medidas de um produto, são 
independentes. 
 
16,50
17,00
17,50
18,00
18,50
19,00
19,50
20,00
29,00 30,00 31,00 32,00 33,00 34,00
Relação
Figura 3.3: A relação entre duas variáveis aleatórias.
Figura 3.4: Variáveis não relacionadas.
 
3.4 Covariância e coeficiente de correlação
dados 
Uma medida comum da relação entre duas 
é a covariância. A covariância é definida para variáveis 
aleatórias quantitativas contínuas e discretas, e é denotada por 
	
���, �� ou 
��. A covariância de duas variáveis aleatórias X e 
Y é definida como: 
9,50
9,52
9,54
9,56
9,58
9,60
9,62
9,64
9,66
9,68
9,70
17,00 18,00 19,00 20,00
Altura x Espessura
 
: A relação entre duas variáveis aleatórias. 
 
4: Variáveis não relacionadas. 
Covariância e coeficiente de correlação amostral de 
Uma medida comum da relação entre duas variáveis aleatórias 
A covariância é definida para variáveis 
aleatórias quantitativas contínuas e discretas, e é denotada por 
. A covariância de duas variáveis aleatórias X e 
21,00 22,00
Altura x Espessura
	
���, �� = ���� − ����� − ���� (1), onde 
���� − ����� − ���� denota uma esperança matemática. 
Isso significa que X e Y têm uma tendência positiva ou 
negativa. Assim, Y tenderá a ter valores acima da média ��, 
quando X tiver um valor acima da média ��, e o mesmo 
ocorrendo para valores negativos (Y será negativo quando X 
for negativo) o que resultará em uma relação positiva entre as 
duas variáveis. Agora as relações forem inversas, a relação 
será negativa. Deste modo, quando X estiver acima da média, 
Y estará abaixo da média. 
Quando não houver dependência entre as variáveis X e Y, a 
covariância será Zero. 
A covariância populacional é dada por: 
	
���, �� = 
�� = �� ∑ ��� − ������ ���� − ��� (2), 
onde N é o tamanho da população. 
Como, em geral, trabalhamos com amostras, a covariância 
amostral é dada por: 
��� = �� ∑ ��� − �̅���� ���� − � � (3), 
Onde ! é o tamanho da amostra, e as médias populacionaissão substituídas pelas médias amostrais. 
A covariância é uma medida da relação linear (reta) entre duas 
variáveis. Uma dificuldade desta medida é que ela não pode 
ser comparável por razões de magnitude das escalas de 
medida, pois quanto maior a escala de medida, maior será a 
covariância. 
Outra medida adimensional mais utilizada para a relação entre 
duas variáveis é o coeficiente de correlação. A correlação 
populacional entre duas variáveis X e Y é dada por: 
"�� = #$%�&,'�()���)��� =
*+,
*+*, (4), onde 
V(X) e V(Y) são as variâncias e 
� - 
� são os desvios padrões 
populacionais das variáveis X e Y. 
A covariância amostral é da por: 
. = /+,0+ 0, (5), 
 
Distribuição Bivariada 
Uma maneira de mostrar a importância da covariância e do 
coeficiente de correlação e, por conseguinte, aprendermos a 
calcular esses coeficientes, é introduzirmos nesse ponto a idéia 
de distribuição bivariada. 
Quando falamos de análise bivariada, estamos a analisar a 
relação conjunta entre duas variáveis X e Y. A relação entre X 
e Y pode ser descrita pela probabilidade conjunta de todos os 
possíveis resultados de X e Y. A função densidade conjunta é 
denomina de 1��, ��. 
Uma discreta distribuição de probabilidade conjunta é descrita 
na tabela 3.1. A coluna total e linha total fornecem a densidade 
de probabilidade marginal de X e Y. 
Tabela 3.1: Distribuição de probabilidade bivariada. 
X\Y 1 2 ... c Total 
1 1���, ��� 1���, �3� ... 1���, �#� 1����� 
2 1��3, ��� 1��3, �3� ... 1��3, �#� 1���3� 
. . . . . . 
b 1��4 , ��� 1��4 , �3� ... 1��4 , �#� 1���4� 
Total 1����� 1���3� ... 1���#� 1 
 
Exemplo: A tabela 3.2 ilustrará a aplicação do conceito de 
distribuição de probabilidade conjunta entre duas variáveis. 
Esse exemplo nos mostrará o conceito de dependência entre 
duas variáveis e utilizaremos do conhecimento sobre 
covariância para compreendermos o processo em análise. 
O exemplo da tabela 3.2 é hipotético. Imagine um tanque 
utilizado no tratamento superficial de peças que serão 
utilizadas em automóveis. Lotes de 1000 peças, em média, são 
colocados nesse tanque e, por meio de um processo 
eletroquímico, são depositadas camadas de óxidos na 
superfície das peças. A espessura da camada eletroquímica 
depositada é medida e as peças não conformes são 
descartadas. Ignorando-se a profundidade do tanque, deseja-
se saber se há diferentes níveis de rejeição na área do tanque. 
Para verificar se de fato isso ocorre, o tanque foi dividido em 
partes de tamanho igual, e foi verificada após certo período a 
quantidade de peças rejeitadas. Esse resultado é mostrado na 
tabela 3.3. As variáveis X e Y indicam os lados do tanque. Em 
termos estatísticos, o objetivo é verificar se há relação entre X 
e Y. 
Tabela 3.2: Ocorrência de peças defeituosas em um tanque 
eletroquímico. 
X\Y 1 2 3 4 Total 
1 0 1 4 3 8 
2 1 3 2 3 9 
3 2 3 5 6 16 
4 2 3 6 6 17 
Total 5 10 17 18 50 
 
Para melhor compreensão das variáveis X e Y retornemos a 
unidade 1, onde representamos a coleta dos dados em uma 
matriz. A tabela 3.3 reproduz, parcialmente, no formato de uma 
matriz, os 50 produtos defeituosos da tabela 3.2 
Tabela 3.3: Representação dos 50 produtos não conformes em 
relação às variáveis X e Y. 
Peça defeituosa Posição em X Posição em Y 
1 1 2 
2 2 4 
3 4 2 
4 3 1 
5 2 4 
6 4 3 
. . . 
50 2 3 
 
A incidência de problemas de qualidade é avaliada em termos 
de X e Y. Portando, X e Y têm uma média e variância. Você irá 
observar que a incidência de defeitos varia mais em X do que 
em Y e que a média em X é um pouco menor do que em Y. 
Todas essas informações serão detalhadas na tabela 3.4. 
As figuras 3.5 e 3.6 indicam que as incidências de defeitos 
ocorrem com maior freqüência para valores altos de X e Y. A 
figura 3.5 mostra os pontos dispersos no espaço, enquanto que 
a figura 3.6 mostra os mesmos como uma superfície no 
espaço. Observe que as peças defeituosas variam nos eixos de 
X e de Y. 
3D X e Y
 
Figura 3.5: Dispersão dos defeitos em relação às variáveis X e 
Y. 
A tabela 3.4 mostra que, dado que ocorreu o defeito na peça, 
de qual área a peça foi fabricada. Assim, a probabilidade de 
um defeito ser proveniente da posição (1,2) no tanque é 0,02. 
Notação matemática: ��1,2� = 0,02. Para � = 1, ��� = 1� =
0,10, e para X=1, ��� = 1� = 0,16. Isso indica que a 
probabilidade do defeito ser proveniente da posição de Y=1 é 
de 0,10 e da posição de X=1, é de 0,16. Essas são 
probabilidades marginais. 
 
Superfície de X e Y
 > 6 
 < 5,75 
 < 4,75 
 < 3,75 
 < 2,75 
 < 1,75 
 < 0,75 
 < -0,25 
 < -1,25 
 
Figura 3.6: Representação das variáveis X e Y em superfície. 
Tabela 3.4: Dado que a peça seja defeituosa, indica a 
probabilidade de ocorrer em uma dada área. 
X\Y 1 2 3 4 Total 
1 0,00 0,02 0,08 0,06 0,16 
2 0,02 0,06 0,04 0,06 0,18 
3 0,04 0,06 0,10 0,12 0,32 
4 0,04 0,06 0,12 0,12 0,34 
Total 0,10 0,20 0,34 0,36 1,00 
 
As médias amostrais de X e Y são as seguintes: 
�̂� = ���� = : ��1;�
4
���
����, 
�̂� = 1 × 0,16 + 2 × 0,18 + ⋯ + 4 × 0,34 = 2,84 
�̂� = ���� = : �B1;�
#
���
C�BD, 
�̂� = 1 × 0,10 + ⋯ + 4 × 0,36 = 2,96 
Nas fórmulas acima, entram as freqüências relativas estimadas 
a partir dos dados coletados por um engenheiro ou técnico. 
Perceba que há deslocamento na média tanto em X como em 
Y da incidência de defeito. O que estamos dizendo com isso é 
que peças defeituosas ocorrem para maiores valores de X e Y. 
As variâncias amostrais de X e Y são as seguintes: 
F�3 = G��� = �H�3I − �̂�3 
F�3 = 13 × 0,16 + 23 × 0,18 + ⋯ + 43 × 0,34 − 2,843 = 1,13 
F�3 = G��� = �H�3I − �̂�3 
F�3 = 13 × 0,10 + 23 × 0,20 + ⋯ + 43 × 0,36 − 2,963 = 0,96 
Podemos calcular a covariância para verificar se há relação 
entre as variáveis. A covariância é dada por: 
	
���, �� = 
F�� = �H��I − �̂��̂� 
Sendo que, 
�H��I = : : ���B
#
B��
4
���
1���, �B� 
�H��I = �1��1��0,00� + �1��2��0,02� + ⋯ + �4��4��0,12� = 8,34 
F�� = 8,34 − 2,96 × 2,84 = −0,066 
Como a covariância é próxima de zero, isso indica que as 
variáveis X e Y são independentes, como se esperava, pois 
não há nenhuma ligação entre X e Y. 
O coeficiente de correlação permite uma análise mais fácil da 
relação entre as variáveis X e Y. 
" = 
��
J
�3
�3
 
. = 
F��
J
F�3
F�3
= −0,066√1,13 × 0,96 = −0,063 
Como o coeficiente de correlação é um valor entre −1 ≤ . ≤ 1, 
podemos afirmar que não há evidência estatística de que há 
uma relação entre as variáveis X e Y. 
 
Combinação Linear 
É possível estimarmos a quantidade de peças defeituosas a 
partir dos dados do exemplo, aplicando propriedades da média 
(esperança matemática) e da variância. 
Quando as relações são lineares, a esperança matemática e a 
variância têm as seguintes propriedades: 
�HM� + N�I = M�H�I + N�H�I 
GHM� + N�I = M3GH�I + N3GH�I + 2MN O
���, �� 
onde M - N são constantes. 
Exemplo: 
Supondo que o engenheiro do processo decida triplicar as 
dimensões do tanque, em razão do aumento da demanda, e 
ele precise determinar a posição média de X e Y com base na 
incidência de peças defeituosas para fazer um planejamento da 
produção. 
Observe nas figuras 3.5 e 3.6 que a quantidade de peças 
defeituosas varia nos eixos de X e Y. Multiplicando por um fator 
três essas variáveis, teríamos as seguintes médias para as 
duas variáveis: 
�H3�I = 3�2,84� = 8,52 
�H3�I = 3�2,96� = 8,88 
A distribuição de defeitos terá sua média no novo tanque 
x=8,52 e y=8,88. 
Se pensarmos em termos de perímetro, a esperança da soma 
das variáveis será a soma da esperança matemática de X e Y, 
obtido como segue: 
��� + �� = M���� + M���� 
��� + �� = 8,52 + 8,88 = 17,40 
A variância de X e Y para um fator multiplicadorde três será 
de: 
GH3�I = 33�1,14� = 10,21 
GH3�I = 33�0,96� = 8,63 
Como a covariância é zero, a variância total é a soma das 
variâncias: 
GH� + �I = GH�I + GH�I + 2O
���, �� 
GH� + �I = 1,13 + 0,96 = 2,09 
Dos resultados acima, tiramos os seguintes axiomas: 
1���, �B� ≥ 0, 
: : 1����, �
#
B��
4
���
� = 1, 
1����, �� = ��� = �, � = ��. 
A soma da freqüência relativa dentro das células é maior ou 
igual a zero; a soma das freqüências relativas é 1, e a 
probabilidade de ocorrer um dado valor em uma célula é a 
probabilidade de ocorrer um dado �� e um dado �B. 
Outro resultado é que duas variáveis X e Y são independentes 
se a covariância dessas variáveis, ou coeficiente de correlação 
", for igual a zero. 
 
Probabilidade Condicional 
Dado que uma peça defeituosa no tanque ocorreu em X=2, 
qual será a probabilidade de Y=4? 
1�⋮���� = 1����, �� 1����T 
Para todo 1���� > 0. 
��� = 2|� = 4� = ��� = 4, � = 2���� = 4� = 
0,06
0,34 = 0,176 
Dado que X=4 tenha ocorrido, a probabilidade de Y=2 é de 
0,176. E de Y=4, qual seria a probabilidade? 
��� = 4|� = 4� = V�&�W,'�W�V�&�W� = �,�3�,XW = 0,352. 
É razoável que a probabilidade de Y=4 seja maior que Y=2 
quando X=4, caso haja dependência entre as variáveis. Como 
veremos, não é o caso. 
 
Independência de probabilidades 
Duas variáveis aleatórias são independentes quando o produto 
das probabilidades marginais são próximas da probabilidade 
conjunta. 
Se X e Y são estatisticamente independentes, a densidade 
conjunta é dada por: 
1C�� , �BD = 1�����1���B� 
O produto das probabilidades marginais é dado na tabela 3.5. 
Observe que os dados da tabela 3.5 são muito próximos aos 
da tabela 3.4, indicando independência entre as variáveis X e 
Y. 
Tabela 3.5: Produto das probabilidades marginais. 
X\Y 1,00 2,00 3,00 4,00 Total 
1,00 0,02 0,03 0,05 0,06 0,16 
2,00 0,02 0,04 0,06 0,06 0,18 
3,00 0,03 0,06 0,11 0,12 0,32 
4,00 0,03 0,07 0,12 0,12 0,34 
Total 0,10 0,20 0,34 0,36 1,00 
 
3.5 Considerações finais 
Vários conceitos foram desenvolvidos nesta unidade. O 
conceito de independência entre duas variáveis, o de 
probabilidade condicional e medidas de associação entre 
variáveis. 
Você viu na figura 3.6 que a distribuição das variáveis X e Y 
tem um formato. Outro formato de curva é ilustrado na figura 
3.7. Esta figura mostra a distribuição bivariada de X e Y, da 
mesma forma que a figura 3.6. 
Gráfico de Superfície
 > 4 
 < 3,25 
 < 2,25 
 < 1,25 
 < 0,25 
 < -0,75 
 
Figura 3.7: Uma superfície de resposta de X e Y 
independentes. 
 
Gráfico de Contorno
 5 
 4 
 3 
 2 
 1 
 0 
 -1 
 -2 
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5
X
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
Y
 
Figura 3.8: Gráfico de superfície dos dados da figura 3.7. 
Observe pela figura 3.8 que as variáveis aleatórias X e Y são 
independentes estatisticamente, pois uma não interfere na 
probabilidade da outra. 
 
3.6 Leitura complementar 
Complemente o seu conhecimento sobre o assunto desta 
unidade, consultando as referências teóricas ou pesquisando 
na Internet. 
Após a leitura, tente explicar com suas palavras e 
exemplificando o que é independência estatística entre duas 
variáveis. Pesquise também a diferença entre covariância e 
independência entre duas variáveis. 
Tente, após a leitura desta unidade e das referências 
bibliográficas, explicar o que é combinação linear entre duas 
variáveis e dê exemplos.

Continue navegando