Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Rio Grande do Norte Centro de Tecnologia - CT Departamento de Engenharia de Produção ESTATÍSTICA PARA ENGENHARIA DE PRODUÇÃO Prof. Luciano Queiroz Natal/RN 31/03/14 Sumário Dados bivariados Introdução Nem todos os dados de uma amostra podem ser representados graficamente com uma variável. Para representar graficamente e descrever numericamente dados amostrais que envolviam duas variáveis emparelhadas, é necessário utilizar dados bivariados, que são os valores de duas variáveis diferentes obtidas de um mesmo elemento da população. Correlação Linear O principal objetivo da correlação linear é medir a intensidade de uma relação linear entre duas variáveis. O termo correlação significa relação em dois sentidos (co + relação), e é usado em estatística para designar a força que mantém unidos dois conjuntos de valores. A verificação da existência e do grau de relação entre as variáveis é o objeto de estudo da correlação. Correlação Linear Os pares de valores das duas variáveis poderão ser colocados num diagrama cartesiano chamado “diagrama de dispersão”. A vantagem de construir um diagrama de dispersão está em que, muitas vezes sua simples observação já nos dá uma idéia bastante boa de como as duas variáveis se relacionam. Correlação Linear Os diagramas de dispersões são os gráficos que demonstram as diferentes relações entre as variáveis de entrada ou independentes, x, e variáveis de saída, y. Se quando x aumenta não ocorre nenhuma mudança definida nos valores de y, dizemos que não há correlação ou nenhuma relação entre x e y. Se quando x aumenta ocorre mudança nos valores de y, dizemos que uma há correlação. A correlação é positiva quando y tende a crescer e negativa quando y tende a diminuir. Se os pares ordenados (x,y) tendem a seguir uma linha reta, há uma correlação linear. A precisão da mudança em y quando x aumenta determina a intensidade da correlação linear. Correlação Linear Correlação Linear Correlação não é o mesmo que causa e efeito. Duas variáveis podem estar altamente correlacionadas e, no entanto, não haver relação de causa e efeito entre elas. Se duas variáveis estiverem amarradas por uma relação de causa e efeito elas estarão, obrigatoriamente, correlacionadas. O estudo de correlação pressupõe que as variáveis X e Y tenham uma distribuição normal. A palavra simples que compõe o nome correlação linear simples, indica que estão envolvidas no cálculo somente duas variáveis. Correlação Linear Exemplo: Em uma relação de causa-efeito direta, o aumento (ou a diminuição) em uma variável provoca um aumente (ou diminuição) em outra. Suponha que exista uma forte correlação positiva entre peso e altura na sala. Um aumento no peso acarretaria um aumento na altura? Muitas outras variáveis estão envolvidas, como sexo, idade e tipo corporal. Essas outras variáveis são denominadas variáveis de confusão. Correlação Linear Conceito: VARIÁVEL DE CONFUSÃO: Variáveis que não estão incluídas em um estudo, mas que afeta as variáveis do estudo e faz parecer que essas variáveis estão correlacionadas. Coeficiente de Correlação Linear O coeficiente de correlação linear, r, é a medida numérica da intensidade da relação linear entre duas variáveis. O coeficiente reflete a consistência do efeito que a mudança em uma variável tem sobre a outra. O coeficiente é sempre um valor entre -1 e +1. Um valor igual a +1 significa uma correlação positiva perfeita, e -1 uma correlação negativa perfeita. Coeficiente de Correlação Linear Coeficiente de Correlação Linear O valor de r é definido pela fórmula: sx e sy representam o desvio padrão das varia ́veis x e y. Coeficiente de Correlação Linear Para calcular r, utilizamos uma fórmula alternativa que e ́ equivalente a ̀ fórmula apresentada. Como cálculos preliminares, vamos calcular separadamente três somas de quadrados e, em seguida, substituí-las na fórmula a seguir para obter r. Coeficiente de Correlação Linear Onde: Coeficiente de Correlação Linear Exemplo: Gabriel abriu uma academia na cidade de Natal e quer saber mais sobre o condicionamento físico dos seus alunos da academia. Para tanto, foi feita uma amostra com 10 alunos aleatoriamente e analisou-se o número de flexões e abdominais. Determine o valor do coeficiente de correlação linear entre o número de flexões e abdominais. Coeficiente de Correlação Linear Coeficiente de Determinação – R² Indica a proporção de variação da variável independente que é explicada pela variável dependente, ou seja, é uma ferramenta que avalia a qualidade do ajuste. Quanto mais próximo da unidade o R² estiver, melhor a qualidade do ajuste. O seu valor fornece a proporção da variável Y explicada pela variável X através da função ajustada. Exemplo: R² = (0,84)² = 0,7056 = 70,56 %. É a proporção que Y é explicada por X; ou seja; 70,56% da variação do número de abdominais é explicado pelo número de flexões. Regressão Linear Embora o coeficiente de correlação meça a intensidade de uma relação linear, ele não informa a relação matemática entre as duas variáveis. Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemática, através de uma função. A estimação dos parâmetros dessa função matemática é o objeto da regressão. Regressão Linear Vamos voltar ao exemplo da academia do Gabriel. Vimos que a correlação para flexões/abdominais era 0,84. Porém este coeficiente encontrado não ajuda a prever o número de abdominais que uma pessoa pode fazer com base na informação que ela pode fazer 28 flexões. A análise de regressão determina a equação da linha que melhor descreve a relação entre as duas variáveis. Um dos usos dessa equação é de fazer previsões. Geralmente, não é possível prever o valor exato de y e, normalmente, fica-se satisfeito se as previsões forem razoavelmente próximas. Linha de melhor ajuste Se um modelo de linha reta parece apropriado, a linha reta de melhor ajuste é determinada utilizando-se o método dos mínimos quadrados. Suponha que 𝑦 = b0 + b1x é a equação de uma linha reta, em que 𝑦 (leia-se “y-circunflexo”) representa o valor previsto de y que corresponde a um valor específico de x. O critério dos mínimos quadrados requer que determinemos as constantes b0 e b1, de forma que Ʃ(y – 𝑦)² seja a menor possível. Linha de melhor ajuste A Figura 3.7 mostra a distância entre um valor observado de y e um valor previsto de 𝑦. O comprimento dessa distância representa o valor (y – 𝑦) (mostrado como um segmento de linha vermelho na Figura). Observe que (y – 𝑦) é positivo quando o ponto (x, y) esta ́ acima da linha, e negativo quando (x, y) esta ́ abaixo dela. Linha de melhor ajuste A Figura 3.8 mostra um diagrama de dispersão com o que aparenta ser a linha de melhor ajuste, juntamente com dez valores (y – 𝑦) individuais. (Os valores positivos sa ̃o mostrados em vermelho e os negativos, em verde.) A soma dos quadrados dessas diferenças e ́ minimizada (reduzida o máximo possível) se a linha for realmente a linha de melhor ajuste. Linha de melhor ajuste A equação da linha de melhor ajuste e ́ determinada por sua inclinação (b1) e seu intercepto-y (b0). O valor das constantes – inclinação e intercepto-y – que satisfaz o critério dos mínimos quadrados é determinado utilizando-se as fórmulas apresentadas abaixo: Linha de melhor ajuste Agora vamos considerar novamente os dados de condicionamento físico dos alunos de Gabriel e a questão de prever o número de abdominais realizadas por um aluno com base em seu número de flexões. Queremos determinara linha de melhor ajuste, 𝑦 = b0 + b1x. Linha de melhor ajuste Linha de melhor ajuste Agora que conhecemos a equação da linha de melhor ajuste, vamos traçar a linha no diagrama de dispersão de forma que possamos visualizar a relação entre a linha e os dados. Precisamos de dois pontos para traçar a linha no diagrama. Selecione dois valores convenientes x, um próximo a cada extremo do domínio(x=10 e x=60 são boas escolhas para essa ilustração) e determine os valores de y correspondentes. Linha de melhor ajuste A inclinação, b1, representa a mudança prevista em y por aumento unitário em x. Em nosso exemplo, em que b1 = 0,66, se um aluno consegue fazer dez flexões adicionais (x), prevemos que ele seria capaz de fazer aproximadamente 7 (0,66 × 10) abdominais adicionais (y). O intercepto-y é o valor de y em que a linha de melhor ajuste intercepta o eixo y. (Quando a escala vertical esta ́ localizada acima de x = 0, o intercepto-y é facilmente visualizado no diagrama de dispersão, indicado por um + verde na Figura 3.10.) Linha de melhor ajuste Primeiro, entretanto, ao interpretar b0, é necessário considerar se x = 0 é um valor de x realista antes de concluir que se pode prever 𝑦 = b0, se x = 0. Provavelmente, é incorreto prever que, ainda que um aluno não tenha realizado nenhuma flexão, ele fará aproximadamente 15 abdominais. Ao prever o valor de y com base em um valor de x, certifique-se de que o valor de x está dentro do domínio dos valores observados. A linha de melhor ajuste sempre passará pelo centroide, o ponto ( 𝑥, 𝑦). Exemplo Em uma amostra aleatória de oito estudantes universitárias, foi perguntado a cada uma qual a sua altura (a medida mais próxima) e seu peso (com aproximação de 5 libras). Determine o coeficiente de correlação Determine uma equação para prever o peso de uma universitária com base em sua altura (equação da linha de melhor ajuste). Exemplo Exemplo Para traçar a linha de melhor ajuste no diagrama de dispersão, é necessário localizar dois pontos. Substitua dois valores de x – por exemplo, 60 e 70 – na equação, para que a linha de melhor ajuste obtenha dois valores correspondentes para 𝑦: Exercícios 1 - Como você interpretaria a conclusão apresentada por um estudo de correlação que fornecesse um coeficiente de correlação linear igual a 21,34? 2 – Telefones celulares e IPods são itens de necessidade para a geração atual. O uso de um indica o uso do outro? Sete alunos da turma que possuíam telefone celular e Ipod foram selecionados aleatoriamente, resultando nos dados a seguir: Determine r Exercícios 3 – Desenhe um diagrama de dispersão para esses dados: Seria justificável utilizar técnicas de regressão linear sobre esses dados para determiner a linha de melhor ajuste? Explique. Exercícios 4 - Foi realizado um estudo para investigar a relação entre o custo, y (em dezenas de milhares de dólares), por unidade de equipamentos fabricados e do numero de unidades produzidas por ciclo, x. A equação resultante para a linha de melhor ajuste foi 𝑦 = 7,31 – 0,01x, com x sendo observado para valores entre 10 e 200. Se um ciclo de produção foi programado para produzir 50 unidades, qual seria o custo por unidade que você iria prever? Resposta 1 - Impossível. O coeficiente de correlação deve ser um valor numérico entre -1 e +1. Deve ter ocorrido um erro de cálculo. 2 - Resposta 3 – 4 -
Compartilhar