Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 1 Introdução Modelo Científico: É uma representação lógica, um conjunto de mecanismos virtuais que permite a representação de um fenômeno. Modelo mecanístico: São aqueles construídos a partir do conhecimento físico básico em que relaciona as variáveis. Exemplos: corrente elétrica através de um fio de cobre (I = E/R) Corrente = voltagem/resistência Movimento linear: um veículo se movimentando em linha reta a velocidade constante (V= d/t) Modelo empírico: São aqueles que resultam da aplicação da experimentação e não do conhecimento científico teórico do fenômeno. Exemplos: determinação da massa molecular média Mn = f (V, C, T) Série de Taylor: Mn = β0 + β1 V + β2C + β3T + ε UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 2 Β’s – parâmetros desconhecidos ε é o termo adicionado ao modelo para considerar que os dados observados não seguem exatamente o modelo mecanicista. O que é Método Científico? É o conjunto de etapas ordenadamente dispostas a serem executadas na investigação de um fenômeno. Etapas: 1) Observação / Experimentação – Observação das órbitas dos planetas / Experimentação física com corpos 2) Análise 3) Hipóteses – Existe uma força regular e calculável de atração entre duas massas 4) Teste Experimental 5) Modelo – Lei da Gravitação F = g.m.n/d² 6) Generalização (lei) – Dois corpos se atraem em proporção direta às suas massas e inversa ao quadrado da distância entre si. Estatística É um conjunto de técnicas metódicas através das quais se pode uniformizar a coleta, organização, resumo, apresentação, descrição e análise de observações (dados), possibilitando conclusões válidas para a tomada de decisões. O termo também é usado para designar os próprios dados ou resultados deles derivados, tais como médias. Exemplo: estatística de empregos, de acidentes. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 3 O termo tratamento surgiu com a experimentação agrícola e servia para designar o que estava em comparação: fertilizantes, defensivos, variedades, etc. Hoje tem significado mais geral. A estatística pode ser dividida em duas classes: 1) Estatística descritiva São os procedimentos que visam à coleta, tabulação e descrição de conjuntos de observações que podem ser quantitativos ou qualitativos. 2) Estatística indutiva ou inferencial Constituem-se nos métodos de análise de observações que visam testar hipóteses experimentais e estimar características populacionais com base em uma amostra. Tipos: Estatísticas paramétricas e não-paramétricas Paramétricas: São aquelas que atendem a certos pressupostos como normalidade da distribuição e homogeneidade de variância dos dados. Não-Paramétricas: Também chamada de livre de distribuição e que não atende as técnicas paramétricas de análise. A principal desvantagem do procedimento não-paramétrico diz respeito ao menor poder das estatísticas comparado ao paramétrico. O poder de um teste representa a capacidade de rejeitar uma hipótese nula quando ela é falsa. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 4 População e amostra População ou universo: É o grupo completo de unidades elementares em estudo, por exemplo, objetos, indivíduos, etc... A população pode ser finita ou infinita. Finita: quantidade de indivíduos de uma cidade. Infinita: todos os resultados (cara ou coroa) em sucessivos lances de uma moeda. Amostra: É um subgrupo de unidades elementares selecionados numa população, isto é, uma pequena parte da população em análise. Uma amostra representativa tem as mesmas características da população de onde foi retirada. Amostra aleatória: é quando uma amostra de tamanho n retirada de uma população é uma das possíveis e igualmente prováveis combinações de n unidades elementares que podem ser retiradas de uma população. Formação de amostras aleatórias Consiste em atribuir um número a cada elemento da população, escrever esses números em pedaços de papel, colocá-los em uma urna e, após retirá-los dali, misturando-os bem antes de cada extração. Amostras com e sem reposição Quando o número extraído é reposto para novo sorteio ele pode ser mais de uma vez escolhido denomina-se amostragem com reposição e quando só pode aparecer uma vez chama-se amostragem sem reposição. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 5 Outro processo é o uso de tabelas de números aleatórios, especialmente construídos para essa finalidade. Quando usar amostragem: - Economia - Tempo - Confiabilidade dos dados - Operacionalidade Quando não é interessante usar amostragem: - População pequena - Característica de fácil mensuração - Necessidade alta precisão - Exercícios 1) Exercício: Estimar nº palavras do texto. 2) Exercício: Uso da tabela de nº aleatórios: altura dos alunos. A tabela é confeccionada por sucessivos sorteios. Não há uma forma específica para extração dos números da tabela. 1) Extrair uma amostra de tamanho cinco (n=5); 2) Tomar cinco nº aleatórios do conjunto de {01,02,03,04.....35} Os alunos associados a esses números formarão a amostra. Usa-se a primeira linha, por exemplo, excluindo- se os valores fora do conjunto e os que se repetirem. Tamanho de uma Amostra Aleatória Simples a) Desconhecendo N: no = 1/(Eo)2 N = tamanho da população n = tamanho da amostra UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 6 no = primeira aproximação para o tamanho da amostra Eo = erro amostral tolerável b) Conhecendo N: n = N x no/N + no Exemplos: 1) Em uma empresa que produz-se 4000 peças/dia. Deseja-se controlar a qualidade por inspeção visual. Quantas peças devem ser avaliadas com um erro amostral de 2,5 %? Resolução: no = 1/(0,025)2= 1.600 peças n = 4000 x 1600/4000 + 1600 = 1.143 2) Se a empresa reduzir a amostragem para 500 peças. Qual o tamanho do erro amostral? Resolução: 500 = 4000 x no /4000 + no 2000000 + 500 no = 4000 no 2000000 = 4000 no -500 no 2000000 = 3500 no no =571,43 571,43= 1/(E0)2= 1.600 peças E0 = 0,042 ou 4,2% Fontes de erros: - População acessível diferente da população alvo. - Erros de mensuração. - Falta de resposta. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 7 Variáveis Uma variável é um símbolo (A, X, x,) que pode representar uma propriedade ouatributo, assumindo um conjunto de valores chamado de domínio da variável. É uma característica da unidade elementar que pode ter valores diferentes entre as unidades medidas. Classificação das Variáveis No caso da variável assumir apenas um valor ela é chamada de constante. 1) Quantitativas (numérica): São aquelas medidas numa escala numérica. Podem ser: a) Variável discreta: É aquela que tem valor dentro de uma faixa finita (ou infinita contável). Exemplos: n◦ de toques no teclado, n◦ de peças defeituosas, quantidade de pessoas no planeta. b) Variável contínua: É aquela que pode assumir qualquer valor finito ou infinito entre dois dados. Exemplos: Temperatura, pressão, comprimento, peso, densidade, altura. 2) Qualitativas (categórica): São aquelas não numéricas. a) Nominais: Não possuem ordenamento nem hierarquia. Exemplo: tipo de processo, tipo de material. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 8 b) Ordinais: São semelhantes as nominais, porém incluem uma hierarquia. Exemplo: Grau – melhor, excelente ou intensidade – Muito, forte, etc... 3) Sequência temporal: São aquelas em que é considerado o fator tempo. a) Séries temporais: Quando é considerada a sequência temporal. Exemplo: n◦ de peças injetadas no dia, gasto de energia no mês. b) Variáveis cruzadas: Quando não é considerada a série temporal. Exemplo: Média de peças produzidas no mês por injetora. Variável aleatória: É uma função que atribui um número real para cada resultado no espaço amostral de um experimento aleatório. Modelo – Y = f.X Y =Variável Dependente X =Variável Independente f =Função = Parâmetros + Relacionamentos Internos do Modelo Científico Variáveis Independentes: São aquelas que se introduz intencionalmente para verificar-se a relação entre suas variações e o comportamento de outras variáveis, isto é, correspondem àquilo em função do qual se deseja conseguir realizar previsões e/ou obter resultados. São provocadas por ações do pesquisador quando da realização do experimento. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 9 Variáveis Resposta ou Dependentes: São aquelas cujo comportamento se quer verificar em função das oscilações das variáveis independentes, ou seja, correspondem àquilo que se deseja prever e/ou obter como resultado. Ocorrem em função da realização do experimento, sendo o resultado do mesmo. Variáveis Espúrias ou de Controle: São variáveis que não são diretamente objeto de estudo, porém também interferem na relação entre as variáveis independentes e as dependentes. São resultado de fenômenos ocasionais não previstos e interferem no resultado do experimento. Devem ser controladas (temperatura ambiente, umidade etc..). Variáveis Intervenientes: É o fator ou propriedade que, teoricamente, afeta o fenômeno observado. Esse fator, no entanto, ao contrário das outras variáveis, não pode ser manipulado ou medido. É um fator hipotético, teórico, não concreto. (KÖCHE, 2000) Escala de medição das variáveis a) Nominal: É a escala mais elementar de medida. As observações (dados) são agrupadas em categorias ou classes, sendo que os UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 10 valores para representar são arbitrários, não tendo significado numérico (apenas um rótulo). Exemplos: Variável Valores Processo 1,2, etc... Peça 1 ou A, etc... Membro do grupo 1 = experimental, 2 = placebo e 3 = rotina Gênero 1 = masculino, 2 = feminino b) Ordinal: As informações são codificadas conforme a posição que ocupam no conjunto de dados (postos) e os valores não são arbitrários e devem respeitar a hierarquia existente entre as categorias. A distância entre as categorias é desconhecida. Exemplos: Variável Valores Matéria-prima A = melhor, B = regular, C = ruim Processo 1 = alto desempenho, 2 = baixo desempenho Posição sócio-econômica 1 = baixo, 2 = médio e 3 = alto Escala de atitudes 1 = concorda plenamente, 2 = concorda, 3 = discorda, 4 = discorda completamente Obs.: Não se pode estabelecer relações do tipo adição, por exemplo. c) Intervalar: O valor zero é arbitrário e não representa a ausência da característica mensurada. A diferença entre duas medidas permite a UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 11 comparação, isto é, quanto uma medida avaliada é maior ou menor do que a outra. Podem ser continuas ou discretas. Exemplo: Medida de temperatura na escala Celsius. d) Razão: É a escala mais completa de mensuração porque possibilita todas as operações matemáticas na análise de dados. È semelhante a intervalar, porém o zero representa a característica avaliada. Exemplo: Escala de temperatura Kelvin, peso, pressão sanguínea. A escolha da escala determina os procedimentos matemáticos e o tipo de estatística a ser utilizada. Na escala nominal calcular o valor médio não tem significado algum sobre o conjunto de dados. Dependendo do número de variáveis simultaneamente analisadas pode- se ter os seguintes tipos de análises: 1) Análise univariada A variável é tratada isoladamente através da exploração detalhada das observações que visa, por exemplo, testar a normalidade da distribuição dos dados ou identificar valores discrepantes em relação ao conjunto observado. 2) Análise bivariada A análise visa observar a relação entre duas variáveis. Logo, é antecedida pela análise univariada. Exemplo: resistência a flexão entre uma peça moldada por injeção ou por compressão. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 12 3) Análise multivariada Visa estabelecer relações simultâneas entre mais de duas variáveis. Exemplo: Avaliação da resistência a flexão entre peças moldadas por processos diferentes e com alterações nos parâmetros. Arredondamento de dados Considera-se o seguinte procedimento para o arredondamento de dados: a) Quando o algarismo à direita do último dígito que se quer arredondar for inferior a 5, 50, 500..., apenas desprezam-se os demais dígitos à direita. Exemplos: 1) 72,43 = 72,4 2) 72,8146 = 72,81 b) Quando o algarismo à direita do último dígito for maior que 5, 50, 500..., adiciona-se uma unidade ao último dígito representado e desprezam-se os demais dígitos à direita. Exemplos: 1) 83,579 = 83,58 2) 4,18676 = 4,187 c) Quando o algarismo à direita do último dígito for 5, 50, 500...: - Adiciona-se uma unidade ao último dígito representado e desprezam-se os demais dígitos à direita, se esse dígito for originalmente ímpar. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 13 Exemplos:1) 14,15 = 14,2 2) 317,135 = 317,14 - Quando o último dígito for originalmente par ou zero desprezam-se os demais dígitos à direita. Exemplos: 1) 18,25 = 18,2 2) 317,005 = 317,00 3) 116.500.000 = 116.000.000 Notação Científica ou Notação Exponencial É empregada a potência de 10 (dez) para facilitar a escrita de números com muitos zeros, antes ou depois da vírgula. Exemplo: 1) 100 = 1 2) 101 = 10 3) 102 = 100 (10 x10) 4) 103 = 1000 (10 x10 x 10) 5) 10-1 = 0,1 6) 10-2 = 0,01 7) 10-6 = 0,000001 8) 31416 = 3,1416 x 104 9) 0,00000000000425 = 4,25 x 10-12 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 14 Algarismos significativos É todo conjunto de dígitos necessários para expressar uma medida de acordo com a precisão desejada. Exemplo: 1) 4,55 = 3 algarismos significativos 2) 4,5500 = 5 algarismos significativos 3) 0,00015 = 1,5 x 10-4 = 2 algarismos significativos 4) 0,0001500 = 1,500 x 10-4 = 4 algarismos significativos Os números que resultam de enumerações ou de contagens, ao contrário das medições, são exatos, logo tem uma quantidade ilimitada de algarismos significativos. EXATIDÃO (ACURÁCIA) DE MEDIÇÃO: Grau de concordância entre o resultado de uma medição e um valor verdadeiro do mensurando. PRECISÃO DE MEDIÇÃO: Grau de concordância entre resultados de medição obtidos sob as mesmas condições (repetitividade). O termo não está sendo mais usado em metrologia. Ambos os termos são um conceito qualitativo. Precisão instrumental: representa o número de dígitos após a vírgula. Exemplo: 8 ±1 mL (proveta graduada grande) 8,0 ± 0,1 mL (proveta graduada pequena) 8,00 ± 0,01 mL (bureta) Nos textos é comum escrever simplesmente: 8 ml; 8,0 mL; 8,00 mL, pois fica implícito que há uma incerteza de uma unidade no último dígito (1 mL; 0,1 mL; 0,01 mL). UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 15 O método pelo qual é indicado o grau de confiança numa medida é freqüentemente descrito em termos de algarismos significativos. Logo, em 8,00 mL há três algarismos significativos. Cada um dos três dígitos em 8,00 tem significado experimental. Assim há dois algarismos significativos em 8,0 mL e um algarismo significativo em 8 mL. Como se determina os algarismos significativos: 1) Todos os dígitos diferentes de zero são significativos. Há três algarismos significativos em 5,37cm e quatro em 4,293 cm. 2) Zeros entre dígitos diferentes de zero são significativos. Há três algarismos significativos em 106 g ou em 1,02 g. 3) Zeros além da vírgula decimal no final de um número são significativos. Como indicado acima, há dois algarismos significativos em 8,0 mL e três em 8,00 mL. 4) Zeros que precedem o primeiro dígito diferente de zero em um número não são significativos. Numa medida de massa de 0,002 g há apenas um algarismo significativo - o "2" no final. Os zeros servem apenas para fixar a posição da vírgula decimal, ficando evidenciado quando expressamos a massa com notação exponencial (científica), então tem-se: 0,002 g como 2 x 10-3 g. 5) Outros zeros a direita serão significativos dependendo do histórico do número. Cálculos para propagação da incerteza: A incerteza relativa do resultado não pode ser menor que a menor incerteza relativa dos dados. a) Adição ou subtração Exemplo: 5,852 + 45,3587 = 51,2107=51,211 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 16 b) Divisão e multiplicação Exemplo: Qual a molaridade de 25,0 mL de HCl 0,0887 molar, quando for diluído em um balão de 100mL, classe A. M1 V1 = M2 V2 M2 = 25 mL x 0,0887 mmol.mL-1 / 100,00mL M2 = 0,022175 Cálculo da incerteza relativa: IR = IA / VA, onde: IR = Incerteza relativa IA = Incerteza absoluta VA = Valor absoluto IR (25,0) = 0,1/ 25,0 = 0,004 x 103 = 4ppt (partes por mil) IR (0,0887) = 0,0001/ 0,0887 = 1,12ppt IR (100,00) = 0,01/ 100,00 = 0,1ppt Qual o valor para expressar resultado: M2 = 0,02 IR (0,02) = 500ppt M2 = 0,02217 IR (0,02217) = 0,45ppt M2 = 0,0222 IR (0,0222) = 4,5ppt M2 = 0,022175 IR (0,022175) = 0,045ppt – esta incerteza não pode ser dada porque ela não pode ser inferior a certeza do balão. Coleta de dados (Tipos de Pesquisa) Métodos de coletas de dados: 1) Estudo observacional – Pesquisa de levantamento de dados (Survey) Os dados são coletados à medida que vão sendo observados ou por meio da análise dos registros históricos disponíveis. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 17 2) Delineamento de experimento O experimento é planejado para observação dos fenômenos estudados, onde as variáveis de entrada são controláveis e os dados de saída são medidos para avaliação e conclusões sobre as relações de causa e efeito. Coleta de dados - Definir população ou amostra - Dados primários – coletados diretamente. - Dados secundários – buscar fontes, referências. - Definir as variáveis 1) Quantitativa: exemplo – nº peças produzidas 2) Qualitativa: exemplo – aprovada ou rejeitada - Organizar (codificar) - Apresentação dos dados a) Organizar cada variável isoladamente (análise univariada) Facilita identificar a variabilidade dos dados, descrever a amostra e verificar suposições, previamente. b) Distribuição de frequências (escalas nominais e ordinais) c) Representação tabular e gráfica Gráfica Dados categorizados: Dados quantitativos: Gráfico de barras Diagrama de pontos Gráfico de setores Histogramas Gráfico de barras múltiplas Polígonos de frequências Ramo e folhas UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 18 - Listar as categorias - Listar a freqüência para cada categoria - Percentagens Distribuição de freqüências Quando se tem grandes quantidades de dados costuma-se agrupá-los em classes ou categorias e determina-se o n° de elementos pertencentes a cada classe, que se chama de frequência de classe. Determinação do n° de classes: k ≈ 1+ 3,3 log (n) Ou: k ≈ √n Intervalos de classes: São os extremos limites de classe. Exemplo: 151-158. Limites reais de classe: Obtém-se adicionando-se ao limite superior de um intervalo de classe o limite inferior da classe seguinte e dividindo-se por 2: Exemplo: (159 + 158)/ 2 = 158,5 Amplitude de classe: É a diferença entre os limites reais superior e inferior dessa classe. Exemplo: 158,5 – 150,5 = 8 1. Acumulada A frequência total de todos os valores inferiores ao limite superior de um dado intervalo de classe é chamada de frequência acumulada, incluindo o próprio intervalo. Exemplo: Altura (cm) Nº de alunos 151 – 158 5 159 – 166 18 167 – 174 42 175 – 182 27 183 – 190 8 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamentode Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 19 A frequência acumulada do intervalo de alunos com altura de 167 a 174 é: 5 + 18 + 42 = 65 Significando que 65 estudantes têm alturas inferiores a 174,5 cm. 2. Relativa A frequência relativa de uma classe é a frequência da classe dividida pelo total de todas as classes, geralmente expressa em percentagem. No exemplo acima é 42 %. Tipos de curvas de freqüência a) Simétrica (forma de sino) São aquelas em que as observações equidistantes do ponto central máximo tem a mesma frequência. b) Assimétrica ou desviada A cauda da curva de um lado da ordenada máxima é mais longa que do outro. Se for do lado direito chama-se desviada a direita ou assimetria positiva, caso contrário assimetria negativa. c) Curva em formato J ou J invertido O ponto da ordenada máxima ocorre em uma das extremidades. d) Curva em formato U Tem ordenadas máximas em ambas as extremidades. e) Curva bimodal A curva possui dois máximos. f) Multimodal A curva possui mais de dois máximos. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 20 Exemplo: peças com defeito (dados categorizados) Código: 1 – Sem defeito 2 – Tolerável 3 – Defeituosa Resultados: 3 3 2 2 3 1 3 3 3 2 2 1 2 2 3 2 3 3 3 3 3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3 - Representação tabular e gráfica Tabular Categoria Frequência Percentagem 1 – Sem defeito 6 15,0 2 – Tolerável 11 27,5 3 – Defeituosa 23 57,5 Total 40 100,0 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 21 Gráfico de barras Representam-se os valores da variável no eixo das abscissas e suas as freqüências ou % no eixo das ordenadas. Pode ser para as variáveis qualitativas ordinais ou quantitativas discretas. Diagrama Circular (pizza ou setores) Este tipo de gráfico adapta-se muito bem para as variáveis qualitativas nominais. Gráfico de barras 0 3 6 9 12 15 18 21 24 27 1 2 3 Ca te go ria Frequência UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 22 Gráfico de setores 6 1123 1 2 3 Histograma Constitui-se de retângulos contíguos baseado nas faixas de valores da variável e com área igual à freqüência relativa da respectiva faixa. Assim, a altura de cada retângulo é chamada de densidade de freqüência ou simplesmente densidade. Polígono de freqüências Semelhante ao histograma, mas construído a partir dos pontos médios das classes. Distribuição de frequências (escalas intervalares ou razões): Exemplo: Nº de pessoas residentes no domicílio considerando uma amostra de 40 residências do bairro A. Dados: 4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4 5 5 5 4 8 4 5 3 4 5 5 2 5 2 6 8 3 5 5 3 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 23 Tabular Nº de Pessoas Frequência de Residências Percentagem 1 1 2,5 2 3 7,5 3 6 15,0 4 13 32,5 5 11 27,5 6 4 10,0 7 0 0,0 8 2 5,0 Total 40 100,0 Histograma 0 2 4 6 8 10 12 14 1 2 3 4 5 6 7 8 No. de pessoas residentes Fr eq u ên ci a de re si dê n ci as Série1 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 24 Polígono de freqüências Ramos e folhas É utilizado para pequena quantidade de dados (<100), fornecendo a distribuição de frequência e preservando a magnitude dos valores. Os dados são colocados em ordem crescente. Exemplo: Taxa de rejeito por máquina (injetora) Dados 32,3; 62,2; 10,3; 22,0; 13,1; 9,9; 11,9; 20,0; 36,4; 23,5; 18,0; 22,6; 20,3; 38,3; 19,6; 27,2; 28,9; 18,4; 27,3; 21,7; 23,7; 13,9; 36,3; 32,9; 29,7; 25,4; 23,8; 15,7; 17,0; 39,2; 22,7; 29,9; 18,3; 33,0 Reescrevendo com os algarismos mais relevantes. 32; 62; 10; 22; 13; 9; 11; 20; 36; 23; 18; 22; 20; 38; 19; 27; 28; 18; 27; 21; 23; 13; 36; 32; 29; 25; 23; 15; 17; 39; 22; 29; 18; 33 0 2 4 6 8 10 12 14 1 2 3 4 5 6 7 8 No. pessoas Fr eq u ên ci a UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 25 1) O 1º. algarismo é colocado do lado esquerdo do traço, formando ramos. 2) O 2º. algarismo é colocado do lado direito do traço, formando as folhas. 0 - 9 1 – 0 3 1 8 9 8 3 5 7 8 2 – 2 0 3 2 0 7 8 7 1 3 9 5 3 2 9 3 – 2 6 8 6 2 9 3 4 - 5 - 6 – 2 0 - 9 1 – 0 1 3 3 5 7 8 8 8 9 2 – 0 0 1 2 2 2 3 3 3 5 7 7 8 9 9 3 – 2 2 3 6 6 8 9 4 - 5 - 6 - 2 Unidade = 1 0 – 9 representa 9 62 discrepante UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 26 Retirando os valores discrepantes e duplicando nº de ramos. 0. - 9 1* – 0 1 3 3 1** - 5 7 8 8 8 9 2* – 0 0 1 2 2 2 3 3 3 2 **– 5 7 7 8 9 9 3* – 2 2 3 3 **– 6 6 8 9 MEDIDAS DA TENDÊNCIA CENTRAL A média é um valor característico ou representativo de um conjunto de dados. Como esse valor (média) tende a se localizar num ponto central, dentro do conjunto de dados, ordenados por ordem de grandeza, são chamados de medidas de tendência central. Média aritmética: Logo: Exemplo: 10, 15, 20, 42 X = 21,75 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 27 Mediana: A mediana de um conjunto de valores, ordenados em ordem de grandeza, é o valor médio ou a média aritmética dos dois valores centrais. Exemplo 1: 3,4,4,5,6,8,8,8,10 Mediana = 6 Exemplo 2: 5,5,7,9,11,12,15,18 Mediana = 9+11=20/2=10 Moda: A moda de um conjunto de valores é aquele que ocorre com maior freqüência (o valor mais comum). A moda pode não existir e se houver pode não única. Exemplo1: 2,3,5,7,9,9,9,10,10,11,12,18 Moda = 9 (unimodal) Exemplo2: 4,6,10,15,20 Moda = não há (amodal). Exemplo 3: 2,3,5,5,5,5,5,9,10,11,11,11,11,23,28 Moda = 5 e 11 (nesse caso se chama bimodal) MEDIDAS DE DISPERSÃO Dispersão ou variação é o grau em que os dados tendem a dispersar-se em torno de um valor médio. Amplitude total: É a diferença entre o maior e o menor valor do conjunto de dados. Exemplo: 10, 25, 30, 30, 45, 25, 10, 12 Amplitude total:10 – 45 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 28 Desvio médio: num conjunto de N números X1+ X2 + X3 + ...+ XN é definido por: Média = 10 + 25 + 30 +30+45 +25 +10 +12/8 = 23,375 D.M = (10-23,375) + (25–23,375)+(30-23,375)+(30-23,375)+(45– 23,375)+(25-23,375)+(10–23,375)+(12– 23,375) Considere em módulo: D.M. = |13,375|+|1,625|+|6,625|+ |6,625|+ |21,625|+ |1,625|+ |-13,375|+ |11,375| / 8 = 76,25/8=9,53 Variância: é a média aritmética dos desvios quadráticos. S2 = 130,98 Desvio padrão: No conjunto de dados X1+ X2 + X3 + ...+ XN é dado por S (população) e calculado por: Exemplo: S=11,44 Variância da amostra: UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 29 Desvio padrão da amostra: Exemplo: Notas dos alunos: 4 5 5 6 6 7 7 8 Média: 6 Desvios em relação a média: -2 -1 -1 0 0 1 1 2 Desvios quadráticos: 4 1 1 0 0 1 1 4 S2 = (4+1+1+0+0+1+1+4)/(8-1)=1,71 S = 1,31 Coeficiente de Variação (CV) É definido como o quociente entre o desvio padrão e a média. Geralmente é expresso em percentual. O CV é uma medida adimensional e possibilita comparar resultados com unidades de medidas diferentes. Quando a média é próxima a zero a comparação fica prejudicada. Exemplo: Experimento 1: média= 5,15 e s= 0,08 Experimento 2: média= 13,8 e s= 1,5 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 30 Qual o mais preciso? CV= 1,55 CV= 10,87 PROBABILIDADE: Conceito: É o estudo da aleatoriedade e da incerteza. Espaço Amostral (S ou Ω) O espaço amostral S associado a um dado experimento é o conjunto de dados das possíveis ocorrências de um experimento aleatório. Experimento aleatório: É um experimento que pode fornecer resultados diferentes, mesmo que repetido toda vez da mesma maneira. PROBABILIDADE É o estudo da aleatoriedade e da incerteza. Espaço Amostral (S ou Ω) O espaço amostral S associado a um dado experimento é o conjunto de dados das possíveis ocorrências de um experimento aleatório. Experimento aleatório: É um experimento que pode fornecer resultados diferentes, mesmo que repetido toda vez da mesma maneira. Evento É todo e qualquer subconjunto de um espaço amostral finito (experimento aleatório). UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 31 Evento simples: Constitui-se de um único resultado. Evento composto: Consiste em mais de um resultado. Exemplo: Jogo de dados S = {1,2,3,4,5,6} A = {2,4,6} – face par B = {1,3,5} – face ímpar C = {1} – pode ocorrer só D = {7} ou {Ø} – evento impossível Teoria dos conjuntos a) União de dois eventos A e B – A U B é lida “A união B” é o evento que se constitui em todos os resultados que estão no evento A ou B ou em ambos, isto é, todos os resultados estão em pelo menos um dos eventos. b) Intersecção dos dois eventos A e B – A∩B é lida “A intersecção B” é o evento que se constitui de todos os resultados em ambos A e B. c) Complemento de um evento A, representado por A’, é o conjunto de todos os resultados do espaço amostral que não estão contidos em A. Exemplo: A = {0,1,2,3,4}, B = {3,4,5,6} e C= {1,3,5} AUB = {0,1,2,3,4,5,6} A∩B = {3,4} AUC = {0,1,2,3,4,5} A∩C = {1,3} A’ = {5,6} {AUC}’ = {6} Definição: A probabilidade de um evento (E) ocorrer (sucesso) de h maneiras UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 32 diferentes, num total de n modos possíveis é dada por: p = Pr {E} = h/n h = nº de ocorrências favoráveis ao evento para os quais pode ocorrer n = nº de possíveis ocorrências do evento A não ocorrência (insucesso) do evento é dada por: q = Pr {não E} = (n-h)/n = 1 – h/n = 1 = 1-Pr {E} Logo: p + q = 1 ou Pr {E}+ Pr {não E}= 1 O evento “não E” pode ser representado Ē, ou Ẽ ou ~E. 0 ≤ Pr {E}≤1 Exemplo: Num lance de dados pode ocorrer o nº 3 ou 4. As possibilidades são 6: S = {1,2,3,4,5,6} Não havendo vício (dado honesto) podem existir 6 maneiras igualmente prováveis. Logo: p = 2/6 = 1/3 então: q = 1- p, assim q = 1- 1/3 = 2/3 Quando todos os elementos do espaço amostral tem a mesma chance de acontecer, o espaço amostral é chamado de conjunto equiprovável. Exemplos: 1) No lançamento de uma moeda qual a probabilidade de obter cara em um evento A ? S = {ca, co} = 2 A = {ca} = 1 P (A) = 1/2 = 0,5 = 50% 2) No lançamento de um dado qual a probabilidade de obter um número par em um evento A ? S = { 1, 2, 3, 4, 5, 6 } = 6 A = { 2, 4, 6 } = 3 P(A) = 3/6 = 0,5 = 50% UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 33 Eventos independentes São considerados eventos independentes quando a ocorrência de um deles não altera a probabilidade do outro. A probabilidade de dois eventos independentes ocorrerem simultaneamente é o produto das probabilidades individuais. Eventos Mutuamente Excludentes Dois ou mais eventos são mutuamente excludentes quando a realização de um exclui a realização do(s) outro(s). Exemplo: O evento "tirar cara" e o evento "tirar coroa". Se dois eventos são mutuamente excludentes, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: P(1 U 2) = P(1 ou 2) = P(1) + P(2) Probabilidade condicional Se um evento E1 e E2 são dois eventos, a probabilidade de E2 acontecer, depois de E1 ter acontecido, é dada por Pr { E2\E1}, chama-se de probabilidade condicional de E2, após E1 ter acontecido. Quando E1 afetar a probabilidade da ocorrência de E2 chama-se de eventos dependentes. P (E2\ E1) = P(E1 ∩ E2)/ P(E1), sendo P(E1) ≠ 0 Exemplo: Em um cesto contendo 4 bolas brancas e 6 bolas vermelhas qual a probabilidade de: a) Em sorteios sucessivos com reposição de retirarmos uma bola branca no primeiro sorteio? b) Em sorteios sucessivos com reposição de retirarmos uma bola branca no segundo sorteio? c) Em sorteio simultâneo sem reposição de retirarmos uma bola branca UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 34 no primeiro sorteio? d) Em sorteio simultâneo sem reposição de retirarmos uma bola branca no segundo sorteio? 3) Duas cartas de baralho, bem embaralhado, de 52 cartas. Qual a probabilidade de ambas serem ases, se a primeira for: a) Recolocada b) Não recolocada Resumo Axiomas da probabilidade: 1) P (E) = 1 2) P (Ø) = 0 3) P (Ẽ) = 1 – P (E) 4) P (E1 U E2) = P (E1) + P (E2)- P (E1 ∩ E2) – se pelo menos um. 5) P (E1 ∩ E2) = P (E1) x P (E2) – eventos independentes. Distribuição de probabilidade discreta Se uma variável X pode assumir um conjunto discreto de valores X1, X2,..., Xk, com probabilidades p1, p2,..., pk, respectivamente, sendo p1 + p2 + ...+ pk=1, diz- se que está definida uma distribuição de probabilidade discreta de X. A função p(X) que assume os valores p1 + p2 + ...+ pk para X1, X2,..., Xk chama-se de função de probabilidades ou freqüência de X. Como X pode assumir certos valores com dadas probabilidades denomina-se de variável aleatória discreta ou casual ou estocástica. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 35 As distribuições de probabilidade podem ser consideradas uma forma teórica ou de limite ideal de distribuições de frequências relativas, quando o número de observações é elevado. Assim, pode-se considerar que as distribuições de probabilidade se referem a populações, enquanto as distribuições de frequências relativas representam amostras delas extraídas. Distribuição de probabilidade continuas A variável X analisada para a distribuição de probabilidade discreta pode assumir um conjunto de valores contínuos, logo o polígono de frequências relativas de uma amostra torna-se, no caso teórico ou limite de uma população, uma curva contínua. A equação da curva: Y = p (X). A área total limitada por essa curva e pelos eixos dos X é igual a 1, sendo que a área compreendida entre as verticais X = a e X = b dá a probabilidade de X estar no intervalo a e b assim formulado: P {a < X < b} A função p (X) chama-se de função de densidade de probabilidade. Representação: É representada por uma função, não negativa com a área formada entre os eixos das abscissas e a curva dessa função igual a 1. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 36 Exemplo 1: Medidas de ângulos. Considere-se o círculo trigonométrico, medidas dos ângulos em graus, a partir de uma data origem. Se o deslocamento se der no sentido anti-horário. Sendo X a variável que indica o ponto em que ponteiro pára (é aleatória continua, porque existem infinitos pontos entre 0º e 360º). Qual a probabilidade de X assumir um valor entre 0º e 90º? 0≤ X < 90 P (0≤ X < 90) = ¼ UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 37 Exemplo 2: Faixas de estaturas. É razoável supor que todas as pessoas tenham a mesma altura numa curva de distribuição? Ou seja, a curva é uma constante? - 190 a 200 cm - 165 a 175 cm – mais provável Qual o modelo para essa situação? Distribuição normal de probabilidade. Qual a probabilidade de uma pessoa ter mais de 180 cm? Definição: Seja x uma variável aleatória continua definida no conjunto dos números reais. Se a variável apresentar uma f.d.p. dada por: UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 38 Então x tem distribuição normal com parâmetros µ = média e σ2 = variância A área da curva é: Curva normal reduzida Para facilitar a obtenção da área sob a curva normal transforma-se a variável com média zero e desvio padrão 1. Z = (x - µ)/σ Z é um valor padronizado. Para a estatura x = 180 cm Com µ = 170 e σ = 10 Z= 180 -170/10 =1 então P (x > 180) = P (z > 1) = 0,1587 ou 15,87% UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 39 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 40 TESTES ESTATÍSTICOS O teste estatístico dá ao pesquisador condições de fazer inferências. Assim pode-se afirmar com base no teste, que a média de um experimento A é diferente de um experimento B para a amostra. Então, pode-se concluir que resultados similares ao da amostra provavelmente serão os mesmos da população, em determinado nível de significância. O que é significância? Em estatística significância é sinônimo de muito provável que um resultado similar ao que foi obtido na amostra possa ser verificado para toda a população se essa tivesse sido avaliada. Porém, “muito provável” não significa certamente. Logo, todo teste estatístico está associado há algum tipo de erro. A probabilidade da ocorrência de erro é o nível de significância. Os testes estatísticos servem para testar hipóteses no que diz respeito à população. Hipótese estatística: é uma suposição, alegação ou afirmação sobre o valor de um único parâmetro (característica de uma população ou característica de uma distribuição de probabilidade) sobre os valores de vários parâmetros ou sobre a forma de uma distribuição de probabilidade inteira. Exemplo: Uma matéria-prima nova B é analisada para determinação do teor de umidade, sendo que das várias amostras é calculada a média que é comparada com outra já aprovada e em uso A pela mesma metodologia. O técnico pode fazer duas suposições: a primeira é de que a média do teor de umidade da matéria-prima B é igual a da A, não só da amostra. Esta hipótese denomina-se de hipótese de nulidade e indica-se por H0. H0 = as médias são iguais. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 41 A segunda suposição é de que as médias das matérias-primas A e B, não só das amostras, é diferente. A essa hipótese denominamos de hipótese alternativa e indica-se por H1. H1 = as médias são diferentes. Para decidir por uma das hipóteses o técnico submete seus dados a um teste estatístico. Se escolher por uma das hipóteses pode estar cometendo um erro. Porém, ele não sabe, quando está tomando a decisão se está ou não cometendo erro. A isso a estatística chama de nível de significância do teste e é indicado pela letra grega α, logo o nível significância é a probabilidade de rejeitar H0, quando H0 é verdadeira. A escolha de α é arbitrária. Resumindo: H0 – Hipótese de trabalho de nulidade - É descrita em termo de parâmetros populacionais. - É uma negação daquilo que se quer provar. - Apresentada em termos de igualdade de parâmetros populacionais. H1 – Hipótese alternativa - É aquilo que o pesquisador que provar. - É a própria hipótese da pesquisa. - Apresentada em termos de desigualdades de parâmetros populacionais. Quando os dados mostrarem evidência suficiente de que a hipótese H0 é falsa, o teste a rejeita, aceitandoem seu lugar a chamada hipótese alternativa, H1. Assim, o teste de hipótese é um método que usa os dados da amostra para decidir se a hipótese de nulidade deve ser descartada. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 42 Probabilidade de significância ou valor “p” É a probabilidade da estatística de um teste acusar um resultado tanto ou mais distante do esperado. O valor “p” demonstra o quanto estranho é o resultado observado na amostra comparado a H0. Assim quanto menor o valor de p maior a evidência para rejeitar H0. O p também indica o risco de se tomar a decisão errada, caso se rejeite H0. Regra geral para decisão de um teste estatístico: p > α aceita H0 p ≤ α rejeita H0 Erros do tipo I e II Se uma hipótese for rejeitada quando deveria ser aceita (H0 é verdadeira), temos erro do tipo I, portanto conclui-se que existe algum tipo de efeito quando, na verdade, não existe. Porém, se for aceita uma hipótese que deveria rejeitada (H0 é falsa) temos um erro do tipo II, logo se conclui que não há efeito quando na verdade existe. Sumarizando: o valor “p” ou nível de significância observado é o menor nível de significância em que H0 seria rejeitada. Teoria das Pequenas Amostras Quando o tamanho da amostra é maior que 30 (n>30) denominamos-se de “grandes amostras”. As distribuições amostrais de diversas estatísticas são aproximadamente normais, no entanto quanto maior o n melhor a aproximação. Logo, para n<30, denominadas de pequenas amostras, aproximação a normal fica prejudicada. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 43 Assim, para distribuições amostrais menores do que 30 aplica-se a chamada teoria das pequenas amostras ou teoria exata da amostragem, porque os resultados são válidos tanto para as pequenas, quanto para as grandes amostras. Quando n é pequeno, S provavelmente não está próximo de σ, sendo que a variabilidade na distribuição Z se deve a aleatoriedade do numerador e do denominador, então a probabilidade de: será mais dispersa que a distribuição normal padronizada. Se uma variável aleatória X, normalmente distribuída em uma população, sendo o desvio padrão desconhecido (σ) pode-se comparar a média amostral X com a média da população (µ), empregando s no lugar de σ por meio da estatística t. A família de distribuições de probabilidade resultante é chamada de distribuição t com n-1 graus de liberdade (gl). Distribuição de “Student” t A estatística é definida por: UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 44 GRAUS DE LIBERDADE Graus de liberdade (gl) é um parâmetro da distribuição t que pode ser qualquer número real maior que zero. Determinando-se o gl define-se uma condição particular da família de distribuições t. Uma distribuição t com um gl menor tem mais área nas caudas da distribuição que uma distribuição com um gl maior. Quanto menor o número de gl, mais aplainada (platicúrtica) é a forma da distribuição, resultando em maior área nas caudas da distribuição. Tabela dos valores de Zc Limite de confiança 99,73 99 98 96 95,45 95 90 80 68,27 50 Zc 3,00 2,58 2,33 2,05 2,00 1,96 1,645 1,28 1,00 0,6745 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 45 Resumo das propriedades das distribuições t: - Cada curva tν possui forma de sino com média zero; - Toda curva tν tem maior dispersão que a curva normal padronizada Z; - Na medida em que ν aumenta a dispersão da curva tν correspondente diminui e - Na medida em que tν → ∞ a sequência das curvas tν se aproxima da curva normal padronizada, isto é, pode-se chamar a curva Z de curva t com gl = ∞. Valor crítico (tα, ν): É o número no eixo da abscissa para o qual a área sob a curva t com gl ν à direita de tα, ν é α. Exemplo: Seja t0,05, 15, verifica-se a coluna α = 0,05 e procura-se a linha ν = 15, onde encontra-se o valor correspondente de 1,753. Erro ou variabilidade amostral É a diferença entre a estimativa da estatística (amostra) e o parâmetro (população). Efeito do “azar”: Na noção de amostra deve-se ter presente que pode-se perder algo da população da qual foi retirada, logo pode não representar a população. Para minimizar o efeito do “azar” as estimativas são sempre feitas em termos de um certo nível de significância (α). UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 46 Intervalo de confiança O intervalo de confiança de 100 (1 - α) % para µ é: Tabela resumo para avaliação da média de uma população – Anexo – I. Exemplo 1: Desejando verificar a eficácia de um programa de prevenção de acidentes de trabalho o ministério do trabalho implementou o programa em 10 empresas, randomicamente. Os dados de redução de acidentes são os seguintes: Empresa Redução de acidentes (%) A 20 B 15 C 23 D 11 E 29 F 5 G 20 H 22 I 18 J 17 Média (x) 18 SD (s) 6,65 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 47 Qual o objetivo da pesquisa? Estimar parâmetro, isto é, extrapolar os dados da amostra (empresas analisadas) para a população (todas as empresas). Resolução: Erro padrão da média: Sx = 6,65/√10 = 2,10 t (tabelado com α = 0,05) = 2,262 µ = 18 ± 2,262 x 2,10 = 4,75 ≈ 4,8 µ = 18 ± 4,8 % UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 48 DELINEAMENTOS DE EXPERIMENTOS Para planejar um experimento é necessário definir a unidade experimental e a variável a ser analisada. Também é importante definir o tipo de tratamento em UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 49 comparação e a maneira de designar os tratamentos. Em determinadas situações não é interessante o tratamento por processo aleatório. Experimentos inteiramente ao acaso Só podem ser efetuados quando as unidades estudadas são similares. Similares implica dizer que necessariamente não precisam ser “iguais”. Devem ter características comuns que os enquadrem no mesmo grupo. Exemplo: Avaliação das propriedades mecânicas de uma peça injetada. Elas poderão ter cores diferentes, porém deverão ter saído na mesma máquina, com o mesmo material e com as mesmas condições de processamento, porém alterando-se um parâmetro a cada vez. Outro exemploé um remédio sendo ministrado a um grupo de pessoas de mesmo sexo, peso e que no início do teste tenham uma variação bastante baixa. O tratamento nesse tipo de experimento é comum o mesmo número de repetições. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 50 Experimentos inteiramente ao acaso com número diferente de repetições Pode-se adotar dois tipos de procedimento: a) Dividir a amostra em grupos de tamanho iguais e descartar as amostras que excedem, quando são números ímpares. b) Utilizar um grupo de controle de tamanho maior, porque dependendo do estudo precisa-se fazer mais repetições. Experimentos Fatoriais São empregados quando se deseja analisar os efeitos de dois ou mais tipos de tratamentos no mesmo experimento. Os tratamentos são denominados de fatores e o experimento chama-se de fatorial. Exemplo: O efeito da temperatura e da concentração de certa substância na velocidade de uma reação química. Os fatores são temperatura e concentração. Pode-se ter diferentes categorias para um fator, que se chama de níveis. No exemplo pode-se ter temperaturas de 20 e 25ºC e duas concentrações 30 e 40 ppm. Os experimentos fatoriais facilitam o estudo das interações entre fatores. Tipos de experimentos fatoriais: 2 x 2, 3 x 3. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 51 Dentro das etapas da pesquisa: 1) Formula-se uma pergunta ou hipótese da pesquisa. 2) Planeja-se a coleta dos dados e um teste paramétrico. Testes estatísticos: - Dados quantitativos: as hipóteses são apresentadas em termos de médias. - Dados qualitativos: as hipóteses são apresentadas em termos de proporções ou probabilidade de eventos. Quadro dos testes estatísticos para dados contínuos Amostra única Teste t (para uma amostra) Teste dos sinais Paramétrico Dados pareados Teste t para dados pareados Teste dos sinais Teste dos sinais de Wilcoxon Paramétrico Não paramétricos Idem Dados independentes (2 grupos) Teste t para amostras independentes Teste U de Mann-Whitney Teste de Wilcoxon para soma de postos Paramétricos Não paramétricos Idem Dados independentes (mais de 2 grupos) Análise de variância (ANOVA) Teste de post-hoc Variação entre grupos Variação no grupo Teste de Kruskall-Wallis Paramétrico Idem Idem Idem Não paramétrico UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 52 Análise de variância – One Way (ANOVA) A análise da variância ou ANOVA é um teste de hipóteses de médias de duas ou mais populações numéricas (distribuições) ou dados de experimentos em que se emprega mais de dois tratamentos. É um procedimento muito útil para comparar. A comparação entre mais de dois grupos pode ser feita com sucessivas comparações pelo teste t independente, contudo aumenta a possibilidade do erro do tipo II. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 53 O objetivo da análise variância é verificar se as amostras foram retiradas de populações com o mesmo valor de média. Se as médias forem diferentes entre si deve-se perguntar: por quê as médias da amostras são diferentes? Pode-se dividir a variabilidade total em dois grupos ou fontes de variabilidade: a) O primeiro grupo de variabilidade se deve as populações ser realmente diferentes e se chama variabilidade entre grupos. Quanto maior a variabilidade entre grupos maior a evidência de que haja diferenças entre as populações das quais originaram as amostras. b) O segundo grupo de variabilidade é resultado das diferenças dentro de cada amostra e se chama variabilidade dentro do grupo. Quanto maior a variabilidade dentro do grupo maior a dificuldade para concluir que as populações sejam diferentes. Premissas da análise da variância: - As populações têm a mesma variância. - As amostras são retiradas de populações com distribuição normal. - As amostras são aleatórias e independentes. O teste de hipótese é o seguinte: - A hipótese de nulidade H0 afirma que as k populações tem a mesma média. - A hipótese alternativa H1 diz que nem todas as médias das k populações são iguais, pelo menos duas médias são diferentes. O poder do teste reflete a probabilidade de rejeitar a hipótese de nulidade, quando esta é falsa, sendo geralmente expresso em percentagem. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 54 Fatores que influem no poder do teste: - Tamanho da amostra O poder do teste aumento com o tamanho da amostra. - Variabilidade das observações O poder do teste aumenta quanto menor a dispersão das observações. - Nível de significância O poder do teste aumenta, quando o nível de significância é maior. Por exemplo, a possibilidade de se detectar um efeito real aumenta, quando se adota um nível de significância em 5%, em comparação a um nível de 1%. Do ponto de vista prático, na medida em que aumenta o tamanho da amostra é possível adotar nível de significância menor para observar o mesmo efeito desejado.Ver gráfico abaixo: UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 55 A questão da normalidade Para avaliar se os dados coletados têm distribuição normal com média zero o pesquisador deve fazer uma análise do que se chama de análise dos resíduos (erros). Calcular os resíduos: e = x – x e representar os resíduos em um gráfico. Este procedimento tem o inconveniente de ser gráfico, não possibilita associar a um nível de probabilidade de que a distribuição dos erros não é normal. A pressuposição de normalidade pode ser transformada em hipótese e pode ser testada. Os testes desse tipo chamam-se de testes de aderência, sendo os mais conhecidos os de χ2, Kolmogorov-Smirnov, e o de Shapiro-Wilks. Quando a análise dos resíduos revela uma distribuição muito diferente da normal, deve-se investigar a causa dos valores discrepantes. Muitas vezes, são devido a erros na coleta das informações. Na disciplina será abordado o teste F que é bastante robusto, isto é, pequenas transgressões a pressuposição de normalidade de que os erros têm distribuição normal são comuns e não afetam de modo significativo, os resultados. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez56 Distribuição F F0 = Fator observado S2b = Variância entre S2w = Variância dentro Exemplo: Para comparar a produtividade de quatro variedades de milho, um engenheiro agrônomo selecionou vinte mudas similares e plantou a variedade A em cinco canteiros, a variedade B em outros cinco canteiros e assim sucessivamente até completar as vinte mudas. A seleção das variedades das mudas foi por sorteio. O experimento foi feito com 5 repetições. A produção de cada muda para as diversas variedades está representada abaixo: UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 57 Produção de milho em kg/100m2 Variedades A B C D 25 31 22 33 26 25 26 29 20 28 28 31 23 27 25 34 21 24 29 28 Média 23 27 26 31 Variáveis: - A produção pode ser diferente na mesma variedade devido a fatores não controlados: qualidade da semente, posição da semente no solo, exposição ao vento, etc... - Entre variedades diferentes pode ser atribuída tanto a fatores aleatórios como a resultado mesmo de variação de produtividade diferente em função da variedade. A questão é: qual a diferença entre as médias de produção será suficientemente grande para evidenciar que essas variedades tem produtividades estatisticamente diferentes? Análise de variância A comparação será entre a variação devido aos tratamentos (variedades) com a variação devido ao acaso (erro ou também chamado de resíduo). UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 58 Cálculos Notação convencionada: ∑T = Somatório total dos totais de cada tratamento (∑x) k – Tratamento r – repetições Graus de liberdade: de tratamento: k -1 do total: n-1, com n = kr do resíduo: (n-1) - (k-1) = n-k O valor C (correção) é a soma do total das observações elevada ao quadrado e dividido pelo número de observações. C = (∑x)2/ n A soma de quadrados total: SQT = ∑x2 - C A soma de quadrados de tratamentos: SQTr = (∑T2 / r) - C A soma de quadrados de resíduo: SQR = SQT - SQTr O quadrado médio de tratamentos: QMTr = SQTr / k-1 Quadrado médio de resíduo: QMR = SQR / n-k O valor de F: F = QMTr / QMR UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 59 Ver apêndice – I: teste de normalidade. Ver apêndice – II: Teste Post Hoc de Scheffé para a produtividade UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 60 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 61 Uso do Excel (exemplo das variedades) UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 62 Passo a passo para o cálculo da ANOVA fator único - Abrir planilha Excel; - Ferramentas; - Suplementos; - Na janela aberta – marcar: ferramentas de análise; - Depois de instalado o pacote de ferramentas de análise; - Volte no ícone ferramentas; - Abra "análise de dados"; - Na janela selecione: ANOVA fator único; - Na janela aberta: clique em "intervalo de entrada"; - Com o mouse selecione o intervalo de dados (agrupado por colunas); - Escolha o alfa desejado (0,05); - No ícone opções de saída – escolha uma das opções; - Clique em "OK"; Conclusão: Quando o Fo (observado/calculado) é menor ou igual ao Fc (crítico/tabelado) a hipótese Ho é verdadeira. Quando o Fo (observado/calculado) é maior ao Fc (crítico/tabelado) a hipótese Ho é recusada, adotando a hipótese alternativa H1. Relação entre variáveis A correlação é uma medida estatística, a qual indica o grau de associação entre duas séries de dados, isto é, determina à medida que, conhecendo-se uma variável, se possam fazer previsões a respeito de outra. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 63 Ver tabela para escolha do tipo de coeficiente em função da escala de medida – Anexo II. O coeficiente por meio do qual se pode determinar a intensidade e o sentido da relação é chamado de correlação linear simples ou correlação de Pearson, representado geralmente por “r”. O valor de “r” é adimensional, somente indica o grau de proximidade entre os pares de observação. O intervalo vai de -1 (correlação perfeitamente negativa) a +1 (correlação perfeitamente positiva). O sinal expressa o sentido da relação, ou seja, o que ocorre com uma variável, quando a outra sofre variação. Quando o “r” é zero assume-se que não há relação entre as variáveis. É importante destacar que o valor “r” é válido somente para a amplitude de variação de x e y, observada na amostra, portanto não se pode extrapolar o valor da correlação para outra amostra, visto que a amplitude de x e y poderá ser diferente. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 64 Outro aspecto é de que “r”não reflete uma relação de causa e efeito, mostra apenas a existência de uma relação linear entre o par bivariado. Coeficiente de correlação linear simples (correlação de Pearson) Quando que “r” não é a medida de correlação adequada? - A relação entre as variáveis não é linear. - Existem possíveis valores discrepantes no conjunto de dados sob análise. - Os dados abrangem mais de uma observação da mesma variável em cada amostra (medidas repetidas). - Os dados compreendem subgrupos. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 65 Exemplo: Caso x y 1 96,00 81,00 2 98,00 72,00 3 84,50 65,50 4 82,00 62,00 5 70,50 53,00 6 76,00 57,30 7 81,00 62,50 8 70,10 55,00 9 74,50 54,00 10 79,50 63,00 11 77,00 52,00 12 91,00 69,00 13 81,90 65,00 14 76,50 55,00 15 63,50 49,00 16 81,40 62,00 17 88,50 75,00 18 76,50 60,00 19 87,00 69,00 20 85,50 68,00 Considerando-se a hipótese de que o valor de “r” igual a zero, isto é, não há relação entre as variáveis. Calcular o valor de “r”? Se a mostra for grande (n>200) transforma-se o valor “r” em t de acordo com a equação: t = √(n-2) / (1-r2),onde n é o grau de liberdade. Como a amostra tem n < 200 usa-se a tabela de coeficiente de correlação de valores críticos numa prova bi-caudal com nível de significância α = 0,05. r = 1.258,83 / 1.401,99 x 1.320,27 = 0,92 UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 66 Uso do Excel Passo a passo para o cálculo da Correlação linear simples - Abrir planilha Excel; - Abra "análise de dados"; - Na janela selecione: Correlação; - Na janela aberta: clique em "intervalo de entrada"; - Com o mouse selecione o intervalo de dados (agrupado por colunas); - No ícone opções de saída – escolha uma das opções; - Clique em "OK"; De acordo com a tabela de valores críticos no nível de significância 0,05, temos r = 0,4438 para o GL = 18. Assim, o “r” crítico é inferior ao calculado, portanto há evidência suficiente para rejeitar a hipótese de nulidade, concluindo-se que há relação entre as duas variáveis. Regressão linear simples O coeficiente de correlação não tem capacidade de explicar o comportamento de uma variável em relação à outra. Apenas informa sobre a magnitude e o sentido da relação entre elas. Na regressão linear simples assume-se que a maior parte das mudanças que podem correr com a variável y depende das mudanças que acontecem em outra variável x. O comportamento de dependência de y em relação à x pode ser representado e definido por uma linha entre essas variáveis. A linha que representa a regressão de y sobre x chama-se de linha de regressão. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 67 A regressão entre x e y mais elementar que se pode analisar é a que há somente uma variável dependente e outra independente por isso denomina-se regressão linear simples. Reta de regressão É representada pela equação: y = a + bx, onde y é a variável dependente (resposta ou resultado), x é a variável independente (preditora ou explanatória), “a” é o valor de y, quando x = 0, sendo chamada a linha estimada de interceptação entre as variáveis e “b” representa a inclinação da linha de interceptação, isto é, indica quanto muda em y, quando varia os valores x. No modelo matemático de reta ajustada se observa que: - Para um único valor de x podem ocorrer um ou mais valores de y. - Existe apenas um y médio calculado para cada de x, contudo há observações que não são pontos da reta. - Para cada valor de x há uma diferença entre o valor observado e o valor médio calculado para y. A essa diferença denominamos desvio ou resíduo. UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 68 Além do conceito de resíduo temos como pressupostos: a) As variáveis devem ser quantitativas em escala intervalar ou razão. b) As variáveis x e y devem ter relação linear. c) Deve haver apenas um par de observações para cada amostra. d) Os valores residuais devem ter a mesma variabilidade (variância constante) para todos os valores ajustados de y. e) A variável x deve ser determinada (mensurada) sem erro. Determinação dos coeficientes “a” e “b”: UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 69 Exemplo: Caso x y 1 100,00 81,00 2 101,00 72,00 3 104,00 65,50 4 103,00 62,00 5 96,00 53,00 6 98,50 57,30 7 100,50 62,50 8 93,80 55,00 9 96,10 54,00 10 99,10 63,00 11 94,20 52,00 12 98,90 69,00 13 105,90 65,00 14 91,70 55,00 15 89,50 49,00 16 99,00 62,00 17 108,90 75,00 18 92,10 60,00 19 98,00 69,00 20 105,00 68,00 Uso do Excel Passo a passo para o cálculo da Regressão - Abrir planilha Excel; - Abra "análise de dados"; - Na janela selecione: Regressão; - Na janela aberta: clique em "intervalo y de entrada"; - Na janela aberta: clique em "intervalo x de entrada"; - Nível de confiança alfa desejado (95%); - No ícone opções de saída – escolha uma das opções; - Nos ícones sobre a análise de resíduos, clique naqueles de interesse; - Clique em "OK"; UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 70 Análise de Variância e regressão A Anova permite identificar à proporção de variabilidade de y que pode ser explicada ou atribuída a regressão, assim como a variabilidade remanescente que se chama de erro residual ou variabilidade não esclarecida pela regressão. Quanto menor a variabilidade residual maior será a proporção da variabilidade em y que é explicada pela regressão, isto é, mais próximos serão os pontos no diagrama de dispersão em relação à linha de regressão. Se a inclinação da linha de regressão é zero, assume que não há relação linear entre x e y, ou seja, a variação em x não provoca efeito em y. Logo, a hipótese estatística de nulidade, na regressão linear, se baseia em que a linha de regressão linear é igual a zero (o valor b=0 na equação y= a +bx). Pode-se utilizar, basicamente, duas formas de testar essa hipótese: analisar o valor da estatística F ou a distribuição t. Será utilizado exemplo da tabela acima para o cálculo do valor de F. Hipóteses: H0 = inclinação da linha de regressão é igual a zero (b=0). H1 = inclinação da linha de regressão é diferente de zero (b≠0). Conclusão: y = -51,25+1,15x Fo = 17,34 Ftabelado = 0,0005 Como o Fo é maior que o Ftabelado a evidência suficiente para rejeitar a hipótese de nulidade que a inclinação da linha de regressão é zero UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 71 ANEXO I ANEXO II Tabela para escolha do tipo de coeficiente em função da escala de medida UNIVERSIDADE LUTERANA DO BRASIL ÁREA DE TECNOLOGIA E COMPUTAÇÃO DISCIPLINA: Tratamento de Dados CÓDIGO: 503559 PROFESSOR: Wanderlei O. Gonsalez 72 APÊNDICE I APÊNDICE II Teste Post Hoc de Scheffé para a produtividade Comparações múltiplas – Variável dependente: Variedade x produtividade Produtividade Variedade Probabilidade de Significância A B 0,17 C 0,39 D 0,00 B A 0,17 C 0,95 D 0,17 C A 0,39 B 0,95 D 0,06 D A 0,00 B 0,17 C 0,06
Compartilhar