Logo Passei Direto
Buscar
Material

Prévia do material em texto

MINISTÉRIO DE EDUCAÇÃO E DESPORTOS 
UNIVERSIDADE FEDERAL DE SANTA MARIA 
CENTRO DE CIÊNCIAS NATURAIS E EXATAS 
DEPARTAMENTO DE ESTATÍSTICA 
LABORATÓRIO - S.A.S. 
 
 
 
 
 
 
 
 
 
 
 
 
 
TREINAMENTO SISTEMA - S.A.S. 
 
 
 
 
Prof. Dr. Luis Felipe Lopes 
 
 
 
 
 
 
 
 
 
 
 
 
 
SANTA MARIA – RS 
 
2 0 0 6 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
i
SUMÁRIO 
 
1 INTRODUÇÃO 1 
 
2 LIMITAÇÕES 1 
 
3 O QUE É O SISTEMA SAS? 1 
3.1 O SAS/BASE 2 
3.2 Tópicos gerais 3 
 
4 ARQUIVOS SAS 3 
 
5 COMANDOS DE PROGRAMAÇÃO 3 
5.1 Comandos de controle de arquivos 4 
5.2 Comandos que lêem e gravam arquivos de dados 6 
5.3 Comandos que lêem e gravam arquivos SAS 10 
5.4 Comandos que atuam sobre valores de dados 13 
5.5 Comandos de informação 15 
5.6 Comandos que controlam o fluxo lógico de programação 17 
 
6 PRINCIPAIS “PROCEDURES” – PROCs 20 
6.1 PROC SORT 20 
6.2 PROC PRINT 21 
6.3 PROC FORMAT 22 
6.4 PROC FREQ 23 
6.5 PROC MEANS 24 
 
7 ESTATÍSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE 27 
7.1 Introdução 27 
7.2 Testes de Normalidade (PROC UNIVARIATE) 27 
 
8 ANÁLISE DE CORRELAÇÃO E REGRESSÃO 32 
8.1 Introdução 32 
8.2 Correlação de Pearson (PROC CORR) 33 
8.3 Regressão (PROC REG) 39 
8.4 Inferência na regressão 41 
8.5 Resíduos 41 
 
9 INFERÊNCIA ESTATÍSTICA 55 
9.1 Testes para igualdade de duas medias (PROC TTEST) 54 
9.2 Teste para dados pareados 59 
 
10 MÉTODOS NÃO PARAMÉTRICOS 64 
10.1 Testes para igualdade de duas medias (PROC NPAR1WAY) 64 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
ii
11 ANÁLISE DE VARIÂNCIA 68 
11.1 Dados balanceados (PROC ANOVA) 68 
11.1.1 Experimento Completamente Casualizado 73 
11.1.2 Experimento com Blocos Aleatorizados 75 
11.1.3 Experimento com Quadrado Latino 77 
 
12 EXERCÍCIOS RESOLVIDOS E COMENTADOS 79 
 
13 EXEMPLO PRÁTICO 127 
13.1 Banco de dados 127 
13.2 Análise dos dados 128 
 
 
REFERÊNCIAS BIBLIOGRÁFICAS 139 
 
ANEXOS 140 
 
ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE 
ASSIMENTRIA E CURTOSE - Skewness and Kurtosis 141 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
1
TREINAMENTO SISTEMA - S.A.S. – Statistical Analisys System 
 
 
1 INTRODUÇÃO 
 
 
O Objetivo deste Curso é ajudar o usuário a conhecer os comandos 
básicos do Sistema SAS de modo que possa obter as respostas a 
problemas práticos de uma maneira rápida e objetiva. 
 
 
2 LIMITAÇÕES 
 
 
Este curso é apenas uma introdução ao SAS, contendo uma pequena 
fração de informação que você encontrará no SAS USER’S GUIDE: BASIC e SAS 
USER’S GUIDE STATISTICS. 
 
 
3 O QUE É O SISTEMA SAS ? 
 
 
É um sistema de aplicação integrada, que consiste em vários produtos 
que tem por função: acesso, gerenciamento, análise estatística e apresentação de 
dados, somada a uma linguagem poderosa de programação e geração de 
relatórios. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Acesso aos dados - o sistema SAS possui ferramentas para acessar os 
bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS. 
 
Gerenciamento de dados - com o SAS é possível editar, selecionar, 
ordenar, concatenar e margear os arquivos. 
 
 Acesso Gerenciamento 
 
 
 
 
 
Apresentação Análise 
 
DADOS 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
2
Análise de dados - o SAS possui rotinas estatísticas para análises de 
regressão, análise de variância, de componentes principais, discriminante, 
modelos lineares, análise fatorial, previsões, controle de qualidade, cálculos 
matriciais, etc. . 
 
Apresentação de informações - a geração de relatórios é fácil e flexível. 
Eles podem ser listados, tabulados e gráficos. 
 
O SAS por ser um sistema integrado, ele é composto por módulos para 
comercialização. 
 
Principais módulos: 
 
SAS/BASE → contém uma linguagem de Quarta geração, com 
procedimentos para estatística básica e gráficos de baixa resolução. 
 
SAS/STAT → este módulo é composto de procedimentos para estatística 
avançada, como análise de variância, análise de regressão, multivariada, fatorial, 
discriminante, outras. 
 
SAS/GRAPH → gera gráficos de alta resolução: barras verticais ou 
horizontais, setoriais, cartesianos, mapas e superfícies tridimensionais. 
 
SAS/ETS → ferramenta de previsão e análise de séries temporais. 
 
SAS/OR → Procedimentos para Pesquisa Operacional, programação 
linear, gerenciamento de projetos e apoio à tomada de decisões. 
 
SAS/IML → linguagem para operação com matrizes. 
 
SAS/QC → ferramenta para controle estatístico de qualidade e 
delineamentos experimentais. 
 
Existem outros módulos, mas que não são de interesse para a estatística. 
 
 
3.1 O SAS/BASE 
 
É o instrumento principal do Sistema SAS. Ele permite ao usuários: 
 
- Criar, montar e acessar qualquer tipo de dado; 
- Produzir relatórios e gráficos simples; 
- Atualizar estatisticamente os dados; 
- Utilizar a linguagem de programação SAS. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
3
3.2 Tópicos gerais 
 
- Todo os comandos do SAS terminam em (;). 
- Os comandos iniciam e terminam em qualquer posição. 
- Vários comandos poderá estar numa mesma linha. 
- Um comando poderá ser escrito em várias linhas. 
- Palavras serão separadas por um mais espaços. 
- O comando INPUT é obrigatório não interessando onde os dados estão 
armazenados. 
- Arquivos SAS são armazenados em tabelas retangulares. 
- Referenciam-se arquivos e variáveis pelos nomes. 
- Nomes de arquivos ou variáveis poderá ter no máximo 8 caracteres, 
iniciando obrigatoriamente por letras (A-Z), podendo ter associado número e/ou 
caracteres especiais com ( - ‘quebra’). 
 
4 ARQUIVO SAS 
 
Um arquivo SAS é uma coleção de valores de dados arrumados em uma 
tabela retangular. 
 
Ex.: 
 
Variáveis → CULTURA ALTURA1 ALTURA2 
 
OBSERVAÇÕES arroz 0.35 0.39 
 . feijão 0.25 0.30 
 . soja 0.15 0.17 
 
• As colunas da tabela são chamadas de VARIÁVEIS 
 
 - Variáveis corresponde a campos de dados. 
 - Cada variável tem um nome. 
 - Há três tipos de variáveis: caracter, numérica e data. 
 
• As linhas são chamadas de OBSERVAÇÕES 
 
- Não há limite para o número de observações. 
 
5 COMANDOS DE PROGRAMAÇÃO 
 
Os seguintes comandos são básicos para a programação em SAS: 
 
- Comandos de controle de arquivos. 
 
- DATA - INFILE 
- CARDS - FILE 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
4
- Comandos que lêem e gravam arquivos de dados. 
 
- INPUT 
- PUT 
- LIST 
 
- Comandos que lêem e gravam arquivos SAS. 
 
- SET 
- MERGE 
- UPDATE 
- OUTPUT 
 
- Comandos que atuam sobre valores de dados. 
 
- FUNÇÕES e EXPRESSÕES 
 
- Comandos de informação. 
 
- DROP 
- RENAME 
- LABEL 
- FORMAT 
- TITLE 
 
- Comandos que controlam o fluxo lógico de programação. 
 
- IF (THEN / ELSE) 
- DELETE 
 
 
5.1 Comando de controle de arquivos 
 
 
- DATA 
 
O primeiro comando em um programa SAS, geralmente é um DATA. O 
comando DATA diz ao SAS que se quer criar um arquivo SAS. 
 
Você poderá escolher qualquer nome para esse arquivo, desde que tenha 
até 8 caracteres ou menos e comece por uma letra (A-Z). 
 
 
Ex.: DATA TESTE; 
 INPUT . . . 
 . 
 . 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
5
• A palavra TESTE é o nome do arquivo SAS. 
• Se o nome for omitido pelo usuário, o SAS se encarrega de nomeá-lo. 
Dando o nome de DATAn (n → número de DATAS criados). 
 
• O comando DATA pode aparecer em outros lugares dentro do arquivo 
SAS quando se quer fazer referências a outros arquivos. 
 
- CARDS 
 
É umcomando dado logo após o comando DATA. O comando CARDS 
indica ao SAS que os registros de dados seguem imediatamente abaixo no texto 
até o ponto e virgula ‘; ‘ do último dado. 
 
 
Ex.: DATA A1; 
 INPUT IDADE 1–2 ALTURA 5-8 1 PESO 10–14 1; 
 CARDS; 
 21 180 75.2 
 18 170 65.3 
 25 175 80.3 
 : : : 
 : : : 
 ; 
 
- INFILE 
 
Também vem a ser um comando logo após o comando DATA, só que os 
valores de dados estão em disco (na forma de arquivo), logo deve-se incluir o 
comando INFILE. Ele deve conter um nome com no máximo 8 caracteres e 
deverá ser lido com o código ASCII. 
 
Características do INFILE: 
 
• Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados 
estão armazenados. 
 
• Os dados estão armazenados em disco no arquivo chamado ARQUIVO. 
 
 
Ex.: DATA A1; 
 INFILE ‘ARQUIVO DADOS’; 
 INPUT NOME $10. @30 NOTA1 30 – 32 1 
 NOTA2 33 – 35 1 MEDIA 37 – 39 1; 
 PROC PRINT; 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
6
 
Obs.: Este dois comandos CARDS e INFILE especificam de onde serão lidos 
os dados. O INFILE indica que serão lidos de um arquivo externo (banco de 
dados – ASCII) e o CARDS indica que os dados estão no programa logo 
abaixo deste comando. 
 
 
5.2 Comandos que lêem e gravam arquivos de dados 
 
 
- INPUT 
 
A função do comando INPUT é descrever para o sistema SAS como são, 
quais os nomes, e em que posição se encontra as VARIÁVEIS no arquivo de 
dados. 
 
O comando INPUT geralmente segue o comando DATA. 
 
 
Ex.: DATA TESTE; 
 INPUT A 1-3 Y 5-6; 
 
 
Obs.: Lembre-se das regras para nomes (no máximo 8 caracteres). 
 
a) Tipos de INPUT 
 
a.1) INPUT COLUNADO 
 
Especifica onde encontrar os valores pela posição da coluna. 
 
 
Ex.: INPUT NOME $ 1–8 SEXO $ 10 IDADE 12-13 
 ALTURA 15–19 PESO 21–26; 
 
 
Restrições: • As posições dos campos são fixas. 
 • O ‘$’ é usado para indicar variável alfanumérica. 
 
Características do INPUT COLUNADO: 
 
• Os campos (variáveis) podem ser lidos em qualquer ordem. 
 
 
Ex.: INPUT SEXO $ 10 IDADE 12–13 NOME $ 1–8 
 PESO 21–26 ALTURA 15–19; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
7
• Campos em brancos são considerados não informados. 
 
(posições 9, 11, 14, 20). 
 
• Caracteres em branco só serão permitidos em variáveis alfanuméricas. 
 
Ex.: ‘JOSE CARLOS’ 
 
• Campos ou partes de campos podem ser relidos como uma nova 
variável; 
 
Ex.: INPUT NOME $ 1-8 ININOME $ 1; 
 
• Valores numéricos podem aparecer em qualquer posição do campo, 
podendo ser especificado sinais decimais ou ponto decimais. 
 
Ex.: INPUT PESO $ 1–6; 
 
 C A M P O S 
 1 2 3 4 5 6 
1 2 5 
2 2 5 . 
3 2 5 
4 2 5 . 5 
5 . 
 
Obs.: 1 - Não se usa ‘ , ’ (virgula) para separar a parte decimal e sim 
‘ . ‘ (ponto). Ex.: linhas 2 e 4 
 2 - Um campo em branco deverá ser representado por um ‘ . ‘ 
ponto (missing). Ex.: linha 5 
 
a.2) INPUT LISTADO 
 
O SAS procura pelos campos brancos até encontrar um caracter, então lê 
o campo até o próximo branco. 
 
Forma geral → INPUT lista de variáveis; 
 
Ex.: INPUT SEXO $ IDADE NOME $ PESO ALTURA; 
 
Restrições: • Todo o campo (var.) deve ser especificado em 
ordem. 
 • Campos devem ser separados por brancos. 
 • Não é permitido campos em branco e sim ‘ . ‘ . 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
8
Ex.: DATA CLASSE; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 
C A R L O S M 2 0 1 8 0 . 5 7 8 . 5 
J O S E M 1 8 1 7 5 7 0 . 8 
A N A F 1 7 1 6 5 . 6 6 2 . 5 
P A U L A F 2 1 1 6 8 5 5 
 
a.3) INPUT FORMATADO 
 
Especifica a posição e o tamanho do campo. 
 
Formato de Entrada: 
 
 W → Largura do campo numérico 
 W.d → Numérica com decimal 
 
Controle de posição: 
 
 @n → Vai para a coluna ‘n’. 
 +n → Move a posição ‘n’ posições. 
 
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 
J O S E M 2 0 1 8 0 . 5 7 8 . 5 
J O S E L U I S M 1 8 1 7 5 7 0 . 8 
A N A F 1 7 1 6 5 . 6 6 2 . 5 
A N A P A U L A F 2 1 1 6 8 5 5 
 
 
Ex.: INFILE ‘BANCO DADOS’; 
 INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1 
 ALTURA 5. +1 PESO 4.; 
 
 
Características do INPUT FORMATADO: 
 
• Variáveis e formatos de entrada podem ser agrupados separadamente 
com parênteses. 
 
 
Ex.: INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.); 
ou 
 INPUT (JAN FEV MAR ABR MAI) (3.); 
 
 
• Variáveis numeradas podem ser usadas para abreviar diversas variáveis 
relacionadas. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
9
 
Ex.: INPUT (MES1 MES2 MES3 MES4 MES5) (3.); 
 ou 
 INPUT (MES1-MES5) (3.); 
 
 
a.4) MISTURANDO TIPOS DE INPUT 
 
Os três tipos de INPUT vistos podem ser combinados (LISTADO, 
COLUNADO e FORMATADO) em um único comando INPUT. 
 
 
Ex.: DATA CLASSE; 
 INPUT NOME $ @11 SEXO $ 1. IDADE 13-14 
 ALTURA 16–19 @21 PESO 5.; 
 
 
a.5) OUTROS CONTROLADORES DE POSIÇÃO 
 
‘ / ‘ e ‘ # ‘ 
 
 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 
1 J O S E M 2 0 
 1 8 0 . 5 7 8 . 5 
2 J O S E L U I S M 1 8 
 1 7 5 7 0 . 8 
3 A N A F 1 7 
 1 6 5 . 6 6 2 . 5 
4 A N A P A U L A F 2 1 
 1 6 8 5 5 
 
 
Ex.: DATA CLASSE; 
 INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. / 
 ALTURA 5. PESO 7-10; 
ou 
 DATA CLASSE; 
 INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. 
 #2 ALTURA 1-5. PESO 7-10; 
 
 
Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicação ‘#‘ 
sempre precederá o nome da variável, logo dispensa-se informar 
a próxima linha, ou seja, a partir da variável altura as demais 
variáveis o SAS entende que pertencem ao segundo cartão do 
registro. 
2 - Quando estivermos nos referindo a uma data devemos após a 
variável colocar sua formatação (DT_NASC DDMMYY8. ). 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
10
5.3 Comandos que lêem e gravam arquivos SAS 
 
 
- SET 
 
O comando SET é usado para transferir dados de um arquivo SAS 
existente para um novo arquivo SAS. 
 
Todas as variáveis do arquivo SAS são passadas automaticamente para o 
novo arquivo SAS (a não ser que sejam direcionadas de outra maneira com 
comandos de programação). 
 
• Novas variáveis que se queira criar devem ser adicionadas com 
comandos de atribuição. 
 
 
Ex.: DATA NOVACLAS; 
 SET CLASSES; 
 ANO_NASC=91-IDADE; 
 PROC PRINT DATA=NOVACLAS; 
 
Obs.: No arquivo criado pelo comando SET possui uma variável nova 
ANO_NASC. 
 
• Como criamos uma variável nova ao gerar o arquivo NOVACLAS, 
podemos também excluir variáveis, com o comando DROP associado ao 
comando SET; 
 
 
Ex.: DATA NOVACLAS; 
 SET CLASSES; 
 DROP NOME SEXO; 
 PROC PRINT DATA=NOVACLAS; 
 
 
• O campo (variável) NOME é através dessa variável referenciada com o 
BY que fará a junção dos dois arquivos num só. Obviamente que os 
dois arquivos deverão estar em ordem por NOME. 
 
 
Ex.: DATA AMBOS; 
 SET HOMENS MULHERES; 
 BY NOME; 
 PROC PRINT; 
 TITLE ´RESULTADO DA CONCATENACAO´; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
11
 
HOMENS MULHERES 
 
OBS DEPT NOME SEXO OBS DEPT NOME SEXO 
1 213 Alvaro m 1 914 Eliane f 
2 917 Otto m 2 918 Lorena f 
3 916 Ricardo m 3 917 Sonia f 
4 914 Vitor m 
 
Resultado da Concatenação (SET) 
 
HOMENS+MULHERES 
 
OBS DEPT NOME SEXO 
1 213 Alvaro m 
2 914 Eliane f 
3 918 Lorena f 
4 917 Otto m 
5 916 Ricardo m 
6 917 Sonia f 
7 914 Vitor m 
 
⇒ Outra observação que se faz necessária para usar este comando com 
a finalidadede juntar (concatenando) dois ou mais arquivos, é que a 
estrutura dos arquivos sejam idênticas, ou seja, com mesmas variáveis. 
 
Podemos também selecionar observações na criação de um novo 
arquivo com o comando IF 
 
- MERGE 
 
O comando MERGE é usado para juntar observações de dois ou mais 
arquivos, colocando os mesmos um ao lado do outro. 
 
Algumas considerações: 
 
- Até 50 arquivos pode ser “mergeados” em um procedimento. 
 
- Os arquivos de entrada devem estar ordenados pela variável(eis) chaves 
se um comando BY é utilizado. 
 
- O arquivo resultante (saída) conterá todas as variáveis presentes nos 
arquivos de entrada a menos que o comando DROP ou qualquer outro 
de seleção tenha sido utilizado. 
- 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
12
 
Ex.: DATA JUNTA; 
 MERGE GERAL SALARIO; 
 PROC PRINT; 
 TITLE ´ARQUIVO MERGEADO´; 
 
 
GERAL SALÁRIO 
 
OBS DEPT NOME SEXO OBS NOME SAL_LIQ SAL_BRU 
1 917 Sonia f 1 Sonia 169.10 279.10 
2 918 Alvaro m 2 Alvaro 223.00 310.05 
3 917 Otto m 3 Otto 329.05 410.75 
4 914 Eliane f 4 Eliane 650.70 715.12 
5 916 Lorena f 5 Lorena 380.95 470.30 
 
 
“MERGEADO” 
 
OBS DEPT NOME SEXO SAL_LIQ SAL_BRU 
1 917 Sonia f 169.10 279.10 
2 918 Alvaro m 223.00 310.05 
3 917 Otto m 329.05 410.75 
4 914 Eliane f 650.70 715.12 
5 916 Lorena f 380.95 470.30 
 
Obs.: O comando BY não foi necessário ao “mergear” os arquivos porque 
a chave principal NOME nos dois arquivos estão na mesma ordem. 
Se não estivessem o comando BY seria necessário, assim como 
teríamos que classificar os arquivos através do comando SORT. 
 
- OUTPUT 
 
O comando OUTPUT pode ser usado para: 
 
→ Criar duas ou mais observações para cada linha de entrada. 
 
→ Combinar diversas observações a partir de uma única observação. 
 
→ Criar um arquivo SAS sem nenhum dado de entrada. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
13
 
Ex.: Criando quatro observações SAS de cada linha de entrada 
 
 
 DATA RECEITA; 
 INPUT ANO TRIM1 TRIM2 TRIM3 TRIM4; 
 TRIMESTRE=1; VENDAS=TRIM1; OUTPUT; 
 TRIMESTRE=2; VENDAS=TRIM2; OUTPUT; 
 TRIMESTRE=3; VENDAS=TRIM3; OUTPUT; 
 TRIMESTRE=4; VENDAS=TRIM4; OUTPUT; 
 CARDS; 
 1996 1.2 0.9 1.1 1.5 
 1997 1.7 1.9 2.4 2.5; 
 PROC PRINT; 
 TITLE ´RESULTADO DA EXECUCAO DO ARQUIVO RECEITA´; 
 RUN; 
 
 
SAÍDA 
 
ANO TRIM1 TRIM2 TRIM3 TRIM4 TRIMESTRE VENDAS 
1996 1.2 0.9 1.1 1.5 1 1.2 
1996 1.2 0.9 1.1 1.5 2 0.9 
1996 1.2 0.9 1.1 1.5 3 1.1 
1996 1.2 0.9 1.1 1.5 4 1.5 
1997 1.7 1.9 2.4 2.5 1 1.7 
1997 1.7 1.9 2.4 2.5 2 1.9 
1997 1.7 1.9 2.4 2.5 3 2.4 
1997 1.7 1.9 2.4 2.5 4 2.5 
 
 
5.4 Comandos que atuam sobre valores de dados 
 
 
- Criando variáveis 
 
Quando se cria nova variável, se está adicionando um novo grupo de 
valores de dados ao arquivo. 
 
Por exemplo, supondo que temos um arquivo com as seguintes variáveis: 
 
ALUNO NOTA1 NOTA2 NOTA3 
 
se quisermos criar uma nova variável chamada MEDIA devemos: 
 
MEDIA = (NOTA1 + NOTA2 + NOTA3)/3; 
 
Este comando informa para o SAS: 
 
• O sinal ‘ = ‘ significa atribua ao valor da esquerda o que se refere à esquerda. 
• Para cada observação (linha) do arquivo, some as três notas (variáveis) 
e divida por 3; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
14
 
• De o nome ao resultado obtido de MEDIA (nova variável). 
 
Obs.: As demais variáveis continuam disponíveis para posteriores 
cálculos. 
 
- Funções e expressões 
 
Operações aritméticas mais conhecidas: 
 
SÍMBOLO OPERAÇÃO EXEMPLO NO SAS 
] ] exponenciação Y = X2 Y = X ** 2 
] multiplicação A = B x C A = B * C 
/ divisão A = H / I A = H / I 
+ adição R = S + T R = S + T 
- subtração X = Z - W X = Z - W 
 
Outras funções numéricas: 
 
FUNÇÃO O que faz 
ABS Valor absoluto 
SQRT Raiz quadrada 
COS Cosseno 
SIN Seno 
ARCOS Arcosseno 
LOG Logaritmo neperiano (base e) 
LOG10 Logaritmo base 10 
SUM Soma 
MEAN Média aritmética 
VAR Variância 
MIN Valor mínimo 
MAX Valor máximo 
STD Desvio padrão 
ROUD Valor arredondado 
 
 
Ex.: X = 326.25; 
 Y = ROUND (X); RESULTADO ⇒ Y = 327 
(não está nas normas brasileiras) 
 Z = MIN (Y); 
 Z = MIN (of L – Y); 
 W = SQRT (A + B/C); 
 K = MEAN (IDADE); 
 K = MEAN (of V1 – V7); 
 SOMA= SUM (of V1 – V10); 
 
5.5 Comandos de Informação 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
15
 
- DROP 
 
O comando DROP exclui a variável ou variáveis indicadas, da análise em 
questão; 
 
O comando DROP é válido no DATA e nas PROCs. Não é um comando 
executável, fornece a informação ao SAS quando o comando é compilado. 
 
O comando DROP poderá ser escrito em qualquer posição. 
 
Ex.: DROP IDADE SEXO; 
 
⇒ O comando DROP retira a variável, portanto, todos os valores de 
IDADE e SEXO são desconsiderados (coluna). 
 
- TITLE 
 
O comando TITLE define cabeçalhos a serem impressos no topo das 
páginas de saída. Até dez títulos poderão ser especificados. 
 
Forma Geral → TITLEn ´t i t u l o´; 
 
n = número da linhas do título. 
 
Ex.: TITLE1 ´ Levantamento Sócio-econômico; 
 TITLE2 ´ da´; 
 TITLE3 ´Populacao Periferica de Santa Maria´; 
 
- FOOTNOTE 
 
Define o texto a ser impresso no rodapé das páginas de saída. A sintaxe é 
a mesma do comando TITLE. 
 
Ex.: FOOTNOTE ´Departamento de Estatística - UFSM´; 
 
- LABEL 
 
O comando LABEL é usado para atribuir rótulos (nomes) descritivos de 
até 40 caracteres. 
 
Rótulos podem ser atribuídos temporariamente para a duração de apenas 
um processamento, ou permanente definido no primeiro DATA. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
16
 
Ex1.: DATA CLASSES; 
 INPUT NOME $ 8. SEXO $ 11 IDADE 13-14 
 ALT 13-19 PESO 21-25; 
 CARDS; 
 Linha de Dados; 
 PROC MEANS; 
 VAR ALT PESO; 
 LABEL ALT=’ALTURA EM POLEGADAS’ 
 PESO=’PESO EM LIBRAS’; 
 TITLE ‘ESTATISTICAS DAS ALTURAS E DOS PESOS’; 
 RUN; 
 
 
 
 
Ex2.: DATA CLASSES; 
 INPUT V1 – V3; 
 LABEL V1=’NÚMERO DE ALUNOS’ 
 V2=’CURSO’ 
 V3=’SEXO’; 
 CARDS; 
 
 
- COMMENT 
 
O comando COMMENT serve para documentar. Pode ser usado em 
qualquer parte do programa. 
 
Início (/*) Fim (*/) 
 
 
Ex.: DATA EMPREGO; 
 INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; 
 /* CALCULO DO INSS */ 
 INPS = SAL * .12; 
 IF DEPTO=201 THEN 
 DO; 
 DEPTO=´VENDA´; 
 COM=VENDA*.10; 
 /* CALCULO DO SALARIO BRUTO*/ 
 SAL_BRUTO=COM+SAL; 
 /* CALCULO DO DESCONTO */ 
 DESC=INPS + SEG; 
 /* CALCULO DO SALARIO LIQUIDO */ 
 SAL_LIQ=SAL_BRUTO - DESC; 
 END; 
 CARDS; 
 
Obs.: Este comando também poderá cancelar uma determinada operação 
temporariamente; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
17
 
- FORMAT 
 
O comando FORMAT é usado para especificar os formatos para valores 
dos dados. 
 
Os formatos podem ser definidos apenas para a apuração de uma 
“procedure – PROC”. 
 
 
Ex.: DATA CLASSE; 
 INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO; 
 CARDS; 
 ... 
 ... 
 ; 
 PROC FORMAT; 
 VALUE SEX 1 = ‘MASCULINO’; 
 2 = ‘FEMININO’; 
 PROC PRINT; 
 FORMAT SEXO SEX.; 
 TITLE ’USANDO O COMANDO FORMAT’; 
 RUN; 
 
 
5.6 Comandos que controlam o fluxo lógico de programação 
 
 
- IF (THEN / ELSE) 
 
Algumas vezes necessita-se trabalhar com parte dos dados, não todos. 
Por exemplo suponhamos que se queira analisar somente o sexo masculino. O 
comando IF pode ser usado para esta seleção. 
 
 
Ex.: DATA A1; 
 INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO; 
 IF SEXO=M; 
 CARDS; 
 Linha de Dados; 
 
 
O SAS lê cada observação e verifica se o SEXO é “M” (masculino), caso 
contrário nova observação será lida. 
 
⇒ A condição IF poderá ser Verdadeira(THEN) ou Falsa (ELSE). 
 
⇒ A condição IF também pode ser uma simples comparação de uma 
variável ou valor. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
18
 
Ex.: IF ALTURA < 172 THEN DELETE; 
 
 IF PRETEST < TESTE THEN RESULT=´SIM´; 
 ELSE RESULT=´NÃO´; 
 
 
Principais operadores de comparação: 
 
Símbolo Abreviatura Comparação 
< LT Menor que 
≤ LE Menor que ou igual a 
> GT Maior que 
≥ GE Maior que ou igual a 
= EQ Igual 
≠ NE Diferente 
 
Principais operadores lógicos: 
 
Símbolo Comparação 
OR Um ou outro 
AND E, ambos 
NOT Não, negação 
 
⇒ A condição IF pode envolver comparações de ANDs e de ORs. 
 
 
 
Ex.: IF ESTADO=´RS´ AND CIDADE=´SANTA_MARIA’ 
THEN REGIAO=´SUL´; 
 
 IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50 
 THEN LIST; 
 
 IF RESULT=68 THEN RESP=´CERTO´; 
 ELSE RESP=´ERRADO´; 
 
 
• Usando o comando IF com melhor aproveitamento: 
 
IF CODIGO=1 THEN RESPOSTA=´BOM´; 
 ELSE 
 IF CODIGO=2 THEN RESPOSTA=´REGULAR´; 
 ELSE 
 IF CODIGO=3 THEN RESPOSTA=´RUIM´; 
 
 
• Uso do comando DO e END associado ao comando IF: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
19
 
O comando DO especifica que todos os comandos entre ele e o comando 
END devem ser executados; 
 
 
Ex.: DATA EMPREGO; 
INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 
VENDA 25-29; 
INPS = SAL * .12; 
IF DEPTO=201 THEN 
DO; 
DEPTO=´VENDA´; 
COM=VENDA*.10; 
SAL_BRUTO=COM+SAL; 
SEG=SAL_BRUTO*.001; 
DESC=INPS + SEG; 
SAL_LIQ=SAL_BRUTO - DESC; 
END; 
ELSE DO; 
DPTO=´ADMIN´; 
SAL_LIQ=SAL - INPS; 
CARDS; 
Linha de Dados; 
 
 
- DELETE 
 
Quando se quer descartar uma observação., por ela conter um valor não 
válido para a análise que se esta tratando usa-se o comando DELETE; 
 
Quando este comando é carregado o SAS para de trabalhar na 
observação corrente, não adicionando ao arquivo SAS que esta sendo criado, e 
começa imediatamente na observação seguinte. 
 
O comando DELETE normalmente aparece com parte de um comando IF. 
 
Ex.: IF SEXO=´F´ THEN DELETE; 
 
 IF SEXO=´F´ THEN IDADE LE 14 THEN DELETE; 
 
 
⇒ O comando DELETE retira toda a observação do arquivo, logo 
aconselha-se colocá-lo dentro de uma rotina “DATA SET”; 
 
Ex.: DATA A1; SET A; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
20
6 PRINCIPAIS “PROCEDURES” - PROCs 
 
 
6.1 PROC SORT 
 
 
Função: Quando se precisa ordenar os dados. 
 
A ordem das observações não importa muito para o processamento 
estatístico, por exemplo para calcular a média da ALTURA dos alunos por SEXO, 
a ordem como estão as observações não importa. Porém necessita-se LISTAR as 
observações por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por 
SET, as observações terão que estar ordenadas (SORT). Por exemplo se 
quisermos combinar as informações do estudo de ALTURA e PESO deste ano 
com as dos anos anteriores ambos os arquivos deverão ser ordenados. 
 
• A ordenação é a arrumação das observações de um arquivo em ordem 
determinada pelos valores de uma ou mais variáveis indicados no 
comando BY (POR). 
 
• Para ordenar-se um arquivo usa-se a “procedure” PROC SORT seguida 
do comando BY que indicará a variável pela qual o arquivo será 
ordenado. 
 
 
Ex.: PROC SORT DATA=TESTE; 
 BY NOME; 
 
 
Suponha que temos um arquivo chamado PESQUISA e que queremos 
ordená-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente 
por NOME de cada cidade. 
 
 
Ex.: PROC SORT; BY PESQUISA; 
 BY ESTADO CIDADE NOME; 
 
 
Obs.: A ordenação vista até aqui foi feita em cima do próprio arquivo 
(PESQUISA). Se não desejar que isso aconteça use o comando 
OUT. 
 
 
Ex.: PROC SORT; BY PESQUISA; 
 OUT = NOVO; 
 BY ESTADO CIDADE NOME; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
21
• Os registros após a ordenação estarão gravados no arquivo chamado 
NOVO e no arquivo PESQUISA continuam desordenados. 
 
Obs.: Existem outros tipos de rotinas de programação usando o PROC 
SORT, onde poderemos incluir outras PROCs dentro dela. 
 
 
 Ex.: PROC SORT; BY SEXO; 
 PROC FREQ; 
 TABLES V1 V2 V3 /LIST; 
 PROC UNIVARIATE; 
 VAR V1 V2 V3; 
 PROC COR; 
 VAR V1; 
 WITH V2 V3; 
 
 
 
6.2 PROC PRINT 
 
 
Este “procedure” serve para imprimir (listar) seus dados no relatório. 
 
Ex.: Listar ALTURA e PESO dos homens separado das mulheres 
 
 INPUT SEXO $ ALTURA PESO; 
 CARDS; 
 Linha de Dados; 
 PROC PRINT; BY SEXO; 
 
 
Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar 
o DATA, a impressão será do último DATA referenciado. 
 
2 - O PROC PRINT imprime todos os dados, se for seguido do 
comando VAR imprimirá somente as variáveis selecionadas no 
comando VAR. 
 
 Ex.: PROC PRINT DATA=TESTE; 
 VAR NOME IDADE ALTURA; 
 
3 – O comando PROC PRINT poderá listar em função de um valor 
de uma determinada variável 
 
 Ex.: PROC PRINT DATA=TESTE; 
 VAR NOME IDADE ALTURA; 
 WHERE SEXO=M; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
22
6.3 PROC FORMAT 
 
 
O procedimento FORMAT é usado para criar formatos definidos pelos 
usuários. 
 
Comando usado no PROC FORMAT → VALUE 
 
VALUE NOME VALOR = ´DESCRIÇÃO´; 
 
O NOME obedece as mesmas regras usadas para variáveis (8 
caracteres), pois não deixa de ser uma nova variável selecionada. 
 
A DESCRIÇÃO terá tamanho máximo de 40 caracteres e deverá ser 
incluída entre aspas (´ ´). 
 
 
Ex.: PROC FORMAT; 
 VALUE FAIXAS LOW-12 = ´CRIANCA´ 
 13-19 = ´JOVEM´ 
 20-HIGH = ´ADULTO´; 
 
 VALUE $SEX F = ‘FEMININO’ 
 M = ‘MASCULINO’; 
 
 
 
Obs.: LOW = Lowest → (do menor valor) 
 HIGH = Highest → (ao maior valor) 
 
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 ... 
 ... 
 PROC FORMAT; 
 VALUE FAIXAS LOW-12 = ´CRIANCA´ 
 13-19 = ´JOVEM´ 
 20-HIGH = ´ADULTO´; 
 VALUE $SEX F = ‘FEMININO’ 
 M = ‘MASCULINO’; 
 PROC PRINT; 
 FORMAT IDADE FAIXAS. SEXO $SEX.; 
 RUN; 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
23
6.4 PROC FREQ 
 
 
O procedimento FREQ será útil para variáveis discretas e qualitativas. 
Para as variáveis contínuas aconselha-se usar o PROC UNIVARIATE ou PROC 
MEANS, pois este tipo de variável possui muitos valores diferentes. 
 
Outro benefício que a tabela de freqüência ou tabulação cruzada oferece 
é poder sumarizar variáveis caracteres, porque somente variáveis numéricas 
podem ser sumarizadas por estatísticas como média e desvio padrão. 
 
- Tabelas de Freqüência Simples 
 
Este tipo de tabela poderá ajudar a sumarização dos dados. Mostrar as 
distribuição dos valores das variáveis, podendo-se verificar quantas observações 
tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19 
anos e assim por diante. 
 
Para obter as Tabelas de Freqüências Simples das variáveis que 
interessam usa-se o comando TABLES com a relação das mesmas. 
 
 
Ex.: PROC FREQ; 
 TABLES IDADE PESO ALTURA; 
ou 
 PROC FREQ; 
 TABLES IDADE PESO ALTURA /LIST; 
 
 
Podemos utilizar o comando FORMAT: 
 
 
Ex.: PROC FREQ; 
 TABLES IDADE /LIST; 
 FORMAT IDADE FAIXAS.; 
 TABLES SEXO /LIST; 
 FORMAT SEXO SEXOV.; 
 
 
Com o uso do comando FORMAT na tabela de freqüência para as 
variáveis IDADE e SEXO teremos no relatório a DESCRIÇÃO para cada valor. 
 
- Tabelas de Freqüência Cruzada 
 
A tabela de freqüência cruzada mostra a união da distribuição de valores 
de duas ou mais variáveis. Por exemplo, queremos saber quantas mulheres com 
19 anos temos no arquivo estudado. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
24
Para obter-mos a resposta devemos cruzar as duas variáveis: IDADE e 
SEXO.Ex.: PROC FREQ; 
 TABLES IDADE*SEXO /LIST; 
ou 
PROC FREQ; 
 TABLES IDADE*SEXO /LIST; 
 FORMAT IDADE FAIXAS. SEXO SEXOV.; 
 
 
Aconselha-se usar o comando /LIST para facilitar a visualização da tabela 
cruzada. Este comando também será aconselhado quando quisermos cruzar mais 
de duas variáveis. 
 
 
Ex.: PROC FREQ; 
 TABLES SEXO*IDADE*PESO /LIST; 
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 ... 
 PROC FREQ; 
 TABLES SEXO*(IDADE--PESO) /LIST /*(I até P)*/ 
 TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/ 
 RUN; 
 
 
6.5 PROC MEANS 
 
 
Suponhamos que no arquivo que se está estudando possua valores para 
a variável PESO. Pode-se obter um quadro completo desses pesos pela simples 
listagem dos mesmos (PROC FREQ). Mas isso significa que teríamos que olhar e 
analisar todos os valores. 
 
O PROC MEANS sumariza todos os valores para computar a média. 
Então teremos como resultado um único valor representativo para todo o grupo. 
 
O PROC MEANS fornece outras estatísticas como: 
 
- Número de Observações - Erro padrão 
- Média - Variância 
- Desvio Padrão - Coeficiente de variação 
- Valor Mínimo e Máximo 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
25
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 PROC MEANS; 
 VAR IDADE ALTURA PESO; 
 RUN; 
 
 
Usando o comando BY 
 
Podemos obter estatísticas sumarizadas por grupos de dados associados 
ao comando BY. Por exemplo queremos calcular as estatísticas para as mesmas 
variáveis do exemplo acima só que por SEXO. 
 
Obs.: Antes de usar o comando BY para qualquer “procedure” SAS, o arquivo 
deverá ser ordenado pelas variáveis a serem usadas pelo comando BY. 
 
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 PROC SORT; BY SEXO; 
 PROC MEANS; BY SEXO; 
 VAR IDADE ALTURA PESO; 
 RUN; 
 
 
Obs.: Valores não informados (representados por um ponto ‘ . ‘) não serão 
incluídos no cálculo da PROC MEANS. 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
26
SAS/STAT 
 
Pré requisito: Ter conhecimento de Estatística Básica. 
 
 Ter conhecimento do SAS/BASIC; 
 
Objetivo: 
 
Este curso tem por objetivo expor alguns conceitos estatísticos e 
interpretá-los através da utilização de procedimentos do Sistema SAS. Os 
exemplos apresentados ilustram características da “release” 6.08 do SAS/STAT e 
orientam o usuário na sua programação quando seu interesse for: 
 
Obter estatísticas descritivas elementares; 
 
9 Desempenhar testes estatísticos de significância para verificar a 
normalidade da distribuição de seus dados; 
 
9 Testar a igualdade de médias entre grupos de observações; 
 
9 Encontrar um modelo que explique o comportamento de seus dados e, 
através deste modelo, fazer previsões e calcular intervalos de 
confiança para parâmetros da população em estudo. 
 
9 Analisar a variabilidade de uma série de dados através do Método de 
Análise de Variância (ANOVA), critério de tomada de decisões 
estatisticamente formulado para detectar qualquer diferença no 
desempenho médio de um ensaio experimental. 
 
Os conceitos básicos serão abordados a medida que os procedimentos 
forem sendo utilizados, assim como a interpretação das principais saídas. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
27
7 ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE 
 
7.1 Introdução 
 
Depois que o usuário cria seu arquivo de dados ele pode desejar 
sumarizar estes dados através de medidas que descrevam seu comportamento. 
Estas medidas incluem parâmetros de posição como médias, modas, medianas, 
quartis e percentis, parâmetros de dispersão, como variâncias, desvios padrões, 
amplitude (range), e parâmetros que auxiliam na descrição da forma dos dados, 
como assimetria e curtose (ver anexo 2). 
 
Nos problemas que envolvem a Estatística Indutiva, os conjuntos de 
dados analisados são representados por amostras retiradas das populações de 
interesse. Sendo as amostras aleatórias, todos os seus elementos fornecerão 
valores aleatórios da variável em análise. Para caracterizar a distribuição dos 
diversos valores assumidos por uma variável aleatória, o conceito de distribuição 
de probabilidades deve ser utilizado e estendido às populações, ou seja, cada 
valor da amostra deve ser considerado como valor de uma variável aleatória cuja 
distribuição de probabilidade é a mesma da população no instante da retirada 
desse elemento da amostra. Os valores calculados em função dos elementos da 
amostra, denominam-se estatísticas. Se estas estatísticas forem utilizadas para 
inferir informações a respeito de uma população, elas são consideradas como 
variáveis aleatórias, e terão, portanto uma distribuição de probabilidades, com 
uma média, uma variância, etc. Muitos métodos da análise estatística assumem 
que os dados da amostra provém de uma população com distribuição normal. A 
distribuição normal tem uma definição matemática precisa, com as seguintes 
características: 
 
- ser completamente definida por sua média e seu desvio padrão. 
 
- ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que 
por sua vez coincide com sua mediana. 
 
- ser uma distribuição regular. Do seu ponto central mais alto até suas 
extremidades não existe padrões irregulares. 
 
- ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição). 
 
7.2 Teste de normalidade 
 
Nos testes de normalidade é estabelecida a idéia de que uma amostra 
provém de uma distribuição normal. Através da amostra uma estatística é 
calculada e testada para checar essa idéia. Uma comparação é feita entre a 
forma da distribuição da amostra, com a forma de uma distribuição normal. Se 
não for encontrada nenhuma evidência para rejeitar a hipótese de normalidade, 
prossegue-se as análises baseando-se na suposição de que os dados da amostra 
são normalmente distribuídos (análise paramétrica). Quando os dados não são 
gerados por uma distribuição normal, a análise deve ser baseada em métodos 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
28
não paramétricos. A distribuição normal é simétrica, com os valores distribuídos 
em forma de sino. 
 
Ao desempenhar um teste de hipótese tem-se sempre uma hipótese 
nula que descreve uma idéia sobre a população, e uma hipótese alternativa, que 
descreve uma idéia alternativa sobre a população. 
 
Nos testes para a normalidade, a hipótese nula é que os dados da 
amostra são gerados por uma distribuição normal. A hipótese alternativa é que 
eles são gerados por uma distribuição não normal. O método utilizado para testar 
hipóteses consiste num conteúdo de decisão onde a probabilidade de rejeitar a 
hipótese nula, sendo ela verdadeira (erro do tipo I), não excede um valor pré-
fixado chamado de nível de significância α do teste. Ao menor nível de 
significância para o qual a hipótese nula é rejeitada denominamos probabilidade 
de significância (p-valor). Se p-valor > α há evidências de que a hipótese nula é 
verdadeira. 
 
A PROC UNIVARIATE é utilizada para a obtenção de estatísticas 
descritivas. Ela difere de outros procedimentos SAS por fornecer maiores 
detalhes das variáveis, tais como plots das distribuições, tabelas de freqüência e 
testes estatísticos para a normalidade. 
 
FORMA GERAL: 
 
PROC UNIVARIATE DATA = arquivo de dados opções; 
 VAR variáveis; 
 BY variáveis; 
 FREQ variável; 
 ID variáveis; 
OUTPUT OUT = arquivo de dados palavra-chave = nomes; 
 
OPÇÕES DISPONÍVEIS: 
 
FREQ gera uma tabela de freqüência com valores de freqüência, 
percentagens e percentagens acumuladas. 
 
NOPRINT suprime toda a informação do OUTPUT. Esta opção é utilizada 
geralmente na criação de umarquivo de dados de saída. 
 
NORMAL desempenha um teste para a hipótese nula de que os dados provém 
de uma distribuição normal. Dependendo do tamanho da amostra, o 
teste utilizado será baseado na estatística de Shapiro-Wilk (N<2000) 
ou na estatística de Kolmogorov’s D. (N>2000). 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
29
PLOT produz plotes de probabilidade da distribuição normal e plotes em 
“box” que auxiliam na determinação da forma da distribuição dos 
dados investigados. 
 
COMANDOS SELECIONADOS: 
 
VAR lista as variáveis a serem sumarizadas no arquivo de dados. 
 
BY especifica subgrupos onde as estatísticas devem ser obtidas. Para 
usar este comando o arquivo já deverá estar ordenado pela variável 
de subgrupo . 
 
FREQ especifica variáveis de freqüência. 
 
ID especifica as variáveis que irão identificar os valores extremos. 
 
OUTPUT OUT cria arquivo de saída que irá gravar as estatísticas geradas. 
 
 
Estatísticas reservadas utilizadas na criação de um arquivo de saída: 
 
N NMISS Prob T 
MEAN VAR KURTOSIS 
STDMEAN CV MEDIAN 
SUM RANGE 
STD SKEWNESS 
 
Ex1.: Resultados obtidos de uma distribuição aproximadamente Normal. 
 
Para ilustrar, suponha que estejamos analisando uma amostra. No 
programa SAS abaixo, a idade de cada pessoa está sendo representada pela 
variável IDADE, e sua identificação pela variável IDENT. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA NORM A; /* EXEMPL01 SAS */ 
INPUT IDENT IDADE @@; 
CARDS; 
1 72 2 69 3 75 4 71 5 71 6 73 
7 70 8 67 9 71 10 72 11 73 12 68 
13 69 14 70 15 70 16 71 17 74 18 72 
; 
PROC UNIVARIATE NORMAL PLOT FREQ; 
 VAR IDADE; 
 ID IDENT; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
30
ANÁLISE DOS RESULTADOS: 
 
Univariate Procedure 
 
Variable=IDADE 
 
Moments 
 
 N 18 Sum Wgts 18 
 Mean 71 Sum 1278 
 Std Dev 2.057983 Variance 4.235294 
 Skewness 0 Kurtosis -0.13576 
 USS 90810 CSS 72 
 CV 2.898568 Std Mean 0.485071 
 T:Mean=0 146.3702 Pr>|T| 0.0001 
 Num ^= 0 18 Num > 0 18 
 M(Sign) 9 Pr>=|M| 0.0001 
 Sgn Rank 85.5 Pr>=|S| 0.0001 
 W:Normal 0.98356 Pr<W 0.9666 
 
A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste 
para normalidade. O valor zero de assimetria traduz a forma simétrica da 
distribuição. A estatística de curtose de -0.13576 significa que a distribuição de 
valores é relativamente achatada. O alto p-valor associado ao teste de 
normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se 
obtenha este mesmo resultado se os dados fossem oriundos de uma população 
Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em 
geral, rejeita-se a hipótese nula de normalidade dos dados somente quando o p-
valor for menor que 0.05 . 
 
Os quartis, percentis, a moda da distribuição, e os valores extremos estão 
relacionados a seguir: 
 
Quantiles(Def=5) 
 
 100% Max 75 99% 75 
 75% Q3 72 95% 75 
 50% Med 71 90% 74 
 25% Q1 70 10% 68 
 0% Min 67 5% 67 
 1% 67 
 Range 8 
 Q3-Q1 2 
 Mode 71 
 
Extremes 
 
 Lowest ID Highest ID 
 67( 8) 72( 18) 
 68( 12) 73( 6) 
 69( 13) 73( 11) 
 69( 2) 74( 17) 
 70( 15) 75( 3) 
 
O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados. 
Entre estes plotes e o ‘boxplot’, há uma coluna que fornece a freqüência de 
observações em cada barra. O box plote indica o 25o e 75o percentil. A linha 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
31
central indica a mediana (50o percentil). O sinal de (+) indica a média da 
distribuição, que está coincidindo com a mediana. 
 
 
 Stem Leaf # Boxplot 
 75 0 1 | 
 74 0 1 | 
 73 00 2 | 
 72 000 3 +-----+ 
 71 0000 4 *--+--* 
 70 000 3 +-----+ 
 69 00 2 | 
 68 0 1 | 
 67 0 1 | 
 ----+----+----+----+ 
 
O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+) 
formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra é 
gerada por uma distribuição normal, os asteriscos devem formar uma linha reta e 
cobrir a maioria dos sinais positivos. A distribuição amostral aproxima-se da 
normalidade. 
 
Univariate Procedure 
 
Variable=IDADE 
 
 Normal Probability Plot 
 75.5+ * +++++ 
 | * +++++ 
 | * +*+++ 
 | **+*++ 
 71.5+ **+**++ 
 | * **+++ 
 | * +*+++ 
 | +*+++ 
 67.5+ +*+++ 
 +----+----+----+----+----+----+----+----+----+----+ 
 -2 -1 0 +1 +2 
 
f(+) = 71 + 2.05 IDADE 
 
A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de 
distribuição de freqüência onde o número de ocorrências de cada valor da variável 
IDADE é contabilizado juntamente com os percentuais e percentuais acumulados 
de ocorrência em cada categoria. 
 
Frequency Table 
 
 Percents Percents 
 Value Count Cell Cum Value Count Cell Cum 
 67 1 5.6 5.6 72 3 16.7 77.8 
 68 1 5.6 11.1 73 2 11.1 88.9 
 69 2 11.1 22.2 74 1 5.6 94.4 
 70 3 16.7 38.9 75 1 5.6 100.0 
 71 4 22.2 61.1 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
32
8 - ANÁLISE DE CORRELAÇÃO E REGRESSÃO 
 
 
8.1 Introdução 
 
 
Existem numerosos procedimentos estatísticos para investigar 
relacionamentos bivariados (entre somente duas variáveis). Estes procedimentos 
podem fornecer um teste estatístico de significância, uma medida de associação, 
ou ambos. O teste estatístico objetiva testar hipóteses sobre o grau de 
relacionamento entre variáveis na população. Por exemplo, o coeficiente de 
correlaçãode Pearson. Num estudo para se testar a hipótese nula de que a 
correlação entre duas variáveis é zero na população, uma amostra de 200 
observações determinou um coeficiente de correlação entre duas variáveis de 
0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade 
de significância de 0.001. Este p-valor sugere que existe menos que uma chance 
em 1000 de se obter um valor igual ou superior à 0.35, para correlação amostral, 
se a hipótese nula fosse verdadeira. Rejeita-se portanto a hipótese nula, 
concluindo-se que a correlação é significativamente diferente de zero na 
população. 
 
A escolha apropriada da estatística a ser usada no estudo do 
relacionamento entre duas variável irá depender da natureza delas. Atenção 
particular deve ser dada aos níveis de medidas usados para avaliar as duas 
variáveis. Uma breve discussão à este respeito é feita a seguir. 
 
Uma variável medida numa escala nominal representa classes que 
indicam o grupo ao qual pertence uma determinada observação. Por exemplo, 
SEXO é uma variável que está numa escala nominal. Uma observação pode ser 
classificada como sendo da classe "masculino" ou da classe "feminino". 
 
Uma variável medida numa escala ordinal representa valores num “rank” 
ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma 
fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado 
com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este “rank” de 
valores são ditos ordinais. Escalas ordinais de valores porém possuem uma 
limitação: iguais diferenças na escala de valores não tem necessariamente o 
mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade 
verbal entre um aluno com grau 1 e um aluno com grau 2 não é necessariamente 
a mesma diferença existente entre as habilidades de um aluno com grau 2 e um 
com grau 3. 
 
Uma variável medida numa escala de intervalo significa que iguais 
diferenças entre valores da escala tem igual significado quantitativo. Um exemplo 
é a escala Fahrenheit de medição de temperatura. A diferença entre 70 e 75 
graus é igual a diferença entre 75 e 80 graus. As unidades de medidas são iguais 
através de todo o range da escala. A limitação existente nesta escala é que não 
existe um ponto zero real, ou seja, o zero da distribuição de temperaturas não 
indica que não haja nenhum calor presente no ambiente. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
33
 
Uma variável medida numa escala de razão é aquela que iguais 
diferenças entre valores da escala tem igual significado quantitativo. Neste caso, 
além deste fato, é possível interpretar a razão entre os valores da escala. Um 
valor para peso igual à zero indica nenhum peso corporal. Com isto, é possível 
estabelecer que o peso de uma criança com 20 Kg é o dobro de peso de uma 
criança com 10 kg . 
 
A tabela a seguir identifica as estatísticas apropriadas para avaliar o 
relacionamento de pares de variáveis nos seus respectivos níveis de medida. 
 
TABELA COM ESTATÍSTICAS APROPRIADAS 
 
 
 PREDITORA (INDEPENDENTE) – Xi 
 Nominal Ordinal Intervalo Razão 
R 
E 
Razão ANOVA Spearman Pearson ou 
Spearman 
Pearson ou 
Spearman 
S 
P 
Intervalo ANOVA Spearman Pearson ou 
Spearman 
-------- 
O 
S 
Ordinal Kruskal 
Wallis 
Spearman --------- -------- 
T 
A 
Nominal Chi-quadrado --------- --------- -------- 
 
8.2 Correlação de Pearson (PROC CORR) 
 
O estudo de medidas de associação reflete o grau da intensidade da 
relação entre variáveis. Se X e Y representam duas variáveis, ambas acessadas 
na escala de intervalo ou de razão, o diagrama de dispersão irá mostrar a 
localização dos pontos (x , y) em um sistema de coordenadas retangulares. Se os 
pontos desse diagrama se distribuírem nas proximidades de uma reta, como nas 
figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os pontos 
se distribuírem próximos de alguma curva, a correlação é denominada não linear, 
como pode ser visto na figura (C). Quando os pontos não apresentam nenhuma 
forma definida, figura (D), diz-se que as variáveis x e y são não correlacionadas. 
Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento 
entre duas variáveis com relacionamento não linear, ele normalmente subestima o 
verdadeiro valor. Por esta razão é sempre prudente avaliar primeiro o diagrama 
de dispersão para as variáveis, usando para isso a PROC PLOT, que tem a 
seguinte forma geral: 
 
PROC PLOT DATA= ARQSAS; 
PLOT Y*X; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
34
 
 
 
 
Para o tratamento quantitativo do problema da dispersão dos dados 
amostrais é necessário estabelecer medidas de correlação. O coeficiente de 
correlação de Pearson, simbolizado por “r”, será utilizado para medir o 
relacionamento entre duas variáveis que estejam na escala de intervalo ou de 
razão. Outra consideração a ser feita ao usar esta medida de associação, é que 
ambas as amostras tenham sido retiradas de uma população Normal. Caso 
contrário, uma medida de associação não paramétrica deverá ser usada, tal como 
o coeficiente de correlação de Spearman. 
 
O range de “r” varia de -1 a 1. Se “r” for um valor próximo de 1 significa 
que as duas variáveis são correlacionadas positivamente, se for próximo de -1, 
significa que as variáveis são correlacionadas negativamente. Valores de “r” 
próximos de zero correspondem a uma dispersão de pontos que não mostra nem 
uma tendência crescente, nem decrescente, indicando uma baixa correlação 
entre as variáveis. 
 
PROC CORR 
 
A “procedure” CORR é utilizada para gerar coeficientes de correlação. 
Quando é utilizada sozinha, ela obtém coeficientes de Pearson para todas as 
variáveis numéricas do arquivo, além de estatísticas básicas como médias e 
desvios padrões da distribuição de dados. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
35
Outros coeficientes de correlacão podem ser obtidos como opção da 
PROC CORR. São eles: Kendall, Hoeffding e Spearman, que são medidas não 
paramétricas de associação . 
 
FORMA GERAL: 
 
PROC CORR opções; 
 VAR variáveis; 
 WITH variáveis; 
 FREQ variáveis; 
 BY variáveis; 
RUN; 
 
OPÇÕES DISPONÍVEIS: 
 
DATA= arquivo.sas arquivo com os dados a serem analisados. 
 
OUTP= arquivo.sas arquivo de saída - Pearson 
 
OUTS= arquivo.sas arquivo de saída - Sperman 
 
OUTK= arquivo.sas arquivo de saída - Kendall 
 
OUTH = arquivo.sas arquivo de saída - Hoeffding 
 
NOSIMPLE suprime a impressão das estatísticas descritivas 
básicas. 
 
COMANDOS DISPONÍVEIS: 
 
VAR variáveis especifica as variáveis a serem correlacionadas 
 
WITH variáveis especifica as variáveis que devem aparecer na lateral 
da matriz de correlação. 
 
FREQ variável especifica variáveis de freqüência 
 
BY variáveis especifica subgrupos onde a correlação deve ser 
obtida. Para usar o comando BY, o arquivo já deve 
estar ordenado pela variável de subgrupo. 
 
Ex2.: O tempo necessário para um trem parar depois que percebe um perigo é 
composto de tempo de reação e tempo de freagem. A variável DIST 
representa a distância de parada de um trem que está a uma velocidade 
VELOC no instante que o perigo é avistado. Analise o diagrama de 
dispersão e determine o coeficiente de correlação entre as duas variáveis. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
36
OPTIONS FORMDLIM='*' LS=80; 
DATA PERIGO A; /* EXEMPL02 SAS */ 
INPUT VELOC DIST @@; 
CARDS; 
20 54 
30 90 
40 138 
50 206 
60 292 
70 396 
; 
PROC PLOT; 
 PLOT DIST*VELOC; 
PROC CORR; 
 VAR VELOC DIST; 
TITLE 'CORRELAÇAO ENTRE VELOCIDADE E DISTANCIA DE PARADA'; 
RUN; 
 
ANÁLISE DOS RESULTADOS: 
 
Plot of DIST*VELOC. Legend: A = 1 obs, B = 2 obs,etc. 
 
DIST | 
 | 
 400 + A 
 | 
 | 
 | A 
 | 
 | 
 200 + A 
 | 
 | A 
 | A 
 | A 
 | 
 0 + 
 --+-------------+-------------+-------------+-------------+-------- 
 20 30 40 50 60 70 
 
 VELOC 
 
O diagrama de dispersão ostra claramente uma tendência crescente da 
distribuição dos dados, ou seja, aumentando-se a velocidade do trem, aumenta-
se a distância de parada. 
 
CORRELACAO ENTRE VELOCIDADE E DISTANCIA DE PARADA 
 
Correlation Analysis 
 
2 'VAR' Variables: VELOC DIST 
 
 
Simple Statistics 
 
Variable N Mean Std Dev Sum Minimum Maximum 
 
VELOC 6 45.00000 18.70829 270.00000 20.00000 70.00000 
DIST 6 196.00000 129.67652 1176 54.00000 396.00000 
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6 
 
 VELOC DIST 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
37
 VELOC 1.00000 0.98268 
 0.0 0.0004 
 
 DIST 0.98268 1.00000 
 0.0004 0.0 
 
O valor de 0.98268 mede o coeficiente de correlação entre as variáveis VELOC e 
DIST. Um p-valor de 0.0004 indica uma forte evidência que a correlação é não 
nula. O p-valor é a probabilidade de significância para se testar a hipótese de que 
a verdadeira correlação da população em questão é zero. 
 
Ex3.: Determinar o coeficiente de correlação entre as alturas e os pesos de 300 
homens nos EUA, constantes da seguinte tabela de freqüências: 
 
 Altura (metros) 
 1.5 a 1.58 1.6 a 1.68 1.7 a 1.78 1.8 a 1.88 1.9 a 1.98 
 45 a 54.5 2 1 0 0 0 
P 55 a 64.5 7 8 4 2 0 
E 65 a 74.5 5 15 22 7 1 
S 75 a 84.5 2 12 63 19 5 
O 85 a 94.5 0 7 28 32 12 
(kg) 95 a 104.5 0 2 10 20 7 
 105 a 114.5 0 0 1 4 2 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA AGRUPA A; /* EXEMPL03 SAS */ 
 DO MEDPES = 49.75 T0 109.75 BY 10; 
 DO MEDALT = 1.54 TO 1.94 BY 0.10; 
 INPUT N_OBS @@; 
 OUTPUT; 
 END; 
 END; 
CARDS; 
2 1 0 0 0 
7 8 4 2 0 
5 15 22 7 1 
2 12 63 19 5 
0 7 28 32 12 
0 2 10 20 7 
0 0 1 4 2; 
; 
PROC PRINT; 
PROC CORR; 
 VAR MEDPES MEDALT; 
 FREQ N_OBS; 
TITLE 'CORRELACAO PARA DADOS AGRUPADOS'; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
38
ANÁLISE DOS RESULTADOS: 
 
OBS MEDPES MEDALT N_OBS 
 
 1 49.75 1.54 2 
 2 49.75 1.64 1 
 3 49.75 1.74 0 
 4 49.75 1.84 0 
 5 49.75 1.94 0 
 6 59.75 1.54 7 
 7 59.75 1.64 8 
 8 59.75 1.74 4 
 9 59.75 1.84 2 
 10 59.75 1.94 0 
 11 69.75 1.54 5 
 12 69.75 1.64 15 
 13 69.75 1.74 22 
 14 69.75 1.84 7 
 15 69.75 1.94 1 
 16 79.75 1.54 2 
 17 79.75 1.64 12 
 18 79.75 1.74 63 
 19 79.75 1.84 19 
 20 79.75 1.94 5 
 21 89.75 1.54 0 
 22 89.75 1.64 7 
 23 89.75 1.74 28 
 24 89.75 1.84 32 
 25 89.75 1.94 12 
 26 99.75 1.54 0 
 27 99.75 1.64 2 
 28 99.75 1.74 10 
 29 99.75 1.84 20 
 30 99.75 1.94 7 
 31 109.75 1.54 0 
 32 109.75 1.64 0 
 33 109.75 1.74 1 
 34 109.75 1.84 4 
 35 109.75 1.94 2 
 
CORRELACAO PARA DADOS AGRUPADOS 
 
Correlation Analysis 
 
2 'VAR' Variables: MEDPES MEDALT 
 
Simple Statistics 
 
Variable N Mean Std Dev Sum Minimum Maximum 
 
MEDPES 300 82.31667 12.12031 24695 49.75000 109.75000 
MEDALT 300 1.76033 0.09824 528.10000 1.54000 1.94000 
 
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 300 
 / FREQ Var = N_OBS 
 
MEDPES MEDALT 
 
 MEDPES 1.00000 0.54023 
 0.0 0.0001 
 
 MEDALT 0.54023 1.00000 
 0.0001 0.0 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
39
O coeficiente de correlação é de 0.54023. Um p-valor de 0.0001 reflete uma forte 
evidência de que a correlação entre altura e o peso difere de zero. 
 
 
8.3 Regressão (PROC REG) 
 
 
Os coeficientes de correlação indicam somente a existência ou não de 
algum tipo de relacionamento entre variáveis. Para investigar a forma desse 
relacionamento, o método mais apropriado é a análise de regressão, onde a 
relação pode ser expressa sob forma matemática, por meio de uma equação que 
interligue as variáveis. 
 
Através do diagrama de dispersão é possível visualizar uma curva que se 
aproxime dos dados. Essa curva é denominada curva de ajustamento. 
 
Para fins de referência, a seguir encontram-se relacionados vários tipos 
comuns de curvas de ajustamento e suas equações. As variáveis independentes 
estão representadas pela letra X e as variáveis dependentes pela letra Y. As 
demais letras representam constantes. 
 
Função Linear → Y = a0 + a1 X 
 
Função Quadrática → Y = a0 + a1 X + a2 X2 
 
Função Cúbica → Y = a0 +a1 x + a2 x2 + a3 x3 
 
Função Exponencial → Y = a bx 
 → log y = Ioga + (log b) x = a0 +a1 x 
 
Para evitar o critério individual na construção de funções que se adaptem 
ao conjunto de dados, é necessário instituir uma definição da "melhor função de 
ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados 
(aderência) é proporcionada a partir da distância dos pontos observados até a 
equação de regressão. De todas as equações que podem ser traçadas através do 
grupo de pontos no diagrama de dispersão, a função que melhor se ajusta é 
aquela com a menor soma dos quadrados das distâncias (Método dos Mínimos 
Quadrados). 
 
Estas distâncias são designadas como desvios, erros ou resíduos, e 
podem ser positivas, negativas ou nulas, como é apresentado na figura a seguir: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
40
 
 
O modelo linear: 
 
Yj = β0 + β1 Xj + εj 
 
Suas suposições: 
 
- Xj são fixos; 
 
- β0 e β1 são parâmetros fixos desconhecidos; 
 
- εj ~ N id (0 , σ2) . 
 
Considere a regressão como um particionamento da Soma Total dos 
Quadrados: 
 
( ) ( ) ( )Y Y Y Y Y Yj j j j− = − + −∑ ∑ ∑2 2 2$ $ 
 
SST = SSM + SSE 
 
onde: 
 
SST - é a soma total dos quadrados. 
SSM - é a soma dos quadradosdevido ao modelo (soma dos quadrados devido à 
regressão ). 
SSE - é a soma dos quadrados devido ao erro , ou resíduo. 
 
Num modelo de regressão é preciso: 
 
• Estimar: 
 
- σ2, ou seja, o erro médio quadrático; 
- β0 e β1. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
41
• Testaras Hipóteses : 
 
H0: β1 = 0 
 β0 = 0 
 
• Obter valores preditos e limites de predição. 
 
• Estimar a média da variável resposta Y, dado um valor fixo X, 
determinando tanto as estimativas por ponto como por intervalo. 
 
 
8.4 Inferência na regressão 
 
 
Estatísticas usadas na Análise de Regressão: 
 
- valor estimado de σ2 =MSE, Média quadrática para o erro 
 = SSE/ df(erro) 
 = Soma dos Quadrados devido ao erro / df(erro) 
 
- estimativas de mínimos quadrados de β0 e β1, que minimize SSE. 
 
( )min Y Yj −∑ 2 
 
- teste de β0 = 0 e β1 = 0 com a estatística t de Student ou teste de β0 no modelo / 
β1 = 0 com a estatística F. 
 
 
8.5 Resíduos 
 
 
Os resíduos representam o comportamento de Y (variável resposta), do 
qual as variáveis independentes não fazem a estimativa. Se for suposto que o 
modelo é correto, que não se tenha omitido nenhuma variável independente, e 
também que os resíduos são normais e independentemente distribuídos, com 
média zero e variância constante, pode-se provar hipóteses, assinalar limites de 
confiança, predizer valores da variável dependente a partir das variáveis 
independentes e computar probabilidades de significância . 
 
Um plote dos resíduos sobres as variáveis independentes ou sobre os 
valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo 
necessitar de algum outro termo, o plote dos resíduos sugere que tipo de termo 
pode ser adicionado ao modelo. Alguns modelos são mostrados a seguir: 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
42
 
 
 
 
PROC REG 
 
A “procedure” REG é o procedimento SAS mais comum para análise da 
regressão. É um procedimento interativo, ou seja, o usuário pode dispor de seus 
comandos básicos para ajustar uma função, verificar a saída das estatísticas, e 
posteriormente adicionar mais comandos dando continuidade à suas análises sem 
necessidade de reinicializar o comando da PROC. Quando usado interativamente, 
o comando RUN não finaliza o procedimento. Para finalizá-lo o usuário deve 
estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que 
nunca deve ser acessado quando o procedimento estiver em curso. 
 
FORMA GERAL: 
 
PROC REG DATA = arquivo SAS opções; 
MODEL dependente = independente / opções; 
 VAR variável; 
 ID variável; 
 OUTPUT OUT = novo arquivo 
P = nova variável R = nova variável 
 U95 = nova variável L95 = nova variável 
 U95M = nova variável L95M = nova variável; 
PLOT variável Y * variável X = 'símbolo'; 
PRINT opções; 
RUN; 
OPÇÕES DISPONÍVEIS NA PROC REG: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
43
 
SIMPLE Lista estatísticas descritiva para cada variável. 
 
OUTEST Cria um data set contendo as estimativas dos parâmetros do 
modelo de regressão. 
 
OPÇÕES DISPONÍVEIS NO COMANDO 
 
CLI Fornece limites de confiança superior e inferior a 95% para um 
valor particular predito da variável dependente. 
 
CLM Fornece limites de confiança superior e inferior a 95% para a 
média da variável dependente nos níveis da(s) variável(is) 
independentes para cada observação. 
 
P Fornece valores preditos a partir do modelo estimado para cada 
observação do arquivo a de entrada. 
 
R Fornece valores residuais (REAL-PREDITO) para cada 
observação e uma análise dos resíduos. 
 
SELECTION = método 
 
Especifica o método usado para seleção do modelo (Backward, Stepwise, 
MAXR, ADJRSQ, por exemplo). O default é NONE (usa o modelo 
completo). 
 
 
ADJRSQ Fornece o R-Square ajustado para o grau de liberdade, para cada 
modelo selecionado. 
 
AIC Fornece o Critério de Informação de Akaike's. 
 
BIC Fornece o Critério de Informação Bayesiano de Sawa . 
 
MSE Fornece o erro médio quadrático para cada modelo. 
 
COMANDOS DISPONÍVEIS: 
 
MODEL especifica as variáveis dependentes e independentes. 
 
VAR lista a variável (ou variáveis) que possam vir a ser adicionadas no 
modelo durante o processo de análise. Este comando deve 
aparecer antes do primeiro comando RUN. 
 
ID especifica a variável que identifica as observações na saída do 
relatório, quando são solicitadas estimativas de valores individuais 
de uma variável independente ( valores preditos ), valores 
residuais, etc. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
44
 
OUTPUT especifica o arquivo de saída e os nomes das variáveis que irão 
conter os valores previstos, residuais , etc. 
 
PLOT gera plotes de dispersão com a variável y representando o eixo 
vertical e a variável x o eixo horizontal. Para plotar estatísticas 
utiliza-se as palavras chave (nomes reservados) disponíveis no 
comando OUTPUT. (Ex: plot y.*p;) 
 
PRINT Lista as opções disponíveis. 
 
Os seguintes nomes reservados são utilizados para especificar as 
estatísticas desejadas. Eles devem ser seguidos por um nome de variável: 
 
P (ou PREDICTED) representa os valores preditos. 
 
R (ou RESIDUAL) representa os valores residuais para cada observação. 
 
U95, L95 representam, respectivamente, os limites superior e 
inferior de predição para os valores observados. 
 
U95M, L95M representam, respectivamente os limites superior e 
inferior de confiança para a média da população. 
 
Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de 
uma máquina industrial. O experimento utilizou uma mistura de óleo diesel e 
gás, derivados de materiais destilados orgânicos. O valor da capacidade da 
máquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas 
em rotações por minuto (rpm X 100). Analisar o diagrama de dispersão e 
encontrar um modelo de regressão que se ajuste aos dados. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA MAQUINA1 A; /* EXEMPL04 SAS */ 
INPUT VELOC CAPAC @@; 
CARDS; 
22.0 64.03 20.0 62.47 18.0 54.94 16.0 48.84 14.0 43.73 
12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21 
22.0 64.03 20.0 62.63 18.0 52.90 16.0 48.84 14.0 42.74 
12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17 
19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89 
; 
PROC PLOT; 
 PLOT CAPAC * VELOC = '0'; 
TITLE 'DIAGRAMA DE DISPERSAO'; 
RUN; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
45
PROC REG; 
 MODEL CAPAC = VELOC; 
 OUTPUT OUT= RESIDl P=PREVISTO R=RESIDUAL; 
TITLE 'AJUSTE DA FUNCAO LINEAR'; 
RUN; 
PROC GPLOT; 
 PLOT RESIDUAL* VELOC /VREF = 0; 
TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR'; 
RUN; 
PROC UNIVARIATE DATA= RESIDl NORMAL PLOT; 
 VAR RESIDUAL; 
TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS'; 
RUN; 
 
 
ANÁLISE DOS RESULTADOS: 
 
DIAGRAMA DE DISPERSAO 
 
Plot of CAPAC*VELOC. Symbol used is '0'. 
 
 CAPAC | 
 | 
 65 + 0 
 | 0 0 
 | 0 
 | 0 0 
 60 + 
 | 
 | 0 
 | 0 
 55 + 0 
 | 
 | 0 
 | 0 
 50 + 
 | 0 
 | 0 
 | 0 
 45 + 
 | 0 
 | 0 
 | 
 40 + 0 
 | 
 | 0 
 | 035 + 
 | 
 | 
 | 0 
 30 + 
 | 
 --+-------+--------+--------+---------+-------+--------+--------+- 
 10 12 14 16 18 20 22 24 
 VELOC 
 
NOTE: 4 obs hidden. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
46
O diagrama de dispersão mostra uma tendência crescente da capacidade da 
máquina em função da velocidade utilizada. Os dados observados serão 
ajustados inicialmente por uma função linear. o relatório de saída consta de duas 
seções, Análise da Variância e Estimativas dos Parâmetros, apresentadas a 
seguir: 
 
AJUSTE DA FUNCAO LINEAR 
 
Model: MODEL1 
Dependent Variable: CAPAC 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 1 2294.80982 2294.80982 663.532 0.0001 
 Error 22 76.08652 3.45848 
 C Total 23 2370.89633 
 
 Root MSE 1.85970 R-square 0.9679 
 Dep Mean 52.31833 Adj R-sq 0.9664 
 C.V. 3.55458 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 6.100234 1.83396047 3.326 0.0031 
 VELOC 1 2.650500 0.10289565 25.759 0.0001 
 
A seção de Análise de Variância contém informações sobre a qualidade do 
ajuste. São elas: 
 
- DF 
 
Identifica as fontes de variações dos dados e os respectivos graus de liberdade. 
 
- SOMA DOS QUADRADOS (SS): 
 
Separam a variação dos dados em porções que podem ser tanto atribuídas ao 
modelo como ao erro. Parte da variação total da capacidade da máquina se deve 
à velocidade utilizada e outra parte se deve a erros aleatórios ou outros fatores 
independentes da velocidade. 
 
SS total = SS models + SS erro 
 
Observando os valores da variável Capacidade da Máquina quando o valor da 
velocidade é de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta 
variação se deve ao erro do experimento ou a fatores outros que não a 
velocidade. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
47
- MÉDIA QUADRÁTICA (MS): SS/DF 
 
MS erro = 3.45848 estima a variância da população dos valores da capacidade da 
máquina para valores determinados da velocidade. 
 
- F, PROB > F: 
 
Fornece o valor da estatística teste e o p-valor associado ao teste de hipótese de 
que o modelo explica uma parte significante da variação dos dados. 
 
- R_SQUARE : SS modelo / SS Total 
 
R_Square é a fração da variação total devida às variáveis do modelo. Seu valor 
varia dentro do intervalo [0,1], sendo que quanto mais próximo de 1, melhor o 
modelo explica a variação dos dados. Neste caso o modelo proposto explica 96% 
da variabilidade total. implicando um alto grau de aderência dos valores 
observados à reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square 
não a explica sozinho. Recomenda-se também uma Análise dos Resíduos. 
 
- Adj R_SQUARE 
 
É uma estatística alternativa ao R-Square. É utilizada em REGRESSÃO 
MÚLTIPLA. 
 
A seção Estimativas dos Parâmetros provê coeficientes para a linha de 
regressão e testes para determinar se estes coeficientes são significativamente 
diferentes de zero. O modelo de ajuste, neste caso, é representado por: 
 
CAPAC = 6.10 + 2.65 VELOC 
 
O valor de INTERCEP = 6.10 não tem uma interpretação específica no modelo. 
Para VELOC = 0, a capacidade predita pelo modelo é de 6.10 HP. O coeficiente 
2.65 pode ser interpretado como o acréscimo da capacidade esperada para cada 
unidade adicional da velocidade. 
 
Para verificar a suposição de que os coeficientes são não nulos, tem-se: 
 
- DF 
 
Fornece o grau de liberdade para os parâmetros estimados. Para cada parâmetro 
estimado DF= 1. 
 
- Erro Padrão: 
 
Mede o quanto cada parâmetro estimado poderia vaiar de um conjunto de dados 
para outro. Eles são utilizados na construção de intervalos de confiança. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
48
- T para H0 : Parâmetro = 0: 
 
Estatística para testar a hipótese que o parâmetro é igual a zero. Seu valor é dado 
por: 
 
Valor Estimado do Parâmetro / Erro Padrão 
 
- PROB > T: 
 
Fornece o p-valor para a estatística teste T. Para o parâmetro VELOC, o p-valor é 
de 0.0001, evidenciando que o grau de inclinação da reta ajustada é diferente de 
zero. O intercepto também difere de zero. 
 
A análise dos resíduos ei= Yi - Yˆ i = Yi - 6.10 - 2.65 VELOC é importante para 
avaliar se a escolha do modelo é apropriada para o conjunto de dados 
apresentado. Pelo comportamento da distribuição dos resíduos (PROC GPLOT) 
sugere-se a utilização de um termo quadrático. 
 
A validade dos testes de significância dependem da suposição de que os resíduos 
são normalmente distribuídos. Para se verificar essa suposição basta utilizar a 
PROC UNIVARIATE com as opções NORMAL e PLOT, o que gera as seguintes 
saídas: 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
49
TESTE DE NORMALIDADE DOS RESIDUOS 
 
Univariate Procedure 
 
Variable=RESIDUAL Residual 
 
Moments 
 
 N 24 Sum Wgts 24 
 Mean 0 Sum 0 
 Std Dev 1.818821 Variance 3.308109 
 Skewness -0.95935 Kurtosis 4.145739 
 USS 76.08652 CSS 76.08652 
 CV . Std Mean 0.371265 
 T:Mean=0 0 Pr>|T| 1.0000 
 Num ^= 0 24 Num > 0 13 
 M(Sign) 1 Pr>=|M| 0.8388 
 Sgn Rank 4 Pr>=|S| 0.9119 
 W:Normal 0.896308 Pr<W 0.0170 
 
Quantiles(Def=5) 
 
 100% Max 3.51976 99% 3.51976 
 75% Q3 0.92076 95% 3.35976 
 50% Med 0.011261 90% 1.54026 
 25% Q1 -0.67199 10% -1.75174 
 0% Min -5.82224 5% -1.88049 
 1% -5.82224 
 Range 9.342001 
 Q3-Q1 1.592748 
 Mode -0.38124 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -5.82224( 24) 1.13076( 3) 
 -1.88049( 17) 1.449259( 10) 
 -1.75174( 23) 1.54026( 9) 
 -1.27624( 16) 3.35976( 2) 
 -0.90924( 13) 3.51976( 12) 
 
A estatística W de Shapiro – WIL indica que os dados não são normalmente 
distribuídos. O valor da assimetria é de –0.9593, encontrando-se fora do intervalo 
(-0.87 , 0.87), e o valor da curtoze é de 4.1457, que está fora do intervalo(-
1.20,2.30). Estes são os intervalos a 95% de confiança para a assimetria e 
curtoze, referentes a um tamanho de amostra n=24, retirada de uma população 
normalmente distribuída. (Ver ANEXO 2). 
 
 Stem Leaf # Boxplot 
 3 45 2 0 
 2 
 1 0145 4 | 
 0 0023358 7 +--+--+ 
 -0 9954441 7 +-----+ 
 -1 983 3 | 
 -2 
 -3-4 
 -5 8 1 * 
 ----+----+----+----+ 
 
TESTE DE NORMALIDADE DOS RESIDUOS 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
50
 
Univariate Procedure 
 
Variable=RESIDUAL Residual 
 
 Normal Probability Plot 
 3.5+ * ++*++ 
 | ++++++ 
 | +++** * 
 0.5+ *+***+*** 
 | * ****+*+ 
 | * * *++++ 
 -2.5+ ++++++ 
 | +++++ 
 |++++ 
 -5.5+ * 
 +----+----+----+----+----+----+----+----+----+----+ 
 -2 -1 0 +1 +2 
 
Observa-se pelo histograma dos resíduos que a distribuição é assimétrica a 
esquerda. Os asteriscos (*) no plote acima representam os resíduos observados, 
e os sinais de (+) são utilizados para prover uma linha de referência baseada na 
média e no desvio padrão amostral, que são indicadores do intercepto e do grau 
de inclinação da linha, respectivamente. Se os dados são normais, eles tendem a 
acompanhar a disposição da linha de referência indicada pelos sinais (+). Quando 
isto acontece somente os asteriscos (*) são amostrados. No caso em questão, a 
disposição dos resíduos não se ajusta a linha de referência, colocando em 
cheque a suposição de normalidade dos resíduos. Mais uma vez fica comprovada 
a necessidade de uma nova tentativa de ajuste dos dados analisados. 
 
FUNÇÃO QUADRÁTICA 
 
Os comandos a seguir ajustam uma função quadrática aos dados do 
arquivo MÁQUINA1. Além de gerar um plote para os resíduos do ajuste, 
intervalos de confiança para a média da capacidade da população e uma curva de 
previsão para os dados, com a opção “r” o programa também gera resíduos 
padronizados que permitem verificar se pontos fora do padrão ('outliers') se 
devem a causas aleatórias ou a causas especiais de variação. Um teste para a 
normalidade dos resíduos também é efetuado para o ajuste quadrático. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA MAQUINA2 SAS; /* EXEMPL05 SAS */ 
INPUT VELOC CAPAC @@; 
VELOC2 = VELOC*VELOC; 
CARDS; 
22.0 64.03 20.0 62.47 18.0 54.94 16.0 48.84 14.0 43.73 
12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21 
22.0 64.03 20.0 62.63 18.0 52.90 16.0 48.84 14.0 42.74 
12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17 
19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89 
; 
PROC REG; 
MODEL CAPAC=VELOC VELOC2 / CLM R; 
ID VELOC; 
OUTPUT OUT=RESlD2 P=PREVISTO R=RESIDUAL; 
TITLE 'AJUSTE DE FUNCAO QUADRATICA'; 
PROC GPLOT; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
51
PLOT RESIDUAL * VELOC / VREF=0; 
TITLE 'PLOT DE RESIDUOS P/ AJUSTE QUADRATICO'; 
RUN; 
PROC UNIVARIATE NORMAL; 
VAR RESIDUAL; 
TITLE 'TESTE PARA NORMALIDADE DOS RESIDUOS'; 
PROC GPLOT; 
PLOT PREVISTO*VELOC; 
TITLE 'CURVA DE PREVISAO'; 
RUN; 
 
ANÁLISE DOS RESULTADOS: 
 
AJUSTE DA FUNCAO QUADRATICA 
 
Model: MODEL1 
Dependent Variable: CAPAC 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 2 2329.52618 1164.76309 591.248 0.0001 
 Error 21 41.37016 1.97001 
 C Total 23 2370.89633 
 
 Root MSE 1.40357 R-square 0.9826 
 Dep Mean 52.31833 Adj R-sq 0.9809 
 C.V. 2.68275 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 -19.184839 6.18024426 -3.104 0.0054 
 VELOC 1 5.710855 0.73314324 7.790 0.0001 
 VELOC2 1 -0.088391 0.02105601 -4.198 0.0004 
 
O modelo do ajuste quadrático é dado por: 
 
CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2 
 
O teste de significância dos coeficientes indica que para o coeficiente -0.08 de 
VELOC2 : 
 
t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81 
 
A probabilidade de significância para esta estatística é 0.0004, ou seja, existe 
somente quatro chances em dez mil de se encontrar uma estatística t tão grande 
quanto a calculada acima. O desvio padrão da estimativa do coeficiente de 
VELOC2 é tão pequeno que pode-se afirmar que seu valor é estatisticamente 
diferente de zero. O modelo quadrático, portanto, está representando melhor o 
relacionamento entre a velocidade da máquina e sua capacidade de produção, 
quando comparado ao modelo linear. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
52
Os valores preditos e os limites de confiança para a média da população obtidos 
com o ajuste quadrático estão relacionados a seguir: 
 
AJUSTE DA FUNCAO QUADRATICA 
 
 Dep Var Predict Std Err Lower95% Upper95% 
Obs VELOC CAPAC Value Predict Mean Mean Residual 
 
 1 22 64.0300 63.6726 0.488 62.6568 64.6884 0.3574 
 2 20 62.4700 59.6758 0.374 58.8981 60.4534 2.7942 
 3 18 54.9400 54.9718 0.401 54.1382 55.8054 -0.0318 
 4 16 48.8400 49.5607 0.397 48.7356 50.3858 -0.7207 
 5 14 43.7300 43.4425 0.396 42.6198 44.2651 0.2875 
 6 12 37.4800 36.6171 0.596 35.3785 37.8556 0.8629 
 7 15 46.8500 46.5900 0.385 45.7890 47.3909 0.2600 
 8 17 51.1700 52.3546 0.405 51.5114 53.1978 -1.1846 
 9 19 58.0000 57.4122 0.385 56.6114 58.2130 0.5878 
 10 21 63.2100 61.7626 0.398 60.9343 62.5909 1.4474 
 11 22 64.0300 63.6726 0.488 62.6568 64.6884 0.3574 
 12 20 62.6300 59.6758 0.374 58.8981 60.4534 2.9542 
 13 18 52.9000 54.9718 0.401 54.1382 55.8054 -2.0718 
 14 16 48.8400 49.5607 0.397 48.7356 50.3858 -0.7207 
 15 14 42.7400 43.4425 0.396 42.6198 44.2651 -0.7025 
 16 12 36.6300 36.6171 0.596 35.3785 37.8556 0.0129 
 17 10.5 32.0500 31.0340 0.921 29.1185 32.9495 1.0160 
 18 13 39.6800 40.1182 0.460 39.1612 41.0751 -0.4382 
continuação ... 
 
 19 15 45.7900 46.5900 0.385 45.7890 47.3909 -0.8000 
 20 17 51.1700 52.3546 0.405 51.5114 53.1978 -1.1846 
 21 19 56.6500 57.4122 0.385 56.6114 58.2130 -0.7622 
 22 21 62.6100 61.7626 0.398 60.9343 62.5909 0.8474 
 23 23 65.3100 65.4059 0.651 64.0513 66.7605 -0.0959 
 24 24 63.8900 66.9623 0.878 65.1364 68.7883 -3.0723 
 
O plote dos resíduos studentizados pode indicar a ocorrência de pontos 
discrepantes. Cada asterisco corresponde à metade de uma unidade. 
Observações com quatro ou cinco asteriscos tem resíduos studentizados entre 
2.0 e 3.0, e estão num range suspeito. Observações com seis ou mais asteriscos 
provavelmente são “outliers”. No plote a seguir, as observações 2 e 12 
(VELOC=20), e a 24 estão num range suspeito. O gráfico dos reíduos mostrado 
ao fim deste exemplo confirma estas suposições. O próximo passo seriareavaliar 
a fonte de dados e identificar alguma razão peculiar para a ocorrência destes 
valores. 
 
 Std Err Student Cook's 
 Obs VELOC Residual Residual -2-1-0 1 2 D 
 
 1 22 1.316 0.272 | | | 0.003 
 2 20 1.353 2.065 | |**** | 0.109 
 3 18 1.345 -0.024 | | | 0.000 
 4 16 1.346 -0.535 | *| | 0.008 
 5 14 1.347 0.214 | | | 0.001 
 6 12 1.271 0.679 | |* | 0.034 
 7 15 1.350 0.193 | | | 0.001 
 8 17 1.344 -0.882 | *| | 0.024 
 9 19 1.350 0.436 | | | 0.005 
 10 21 1.346 1.075 | |** | 0.034 
 11 22 1.316 0.272 | | | 0.003 
 12 20 1.353 2.184 | |**** | 0.121 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
53
 13 18 1.345 -1.540 | ***| | 0.070 
 14 16 1.346 -0.535 | *| | 0.008 
 15 14 1.347 -0.522 | *| | 0.008 
 16 12 1.271 0.010 | | | 0.000 
 17 10.5 1.059 0.959 | |* | 0.232 
 18 13 1.326 -0.330 | | | 0.004 
 19 15 1.350 -0.593 | *| | 0.010 
 20 17 1.344 -0.882 | *| | 0.024 
 21 19 1.350 -0.565 | *| | 0.009 
 22 21 1.346 0.630 | |* | 0.012 
 23 23 1.243 -0.077 | | | 0.001 
 24 24 1.095 -2.806 | *****| | 1.687 
 
 Sum of Residuals 0 
 Sum of Squared Residuals 41.3702 
 Predicted Resid SS (Press) 65.0917 
 
Através do gráfico dos resíduos (PROC GPLOT) observa-se que nem toda as 
observações seguem a mesma forma geral. O ponto onde VELOC=24 encontra-
se abaixo dos demais, e os dois pontos próximos à VELOC=20 estão acima dos 
demais. Isto pode se dever à causas especiais ou simplesmente ao acaso, e 
precisa ser verificado. Os demais pontos estão bem distribuídos ao longo do 
gráfico, podendo ser admitida a suposição de variância da distribuição dos 
resíduos. 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
54
TESTE DE NORMALIDADE DOS RESIDUOS 
 
Univariate Procedure 
 
Variable=RESIDUAL Residual 
 
Moments 
 
 N 24 Sum Wgts 24 
 Mean 0 Sum 0 
 Std Dev 1.341157 Variance 1.798702 
 Skewness 0.194918 Kurtosis 1.047599 
 USS 41.37016 CSS 41.37016 
 CV . Std Mean 0.273763 
 T:Mean=0 0 Pr>|T| 1.0000 
 Num ^= 0 24 Num > 0 12 
 M(Sign) 0 Pr>=|M| 1.0000 
 Sgn Rank -5 Pr>=|S| 0.8899 
 W:Normal 0.961296 Pr<W 0.4711 
 
 
Quantiles(Def=5) 
 
 100% Max 2.954224 99% 2.954224 
 75% Q3 0.717615 95% 2.794224 
 50% Med -0.00944 90% 1.447409 
 25% Q1 -0.74144 10% -1.18464 
 0% Min -3.07234 5% -2.0718 
 1% -3.07234 
 Range 6.026565 
 Q3-Q1 1.45905 
 Mode -1.18464 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -3.07234( 24) 0.862912( 6) 
 -2.0718( 13) 1.015991( 17) 
 -1.18464( 20) 1.447409( 10) 
 -1.18464( 8) 2.794224( 2) 
 -0.79996( 19) 2.954224( 12) 
 
O p-valor associado ao teste de normalidade dos resíduos é de 0.47. A hipótese 
de normalidade dos resíduos do Ajuste Quadrático não pode ser rejeitada aos 
níveis usuais de significância. A curva de previsão baseada no modelo ajustado é 
mostrado no (PLOT GPLOT). 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
55
 
 
 
9 INFERÊNCIA ESTATÍSTICA 
 
 
9.1 Testes para igualdade de duas médias (PROC TTEST) 
 
 
Na prática freqüentemente nos vemos diante de situações onde uma 
decisão deva ser tomada acerca de populações, baseadas nas informações 
obtidas a partir das amostras. Este capítulo abordará testes de hipóteses, para o 
caso em que duas amostras são consideradas, em princípio de populações 
distintas, Com base nestas amostras, as médias equivalentes às populações 
envolvidas são comparadas. O teste t é apropriado quando a análise envolve uma 
única variável independente (preditora), medida na escala nominal e assumindo 
somente dois valores, e uma única variável resposta, medida na escala de razão 
ou de intervalo. O teste t é usualmente conhecido como teste de diferenças de 
grupos. 
 
Dois casos típicos serão considerados neste tipo de experimento. O 
primeiro é o teste para dados não pareados, ou seja, amostras independentes 
(populações não correlacionadas). O segundo, para dados pareados, (populações 
correlacionadas). O que diferencia os dois testes é a forma do cálculo da 
estatística t. Hipóteses adicionais devem ser atendidas para a validação destes 
testes. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
56
- AMOSTRAS INDEPENDENTES: 
 
- Nível de Medida: A variável resposta deve ser acessada na escala de razão ou 
de intervalo. A variável independente deve estar na escala 
nominal e assumir somente dois níveis. 
 
- Observações Independentes: Uma dada observação não pode depender de 
qualquer outra entre os dois grupos. 
 
- Amostras Aleatórias: Os valores da variável resposta devem representar uma 
amostra aleatória oriunda de uma população normal. Se 
cada amostra contiver cerca de 30 observações, o teste 
é considerado robusto no que diz respeito à 
normalidade. 
 
- Homogeneidade de Variâncias: O teste t exato é utilizado quando o teste F 
para igualdade de variâncias leva a não 
rejeição da hipótese nula de igualdade de 
variâncias na população. 
 
PROC TTEST 
 
A PROC TTEST desempenha um teste de hipótese para checar se a 
média de duas populações são iguais. Uma estatística t para o teste é calculada, 
assumindo que as variâncias são iguais para os dois grupos. Uma estatística T 
aproximada é calculada, assumindo que as variâncias são diferentes. Para testar 
a igualdade das variâncias é calculada uma estatística F. Para cada uma das 
estatísticas T e F são associados os respectivos graus de liberdade e 
probabilidades de significância (p-valor). Se o p-valor é menor que o nível de 
significância associado ao teste, o resultado é estatisticamente significante, e a 
hipótese nula é rejeitada, ou seja, as médias para os dois grupos são 
significativamente diferentes. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
57
Os testes paramétricos que envolvem observações pareadas serão 
abordados no item 9.2. Os testes não paramétricos serão assunto do próximo 
capítulo. 
 
FORMA GERAL: 
 
PROC TTEST DATA = arquivo de dados; 
CLASS variável; 
VAR variável; 
RUN; 
 
COMANDOS DISPONÍVEIS: 
 
CLASS nomeia a variável que forma os grupos. Estes grupos podem 
assumir somente dois valores distintos, uma vez que o teste utilizado 
é para comparação de duas médias.VAR nomeia a variável cuja média será comparada. Se o comando 
VAR for omitido, todas as variáveis numéricas contidas no 
arquivo de entrada (exceto as que aparecem no comando 
CLASS) serão incluídas na análise. 
 
Ex6.: Dados não pareados com variâncias desconhecidas e supostamente iguais. 
Sejam amostras obtidas de dois tipos de cabo de aço em relação à carga de 
ruptura. Ao nível de significância de 5% pode-se concluir que o cabo do tipo l 
seja mais resistente que o do tipo 2 ? 
 
Carga de Ruptura (Kgf) 
 
Tipo 1 Tipo 2 
760 
755 
758 
761 
755 
758 
748 
757 
753 
755 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA CABO A; /* EXEMPL06 SAS */ 
INPUT TIPO $ CARGA @@; 
CARDS; 
Tl 760 T2 758 Tl 755 T2 748 
Tl 758 T2 757 Tl 761 T2 753 
Tl 755 T2 755 
; 
PROC TTEST; 
CLASS TIPO; 
VAR CARGA; 
TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; 
RUN; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
58
ANÁLISE DOS RESULTADOS: 
 
 
TESTE PARA IGUALDADE DE MEDIAS 
 
TTEST PROCEDURE 
 
 Variable: CARGA 
 
 TIPO N Mean Std Dev Std Error Minimum Maximum 
------------------------------------------------------------------------- 
 T1 5 757.8000000 2.77488739 1.24096736 755.0000000 761.0000000 
 T2 5 754.2000000 3.96232255 1.77200451 748.0000000 758.0000000 
 
 Variances T DF Prob>|T| 
 --------------------------------------- 
 Unequal 1.6641 7.2 0.1392 
 Equal 1.6641 8.0 0.1347 
 
For H0: Variances are equal, F' = 2.04 DF = (4,4) Prob>F' = 0.5072 
 
Para comparar dois grupos independentes observa-se primeiramente a linha que 
testa a igualdade de variâncias. O p-valor para este teste é dado por 
PROB>F'=0.5072 que é maior que 0.10, indicando que as variâncias não são 
significantemente diferentes a um nível de 10% de significância. 
 
Utiliza-se então o t-test exato. Para o teste da igualdade de médias, a linha 
denominada UNEQUAL dá o resultado de um t-test aproximado, que é utilizado 
quando não se pode assumir a igualdade das variâncias os dois grupos de 
observações. 
 
O p-valor para o t-test é PROB > ITI = 0.1347 que é maior que 0.05, indicando 
que ambas as médias para o cabo do tipo 1 e tipo 2 não são significativamente 
diferentes ao nível de 5% de significância. Valores altos para estatística T indicam 
diferenças significativas entre as médias. Para o teste exato, o grau de liberdade 
DF é calculado como a soma dos tamanhos das amostras dos dois grupos menos 
dois (8 = 5 + 5 - 2). 
 
Ex7.: Dados não pareados com variâncias desconhecidas e supostamente 
diferentes. 
 
Deseja-se saber se duas máquinas de empacotar café estão fornecendo o 
mesmo peso médio por pacote, tanto como uma das máquinas é nova e a 
outra velha, é razoável supor-se que trabalhem com diferentes 
variabilidades dos pesos colocados nos pacotes. As amostras disponíveis 
constam de seis pacotes produzidos pela máquina nova e nove produzidos 
pela máquina velha. Os pesos em quilogramas desses pacotes são: 
 
máquina nova 0,82 0,83 0,79 0,81 0,81 0,80 
máquina velha 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78 
 
Qual a conclusão, ao nível de 5% de significância ? 
OPTIONS FORMDLIM='*' LS=80; 
DATA CAFÉ A; /* EXEMPL07 SAS */ 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
59
INPUT MAQUINA $ PESO @@, 
CARDS; 
NOVA 0.82 NOVA 0.83 
NOVA 0.79 NOVA 0.81 
NOVA 0.81 NOVA 0.80 
VELHA 0.79 VELHA 0.82 
VELHA 0.73 VELHA 0.74 
VELHA 0.80 VELHA 0.77 
VELHA 0.75 VELHA 0.84 
VELHA 0.78 
; 
PROC TTEST DATA=CAFE, 
CLASS MAQUINA; 
TITLE 'TESTE PARA IGUALDADE DE MEDIAS – DADOS NÃO PAREADOS'; 
RUN; 
 
ANÁLISE DOS RESULTADOS: 
 
TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS 
 
TTEST PROCEDURE 
 
 Variable: PESO 
 
 MAQUINA N Mean Std Dev Std Error Minimum Maximum 
------------------------------------------------------------------------- 
 NOVA 6 0.81000000 0.01414214 0.00577350 0.79000000 0.83000000 
 VELHA 9 0.78000000 0.03674235 0.01224745 0.73000000 0.84000000 
 
 Variances T DF Prob>|T| 
 --------------------------------------- 
 Unequal 2.2156 11.1 0.0486 
 Equal 1.8893 13.0 0.0814 
 
 For H0: Variances are equal, F' = 6.75 DF = (8,5) Prob>F' = 0.0501 
 
O p-valor para o teste de igualdade de variâncias é dado por PROB >F'=0.0501 
que é menor que 0.10, indicando que as variâncias são significativamente 
diferentes a um nível de 10% de significância. Para o teste de igualdade de 
médias, a linha denominada UNEQUAL deve ser utilizada. A um nível de 5% de 
significância há diferença significativa entre as médias dos pesos dos pacotes, 
pois PROB > ITI = 0.0486 < 0.05. 
 
 
9.2 Testes para dados pareados 
 
 
Os resultados de duas amostras constituem dados emparelhados (ou 
pareados) quando estão relacionados dois a dois segundo algum critério que 
introduz uma influência mercante entre os diversos pares. Esta influência incide 
igualmente sobre os valores de cada par. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
60
Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante 
uma semana a uma dieta com certo tipo de ração. Os pesos das cobaias são 
medidos no início e no fim do tratamento, e deseja-se tirar conclusões sobre o 
aumento médio do peso verificado. Se os animais forem perfeitamente 
identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os 
dados serão pareados, pois cada valor da palmeira amostra estará perfeitamente 
associado ao respectivo valor da segunda amostra. O critério que garante o 
emparelhamento é a identidade de cada cobaia. É razoável esperar que a 
identidade de cada animal tenha influência nos valores observados de seu peso, 
porém essa influência deve exercer-se de forma aproximadamente igual dentro de 
cada para de valores 'antes e depois', logo, ao se tomarem as diferenças entre 
vários pares de valores, a influência individual de cada animal tende a 
desaparecer, restando apenas os efeitos produzidos pela ração. 
 
No mesmo exemplo, se os animais não fossem identificados, não haveria 
como associar os valores das duas amostras, e os dados seriam não-
emparelhados. 
 
Se os dados de duas amostras são emparelhados tem sentido calcular as 
diferenças “di” correspondentes a cada par de valores, reduzindo assim os dados 
a uma única amostra de n diferenças. Testa-se então a hipótese de que a 
diferença entre as médias das populações emparelhadas seja igual a um certo 
valor, reduzindo o problema ao teste de uma única média. As hipóteses a serem 
atendidas para validação deste teste são listadas baixo: 
 
- AMOSTRAS PAREADAS: 
 
Nível de medida: A variável resposta deve estar na escala de intervalo ou de 
razão. A variável independente deve estar na escala nominal 
e assumir somente duas categorias. 
 
Observações pareadas: Uma dada observação que aparece em uma condição 
tem que estar de algum moda associada à uma 
observação correspondente na outra condição. 
 
Observações Independentes: Um valor de dado em uma condição não pode ser 
afetado por qualquer outro valor de dado em 
ambas condições. 
 
Amostras Aleatórias: Os valores da variável resposta devem representar uma 
amostra aleatória oriunda de uma população de interesse. 
 
Distribuição Normal para a diferença de Scores: 
 
As diferenças de scores entre os pares de valores devem ser 
normalmente distribuídas. Não há necessidade que a variável resposta seja 
normalmente distribuída. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
61
Homogeneidade de Variâncias: As populações representadas pelas duas 
condiçõesdevem ter iguais variâncias . 
 
PROC UNIVARIATE 
 
Para observações pareadas, o primeiro passo é encontrar as diferenças 
para cada observação na amostra. O segundo é sumarizar estas diferenças. Para 
calcular estas diferenças, pode-se criar uma nova variável no DATA STEP, cuja 
média será sumarizada através da PROC UNIVARIATE. Outro caminho para 
sumarizar os dados amostrais é produzir gráficos que mostrem a distribuição dos 
valores. 
 
Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa ração 
durante uma semana. Os animais foram perfeitamente identificados, tendo 
sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no 
princípio e no fim da semana, são designados respectivamente por peso 1 
e peso 2. Ao nível de 5% de significância pode-se concluir que o uso da 
ração contribuiu para o aumento do peso médio dos animais? O programa 
a seguir provê um teste de hipótese para checar se a diferença média de 
pesos é significativamente diferente de zero. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA TRAT A; /* EXEMPL08 SAS */ 
INPUT COBAIA PESO1 PESO2 @@; 
DIF= PESO2-PESO1; 
CARDS; 
1 635 640 2 704 712 
3 662 681 4 560 558 
5 603 610 6 745 740 
7 698 707 8 575 585 
9 633 635 10 669 682 
; 
PROC PRINT; 
TITLE 'LISTA DAS DIFERENCAS PAREADAS'; 
RUN; 
PROC UNIVARIATE; 
VAR DIF; 
TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS'; 
PROC CHART; 
VBAR DIF; 
TITLE 'CARTA PARA DIFERENCAS PAREADAS'; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
62
ANÁLISE DOS RESULTADOS: 
 
LISTA DAS DIFERENCAS PAREADAS 
 
 OBS COBAIA PESO1 PESO2 DIF 
 
 1 1 635 640 5 
 2 2 704 712 8 
 3 3 662 681 19 
 4 4 560 558 -2 
 5 5 603 610 7 
 6 6 745 740 -5 
 7 7 698 707 9 
 8 8 575 585 10 
 9 9 633 635 2 
 10 10 669 682 13 
 
TESTE PARA DIFERENCA DE OBSERVACOES PAREADAS 
 
Univariate Procedure 
 
 Variable=DIF 
 
Moments 
 
 N 10 Sum Wgts 10 
 Mean 6.6 Sum 66 
 Std Dev 7.042727 Variance 49.6 
 Skewness -0.0293 Kurtosis 0.054015 
 USS 882 CSS 446.4 
 CV 106.708 Std Mean 2.227106 
 T:Mean=0 2.963487 Pr>|T| 0.0159 
 Num ^= 0 10 Num > 0 8 
 M(Sign) 3 Pr>=|M| 0.1094 
 Sgn Rank 22.5 Pr>=|S| 0.0215 
 
Quantiles(Def=5) 
 
 100% Max 19 99% 19 
 75% Q3 10 95% 19 
 50% Med 7.5 90% 16 
 25% Q1 2 10% -3.5 
 0% Min -5 5% -5 
 1% -5 
 Range 24 
 Q3-Q1 8 
 Mode -5 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -5( 6) 8( 2) 
 -2( 4) 9( 7) 
 2( 9) 10( 8) 
 5( 1) 13( 10) 
 7( 5) 19( 3) 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
63
O relatório parcial da PROC UNIVARIATE mostra na linha denominada 
T:MEAN=0 o valor da estatística de teste T (T=2.9635) e o p-valor associado ao 
teste PROB > |T| = 0,0159. O p-valor é menor que 0.05, donde se conclui que a 
diferença média dos pesos das cobaias com a utilização da ração é 
significativamente diferente de zero. A um nível de 5% de significância o uso da 
ração contribui para o aumento do peso médio dos animais. 
 
CARTA PARA DIFERENCAS PAREADAS 
 
Frequency 
 
 4 + ***** 
 | ***** 
 | ***** 
 | ***** 
 | ***** 
 | ***** 
 | ***** 
 3 + ***** ***** 
 | ***** ***** 
 | ***** ***** 
 | ***** ***** 
 | ***** ***** 
 | ***** ***** 
 | ***** ***** 
 2 + ***** ***** ***** 
 | ***** ***** ***** 
 | ***** ***** ***** 
 | ***** ***** ***** 
 | ***** ***** ***** 
 | ***** ***** ***** 
 | ***** ***** ***** 
 1 + ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 -------------------------------------------------------- 
 -4 4 12 20 
 
DIF Midpoint 
 
O gráfico com a distribuição dos valores das diferenças é obtido através da PROC 
CHART. As barras verticais mostram que a mais alta freqüência ocorre para 
valores entre 8 e 16, próximo a 12, indicando mais uma vez que a variação média 
das diferenças é estatisticamente significante. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
64
10 MÉTODOS NÃO PARAMÉTRICOS 
 
 
10.1 Testes para igualdade de duas médias (PROC NPAR1WAY) 
 
Os testes não paramétricos utilizam-se de poucas suposições a respeito 
da distribuição de habilidade dos dados. Ele é indicado quando o tamanho das 
amostras analisadas é muito pequeno para validar a suposição de normalidade 
dos dados. 
 
PROC NPAR1WAY 
 
A PROC NPARLWAY é um procedimento não paramétrico para testar se 
a distribuição de uma variável tem o mesmo parâmetro de locação sobre 
diferentes grupos. Ela trabalha com grupos independentes, dados não pareados. 
Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o 
teste dos ranks de Wilcoxon. 
 
FORMA GERAL: 
 
PROC NPARLWAY DATA= arquivo de dados opções; 
 VAR variáveis; 
 CLASS variável; 
BY variáveis; 
 
COMANDOS DISPONÍVEIS: 
 
VAR nomeia variáveis a serem analisadas para a comparação dos dois 
grupos.(comando opcional). Uma vez omitido , as análises são 
feitas sobre todas as variáveis numéricas do arquivo de dados. 
 
CLASS nomeia somente uma variável de classificação de grupo. O 
comando CLASS é obrigatório. A variável que identifica os grupos 
podem ser caracteres ou numéricas. 
 
BY separa a análise em observações definidas pelas variáveis do 
comando BY. Os dados precisam estar ordenados antes de se 
utilizar este comando. 
 
OPÇÕES DISPONÍVEIS: 
 
WILCOXON desempenha o teste da Soma dos Ranks de Wilcoxon para uma 
variável de dois níveis. Ele se baseia na soma dos ranks dos 
valores observados. Este rank irá indicar a posição de um 
determinado valor no conjunto ordenado (crescente ou 
decrescentemente), do primeiro ao último elemento Valores iguais 
são considerados com um rank médio de modo a não afetar os 
rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16, 
considerados numa ordem crescente, terão os seguintes ranks: 2, 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
65
1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo válida a hipótese 
nula de identicidade entre as populações, a soma dos postos nas 
amostras deveriam fornecer valores intermediários compatíveis 
com cada amostra. Com base nessa idéia, determina-se quais os 
limites para a soma dos ranks nas amostras, além dos quais 
deve-se rejeitar a hipótese nula. Para uma variável de 
classificação que assuma mais que dois níveis, esta opção 
corresponde ao Teste de Kruskal- Wallis. 
 
MEDIAN requisita uma análise dos escores das medianas. Se as 
populações são idênticas, a mediana do conjunto formado pelas 
duas amostras fornece uma boa estimativa da mediana da 
distribuição comum. A proporção de valores abaixo da mediana 
geral deve tender a ser a mesma nas duas amostras. O escore da 
mediana é 1 para pontos abaixo da mediana geral, e 0 caso 
contrário. Para mais que duas amostras, esta opção produz o 
Teste de Brown- Mood. 
 
Ex9.: Cólica é um distúrbio comum em cavalos e freqüentemente é fatal. Em 
casos extremos uma cirurgia é o único recurso. Pesquisadores estudam 
novas técnicas de cirurgia para reduzir os períodos sob anestesia a que 
são submetidos os animais. Nove cavalos que se submeteram à cirurgia 
foram aleatoriamente assinalados para uma dentre as duas técnicas 
utilizadas. A técnica A envolve a suspensão da anestesia depois da sutura 
da incisão, e a técnica B envolve a suspensão da anestesia durante a 
sutura. O tempo de recuperação da anestesia foi medido em minutos a 
partir do final da cirurgia até o momento que o cavalo levanta. Determinar 
se os tempos de recuperação diferem para as duas técnicas cirúrgicas 
utilizadas. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA ANEST1 A; /* EXEMPL09 SAS */ 
INPUT CAVALO TECN $ TEMREC @@; 
CARDS; 
l A 47 2 A 34 
3 A 44 4 A 16 
5 A 53 6 B 79 
7 B 42 8 B 14 
9 B 11 
; 
PROC NPAR1WAY WILCOXON MEDIAN; 
VAR TEMREC; 
CLASS TECN; 
TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA'; 
RUN; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
66
ANÁLISE DOS RESULTADOS: 
 
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA 
 
N P A R 1 W A Y P R O C E D U R E 
 
 
Wilcoxon Scores (Rank Sums) for Variable TEMREC 
Classified by Variable TECN 
 
 Sum of Expected Std Dev Mean 
 TECN N Scores Under H0 Under H0 Score 
 
 A 5 28.0 25.0 4.08248290 5.60000000 
 B 4 17.0 20.0 4.08248290 4.25000000 
 
 Wilcoxon 2-Sample Test (Normal Approximation) 
 (with Continuity Correction of .5) 
 
 S= 17.0000 Z= -.612372 Prob > |Z| = 0.5403 
 
 T-Test approx. Significance = 0.5573 
 
 Kruskal-Wallis Test (Chi-Square Approximation) 
 CHISQ= 0.54000 DF= 1 Prob > CHISQ= 0.4624 
 
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA 
 
N P A R 1 W A Y P R O C E D U R E 
 
Median Scores (Number of Points above Median) 
for Variable TEMREC 
Classified by Variable TECN 
 
 Sum of Expected Std Dev Mean 
 TECN N Scores Under H0 Under H0 Score 
 A 5 3.0 2.22222222 0.785674201 0.600000000 
 B 4 1.0 1.77777778 0.785674201 0.250000000 
 
Median 2-Sample Test (Normal Approximation) 
 
S= 1.00000 Z= -.989949 Prob > |Z| = 0.3222 
 
Median 1-Way Analysis (Chi-Square Approximation) 
 
CHISQ= 0.98000 DF= 1 Prob > CHISQ= 0.3222 
 
O p-valor para o teste de Wilcoxon é dado por Prob > |Z|= 0.5403 que é 
superior a 0.05. Conclui-se, portanto, que as médias dos tempos de recuperação 
não são significativamente diferentes ao nível de 5% de significância. 
 
O p-valor para o teste de medianas é dado por Prob > |Z| = O.3222 que é 
maior que 0.05, ou seja, a um nível de 5% de significância não há diferença 
significativa entre os tempos de recuperação referentes as duas técnicas 
utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximação 
de Chi-quadrado. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
67
Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo, 
Por exemplo feita no sentido de verificar a existência de diferença entre os 
tempos de recuperação dentro de cada grupo. O programa a seguir mostra 
como desempenhar esta análise. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA ANEST2 A; /* EXEMP10 SAS */ 
INPUT CAVALO SEXO $ TECN $ TEMPREC; 
CARDS; 
l M A 47 
2 M A 34 
3 F A 44 
4 F A 16 
5 F A 53 
6 M B 79 
7 M B 42 
8 M B 14 
9 F B 11; 
PROC SORT; BY SEXO; 
PROC NPAR1WAY WILCOXON; 
VAR TEMPREC; 
CLASS TECN; 
BY SEXO; 
RUN; 
 
ANÁLISE DOS RESULTADOS: 
 
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA 
--------------------------------- SEXO=F -------------------------------- 
 
N P A R 1 W A Y P R O C E D U R E 
 
Wilcoxon Scores (Rank Sums) for Variable TEMREC 
Classified by Variable TECN 
 
 Sum of Expected Std Dev Mean 
 TECN N Scores Under H0 Under H0 Score 
 
 A 3 9.0 7.50000000 1.11803399 3.0 
 B 1 1.0 2.50000000 1.11803399 1.0 
 
 Wilcoxon 2-Sample Test (Normal Approximation) 
 (with Continuity Correction of .5) 
 
 S= 1.00000 Z= -.894427 Prob > |Z| = 0.3711 
 
 T-Test approx. Significance = 0.4370 
 
 Kruskal-Wallis Test (Chi-Square Approximation) 
 CHISQ= 1.8000 DF= 1 Prob > CHISQ= 0.1797 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
68
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA 
 
--------------------------------- SEXO=M -------------------------------- 
 
N P A R 1 W A Y P R O C E D U R E 
 
Wilcoxon Scores (Rank Sums) for Variable TEMREC 
Classified by Variable TECN 
 
 Sum of Expected Std Dev Mean 
 TECN N Scores Under H0 Under H0 Score 
 
 A 2 6.0 6.0 1.73205081 3.0 
 B 3 9.0 9.0 1.73205081 3.0 
 
 Wilcoxon 2-Sample Test (Normal Approximation) 
 (with Continuity Correction of .5) 
 
 S= 6.00000 Z= 0 Prob > |Z| = 0.9999 
 
 T-Test approx. Significance = 0.9999 
 
 Kruskal-Wallis Test(Chi-Square Approximation) 
 CHISQ= 0 DF= 1 Prob > CHISQ= 0.9999 
 
O p-valor de 0.3711 é superior a 0.05, ou seja, para o grupo de fêmeas não há 
diferença significativa os tempos de recuperação referentes as duas técnicas 
utilizadas Prob > |Z| = 0.3711, à um nível de 5% de significância. Para o grupo de 
machos, PROB>|Z|=0.9999 também é superior à 0.05, donde se conclui que não 
há diferença significativa entre os tempos de recuperação dentro deste subgrupo, 
a um nível de 5% de significância. 
 
 
11 ANÁLISE DE VARIÂNCIA 
 
 
11.1 Dados balanceados (PROC ANOVA) 
 
 
Quando se deseja fazer inferências sobre um conjunto de mais que duas 
médias, utiliza-se a Análise de Variância. 
 
A Análise da Variância se resume na aplicação de um teste de hipóteses 
sobre um experimento projetado estatisticamente. Esta análise permite saber se 
há efeitos significativos de determinadas variáveis agindo sobre os resultados 
além do erro experimental. Neste capítulo, o termo ANOVA refere-se 
especificamente a uma análise paramétrica da variância, que é utilizada se 
algumas suposições sobre os dados observados forem atendidas. 
 
As suposições que envolvem uma análise da variância são: 
 
- as observações devem ser independentes: a medida para determinada 
observação não afeta a medida de outra observação. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
69
- as observações são geradas por uma distribuição normal. Se existe uma 
diferença entre os grupos, talvez exista uma distribuição normal específica para 
cada grupo. 
 
- as variâncias dos grupos são iguais. 
 
Quando o experimento consiste na análise de uma única variável (ou 
fator), com vários níveis, a análise é dita ANOVA a fator único. Para este tipo de 
análise, os procedimentos SAS não fazem distinção quanto ao tipo de dados 
utilizados: se balanceados ou não. Dados balanceados são aqueles cujos grupos 
experimentais tem o mesmo tamanho de amostra. Dados não balanceados, o 
tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e 
ANOVA, tratam estes dados na devida situação. 
 
PROC ANOVA 
 
A PROC ANOVA para análise da variância a fator único pode ser 
utilizada, como visto anteriormente, para ambos dados balanceados e não 
balanceados. Em geral, entretanto, não se utiliza a PROC ANOVA para dados 
não alanceados. Ela é utilizada para: 
 
- Blocos aleatorizados 
 
- Quadrados latinos 
 
Projetos com Blocos Aleatorizados assumem que uma população de 
unidades experimentais pode ser dividida em um número relativamente 
homogêneo de subpopulações ou blocos. Os tratamentos são aleatoriamente 
atribuídos às unidades experimentais dentro de cada bloco. Se todos os 
tratamentos são atribuídos em cada bloco, o projeto é denominado Projeto com 
Blocos Completamente Aleatorizados. 
 
Para exemplificar, suponha um experimento que, em função da duração 
do mesmo, sejam efetuadas edições pela manhã e outra à tarde. Se a 
temperatura influir na variável resposta, a variabilidade do experimento cresce, e a 
sensibilidade dos efeitos do fator em análise será prejudicada. Em outras 
palavras, entre ma medida feita pela manhã e a outra à tarde, tem-se as 
variabilidades devidas ao erro experimental da edição em si, ao efeito do fator (se 
houver) e à variação da temperatura. Como a temperatura não é um fator de 
interesse no experimento, pode-se dizer que ela aumentou o erro experimental. 
Uma maneira de quantificar e isolar esta influência consiste em efetuar um grupo 
completo de medições, que inclua todos os níveis do fator pela manhã e outro à 
tarde. Cada grupo será homogêneo em relação à temperatura e recebe a 
designação de bloco aleatorizado. Quando o projeto envolve a blocagem de mais 
de um fator no experimento, ele é denominado de quadrado latino, e é 
representado por uma forma quadrada (4 X 4) tendo o fator em estudo 
representado por letras latinas. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
70
Os aspectos acima descritos dizem respeito ao controle do erro 
experimental. Outro aspecto a ser considerado na Análise de Variância seria a 
estrutura de tratamento fatorial, que pode ser aplicada à qualquer esquema de 
aleatorização. Um experimento fatorial balanceado consiste de todas as possíveis 
combinações dos níveis de duas ou mais variáveis. Estes níveis podem se referir 
à quantidades numéricas das variáveis, tais como graus de temperatura, 
quantidade de fertilizantes, ou à variáveis que definam categorias qualitativas, tais 
como tipos de fertilizantes, condições operacionais (Temperatura: baixa, média ou 
alta). Um exemplo de experimento fatorial é o estudo envolvendo o uso de 
nitrogênio, fósforo e potássio, cada um à três níveis. Este experimento possui 3 
**3 = 27 combinações de tratamento. Experimentos fatoriais são utilizados para 
investigar não somente todas as diferenças entre os níveis de cada fator (efeitos 
principais), como também como os níveis de um fator afetam a variável resposta, 
em combinação com os níveis dos demais fatores (interações). 
 
A PROC ANOVA pode ser utilizada interativamente. Uma vez 
especificado um modelo com o comando MODEL, que será visto a seguir, e rodar 
o procedimento com o comando RUN, outra variedade de comandos poderá ser 
executada sem que o procedimento recalcule as estatísticas do modelo geradas 
inicialmente. 
 
FORMA GERAL: 
 
PROC ANOVA DATA = arquivo SAS; 
 CLASS variáveis; /*tratamentos*/ 
 MODEL dependente = efeitos / opções; 
 MANOVA H = variável / opções; 
 MEANS efeitos / opções; 
 OUTPUT OUT = arquivo SAS 
 P= nova variável R = nova variável 
 L95 = nova variável U95 = nova variável 
 L95M = nova variável U95M=nova variável; 
RUN; 
 
COMANDOS DISPONÍVEIS: 
 
CLASS nomeia as variáveis de classificação utilizadas para identificar os 
grupos para análise. Este comando tem que aparecer antes do 
comando MODEL. 
 
MODEL nomeia as variáveis dependentes e independentes do modelo. 
 
MANOVA se o comando MODEL inclui mais que uma variável dependente, 
este comando fornece estatísticas multivariadas. 
 
MEANS gera médias para cada nível das variáveis independentes e para a 
interação dos níveis, quando existir. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
71
OUTPUT gera arquivo de saída com as variáveis que irão conter os valores 
previstos, residuais, intervalos de confiança para um valor 
individual da variável dependente, e intervalos de confiança para 
o valor esperado ( média ) da variável dependente. 
 
OPÇÕES DISPONIVEIS NO COMANDO MODEL: 
 
INT requisita teste associado ao intercepto como parâmetro do 
modelo. Por “default”, ele é incluído no modelo, mas o teste 
associado não é listado. Com esta opção o teste associado é 
listado. 
 
NOINT requisita que o intercepto não seja usado no modelo. 
 
NOUNI suprimi estatísticas univariadas. 
 
OPÇÕES DISPONÍVEIS NO COMANDO MANOVA: 
 
H especifica efeitos no modelo para usar como matriz de hipóteses. 
 
PRINTH lista a matriz de hipóteses SSCP e a matriz de erro. A opção 
PRINTE também lista uma matriz de coeficientes de correlação 
parcial e é derivada da matiz de erros SSCP. Esta matriz de 
correlação representa a correlação das variáveis dependentes 
corrigidas para todos os fatores independentes definidos no 
comando MODEL. 
 
OPÇÕES DISPONÍVEIS NO COMANDO MEANS: 
 
As opções especificam os testes utilizados para comparação múltipla e 
são aplicadas somente para os termos de efeitos principais . 
 
DUNCAN desempenha teste de múltiplos ranges para todas as médias dos 
efeitos principais especificados no comando MEANS. 
 
TUKEY desempenha teste de ranges de Student para todas as médias 
dos efeitos principais especificados no comando MEANS. 
 
ALPHA dá os níveis de significância para a comparação entreas médias. 
Por “default” Alpha=0.05. Para a opção DUNCAN, somente os 
valores 0.01, 0.05 ou 0.1 são válidos. Nas demais opções que 
desempenham testes de comparação múltipla, valores entre 
0.0001 e 0.9999 são válidos. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
72
Teste de Duncan 
 
O teste de Duncan é usado na análise de variância para comparar todo 
e qualquer contraste entre duas médias de tratamentos. É menos rigoroso que o 
Teste de Tukey, pois detecta diferença significativa entre duas médias quando o o 
teste de Tukey não o faz. É um teste bastante usado em trabalhos de 
laboratórios, pode ser usado tanto para tratamentos com o mesmo número de 
repetições, quanto tratamentos com parcelas perdidas. 
 
Teste de Tukey 
 
O teste de Tukey é usado na análise de variância para comparar todo e 
qualquer contraste entre duas médias de tratamentos. É o teste de comparação 
de médias mais usado em experimentação, por ser bastante rigoroso e de fácil 
aplicação. Ele é mais exato quando os números de repetições das médias dos 
tratamentos forem iguais. 
 
Quando o Teste Tukey não der diferença significativa e o teste F for 
significativo, o mesmo poderá ser substituído pelo Teste de Duncan, por ser 
menos rigoroso, ou trocar o nível de significância para 10%, ou simplesmente 
aceitar a análise encontrada. 
 
Teste de Scheffé 
 
O teste de Schfeé é usado na análise de variância numa forma mais 
abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer 
constraste, pode ser usado tanto para duas médias (contraste simples) como para 
mais de duas médias (contraste múltiplo), na qual ele é o mais indicado, por ser 
mais rigoroso que o Teste de Tukey. 
 
Análise dos Três Testes 
 
Quando o teste F da análise de variância não for significativo os três 
testes acima não terão efeito de aplicação (só se o teste F estiver próximo da 
significância). Para melhor visualizar a análise comparativa das médias, as 
médias dos tratamentos são colocadas em ordem crescente e para cada conjunto 
de médias que não diferem estatisticamente é atribuída uma mesma letra, ou 
seja, para letras iguais médias estatisticamente iguais, para letras diferentes 
médias estatisticamente diferentes. Para a análise usa-se um nível de 
significância de 5%. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
73
ESTUDO DE CASO 
 
 
11.1.1 Experimento Completamente Casualizado 
 
 
Suponha que os pesquisadores de uma linha de produção automobilística 
queiram comparar o desgaste de 4 tipos de pneus. 
 
Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente 
os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm 
após 10.000 Km rodados pelos 4 carros em condições idênticas de direção. 
 
 
 
Considere as seguintes questões: 
 
1 - As unidades experimentais deste experimento são os pneus. 
 
2 - As suposições para análise consistem em tratamentos aleatoriamente 
atribuídos para as 16 posições nos 4 carros, com o desgaste por marca de 
pneu sendo normalmente distribuído, com variância comum. 
 
3 - O modelo experimental é representado por: 
 
DESGASTE = CTE + efeito TIPO + erro 
 
A hipótese a ser testada é: 
 
Ho: As médias do desgaste para os 4 tipos de pneus são iguais 
 
Leia os dados em um arquivo SAS e análise com a PROC ANOVA a 
hipótese testada. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
74
OPTIONS FORMDLIM='*' LS=80; 
DATA PNEU1 A; /* EXEMP11 SAS */ 
INPUT TIPOS $ DESGASTE @@; 
CARDS; 
1 1.83 2 2.42 3 1.98 4 1.83 
1 1.88 2 2.05 3 1,86 4 1.81 
1 1.86 2 2.10 3 2.30 4 1.75 
1 1.77 2 2.61 3 2.31 4 1.92 
; 
PROC ANOVA; 
CLASS TIPO; 
MODEL DESGASTE = TIPO; 
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; 
RUN; 
 
ANÁLISE DOS RESULTADOS: 
 
EXPERIMENTO COMPLETAMENTE CASUALIZADO 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 TIPO 4 1 2 3 4 
 
Number of observations in data set = 16 
 
EXPERIMENTO COMPLETAMENTE CASUALIZADO 
 
Analysis of Variance Procedure 
 
 Dependent Variable: DESGASTE 
 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 3 0.62175000 0.20725000 6.37 0.0079 
 
Error 12 0.39015000 0.03251250 
 
Corrected Total 15 1.01190000 
 
 R-Square C.V. Root MSE DESGASTE Mean 
 
 0.614438 8.937409 0.1803122 2.0175000 
 
Source DF Anova SS Mean Square F Value Pr > F 
 
TIPO 3 0.62175000 0.20725000 6.37 0.0079 
 
A estimativa da variância do erro da população é dada por MSE (Error) = 0.032; 
 
O R_Square descreve a quantidade de variação nos dados que se deve a 
diferença existente entre os Grupos. Logo, 61% da variabilidade do modelo é 
explicada pela diferença entre os tipos dos pneus. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
75
O p-valor dado por Pr > F = 0.0079 é inferior ao nível de significância de 0.10, 
donde se conclui que a média do desgaste é significativamente diferente para os 
diferentes tipos de pneus. 
 
A Soma dos Quadrados (SS) mede a quantidade de variação atribuída a uma 
dada fonte. Note que Model SS e Error SS somam a variação total do modelo. 
 
A média global do desgaste dos pneus é dada por DESGASTE Mean. 
 
O coeficiente de variação CV é calculado multiplicando o desvio padrão por 100 e 
dividindo pela média, ou seja. 100 (std/mean). 
 
 
11.1.2 Experimento com Blocos Aleatorizados 
 
 
A fim de controlar a influência do fator tipo de carro no desgaste dos 
pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu 
aparecesse em cada carro, Logo, cada carro consiste num bloco de edições, o 
que permite: 
 
- O controle da variação que se deve aos diferentes tipos de carro. 
 
- A eliminação da variação de cada carro em relação aos tipos de pneus 
utilizados. 
 
- A obtenção de uma precisão maior do erro do experimento. 
 
O modelo experimental em questão é dado por: 
 
DESGASTE = CTE + efeito TIPO + efeito CARRO + erro 
 
Os efeitos dos blocos são aditivos, ou seja, não existe interação entre o 
tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout: 
 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
76
OPTIONS FORMDLIM='*' LS=80; 
DATA PNEU2 A; /* EXEMP12 SAS */ 
INPUT TIPO $ CARRO DESGASTE @@; 
CARDS; 
A l 1.51 A 2 1.71 A 3 1.78 A 4 1.80 
B l 2.36 B 2 2.45 B 3 2.24 B 4 2.41 
C l 2.20 C 2 2.05 C 3 2.01 C 4 2.01 
D l 1.51 D 2 2.22 D 3 1.73 D 4 1.80 
; 
PROC ANOVA; 
CLASS TIPO CARRO; 
MODEL DESGASTE = TIPO CARRO; 
TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS'; 
RUN; 
 
ANÁLISE DOS RESULTADOS: 
 
EXPERIMENTO COM BLOCOS ALEATORIZADOS 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 TIPO 4 A B C D 
 
 CARRO 4 1 2 3 4 
 
Number of observations in data set = 16 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS ALEATORIZADOS 
 
Analysis of Variance Procedure 
 
 Dependent Variable: DESGASTE 
 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 6 1.14733750 0.19122292 6.51 0.0068 
 
Error 9 0.26440625 0.02937847 
 
CorrectedTotal 15 1.41174375 
 
 R-Square C.V. Root MSE DESGASTE Mean 
 
 0.812709 8.626687 0.1714015 1.9868750 
 
Source DF Anova SS Mean Square F Value Pr > F 
 
TIPO 3 1.04526875 0.34842292 11.86 0.0018 
CARRO 3 0.10206875 0.03402292 1.16 0.3780 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
77
Pode-se notar que estimativa da variância do erro deste experimento é inferior a 
vista anteriormente. O fator de blocagem CARRO poderia ser retirado do 
experimento, uma vez que ele não é significativo. 
 
 
11.1.3 Experimento com Quadrado Latino 
 
 
A localização do pneu no carro pode ter algum efeito sobre o resultado do 
desgaste. 
 
Se o interesse for controlar o efeito da localização do pneu a fim de se 
obter uma idéia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser 
posicionados da seguinte maneira: 
 
 
Nesse experimento cada tipo de pneu aparece em cada carro, todos os 
tipos em diferentes posições. 
 
O modelo experimental é dado por: 
 
DESGASTE = CTE + TIPO + CARRO + POS + ERRO 
 
 
 
Os efeitos dos blocos (carro e posição do pneu) são aditivos. Analise a 
variância do experimento apresentado. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA PNEU3 A; /* EXEMP13 SAS */ 
INPUT CARRO POS TIPO $ DESGASTE 
CARDS; 
1 l B 2.23 2 l C 2.31 3 l D 2.07 4 1 A 1.97 
l 2 C 2.04 2 2 D 1.97 3 2 A 1.69 4 2 B 2.59 
1 3 D 1.78 2 3 A 1.73 3 3 B 2.20 4 3 C 2.25 
1 4 A 1.64 2 4 B 2.22 3 4 C 1.80 4 4 D 1.86 
; 
PROC ANOVA; 
CLASS CARRO POS TIPO; 
MODEL DESGASTE = CARRO POS TIPO; 
TITLE 'EXPERIMENTO COM QUADRADO LATINO'; 
RUN; 
 
 
ANÁLISE DOS RESULTADOS: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
78
 
EXPERIMENTO COM QUADRADO LATINO 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 CARRO 4 1 2 3 4 
 
 POS 4 1 2 3 4 
 
 TIPO 4 A B C D 
 
Number of observations in data set = 16 
 
************************************************************************* 
 
EXPERIMENTO COM QUADRADO LATINO 
 
Analysis of Variance Procedure 
 
 Dependent Variable: DESGASTE 
 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 9 0.98925625 0.10991736 9.99 0.0055 
 
Error 6 0.06598750 0.01099792 
 
Corrected Total 15 1.05524375 
 
 R-Square C.V. Root MSE DESGASTE Mean 
 
 0.937467 5.186817 0.1048710 2.0218750 
 
Source DF Anova SS Mean Square F Value Pr > F 
 
CARRO 3 0.15621875 0.05207292 4.73 0.0505 
POS 3 0.15546875 0.05182292 4.71 0.0510 
TIPO 3 0.67756875 0.22585625 20.54 0.0015 
 
Observa-se uma redução na variância do erro experimental MS(ERROR) = 0.010. 
O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de 
pneu é um fator significativo para o modelo, pois Pr > F = 0.0055 é inferior ao 
nível de significância de 0.10. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
79
12 EXERCÍCIOS RESOLVIDOS E COMENTADOS 
 
1) Um analista de uma cadeia de lanchonetes quer investigar o relacionamento 
entre o número de atendentes no balcão self-service e as vendas de café. 
Quatorze lanchonetes foram escolhidas para teste por serem similares em 
alguns aspectos tais como: volume total de negócios, tipo de clientela e 
localização. O número de atendentes que são colocados nas lanchonetes-teste 
varia de zero a sete (o café é servido numa linha de atendimento), e é 
distribuído aleatoriamente em cada lanchonete, como mostra os dados abaixo: 
 
No de 
Atendentes 
Vendas 
5 729,1 
1 568,2 
0 508,1 
7 854,7 
5 787,6 
2 651,7 
0 498,4 
6 841,4 
4 755,3 
1 577,3 
6 831,8 
7 871,4 
2 657,0 
4 758,9 
 
Crie um arquivo LANCHE.SAS para: 
 
A) Criar uma tabela das vendas de café X número de atendentes e plote o gráfico. 
 
B) Ajustar um modelo linear de regressão das vendas em função do número de 
atendentes. Verifique a existência de pontos fora do padrão, e, através da 
PROC UNIVARIATE, verifique a qualidade do ajuste. 
 
C) Idem para o modelo quadrático. 
 
 
D) Caso seja identificado algum “outlier”, elimine-o da análise e verifique 
novamente a qualidade dos resíduos. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA LANCHES A; 
INPUT NO_AT VENDAS @@; 
NUM2=NO_AT*NO_AT; 
CARDS; 
5 729.1 1 568.2 0 508.1 7 854.7 5 787.6 
2 651.7 0 498.4 6 841.4 4 755.3 1 577.3 
6 831.8 7 871.4 2 657.0 4 758.9 
; 
/* #############( A )################## */ 
PROC FREQ; 
 TABLES NO_AT*VENDAS /LIST; 
TITLE 'TABELA NO ATENDENTES * VENDAS'; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
80
RUN; 
PROC PLOT; 
 PLOT VENDAS*NO_AT='*'; 
TITLE 'DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES'; 
RUN; 
/* #############( B )################## */ 
PROC REG; 
 MODEL VENDAS=NO_AT /R; 
 PLOT R.*NO_AT='*'; 
 OUTPUT OUT=RESIDUO1 R=RESID1; 
TITLE 'REGRESSAO LINEAR DE VENDAS * NO ATENDENTES'; 
PROC UNIVARIATE DATA=RESIDUO1 NORMAL; 
 VAR RESID1; 
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR'; 
RUN; 
/* #############( C )################## */ 
PROC REG; 
 MODEL VENDAS=NO_AT NUM2 /R; 
 PLOT R.*NO_AT='*'; 
 OUTPUT OUT=RESIDUO2 R=RESID2; 
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES'; 
PROC UNIVARIATE DATA=RESIDUO2 NORMAL; 
 VAR RESID2; 
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO';RUN; 
/* #############( D )################## */ 
PROC REG; 
 MODEL VENDAS=NO_AT NUM2 /R; 
 WHERE NO_AT NE 5 OR VENDAS NE 729.1; 
 PLOT R.*NO_AT='*'; 
 OUTPUT OUT=RESIDUO3 R=RESID3; 
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS'; 
PROC UNIVARIATE DATA=RESIDUO3 NORMAL; 
 VAR RESID3; 
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS'; 
RUN; 
 
A) 
TABELA NO ATENDENTES * VENDAS 
 
 Cumulative Cumulative 
 NO_AT VENDAS Frequency Percent Frequency Percent 
 ---------------------------------------------------------- 
 0 498.4 1 7.1 1 7.1 
 0 508.1 1 7.1 2 14.3 
 1 568.2 1 7.1 3 21.4 
 1 577.3 1 7.1 4 28.6 
 2 651.7 1 7.1 5 35.7 
 2 657.0 1 7.1 6 42.9 
 4 755.3 1 7.1 7 50.0 
 4 758.9 1 7.1 8 57.1 
 5 729.1 1 7.1 9 64.3 
 5 787.6 1 7.1 10 71.4 
 6 831.8 1 7.1 11 78.6 
 6 841.4 1 7.1 12 85.7 
 7 854.7 1 7.1 13 92.9 
 7 871.4 1 7.1 14 100.0 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
81
DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES 
 
Plot of VENDAS*NO_AT. Symbol used is '*'. 
 
 900 + 
 | 
 | * 
 | * 
 850 + 
 | * 
 | * 
 | 
 800 + 
V | * 
E | 
N | * 
D750 + 
A | 
S | 
 | * 
 700 + 
 | 
 | 
 | * 
 650 + * 
 | 
 | 
 | 
 600 + 
 | 
 | * 
 | * 
 550 + 
 | 
 | 
 |* 
 500 +* 
 -+--------+--------+--------+--------+--------+--------+--------+- 
 0 1 2 3 4 5 6 7 
NO_AT 
 
NOTE: 1 obs hidden. 
 
B) 
 
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES 
 
 Model: MODEL1 
 Dependent Variable: VENDAS 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 1 211484.38607 211484.38607 328.514 0.0001 
 Error 12 7725.12322 643.76027 
 C Total 13 219209.50929 
 
 Root MSE 25.37243 R-square 0.9648 
 Dep Mean 706.49286 Adj R-sq 0.9618 
 C.V. 3.59132 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 526.678767 12.01686851 43.828 0.0001 
 NO_AT 1 50.347945 2.77782371 18.125 0.0001 
 
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
82
 Dep Var Predict Std Err Std Err Student 
 Obs VENDAS Value Predict Residual Residual Residual 
 
 1 729.1 778.4 7.857 -49.3185 24.125 -2.044 
 2 568.2 577.0 9.849 -8.8267 23.383 -0.377 
 3 508.1 526.7 12.017 -18.5788 22.346 -0.831 
 4 854.7 879.1 11.691 -24.4144 22.518 -1.084 
 5 787.6 778.4 7.857 9.1815 24.125 0.381 
 6 651.7 627.4 8.065 24.3253 24.057 1.011 
 7 498.4 526.7 12.017 -28.2788 22.346 -1.265 
 8 841.4 828.8 9.565 12.6336 23.500 0.538 
 9 755.3 728.1 6.885 27.2295 24.420 1.115 
 10 577.3 577.0 9.849 0.2733 23.383 0.012 
 11 831.8 828.8 9.565 3.0336 23.500 0.129 
 12 871.4 879.1 11.691 -7.7144 22.518 -0.343 
 13 657.0 627.4 8.065 29.6253 24.057 1.231 
 14 758.9 728.1 6.885 30.8295 24.420 1.262 
 
 Cook's 
 Obs -2-1-0 1 2 D 
 
 1 | ****| | 0.222 
 2 | | | 0.013 
 3 | *| | 0.100 
 4 | **| | 0.158 
 5 | | | 0.008 
 6 | |** | 0.057 
 7 | **| | 0.232 
 8 | |* | 0.024 
 9 | |** | 0.049 
 10 | | | 0.000 
 11 | | | 0.001 
 12 | | | 0.016 
 13 | |** | 0.085 
 14 | |** | 0.063 
 
 Sum of Residuals 0 
 Sum of Squared Residuals 7725.1232 
 Predicted Resid SS (Press) 10165.3789 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
83
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES 
 
RESIDUAL 
 ------+-------+-------+-------+-------+-------+-------+-------+------ 
 | | 
40 + + 
 | * | 
 | * | 
 | * | 
 | * | 
20 + + 
 | * | 
 | * | 
 | | 
 | * | 
 0 + * + 
 | * | 
 | * | 
 | | 
 | * | 
-20+ + 
 | * | 
 | | 
 | * | 
 | | 
-40++ 
 | | 
 | | 
 | * | 
 | | 
-60+ + 
 ------+-------+-------+-------+-------+-------+-------+-------+------ 
 0 1 2 3 4 5 6 7 
NO_AT 
 
TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR 
 
Univariate Procedure 
 
Variable=RESID1 Residual 
 
Moments 
 
 N 14 Sum Wgts 14 
 Mean 0 Sum 0 
 Std Dev 24.37704 Variance 594.2402 
 Skewness -0.44594 Kurtosis -0.49803 
 USS 7725.123 CSS 7725.123 
 CV . Std Mean 6.515039 
 T:Mean=0 0 Pr>|T| 1.0000 
 Num ^= 0 14 Num > 0 8 
 M(Sign) 1 Pr>=|M| 0.7905 
 Sgn Rank 4.5 Pr>=|S| 0.8077 
 W:Normal 0.952408 Pr<W 0.5667 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
84
Quantiles(Def=5) 
 
 100% Max 30.82945 99% 30.82945 
 75% Q3 24.32534 95% 30.82945 
 50% Med 1.653425 90% 29.62534 
 25% Q1 -18.5788 10% -28.2788 
 0% Min -49.3185 5% -49.3185 
 1% -49.3185 
 Range 80.14795 
 Q3-Q1 42.90411 
 Mode -49.3185 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -49.3185( 1) 12.63356( 8) 
 -28.2788( 7) 24.32534( 6) 
 -24.4144( 4) 27.22945( 9) 
 -18.5788( 3) 29.62534( 13) 
 -8.82671( 2) 30.82945( 14) 
 
COMENTÁRIO: 
 
O modelo de regressão linear explica 96.48% da variabilidade das vendas de 
café. Tanto o intercepto quanto o parâmetro relativo ao número de atendentes são 
significativos para o modelo (p-valor=0.0001).O plote dos resíduos de Student 
indica que a 1a observação do arquivo está num range suspeito. O plote dos 
resíduos sugere a necessidade de um termo quadrático. No teste de normalidade 
obtido com a PROC UNIVARIATE, há indicação de normalidade dos resíduos. Um 
termo quadrático deve ser considerado nas análises. 
 
C) 
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES 
 
 Model: MODEL1 
 Dependent Variable: VENDAS 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 2 214249.72406 107124.86203 237.586 0.0001 
 Error 11 4959.78522 450.88957 
 C Total 13 219209.50929 
 
 Root MSE 21.23416 R-square 0.9774 
 Dep Mean 706.49286 Adj R-sq 0.9733 
 C.V. 3.00557 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 507.641529 12.65833646 40.103 0.0001 
 NO_AT 1 72.191126 9.12139574 7.914 0.0001 
 NUM2 1 -3.151289 1.27247482 -2.477 0.0308 
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES 
 
 Dep Var Predict Std Err Std Err Student 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
85
 Obs VENDAS Value Predict Residual Residual Residual 
 
 1 729.1 789.8 8.026 -60.7149 19.659 -3.088 
 2 568.2 576.7 8.244 -8.4814 19.569 -0.433 
 3 508.1 507.6 12.658 0.4585 17.049 0.027 
 4 854.7 858.6 12.829 -3.8663 16.921 -0.228 
 5 787.6 789.8 8.026 -2.2149 19.659 -0.113 
 6 651.7 639.4 8.319 12.2814 19.537 0.629 
 7 498.4 507.6 12.658 -9.2415 17.049 -0.542 
 8 841.4 827.3 8.026 14.0581 19.659 0.715 
 9 755.3 746.0 9.248 9.3146 19.114 0.487 
 10 577.3 576.7 8.244 0.6186 19.569 0.032 
 11 831.8 827.3 8.026 4.4581 19.659 0.227 
 12 871.4 858.6 12.829 12.8337 16.921 0.758 
 13 657.0 639.4 8.319 17.5814 19.537 0.900 
 14 758.9 746.0 9.248 12.9146 19.114 0.676 
 
 Cook's 
 Obs -2-1-0 1 2 D 
 
 1 |******| | 0.530 
 2 | | | 0.011 
 3 | | | 0.000 
 4 | | | 0.010 
 5 | | | 0.001 
 6 | |* | 0.024 
 7 | *| | 0.054 
 8 | |* | 0.028 
 9 | | | 0.019 
 10 | | | 0.000 
 11 | | | 0.003 
 12 | |* | 0.110 
 13 | |* | 0.049 
 14 | |* | 0.036 
 
Sum of Residuals 0 
Sum of Squared Residuals 4959.7852 
Predicted Resid SS (Press) 7100.0421 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
86
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES 
 
RESIDUAL 
 ------+-------+-------+-------+-------+-------+-------+-------+------ 
 20 + + 
 | * | 
 | * * * | 
 | * | 
 10 + * + 
 | | 
 | * | 
 | | 
 0 + * * + 
 | * | 
 | * | 
 | * | 
-10 + * + 
 | | 
 | | 
 | | 
-20 + + 
 | | 
 | | 
 | | 
-30 + + 
 | | 
 | | 
 | | 
-40 + + 
 || 
 | | 
 | | 
-50 + + 
 | | 
 | | 
 | | 
-60 + * + 
 ------+-------+-------+-------+-------+-------+-------+-------+------ 
 0 1 2 3 4 5 6 7 
 NO_AT 
 
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO 
 
Univariate Procedure 
 
 Variable=RESID2 Residual 
 
Moments 
 
 N 14 Sum Wgts 14 
 Mean 0 Sum 0 
 Std Dev 19.53259 Variance 381.5219 
 Skewness -2.52959 Kurtosis 7.77964 
 USS 4959.785 CSS 4959.785 
 CV . Std Mean 5.220303 
 T:Mean=0 0 Pr>|T| 1.0000 
 Num ^= 0 14 Num > 0 9 
 M(Sign) 2 Pr>=|M| 0.4240 
 Sgn Rank 18.5 Pr>=|S| 0.2676 
 W:Normal 0.714683 Pr<W 0.0004 
 
Quantiles(Def=5) 
 
 100% Max 17.58138 99% 17.58138 
 75% Q3 12.83375 95% 17.58138 
 50% Med 2.538376 90% 14.05812 
 25% Q1 -3.86625 10% -9.24153 
 0% Min -60.7149 5% -60.7149 
 1% -60.7149 
 Range 78.29631 
 Q3-Q1 16.7 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
87
 Mode -60.7149 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -60.7149( 1) 12.28138( 6) 
 -9.24153( 7) 12.83375( 12) 
 -8.48137( 2) 12.91459( 14) 
 -3.86625( 4) 14.05812( 8) 
 -2.21494( 5) 17.58138( 13) 
 
COMENTÁRIO: 
 
No ajuste quadrático observa-se que a soma dos quadrados devido ao erro da 
regressão diminuiu relativamente à regressão linear, e o R-square aumentou para 
97.74%. Todos os parâmetros relativos ao ajuste quadrático são significativos 
para o modelo ao nível de 5%. Os resíduos indicam aleatoriedade (alternância 
homogênea de pontos positivos e negativos). Com o plote dos resíduos de 
Student, pode-se verificar a existência de um ponto fora do padrão. Para verificar 
a qualidade do ajuste, indica-se o teste para a normalidade dos resíduos. Ao nível 
de α = 5% de significância, Prob<W=0.0004<α, indicando a não normalidade dos 
resíduos. Considerando a 1a observação como um 'outlier', ela pode estar 
influenciando nos resultados. O mesmo ajuste pode ser efetuado eliminando esta 
observação. 
 
D) 
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS 
 
 Model: MODEL1 
 Dependent Variable: VENDAS 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 2 218000.01432 109000.00716 1653.775 0.0001 
 Error 10 659.09799 65.90980 
 C Total 12 218659.11231 
 
 Root MSE 8.11849 R-square 0.9970 
 Dep Mean 704.75385 Adj R-sq 0.9964 
 C.V. 1.15196 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
88
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 502.811932 4.87646962 103.110 0.0001 
 NO_AT 1 79.780492 3.61173750 22.089 0.0001 
 NUM2 1 -4.071212 0.49965821 -8.148 0.0001 
 
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS 
 
 Dep Var Predict Std Err Std Err Student 
 Obs VENDAS Value Predict Residual Residual Residual 
 
 1 568.2 578.5 3.160 -10.3212 7.478 -1.380 
 2 508.1 502.8 4.876 5.2881 6.491 0.815 
 3 854.7 861.8 4.921 -7.0860 6.457 -1.097 
 4 787.6 799.9 3.314 -12.3341 7.411 -1.664 
 5 651.7 646.1 3.286 5.6119 7.424 0.756 
 6 498.4 502.8 4.876 -4.4119 6.491 -0.680 
 7 841.4 834.9 3.209 6.4688 7.457 0.867 
 8 755.3 756.8 3.781 -1.4945 7.184 -0.208 
 9 577.3 578.5 3.160 -1.2212 7.478 -0.163 
 10 831.8 834.9 3.209 -3.1312 7.457 -0.420 
 11 871.4 861.8 4.921 9.6140 6.457 1.489 
 12 657.0 646.1 3.286 10.9119 7.424 1.470 
 13 758.9 756.8 3.781 2.1055 7.184 0.293 
 
 Cook's 
 Obs -2-1-0 1 2 D 
 
 1 | **| | 0.113 
 2 | |* | 0.125 
 3 | **| | 0.233 
 4 | ***| | 0.185 
 5 | |* | 0.037 
 6 | *| | 0.087 
 7 | |* | 0.046 
 8 | | | 0.004 
 9 | | | 0.002 
 10 | | | 0.011 
 11 | |** | 0.429 
 12 | |** | 0.141 
 13 | | | 0.008 
 
Sum of Residuals 0 
Sum of Squared Residuals 659.0980 
Predicted Resid SS (Press) 1140.4168 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
89
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS 
 
RESIDUAL 
 ------+-------+-------+-------+-------+-------+-------+-------+------ 
 | | 
 15 + + 
 | | 
 | | 
 | * | 
 10 + + 
 | * | 
 | * | 
 | * | 
 5 + * + 
 | | 
 | * | 
 | | 
 0 + + 
 | * * | 
 | * | 
 | * | 
 -5 + + 
 | | 
 | * | 
 || 
-10 + * + 
 | * | 
 | | 
 | | 
-15 + + 
 | | 
 ------+-------+-------+-------+-------+-------+-------+-------+------ 
 0 1 2 3 4 5 6 7 
 NO_AT 
 
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS 
 
Univariate Procedure 
 
Variable=RESID3 Residual 
 
Moments 
 
 N 13 Sum Wgts 13 
 Mean 0 Sum 0 
 Std Dev 7.411129 Variance 54.92483 
 Skewness -0.1599 Kurtosis -1.01313 
 USS 659.098 CSS 659.098 
 CV . Std Mean 2.055477 
 T:Mean=0 0 Pr>|T| 1.0000 
 Num ^= 0 13 Num > 0 6 
 M(Sign) -0.5 Pr>=|M| 1.0000 
 Sgn Rank 0.5 Pr>=|S| 1.0000 
 W:Normal 0.965059 Pr<W 0.7796 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
90
Quantiles(Def=5) 
 
 100% Max 10.91193 99% 10.91193 
 75% Q3 5.611932 95% 10.91193 
 50% Med -1.22121 90% 9.614015 
 25% Q1 -4.41193 10% -10.3212 
 0% Min -12.3341 5% -12.3341 
 1% -12.3341 
 Range 23.24602 
 Q3-Q1 10.02386 
 Mode -12.3341 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -12.3341( 4) 5.288068( 2) 
 -10.3212( 1) 5.611932( 5) 
 -7.08598( 3) 6.46875( 7) 
 -4.41193( 6) 9.614015( 11) 
 -3.13125( 10) 10.91193( 12) 
 
COMENTÁRIO: 
 
O coeficiente de determinação para este ajuste é de 99,70%. A soma dos 
quadrados devido ao erro da regressão caiu de 4959,78 para 659,09, e no teste 
da normalidade de resíduos o p-valor associado é Pr<W=0.77>α, indicando a 
normalidade dos resíduos. 
 
2) Três testes foram aplicados para a admissão de crianças em uma escola. São 
eles: Inteligência, Psicomotricidade e Motivação. Os coeficientes de rendimento 
são guardados em uma variável chamada CR. As notas e o CR obtidos por 
cada criança são mostrados a seguir. Criar um arquivo TESTE.SAS para 
resolver este problema. 
 
QI PSICO MOTIVA CR 
80 36 10 10 
75 35 10 10 
71 34 9 9 
71 33 9 9 
71 30 10 8 
65 35 9 7 
60 20 7 7 
60 25 7 7 
59 31 9 7 
57 31 9 7 
65 35 9 8 
 
A) O pedagogo deseja verificar a validade destes testes, ou seja, eles tem 
importância significativa no processo de seleção da escola? Use a PROC 
CORR para verificar o grau de associação de cada teste com o coeficiente de 
rendimento dos alunos. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
91
B) A variável CR depende das notas obtidas pelas crianças nos três 
testes. Supondo que o CR vai linearmente de acordo com as notas, testar 
pela análise da variância, a significância da equação de regressão. 
Primeiramente ajuste um modelo de regressão múltipla aos dados e, 
passo a passo, identifique as variáveis mais significativas para o modelo. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA TESTE A; 
INPUT QI PSICO MOTIVA CR @@; 
CARDS; 
80 36 10 10 75 35 10 10 
71 34 9 9 71 33 9 9 
71 30 10 8 65 35 9 7 
60 20 7 7 60 25 7 7 
59 31 9 7 57 31 9 7 
65 35 9 8 
; 
/* #############( A )################## */ 
PROC CORR; 
 VAR QI PSICO MOTIVA; 
 WITH CR; 
TITLE 'ANALISE DE CORRELACAO'; 
RUN; 
/* #############( B.1 )################ */ 
PROC REG; 
 MODEL CR = QI PSICO MOTIVA; 
 OUTPUT OUT=RESID1 R=RESIDUAL; 
 PLOT RESIDUAL.*PREDICTED.='*'; 
TITLE 'ANALISE DE REGRESSAO MULTIPLA'; 
RUN; 
/* #############( B.2 )################ */ 
PROC REG; 
 MODEL CR = QI /NOINT; 
 OUTPUT OUT=RESID2 R=RESIDUAL; 
 PLOT RESIDUAL.*PREDICTED.='*'; 
TITLE 'ANALISE DE REGRESSAO MULTIPLA'; 
PROC UNIVARIATE NORMAL PLOT; 
 VAR RESIDUAL; 
TITLE 'ANALISE DOS RESIDUOS'; 
RUN; 
 
A) 
ANALISE DE CORRELACAO 
 
Correlation Analysis 
 
1 'WITH' Variables: CR 
3 'VAR' Variables: QI PSICO MOTIVA 
 
Simple Statistics 
 
Variable N Mean Std Dev Sum Minimum Maximum 
 
CR 11 8.09091 1.22103 89.00000 7.00000 10.00000 
QI 11 66.72727 7.41742 734.00000 57.00000 80.00000 
PSICO 11 31.36364 4.92489 345.00000 20.00000 36.00000 
MOTIVA 11 8.90909 1.04447 98.00000 7.00000 10.00000 
 
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 11 
 
 QI PSICO MOTIVA 
 
 CR 0.93048 0.59261 0.63442 
 0.0001 0.0547 0.0360 
 
 
COMENTÁRIO: 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
92
QI é um fator significativamente importante dentro do processo de seleção dos 
alunos: Coef. Corr. Pearson (QI) = 0.93 e p-valor = 0.00001 < α, para níveis de 
1%, 5% e 10%. O p-valor associado ao teste de correlação nula para PSICO 
supera os níveis usuais de significância, evidenciando a hipótese nula, ou seja, a 
correlação é baixa entre a variável PSICO e o CR do aluno. Ao nível de 1% de 
significânciahá evidência de H0. Já aos níveis de 5% e 10% há indicações que a 
verdadeira correlação entre CR e MOTIVA difere de zero. 
 
B.1) 
ANALISE DE REGRESSAO MULTIPLA 
 
 Model: MODEL1 
 Dependent Variable: CR 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 3 12.97836 4.32612 15.685 0.0017 
 Error 7 1.93073 0.27582 
 C Total 10 14.90909 
 
 Root MSE 0.52518 R-square 0.8705 
 Dep Mean 8.09091 Adj R-sq 0.8150 
 C.V. 6.49104 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 -2.009199 1.61813951 -1.242 0.2543 
 QI 1 0.151679 0.03066149 4.947 0.0017 
 PSICO 1 0.030064 0.05964986 0.504 0.6297 
 MOTIVA 1 -0.108196 0.30874764 -0.350 0.7363 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
93
ANALISE DE REGRESSAO MULTIPLA 
 
RESIDUAL 
 ------+------+------+------+------+------+------+------+------+------ 
0.8 + + 
 | | 
 | * | 
 | | 
0.6 + + 
 | | 
 | | 
0.4 + * + 
 | | 
 | * | 
0.2 + * + 
 | * | 
 | * * | 
 | | 
0.0 + + 
 | * | 
 | * | 
 | | 
-0.2+ + 
 | | 
 | | 
 | | 
-0.4+ + 
 | | 
 | | 
 | * | 
-0.6+ + 
 | | 
 | | 
 | | 
-0.8+ + 
 | | 
 | * | 
 | | 
-1.0+ + 
 ------+------+------+------+------+------+------+------+------+------ 
 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 
Predicted Value of CR PRED 
 
COMENTÁRIO: 
 
O modelo obtido para CR, com a Regressão Múltipla é dados por: 
 
CR= -2.01 + 0.15 QI + 0.03 PSICO - 0.11 MOTIVA 
 
Pode-se notar que o erro padrão relativo à estimativa do parâmetro de QI é bem 
pequeno (Standard Error=0.03). Este modelo explica 87% da variação de CR. 
Como Prob>F=0.0017 é 'fechado' em zero, há evidências da hipótese nula, isto é, 
ao menos 1 parâmetro do modelo deve ser diferente de zero. O p-valor para o 
intercepto, PSICO e MOTIVA são altos, havendo grandes chances dos 
parâmetros relativos à estas variáveis serem iguais a zero. Já o parâmetro relativo 
à variável QI (pvalor = 0.0015), existe forte evidência que seja significativamente 
diferente de zero. Podemos testar portanto, um novo modelo de regressão, porém 
sem o intercepto e apenas com a variável QI. 
 
 
A rotina (B.2) desempenham esta tarefa. 
 
ANALISE DE REGRESSAO MULTIPLA 
 
 Model: MODEL1 
 NOTE: No intercept in model. R-square is redefined. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
94
 Dependent Variable: CR 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 1 732.44486 732.44486 2866.554 0.0001 
 Error 10 2.55514 0.25551 
 U Total 11 735.00000 
 
 Root MSE 0.50548 R-square 0.9965 
 Dep Mean 8.09091 Adj R-sq 0.9962 
 C.V. 6.24755 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 QI 1 0.121608 0.00227134 53.540 0.0001 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
95
ANALISE DE REGRESSAO MULTIPLA 
 
RESIDUAL 
 ----+----+----+----+----+----+----+----+----+----+----+----+----+---- 
 | | 
1.0 + + 
 | | 
 | * | 
0.8 + + 
 | | 
 | | 
0.6 + + 
 | | 
 | | 
0.4 + + 
 | * | 
 | * | 
0.2 + + 
 | * | 
 | * | 
0.0 + + 
 | | 
 | * | 
-0.2+ + 
 | | 
 | * | 
-0.4+ + 
 | | 
 || 
-0.6+ + 
 | * | 
 | | 
-0.8+ + 
 | | 
 | * | 
-1.0+ + 
 | | 
 ----+----+----+----+----+----+----+----+----+----+----+----+----+---- 
 6.75 7.00 7.25 7.50 7.75 8.00 8.25 8.50 8.75 9.00 9.25 9.50 9.75 
Predicted Value of CR PRED 
 
ANALISE DOS RESIDUOS 
 
Univariate Procedure 
 
 Variable=RESIDUAL Residual 
 
Moments 
 
 N 11 Sum Wgts 11 
 Mean 0 Sum 0 
 Std Dev 0.4394 Variance 0.193073 
 Skewness -0.89363 Kurtosis 1.147284 
 USS 1.930728 CSS 1.930728 
 CV . Std Mean 0.132484 
 T:Mean=0 0 Pr>|T| 1.0000 
 Num ^= 0 11 Num > 0 7 
 M(Sign) 1.5 Pr>=|M| 0.5488 
 Sgn Rank 5 Pr>=|S| 0.7002 
 W:Normal 0.925844 Pr<W 0.3534 
Quantiles(Def=5) 
 
 100% Max 0.663001 99% 0.663001 
 75% Q3 0.221649 95% 0.663001 
 50% Med 0.071596 90% 0.405283 
 25% Q1 -0.12546 10% -0.57997 
 0% Min -0.9284 5% -0.9284 
 1% -0.9284 
 Range 1.591405 
 Q3-Q1 0.347107 
 Mode -0.9284 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -0.9284( 6) 0.101925( 9) 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
96
 -0.57997( 5) 0.191585( 3) 
 -0.12546( 1) 0.221649( 4) 
 -0.08576( 8) 0.405283( 10) 
 0.064553( 7) 0.663001( 2) 
 
 Stem Leaf # Boxplot 
 6 6 1 | 
 4 1 1 | 
 2 2 1 +-----+ 
 0 6709 4 *--+--* 
 -0 39 2 +-----+ 
 -2 | 
 -4 8 1 | 
 -6 
 -8 3 1 0 
 ----+----+----+----+ 
Multiply Stem.Leaf by 10**-1 
 
ANALISE DOS RESIDUOS 
 
Univariate Procedure 
 
 Variable=RESIDUAL Residual 
 
Normal Probability Plot 
 0.7+ ++*++ 
 | +*++ 
 | ++*++ 
 | * *+*++* 
 -0.1+ * *++++ 
 | +++++ 
 | ++*+ 
 | +++++ 
 -0.9+ ++++ * 
 +----+----+----+----+----+----+----+----+----+----+ 
 -2 -1 0 +1 +2 
 
COMENTÁRIO: 
 
A regressão linear de CR em função unicamente do QI da criança é bem 
significativa. O modelo proposto CR= 0.12 QI explica 99.65% da variabilidade do 
CR. O gráfico do resíduos apresenta uma alternância de sinais positivos e 
negativos, indicando aleatoriedade. Para verificar a qualidade deste ajuste: 
A hipótese de normalidade não deve ser rejeitada, pois Prob<W=0.35 é alto. O 
valor para a assimetria Skewness = -0.894, encontra-se dentro do intervalo de [-
1.26, 1.26], confirmando a hipótese testada. 
 
3) Um proprietário está interessado em analisar o efeito de seu ar condicionado 
na sua conta de luz. Para isto ele tem registrado o número de horas de 
utilização do ar nos últimos 21 dias. Ele tem monitorado o relógio de 
eletricidade para estes dias e computado a quantidade de eletricidade 
consumida, Killowat/Hora. Finalmente ele registrou o número de vezes que 
sua secadora foi usada a cada dia. Crie um arquivo SAS com os registros 
abaixo, relativos ao consumo de eletricidade do proprietário. 
 
CONSUMO NO_HORA
S 
USO_SEC 
35 1,5 1 
63 4,5 2 
66 5,0 2 
17 2,0 0 
94 8,5 3 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
97
79 6,0 3 
93 13,5 1 
66 8,0 1 
94 12,5 1 
82 7,5 2 
78 6,5 3 
65 8,0 1 
77 7,5 2 
75 9,0 2 
62 7,5 1 
85 12,0 1 
43 6,0 0 
57 2,5 3 
33 5,0 0 
65 7,5 1 
33 6,0 0 
 
Pede-se: 
 
A) Obter um plot do Consumo X Número de Horas ar para verificar o efeito que o 
ar condicionado tem no consumo de eletricidade. 
 
B) Use a PROC CORR para obter o coeficiente de correlação entre o consumo e 
o tempo de utilização do ar. 
 
C) Para verificar a forma de relacionamento entre as duas variáveis acima 
descritas utilize a análise de regressão fazendo o ajuste de uma reta através 
dos pontos obtidos no plot do item A. 
 
D) Suponha que o proprietário queira predizer o consumo em um dia que o ar seja 
usado por 8 horas. Com a reta ajustada calcule o valor predito para o consumo 
quando o Número de Horas ar = 8 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
98
E) O plot do item A mostra que o valor do consumo para um dia de 8 horas de 
utilização de ar varia num range de 45 a 85 KWH, 
dependendo de outros fatores que possam afetar o consumo 
naquele dia . O proprietário pode colocar limites de confiança 
para um determinado valor predito, como o encontrado no 
Item D. Estes limites fornecem um range provável para 
ocorrência do no. de KWH consumido em um determinado 
dia. Com a PROC REG riste os valores preditos do consumo 
e os respectivos limites de predição . 
 
F) Para melhor visualização gráfica do ajuste, obter um plot que contenha os 
valores do no. de horas de utilização do ar, os valores preditos e os limites de 
predição a 95% de confiança para o consumo. (Utilize a opção overlay com o 
comando plot da PROC REG para que os plotes saiam no mesmo gráfico). 
 
G) O proprietário também registrou o no. de vezes que sua secadora foi utilizada 
a cada dia . Esta variável pode ser utilizada em adição ao no. de horas de ar 
para predizer o valor do consumo de eletricidade ? Use a PROC REG para 
ajustar um modelo de regressão múltipla para os dados acima. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA ENERGIA A; 
INPUT CONSUMO NO_HORAS USO_SEC @@; 
CARDS; 
35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0 
94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1 
94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1 
77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 143 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1 
33 6.0 0 
; 
/* #############( A )################## */ 
PROC PLOT; 
 PLOT CONSUMO*NO_HORAS; 
TITLE 'DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS'; 
RUN; 
/* #############( B )################## */ 
PROC CORR; 
 VAR CONSUMO; 
 WITH NO_HORAS; 
TITLE 'ANALISE DE CORRELACAO CONSUMO E NO HORAS'; 
RUN; 
/* #############( C-E )############### */ 
PROC REG; 
 MODEL CONSUMO=NO_HORAS; 
 ID NO_HORAS; 
 VAR USO_SEC; 
 PLOT RESIDUAL.*PREDICTED.='*'; 
TITLE 'REGRESSAO LINEAR DO CONSUMO EM FUNCAO DO NO HORAS'; 
PRINT CLI; 
TITLE 'LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO'; 
RUN; 
/* #############( F )################## */ 
 PLOT CONSUMO*NO_HORAS='O' P.*NO_HORAS='_' 
 L95.*NO_HORAS='L' U95.*NO_HORAS='U' /OVERLAY; 
TITLE 'LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA'; 
RUN; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
99
/* #############( G )################## */ 
PROC REG; 
 MODEL CONSUMO=NO_HORAS USO_SEC; 
TITLE 'REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA'; 
RUN; 
 
A) 
DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS 
 
Plot of CONSUMO*NO_HORAS. Legend: A = 1 obs, B = 2 obs, etc. 
 
 CONSUMO 
 | 
 | 
95 + A A 
93 + A 
91 + 
89 + 
87 + 
85 + A 
83 + A 
81 + 
79 + A A 
77 + A 
75 + A 
73 + 
71 + 
69 + 
67 + A A 
65 + A A 
63 + A A 
61 + 
59 + 
57 + A 
55 + 
53 + 
51 + 
49 + 
47 + 
45 + 
43 + A 
41 + 
39 + 
37 + 
35 + A 
33 + A A 
31 + 
29 + 
27 + 
25 + 
23 + 
21 + 
19 + 
17 + A 
 | 
 -+--------+--------+--------+---------+---------+---------+---------+ 
 0 2 4 6 8 10 12 14 
NO_HORAS 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
100
COMENTÁRIO: 
 
O plote mostra uma tendência crescente entre as variáveis. 
 
B) 
ANALISE DE CORRELACAO CONSUMO E NO HORAS 
 
Correlation Analysis 
 
1 'WITH' Variables: NO_HORAS 
1 'VAR' Variables: CONSUMO 
 
Simple Statistics 
 
Variable N Mean Std Dev Sum Minimum Maximum 
 
 NO_HORAS 21 6.92857 3.13562 145.50000 1.50000 13.50000 
 CONSUMO 21 64.85714 21.88444 1362 17.00000 94.00000 
 
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 21 
 
 CONSUMO 
 
 NO_HORAS 0.76528 
 0.0001 
 
COMENTÁRIO: 
 
O valor do Coef. Corr. Pearson=0.765 reflete a tendência crescente mostrada no 
plote, ou seja, quando há um aumento do uso do ar, há aumento no consumo de 
energia. 
 
C) 
 
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO 
 
Model: MODEL1 
 Dependent Variable: CONSUMO 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 1 5609.66260 5609.66260 26.855 0.0001 
 Error 19 3968.90883 208.88994 
 C Total 20 9578.57143 
 
 Root MSE 14.45303 R-square 0.5856 
 Dep Mean 64.85714 Adj R-sq 0.5638 
 C.V. 22.28440 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
101
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 27.851072 7.80653827 3.568 0.0021 
 NO_HORAS 1 5.341082 1.03067009 5.182 0.0001 
 
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO 
 
RESIDUAL 
 -+----+----+----+----+----+----+----+----+----+----+----+----+----+-- 
 | | 
 30 + + 
 | | 
 | | 
 | | 
 | * | 
 20 + + 
 | * | 
 | * * | 
 | * | 
 | * * | 
 10 + + 
 | * | 
 | | 
 | * | 
 | | 
 0 + * + 
 | * * | 
 | * | 
 | * * | 
 | * * | 
-10 + + 
 | | 
 | | 
 | * |-20 + + 
 | * * | 
 | | 
 | * | 
-30 + + 
 | | 
 -+----+----+----+----+----+----+----+----+----+----+----+----+----+-- 
 35 40 45 50 55 60 65 70 75 80 85 90 95 100 
Predicted Value of CONSUMO PRED 
 
COMENTÁRIO: 
 
O modelo de regressão obtido é dado por: 
 
CONSUMO = 27.85 + 5.341 NO_HORAS 
 
E pode ser interpretado como: Quando NO_HORAS = 0, há um nível de consumo 
mínimo estimado de energia de 27,85. A cada hora de uso de ar, o aumento 
estimado do consumo é de 5.341 kwh. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
102
D) 
 
Os dados do arquivo contém 3 observações com N0_HORAS = 8, cujos valores 
correspondentes para CONSUMO são 66, 65 e 75. Isso mostra a existência de 
um faixa de possíveis valores de CONSUMO para um dado valor de NO_HORAS. 
No modelo de regressão estimado, para o valor de NO_HORAS = 8: 
 
CONSUMO = 27.85 - 5.34 * 8 = 70,57. 
 
E) 
 
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO 
 
 Dep Var Predict Std Err Lower95% Upper95% 
Obs NO_HORAS CONSUMO Value Predict Predict Predict Residual 
 
 1 1.5 35.0000 35.8627 6.423 2.7597 68.9657 -0.8627 
 2 4.5 63.0000 51.8859 4.026 20.4834 83.2884 11.1141 
 3 5 66.0000 54.5565 3.728 23.3158 85.7971 11.4435 
 4 2 17.0000 38.5332 5.979 5.7963 71.2702 -21.5332 
 5 8.5 94.0000 73.2503 3.545 42.1028 104.4 20.7497 
 6 6 79.0000 59.8976 3.296 28.8704 90.9247 19.1024 
 7 13.5 93.0000 99.9557 7.471 65.9024 134.0 -6.9557 
 8 8 66.0000 70.5797 3.342 39.5312 101.6 -4.5797 
 9 12.5 94.0000 94.6146 6.551 61.4013 127.8 -0.6146 
 10 7.5 82.0000 67.9092 3.208 36.9223 98.8961 14.0908 
 11 6.5 78.0000 62.5681 3.185 31.5919 93.5443 15.4319 
 12 8 65.0000 70.5797 3.342 39.5312 101.6 -5.5797 
 13 7.5 77.0000 67.9092 3.208 36.9223 98.8961 9.0908 
 14 8 75.0000 70.5797 3.342 39.5312 101.6 4.4203 
 15 7.5 62.0000 67.9092 3.208 36.9223 98.8961 -5.9092 
 16 12 85.0000 91.9441 6.105 59.1057 124.8 -6.9441 
 17 6 43.0000 59.8976 3.296 28.8704 90.9247 -16.8976 
 18 2.5 57.0000 41.2038 5.548 8.8010 73.6065 15.7962 
 19 5 33.0000 54.5565 3.728 23.3158 85.7971 -21.5565 
 20 7.5 65.0000 67.9092 3.208 36.9223 98.8961 -2.9092 
 21 6 33.0000 59.8976 3.296 28.8704 90.9247 -26.8976 
 
 Sum of Residuals 0 
 Sum of Squared Residuals 3968.9088 
 Predicted Resid SS (Press) 4728.5664 
 
COMENTÁRIO: 
 
O intervalo de confiança para os valores preditos de AC é dado por: 
 
IC NO_HORAS = [ NO_HORAS ± ( ttab * S) ] 
 
Para α = 0.05 (α/2 = 0.025 ), o valor da estatística t consultado na Tabela de uma 
Distribuição T de Student é: 
 
t (1-α/2, 19) = t (0.975, 19) = 2.09 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
103
Logo: 
 
IC NO_HORAS = [ NO_HORAS ± ( 2.09 * 1.03 ) ] 
 
F) 
 
LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA 
 
CONSUMO 
 --+----+---+---+----+----+----+----+----+----+----+----+----+----+--- 
140 + + 
 | U | 
 | | 
 | U | 
 | U | 
 | | 
 20 + + 
 | | 
 | | 
 | | 
 | U | 
 | U | 
100 + U _ + 
 | | 
 | U O ? O | 
 | U _ | 
 | | 
 | U O | 
 | U O | 
 80 + O + 
 | O O | 
 | U O _ | 
 | U _ | 
 | U _ | 
 | O O O L | 
 | O _ O | 
 60 + _ L L + 
 | O | 
 | _ | 
 | _ | 
 | | 
 | O L | 
 40 + _ L + 
 | _ _ L | 
 | O O O | 
 | L | 
 | L | 
 | | 
 | L | 
 20 + L + 
 | O | 
 | | 
 | L | 
 | L | 
 | L | 
 0 + + 
 --+----+---+---+----+----+----+----+----+----+----+----+----+----+--- 
 1 2 3 4 5 6 7 8 9 10 11 12 13 14 
NO_HORAS 
COMENTÁRIO: 
 
Pode-se observar que todos os pontos reais e previstos estão dentro dos limites 
de predição. 
 
 
G) 
REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA 
 
 Model: MODEL1 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
104
 Dependent Variable: CONSUMO 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model2 9299.80154 4649.90077 300.241 0.0001 
 Error 18 278.76989 15.48722 
 C Total 20 9578.57143 
 
 Root MSE 3.93538 R-square 0.9709 
 Dep Mean 64.85714 Adj R-sq 0.9677 
 C.V. 6.06777 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 8.105385 2.48085116 3.267 0.0043 
 NO_HORAS 1 5.465903 0.28075519 19.469 0.0001 
 USO_SEC 1 13.216600 0.85621937 15.436 0.0001 
 
COMENTÁRIO: 
 
Observa-se que: 
 
SS(Erro) múltipla = 278.76 < SS (Erro) simples 
 
O modelo: 
 
CONSUMO = 8.10 + 5.466 NO_HORAS + 13.217 USO_SEC 
 
representa 97% da variabilidade do consumo de energia. O valor de 8,10 
representa o número de kwh consumido num dia onde nem o ar e nem a 
secadora são utilizados. O valor de 5,466 é a estimativa de energia consumida 
para cada hora de uso do ar, e 13,217 representa a estimativa de energia 
consumida a cada vez que a secadora é ligada. 
 
4) Uma droga que mistura estimulante e relaxante é administrada em 15 animais. 
taxa de pulsação é medida antes e depois da administração da droga. O 
propósito do experimento é determinar se existe uma mudança na taxa de 
pulsação com o uso da droga. Os dados são apresentados abaixo: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
105
 
ANTES DEPOIS 
62 61 
63 62 
58 51 
64 61 
64 63 
51 58 
68 61 
66 64 
65 64 
66 62 
67 68 
69 65 
61 60 
64 65 
61 63 
63 62 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA APT A; 
INPUT ANIMAL ANTES DEPOIS @@; 
DIF=DEPOIS-ANTES; 
CARDS; 
1 62 61 2 63 62 3 58 51 4 64 61 5 51 58 6 68 61 
7 66 64 8 65 64 9 66 62 10 67 68 11 69 65 12 61 60 
13 64 65 14 61 63 15 63 62 
; 
PROC UNIVARIATE; 
 VAR DIF; 
TITLE 'TESTE PARA DIFERENCAS DE OBS. PAREADA'; 
RUN; 
 
TESTE PARA DIFERENCAS DE OBS. PAREADA 
 
Univariate Procedure 
 
 Variable=DIF 
 
Moments 
 
 N 15 Sum Wgts 15 
 Mean -1.4 Sum -21 
 Std Dev 3.521363 Variance 12.4 
 Skewness 0.508266 Kurtosis 1.407817 
 USS 203 CSS 173.6 
 CV -251.526 Std Mean 0.909212 
 T:Mean=0 -1.53979 Pr>|T| 0.1459 
 Num ^= 0 15 Num > 0 4 
 M(Sign) -3.5 Pr>=|M| 0.1185 
 Sgn Rank -29.5 Pr>=|S| 0.0984 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
106
Quantiles(Def=5) 
 
 100% Max 7 99% 7 
 75% Q3 1 95% 7 
 50% Med -1 90% 2 
 25% Q1 -4 10% -7 
 0% Min -7 5% -7 
 1% -7 
 Range 14 
 Q3-Q1 5 
 Mode -1 
Extremes 
 
 Lowest Obs Highest Obs 
 -7( 6) -1( 15) 
 -7( 3) 1( 10) 
 -4( 11) 1( 13) 
 -4( 9) 2( 14) 
 -3( 4) 7( 5) 
 
Como Prob>|T|=0.0285<0.05. ao nível de 5% de significância há evidências que a 
diferença média da taxa de pulsação com a utilização de droga difere de zero. 
 
5) Um aparelho é utilizado para testar a durabilidade de lâmpadas submetidas a 
diversas tensões. O aparelho consta de oito soquetes ligados em paralelo e de 
um reostato ligado em série com um gerador e oito soquetes. Oito lâmpadas da 
marca A e oito da B foram ensaiadas nesse aparelho, sob as mesmas 
condições , fornecendo as seguintes durações, em horas: 
 
SOQUETE 1 2 3 4 5 6 7 8 
Marca A 35 26 40 35 31 49 38 24 
Marca B 23 28 31 35 36 30 27 26 
 
Pode-se concordar, a um nível de significância de 1%, com os fabricantes da 
marca A, que suas lâmpadas tem durabilidade diferente das apresentadas pela 
marca B ? 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA LAMP A; 
INPUT MARCA $ TEMPO @@; 
CARDS; 
A 35 B 23 A 26 B 28 A 40 B 31 A 35 B 35 
A 31 B 36 A 49 B 30 A 38 B 27 A 24 B 26 
; 
PROC TTEST; 
 CLASS MARCA; 
 VAR TEMPO; 
TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
107
TESTE PARA IGUALDADE DE MEDIAS 
 
TTEST PROCEDURE 
 
 Variable: TEMPO 
 
MARCA N Mean Std Dev Std Error Minimum Maximum 
------------------------------------------------------------------------- 
A 8 34.75000000 7.99553447 2.82684832 24.00000000 49.00000000 
B 8 29.50000000 4.44007722 1.56980436 23.00000000 36.00000000 
 
 Variances T DF Prob>|T| 
 --------------------------------------- 
 Unequal 1.6236 10.9 0.1329 
 Equal 1.6236 14.0 0.1267 
 
For H0: Variances are equal, F' = 3.24 DF = (7,7) Prob>F' = 0.1434 
 
COMENTÁRIO: 
 
As variâncias não são significativamente diferentes ao nível de 10% de 
significância, pois Prob>F’=0.1434>α. No teste de igualdade de médias, na linha 
(Variances=Equal), ao nível de 1%, como foi estipulado no enunciado, não há 
diferença significativa entre as médias, uma vez que Prob>|T|=0.1265>(α=0.01). 
 
6) Duas amostras de carros produzidos em anos diferentes, do mesmo modelo e 
fabricante, foram testados em iguais condições, quanto ao consumo de 
combustível em km/l a 80 Km/h, conforme mostrado na tabela abaixo. Deseja-
se saber se os carros produzidos nos anos I e II tem o mesmo consumo ao 
nível de 10% de significância. 
 
Consumo (km/l) 
 
Ano I 13.01 13.00 12.95 12.97 13.01 12.93 12.94 12.96 12.97 12.94 
Ano II 12.99 13.06 12.98 13.14 13.14 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA CONSUMO A; 
INPUT ANO $ CONSUMO @@;CARDS; 
I 13.01 I 13.00 I 12.95 I 12.97 I 13.01 I 12.93 I 12.94 I 12.96 
I 12.97 I 12.94 II 12.99 II 13.06 II 12.98 II 13.14 II 13.14 
; 
PROC TTEST; 
 CLASS ANO; 
 VAR CONSUMO; 
TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
108
TESTE PARA IGUALDADE DE MEDIAS 
 
TTEST PROCEDURE 
 
 Variable: CONSUMO 
 
ANO N Mean Std Dev Std Error Minimum Maximum 
------------------------------------------------------------------------ 
I 10 12.96800000 0.02973961 0.00940449 12.93000000 13.01000000 
II 5 13.06200000 0.07758866 0.03469870 12.98000000 13.14000000 
 
 Variances T DF Prob>|T| 
 --------------------------------------- 
 Unequal -2.6147 4.6 0.0521 
 Equal -3.4569 13.0 0.0043 
 
 For H0: Variances are equal, F' = 6.81 DF = (4,9) Prob>F' = 0.0166 
 
COMENTÁRIO: 
 
As variâncias diferem significativamente ao nível de 10% de significância, pois 
Prob>F’=0.0166<α. No teste de igualdade de médias, na linha 
(Variances=Equal), há indicação que o nível médio de consumo dos carros 
produzidos nos anos I e II são diferentes ao nível de 10% de significância, 
Prob>|T|=0.052<(α= 0.10). 
 
7) Dez culturas de fungo foram estudadas quanto a susceptibilidade de 
crescimento devido à exposição de luz permanente. O crescimento em termos 
de diâmetro médio da cultura foi medido antes e após o período de exposição 
permanente de luz, durante 15 dias. A tabela abaixo mostra os resultados 
obtidos nas 10 culturas durante o período. Ao nível de 2.5% pode-se afirmar 
que a luz permanente contribui para o crescimento das culturas de fungo? 
Obter um gráfico da distribuição dos valores da variável DIF=DEPOIS-
ANTES. 
 
DIAMETRO MÉDIO (CM) 
 
CULTURA ANTES DEPOIS 
1 6,4 6.4 
2 7.0 7.1 
3 6.6 6.8 
4 5.6 5.6 
5 6.0 6.1 
6 7.5 7.4 
7 7.0 7.1 
8 5.8 5.9 
9 6.3 6.4 
10 6.7 6.8 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
109
OPTIONS FORMDLIM='*' LS=80; 
DATA FUNGO A; 
INPUT CULTURA ANTES DEPOIS @@; 
DIF=DEPOIS-ANTES; 
CARDS; 
1 6.4 6.4 2 7.0 7.1 3 6.6 6.8 4 5.6 5.6 5 6.0 6.1 
6 7.5 7.4 7 7.0 7.1 8 5.8 5.9 9 6.3 6.4 10 6.7 6.8 
; 
PROC UNIVARIATE; 
 VAR DIF; 
TITLE 'TESTE PARA DIFERENCA DE OBS. PAREADAS'; 
RUN; 
PROC CHART; 
 VBAR DIF; 
TITLE 'GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS'; 
RUN; 
 
TESTE PARA DIFERENCA DE OBS. PAREADAS 
 
Univariate Procedure 
 
 Variable=DIF 
 
Moments 
 
 N 10 Sum Wgts 10 
 Mean 0.07 Sum 0.7 
 Std Dev 0.082327 Variance 0.006778 
 Skewness -0.80646 Kurtosis 1.236995 
 USS 0.11 CSS 0.061 
 CV 117.6104 Std Mean 0.026034 
 T:Mean=0 2.688774 Pr>|T| 0.0248 
 Num ^= 0 8 Num > 0 7 
 M(Sign) 3 Pr>=|M| 0.0703 
 Sgn Rank 12 Pr>=|S| 0.1094 
 
Quantiles(Def=5) 
 
 100% Max 0.2 99% 0.2 
 75% Q3 0.1 95% 0.2 
 50% Med 0.1 90% 0.15 
 25% Q1 0 10% -0.05 
 0% Min -0.1 5% -0.1 
 1% -0.1 
 Range 0.3 
 Q3-Q1 0.1 
 Mode 0.1 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -0.1( 6) 0.1( 7) 
 0( 4) 0.1( 10) 
 0( 1) 0.1( 8) 
 0.1( 10) 0.1( 9) 
 0.1( 7) 0.2( 3) 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
110
GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS 
 
 Frequency 
 
 6 + ***** 
 | ***** 
 | ***** 
 5 + ***** 
 | ***** 
 | ***** 
 4 + ***** 
 | ***** 
 | ***** 
 3 + ***** 
 | ***** 
 | ***** 
 2 + ***** ***** 
 | ***** ***** 
 | ***** ***** 
 | ***** ***** 
 | ***** ***** 
 1 + ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 | ***** ***** ***** ***** 
 -------------------------------------------------------- 
 -0.1 0.0 0.1 0.2 
 
 DIF Midpoint 
 
COMANTÁRIO: 
 
Como o p-valor=0.0248<0.05, há evidências de que a diferença média do 
diâmetro da cultura com a exposição de luz é significativamente diferente de zero, 
ou seja, a luz contribui para o crescimento das culturas. No plote das diferenças, 
observa-se que a mais alta freqüência ocorre para valores superiores a 0.05. 
 
8) 
INSTITUTO DE PESQUISAS E EXPERIMENTAÇÃO AGROPECUÁRIAS DO SUL 
- 
MODELOS DE ANÁLISE ESTATÍSTICA DE EXPERIMENTOS - 
EXPERIMENTOS EM QUADRADO LATINO 
 
Produção de Grãos Secos em Gramas por Parcela de 5m3 
 
 C O L U N A 
 1 2 3 4 5 
F 1 1400 
(4) 
1207 
(3) 
1125 
(2) 
1335 
(1) 
1350 
(5) 
I 2 1235 
(2) 
1515 
(1) 
1137 
(5) 
1163 
(4) 
1090 
(3) 
L 3 1545 
(1) 
1212 
(5) 
1100 
(4) 
885 
(3) 
1206 
(2) 
A 4 1305 
(3) 
1295 
(2) 
1065 
(1) 
1110 
(5) 
1000 
(4) 
 5 1293 
(5) 
1322 
(4) 
1118 
(3) 
1012 
(2) 
1303 
(1) 
Faça uma análise de variância com os dados acima: (PROC ANOVA) 
 
OPTIONSFORMDLIM='*' LS=80; 
DATA GRAO A; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
111
INPUT FILA COL VARIED PROD @@; 
CARDS; 
1 1 4 1400 1 2 3 1207 1 3 2 1125 1 4 1 1335 1 5 5 1350 
2 1 2 1235 2 2 1 1515 2 3 5 1137 2 4 4 1163 2 5 3 1090 
3 1 1 1545 3 2 5 1212 3 3 4 1100 3 4 3 885 3 5 2 1206 
4 1 3 1305 4 2 2 1295 4 3 1 1065 4 4 5 1110 4 5 4 1000 
5 1 5 1293 5 2 4 1322 5 3 3 1118 5 4 2 1012 5 5 1 1303 
; 
PROC ANOVA; 
 CLASS FILA COL VARIED; 
 MODEL PROD=FILA COL VARIED; 
TITLE 'ANALISE DE VARIANCIA'; 
RUN; 
 
ANALISE DE VARIANCIA 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 FILA 5 1 2 3 4 5 
 
 COL 5 1 2 3 4 5 
 
 VARIED 5 1 2 3 4 5 
 
Number of observations in data set = 25 
 
************************************************************************* 
 
ANALISE DE VARIANCIA 
 
Analysis of Variance Procedure 
 
 Dependent Variable: PROD 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 12 462611.92000 38550.99333 3.60 0.0175 
 
 Error 12 128386.72000 10698.89333 
 
 Corrected Total 24 590998.64000 
 
 R-Square C.V. Root MSE PROD Mean 
 
 0.782763 8.526399 103.43545 1213.1200 
 
Source DF Anova SS Mean Square F Value Pr > F 
 
 FILA 4 45521.04000 11380.26000 1.06 0.4161 
 COL 4 268403.84000 67100.96000 6.27 0.0058 
 VARIED 4 148687.04000 37171.76000 3.47 0.0418 
 
COMENTÁRIO: 
 
Hipótese Testada: Não há diferença significativa no nivel médio de produção 
devido aos fatores fila (FILA), coluna (COL) e variedade 
(VARIED) do grão plantado 
 
 
Pr>F (FILA) = 0.4161 > (α=0.05) 
Pr>F (COL) = 0.0058 < (α=0.05) 
Pr>F (VARIED) = 0.0418 < (α=0.05) 
 
Ao nível de 5% o efeito coluna (COL) e variedade (VARIED) do grão são 
significativos no nível médio de produção. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
112
 
9) Deseja-se determinar se há diferença significativa no percurso por galão obtido 
com quatro tipos de gasolina A, B, C, D. O expediente é realizado com quatro 
carros diferentes, quatro motoristas diferentes, e em quatro estradas diferentes. 
 
 M O T O R I S T A S 
C 1 2 3 4 
A 1 B3 19 A2 16 D4 16 C1 14 
R 2 A4 15 B1 18 C3 11 D2 15 
R 3 D1 14 C4 11 B2 21 A3 16 
O 4 C2 16 D3 16 A1 15 B4 23 
S 
 
TIPOS DE ESTRADA = 1 2 3 4 
TIPOS DE GASOLINA = A B C 
D 
 
Faça uma análise de variância com os dados acima: (PROC ANOVA) 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA GAS A; 
INPUT MOTOR CARRO GAS $ ESTR PERC @@; 
CARDS; 
1 1 B 3 19 1 2 A 2 16 1 3 D 4 16 1 4 C 1 14 
2 1 A 4 15 2 2 B 1 18 2 3 C 3 11 2 4 D 2 15 
3 1 D 1 14 3 2 C 4 11 3 3 B 2 21 3 4 A 3 16 
4 1 C 2 16 4 2 D 3 16 4 3 A 1 15 4 4 B 4 23 
; 
PROC ANOVA; 
 CLASS MOTOR CARRO GAS ESTR; 
 MODEL PERC=MOTOR CARRO GAS ESTR; 
TITLE 'ANALISE DE VARIANCIA'; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
113
ANALISE DE VARIANCIA 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 MOTOR 4 1 2 3 4 
 
 CARRO 4 1 2 3 4 
 
 GAS 4 A B C D 
 
 ESTR 4 1 2 3 4 
 
Number of observations in data set = 16 
 
************************************************************************* 
 
ANALISE DE VARIANCIA 
 
Analysis of Variance Procedure 
 
 Dependent Variable: PERC 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 12 142.00000000 11.83333333 5.92 0.0848 
 
 Error 3 6.00000000 2.00000000 
 
 Corrected Total 15 148.00000000 
 
 R-Square C.V. Root MSE PERC Mean 
 
 0.959459 8.838835 1.4142136 16.000000 
 
 Source DF Anova SS Mean Square F Value Pr > F 
 
 MOTOR 3 16.50000000 5.50000000 2.75 0.2141 
 CARRO 3 6.50000000 2.16666667 1.08 0.4745 
 GAS 3 111.50000000 37.16666667 18.58 0.0193 
 ESTR 3 7.50000000 2.50000000 1.25 0.4294 
 
COMENTÁRIO: 
 
Hipótese Testada: Não há diferença significativa no percurso por galão devido 
aos diferentes tipos de gasolina. 
 
Pr>F (MOTOR) = 0.2141 > (α=0.05) Pr>F (GAS) = 0.0193 < (α=0.05) 
Pr>F (CARRO) = 0.4745 > (α=0.05) Pr>F (ESTR) = 0.4294 > (α=0.05) 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
114
Ao nível de 1% nenhum efeito é significativo no percurso de gasolina por galão. 
Já ao nível de 5% há diferença significativa no percurso médio por galão devido 
ao tipo de gasolina utilizada. 
 
10) O exercício a seguir consiste na avaliação de três planos de vendas com 
cupons publicados nos jornais. Foi planejado um experimento com 3 
tratamentos e 4 blocos. Os blocos representam os tamanhos das lojas bloco 1 
as maiores de todas, bloco 2 as maiores seguintes, e assim por adiante. Os 
tratamentos são as vendas realizadas no dia imediato da publicação dos 
cupons nos jornais da cidade. Os resultados estão abaixo: 
 
T R A T A M E N T O S 
Tamanho 
Loja 
Plano 
Cupom 1 
Plano 
Cupom 2 
Plano 
Cupom 3 
 
Total 
1 20 17 14 51 
2 18 14 10 42 
3 15 13 7 35 
4 11 8 5 24 
Total 64 62 36 152 
 
BLOCO = Tamanho da Loja 
TRATAMENTO = Plano 
 
Faça uma análise de variância com os dados acima: (PROC GLM) 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA PLANO A; 
INPUT LOJA $ PLANO $ N_VENDAS @@; 
CARDS; 
T1 P1 20 T1 P2 17 T1 P314 
T2 P1 18 T2 P2 14 T2 P3 10 
T3 P1 15 T3 P2 13 T3 P3 7 
T4 P1 11 T4 P2 8 T4 P3 5 
; 
PROC GLM; 
 CLASS LOJA PLANO; 
 MODEL N_VENDAS=LOJA PLANO; 
TITLE 'ANALISE DE VARIANCIA'; 
RUN; 
 
ANALISE DE VARIANCIA 
 
General Linear Models Procedure 
Class Level Information 
 
Class Levels Values 
 
 LOJA 4 T1 T2 T3 T4 
 
 PLANO 3 P1 P2 P3 
 
Number of observations in data set = 12 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
115
************************************************************************* 
 
ANALISE DE VARIANCIA 
 
General Linear Models Procedure 
 
 Dependent Variable: N_VENDAS 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 5 228.66666667 45.73333333 68.60 0.0001 
 
 Error 6 4.00000000 0.66666667 
 
 Corrected Total 11 232.66666667 
 
 R-Square C.V. Root MSE N_VENDAS Mean 
 
 0.982808 6.446026 0.8164966 12.666667 
 
 Source DF Type I SS Mean Square F Value Pr > F 
 
 LOJA 3 130.00000000 43.33333333 65.00 0.0001 
 PLANO 2 98.66666667 49.33333333 74.00 0.0001 
 
 Source DF Type III SS Mean Square F Value Pr > F 
 
 LOJA 3 130.00000000 43.33333333 65.00 0.0001 
 PLANO 2 98.66666667 49.33333333 74.00 0.0001 
 
COMENTÁRIO: 
 
Hipótese Testada: Não há diferença significativa no volume de vendas nos 
diferentes tamanhos de loja. 
 
Pr>F (LOJA) = 0.0001 < (α=0.01) Pr>F (PLANO) = 0.0001 < (α=0.01) 
 
O baixo valor de Pr>F indica baixa probabilidade da hipótese testada ser 
verdadeira, ou seja, aos níveis usuais de significância (α=1%), tanto o fator 
tamanho da loja como o plano de vendas apresentam efeitos ponderáveis sobre o 
volume das vendas. 
 
( Exercícios 11 e 12 - Ref. F. Pimentel Gomes ) 
 
11) Experimento Completamente Casualizado. 
 
Considere um experimento de competição de cultivares de cana-de-açúcar, 
completamente casualizado, com n=4 cultivares (A, B, C, D) e r = 6 repetições, 
com os seguintes resultados, em t/ha. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
116
CULTIVARES 
 
Repetições A B C D 
1 54 60 59 45 
2 40 55 47 33 
3 51 66 44 34 
4 36 61 49 48 
5 50 54 62 42 
6 48 61 60 44 
 
Obtenha a tabela de Análise da Variância para estes dados e compare as médias 
dos tratamentos, duas à duas, utilizando para isso o Teste de Tukev no comando 
MEANS da PROC ANOVA. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA CANA A; 
INPUT CULTIV $ ALTURA @@; 
CARDS; 
A 54 B 60 C 59 D 45 
A 40 B 55 C 47 D 33 
A 51 B 66 C 44 D 34 
A 36 B 61 C 49 D 48 
A 50 B 54 C 62 D 42 
A 48 B 61 C 60 D 44 
; 
PROC ANOVA; 
 CLASS CULTIV; 
 MODEL ALTURA=CULTIV; 
 MEANS CULTIV /TUKEY; 
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; 
RUN; 
 
EXPERIMENTO COMPLETAMENTE CASUALIZADO 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 CULTIV 4 A B C D 
 
Number of observations in data set = 24 
 
************************************************************************* 
 
EXPERIMENTO COMPLETAMENTE CASUALIZADO 
 
Analysis of Variance Procedure 
 
 Dependent Variable: ALTURA 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 3 1174.1250000 391.3750000 9.47 0.0004 
 
 Error 20 826.5000000 41.3250000 
 
 Corrected Total 23 2000.6250000 
 
 R-Square C.V. Root MSE ALTURA Mean 
 
 0.586879 12.82484 6.4284524 50.125000 
 
 Source DF Anova SS Mean Square F Value Pr > F 
 
 CULTIV 3 1174.1250000 391.3750000 9.47 0.0004 
 
************************************************************************* 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
117
 
EXPERIMENTO COMPLETAMENTE CASUALIZADO 
 
Analysis of Variance Procedure 
 
Tukey's Studentized Range (HSD) Test for variable: ALTURA 
 
NOTE: This test controls the type I experimentwise error rate, but 
generally has a higher type II error rate than REGWQ. 
 
Alpha= 0.05 df= 20 MSE= 41.325 
Critical Value of Studentized Range= 3.958 
Minimum Significant Difference= 10.388 
 
Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N CULTIV 
 
 A 59.500 6 B 
 A 
 B A 53.500 6 C 
 B 
 B C 46.500 6 A 
 C 
 C 41.000 6 D 
 
COMENTÁRIO: 
 
Analisando o R-Square observa-se que 58.69% da variação do modelo é 
explicado pela diferença entre os cultivares. 
 
O p-valor dado por Pr>F=0.0004 é bem menor que o nível de significância de 
10%, donde se conclui que a média das alturas é significativamente diferente para 
os diferentes tipos de cultivares. Esta análise pode ser vista também pelo Teste 
de Tukey. 
 
A média global (ALTURA Mean) das alturas é 50.125. 
 
O coeficiente de variação (C V) das alturas é 12.825 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
118
12) Experimento com blocos casualizados. 
 
Num experimento de competição de n=7 cultivares de milho, em r=4 blocos 
casualizados, as produções, em km/ha, foram as da tabela abaixo: 
 
Cultivares Bloco 1 Bloco 2 Bloco 3 Bloco 4 
1 1920 2340 2100 1920 
2 3110 3700 3640 3570 
3 3260 3990 3420 3510 
4 2540 2190 2010 2230 
5 2270 2800 2820 2710 
6 3000 3110 3000 3800 
7 3310 3420 3640 230 
 
A) Os dados se encontram noarquivo MILHO.SAS. Obtenha a tabela de Análise 
de Variância ao nível de 5% para testar se são iguais as médias dos 7 
tratamentos. Compare estas médias par a par. 
 
B) Analise os dados considerando que tenha sido perdido o cultivar número 7 
 
C) Analise os dados considerando apenas os 3 primeiros blocos 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA MILHO A; 
INPUT BLOCO CULTIV PROD @@; 
CARDS; 
1 1 1920 2 1 2340 3 1 2100 4 1 1920 
1 2 3110 2 2 3700 3 2 3640 4 2 3570 
1 3 3260 2 3 3990 3 3 3420 4 3 3510 
1 4 2540 2 4 2190 3 4 2010 4 4 2230 
1 5 2270 2 5 2800 3 5 2820 4 5 2710 
1 6 3000 2 6 3110 3 6 3000 4 6 3800 
1 7 3310 2 7 3420 3 7 3640 4 7 2630 
; 
/* ############( A )############### */; 
PROC ANOVA; 
 CLASS CULTIV BLOCO; 
 MODEL PROD=CULTIV BLOCO; 
 MEANS CULTIV BLOCO /TUKEY; 
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO'; 
RUN; 
/* ############( B )############### */; 
PROC ANOVA; 
 WHERE CULTIV NE 7; 
 CLASS CULTIV BLOCO; 
 MODEL PROD=CULTIV BLOCO; 
 MEANS CULTIV BLOCO /TUKEY; 
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7'; 
RUN; 
/* ############( C )############### */; 
PROC ANOVA; 
 WHERE BLOCO NE 4; 
 CLASS CULTIV BLOCO; 
 MODEL PROD=CULTIV BLOCO; 
 MEANS CULTIV BLOCO /TUKEY; 
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4'; 
RUN; 
A) 
EXPERIMENTO COM BLOCOS CASUALIZADO 
 
Analysis of Variance Procedure 
Class Level Information 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
119
Class Levels Values 
 
 CULTIV 7 1 2 3 4 5 6 7 
 
 BLOCO 4 1 2 3 4 
 
Number of observations in data set = 28 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO 
 
Analysis of Variance Procedure 
 
 Dependent Variable: PROD 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 9 9093421.4286 1010380.1587 10.97 0.0001 
 
 Error 18 1658350.0000 92130.5556 
 
 Corrected Total 27 10751771.4286 
 
 R-Square C.V. Root MSE PROD Mean 
 
 0.845760 10.36950 303.53016 2927.1429 
 
 Source DF Anova SS Mean Square F Value Pr > F 
 
 CULTIV 6 8761421.4286 1460236.9048 15.85 0.0001 
 BLOCO 3 332000.0000 110666.6667 1.20 0.3377 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO 
 
Analysis of Variance Procedure 
 
Tukey's Studentized Range (HSD) Test for variable: PROD 
 
NOTE: This test controls the type I experimentwise error rate, but 
generally has a higher type II error rate than REGWQ. 
 
Alpha= 0.05 df= 18 MSE= 92130.56 
Critical Value of Studentized Range= 4.673 
Minimum Significant Difference= 709.22 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
120
Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N CULTIV 
 
 A 3545.0 4 3 
 A 
 A 3505.0 4 2 
 A 
 B A 3250.0 4 7 
 B A 
 B A 3227.5 4 6 
 B 
 B C 2650.0 4 5 
 C 
 C 2242.5 4 4 
 C 
 C 2070.0 4 1 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO 
 
Analysis of Variance Procedure 
 
Tukey's Studentized Range (HSD) Test for variable: PROD 
 
NOTE: This test controls the type I experimentwise error rate, but 
generally has a higher type II error rate than REGWQ. 
 
Alpha= 0.05 df= 18 MSE= 92130.56 
Critical Value of Studentized Range= 3.997 
Minimum Significant Difference= 458.55 
 
Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N BLOCO 
 
 A 3078.6 7 2 
 A 
 A 2947.1 7 3 
 A 
 A 2910.0 7 4 
 A 
 A 2772.9 7 1 
 
COMENTÁRIO: 
 
Analisando o R-Square observa-se que 84.58% da variação do modelo é 
explicado pela diferença entre os cultivares. 
 
O p-valor para a variável CULTIV (Pr>F=0.0001) é bem menor que o nível de 
significância de 10%, donde se conclui que a média da produção (PROD) é 
significativamente diferente para os diferentes tipos de cultivares. Esta análise 
pode ser vista também pelo Teste de Tukey. O p-valor para a variável BLOCO 
(Pr>F=0.3377) é maior o nível de significância de 10%, donde se conclui que a 
média da produção (PROD) não é significativamente diferente para os diferentes 
tipos de blocos. Esta análise pode ser vista também pelo Teste de Tukey. 
A média global (ALTURA Mean) da produção é 2927.14. 
 
 
O coeficiente de variação (C V) da produção é 10.37%. 
 
 
B) 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
121
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 CULTIV 6 1 2 3 45 6 
 
 BLOCO 4 1 2 3 4 
 
Number of observations in data set = 24 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 
 
Analysis of Variance Procedure 
 
 Dependent Variable: PROD 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 8 8675683.3333 1084460.4167 15.94 0.0001 
 
 Error 15 1020650.0000 68043.3333 
 
 Corrected Total 23 9696333.3333 
 
 R-Square C.V. Root MSE PROD Mean 
 
 0.894739 9.078347 260.85117 2873.3333 
 
 Source DF Anova SS Mean Square F Value Pr > F 
 
 CULTIV 5 8274983.3333 1654996.6667 24.32 0.0001 
 BLOCO 3 400700.0000 133566.6667 1.96 0.1629 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 
 
Analysis of Variance Procedure 
 
Tukey's Studentized Range (HSD) Test for variable: PROD 
 
NOTE: This test controls the type I experimentwise error rate, but 
generally has a higher type II error rate than REGWQ. 
 
Alpha= 0.05 df= 15 MSE= 68043.33 
Critical Value of Studentized Range= 4.595 
Minimum Significant Difference= 599.27 
 
Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N CULTIV 
 
 A 3545.0 4 3 
 A 
 A 3505.0 4 2 
 A 
 B A 3227.5 4 6 
 B 
 B C 2650.0 4 5 
 C 
 C 2242.5 4 4 
 C 
 C 2070.0 4 1 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
122
 
Analysis of Variance Procedure 
 
Tukey's Studentized Range (HSD) Test for variable: PROD 
 
NOTE: This test controls the type I experimentwise error rate, but 
generally has a higher type II error rate than REGWQ. 
 
Alpha= 0.05 df= 15 MSE= 68043.33 
Critical Value of Studentized Range= 4.076 
Minimum Significant Difference= 434.06 
 
Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N BLOCO 
 
 A 3021.7 6 2 
 A 
 A 2956.7 6 4 
 A 
 A 2831.7 6 3 
 A 
 A 2683.3 6 1 
 
COMENTÁRIO: 
 
Comparando o item (A) e (B) observa-se que o R-Square aumentou de 84.58% 
para 89.47%. 
 
O p-valor para a variável CULTIV (Pr>F=0.0001) continuou o mesmo e para a 
variável BLOCO (Pr>F=0.1629) diminuiu, mas não significativamente. 
 
A média global (ALTURA Mean) da produção diminuiu para 2873.33. 
 
O coeficiente de variação (C V) da produção diminuiu para 9.078%. 
 
C) 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 CULTIV 7 1 2 3 4 5 6 7 
 
 BLOCO 3 1 2 3 
 
Number of observations in data set = 21 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 
 
Analysis of Variance Procedure 
 
 Dependent Variable: PROD 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 8 6931152.3810 866394.0476 15.53 0.0001 
 
 Error 12 669276.1905 55773.0159 
 
 Corrected Total 20 7600428.5714 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
123
 R-Square C.V. Root MSE PROD Mean 
 
 0.911942 8.052322 236.16311 2932.8571 
 
 Source DF Anova SS Mean Square F Value Pr > F 
 
 CULTIV 6 6601895.2381 1100315.8730 19.73 0.0001 
 BLOCO 2 329257.1429 164628.5714 2.95 0.0907 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUIDO BLOCO = 4 
 
Analysis of Variance Procedure 
 
Tukey's Studentized Range (HSD) Test for variable: PROD 
 
NOTE: This test controls the type I experimentwise error rate, but 
generally has a higher type II error rate than REGWQ. 
 
Alpha= 0.05 df= 12 MSE= 55773.02 
Critical Value of Studentized Range= 4.949 
Minimum Significant Difference= 674.85 
 
Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N CULTIV 
 
 A 3556.7 3 3 
 A 
 A 3483.3 3 2 
 A 
 A 3456.7 3 7 
 A 
 B A 3036.7 3 6 
 B 
 B C 2630.0 3 5 
 C 
 C 2246.7 3 4 
 C 
 C 2120.0 3 1 
 
************************************************************************* 
 
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 
 
Analysis of Variance Procedure 
 
Tukey's Studentized Range (HSD) Test for variable: PROD 
 
NOTE: This test controls the type I experimentwise error rate, but 
generally has a higher type II error rate than REGWQ. 
 
Alpha= 0.05 df= 12 MSE= 55773.02 
Critical Value of Studentized Range= 3.773 
Minimum Significant Difference= 336.76 
 
Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N BLOCO 
 
 A 3078.6 7 2 
 A 
 A 2947.1 7 3 
 A 
 A 2772.9 7 1 
 
COMENTÁRIO: 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
124
Comparando o item (A) e (C) observa-se que o R-Square aumentou de 84.58% 
para 91.19%. 
 
O p-valor para a variável CULTIV (Pr>F=0.0001) continuou o mesmo e para a 
variável BLOCO (Pr>F=0.0907) diminuiu significativamente (α<10%), o que 
significa que a média da produção (PROD) é significativamente diferente para os 
diferentes tipos de BLOCOS. 
 
A média global (ALTURA Mean) da produção aumentou para 2932.85. 
 
O coeficiente de variação (C V) da produção diminuiu para 8.05%.13) As variáveis BLOCO e TRAT representam os fatores. As variáveis CAMPO1 e 
CAMPO2 representam as respostas do experimento, Use o comando MODEL 
para obter uma análise de variância para cada uma das variáveis 
dependentes CAMPO1 e CAMPO2.Use α = 5 e 10%. 
 
 T R A T A M E N T O S 
 A B C 
B 1 32.6 36.4 29.5 
L 112 130 106 
O 2 42.7 47.1 32.9 
C 139 143 112 
O 3 35.3 40.1 33.6 
S 124 134 116 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA CAMPO A; 
INPUT BLOCO TRAT $ CAMPO1 CAMPO2 @@; 
CARDS; 
1 A 32.6 112 1 B 36.4 130 1 C 29.5 106 
2 A 42.7 139 2 B 47.1 143 2 C 32.9 112 
3 A 35.3 124 3 B 40.1 134 3 C 33.6 116 
; 
PROC ANOVA; 
 CLASS BLOCO TRAT; 
 MODEL CAMPO1 CAMPO2=BLOCO TRAT; 
TITLE 'ANALISE DE VARIANCIA'; 
RUN; 
 
ANALISE DE VARIANCIA 
 
Analysis of Variance Procedure 
Class Level Information 
 
Class Levels Values 
 
 BLOCO 3 1 2 3 
 
 TRAT 3 A B C 
 
Number of observations in data set = 9 
 
 
************************************************************************* 
 
ANALISE DE VARIANCIA 
 
Analysis of Variance Procedure 
 
 Dependent Variable: CAMPO1 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
125
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 4 225.27777778 56.31944444 8.94 0.0283 
 
 Error 4 25.19111111 6.29777778 
 
 Corrected Total 8 250.46888889 
 
 R-Square C.V. Root MSE CAMPO1 Mean 
 
 0.899424 6.840047 2.5095374 36.688889 
 
 Source DF Anova SS Mean Square F Value Pr > F 
 
 BLOCO 2 98.17555556 49.08777778 7.79 0.0417 
 TRAT 2 127.10222222 63.55111111 10.09 0.0274 
 
************************************************************************* 
 
ANALISE DE VARIANCIA 
 
Analysis of Variance Procedure 
 
 Dependent Variable: CAMPO2 
 Sum of Mean 
 Source DF Squares Square F Value Pr > F 
 
 Model 4 1247.3333333 311.8333333 8.28 0.0323 
 
 Error 4 150.6666667 37.6666667 
 
 Corrected Total 8 1398.0000000 
 
 R-Square C.V. Root MSE CAMPO2 Mean 
 
 0.892227 4.949450 6.1373175 124.00000 
 
 Source DF Anova SS Mean Square F Value Pr > F 
 
 BLOCO 2 354.66666667 177.33333333 4.71 0.0889 
 TRAT 2 892.66666667 446.33333333 11.85 0.0209 
 
COMENTÁRIO: 
 
CAMPO1 
 
Analisando o R-Square (CAMPO1) observa-se que o 89.24% da variação do 
modelo é explicado pela diferença entre os blocos e entre os tratamentos. 
 
O p-valor para a variável BLOCO (Pr>F=0.0417) é menor que os níveis de 
significância 5 e 10%, donde se conclui que a média do CAMPO1 é 
significativamente diferente para os diferentes tipos de blocos. O p-valor para a 
variável TRAT (Pr>F=0.0274) é menor que os níveis de significância 5 e 10%, 
donde se conclui que a média do CAMPO1 é significativamente diferente para os 
diferentes tipos de tratamentos. 
 
A média global (CAMPO1 Mean) do CAMPO1 é 124.0. 
 
O coeficiente de variação (C V) do CAMPO1 é 6.84%. 
 
CAMPO2 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
126
Analisando o R-Square (CAMPO2) observa-se que 89.22% da variação do 
modelo é explicado pela diferença entre os blocos e entre os tratamentos. 
 
O p-valor para a variável BLOCO (Pr>F=0.0889) é maior que os nivel de 
significância 5%, donde se conclui que a média do CAMPO2 não é 
significativamente diferente para os diferentes tipos de blocos, mas isso acontece 
para α=10%. O p-valor para a variável TRAT (Pr>F=0.0209) é menor que os 
níveis de significância 5 e 10%, donde se conclui que a média do CAMPO2 é 
significativamente diferente para os diferentes tipos de tratamentos. 
 
A média global (CAMPO2 Mean) do CAMPO2 é 36.689. 
 
O coeficiente de variação (C V) do CAMPO2 é 4.95%. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
127
13 EXEMPLO PRÁTICO 
 
13.1 Banco de Dados 
 
GRUPO IDADE PAS_INI PAD_INI PAS_FIM PAD_FIM PESO ESTAT 
A 11,9 120 80 120 70 40,0 154,5 
A 11,1 110 60 130 70 42,0 155,5 
A 12,5 110 60 120 60 40,4 148,4 
A 11,8 120 60 160 60 46,5 160,8 
A 11,8 110 70 130 80 49,0 166,0 
A 11,8 130 90 170 100 53,6 157,0 
A 11,9 120 70 140 80 49,0 159,0 
A 11,9 90 60 150 100 43,5 154,0 
A 11,1 120 80 150 100 43,3 156,3 
A 11,1 80 50 160 80 53,8 157,3 
A 11,1 110 60 160 90 45,0 164,7 
A 12,2 130 70 150 40 55,2 157,2 
A 12,4 90 50 150 90 52,1 167,3 
B 12,2 100 80 150 90 31,6 155,0 
B 12,1 100 50 140 90 36,4 158,9 
B 11,1 120 70 140 80 37,5 147,2 
B 11,9 100 60 150 70 45,4 156,1 
B 11,8 110 70 120 80 37,1 152,0 
B 11,8 100 70 160 100 55,5 161,5 
B 11,7 100 60 160 90 39,0 152,0 
B 11,6 110 70 120 50 41,2 141,0 
B 11,6 140 90 130 70 31,2 155,3 
B 11,8 110 70 120 50 33,3 163,5 
B 11,9 120 90 130 70 32,4 158,0 
B 11,9 130 90 130 60 47,2 152,0 
B 11,1 110 80 140 80 52,0 147,0 
B 11,1 130 70 140 60 43,6 153,0 
B 12,1 110 80 120 30 41,7 158,0 
B 12,2 110 80 130 40 34,7 154,0 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
128
13.2 Análise dos dados 
 
 TESTE DE NORMALIDADE - TESTE DE SHAPIRO-WILK 
 
---------------------------------- GRUPO=A ------------------------------------ 
 
 Univariate Procedure 
 
Variable=IDADE 
 
 W:Normal 0.874563 Pr<W 0.0586 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
 Univariate Procedure 
 
Variable=PAS_IN 
 
 W:Normal 0.888869 Pr<W 0.0920 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PAD_IN 
 
 W:Normal 0.918092 Pr<W 0.2279 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PAD_FI 
 
 W:Normal 0.920703 Pr<W 0.2466 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PAS_FI 
 
 W:Normal 0.930316 Pr<W 0.3279 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PESO 
 
 W:Normal 0.932284 Pr<W 0.3471 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=ESTAT 
 
 W:Normal 0.946241 Pr<W 0.5094 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
129
---------------------------------- GRUPO=B ------------------------------------Univariate Procedure 
 
Variable=IDADE 
 
 W:Normal 0.878959 Pr<W 0.0375 
 
Análise: Esta variável NÃO segue uma distribuição Normal (p < 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PAS_IN 
 
 Moments 
 W:Normal 0.859048 Pr<W 0.0181 
 
Análise: Esta variável NÃO segue uma distribuição Normal (p < 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PAD_IN 
 
 W:Normal 0.92103 Pr<W 0.1767 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PAD_FI 
 
 W:Normal 0.902441 Pr<W 0.0893 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
 W:Normal 0.959803 Pr<W 0.6350 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=PESO 
 
 W:Normal 0.935181 Pr<W 0.2925 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Variable=ESTAT 
 
 W:Normal 0.966555 Pr<W 0.7506 
 
Análise: Esta variável segue uma distribuição Normal (p > 0,05) 
Teste de Shapiro-Wilk 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
130
Conclusão do Teste de Normalidade 
 
As variáveis que deverão ser analisadas por uma Análise de variância (para os 
dois grupos as variáveis estão normalizadas) são: 
 
PAD_IN PAS_FI PAD_FI PESO ESTAT FCREP FLEX 
 
As demais deverão ser analisadas por Testes Não Paramétricos (Teste de 
Kruskal-Wallis) para variáveis independentes. 
 
IDADE PAS_IN 
 
******************************************************************************* 
 
 ANALISE DE VARIANCIA - DADOS PARAMÉTRICOS 
 
 Analysis of Variance Procedure 
 Class Level Information 
 
 Class Levels Values 
 
 GRUPO 2 A B 
 
 
 Number of observations in data set = 29 
 
 ANALISE DE VARIANCIA - DADOS 
 
 Analysis of Variance Procedure 
 
Dependent Variable: PAD_IN 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 1 413.85941645 413.85941645 3.03 0.0929 
 
Error 27 3682.69230769 136.39601140 
 
Corrected Total 28 4096.55172414 
 
 R-Square C.V. Root MSE PAD_IN Mean 
 
 0.101026 16.60232 11.678870 70.344828 
 
 
 
GRUPO 1 413.85941645 413.85941645 3.03 0.0929 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
Dependent Variable: PAS_FI 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 1 592.19164456 592.19164456 1.62 0.2138 
 
Error 27 9862.98076923 365.29558405 
 
Corrected Total 28 10455.17241379 
 
 R-Square C.V. Root MSE PAS_FI Mean 
 
 0.056641 26.02200 19.112707 73.448276 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
131
Source DF Anova SS Mean Square F Value Pr > F 
 
GRUPO 1 592.19164456 592.19164456 1.62 0.2138 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
Dependent Variable: PAD_FI 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 1 598.47480106 598.47480106 2.74 0.1095 
 
Error 27 5898.07692308 218.44729345 
 
Corrected Total 28 6496.55172414 
 
 R-Square C.V. Root MSE PAD_FI Mean 
 
 0.092122 10.53118 14.779963 140.34483 
 
 
Source DF Anova SS Mean Square F Value Pr > F 
 
GRUPO 1 598.47480106 598.47480106 2.74 0.1095 
 
****************************************************************************** 
 
 ANALISE DE VARIANCIA - DADOS PARAMÉTRICOS 
 
 Analysis of Variance Procedure 
 
Dependent Variable: PESO 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 1 371.52005968 371.52005968 8.89 0.0060 
 
Error 27 1128.25442308 41.78720085 
 
Corrected Total 28 1499.77448276 
 
 R-Square C.V. Root MSE PESO Mean 
 
 0.247717 14.95889 6.4643020 43.213793 
 
 
Source DF Anova SS Mean Square F Value Pr > F 
 
GRUPO 1 371.52005968 371.52005968 8.89 0.0060 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
Dependent Variable: ESTAT 
 Sum of Mean 
Source DF Squares Square F Value Pr > F 
 
Model 1 131.16880802 131.16880802 4.31 0.0475 
 
Error 27 821.50360577 30.42605947 
 
Corrected Total 28 952.67241379 
 
 R-Square C.V. Root MSE ESTAT Mean 
 
 0.137685 3.537059 5.5159822 155.94828 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
132
Source DF Anova SS Mean Square F Value Pr > F 
 
GRUPO 1 131.16880802 131.16880802 4.31 0.0475 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Duncan's Multiple Range Test for variable: PAD_IN 
 
 NOTE: This test controls the type I comparisonwise error rate, not 
 the experimentwise error rate 
 
 Alpha= 0.05 df= 27 MSE= 136.396 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Number of Means 2 
 Critical Range 8.948 
 
 Means with the same letter are not significantly different. 
 
 Duncan Grouping Mean N GRUPO 
 
 A 73.750 16 B 
 A 
 A 66.154 13 A 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Tukey's Studentized Range (HSD) Test for variable: PAD_IN 
 
 NOTE: This test controls the type I experimentwise error rate, but 
 generally has a higher type II error rate than REGWQ. 
 
 Alpha= 0.05 df= 27 MSE= 136.396 
 Critical Value of StudentizedRange= 2.902 
 Minimum Significant Difference= 8.9477 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N GRUPO 
 
 A 73.750 16 B 
 A 
 A 66.154 13 A 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Scheffe's test for variable: PAD_IN 
 
 NOTE: This test controls the type I experimentwise error rate but 
 generally has a higher type II error rate than REGWF for all 
 pairwise comparisons 
 
 Alpha= 0.05 df= 27 MSE= 136.396 
 Critical Value of F= 4.21001 
 Minimum Significant Difference= 8.9477 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Scheffe Grouping Mean N GRUPO 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
133
 A 73.750 16 B 
 A 
 A 66.154 13 A 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Duncan's Multiple Range Test for variable: PAS_FI 
 
 NOTE: This test controls the type I comparisonwise error rate, not 
 the experimentwise error rate 
 
 Alpha= 0.05 df= 27 MSE= 365.2956 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Number of Means 2 
 Critical Range 14.64 
 
 Means with the same letter are not significantly different. 
 
 Duncan Grouping Mean N GRUPO 
 
 A 78.462 13 A 
 A 
 A 69.375 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Tukey's Studentized Range (HSD) Test for variable: PAS_FI 
 
 NOTE: This test controls the type I experimentwise error rate, but 
 generally has a higher type II error rate than REGWQ. 
 
 Alpha= 0.05 df= 27 MSE= 365.2956 
 Critical Value of Studentized Range= 2.902 
 Minimum Significant Difference= 14.643 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N GRUPO 
 
 A 78.462 13 A 
 A 
 A 69.375 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Scheffe's test for variable: PAS_FI 
 
 NOTE: This test controls the type I experimentwise error rate but 
 generally has a higher type II error rate than REGWF for all 
 pairwise comparisons 
 
 Alpha= 0.05 df= 27 MSE= 365.2956 
 Critical Value of F= 4.21001 
 Minimum Significant Difference= 14.643 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 
 Means with the same letter are not significantly different. 
 
 Scheffe Grouping Mean N GRUPO 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
134
 
 A 78.462 13 A 
 A 
 A 69.375 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Duncan's Multiple Range Test for variable: PAD_FI 
 
 NOTE: This test controls the type I comparisonwise error rate, not 
 the experimentwise error rate 
 
 Alpha= 0.05 df= 27 MSE= 218.4473 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Number of Means 2 
 Critical Range 11.32 
 
 Means with the same letter are not significantly different. 
 
 Duncan Grouping Mean N GRUPO 
 
 A 145.385 13 A 
 A 
 A 136.250 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Tukey's Studentized Range (HSD) Test for variable: PAD_FI 
 
 NOTE: This test controls the type I experimentwise error rate, but 
 generally has a higher type II error rate than REGWQ. 
 
 Alpha= 0.05 df= 27 MSE= 218.4473 
 Critical Value of Studentized Range= 2.902 
 Minimum Significant Difference= 11.324 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N GRUPO 
 
 A 145.385 13 A 
 A 
 A 136.250 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Scheffe's test for variable: PAD_FI 
 
 NOTE: This test controls the type I experimentwise error rate but 
 generally has a higher type II error rate than REGWF for all 
 pairwise comparisons 
 
 Alpha= 0.05 df= 27 MSE= 218.4473 
 Critical Value of F= 4.21001 
 Minimum Significant Difference= 11.324 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
135
 Means with the same letter are not significantly different. 
 
 Scheffe Grouping Mean N GRUPO 
 
 A 145.385 13 A 
 A 
 A 136.250 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Duncan's Multiple Range Test for variable: PESO 
 
 NOTE: This test controls the type I comparisonwise error rate, not 
 the experimentwise error rate 
 
 Alpha= 0.05 df= 27 MSE=41.7872 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Number of Means 2 
 Critical Range 4.953 
 
 Means with the same letter are not significantly different. 
 
 Duncan Grouping Mean N GRUPO 
 
 A 47.185 13 A 
 
 B 39.988 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Tukey's Studentized Range (HSD) Test for variable: PESO 
 
 NOTE: This test controls the type I experimentwise error rate, but 
 generally has a higher type II error rate than REGWQ. 
 
 Alpha= 0.05 df= 27 MSE= 41.7872 
 Critical Value of Studentized Range= 2.902 
 Minimum Significant Difference= 4.9526 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N GRUPO 
 
 A 47.185 13 A 
 
 B 39.988 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Scheffe's test for variable: PESO 
 
 NOTE: This test controls the type I experimentwise error rate but 
 generally has a higher type II error rate than REGWF for all 
 pairwise comparisons 
 
 Alpha= 0.05 df= 27 MSE= 41.7872 
 Critical Value of F= 4.21001 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
136
 Minimum Significant Difference= 4.9526 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Scheffe Grouping Mean N GRUPO 
 
 A 47.185 13 A 
 
 B 39.988 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Duncan's Multiple Range Test for variable: ESTAT 
 
 NOTE: This test controls the type I comparisonwise error rate, not 
 the experimentwise error rate 
 
 Alpha= 0.05 df= 27 MSE= 30.42606 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Number of Means 2 
 Critical Range 4.226 
 
 Means with the same letter are not significantly different. 
 
 Duncan Grouping Mean N GRUPO 
 
 A 158.308 13 A 
 
 B 154.031 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Tukey's Studentized Range (HSD) Test for variable: ESTAT 
 
 NOTE: This test controls the type I experimentwise error rate, but 
 generally has a higher type II error rate than REGWQ. 
 
 Alpha= 0.05 df= 27 MSE= 30.42606 
 Critical Value of Studentized Range= 2.902 
 Minimum Significant Difference= 4.226 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Tukey Grouping Mean N GRUPO 
 
 A 158.308 13 A 
 
 B 154.031 16 B 
 
******************************************************************************* 
 
 Analysis of Variance Procedure 
 
 Scheffe's test for variable: ESTAT 
 
 NOTE: This test controls the type I experimentwise error rate but 
 generally has a higher type II error rate than REGWF for all 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
137
 pairwise comparisons 
 
 Alpha= 0.05 df= 27 MSE= 30.42606 
 Critical Value of F= 4.21001 
 Minimum Significant Difference= 4.226 
 WARNING: Cell sizes are not equal. 
 Harmonic Mean of cell sizes= 14.34483 
 
 Means with the same letter are not significantly different. 
 
 Scheffe Grouping Mean N GRUPO 
 
 A 158.308 13 A 
 
 B 154.031 16 B 
 
******************************************************************************* 
 
 N P A R 1 W A Y P R O C E D U R E 
 
 Wilcoxon Scores (Rank Sums) for Variable IDADE 
 Classified by Variable GRUPO 
 
 
 Sum of Expected Std Dev Mean 
 GRUPO N Scores Under H0 Under H0 Score 
 
 A 13 202.500000 195.0 22.5578621 15.5769231 
 B 16 232.500000 240.0 22.5578621 14.5312500 
 Average Scores Were Used for Ties 
 
 
 Wilcoxon 2-Sample Test (Normal Approximation) 
 (with Continuity Correction of .5) 
 
 S = 202.500 Z = 0.310313 Prob > |Z| = 0.7563 
 
 T-Test Approx. Significance = 0.7586 
 
 Kruskal-Wallis Test (Chi-Square Approximation) 
 CHISQ = 0.11054 DF = 1 Prob > CHISQ = 0.7395 
 
******************************************************************************* 
 
 TESTE NAO PARAMETRICO - WILCOXON 
 
 N P A R 1 W A Y P R O C E D U R E 
 
 Wilcoxon Scores (Rank Sums) for Variable PAS_IN 
 Classified by Variable GRUPO 
 
 Sum of Expected Std Dev Mean 
 GRUPO N Scores Under H0 Under H0 Score 
 
 A 13 199.0 195.0 22.1452883 15.3076923 
 B 16 236.0 240.0 22.1452883 14.7500000 
 Average Scores Were Used for Ties 
 
 Wilcoxon 2-Sample Test (Normal Approximation) 
 (with Continuity Correction of .5) 
 
 S = 199.000 Z = 0.158047 Prob > |Z| = 0.8744 
 
 T-Test Approx. Significance = 0.8756 
 
 Kruskal-Wallis Test (Chi-Square Approximation) 
 CHISQ = 0.03263 DF = 1 Prob > CHISQ = 0.8567 
******************************************************************************* 
 
 ANALISE DE CORRELAÇÃO - POR GRUPO 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
138
---------------------------------- GRUPO=A ------------------------------------ 
 
 Correlation Analysis 
 
 Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13IDADE PAS_IN PAD_IN PAD_FI PAS_FI PESO ESTAT 
 
 IDADE 1.00000 0.11355 -0.01829 -0.29866 -0.35359 0.11772 -0.09825 
 0.0 0.7119 0.9527 0.3216 0.2359 0.7017 0.7495 
 
 PAS_IN 0.11355 1.00000 0.78224 -0.05119 -0.32011 -0.03421 -0.14034 
 0.7119 0.0 0.0016 0.8681 0.2863 0.9116 0.6475 
 
 PAD_IN -0.01829 0.78224 1.00000 -0.01332 0.16250 -0.03653 -0.21510 
 0.9527 0.0016 0.0 0.9655 0.5958 0.9057 0.4803 
 
 PAD_FI -0.29866 -0.05119 -0.01332 1.00000 0.37142 0.61683 0.35160 
 0.3216 0.8681 0.9655 0.0 0.2115 0.0247 0.2388 
 
 PAS_FI -0.35359 -0.32011 0.16250 0.37142 1.00000 -0.03737 0.22572 
 0.2359 0.2863 0.5958 0.2115 0.0 0.9035 0.4584 
 
 PESO 0.11772 -0.03421 -0.03653 0.61683 -0.03737 1.00000 0.45355 
 0.7017 0.9116 0.9057 0.0247 0.9035 0.0 0.1196 
 
 ESTAT -0.09825 -0.14034 -0.21510 0.35160 0.22572 0.45355 1.00000 
 0.7495 0.6475 0.4803 0.2388 0.4584 0.1196 0.0 
 
---------------------------------- GRUPO=B ------------------------------------ 
 
 Correlation Analysis 
 
 7 'VAR' Variables: IDADE PAS_IN PAD_IN PAD_FI PAS_FI PESO 
 ESTAT 
 
 Simple Statistics 
 
 Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 16 
 
 IDADE PAS_IN PAD_IN PAD_FI PAS_FI PESO ESTAT 
 
 IDADE 1.00000 -0.41854 0.02114 -0.08451 -0.15240 -0.32680 0.52205 
 0.0 0.1066 0.9381 0.7557 0.5731 0.2167 0.0381 
 
 PAS_IN -0.41854 1.00000 0.63341 -0.41562 -0.31914 -0.16878 -0.17507 
 0.1066 0.0 0.0084 0.1094 0.2283 0.5320 0.5167 
 
 PAD_IN 0.02114 0.63341 1.00000 -0.37376 -0.34073 -0.12430 -0.05596 
 0.9381 0.0084 0.0 0.1538 0.1966 0.6465 0.8369 
 
 PAD_FI -0.08451 -0.41562 -0.37376 1.00000 0.73254 0.36355 0.12034 
 0.7557 0.1094 0.1538 0.0 0.0012 0.1663 0.6571 
 
 PAS_FI -0.15240 -0.31914 -0.34073 0.73254 1.00000 0.16864 0.05036 
 0.5731 0.2283 0.1966 0.0012 0.0 0.5324 0.8530 
 
 PESO -0.32680 -0.16878 -0.12430 0.36355 0.16864 1.00000 -0.14503 
 0.2167 0.5320 0.6465 0.1663 0.5324 0.0 0.5920 
 
 ESTAT 0.52205 -0.17507 -0.05596 0.12034 0.05036 -0.14503 1.00000 
 0.0381 0.5167 0.8369 0.6571 0.8530 0.5920 0.0 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
139
REFERÊNCIAS BIBLIOGRÁFICAS 
 
 
BUSSAB, W.O.; MORETTIN, P.A. (1981) Estatística Básica. São Paulo: Atual 
Editora. 
 
COSTA NETO, Pedro L. O. Estatística. São Paulo: Mc Graw-Hill do Brasil. 
 
FONSECA, J.S.; MARTINS, G.A. (1993) Curso de Estatística. São Paulo: Ed. 
Atlas. 
 
FONSECA, J.S.; MARTINS, G.A.; TOLEDO, G.L. (1991) Estatística Aplicada. 
São Paulo: Ed. Atlas. 
 
Manuais do SAS/BASIC. Vol. I e II. 
 
Manuais do SAS/STAT. 
 
STEVENSON, W.J. (1981) Estatística Aplicada à Administração. São Paulo: 
Ed. Harbra. 
 
VIEIRA, S.; HOFFMANN R. (1989) Estatística Experimental. São Paulo: Ed. 
Atlas. 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
140
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A N E X O S 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
141
 ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE 
ASSIMENTRIA E CURTOSE - Skewness and Kurtosis 
 
Intervalo de confiança de 95% 
 
 
 n Skewness Kurtosis n Skewness Kurtosis 
 
5 -1.81 1.81 . . 38 -0.69 0.69 -0.99 1.87 
6 -1.70 1.70 . . 39 -0.68 0.68 -0.98 1.85 
7 -1.57 1.57 -0.87 1.54 40 -0.67 0.67 -0.97 1.83 
8 -1.45 1.45 -0.89 1.68 41 -0.67 0.67 -0.96 1.81 
9 -1.37 1.37 -0.90 1.79 42 -0.66 0.66 -0.95 1.79 
10 -1.31 1.31 -0.92 1.85 43 -0.65 0.65 -0.95 1.77 
11 -1.26 1.26 . . 44 -0.64 0.64 -0.94 1.75 
12 -1.21 1.21 -0.93 1.93 45 -0.63 0.63 -0.93 1.73 
13 -1.17 1.17 . . 46 -0.63 0.63 -0.92 1.71 
14 -1.13 1.13 . . 47 -0.62 0.62 -0.91 1.69 
15 -1.09 1.09 -0.94 1.95 48 -0.61 0.61 -0.91 1.68 
16 -1.06 1.06 . . 49 -0.61 0.61 -0.90 1.66 
17 -1.03 1.03 . . 50 -0.60 0.60 -0.89 1.64 
18 -1.00 1.00 . . 51 -0.59 0.59 -0.88 1.63 
19 -0.98 0.98 . . 52 -0.59 0.59 -0.88 1.61 
20 -0.95 0.95 . . 53 -0.58 0.58 -0.87 1.60 
21 -0.93 0.93 -1.27 2.44 54 -0.58 0.58 -0.87 1.58 
22 -0.91 0.91 -1.25 2.39 55 -0.57 0.57 -0.86 1.57 
23 -0.89 0.89 -1.22 2.34 56 -0.57 0.57 -0.85 1.56 
24 -0.87 0.87 -1.20 2.30 57 -0.56 0.56 -0.85 1.54 
25 -0.85 0.85 -1.18 2.26 58 -0.56 0.56 -0.84 1.53 
26 -0.84 0.84 -1.16 2.22 59 -0.55 0.55 -0.84 1.52 
27 -0.82 0.82 -1.14 2.18 60 -0.55 0.55 -0.83 1.50 
28 -0.81 0.81 -1.12 2.15 61 -0.54 0.54 -0.83 1.49 
29 -0.79 0.79 -1.11 2.12 62 -0.54 0.54 -0.82 1.48 
30 -0.78 0.78 -1.09 2.08 63 -0.53 0.53 -0.82 1.47 
31 -0.77 0.77 -1.08 2.05 64 -0.53 0.53 -0.81 1.46 
32 -0.76 0.76 -1.06 2.03 65 -0.52 0.52 -0.81 1.45 
33 -0.74 0.74 -1.05 2.00 66 -0.52 0.52 -0.80 1.43 
34 -0.73 0.73 -1.04 1.97 67 -0.51 0.51 -0.80 1.42 
35 -0.72 0.72 -1.03 1.94 68 -0.51 0.51 -0.79 1.41 
36 -0.71 0.71 -1.01 1.92 69 -0.51 0.51 -0.79 1.40 
37 -0.70 0.70 -1.00 1.90 70 -0.50 0.50 -0.78 1.39 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
142
 
 
 
 
 
 
 n Skewness Kurtosis n Skewness Kurtosis 
71 -0.50 0.50 -0.78 1.38 110 -0.39 0.39 -0.66 1.11 
72 -0.50 0.50 -0.78 1.37 111 -0.39 0.39 -0.66 1.10 
73 -0.49 0.49 -0.77 1.36 112 -0.39 0.39 -0.66 1.09 
74 -0.49 0.49 -0.77 1.35 113 -0.39 0.39 -0.65 1.09 
75 -0.48 0.48 -0.76 1.35 114 -0.39 0.39 -0.65 1.08 
76 -0.48 0.48 -0.76 1.34 115 -0.38 0.38 -0.65 1.08 
77 -0.48 0.48 -0.76 1.33 117 -0.38 0.38 -0.65 1.07 
78 -0.47 0.47 -0.75 1.32 118 -0.38 0.38 -0.64 1.07 
79 -0.47 0.47 -0.75 1.31 119 -0.38 0.38 -0.64 1.06 
80 -0.47 0.47 -0.75 1.30 121 -0.37 0.37 -0.64 1.05 
81 -0.46 0.46 -0.74 1.29 123 -0.37 0.37 -0.63 1.04 
83 -0.46 0.46 -0.74 1.28 125 -0.37 0.37 -0.63 1.03 
84 -0.46 0.46 -0.73 1.27 127- -0.36 0.36 -0.63 1.02 
85 -0.45 0.45 -0.73 1.26 128 -0.36 0.36 -0.62 1.02 
86 -0.45 0.45 -0.73 1.26 129 -0.36 0.36 -0.62 1.01 
87 -0.45 0.45 -0.72 1.25 130 -0.36 0.36 -0.62 1.01 
88 -0.44 0.44 -0.72 1.24 132 -0.36 0.36 -0.62 1.00 
89 -0.44 0.44 -0.72 1.23 133 -0.35 0 35 -0.62 1.00 
90 -0.44 0.44 -0.71 1.23 134 -0.35 0 35 -0.61 1.00 
91 -0.44 0.44 -0.71 1.22 135 -0.35 0 35 -0.61 0.99 
92 -0.43 0.43 -0.71 1.21 137 -0.35 0 35 -0.61 0.98 
93 -0.43 0.43 -0.70 1.21 140 -0.34 0 34 -0.60 0.97 
94 -0.43 0.43 -0.70 1.20 143 -0.34 0 34 -0.60 0.96 
95 -0.43 0.43 -0.70 1.19 146 -0.34 0 34 -0.59 0.95 
96 -0.42 0.42 -0.70 1.19 148 -0.33 0 33 -0.59 0.95 
97 -0.42 0.42 -0.69 1.18 149 -0.33 0 33 -0.59 0.94 
98 -0.42 0.42 -0.69 1.17 152 -0.33 0 33 -0.5 0.93 
100 -0.41 0.41 -0.69 1.16 155 -0.33 0 33 -0.58 0.92 
101 -0.41 0.41 -0.68 1.16 156 -0.32 0 32 -0.58 0.92 
102 -0.41 0.41 -0.68 1.15 158 -0.32 0 32 -0.58 0.91 
103 -0.41 0.41 -0.68 1.14 159 -0.32 0 32 -0.57 0.91 
105 -0.40 0.40 -0.67 1.13 161 -0.32 0.32 -0.57 0.90 
107 -0.40 0.40 -0.67 1.12 164 -0.32 0.32 -0.57 0.89 
108 -0.40 0.40 -0.67 1.12 165 -0.31 0.31 -0.57 0.89 
109 -0.40 0.40 -0.66 1.11 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
143
 
 
 
 
 
 
 n Skewness Kurtosis n Skewness Kurtosis 
 
167 -0.31 0.31 -0.56 0.89 269 -0.24 0.24 -0.47 0.68 
168 -0.31 0.31 -0.56 0.88 274 -0.24 0.24 -0.46 0.68171 -0.31 0.31 -0.56 0.87 277 -0.24 0.24 -0.46 0.67 
175 -0.30 0.30 -0.55 0.86 278 -0.23 0.23 -0.46 0.67 
179 -0.30 0.30 -0.55 0.85 284 -0.23 0.23 -0.46 0.66 
183 -0.30 0.30 -0.54 0.84 289 -0.23 0.23 -0.45 0.66 
186 -0.29 0.29 -0.54 0.84 292 -0.23 0.23 -0.45 0.65 
187 -0.29 0.29 -0.54 0.83 300 -0.22 0.22 -0.45 0.65 
191 -0.29 0.29 -0.54 0.82 301 -0.22 0.22 -0.45 0.64 
192 -0.29 0.29 -0.53 0.82 306 -0.22 0.22 -0.44 0.64 
196 -0.29 0.29 -0.53 0.81 309 -0.22 0.22 -0.44 0.63 
198 -0.28 0.28 -0.53 0.81 318 -0.22 0.22 -0.44 0.62 
200 -0.28 0.28 -0.53 0.80 323 -0.22 0.22 -0.43 0.62 
201 -0.28 0.28 -0.52 0.80 325 -0.21 0.21 -0.43 0.62 
205 -0.28 0.28 -0.52 0.79 328 -0.21 0.21 -0.43 0.61 
210 -0.28 0.28 -0.52 G.78 338 -0.21 0.21 -0.43 0.60 
211 -0.27 0.27 -0.52 0.78 342 -0.21 0.21 -0.42 0.60 
212 -0.27 0.27 -0.51 0.78 348 -0.21 0.21 -0.42 0.59 
215 -0.27 0.27 -0.51 0.77 354 -0.20 0.20 -0.42 0.59 
220 -0.27 0.27 -0.51 0.76 359 -0.20 0.20 -0.42 0.58 
222 -0.27 0.27 -0.50 0.76 363 -0.20 0.20 -0.41 0.58 
225 -0.26 0.26 -0.50 0.75 371 -0.20 0.20 -0.41 0.57 
231 -0.26 0.26 -0.50 0.74 383 -0.20 0.20 -0.41 0.56 
234 -0.26 0.26 -0.49 0.74 385 -0.20 0.20 -0.40 0.56 
237 -0.26 0.26 -0.49 0.73 386 -0.19 0.19 -0.43 0.56 
241 -0.25 0.25 -0.49 0.73 396 -0.19 0.19 -0.40 0.55 
243 -0.25 0.25 -0.49 0.72 409 -0.19 0.19 -0.40 0.54 
246 -0.25 0.25 -0.48 0.72 410 -0.19 0.19 -0.39 0.54 
249 -0.25 0.25 -0.48 0.71 423 -0.18 0.18 -0.39 0.53 
255 -0.25 0.25 -0.48 0.70 436 -0.18 0.18 -0.38 0.53 
258 -0.24 0.24 -0.48 0.70 438 -0.18 0.18 -0.38 0.52 
260 -0.24 0.24 -0.47 0.70 454 -0.18 0.18 -0.38 0.51 
262 -0.24 0.24 -0.47 0.69 464 -0.18 0.18 -0.37 0.51 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
144
 
 
 
 
 
 
 n Skewness Kurtosis 
 
466 -0.17 0.17 -0.37 0.51 
470 -0.17 0.17 -0.37 0.50 
488 -0.17 0.17 -0.37 0.49 
495 -0.17 0.17 -0.36 0.49 
506 -0.17 0.17 -0.36 0.48 
516 -0.16 0.16 -0.36 0.48 
526 -0.16 0.16 -0.36 0.47 
529 -0.16 0.16 -0.35 0.47 
547 -0.16 0.16 -0.35 0.46 
566 -0.16 0.16 -0.34 0.46 
569 -0.16 0.16 -0.34 0.45 
575 -0.15 0.15 -0.34 0.45 
593 -0.15 0.15 -0.34 0.44 
607 -0.15 0.15 -0.33 0.44 
618 -0.15 0.15 -0.33 0.43 
645 -0.14 0.14 -0.33 0.42 
652 -0.14 0.14 -0.32 0.42 
674 -0.14 0.14 -0.32 0.41 
701 -0.14 0.14 -0.31 0.41 
705 -0.14 0.14 -0.31 0.40 
730 -0.13 0.13 -0.31 0.40 
738 -0.13 0.13 -0.31 0.39 
755 -0.13 0.13 -0.30 0.39 
774 -0.13 0.13 -0.30 0.38 
812 -0.13 0.13 -0.30 0.37 
816 -0.13 0.13 -0.29 0.37 
833 -0.12 0.12 -0.29 0.37 
853 -0.12 0.12 -0.29 0.36 
883 -0.12 0.12 -0.28 0.36 
898 -0.12 0.12 -0.28 0.35 
947 -0.12 0.12 -0.28 0.34 
958 -0.12 0.12 -0.27 0.34 
961 -0.11 0.11 -0.27 0.34 
1000 -0.11 0.11 -0.27 0.33