Buscar

Apostila SAS

Prévia do material em texto

MINISTÉRIO DE EDUCAÇÃO E DESPORTOS 
UNIVERSIDADE FEDERAL DE SANTA MARIA 
CENTRO DE CIÊNCIAS NATURAIS E EXATAS 
DEPARTAMENTO DE ESTATÍSTICA 
LABORATÓRIO - S.A.S. 
 
 
 
 
 
 
 
 
 
 
 
 
 
TREINAMENTO SISTEMA - S.A.S. 
 
 
 
 
Prof. Dr. Luis Felipe Lopes 
 
 
 
 
 
 
 
 
 
 
 
 
 
SANTA MARIA – RS 
 
2 0 0 6 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
i
SUMÁRIO 
 
1 INTRODUÇÃO 1 
 
2 LIMITAÇÕES 1 
 
3 O QUE É O SISTEMA SAS? 1 
3.1 O SAS/BASE 2 
3.2 Tópicos gerais 3 
 
4 ARQUIVOS SAS 3 
 
5 COMANDOS DE PROGRAMAÇÃO 3 
5.1 Comandos de controle de arquivos 4 
5.2 Comandos que lêem e gravam arquivos de dados 6 
5.3 Comandos que lêem e gravam arquivos SAS 10 
5.4 Comandos que atuam sobre valores de dados 13 
5.5 Comandos de informação 15 
5.6 Comandos que controlam o fluxo lógico de programação 17 
 
6 PRINCIPAIS “PROCEDURES” – PROCs 20 
6.1 PROC SORT 20 
6.2 PROC PRINT 21 
6.3 PROC FORMAT 22 
6.4 PROC FREQ 23 
6.5 PROC MEANS 24 
 
7 ESTATÍSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE 27 
7.1 Introdução 27 
7.2 Testes de Normalidade (PROC UNIVARIATE) 27 
 
8 ANÁLISE DE CORRELAÇÃO E REGRESSÃO 32 
8.1 Introdução 32 
8.2 Correlação de Pearson (PROC CORR) 33 
8.3 Regressão (PROC REG) 39 
8.4 Inferência na regressão 41 
8.5 Resíduos 41 
 
9 INFERÊNCIA ESTATÍSTICA 55 
9.1 Testes para igualdade de duas medias (PROC TTEST) 54 
9.2 Teste para dados pareados 59 
 
10 MÉTODOS NÃO PARAMÉTRICOS 64 
10.1 Testes para igualdade de duas medias (PROC NPAR1WAY) 64 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
ii
11 ANÁLISE DE VARIÂNCIA 68 
11.1 Dados balanceados (PROC ANOVA) 68 
11.1.1 Experimento Completamente Casualizado 73 
11.1.2 Experimento com Blocos Aleatorizados 75 
11.1.3 Experimento com Quadrado Latino 77 
 
12 EXERCÍCIOS RESOLVIDOS E COMENTADOS 79 
 
13 EXEMPLO PRÁTICO 127 
13.1 Banco de dados 127 
13.2 Análise dos dados 128 
 
 
REFERÊNCIAS BIBLIOGRÁFICAS 139 
 
ANEXOS 140 
 
ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE 
ASSIMENTRIA E CURTOSE - Skewness and Kurtosis 141 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
1
TREINAMENTO SISTEMA - S.A.S. – Statistical Analisys System 
 
 
1 INTRODUÇÃO 
 
 
O Objetivo deste Curso é ajudar o usuário a conhecer os comandos 
básicos do Sistema SAS de modo que possa obter as respostas a 
problemas práticos de uma maneira rápida e objetiva. 
 
 
2 LIMITAÇÕES 
 
 
Este curso é apenas uma introdução ao SAS, contendo uma pequena 
fração de informação que você encontrará no SAS USER’S GUIDE: BASIC e SAS 
USER’S GUIDE STATISTICS. 
 
 
3 O QUE É O SISTEMA SAS ? 
 
 
É um sistema de aplicação integrada, que consiste em vários produtos 
que tem por função: acesso, gerenciamento, análise estatística e apresentação de 
dados, somada a uma linguagem poderosa de programação e geração de 
relatórios. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Acesso aos dados - o sistema SAS possui ferramentas para acessar os 
bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS. 
 
Gerenciamento de dados - com o SAS é possível editar, selecionar, 
ordenar, concatenar e margear os arquivos. 
 
 Acesso Gerenciamento 
 
 
 
 
 
Apresentação Análise 
 
DADOS 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
2
Análise de dados - o SAS possui rotinas estatísticas para análises de 
regressão, análise de variância, de componentes principais, discriminante, 
modelos lineares, análise fatorial, previsões, controle de qualidade, cálculos 
matriciais, etc. . 
 
Apresentação de informações - a geração de relatórios é fácil e flexível. 
Eles podem ser listados, tabulados e gráficos. 
 
O SAS por ser um sistema integrado, ele é composto por módulos para 
comercialização. 
 
Principais módulos: 
 
SAS/BASE → contém uma linguagem de Quarta geração, com 
procedimentos para estatística básica e gráficos de baixa resolução. 
 
SAS/STAT → este módulo é composto de procedimentos para estatística 
avançada, como análise de variância, análise de regressão, multivariada, fatorial, 
discriminante, outras. 
 
SAS/GRAPH → gera gráficos de alta resolução: barras verticais ou 
horizontais, setoriais, cartesianos, mapas e superfícies tridimensionais. 
 
SAS/ETS → ferramenta de previsão e análise de séries temporais. 
 
SAS/OR → Procedimentos para Pesquisa Operacional, programação 
linear, gerenciamento de projetos e apoio à tomada de decisões. 
 
SAS/IML → linguagem para operação com matrizes. 
 
SAS/QC → ferramenta para controle estatístico de qualidade e 
delineamentos experimentais. 
 
Existem outros módulos, mas que não são de interesse para a estatística. 
 
 
3.1 O SAS/BASE 
 
É o instrumento principal do Sistema SAS. Ele permite ao usuários: 
 
- Criar, montar e acessar qualquer tipo de dado; 
- Produzir relatórios e gráficos simples; 
- Atualizar estatisticamente os dados; 
- Utilizar a linguagem de programação SAS. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
3
3.2 Tópicos gerais 
 
- Todo os comandos do SAS terminam em (;). 
- Os comandos iniciam e terminam em qualquer posição. 
- Vários comandos poderá estar numa mesma linha. 
- Um comando poderá ser escrito em várias linhas. 
- Palavras serão separadas por um mais espaços. 
- O comando INPUT é obrigatório não interessando onde os dados estão 
armazenados. 
- Arquivos SAS são armazenados em tabelas retangulares. 
- Referenciam-se arquivos e variáveis pelos nomes. 
- Nomes de arquivos ou variáveis poderá ter no máximo 8 caracteres, 
iniciando obrigatoriamente por letras (A-Z), podendo ter associado número e/ou 
caracteres especiais com ( - ‘quebra’). 
 
4 ARQUIVO SAS 
 
Um arquivo SAS é uma coleção de valores de dados arrumados em uma 
tabela retangular. 
 
Ex.: 
 
Variáveis → CULTURA ALTURA1 ALTURA2 
 
OBSERVAÇÕES arroz 0.35 0.39 
 . feijão 0.25 0.30 
 . soja 0.15 0.17 
 
• As colunas da tabela são chamadas de VARIÁVEIS 
 
 - Variáveis corresponde a campos de dados. 
 - Cada variável tem um nome. 
 - Há três tipos de variáveis: caracter, numérica e data. 
 
• As linhas são chamadas de OBSERVAÇÕES 
 
- Não há limite para o número de observações. 
 
5 COMANDOS DE PROGRAMAÇÃO 
 
Os seguintes comandos são básicos para a programação em SAS: 
 
- Comandos de controle de arquivos. 
 
- DATA - INFILE 
- CARDS - FILE 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
4
- Comandos que lêem e gravam arquivos de dados. 
 
- INPUT 
- PUT 
- LIST 
 
- Comandos que lêem e gravam arquivos SAS. 
 
- SET 
- MERGE 
- UPDATE 
- OUTPUT 
 
- Comandos que atuam sobre valores de dados. 
 
- FUNÇÕES e EXPRESSÕES 
 
- Comandos de informação. 
 
- DROP 
- RENAME 
- LABEL 
- FORMAT 
- TITLE 
 
- Comandos que controlam o fluxo lógico de programação. 
 
- IF (THEN / ELSE) 
- DELETE 
 
 
5.1 Comando de controle de arquivos 
 
 
- DATA 
 
O primeiro comando em um programa SAS, geralmente é um DATA. O 
comando DATA diz ao SAS que se quer criar um arquivo SAS. 
 
Você poderá escolher qualquer nome para esse arquivo, desde que tenha 
até 8 caracteres ou menos e comece por uma letra (A-Z). 
 
 
Ex.: DATA TESTE; 
 INPUT . . . 
 . 
 . 
 
 
Chico
Realce
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
5
• A palavra TESTE é o nome do arquivo SAS. 
• Se o nome for omitido pelo usuário, o SAS se encarrega de nomeá-lo. 
Dando o nome de DATAn (n → número de DATAS criados). 
 
• O comando DATA pode aparecer em outros lugares dentro do arquivo 
SAS quando se quer fazer referências a outros arquivos.- CARDS 
 
É um comando dado logo após o comando DATA. O comando CARDS 
indica ao SAS que os registros de dados seguem imediatamente abaixo no texto 
até o ponto e virgula ‘; ‘ do último dado. 
 
 
Ex.: DATA A1; 
 INPUT IDADE 1–2 ALTURA 5-8 1 PESO 10–14 1; 
 CARDS; 
 21 180 75.2 
 18 170 65.3 
 25 175 80.3 
 : : : 
 : : : 
 ; 
 
- INFILE 
 
Também vem a ser um comando logo após o comando DATA, só que os 
valores de dados estão em disco (na forma de arquivo), logo deve-se incluir o 
comando INFILE. Ele deve conter um nome com no máximo 8 caracteres e 
deverá ser lido com o código ASCII. 
 
Características do INFILE: 
 
• Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados 
estão armazenados. 
 
• Os dados estão armazenados em disco no arquivo chamado ARQUIVO. 
 
 
Ex.: DATA A1; 
 INFILE ‘ARQUIVO DADOS’; 
 INPUT NOME $10. @30 NOTA1 30 – 32 1 
 NOTA2 33 – 35 1 MEDIA 37 – 39 1; 
 PROC PRINT; 
 
 
Chico
Realce
Chico
Realce
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
6
 
Obs.: Este dois comandos CARDS e INFILE especificam de onde serão lidos 
os dados. O INFILE indica que serão lidos de um arquivo externo (banco de 
dados – ASCII) e o CARDS indica que os dados estão no programa logo 
abaixo deste comando. 
 
 
5.2 Comandos que lêem e gravam arquivos de dados 
 
 
- INPUT 
 
A função do comando INPUT é descrever para o sistema SAS como são, 
quais os nomes, e em que posição se encontra as VARIÁVEIS no arquivo de 
dados. 
 
O comando INPUT geralmente segue o comando DATA. 
 
 
Ex.: DATA TESTE; 
 INPUT A 1-3 Y 5-6; 
 
 
Obs.: Lembre-se das regras para nomes (no máximo 8 caracteres). 
 
a) Tipos de INPUT 
 
a.1) INPUT COLUNADO 
 
Especifica onde encontrar os valores pela posição da coluna. 
 
 
Ex.: INPUT NOME $ 1–8 SEXO $ 10 IDADE 12-13 
 ALTURA 15–19 PESO 21–26; 
 
 
Restrições: • As posições dos campos são fixas. 
 • O ‘$’ é usado para indicar variável alfanumérica. 
 
Características do INPUT COLUNADO: 
 
• Os campos (variáveis) podem ser lidos em qualquer ordem. 
 
 
Ex.: INPUT SEXO $ 10 IDADE 12–13 NOME $ 1–8 
 PESO 21–26 ALTURA 15–19; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
7
• Campos em brancos são considerados não informados. 
 
(posições 9, 11, 14, 20). 
 
• Caracteres em branco só serão permitidos em variáveis alfanuméricas. 
 
Ex.: ‘JOSE CARLOS’ 
 
• Campos ou partes de campos podem ser relidos como uma nova 
variável; 
 
Ex.: INPUT NOME $ 1-8 ININOME $ 1; 
 
• Valores numéricos podem aparecer em qualquer posição do campo, 
podendo ser especificado sinais decimais ou ponto decimais. 
 
Ex.: INPUT PESO $ 1–6; 
 
 C A M P O S 
 1 2 3 4 5 6 
1 2 5 
2 2 5 . 
3 2 5 
4 2 5 . 5 
5 . 
 
Obs.: 1 - Não se usa ‘ , ’ (virgula) para separar a parte decimal e sim 
‘ . ‘ (ponto). Ex.: linhas 2 e 4 
 2 - Um campo em branco deverá ser representado por um ‘ . ‘ 
ponto (missing). Ex.: linha 5 
 
a.2) INPUT LISTADO 
 
O SAS procura pelos campos brancos até encontrar um caracter, então lê 
o campo até o próximo branco. 
 
Forma geral → INPUT lista de variáveis; 
 
Ex.: INPUT SEXO $ IDADE NOME $ PESO ALTURA; 
 
Restrições: • Todo o campo (var.) deve ser especificado em 
ordem. 
 • Campos devem ser separados por brancos. 
 • Não é permitido campos em branco e sim ‘ . ‘ . 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
8
Ex.: DATA CLASSE; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 
C A R L O S M 2 0 1 8 0 . 5 7 8 . 5 
J O S E M 1 8 1 7 5 7 0 . 8 
A N A F 1 7 1 6 5 . 6 6 2 . 5 
P A U L A F 2 1 1 6 8 5 5 
 
a.3) INPUT FORMATADO 
 
Especifica a posição e o tamanho do campo. 
 
Formato de Entrada: 
 
 W → Largura do campo numérico 
 W.d → Numérica com decimal 
 
Controle de posição: 
 
 @n → Vai para a coluna ‘n’. 
 +n → Move a posição ‘n’ posições. 
 
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 
J O S E M 2 0 1 8 0 . 5 7 8 . 5 
J O S E L U I S M 1 8 1 7 5 7 0 . 8 
A N A F 1 7 1 6 5 . 6 6 2 . 5 
A N A P A U L A F 2 1 1 6 8 5 5 
 
 
Ex.: INFILE ‘BANCO DADOS’; 
 INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1 
 ALTURA 5. +1 PESO 4.; 
 
 
Características do INPUT FORMATADO: 
 
• Variáveis e formatos de entrada podem ser agrupados separadamente 
com parênteses. 
 
 
Ex.: INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.); 
ou 
 INPUT (JAN FEV MAR ABR MAI) (3.); 
 
 
• Variáveis numeradas podem ser usadas para abreviar diversas variáveis 
relacionadas. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
9
 
Ex.: INPUT (MES1 MES2 MES3 MES4 MES5) (3.); 
 ou 
 INPUT (MES1-MES5) (3.); 
 
 
a.4) MISTURANDO TIPOS DE INPUT 
 
Os três tipos de INPUT vistos podem ser combinados (LISTADO, 
COLUNADO e FORMATADO) em um único comando INPUT. 
 
 
Ex.: DATA CLASSE; 
 INPUT NOME $ @11 SEXO $ 1. IDADE 13-14 
 ALTURA 16–19 @21 PESO 5.; 
 
 
a.5) OUTROS CONTROLADORES DE POSIÇÃO 
 
‘ / ‘ e ‘ # ‘ 
 
 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 
1 J O S E M 2 0 
 1 8 0 . 5 7 8 . 5 
2 J O S E L U I S M 1 8 
 1 7 5 7 0 . 8 
3 A N A F 1 7 
 1 6 5 . 6 6 2 . 5 
4 A N A P A U L A F 2 1 
 1 6 8 5 5 
 
 
Ex.: DATA CLASSE; 
 INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. / 
 ALTURA 5. PESO 7-10; 
ou 
 DATA CLASSE; 
 INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. 
 #2 ALTURA 1-5. PESO 7-10; 
 
 
Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicação ‘#‘ 
sempre precederá o nome da variável, logo dispensa-se informar 
a próxima linha, ou seja, a partir da variável altura as demais 
variáveis o SAS entende que pertencem ao segundo cartão do 
registro. 
2 - Quando estivermos nos referindo a uma data devemos após a 
variável colocar sua formatação (DT_NASC DDMMYY8. ). 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
10
5.3 Comandos que lêem e gravam arquivos SAS 
 
 
- SET 
 
O comando SET é usado para transferir dados de um arquivo SAS 
existente para um novo arquivo SAS. 
 
Todas as variáveis do arquivo SAS são passadas automaticamente para o 
novo arquivo SAS (a não ser que sejam direcionadas de outra maneira com 
comandos de programação). 
 
• Novas variáveis que se queira criar devem ser adicionadas com 
comandos de atribuição. 
 
 
Ex.: DATA NOVACLAS; 
 SET CLASSES; 
 ANO_NASC=91-IDADE; 
 PROC PRINT DATA=NOVACLAS; 
 
Obs.: No arquivo criado pelo comando SET possui uma variável nova 
ANO_NASC. 
 
• Como criamos uma variável nova ao gerar o arquivo NOVACLAS, 
podemos também excluir variáveis, com o comando DROP associado ao 
comando SET; 
 
 
Ex.: DATA NOVACLAS; 
 SET CLASSES; 
 DROP NOME SEXO; 
 PROC PRINT DATA=NOVACLAS; 
 
 
• O campo (variável) NOME é através dessa variável referenciada com o 
BY que fará a junção dos dois arquivos num só. Obviamente que os 
dois arquivos deverão estar em ordem por NOME. 
 
 
Ex.: DATA AMBOS; 
 SET HOMENS MULHERES; 
 BY NOME; 
 PROC PRINT; 
 TITLE ´RESULTADO DA CONCATENACAO´; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
11
 
HOMENS MULHERES 
 
OBS DEPT NOME SEXO OBS DEPT NOME SEXO 
1 213 Alvaro m 1 914 Eliane f 
2 917 Otto m 2 918 Lorena f 
3 916 Ricardo m 3 917 Sonia f 
4 914 Vitor m 
 
Resultado da Concatenação (SET) 
 
HOMENS+MULHERES 
 
OBS DEPT NOME SEXO 
1 213 Alvaro m 
2 914 Eliane f 
3 918 Lorena f 
4 917 Otto m 
5 916 Ricardo m 
6 917 Sonia f 
7 914 Vitor m 
 
⇒ Outra observação que se faz necessáriapara usar este comando com 
a finalidade de juntar (concatenando) dois ou mais arquivos, é que a 
estrutura dos arquivos sejam idênticas, ou seja, com mesmas variáveis. 
 
Podemos também selecionar observações na criação de um novo 
arquivo com o comando IF 
 
- MERGE 
 
O comando MERGE é usado para juntar observações de dois ou mais 
arquivos, colocando os mesmos um ao lado do outro. 
 
Algumas considerações: 
 
- Até 50 arquivos pode ser “mergeados” em um procedimento. 
 
- Os arquivos de entrada devem estar ordenados pela variável(eis) chaves 
se um comando BY é utilizado. 
 
- O arquivo resultante (saída) conterá todas as variáveis presentes nos 
arquivos de entrada a menos que o comando DROP ou qualquer outro 
de seleção tenha sido utilizado. 
- 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
12
 
Ex.: DATA JUNTA; 
 MERGE GERAL SALARIO; 
 PROC PRINT; 
 TITLE ´ARQUIVO MERGEADO´; 
 
 
GERAL SALÁRIO 
 
OBS DEPT NOME SEXO OBS NOME SAL_LIQ SAL_BRU 
1 917 Sonia f 1 Sonia 169.10 279.10 
2 918 Alvaro m 2 Alvaro 223.00 310.05 
3 917 Otto m 3 Otto 329.05 410.75 
4 914 Eliane f 4 Eliane 650.70 715.12 
5 916 Lorena f 5 Lorena 380.95 470.30 
 
 
“MERGEADO” 
 
OBS DEPT NOME SEXO SAL_LIQ SAL_BRU 
1 917 Sonia f 169.10 279.10 
2 918 Alvaro m 223.00 310.05 
3 917 Otto m 329.05 410.75 
4 914 Eliane f 650.70 715.12 
5 916 Lorena f 380.95 470.30 
 
Obs.: O comando BY não foi necessário ao “mergear” os arquivos porque 
a chave principal NOME nos dois arquivos estão na mesma ordem. 
Se não estivessem o comando BY seria necessário, assim como 
teríamos que classificar os arquivos através do comando SORT. 
 
- OUTPUT 
 
O comando OUTPUT pode ser usado para: 
 
→ Criar duas ou mais observações para cada linha de entrada. 
 
→ Combinar diversas observações a partir de uma única observação. 
 
→ Criar um arquivo SAS sem nenhum dado de entrada. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
13
 
Ex.: Criando quatro observações SAS de cada linha de entrada 
 
 
 DATA RECEITA; 
 INPUT ANO TRIM1 TRIM2 TRIM3 TRIM4; 
 TRIMESTRE=1; VENDAS=TRIM1; OUTPUT; 
 TRIMESTRE=2; VENDAS=TRIM2; OUTPUT; 
 TRIMESTRE=3; VENDAS=TRIM3; OUTPUT; 
 TRIMESTRE=4; VENDAS=TRIM4; OUTPUT; 
 CARDS; 
 1996 1.2 0.9 1.1 1.5 
 1997 1.7 1.9 2.4 2.5; 
 PROC PRINT; 
 TITLE ´RESULTADO DA EXECUCAO DO ARQUIVO RECEITA´; 
 RUN; 
 
 
SAÍDA 
 
ANO TRIM1 TRIM2 TRIM3 TRIM4 TRIMESTRE VENDAS 
1996 1.2 0.9 1.1 1.5 1 1.2 
1996 1.2 0.9 1.1 1.5 2 0.9 
1996 1.2 0.9 1.1 1.5 3 1.1 
1996 1.2 0.9 1.1 1.5 4 1.5 
1997 1.7 1.9 2.4 2.5 1 1.7 
1997 1.7 1.9 2.4 2.5 2 1.9 
1997 1.7 1.9 2.4 2.5 3 2.4 
1997 1.7 1.9 2.4 2.5 4 2.5 
 
 
5.4 Comandos que atuam sobre valores de dados 
 
 
- Criando variáveis 
 
Quando se cria nova variável, se está adicionando um novo grupo de 
valores de dados ao arquivo. 
 
Por exemplo, supondo que temos um arquivo com as seguintes variáveis: 
 
ALUNO NOTA1 NOTA2 NOTA3 
 
se quisermos criar uma nova variável chamada MEDIA devemos: 
 
MEDIA = (NOTA1 + NOTA2 + NOTA3)/3; 
 
Este comando informa para o SAS: 
 
• O sinal ‘ = ‘ significa atribua ao valor da esquerda o que se refere à esquerda. 
• Para cada observação (linha) do arquivo, some as três notas (variáveis) 
e divida por 3; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
14
 
• De o nome ao resultado obtido de MEDIA (nova variável). 
 
Obs.: As demais variáveis continuam disponíveis para posteriores 
cálculos. 
 
- Funções e expressões 
 
Operações aritméticas mais conhecidas: 
 
SÍMBOLO OPERAÇÃO EXEMPLO NO SAS 
] ] exponenciação Y = X2 Y = X ** 2 
] multiplicação A = B x C A = B * C 
/ divisão A = H / I A = H / I 
+ adição R = S + T R = S + T 
- subtração X = Z - W X = Z - W 
 
Outras funções numéricas: 
 
FUNÇÃO O que faz 
ABS Valor absoluto 
SQRT Raiz quadrada 
COS Cosseno 
SIN Seno 
ARCOS Arcosseno 
LOG Logaritmo neperiano (base e) 
LOG10 Logaritmo base 10 
SUM Soma 
MEAN Média aritmética 
VAR Variância 
MIN Valor mínimo 
MAX Valor máximo 
STD Desvio padrão 
ROUD Valor arredondado 
 
 
Ex.: X = 326.25; 
 Y = ROUND (X); RESULTADO ⇒ Y = 327 
(não está nas normas brasileiras) 
 Z = MIN (Y); 
 Z = MIN (of L – Y); 
 W = SQRT (A + B/C); 
 K = MEAN (IDADE); 
 K = MEAN (of V1 – V7); 
 SOMA= SUM (of V1 – V10); 
 
5.5 Comandos de Informação 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
15
 
- DROP 
 
O comando DROP exclui a variável ou variáveis indicadas, da análise em 
questão; 
 
O comando DROP é válido no DATA e nas PROCs. Não é um comando 
executável, fornece a informação ao SAS quando o comando é compilado. 
 
O comando DROP poderá ser escrito em qualquer posição. 
 
Ex.: DROP IDADE SEXO; 
 
⇒ O comando DROP retira a variável, portanto, todos os valores de 
IDADE e SEXO são desconsiderados (coluna). 
 
- TITLE 
 
O comando TITLE define cabeçalhos a serem impressos no topo das 
páginas de saída. Até dez títulos poderão ser especificados. 
 
Forma Geral → TITLEn ´t i t u l o´; 
 
n = número da linhas do título. 
 
Ex.: TITLE1 ´ Levantamento Sócio-econômico; 
 TITLE2 ´ da´; 
 TITLE3 ´Populacao Periferica de Santa Maria´; 
 
- FOOTNOTE 
 
Define o texto a ser impresso no rodapé das páginas de saída. A sintaxe é 
a mesma do comando TITLE. 
 
Ex.: FOOTNOTE ´Departamento de Estatística - UFSM´; 
 
- LABEL 
 
O comando LABEL é usado para atribuir rótulos (nomes) descritivos de 
até 40 caracteres. 
 
Rótulos podem ser atribuídos temporariamente para a duração de apenas 
um processamento, ou permanente definido no primeiro DATA. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
16
 
Ex1.: DATA CLASSES; 
 INPUT NOME $ 8. SEXO $ 11 IDADE 13-14 
 ALT 13-19 PESO 21-25; 
 CARDS; 
 Linha de Dados; 
 PROC MEANS; 
 VAR ALT PESO; 
 LABEL ALT=’ALTURA EM POLEGADAS’ 
 PESO=’PESO EM LIBRAS’; 
 TITLE ‘ESTATISTICAS DAS ALTURAS E DOS PESOS’; 
 RUN; 
 
 
 
 
Ex2.: DATA CLASSES; 
 INPUT V1 – V3; 
 LABEL V1=’NÚMERO DE ALUNOS’ 
 V2=’CURSO’ 
 V3=’SEXO’; 
 CARDS; 
 
 
- COMMENT 
 
O comando COMMENT serve para documentar. Pode ser usado em 
qualquer parte do programa. 
 
Início (/*) Fim (*/) 
 
 
Ex.: DATA EMPREGO; 
 INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; 
 /* CALCULO DO INSS */ 
 INPS = SAL * .12; 
 IF DEPTO=201 THEN 
 DO; 
 DEPTO=´VENDA´; 
 COM=VENDA*.10; 
 /* CALCULO DO SALARIO BRUTO*/ 
 SAL_BRUTO=COM+SAL; 
 /* CALCULO DO DESCONTO */ 
 DESC=INPS + SEG; 
 /* CALCULO DO SALARIO LIQUIDO */ 
 SAL_LIQ=SAL_BRUTO - DESC; 
 END; 
 CARDS; 
 
Obs.: Este comando também poderá cancelar uma determinada operação 
temporariamente; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
17
 
- FORMAT 
 
O comando FORMAT é usado para especificar os formatos para valores 
dos dados. 
 
Os formatos podem ser definidos apenas para a apuração de uma 
“procedure – PROC”. 
 
 
Ex.: DATA CLASSE; 
 INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO; 
 CARDS; 
 ... 
 ... 
 ; 
 PROC FORMAT; 
 VALUE SEX 1 = ‘MASCULINO’; 
 2 = ‘FEMININO’; 
 PROC PRINT; 
 FORMAT SEXO SEX.; 
 TITLE ’USANDO O COMANDO FORMAT’; 
 RUN; 
 
 
5.6 Comandos que controlam o fluxo lógico de programação 
 
 
- IF (THEN / ELSE) 
 
Algumas vezes necessita-se trabalhar com parte dos dados, não todos. 
Por exemplo suponhamos que se queira analisar somente o sexo masculino. O 
comando IF pode ser usado para esta seleção. 
 
 
Ex.: DATA A1; 
 INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO; 
 IF SEXO=M; 
 CARDS; 
 Linha de Dados; 
 
 
O SAS lê cada observação e verifica se o SEXO é “M” (masculino), caso 
contrário nova observação será lida.⇒ A condição IF poderá ser Verdadeira (THEN) ou Falsa (ELSE). 
 
⇒ A condição IF também pode ser uma simples comparação de uma 
variável ou valor. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
18
 
Ex.: IF ALTURA < 172 THEN DELETE; 
 
 IF PRETEST < TESTE THEN RESULT=´SIM´; 
 ELSE RESULT=´NÃO´; 
 
 
Principais operadores de comparação: 
 
Símbolo Abreviatura Comparação 
< LT Menor que 
≤ LE Menor que ou igual a 
> GT Maior que 
≥ GE Maior que ou igual a 
= EQ Igual 
≠ NE Diferente 
 
Principais operadores lógicos: 
 
Símbolo Comparação 
OR Um ou outro 
AND E, ambos 
NOT Não, negação 
 
⇒ A condição IF pode envolver comparações de ANDs e de ORs. 
 
 
 
Ex.: IF ESTADO=´RS´ AND CIDADE=´SANTA_MARIA’ 
THEN REGIAO=´SUL´; 
 
 IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50 
 THEN LIST; 
 
 IF RESULT=68 THEN RESP=´CERTO´; 
 ELSE RESP=´ERRADO´; 
 
 
• Usando o comando IF com melhor aproveitamento: 
 
IF CODIGO=1 THEN RESPOSTA=´BOM´; 
 ELSE 
 IF CODIGO=2 THEN RESPOSTA=´REGULAR´; 
 ELSE 
 IF CODIGO=3 THEN RESPOSTA=´RUIM´; 
 
 
• Uso do comando DO e END associado ao comando IF: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
19
 
O comando DO especifica que todos os comandos entre ele e o comando 
END devem ser executados; 
 
 
Ex.: DATA EMPREGO; 
INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 
VENDA 25-29; 
INPS = SAL * .12; 
IF DEPTO=201 THEN 
DO; 
DEPTO=´VENDA´; 
COM=VENDA*.10; 
SAL_BRUTO=COM+SAL; 
SEG=SAL_BRUTO*.001; 
DESC=INPS + SEG; 
SAL_LIQ=SAL_BRUTO - DESC; 
END; 
ELSE DO; 
DPTO=´ADMIN´; 
SAL_LIQ=SAL - INPS; 
CARDS; 
Linha de Dados; 
 
 
- DELETE 
 
Quando se quer descartar uma observação., por ela conter um valor não 
válido para a análise que se esta tratando usa-se o comando DELETE; 
 
Quando este comando é carregado o SAS para de trabalhar na 
observação corrente, não adicionando ao arquivo SAS que esta sendo criado, e 
começa imediatamente na observação seguinte. 
 
O comando DELETE normalmente aparece com parte de um comando IF. 
 
Ex.: IF SEXO=´F´ THEN DELETE; 
 
 IF SEXO=´F´ THEN IDADE LE 14 THEN DELETE; 
 
 
⇒ O comando DELETE retira toda a observação do arquivo, logo 
aconselha-se colocá-lo dentro de uma rotina “DATA SET”; 
 
Ex.: DATA A1; SET A; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
20
6 PRINCIPAIS “PROCEDURES” - PROCs 
 
 
6.1 PROC SORT 
 
 
Função: Quando se precisa ordenar os dados. 
 
A ordem das observações não importa muito para o processamento 
estatístico, por exemplo para calcular a média da ALTURA dos alunos por SEXO, 
a ordem como estão as observações não importa. Porém necessita-se LISTAR as 
observações por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por 
SET, as observações terão que estar ordenadas (SORT). Por exemplo se 
quisermos combinar as informações do estudo de ALTURA e PESO deste ano 
com as dos anos anteriores ambos os arquivos deverão ser ordenados. 
 
• A ordenação é a arrumação das observações de um arquivo em ordem 
determinada pelos valores de uma ou mais variáveis indicados no 
comando BY (POR). 
 
• Para ordenar-se um arquivo usa-se a “procedure” PROC SORT seguida 
do comando BY que indicará a variável pela qual o arquivo será 
ordenado. 
 
 
Ex.: PROC SORT DATA=TESTE; 
 BY NOME; 
 
 
Suponha que temos um arquivo chamado PESQUISA e que queremos 
ordená-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente 
por NOME de cada cidade. 
 
 
Ex.: PROC SORT; BY PESQUISA; 
 BY ESTADO CIDADE NOME; 
 
 
Obs.: A ordenação vista até aqui foi feita em cima do próprio arquivo 
(PESQUISA). Se não desejar que isso aconteça use o comando 
OUT. 
 
 
Ex.: PROC SORT; BY PESQUISA; 
 OUT = NOVO; 
 BY ESTADO CIDADE NOME; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
21
• Os registros após a ordenação estarão gravados no arquivo chamado 
NOVO e no arquivo PESQUISA continuam desordenados. 
 
Obs.: Existem outros tipos de rotinas de programação usando o PROC 
SORT, onde poderemos incluir outras PROCs dentro dela. 
 
 
 Ex.: PROC SORT; BY SEXO; 
 PROC FREQ; 
 TABLES V1 V2 V3 /LIST; 
 PROC UNIVARIATE; 
 VAR V1 V2 V3; 
 PROC COR; 
 VAR V1; 
 WITH V2 V3; 
 
 
 
6.2 PROC PRINT 
 
 
Este “procedure” serve para imprimir (listar) seus dados no relatório. 
 
Ex.: Listar ALTURA e PESO dos homens separado das mulheres 
 
 INPUT SEXO $ ALTURA PESO; 
 CARDS; 
 Linha de Dados; 
 PROC PRINT; BY SEXO; 
 
 
Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar 
o DATA, a impressão será do último DATA referenciado. 
 
2 - O PROC PRINT imprime todos os dados, se for seguido do 
comando VAR imprimirá somente as variáveis selecionadas no 
comando VAR. 
 
 Ex.: PROC PRINT DATA=TESTE; 
 VAR NOME IDADE ALTURA; 
 
3 – O comando PROC PRINT poderá listar em função de um valor 
de uma determinada variável 
 
 Ex.: PROC PRINT DATA=TESTE; 
 VAR NOME IDADE ALTURA; 
 WHERE SEXO=M; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
22
6.3 PROC FORMAT 
 
 
O procedimento FORMAT é usado para criar formatos definidos pelos 
usuários. 
 
Comando usado no PROC FORMAT → VALUE 
 
VALUE NOME VALOR = ´DESCRIÇÃO´; 
 
O NOME obedece as mesmas regras usadas para variáveis (8 
caracteres), pois não deixa de ser uma nova variável selecionada. 
 
A DESCRIÇÃO terá tamanho máximo de 40 caracteres e deverá ser 
incluída entre aspas (´ ´). 
 
 
Ex.: PROC FORMAT; 
 VALUE FAIXAS LOW-12 = ´CRIANCA´ 
 13-19 = ´JOVEM´ 
 20-HIGH = ´ADULTO´; 
 
 VALUE $SEX F = ‘FEMININO’ 
 M = ‘MASCULINO’; 
 
 
 
Obs.: LOW = Lowest → (do menor valor) 
 HIGH = Highest → (ao maior valor) 
 
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 ... 
 ... 
 PROC FORMAT; 
 VALUE FAIXAS LOW-12 = ´CRIANCA´ 
 13-19 = ´JOVEM´ 
 20-HIGH = ´ADULTO´; 
 VALUE $SEX F = ‘FEMININO’ 
 M = ‘MASCULINO’; 
 PROC PRINT; 
 FORMAT IDADE FAIXAS. SEXO $SEX.; 
 RUN; 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
23
6.4 PROC FREQ 
 
 
O procedimento FREQ será útil para variáveis discretas e qualitativas. 
Para as variáveis contínuas aconselha-se usar o PROC UNIVARIATE ou PROC 
MEANS, pois este tipo de variável possui muitos valores diferentes. 
 
Outro benefício que a tabela de freqüência ou tabulação cruzada oferece 
é poder sumarizar variáveis caracteres, porque somente variáveis numéricas 
podem ser sumarizadas por estatísticas como média e desvio padrão. 
 
- Tabelas de Freqüência Simples 
 
Este tipo de tabela poderá ajudar a sumarização dos dados. Mostrar as 
distribuição dos valores das variáveis, podendo-se verificar quantas observações 
tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19 
anos e assim por diante. 
 
Para obter as Tabelas de Freqüências Simples das variáveis que 
interessam usa-se o comando TABLES com a relação das mesmas. 
 
 
Ex.: PROC FREQ; 
 TABLES IDADE PESO ALTURA; 
ou 
 PROC FREQ; 
 TABLES IDADE PESO ALTURA /LIST; 
 
 
Podemos utilizar o comando FORMAT: 
 
 
Ex.: PROC FREQ; 
 TABLES IDADE /LIST; 
 FORMAT IDADE FAIXAS.; 
 TABLES SEXO /LIST; 
 FORMAT SEXO SEXOV.; 
 
 
Com o uso do comando FORMAT na tabela de freqüência para as 
variáveis IDADE e SEXO teremos no relatório a DESCRIÇÃO para cada valor. 
 
- Tabelas de Freqüência Cruzada 
 
A tabela de freqüência cruzada mostra a união da distribuição de valores 
de duas ou mais variáveis. Por exemplo, queremos saber quantas mulheres com 
19 anos temos no arquivo estudado. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
24
Para obter-mos a resposta devemos cruzar asduas variáveis: IDADE e 
SEXO. 
 
 
Ex.: PROC FREQ; 
 TABLES IDADE*SEXO /LIST; 
ou 
PROC FREQ; 
 TABLES IDADE*SEXO /LIST; 
 FORMAT IDADE FAIXAS. SEXO SEXOV.; 
 
 
Aconselha-se usar o comando /LIST para facilitar a visualização da tabela 
cruzada. Este comando também será aconselhado quando quisermos cruzar mais 
de duas variáveis. 
 
 
Ex.: PROC FREQ; 
 TABLES SEXO*IDADE*PESO /LIST; 
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 ... 
 PROC FREQ; 
 TABLES SEXO*(IDADE--PESO) /LIST /*(I até P)*/ 
 TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/ 
 RUN; 
 
 
6.5 PROC MEANS 
 
 
Suponhamos que no arquivo que se está estudando possua valores para 
a variável PESO. Pode-se obter um quadro completo desses pesos pela simples 
listagem dos mesmos (PROC FREQ). Mas isso significa que teríamos que olhar e 
analisar todos os valores. 
 
O PROC MEANS sumariza todos os valores para computar a média. 
Então teremos como resultado um único valor representativo para todo o grupo. 
 
O PROC MEANS fornece outras estatísticas como: 
 
- Número de Observações - Erro padrão 
- Média - Variância 
- Desvio Padrão - Coeficiente de variação 
- Valor Mínimo e Máximo 
Chico
Realce
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
25
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 PROC MEANS; 
 VAR IDADE ALTURA PESO; 
 RUN; 
 
 
Usando o comando BY 
 
Podemos obter estatísticas sumarizadas por grupos de dados associados 
ao comando BY. Por exemplo queremos calcular as estatísticas para as mesmas 
variáveis do exemplo acima só que por SEXO. 
 
Obs.: Antes de usar o comando BY para qualquer “procedure” SAS, o arquivo 
deverá ser ordenado pelas variáveis a serem usadas pelo comando BY. 
 
 
Ex.: DATA A1; 
 INPUT NOME $ SEXO $ IDADE ALTURA PESO; 
 CARDS; 
 Lista de Dados; 
 PROC SORT; BY SEXO; 
 PROC MEANS; BY SEXO; 
 VAR IDADE ALTURA PESO; 
 RUN; 
 
 
Obs.: Valores não informados (representados por um ponto ‘ . ‘) não serão 
incluídos no cálculo da PROC MEANS. 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
26
SAS/STAT 
 
Pré requisito: Ter conhecimento de Estatística Básica. 
 
 Ter conhecimento do SAS/BASIC; 
 
Objetivo: 
 
Este curso tem por objetivo expor alguns conceitos estatísticos e 
interpretá-los através da utilização de procedimentos do Sistema SAS. Os 
exemplos apresentados ilustram características da “release” 6.08 do SAS/STAT e 
orientam o usuário na sua programação quando seu interesse for: 
 
Obter estatísticas descritivas elementares; 
 
9 Desempenhar testes estatísticos de significância para verificar a 
normalidade da distribuição de seus dados; 
 
9 Testar a igualdade de médias entre grupos de observações; 
 
9 Encontrar um modelo que explique o comportamento de seus dados e, 
através deste modelo, fazer previsões e calcular intervalos de 
confiança para parâmetros da população em estudo. 
 
9 Analisar a variabilidade de uma série de dados através do Método de 
Análise de Variância (ANOVA), critério de tomada de decisões 
estatisticamente formulado para detectar qualquer diferença no 
desempenho médio de um ensaio experimental. 
 
Os conceitos básicos serão abordados a medida que os procedimentos 
forem sendo utilizados, assim como a interpretação das principais saídas. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
27
7 ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE 
 
7.1 Introdução 
 
Depois que o usuário cria seu arquivo de dados ele pode desejar 
sumarizar estes dados através de medidas que descrevam seu comportamento. 
Estas medidas incluem parâmetros de posição como médias, modas, medianas, 
quartis e percentis, parâmetros de dispersão, como variâncias, desvios padrões, 
amplitude (range), e parâmetros que auxiliam na descrição da forma dos dados, 
como assimetria e curtose (ver anexo 2). 
 
Nos problemas que envolvem a Estatística Indutiva, os conjuntos de 
dados analisados são representados por amostras retiradas das populações de 
interesse. Sendo as amostras aleatórias, todos os seus elementos fornecerão 
valores aleatórios da variável em análise. Para caracterizar a distribuição dos 
diversos valores assumidos por uma variável aleatória, o conceito de distribuição 
de probabilidades deve ser utilizado e estendido às populações, ou seja, cada 
valor da amostra deve ser considerado como valor de uma variável aleatória cuja 
distribuição de probabilidade é a mesma da população no instante da retirada 
desse elemento da amostra. Os valores calculados em função dos elementos da 
amostra, denominam-se estatísticas. Se estas estatísticas forem utilizadas para 
inferir informações a respeito de uma população, elas são consideradas como 
variáveis aleatórias, e terão, portanto uma distribuição de probabilidades, com 
uma média, uma variância, etc. Muitos métodos da análise estatística assumem 
que os dados da amostra provém de uma população com distribuição normal. A 
distribuição normal tem uma definição matemática precisa, com as seguintes 
características: 
 
- ser completamente definida por sua média e seu desvio padrão. 
 
- ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que 
por sua vez coincide com sua mediana. 
 
- ser uma distribuição regular. Do seu ponto central mais alto até suas 
extremidades não existe padrões irregulares. 
 
- ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição). 
 
7.2 Teste de normalidade 
 
Nos testes de normalidade é estabelecida a idéia de que uma amostra 
provém de uma distribuição normal. Através da amostra uma estatística é 
calculada e testada para checar essa idéia. Uma comparação é feita entre a 
forma da distribuição da amostra, com a forma de uma distribuição normal. Se 
não for encontrada nenhuma evidência para rejeitar a hipótese de normalidade, 
prossegue-se as análises baseando-se na suposição de que os dados da amostra 
são normalmente distribuídos (análise paramétrica). Quando os dados não são 
gerados por uma distribuição normal, a análise deve ser baseada em métodos 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
28
não paramétricos. A distribuição normal é simétrica, com os valores distribuídos 
em forma de sino. 
 
Ao desempenhar um teste de hipótese tem-se sempre uma hipótese 
nula que descreve uma idéia sobre a população, e uma hipótese alternativa, que 
descreve uma idéia alternativa sobre a população. 
 
Nos testes para a normalidade, a hipótese nula é que os dados da 
amostra são gerados por uma distribuição normal. A hipótese alternativa é que 
eles são gerados por uma distribuição não normal. O método utilizado para testar 
hipóteses consiste num conteúdo de decisão onde a probabilidade de rejeitar a 
hipótese nula, sendo ela verdadeira (erro do tipo I), não excede um valor pré-
fixado chamado de nível de significância α do teste. Ao menor nível de 
significância para o qual a hipótese nula é rejeitada denominamos probabilidade 
de significância (p-valor). Se p-valor > α há evidências de que a hipótese nula é 
verdadeira. 
 
A PROC UNIVARIATE é utilizada para a obtenção de estatísticas 
descritivas. Ela difere de outros procedimentos SAS por fornecer maiores 
detalhes das variáveis, tais como plots das distribuições, tabelas de freqüência e 
testes estatísticos para a normalidade. 
 
FORMA GERAL: 
 
PROC UNIVARIATE DATA = arquivo de dados opções; 
 VAR variáveis; 
 BY variáveis; 
 FREQ variável; 
 ID variáveis; 
OUTPUT OUT = arquivo de dados palavra-chave = nomes; 
 
OPÇÕES DISPONÍVEIS: 
 
FREQ gera uma tabela de freqüência com valores de freqüência, 
percentagens e percentagens acumuladas. 
 
NOPRINT suprime toda a informação do OUTPUT.Esta opção é utilizada 
geralmente na criação de um arquivo de dados de saída. 
 
NORMAL desempenha um teste para a hipótese nula de que os dados provém 
de uma distribuição normal. Dependendo do tamanho da amostra, o 
teste utilizado será baseado na estatística de Shapiro-Wilk (N<2000) 
ou na estatística de Kolmogorov’s D. (N>2000). 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
29
PLOT produz plotes de probabilidade da distribuição normal e plotes em 
“box” que auxiliam na determinação da forma da distribuição dos 
dados investigados. 
 
COMANDOS SELECIONADOS: 
 
VAR lista as variáveis a serem sumarizadas no arquivo de dados. 
 
BY especifica subgrupos onde as estatísticas devem ser obtidas. Para 
usar este comando o arquivo já deverá estar ordenado pela variável 
de subgrupo . 
 
FREQ especifica variáveis de freqüência. 
 
ID especifica as variáveis que irão identificar os valores extremos. 
 
OUTPUT OUT cria arquivo de saída que irá gravar as estatísticas geradas. 
 
 
Estatísticas reservadas utilizadas na criação de um arquivo de saída: 
 
N NMISS Prob T 
MEAN VAR KURTOSIS 
STDMEAN CV MEDIAN 
SUM RANGE 
STD SKEWNESS 
 
Ex1.: Resultados obtidos de uma distribuição aproximadamente Normal. 
 
Para ilustrar, suponha que estejamos analisando uma amostra. No 
programa SAS abaixo, a idade de cada pessoa está sendo representada pela 
variável IDADE, e sua identificação pela variável IDENT. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA NORM A; /* EXEMPL01 SAS */ 
INPUT IDENT IDADE @@; 
CARDS; 
1 72 2 69 3 75 4 71 5 71 6 73 
7 70 8 67 9 71 10 72 11 73 12 68 
13 69 14 70 15 70 16 71 17 74 18 72 
; 
PROC UNIVARIATE NORMAL PLOT FREQ; 
 VAR IDADE; 
 ID IDENT; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
30
ANÁLISE DOS RESULTADOS: 
 
Univariate Procedure 
 
Variable=IDADE 
 
Moments 
 
 N 18 Sum Wgts 18 
 Mean 71 Sum 1278 
 Std Dev 2.057983 Variance 4.235294 
 Skewness 0 Kurtosis -0.13576 
 USS 90810 CSS 72 
 CV 2.898568 Std Mean 0.485071 
 T:Mean=0 146.3702 Pr>|T| 0.0001 
 Num ^= 0 18 Num > 0 18 
 M(Sign) 9 Pr>=|M| 0.0001 
 Sgn Rank 85.5 Pr>=|S| 0.0001 
 W:Normal 0.98356 Pr<W 0.9666 
 
A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste 
para normalidade. O valor zero de assimetria traduz a forma simétrica da 
distribuição. A estatística de curtose de -0.13576 significa que a distribuição de 
valores é relativamente achatada. O alto p-valor associado ao teste de 
normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se 
obtenha este mesmo resultado se os dados fossem oriundos de uma população 
Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em 
geral, rejeita-se a hipótese nula de normalidade dos dados somente quando o p-
valor for menor que 0.05 . 
 
Os quartis, percentis, a moda da distribuição, e os valores extremos estão 
relacionados a seguir: 
 
Quantiles(Def=5) 
 
 100% Max 75 99% 75 
 75% Q3 72 95% 75 
 50% Med 71 90% 74 
 25% Q1 70 10% 68 
 0% Min 67 5% 67 
 1% 67 
 Range 8 
 Q3-Q1 2 
 Mode 71 
 
Extremes 
 
 Lowest ID Highest ID 
 67( 8) 72( 18) 
 68( 12) 73( 6) 
 69( 13) 73( 11) 
 69( 2) 74( 17) 
 70( 15) 75( 3) 
 
O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados. 
Entre estes plotes e o ‘boxplot’, há uma coluna que fornece a freqüência de 
observações em cada barra. O box plote indica o 25o e 75o percentil. A linha 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
31
central indica a mediana (50o percentil). O sinal de (+) indica a média da 
distribuição, que está coincidindo com a mediana. 
 
 
 Stem Leaf # Boxplot 
 75 0 1 | 
 74 0 1 | 
 73 00 2 | 
 72 000 3 +-----+ 
 71 0000 4 *--+--* 
 70 000 3 +-----+ 
 69 00 2 | 
 68 0 1 | 
 67 0 1 | 
 ----+----+----+----+ 
 
O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+) 
formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra é 
gerada por uma distribuição normal, os asteriscos devem formar uma linha reta e 
cobrir a maioria dos sinais positivos. A distribuição amostral aproxima-se da 
normalidade. 
 
Univariate Procedure 
 
Variable=IDADE 
 
 Normal Probability Plot 
 75.5+ * +++++ 
 | * +++++ 
 | * +*+++ 
 | **+*++ 
 71.5+ **+**++ 
 | * **+++ 
 | * +*+++ 
 | +*+++ 
 67.5+ +*+++ 
 +----+----+----+----+----+----+----+----+----+----+ 
 -2 -1 0 +1 +2 
 
f(+) = 71 + 2.05 IDADE 
 
A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de 
distribuição de freqüência onde o número de ocorrências de cada valor da variável 
IDADE é contabilizado juntamente com os percentuais e percentuais acumulados 
de ocorrência em cada categoria. 
 
Frequency Table 
 
 Percents Percents 
 Value Count Cell Cum Value Count Cell Cum 
 67 1 5.6 5.6 72 3 16.7 77.8 
 68 1 5.6 11.1 73 2 11.1 88.9 
 69 2 11.1 22.2 74 1 5.6 94.4 
 70 3 16.7 38.9 75 1 5.6 100.0 
 71 4 22.2 61.1 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
32
8 - ANÁLISE DE CORRELAÇÃO E REGRESSÃO 
 
 
8.1 Introdução 
 
 
Existem numerosos procedimentos estatísticos para investigar 
relacionamentos bivariados (entre somente duas variáveis). Estes procedimentos 
podem fornecer um teste estatístico de significância, uma medida de associação, 
ou ambos. O teste estatístico objetiva testar hipóteses sobre o grau de 
relacionamento entre variáveisna população. Por exemplo, o coeficiente de 
correlação de Pearson. Num estudo para se testar a hipótese nula de que a 
correlação entre duas variáveis é zero na população, uma amostra de 200 
observações determinou um coeficiente de correlação entre duas variáveis de 
0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade 
de significância de 0.001. Este p-valor sugere que existe menos que uma chance 
em 1000 de se obter um valor igual ou superior à 0.35, para correlação amostral, 
se a hipótese nula fosse verdadeira. Rejeita-se portanto a hipótese nula, 
concluindo-se que a correlação é significativamente diferente de zero na 
população. 
 
A escolha apropriada da estatística a ser usada no estudo do 
relacionamento entre duas variável irá depender da natureza delas. Atenção 
particular deve ser dada aos níveis de medidas usados para avaliar as duas 
variáveis. Uma breve discussão à este respeito é feita a seguir. 
 
Uma variável medida numa escala nominal representa classes que 
indicam o grupo ao qual pertence uma determinada observação. Por exemplo, 
SEXO é uma variável que está numa escala nominal. Uma observação pode ser 
classificada como sendo da classe "masculino" ou da classe "feminino". 
 
Uma variável medida numa escala ordinal representa valores num “rank” 
ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma 
fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado 
com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este “rank” de 
valores são ditos ordinais. Escalas ordinais de valores porém possuem uma 
limitação: iguais diferenças na escala de valores não tem necessariamente o 
mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade 
verbal entre um aluno com grau 1 e um aluno com grau 2 não é necessariamente 
a mesma diferença existente entre as habilidades de um aluno com grau 2 e um 
com grau 3. 
 
Uma variável medida numa escala de intervalo significa que iguais 
diferenças entre valores da escala tem igual significado quantitativo. Um exemplo 
é a escala Fahrenheit de medição de temperatura. A diferença entre 70 e 75 
graus é igual a diferença entre 75 e 80 graus. As unidades de medidas são iguais 
através de todo o range da escala. A limitação existente nesta escala é que não 
existe um ponto zero real, ou seja, o zero da distribuição de temperaturas não 
indica que não haja nenhum calor presente no ambiente. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
33
 
Uma variável medida numa escala de razão é aquela que iguais 
diferenças entre valores da escala tem igual significado quantitativo. Neste caso, 
além deste fato, é possível interpretar a razão entre os valores da escala. Um 
valor para peso igual à zero indica nenhum peso corporal. Com isto, é possível 
estabelecer que o peso de uma criança com 20 Kg é o dobro de peso de uma 
criança com 10 kg . 
 
A tabela a seguir identifica as estatísticas apropriadas para avaliar o 
relacionamento de pares de variáveis nos seus respectivos níveis de medida. 
 
TABELA COM ESTATÍSTICAS APROPRIADAS 
 
 
 PREDITORA (INDEPENDENTE) – Xi 
 Nominal Ordinal Intervalo Razão 
R 
E 
Razão ANOVA Spearman Pearson ou 
Spearman 
Pearson ou 
Spearman 
S 
P 
Intervalo ANOVA Spearman Pearson ou 
Spearman 
-------- 
O 
S 
Ordinal Kruskal 
Wallis 
Spearman --------- -------- 
T 
A 
Nominal Chi-quadrado --------- --------- -------- 
 
8.2 Correlação de Pearson (PROC CORR) 
 
O estudo de medidas de associação reflete o grau da intensidade da 
relação entre variáveis. Se X e Y representam duas variáveis, ambas acessadas 
na escala de intervalo ou de razão, o diagrama de dispersão irá mostrar a 
localização dos pontos (x , y) em um sistema de coordenadas retangulares. Se os 
pontos desse diagrama se distribuírem nas proximidades de uma reta, como nas 
figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os pontos 
se distribuírem próximos de alguma curva, a correlação é denominada não linear, 
como pode ser visto na figura (C). Quando os pontos não apresentam nenhuma 
forma definida, figura (D), diz-se que as variáveis x e y são não correlacionadas. 
Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento 
entre duas variáveis com relacionamento não linear, ele normalmente subestima o 
verdadeiro valor. Por esta razão é sempre prudente avaliar primeiro o diagrama 
de dispersão para as variáveis, usando para isso a PROC PLOT, que tem a 
seguinte forma geral: 
 
PROC PLOT DATA= ARQSAS; 
PLOT Y*X; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
34
 
 
 
 
Para o tratamento quantitativo do problema da dispersão dos dados 
amostrais é necessário estabelecer medidas de correlação. O coeficiente de 
correlação de Pearson, simbolizado por “r”, será utilizado para medir o 
relacionamento entre duas variáveis que estejam na escala de intervalo ou de 
razão. Outra consideração a ser feita ao usar esta medida de associação, é que 
ambas as amostras tenham sido retiradas de uma população Normal. Caso 
contrário, uma medida de associação não paramétrica deverá ser usada, tal como 
o coeficiente de correlação de Spearman. 
 
O range de “r” varia de -1 a 1. Se “r” for um valor próximo de 1 significa 
que as duas variáveis são correlacionadas positivamente, se for próximo de -1, 
significa que as variáveis são correlacionadas negativamente. Valores de “r” 
próximos de zero correspondem a uma dispersão de pontos que não mostra nem 
uma tendência crescente, nem decrescente, indicando uma baixa correlação 
entre as variáveis. 
 
PROC CORR 
 
A “procedure” CORR é utilizada para gerar coeficientes de correlação. 
Quando é utilizada sozinha, ela obtém coeficientes de Pearson para todas as 
variáveis numéricas do arquivo, além de estatísticas básicas como médias e 
desvios padrões da distribuição de dados. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
35
Outros coeficientes de correlacão podem ser obtidos como opção da 
PROC CORR. São eles: Kendall, Hoeffding e Spearman, que são medidas não 
paramétricas de associação . 
 
FORMA GERAL: 
 
PROC CORR opções; 
 VAR variáveis; 
 WITH variáveis; 
 FREQ variáveis; 
 BY variáveis; 
RUN; 
 
OPÇÕES DISPONÍVEIS: 
 
DATA= arquivo.sas arquivo com os dados a serem analisados. 
 
OUTP= arquivo.sas arquivo de saída - Pearson 
 
OUTS= arquivo.sas arquivo de saída - Sperman 
 
OUTK= arquivo.sas arquivo de saída - Kendall 
 
OUTH = arquivo.sas arquivo de saída - Hoeffding 
 
NOSIMPLE suprime a impressão das estatísticas descritivas 
básicas. 
 
COMANDOS DISPONÍVEIS: 
 
VAR variáveis especifica as variáveis a serem correlacionadas 
 
WITH variáveis especifica as variáveis que devem aparecer na lateral 
da matriz de correlação. 
 
FREQ variável especifica variáveis de freqüência 
 
BY variáveis especifica subgrupos onde a correlação deve ser 
obtida. Para usar o comando BY, o arquivo já deve 
estar ordenado pela variável de subgrupo. 
 
Ex2.: O tempo necessário para um trem parar depois que percebe um perigo é 
composto de tempo de reação e tempo de freagem. A variável DIST 
representa a distância de parada de um trem que está a uma velocidade 
VELOC no instante que o perigo é avistado. Analise o diagrama de 
dispersão e determine o coeficiente de correlação entre as duas variáveis. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
36
OPTIONS FORMDLIM='*' LS=80; 
DATA PERIGO A; /* EXEMPL02 SAS */ 
INPUT VELOC DIST @@; 
CARDS; 
20 54 
30 90 
40 138 
50 206 
60 292 
70 396 
; 
PROC PLOT; 
 PLOT DIST*VELOC; 
PROC CORR; 
 VAR VELOC DIST; 
TITLE 'CORRELAÇAO ENTRE VELOCIDADE E DISTANCIA DE PARADA'; 
RUN; 
 
ANÁLISE DOS RESULTADOS:Plot of DIST*VELOC. Legend: A = 1 obs, B = 2 obs, etc. 
 
DIST | 
 | 
 400 + A 
 | 
 | 
 | A 
 | 
 | 
 200 + A 
 | 
 | A 
 | A 
 | A 
 | 
 0 + 
 --+-------------+-------------+-------------+-------------+-------- 
 20 30 40 50 60 70 
 
 VELOC 
 
O diagrama de dispersão ostra claramente uma tendência crescente da 
distribuição dos dados, ou seja, aumentando-se a velocidade do trem, aumenta-
se a distância de parada. 
 
CORRELACAO ENTRE VELOCIDADE E DISTANCIA DE PARADA 
 
Correlation Analysis 
 
2 'VAR' Variables: VELOC DIST 
 
 
Simple Statistics 
 
Variable N Mean Std Dev Sum Minimum Maximum 
 
VELOC 6 45.00000 18.70829 270.00000 20.00000 70.00000 
DIST 6 196.00000 129.67652 1176 54.00000 396.00000 
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6 
 
 VELOC DIST 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
37
 VELOC 1.00000 0.98268 
 0.0 0.0004 
 
 DIST 0.98268 1.00000 
 0.0004 0.0 
 
O valor de 0.98268 mede o coeficiente de correlação entre as variáveis VELOC e 
DIST. Um p-valor de 0.0004 indica uma forte evidência que a correlação é não 
nula. O p-valor é a probabilidade de significância para se testar a hipótese de que 
a verdadeira correlação da população em questão é zero. 
 
Ex3.: Determinar o coeficiente de correlação entre as alturas e os pesos de 300 
homens nos EUA, constantes da seguinte tabela de freqüências: 
 
 Altura (metros) 
 1.5 a 1.58 1.6 a 1.68 1.7 a 1.78 1.8 a 1.88 1.9 a 1.98 
 45 a 54.5 2 1 0 0 0 
P 55 a 64.5 7 8 4 2 0 
E 65 a 74.5 5 15 22 7 1 
S 75 a 84.5 2 12 63 19 5 
O 85 a 94.5 0 7 28 32 12 
(kg) 95 a 104.5 0 2 10 20 7 
 105 a 114.5 0 0 1 4 2 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA AGRUPA A; /* EXEMPL03 SAS */ 
 DO MEDPES = 49.75 T0 109.75 BY 10; 
 DO MEDALT = 1.54 TO 1.94 BY 0.10; 
 INPUT N_OBS @@; 
 OUTPUT; 
 END; 
 END; 
CARDS; 
2 1 0 0 0 
7 8 4 2 0 
5 15 22 7 1 
2 12 63 19 5 
0 7 28 32 12 
0 2 10 20 7 
0 0 1 4 2; 
; 
PROC PRINT; 
PROC CORR; 
 VAR MEDPES MEDALT; 
 FREQ N_OBS; 
TITLE 'CORRELACAO PARA DADOS AGRUPADOS'; 
RUN; 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
38
ANÁLISE DOS RESULTADOS: 
 
OBS MEDPES MEDALT N_OBS 
 
 1 49.75 1.54 2 
 2 49.75 1.64 1 
 3 49.75 1.74 0 
 4 49.75 1.84 0 
 5 49.75 1.94 0 
 6 59.75 1.54 7 
 7 59.75 1.64 8 
 8 59.75 1.74 4 
 9 59.75 1.84 2 
 10 59.75 1.94 0 
 11 69.75 1.54 5 
 12 69.75 1.64 15 
 13 69.75 1.74 22 
 14 69.75 1.84 7 
 15 69.75 1.94 1 
 16 79.75 1.54 2 
 17 79.75 1.64 12 
 18 79.75 1.74 63 
 19 79.75 1.84 19 
 20 79.75 1.94 5 
 21 89.75 1.54 0 
 22 89.75 1.64 7 
 23 89.75 1.74 28 
 24 89.75 1.84 32 
 25 89.75 1.94 12 
 26 99.75 1.54 0 
 27 99.75 1.64 2 
 28 99.75 1.74 10 
 29 99.75 1.84 20 
 30 99.75 1.94 7 
 31 109.75 1.54 0 
 32 109.75 1.64 0 
 33 109.75 1.74 1 
 34 109.75 1.84 4 
 35 109.75 1.94 2 
 
CORRELACAO PARA DADOS AGRUPADOS 
 
Correlation Analysis 
 
2 'VAR' Variables: MEDPES MEDALT 
 
Simple Statistics 
 
Variable N Mean Std Dev Sum Minimum Maximum 
 
MEDPES 300 82.31667 12.12031 24695 49.75000 109.75000 
MEDALT 300 1.76033 0.09824 528.10000 1.54000 1.94000 
 
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 300 
 / FREQ Var = N_OBS 
 
MEDPES MEDALT 
 
 MEDPES 1.00000 0.54023 
 0.0 0.0001 
 
 MEDALT 0.54023 1.00000 
 0.0001 0.0 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
39
O coeficiente de correlação é de 0.54023. Um p-valor de 0.0001 reflete uma forte 
evidência de que a correlação entre altura e o peso difere de zero. 
 
 
8.3 Regressão (PROC REG) 
 
 
Os coeficientes de correlação indicam somente a existência ou não de 
algum tipo de relacionamento entre variáveis. Para investigar a forma desse 
relacionamento, o método mais apropriado é a análise de regressão, onde a 
relação pode ser expressa sob forma matemática, por meio de uma equação que 
interligue as variáveis. 
 
Através do diagrama de dispersão é possível visualizar uma curva que se 
aproxime dos dados. Essa curva é denominada curva de ajustamento. 
 
Para fins de referência, a seguir encontram-se relacionados vários tipos 
comuns de curvas de ajustamento e suas equações. As variáveis independentes 
estão representadas pela letra X e as variáveis dependentes pela letra Y. As 
demais letras representam constantes. 
 
Função Linear → Y = a0 + a1 X 
 
Função Quadrática → Y = a0 + a1 X + a2 X2 
 
Função Cúbica → Y = a0 +a1 x + a2 x2 + a3 x3 
 
Função Exponencial → Y = a bx 
 → log y = Ioga + (log b) x = a0 +a1 x 
 
Para evitar o critério individual na construção de funções que se adaptem 
ao conjunto de dados, é necessário instituir uma definição da "melhor função de 
ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados 
(aderência) é proporcionada a partir da distância dos pontos observados até a 
equação de regressão. De todas as equações que podem ser traçadas através do 
grupo de pontos no diagrama de dispersão, a função que melhor se ajusta é 
aquela com a menor soma dos quadrados das distâncias (Método dos Mínimos 
Quadrados). 
 
Estas distâncias são designadas como desvios, erros ou resíduos, e 
podem ser positivas, negativas ou nulas, como é apresentado na figura a seguir: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
40
 
 
O modelo linear: 
 
Yj = β0 + β1 Xj + εj 
 
Suas suposições: 
 
- Xj são fixos; 
 
- β0 e β1 são parâmetros fixos desconhecidos; 
 
- εj ~ N id (0 , σ2) . 
 
Considere a regressão como um particionamento da Soma Total dos 
Quadrados: 
 
( ) ( ) ( )Y Y Y Y Y Yj j j j− = − + −∑ ∑ ∑2 2 2$ $ 
 
SST = SSM + SSE 
 
onde: 
 
SST - é a somatotal dos quadrados. 
SSM - é a soma dos quadrados devido ao modelo (soma dos quadrados devido à 
regressão ). 
SSE - é a soma dos quadrados devido ao erro , ou resíduo. 
 
Num modelo de regressão é preciso: 
 
• Estimar: 
 
- σ2, ou seja, o erro médio quadrático; 
- β0 e β1. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
41
• Testaras Hipóteses : 
 
H0: β1 = 0 
 β0 = 0 
 
• Obter valores preditos e limites de predição. 
 
• Estimar a média da variável resposta Y, dado um valor fixo X, 
determinando tanto as estimativas por ponto como por intervalo. 
 
 
8.4 Inferência na regressão 
 
 
Estatísticas usadas na Análise de Regressão: 
 
- valor estimado de σ2 =MSE, Média quadrática para o erro 
 = SSE/ df(erro) 
 = Soma dos Quadrados devido ao erro / df(erro) 
 
- estimativas de mínimos quadrados de β0 e β1, que minimize SSE. 
 
( )min Y Yj −∑ 2 
 
- teste de β0 = 0 e β1 = 0 com a estatística t de Student ou teste de β0 no modelo / 
β1 = 0 com a estatística F. 
 
 
8.5 Resíduos 
 
 
Os resíduos representam o comportamento de Y (variável resposta), do 
qual as variáveis independentes não fazem a estimativa. Se for suposto que o 
modelo é correto, que não se tenha omitido nenhuma variável independente, e 
também que os resíduos são normais e independentemente distribuídos, com 
média zero e variância constante, pode-se provar hipóteses, assinalar limites de 
confiança, predizer valores da variável dependente a partir das variáveis 
independentes e computar probabilidades de significância . 
 
Um plote dos resíduos sobres as variáveis independentes ou sobre os 
valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo 
necessitar de algum outro termo, o plote dos resíduos sugere que tipo de termo 
pode ser adicionado ao modelo. Alguns modelos são mostrados a seguir: 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
42
 
 
 
 
PROC REG 
 
A “procedure” REG é o procedimento SAS mais comum para análise da 
regressão. É um procedimento interativo, ou seja, o usuário pode dispor de seus 
comandos básicos para ajustar uma função, verificar a saída das estatísticas, e 
posteriormente adicionar mais comandos dando continuidade à suas análises sem 
necessidade de reinicializar o comando da PROC. Quando usado interativamente, 
o comando RUN não finaliza o procedimento. Para finalizá-lo o usuário deve 
estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que 
nunca deve ser acessado quando o procedimento estiver em curso. 
 
FORMA GERAL: 
 
PROC REG DATA = arquivo SAS opções; 
MODEL dependente = independente / opções; 
 VAR variável; 
 ID variável; 
 OUTPUT OUT = novo arquivo 
P = nova variável R = nova variável 
 U95 = nova variável L95 = nova variável 
 U95M = nova variável L95M = nova variável; 
PLOT variável Y * variável X = 'símbolo'; 
PRINT opções; 
RUN; 
OPÇÕES DISPONÍVEIS NA PROC REG: 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
43
 
SIMPLE Lista estatísticas descritiva para cada variável. 
 
OUTEST Cria um data set contendo as estimativas dos parâmetros do 
modelo de regressão. 
 
OPÇÕES DISPONÍVEIS NO COMANDO 
 
CLI Fornece limites de confiança superior e inferior a 95% para um 
valor particular predito da variável dependente. 
 
CLM Fornece limites de confiança superior e inferior a 95% para a 
média da variável dependente nos níveis da(s) variável(is) 
independentes para cada observação. 
 
P Fornece valores preditos a partir do modelo estimado para cada 
observação do arquivo a de entrada. 
 
R Fornece valores residuais (REAL-PREDITO) para cada 
observação e uma análise dos resíduos. 
 
SELECTION = método 
 
Especifica o método usado para seleção do modelo (Backward, Stepwise, 
MAXR, ADJRSQ, por exemplo). O default é NONE (usa o modelo 
completo). 
 
 
ADJRSQ Fornece o R-Square ajustado para o grau de liberdade, para cada 
modelo selecionado. 
 
AIC Fornece o Critério de Informação de Akaike's. 
 
BIC Fornece o Critério de Informação Bayesiano de Sawa . 
 
MSE Fornece o erro médio quadrático para cada modelo. 
 
COMANDOS DISPONÍVEIS: 
 
MODEL especifica as variáveis dependentes e independentes. 
 
VAR lista a variável (ou variáveis) que possam vir a ser adicionadas no 
modelo durante o processo de análise. Este comando deve 
aparecer antes do primeiro comando RUN. 
 
ID especifica a variável que identifica as observações na saída do 
relatório, quando são solicitadas estimativas de valores individuais 
de uma variável independente ( valores preditos ), valores 
residuais, etc. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
44
 
OUTPUT especifica o arquivo de saída e os nomes das variáveis que irão 
conter os valores previstos, residuais , etc. 
 
PLOT gera plotes de dispersão com a variável y representando o eixo 
vertical e a variável x o eixo horizontal. Para plotar estatísticas 
utiliza-se as palavras chave (nomes reservados) disponíveis no 
comando OUTPUT. (Ex: plot y.*p;) 
 
PRINT Lista as opções disponíveis. 
 
Os seguintes nomes reservados são utilizados para especificar as 
estatísticas desejadas. Eles devem ser seguidos por um nome de variável: 
 
P (ou PREDICTED) representa os valores preditos. 
 
R (ou RESIDUAL) representa os valores residuais para cada observação. 
 
U95, L95 representam, respectivamente, os limites superior e 
inferior de predição para os valores observados. 
 
U95M, L95M representam, respectivamente os limites superior e 
inferior de confiança para a média da população. 
 
Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de 
uma máquina industrial. O experimento utilizou uma mistura de óleo diesel e 
gás, derivados de materiais destilados orgânicos. O valor da capacidade da 
máquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas 
em rotações por minuto (rpm X 100). Analisar o diagrama de dispersão e 
encontrar um modelo de regressão que se ajuste aos dados. 
 
OPTIONS FORMDLIM='*' LS=80; 
DATA MAQUINA1 A; /* EXEMPL04 SAS */ 
INPUT VELOC CAPAC @@; 
CARDS; 
22.0 64.03 20.0 62.47 18.0 54.94 16.0 48.84 14.0 43.73 
12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21 
22.0 64.03 20.0 62.63 18.0 52.90 16.0 48.84 14.0 42.74 
12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17 
19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89 
; 
PROC PLOT; 
 PLOT CAPAC * VELOC = '0'; 
TITLE 'DIAGRAMA DE DISPERSAO'; 
RUN; 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
45
PROC REG; 
 MODEL CAPAC = VELOC; 
 OUTPUT OUT= RESIDl P=PREVISTO R=RESIDUAL; 
TITLE 'AJUSTE DA FUNCAO LINEAR'; 
RUN; 
PROC GPLOT; 
 PLOT RESIDUAL* VELOC /VREF = 0; 
TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR'; 
RUN; 
PROC UNIVARIATE DATA= RESIDl NORMAL PLOT; 
 VAR RESIDUAL; 
TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS'; 
RUN; 
 
 
ANÁLISE DOS RESULTADOS: 
 
DIAGRAMA DE DISPERSAO 
 
Plot of CAPAC*VELOC. Symbol used is '0'. 
 
 CAPAC | 
 | 
 65 + 0 
 | 0 0 
 | 0 
 | 0 0 
 60 + 
 | 
 | 0 
 | 0 
 55 + 0 
 | 
 | 0 
 | 0 
 50 + 
 | 0 
 | 0 
 | 0 
 45 + 
 | 0 
 | 0 
 | 
 40 + 0| 
 | 0 
 | 0 
 35 + 
 | 
 | 
 | 0 
 30 + 
 | 
 --+-------+--------+--------+---------+-------+--------+--------+- 
 10 12 14 16 18 20 22 24 
 VELOC 
 
NOTE: 4 obs hidden. 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
46
O diagrama de dispersão mostra uma tendência crescente da capacidade da 
máquina em função da velocidade utilizada. Os dados observados serão 
ajustados inicialmente por uma função linear. o relatório de saída consta de duas 
seções, Análise da Variância e Estimativas dos Parâmetros, apresentadas a 
seguir: 
 
AJUSTE DA FUNCAO LINEAR 
 
Model: MODEL1 
Dependent Variable: CAPAC 
 
Analysis of Variance 
 
 Sum of Mean 
 Source DF Squares Square F Value Prob>F 
 
 Model 1 2294.80982 2294.80982 663.532 0.0001 
 Error 22 76.08652 3.45848 
 C Total 23 2370.89633 
 
 Root MSE 1.85970 R-square 0.9679 
 Dep Mean 52.31833 Adj R-sq 0.9664 
 C.V. 3.55458 
 
Parameter Estimates 
 
 Parameter Standard T for H0: 
 Variable DF Estimate Error Parameter=0 Prob > |T| 
 
 INTERCEP 1 6.100234 1.83396047 3.326 0.0031 
 VELOC 1 2.650500 0.10289565 25.759 0.0001 
 
A seção de Análise de Variância contém informações sobre a qualidade do 
ajuste. São elas: 
 
- DF 
 
Identifica as fontes de variações dos dados e os respectivos graus de liberdade. 
 
- SOMA DOS QUADRADOS (SS): 
 
Separam a variação dos dados em porções que podem ser tanto atribuídas ao 
modelo como ao erro. Parte da variação total da capacidade da máquina se deve 
à velocidade utilizada e outra parte se deve a erros aleatórios ou outros fatores 
independentes da velocidade. 
 
SS total = SS models + SS erro 
 
Observando os valores da variável Capacidade da Máquina quando o valor da 
velocidade é de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta 
variação se deve ao erro do experimento ou a fatores outros que não a 
velocidade. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
47
- MÉDIA QUADRÁTICA (MS): SS/DF 
 
MS erro = 3.45848 estima a variância da população dos valores da capacidade da 
máquina para valores determinados da velocidade. 
 
- F, PROB > F: 
 
Fornece o valor da estatística teste e o p-valor associado ao teste de hipótese de 
que o modelo explica uma parte significante da variação dos dados. 
 
- R_SQUARE : SS modelo / SS Total 
 
R_Square é a fração da variação total devida às variáveis do modelo. Seu valor 
varia dentro do intervalo [0,1], sendo que quanto mais próximo de 1, melhor o 
modelo explica a variação dos dados. Neste caso o modelo proposto explica 96% 
da variabilidade total. implicando um alto grau de aderência dos valores 
observados à reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square 
não a explica sozinho. Recomenda-se também uma Análise dos Resíduos. 
 
- Adj R_SQUARE 
 
É uma estatística alternativa ao R-Square. É utilizada em REGRESSÃO 
MÚLTIPLA. 
 
A seção Estimativas dos Parâmetros provê coeficientes para a linha de 
regressão e testes para determinar se estes coeficientes são significativamente 
diferentes de zero. O modelo de ajuste, neste caso, é representado por: 
 
CAPAC = 6.10 + 2.65 VELOC 
 
O valor de INTERCEP = 6.10 não tem uma interpretação específica no modelo. 
Para VELOC = 0, a capacidade predita pelo modelo é de 6.10 HP. O coeficiente 
2.65 pode ser interpretado como o acréscimo da capacidade esperada para cada 
unidade adicional da velocidade. 
 
Para verificar a suposição de que os coeficientes são não nulos, tem-se: 
 
- DF 
 
Fornece o grau de liberdade para os parâmetros estimados. Para cada parâmetro 
estimado DF= 1. 
 
- Erro Padrão: 
 
Mede o quanto cada parâmetro estimado poderia vaiar de um conjunto de dados 
para outro. Eles são utilizados na construção de intervalos de confiança. 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
48
- T para H0 : Parâmetro = 0: 
 
Estatística para testar a hipótese que o parâmetro é igual a zero. Seu valor é dado 
por: 
 
Valor Estimado do Parâmetro / Erro Padrão 
 
- PROB > T: 
 
Fornece o p-valor para a estatística teste T. Para o parâmetro VELOC, o p-valor é 
de 0.0001, evidenciando que o grau de inclinação da reta ajustada é diferente de 
zero. O intercepto também difere de zero. 
 
A análise dos resíduos ei= Yi - Yˆ i = Yi - 6.10 - 2.65 VELOC é importante para 
avaliar se a escolha do modelo é apropriada para o conjunto de dados 
apresentado. Pelo comportamento da distribuição dos resíduos (PROC GPLOT) 
sugere-se a utilização de um termo quadrático. 
 
A validade dos testes de significância dependem da suposição de que os resíduos 
são normalmente distribuídos. Para se verificar essa suposição basta utilizar a 
PROC UNIVARIATE com as opções NORMAL e PLOT, o que gera as seguintes 
saídas: 
 
 
Treinamento Sistema – SAS Prof. Luis Felipe Lopes 
 
49
TESTE DE NORMALIDADE DOS RESIDUOS 
 
Univariate Procedure 
 
Variable=RESIDUAL Residual 
 
Moments 
 
 N 24 Sum Wgts 24 
 Mean 0 Sum 0 
 Std Dev 1.818821 Variance 3.308109 
 Skewness -0.95935 Kurtosis 4.145739 
 USS 76.08652 CSS 76.08652 
 CV . Std Mean 0.371265 
 T:Mean=0 0 Pr>|T| 1.0000 
 Num ^= 0 24 Num > 0 13 
 M(Sign) 1 Pr>=|M| 0.8388 
 Sgn Rank 4 Pr>=|S| 0.9119 
 W:Normal 0.896308 Pr<W 0.0170 
 
Quantiles(Def=5) 
 
 100% Max 3.51976 99% 3.51976 
 75% Q3 0.92076 95% 3.35976 
 50% Med 0.011261 90% 1.54026 
 25% Q1 -0.67199 10% -1.75174 
 0% Min -5.82224 5% -1.88049 
 1% -5.82224 
 Range 9.342001 
 Q3-Q1 1.592748 
 Mode -0.38124 
 
Extremes 
 
 Lowest Obs Highest Obs 
 -5.82224( 24) 1.13076( 3) 
 -1.88049( 17) 1.449259( 10) 
 -1.75174( 23) 1.54026( 9) 
 -1.27624( 16) 3.35976( 2) 
 -0.90924( 13) 3.51976( 12) 
 
A estatística W de Shapiro – WIL indica que os dados não são normalmente 
distribuídos. O valor da assimetria é de –0.9593, encontrando-se fora do intervalo 
(-0.87 , 0.87), e o valor da curtoze é de 4.1457, que está fora do intervalo(-
1.20,2.30). Estes são os intervalos a 95% de confiança para a assimetria e 
curtoze, referentes a um tamanho de amostra n=24, retirada de uma população 
normalmente distribuída. (Ver ANEXO 2). 
 
 Stem Leaf # Boxplot 
 3 45 2 0 
 2 
 1 0145 4 | 
 0 0023358 7 +--+--+ 
 -0 9954441 7 +-----+ 
 -1 983 3 | 
 -2

Continue navegando