Buscar

Glossario termos estatísticos

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

1 
 
 
 
 
Publicado “on line’ em www.animal.unb.br em 03/11/2010 
 
 
 
 
Glossário de Termos EstatísticosGlossário de Termos EstatísticosGlossário de Termos EstatísticosGlossário de Termos Estatísticos 
Concepta McManus 1,2, Luiza Seixas 1, Cristiano Barros de Melo 1,3 
1 CNPq / INCT / Informação Genético Sanitária da Pecuária Brasileira, Universidade de Brasília (UnB) / 
Universidade Federal de Minas Gerais (UFMG), Belo Horizonte, MG. 
2 Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, RS. 
3 Universidade Brasília (UnB), Brasília, DF. 
 
Estatística 
 
• Expressão em Latim statisticum collegium, alguém que palestra 
sobre os assuntos do Estado ou conselho de Estado; 
• surgiu a palavra em língua italiana statista; 
• significa "homem de estado", estadista ou político; 
• Palavra alemã Statistik; 
o A análise de dados sobre o Estado; 
o significando a "ciência do Estado" 
o Palavra foi proposta pela primeira vez no século XVII, em 
latim, por Schmeitzel na Universidade de Lena e adotada pelo 
acadêmico alemão Godofredo Achenwall; 
• Aparece como vocabulário na Enciclopédia Britânica em 1797; 
• Adquiriu um significado de coleta e classificação de dados, no início 
do século 19. 
 
 
 
INCT: Informação 
Genético-Sanitária da 
Pecuária Brasileira 
SÉRIE TÉCNICA: 
GENÉTICA 
 
2 
 
 
(1 - alfa) Nível de confiança: É a probabilidade de que o Intervalo de 
Confiança contenha o verdadeiro valor do parâmetro. 
α (alfa): É a probabilidade de Rejeitar Ho, quando ela é verdadeira. 
Neste caso, seria a probabilidade de afirmar que as atitudes em 
relação à Matemática interferem na formação das atitudes em 
relação à Estatística, quando na realidade não existe nenhuma 
relação. Este erro é controlado pelo pesquisador, e é ele que define a 
margem de erro que está disposto a correr. Existem vários fatores 
que influenciam na escolha do nível de significância. Em pesquisas, 
como nas ciências exatas, biológicas, agronômicas, onde as variáveis 
são mais fáceis de mensurar, onde os instrumentos de medida são 
confiáveis, onde o controle de fatores intervenientes é razoável, o 
conhecimento da área é maior, a gravidade das conseqüências do 
erro menor, entre outros, permitem um maior rigor e, portanto, 
pode-se ser mais exigente, diminuindo o nível de significância. 
Contudo, em pesquisas, nas ciências humanas, que lida com pessoas, 
com construtos polêmicos, instrumentos ainda não testados, as 
consequências do erro não são tão graves, entre outros, pode-se ser 
mais flexível. Via de regra, usa-se o nível de 5%. 
Alfa (alpha): É a probabilidade de se cometer Erro do Tipo I (rejeitar 
a hipótese nula quando ela é verdadeira) no teste de hipóteses. 
Algoritmo(algorithm): Um algoritmo é um conjunto definido de 
operações e passos ou procedimentos que objetivam levar a um 
particular resultado. Por exemplo, com algumas exceções, os 
programas computacionais, as fórmulas matemáticas e (de forma 
ideal) receitas médicas e culinárias são algoritmos. 
Amostra: Uma amostra é um subconjunto de indivíduos da população 
alvo. Existem dois tipos de amostras, as probabilísticas, baseadas 
nas leis de probabilidades, e as amostras não inferência estatística. n 
- tamanho da amostra probabilísticas, que tentam reproduzir o mais 
fielmente possível a população alvo. Entretanto, somente as 
amostras probabilísticas podem, por definição, originar uma 
generalização estatística, apoiada no cálculo de probabilidades. 
Amostra (sample): Uma parte finita e não vazia extraída de uma 
população. 
Amostra Amodal: é uma amostra que não tem moda. 
Amostra Bimodal: é uma amostra que tem duas modas. 
Amostra Imparcial: é uma amostra em que todos os elementos 
3 
 
tiveram uma igual oportunidade de fazer parte da mesma. 
Amostra Multimodal: é uma amostra que tem mais do que duas 
modas. 
Amostra Representativa: é aquela que deve conter em proporção 
todas as características qualitativas e quantitativas da população. 
Amostra: envolve premissas que dizem respeito às características do 
evento estudado, dos fatores que exerçam influência sobre este 
evento e da análise que se pretenda fazer. Portanto, antes de definir 
o tamanho da amostra, o pesquisador deverá ocupar-se das 
definições de um planejamento amostral, cujas características serão 
particulares para cada estudo. Em geral, o planejamento do tamanho 
da amostra leva em consideração os erros do Tipo I e do Tipo II, de 
forma que as estimativas de interesse tenham precisão suficiente 
para serem utilizadas. Portanto, para dimensionar a amostra o 
pesquisador deve fornecer o nível de significância e o poder do teste 
desejado 
Amostragem (sampling): É o método de retirada de amostras de uma 
população. 
Amostragem Aleatória (random sample): A amostragem é dita 
aleatória, probabilística ou ao acaso se todos os elementos da 
população tiveram probabilidade conhecida e diferente de zero de 
pertencerem a amostra. 
Amostragem Aleatória Simples: é aquela em que qualquer elemento 
da população tem a mesma probabilidade de ser escolhido. 
Amostragem aleatória simples (simple random sampling): A 
amostragem é dita aleatória simples se todos os elementos da 
população possuírem a mesma probabilidade de pertencerem a 
amostra. 
Amostragem Estratificada: é aquela em que a população está dividida 
em estratos ou grupos diferenciados. 
Amostragem estratificada (stratified sampling): Método de 
amostragem na qual os elementos são retirados de subpopulações 
agrupadas por algum critério. 
Amostragem por conglomerados (cluster sampling): Método de 
amostragem onde o que é sorteado é o aglomerado e não a unidade 
individual. 
Amostragem Sistemática: é aquela em que os elementos são 
4 
 
escolhidos a partir de uma regra previamente estabelecida. 
Amostragem sistemática (systematic sampling): Método de 
amostragem na qual o primeiro elemento de uma lista da população 
é selecionado ao acaso e após cada k-ésimo elemento é selecionado. 
Amostragem: um campo da estatística que estuda técnicas de 
planejamento de pesquisa para possibilitar inferências sobre um 
universo a partir do estudo de uma pequena parte de seus 
componentes, uma amostra. 
Amplitude (range): É a diferença entre os extremos de um conjunto, 
isto é, a distância entre o máximo e o mínimo do conjunto. 
Amplitude de um Conjunto de Dados: é a diferença entre o maior 
valor e o menor valor desse conjunto. Se os dados estiverem 
agrupados em classes, a amplitude é a diferença entre o limite 
superior da última classe e o limite inferior da primeira. 
Análise de componentes principais (principal component analysis): 
Transformar um conjunto de variáveis originais, 
intercorrelacionadas, num novo conjunto de variáveis não 
correlacionadas, as componentes principais. O objetivo mais 
imediato da ACP é verificar se existe um pequeno número das 
primeiras componentes principais que seja responsável por explicar 
uma proporção elevada da variação total associada ao conjunto 
original 
Análise de conglomerados (cluster analysis): O propósito da Análise 
de Cluster é buscar uma classificação de acordo com as relações 
naturais que a amostra apresenta, formando grupos de objetos 
(individuos, empresas, cidades ou outra unidade experimental) por 
similaridade 
Análise de sobrevivência (survival analysis): é o estudo de indivíduos 
(itens observados) onde um evento bem definido (falha) ocorre 
depois de algum tempo (tempo de falha). 
Análise discriminante (discriminant analysis): encontrar a melhor 
função discriminante linear de um conjunto de variáveis que 
reproduza, tanto quanto possível, um agrupamento a priori de casos 
considerados 
Análise multivariada (multivariate analysis): Trata-se de um 
conjunto de métodosque permite a análise simultânea de medidas 
múltiplas para cada indivíduo ou objecto em análise, ou seja, 
qualquer método que permita a análise simultânea de duas ou mais 
5 
 
variáveis pode ser considerado como multivariado. 
Análise Probit (probit analysis): Em teoria de probabilidade e 
estatística, probit a função é inverso função de distribuição 
cumulativa (CDF), ou função do quantile associado com o padrão 
distribuição normal. Tem aplicações dentro gráficos estatísticos 
exploratórios e especializado modelar da regressão de variáveis 
binárias da resposta. 
ANDEVA (Analise de variância): técnica estatística cujo objetivo é 
testar a igualdade entre três ou mais médias. Ela permite testar se a 
variabilidade dentro dos grupos é maior que a existente entre os 
grupos. A técnica supõe independência e normalidade das 
observações, e igualdade entre as variâncias dos grupos. 
ANOVA (Analysis of Variance): Teste de hipótese que objetiva 
comparar mais de duas médias. É isto mesmo, a análise de variância 
é um teste para comparar médias, que é realizado através das 
variâncias dentro e entre os conjuntos envolvidos. É uma extensão 
do teste "t" para duas médias. 
ANOVA: ver Andeva 
Assimetria (skeweness): Se um conjunto de dados for dividido em 
duas partes a partir da mediana e estas duas partes não forem 
iguais, então ele é dito assimétrico. Outra maneira de verificar se um 
conjunto é assimétrico é calcular o seu coeficiente de assimetria ou o 
momento de terceira ordem. Se ele for diferente de zero então o 
conjunto é dito assimétrico. 
Atípico (outlier): É um valor de um conjunto de dados que se afasta 
dos demais. É um valor normalmente muito grande ou muito 
pequeno quando comparado com o restante do conjunto. Pode ter 
sido resultado de um erro de medida ou, então, pode ser um 
indicativo de um comportamento atípico do conjunto sob 
determinadas condições. 
Atributo (attribute): É uma denominação alternativa para os 
possíveis valores assumidos por uma variável qualitativa. 
Atributos Qualitativos: são atributos que estão relacionados com 
uma qualidade e apresentam-se com várias modalidades. 
Atributos Quantitativos: são atributos aos quais é possível atribuir 
uma medida e apresentam-se com diferentes intensidades ou 
valores. 
Autocorrelação (autocorrelation): é uma medida que informa o 
6 
 
quanto o valor de uma realização de uma variável aleatória é capaz 
de influenciar seus vizinhos 
Bootstrapping: um método de reamostragem onde se utiliza para 
aproximar distribuição na amostra de um levantamento estatístico. 
Se usa frequentemente para aproximar o viés ou a variância de um 
conjunto de dados estatísticos, assim como para construir intervalos 
de confiança ou realizar contrastes de hipóteses sobre parâmetros de 
interesse. Na maior parte dos casos não pode obter-se expressões 
fechadas para as aproximações bootstrap e portanto é necessário 
obter reamostragens em um ordenador para por em prática o 
método. A enorme capacidade de cálculo dos computadores atuais 
facilita consideravelmente a aplicabilidade deste método tão custoso 
computacionalmente 
Censo: é um estudo estatístico que resulta da observação de todos os 
indivíduos da população relativamente a diferentes atributos pré-
definidos. 
Classe Mediana ( ): é a classe, para dados classificados, que contem 
a Mediana (neste caso considera-se como Mediana o valor da 
variável estatística que corresponde a n/2, quer n seja par, quer n 
seja ímpar). 
Classe Modal: é a classe, para dados classificados, que aparece com 
maior frequência. 
Coeficiente angular ou inclinação (da reta de regressão: Y = a + b * 
X): É a variação de Y por cada variação de X. 
Coeficiente de confiança: corresponde a 1- α (probabilidade de 
aceitar a hipótese nula quando esta é verdadeira) e indica a 
probabilidade de decisão correta baseada na hipótese nula. 
Coeficiente de correlação de Pearson (Pearson correlation 
coeficient): é uma medida do grau de relação linear entre duas 
variáveis quantitativas. Este coeficiente varia entre os valores -1 e 1. 
O valor 0 (zero) significa que não há relação linear, o valor 1 indica 
uma relação linear perfeita e o valor -1 também indica uma relação 
linear perfeita mas inversa, ou seja quando uma das variáveis 
aumenta a outra diminui. Quanto mais próximo estiver de 1 ou -1, 
mais forte é a associação linear entre as duas variáveis 
Coeficiente de correlação de Spearman (Spearman rho correlation 
coeficient): O coeficiente ρ de Spearman mede a intensidade da 
relação entre variáveis ordinais. Usa, em vez do valor observado, 
apenas a ordem das observações. 
7 
 
Deste modo, este coeficiente não é sensível a assimetrias na 
distribuição, nem à presença de outliers, não exigindo portanto que 
os dados provenham de duas populações normais 
Coeficiente de Correlação Linear ( r ): medida estatística que permite 
calcular o valor numérico correspondente ao grau de dependência 
entre duas variáveis, o qual varia entre -1 e 1. 
Coeficiente de correlação parcial (partial correlation coeficient): O 
coeficiente de correlação parcial( rAB.C) permite conhecer o valor da 
correlação entre duas variables A e B, se a variable C tinha 
permanecido constante para a série de observações consideradas. O 
rAB.C é o coeficiente de correlação total entre as variables A e B 
quando se lhes retirou sua melhor explicação lineal em termo de C. 
Coeficiente de determinação (coefficient of determination): indica 
quanto da variância da variável resposta é explicada pela variância 
das variáveis explicativas. Seu valor está no intervalo de 0 a 1: 
Quanto maior, mais explicativo é o modelo 
Coeficiente de determinação (R2): É o quadrado do coeficiente de 
correlação de Pearson e expresso em porcentagem. É o percentual 
explicado da variação da variável dependente pela reta de regressão 
(modelo). O restante é explicado pelo erro, que pode ser devido a 
ausência de outras variáveis, erros de mensuração das variáveis e ao 
erro aleatório. 
Coeficiente de variação (coefficient of variation): É o quociente entre 
o desvio padrão e a média de um conjunto de dados. É um percentual 
e portanto adequado para efetuar comparações entre diferentes 
conjuntos de dados. 
Coeficiente gama (gamma coeficient). 
Consistência (consistency): Propriedade que descreve o 
comportamento de um estimador quando o tamanho da amostra 
tende ao infinito. 
Correlação: é a relação ou dependência entre as duas variáveis de 
uma distribuição bidimensional. 
Correlação (correlation): Um termo geral utilizado para descrever o 
fato de que duas ou mais variáveis (conjuntos de dados) estão 
relacionados. Galton, em 1869, foi provavelmente o primeiro a 
utilizar o termo com este sentido. O termo é utilizado mais 
precisamente para denominar relacionamento linear entre dois 
conjuntos de dados ou variáveis. 
Correlação amostral (r): Serve para estimar a correlação linear 
8 
 
populacional. 
Correlação canônica (canonical correlation). 
Correlação Fraca ou Nula: quando o Diagrama de Dispersão não 
permite o ajustamento de nenhuma reta, o que significa que r = . 
Diz-se, então, que não existe nenhuma relação entre as variáveis da 
Distribuição Bidimensional. 
Correlação Negativa Forte: quando a reta de regressão, obtida a 
partir do Diagrama de Dispersão, tem declive negativo. A correlação 
é negativa quando r varia entre -1 e 0 e será tanto mais forte quanto 
r se aproxima de -1. 
Correlação Negativa Perfeita ou Linear: quando a reta de regressão, 
obtida a partir do Diagrama de Dispersão, tem declive negativo com r 
Correlação populacional (r): É um valor que mede o grau de relação 
linear entre duas variáveis quantitativas. É igual a covariância 
dividida pelo desvio padrão de cada uma das variáveis. 
Correlação PositivaForte: quando a reta de regressão, obtida a partir 
do Diagrama de Dispersão, tem declive positivo. A correlação é 
positiva quando r varia entre 0 e 1 e será tanto mais forte quanto r 
se aproxima de 1. 
Correlação Positiva Perfeita ou Linear: quando a reta de regressão, 
obtida a partir do Diagrama de Dispersão, tem declive positivo com r 
Covariância populacional C(X,Y): É um valor que mede o grau de 
dispersão simultânea de duas variáveis quantitativas em relação as 
suas médias. É a soma dos produtos dos desvios das variáveis em 
relação a sua média, dividido pelo número de observações: Soma[(Xi 
– médiaX)*(Yi – médiaY)]/N. É o numerador do coeficiente de 
correlação. 
Covariável (covariate or control variable): Uma variável que 
apresenta um efeito que não se tem interesse direto. A análise da 
variável de interesse apresentará melhores resultados se a variação 
da covariável for controlada. 
9 
 
Curtose (kurtosis): É uma medida de um conjunto de dados que 
informa o quanto este conjunto se desvia do modelo (curva) normal. 
É o grau de achatamento do conjunto. A curva normal teria um 
coeficiente de curtose igual a três (alguns autores utilizam zero) e é 
denominada de mesocúrtica. Uma medida acima de três (ou positiva) 
caracterizaria o conjunto como leptocúrtico (mais afinado que a 
curva normal). Se o coeficiente de curtose for menor do que três (ou 
negativo) então o conjunto é denominado de platicúrtico (mais 
achatado do que a curva normal). Foi proposto por Karl Pearson 
antes de 1905. É representado por g2 e calculado por: g2= m4/m22, 
onde m4 é o momento central de quarta ordem e m2 é a variância 
Dado Estatístico: é o resultado da observação de um 
atributo/variável qualitativa ou quantitativa. 
Dados (data): Os números e atributos que são coletados, analisados 
e interpretados. 
Dados Classificados: são valores que uma dada variável pode tomar 
dentro de certo intervalo. Estes dados são classificados ou agrupados 
em classes. 
Dados de seção transversal (cross section data): Dados coletados no 
mesmo ou aproximadamente no mesmo ponto do tempo. 
Dados de série histórica (data): Dados coletados em períodos de 
tempo sucessivos. 
Dados Simples: vão valores associados a uma dada variável e cuja 
representação é feita através de uma tabela. 
Definição do Problema: é a primeira fase do estudo estatístico e 
consiste na definição e formulação correcta do problema a ser 
estudado. 
Densidade da classe (class density): É a freqüência da classe dividida 
pela sua amplitude. 
Descrição das variáveis: A variável constitui um primeiro nível de 
operacionalização de uma construção teórica e, para cada uma, se 
deve dar, em seguida, uma descrição operacional. Para algumas 
variáveis a descrição é simples, porém, em outros casos, essa 
definição é mais complexa. Uma variável contínua, pode ser 
transformada em discreta e depois em categórica ordinal, por 
exemplo idade (como diferença entre a data atual e data de 
nascimento, anos completos, faixas de idade). É recomendável tomar 
o valor bruto e depois categorizá-lo, isso dá mais flexibilidade ao 
10 
 
pesquisador. 
Desvio (deviation): A diferença entre o valor de um conjunto (dado) 
e a média deste conjunto. 
Desvio Médio (d): é a média aritmética do valor absoluto da 
diferença entre cada valor e a média, no caso dos dados não 
classificados. No caso dos dados classificados, tem que se entrar em 
conta com a frequência absoluta de cada observação. 
Desvio Padrão (standard deviation): É a raiz quadrada da soma dos 
quadrados dos desvios dividida pelo número de elementos, ou dito 
de outra forma, é raiz quadrada da média aritmética dos quadrados 
dos desvios. 
Desvio Padrão (s): é a raiz quadrada positiva da variância. 
Diagrama de Caule-e-Folhas: o mesmo que Separador de 
Frequências. 
Diagrama de Dispersão: é a representação num referencial 
ortonormado de um conjunto de pares ordenados de valores (x , y), 
onde cada par ordenado corresponde a uma observação. 
Diagrama de dispersão (scattergram). 
Diagrama de Extremos e Quartis: é um diagrama que representa os 
valores extremos e os quartis de uma variável estatística. 
Dispersão (dispersion): O quanto um conjunto de dados está 
espalhado. A dispersão é normalmente avaliada em torno da média, 
através da variância, do desvio padrão e do desvio médio. Mas 
também pode ser definida pela amplitude que é a diferença entre o 
máximo e o mínimo do conjunto ou ainda pela amplitude inter-
quartílica, isto é, a diferença entre o terceiro e o primeiro quartil. 
Distância de Mahalanobis (Mahalanobis distance): Uma medida que 
fornece o quanto um ponto (dado) se afasta da média da amostra 
(ou centróide) no espaço das variáveis independentes utilizadas no 
ajuste de um modelo de regressão múltipla. Ela fornece uma forma 
de descobrir pontos que estão mais afastados do que os demais no 
espaço multidimensional. 
Distribuição Bidimensional: é a representação de uma variável 
bidimensional (xi , xj), com 1 £ i £ n e xi e xj duas variáveis 
unidimensionais. 
Distribuição de Frequências: o mesmo que Tabela de Frequências. 
11 
 
Epsilon (epsilon): Se for desejado corrigir o teste F univariado 
utiliza-se o "epsilon" de Huynh-Feldt ou de Greenhouse-Geisser. 
Lembrando que F é a razão entre os quadrados médios entre grupos 
e dentro dos grupos e que os graus de liberdade entre os grupos é 
"k - 1", enquanto que o dentro dos grupos é "n - k - 1". Para corrigir 
o valor de F, uma vez que se tenha percebido a falta de esfericidade, 
deve-se multiplicar o grau de liberdade entre os grupos pelo valor de 
epsilon. Para violações mais severas da esfericidade (epsilon < 0,75) 
o epsilon de Greenhouse-Geisser, mais conservador, deve ser 
utilizado. 
Erro de estimação: É a diferença entre o verdadeiro valor do 
parâmetro e o valor calculado a partir do dados de uma amostra. 
Este depende diretamente do grau de dispersão (variabilidade) da 
variável em estudo e inversamente ao tamanho da amostra. 
Erro do tipo I (alpha error): No teste de hipóteses consiste em 
rejeitar a hipótese nula quando ela é verdadeira. 
Erro do tipo II (beta error): No teste de hipóteses consiste em 
aceitar a hipótese nula quando ela é falsa. 
Erro quadrado médio (mean square error): É a soma dos quadrados 
dos desvios entre os valores do estimador (variável) e o parâmetro 
que ele se propõe a estimar. 
Erro Tipo-I: rejeitar a hiptótese nula quando esta é verdadeira. A 
probabilidade de cometer este erro é denotada por α e recebe o 
nome de nível de significância do teste. 
Erro Tipo-II: aceitar a hiptótese nula quando esta é falsa. A 
probabilidade de cometer este erro é denotada por β 
Esfericidade (sphericity): Propriedade de que a matriz das 
variâncias/covariâncias de um conjunto de dados multivariados é um 
múltiplo escalar da matriz identidade. 
Esfericidade: O teste de esfericidade checa se a matriz de correlação 
é igual a matriz identidade, ou seja, na diagonal formados por uns e 
zero fora da diagonal. 
ESS (Expert Statistical System): Sistema especialista estatístico. 
Estatística: é o método que ensina a recolher, classificar, apresentar 
e interpretar um conjunto de dados numéricos. 
Estatística (Statistics): A arte e a Ciência de coletar, analisar, 
apresentar e interpretar dados. 
12 
 
Estatística (statistics): Um número ou valor. Na teoria da estimação 
é utilizada também como sinômino de estimador, isto é, uma função 
dos elementos da amostra. Este termo foi introduzido por Sir Ronald 
A. Fisher em 1922. 
Estatística Descritiva: ramo da Estatística que tem por finalidade 
descrever certas propriedades relativas a um conjunto de dados. 
Estatística Descritiva (descritive statistics): Parte da Estatística que 
trata do resumo e da apresentação de conjuntos de dados.Estatística Indutiva: ramo da Estatística que procura inferir 
propriedades da população a partir de propriedades verificadas numa 
amostra da mesma. 
Estatística inferencial ou indutiva (inferential or indutive statistic): O 
processo de tirar conclusões sobre a natureza ou o modelo de 
populações a partir de amostras aleatórias retiradas destas 
populações. 
Estatística ou estimador: É uma função dos valores da amostra, ou 
seja uma variável aleatória, pois seu resultado depende dos 
elementos selecionados naquela amostra. São utilizados para 
estimar os parâmetros populacionais, para isto é preciso conhecer 
sua distribuição de probabilidades, que via de regra, pressupõe 
normalidade ou amostras grandes. Por exemplo: a média amostral, a 
proporção amostral, a variância amostral, etc. 
Estatística robusta (statistics): conjunto de técnicas utilizadas para 
atenuar o efeito de outliers e preservar a forma de uma distribuição 
tão aderente quanto possível aos dados empíricos 
Estatística teste (test statistic): É o valor amostral da estatística 
utilizada para testar um parâmetro no teste de hipóteses. 
Estatisticamente significante: dizer que um resultado é 
estatisticamente significante significa que as diferenças encontradas 
são grandes o suficiente para não serem atribuídas ao acaso. Uma 
diferença " estatisticamente significante" pode não ser " 
clinicamente importante"; a importância em termos biológicos não 
deve ser julgada pelos estatísticos, mas sim pelos profissionais da 
área em que a pesquisa está sendo feita. 
Estimação (estimation): Parte da inferência estatística que trata do 
processo de estimação e das propriedades dos estimadores. 
Estimador (estimator): A estística (fórmula ou expressão) utilizada 
para avaliar o valor de um parâmetro. Um estimador é uma variável 
13 
 
aleatória. 
Estimador de máxima verossimilhança (likehood stimator): usado 
para determinar valores dos livres parâmetros de um modelo 
estatístico. Não é sempre desejável usar estimadores de máxima 
verosimilhança, pois eles podem estar sujeitos a sobreajuste: para 
evitar isso, recomenda-se usar regularização, aonde se adiciona à 
função objetiva termos que penalizam grandes coeficientes, 
resultando em estimadores de máxima verosimilhança penalizada. O 
estimador MV da variância de uma distribuição Gaussiana é 
enviezado. 
Estimador de mínimos quadrados (least square stimator): uma 
técnica de otimização matemática que procura encontrar o melhor 
ajustamento para um conjunto de dados tentando minimizar a soma 
dos quadrados das diferenças entre o valor estimado e os dados 
observados (tais diferenças são chamadas resíduos). 
Estimativa (estimate): É o valor particular de um estimador, isto é, é 
o resultado de algum cálculo realizado sobre valores amostrais. 
Estimativa (ou Estimativa pontual): É o valor que a estatística ou 
estimador toma em uma amostra determinada. 
Estimativa por ponto (point estimate): O valor da estatística 
amostral que corresponde ao parâmetro populacional. 
Estudo caso-controle: comparação entre um grupo de doentes 
(casos) e um grupo de pessoas não doentes (controles). O objetivo é 
verificar se os casos diferem significativamente dos controles, em 
relação à exposição a um dado fator de risco. 
Estudo de coorte (cohort study): Um estudo longitudinal com o 
mesmo conjunto (o coorte) de pessoas ao longo de um determinado 
tempo. 
Estudo de coorte: comparação entre um grupo exposto a um fator de 
risco e outro grupo não exposto. Visa verificar se indivíduos expostos 
ao fator de risco desenvolvem a doença em questão, em maior ou 
menor proporção, do que um grupo de indivíduos não expostos. 
Eta quadrado (eta-square): É uma medida do efeito tamanho que é 
igual ao quociente entre a soma dos quadrados dos grupos entre 
pela soma dos quadrados somados para todos os efeitos principais, 
de interação e de erro (os efeitos das covariáveis não são 
computados). Esta medida pode ser interpretada como o percentual 
da variância da variável dependente que são explicadas pelos 
fatores. Quando existem relações curvilíneas entre a variável 
dependente e os fatores o Eta Quadrado será maior que o 
14 
 
correspondente coeficiente de correlação múltiplo ou R2. 
Fator (fator): Um fator é uma denominação alternativa, utilizada na 
análise de variância, para uma variável. Assim se num determinado 
experimento consiste em determinar o efeito da dosagem de um 
remédio, a "dosagem do remédio" é um fator. Se neste experimento 
for levado em conta não apenas a dosagem mas também o tempo em 
que o remédio será tomado, então "o tempo" será um segundo fator. 
Cada valor que o fator (variável) assume é denominado nível do 
fator. Assim se a dosagem testado for de: 100, 110, 115 e 120 mg, 
este fator terá quatro níveis. Um fator deve ter pelo menos dois 
níveis. 
Fenômenos Independentes: são fenómenos respeitantes à mesma 
variável que não têm qualquer ligação um com o outro. 
Frequência Absoluta (fi): é o número de vezes que o valor de 
determinada variável é observado. 
Frequência Absoluta Acumulada (Fi): é a soma das frequências 
absolutas anteriores com a frequência absoluta deste valor. 
Frequência absoluta acumulada de um valor da variável: é o 
somatório da sua frequência absoluta com todas as anteriores (as 
dos valores anteriores). 
Frequência absoluta de um valor da variável: é o número de vezes 
que esse valor aparece na lista de dados. 
Freqüência esperada (expected frequency): Número de vezes que um 
valor da variável deve se repetir se a hipótese nula for verdadeira ou 
ainda número de vezes que um valor da variável deve se repetir de 
acordo com um determinado modelo. 
Freqüência observada (observed frequency): Número de vezes que o 
valor de uma variável se repete. 
Frequência Relativa ( fri ): é o quociente entre a frequência absoluta 
do valor da variável e o número total de observações. 
Frequência Relativa Acumulada ( Fri ): é a soma das frequências 
15 
 
relativas anteriores com a frequência relativa desse valor. 
Frequência relativa acumulada de um valor da variável: é o 
somatório da sua frequência relativa com todas as anteriores (as dos 
valores anteriores). 
Frequência relativa de um valor da variável: é o quociente entre a 
sua freqüência absoluta e o número total de dados. 
Função Cumulativa: função que indica para cada valor real x a 
frequência absoluta (ou relativa) de observações com intensidade 
menor ou igual a x. A representação gráfica desta função é em forma 
de escada. 
Função de distribuição (cumulative distribuition function): A função 
de distribuição acumulada ou simplesmente função de distribuição 
de uma variável aleatória é definida em cada valor "x" real como 
sendo F(x) = P(X £ x). 
Gráfico Circular: representado por um círculo que está dividido em 
sectores cujas amplitudes são proporcionais à frequência que lhe 
corresponde. 
Gráfico de Barras: é constituído por barras, horizontais ou verticais, 
de comprimento proporcional à frequência. 
Graus de liberdade (degree of freedon): É a quantidade informações 
(variáveis) livres que serão utilizadas para o cálculo de uma 
estatística (fórmula). O número de valores independentes que serão 
utilizados na estimativa de um parâmetro. Em geral, o número de 
graus de liberdade de uma estimativa é igual ao número de valores 
utilizados no seu cálculo menos o número de parâmetros estimados 
no cálculo intermediário para a sua obtenção. Assim para calcular a 
média de uma amostra de tamanho "n", são necessários as "n" 
observações fazendo com que esta estatística tenha "n" graus de 
liberdade. Já a estimativa da variância através de uma amostra de 
tamanho "n" terá "n - 1" graus de liberdade, pois para a obtenção da 
variância amostral é necessário antes o cálculo da média amostral.Graus de liberdade: é um conceito ligado ao número de dados 
disponíveis (livres) para o cálculo da estatística. 
H1: As atitudes em relação à Matemática interferem na formação das 
atitudes em relação à Estatística. (rxy ¹ 0) 
Hipótese alternativa (alternative hipothesis): No teste de hipóteses é 
a hipótese que ser provar. É geralmente uma desigualdade. 
Hipótese alternativa (H1): As hipóteses de uma pesquisa devem 
16 
 
enunciar-se por propostas tão claras e específicas quanto possível, 
via de regra, é o que você quer mostrar, por exemplo: “as atitudes 
em relação a Matemática interferem diretamente na formação das 
atitudes em relação à Estatística” 
Hipótese alternativa: hipótese que será considerada como aceitável, 
caso a hiptótese nula seja rejeitada. 
Hipótese nula (Ho): A hipótese nula é a negação da hipótese 
alternativa, por isso, via de regra, você sempre torce para que ela 
seja rejeitada, como no caso seguinte: “as atitudes em relação a 
Matemática não interferem na formação das atitudes em relação à 
Estatística”. Está é a hipótese que esta sendo testada por qualquer 
teste estatístico. A se tomar uma decisão estatística, existem duas 
possibilidades de erro: o Erro de tipo I: rejeitar a hipótese nula (Ho), 
quando ela é verdadeira e, o Erro de tipo II: aceitar a hipótese nula 
(Ho), quando ela é falsa. Infelizmente, quando a probabilidade de 
cometer um diminui, a probabilidade de cometer o outro aumenta. 
Assim, os testes estatísticos foram delineados para controlar o erro 
de tipo I, chamado de nível de significância. 
Hipótese nula (null hipothesis): No teste de hipóteses é a hipótese 
que representa o que já se conhece e é formulada com o objetivo de 
ser rejeitada. 
Hipótese nula: hipótese que é colocada a prova em teste de hipótese. 
Em geral indica uma igualdade a ser contestada. 
Hipótese: Uma hipótese é um enunciado formal das relações 
esperadas entre pelo menos uma variável independente e uma 
variável dependente. Nas pesquisas exploratórias, as hipóteses 
podem se tornar questões de pesquisa. Estas questões pela sua 
especificidade, devem dar testemunho do trabalho conceitual 
efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta 
interpretável. 
Histograma: é um gráfico de barras em que a área destas é 
proporcional à frequência, não havendo espaço entre as mesmas. Só 
se utiliza em variáveis quantitativas contínuas. 
Histograma (histogram): Gráfico de colunas justapostas (retângulos) 
onde a base é a amplitude da classe e a altura é a densidade ou a 
densidade relativa da classe. É utilizado, normalmente, para 
representar uma variável contínua. 
Ho: As atitudes em relação à Matemática não interferem na formação 
das atitudes em relação à Estatística (rxy = 0) 
17 
 
Homocedasticidade ou igualdade de variâncias: Este pressuposto 
exige que o nível de dispersão da variável dentro dos grupos seja 
similar. O SPSS automaticamente testa esta hipótese: Ho: s1 = s2 = 
s3 = s4, através do teste de Levene. 
Independência (independence): Em teoria de probabilidade, para 
dizer que dois eventos sejam independentes, significa intuitivamente 
que a ocorrência de um evento o faz nem mais nem mais menos o 
provável esse outro ocorre. 
Inferência Estatística (inferential statistics): A utilização de 
amostras de uma população com o objetivo de tomar decisões sobre 
a população. 
Interação (interaction): Em estatística, interação é um termo em a 
modelo estatístico adicionado quando o efeito de dois ou mais 
variáveis não for simplesmente aditivo. Tal termo reflete que o efeito 
de uma variável depende dos valores de um ou de mais outras 
variáveis. 
Intercepto (da reta de regressão: Y = a + b * X): É o valor de Y, 
quando X = 0. A maioria das vezes não faz sentido interpretar este 
valor. 
Intervalo de confiança (confidence interval): A estimativa de um 
parâmetro populacional através de um intervalo de valores ao invés 
de um único valor. 
Intervalo de confiança: É um intervalo centrado na estimava pontual, 
cuja probabilidade de conter o verdadeiro valor do parâmetro é igual 
ao nível de confiança.a: É a probabilidade de erro na estimação por 
intervalo. 
ISS (Intelligent Statistical Software): Software estatístico 
inteligente. 
Kruskall-Wallis (Kruskall-Wallis): Ver teste de Kruskall-Wallis. 
Lambda de Wilks (Wilks's lambda): É um teste multivariado para 
verificar diferenças de médias para os casos de múltiplas variáveis 
dependentes intervalares e múltiplos grupos (mais de dois) 
formados pelas variáveis independentes. O teste t, o T de Hotelling e 
o teste F são casos especiais deste teste. 
Logit (logit): Se U for uma variável definida no intervalo [0; 1], então 
a transformação que associa a cada valor "u", neste intervalo, um 
valor "v" no intervalo (-¥; +¥) é denominada de logit (ou logística) e 
definida por: v = logit(u) = ln[u/(1 - u)]. A transformação inversa é 
18 
 
executada por: logit-1(v) = ev/(1 + ev). 
Matriz de correlação: É uma matriz quadrada, simétrica, cuja 
diagonal é formada pela unidade, pois trata-se da correlação da 
variável com ela mesma, e em cada interseção linha (i) coluna (j) a 
correlação das variáveis Xi e Xj. 
Matriz de covariância: É uma matriz quadrada, simétrica, cuja 
diagonal contém a variância da variável e em cada interseção linha 
(i) coluna (j) a covariância das variáveis Xi e Xj. 
Máximo(maximum): É o maior valor de um conjunto de dados. 
Média amostral: (X, se lê X barra), é uma variável aleatória, função 
dos valores da amostra, é definida como a soma de todos os valores 
da amostra dividido pelo número de observações da amostra. Serve 
para estimar a média populacional. 
Média aritmética: é o valor que se obtém dividindo a soma dos 
valores pelo número de dados. 
Mediana: o valor que está no centro da sequência dos dados quando 
ela está ordenada de forma crescente ou decrescente. Quando o 
número de valores é impar, é só o valor central, e quando o número 
de valores é par, somam-se os dois valores centrais e dividem-se por 
dois (média aritmética). 
Medida de associação (Measure of association): Um valor que 
fornece uma idéia da força do relacionamento (e direção) entre duas 
ou mais variáveis. 
Medidas de Dispersão: é um conjunto de medidas (Amplitude, 
Variância e Desvio Padrão) utilizadas no estudo da variabilidade de 
uma determinada distribuição, permitindo obter uma informação 
mais completa acerca da "forma" da mesma. 
Medidas de Localização: é um conjunto de medidas (Média, Mediana, 
Moda e Quartis) que representam de uma forma global um conjunto 
de dados. 
Medidas de Tendência Central: o mesmo que Medidas de Localização. 
Medidas de tendência central: Moda, Mediana, Média 
Melhor estimador linear não-viciado (best linear unbiased 
estimator): Um estimador é dito estimador linear se ele é uma 
combinação linear das observações amostrais. É dito o melhor 
estimador linear não-viciado se de todas as combinações lineares da 
19 
 
amostra ele apresentar a menor variância. 
Moda ( m ): observação que ocorre com maior frequência numa 
amostra. 
Moda: é o valor mais freqüente da variável. 
Modelo ARIMA (AutoRegressive Integrated Moving Average): É um 
modelo utilizado em Séries Temporais e que pode representar o 
comportamento dinâmico que muitos conjuntos de dados 
apresentam. 
Modelo autoregressivo (autoregressive model). 
Modelo log-linear (log-linear model). 
Monitoramento: Observações contínuas, sem ter uma ação com base 
no resultado. 
Multicolinearidade: Este é um pressuposto importante na análise 
regressão múltipla, pois se uma variável independente for uma 
combinação linear de outras variáveis independentes, coloca em 
risco toda a análise. Não adianta tentar modelar uma variável em 
função de várias variáveis correlacionadas,essas não incrementam o 
poder explicativo do modelo. Neste caso, use o modelo de regressão 
stepwise, backward ou foreward. 
Nível de confiança (confidence level): É a probabilidade de que um 
intervalo de confiança contenha o valor do parâmetro que ele se 
propõe a estimar. 
Nível de significância (alfa): É definida como a probabilidade de 
cometer o erro de tipo I, ou seja, rejeitar a hipótese nula (Ho), 
quando ela é verdadeira. Por exemplo: 
Nível de significância (alpha level): É a probabilidade de se cometer 
erro do tipo I no teste de hipóteses, isto é, a probabilidade de se 
rejeitar a hipótese nula quando ela é verdadeira. 
Normal: Uma variável quantitativa segue uma distribuição normal, se 
sua distribuição de frequências tem o formato similar ao de um sino, 
ou seja a maioria dos valores se concentram em torno da média e, a 
medida que se afasta do centro as observações são cada vez mais 
raras. Essa distribuição é simétrica. Muitas variáveis têm essa 
distribuição, tais como altura das pessoas adultas do sexo masculino, 
coeficiente de inteligência, etc. Para examinar visualmente, você 
pode fazer o histograma com a curva ajustada, o SPSS faz isso. O 
teste que checa a normalidade de uma variável é o teste de Lilliefors, 
que se encontra no comando EXPLORE do SPSS. A hipótese nula é 
20 
 
que a variável segue uma distribuição normal, por isso você espera 
aceitar Ho, e espera que o p-valor seja maior do que o nível de 
significância especificado por você. 
Normalidade: dizer que há normalidade ou que os dados são 
normalmente distribuídos significa que eles seguem uma distribuição 
normal, isto é, valores concentrados simetricamente em torno da 
média e quanto maior a distância da média, menor a freqüência das 
observações. 
Número aleatório (random number): Número gerado num 
computador através de um algoritmo recursivo. Na realidade o 
correto seria dizer número pseudo aleatório uma vez que as 
seqüências geradas são reprodutíveis. 
Número de repetições: é o número de unidades experimentais que 
recebem o mesmo tratamento. 
Nuvem de Pontos: o mesmo que Diagrama de Dispersão. 
Odds ratio: chance de se observar casos expostos ao fator de risco 
sobre a chance de se observar controles expostos ao fator de risco. 
Se a exposição ao fator de risco for a mesma para casos e controles o 
odds ratio vale 1. Também é chamado de razão de chances (odds 
ratio). 
Organização dos Dados: consiste em "resumir" os dados através da 
sua contagem e agrupamento. 
Parâmetro: É uma medida usada para descrever, de forma resumida, 
uma característica da população, Por exemplo, a média populacional 
(m), a proporção populacional (p), a variância populacional (s), o 
coeficiente de correlação (r), etc. Os parâmetros, via de regra, são 
valores desconhecidos e desejamos estimar, ou testar, a partir dos 
dados de uma amostra. 
Pictogramas: são gráficos onde se utilizam figuras ou símbolos 
alusivos ao problema em estudo. 
Planificação do Problema: consiste na determinação de um processo 
para resolver o problema e, em especial, como obter informações 
sobra a variável em estudo. 
21 
 
Poder do teste (power of a statistical test): Denomina-se poder de 
um teste estatístico a probabilidade de aceitar a hipótese nula 
quando ela é verdadeira. A probabilidade de se cometer erro do tipo 
II, isto é, aceitar a hipótese nula quando ela é falsa é representada 
por b, então o poder do teste será 1 - b = P(Aceitar H0 /H0 é 
verdadeira), isto é o poder do teste é definido como a probabilidade 
de não se cometer erro do tipo II. 
Poder do teste: corresponde a 1-β 
Polígono de Frequências: são gráficos com aspecto de linhas 
quebradas. Constroem-se unindo por segmentos de recta os pontos 
médios das bases superiores dos rectângulos de um histograma. 
População: é um conjunto de seres com uma dada característica em 
comum e com interesse para o estudo. 
População (population): Conjunto de elementos de interesse com 
pelo menos uma característica em comum. 
População: Toda questão de pesquisa define um universo de objetos 
aos quais os resultados do estudo deverão ser aplicados. A 
população alvo, também, chamada população estudada, é composta 
de elementos distintos possuindo um certo número de características 
comuns (pelo menos uma). Essa característica comum deve delimitar 
inequivocamente quais os elementos que pertencem à população e 
quais os que não pertencem. Estes elementos, chamados de 
unidades populacionais, são as unidades de análise sobre as quais 
serão recolhidas informações. 
Precisão absoluta: é a precisão especificada diretamente e na mesma 
unidade da estimativa que se pretende calcular. 
Precisão relativa: é a precisão especificada não diretamente como 
precisão absoluta, mas sim proporcionalmente como porcentagem 
em relação ao verdadeiro valor. 
Pressuposto de independência: é chave para a maioria das 
estatísticas. Isto significa que o resultado de uma observação não 
interfere no resultado de outra observação. Por exemplo, a nota de 
um aluno não interfere na nota de um outro aluno. Já esse 
pressuposto é quebrado para amostras relacionadas como, por 
exemplo, passar uma prova antes de uma intervenção e a mesma 
prova (ou outra) depois da intervenção; essas duas medidas são 
correlacionadas, uma vez que os sujeitos são os mesmos. Neste 
caso, deve-se utilizar o teste para dados emparelhadas, ou ANOVA 
com medidas repetidas. Logo, cuidado com os estudos longitudinais, 
22 
 
em que se acompanha os mesmos sujeitos em vários momentos. 
Pressuposto de normalidade: é chave para toda a estatística 
paramétrica, por essa razão você sempre deve checar a validade do 
mesmo. Contudo, quando sua amostra for suficientemente grande (n 
> 30), dependendo do formato da distribuição, o Teorema Central do 
Limite garante a convergência da média amostral para a 
normalidade, veja a página 197 do livro de Estatística Básica de 
Moretin e Bussab. 
Probit (probit): Se U for uma variável definida no intervalo [0; 1], 
então a transformação que associa a cada valor "u", neste intervalo, 
um valor "v" no intervalo (-¥; +¥) é denominada de probit se v = F-
1(u), onde F é Função de Distribuição da Normal Padrão. 
Proporção amostral: ( p se lê p barra), serve para estimar a 
proporção populacional. 
Proporção populacional (p): É um valor resultante do cociente entre 
o número de casos favoráveis e o número de casos possíveis na 
população. Por exemplo: proporção de eleitores que votarão no 
candidato XYZ nas próximas eleições. 
p-valor: É a probabilidade de cometer o erro de tipo I (rejeitar Ho 
quando ela é verdadeira), com os dados de uma amostra específica. 
Este valor é dado pelo pacote estatístico, assim o comparamos com o 
nível de significância escolhido e tomamos a decisão. Se o p-valor for 
menor que o nível de significância escolhido rejeitamos Ho, caso 
contrário, aceitamos Ho. 
P-value: corresponde ao menor nível de significância que pode ser 
assumido para rejeitar a hipótese nula. Dizemos que há significância 
estatística quando o p-value é menor que o nível de significância 
adotado. Por exemplo, quando p=0.0001 pode-se dizer que o 
resultado é bastante significativo, pois este valor é muito inferior aos 
níveis de significância usuais. Por outro lado, se p=0.048 pode haver 
dúvida pois, embora o valor seja inferior, ele está muito próximo ao 
nível usual de 5%. 
Quartil (quartil): Valores (são três) que dividem um conjunto de 
dados em quatro partes iguais. ( Q1 a Q3 ) 
Qui-quadrado (chi-square): teste qui-quadrado 
Razão de chances (odds ratio): É a chance a favor dividida pela 
chance contra, ou seja é o número de casos favoráveis dividido pelo 
número de casos não favoráveis. 
23 
 
Recenseamento: o mesmo que Censo. 
Recolha de Dados: é a primeira etapa depoisde definido o problema 
em estudo. 
Reta de Regressão: é a recta traçada sobre uma dada Núvem de 
Pontos, sendo um modelo matemético que pretende descrever a 
relação existente entre duas variáveis unidimensionais de uma 
distribuição bidimensional. 
Redução de categorias (bracketing, collapsing or grouping): É a 
operação de combinar categorias ou intervalos de valores de uma 
variável para produzir um número menor de categorias. 
Região crítica ou de rejeição (critical region or region of rejection): A 
área sob a distribuição amostral que é determinada de acordo com o 
nível de significância do teste. 
Relações Estatísticas: são relações que se podem estabelecer entre 
determinadas variáveis de um problema em estudo. 
Risco relativo: proporção de pessoas expostas ao fator de risco que 
desenvolveram a doença sobre a proporção de pessoas não expostas 
que desenvolveram a doença. Vale 1 se as pessoas expostas e não 
expostas desenvolveram a doença na mesma proporção. 
Separador de Frequências: é um tipo de tabela que permite ter uma 
percepção imediata do aspecto global dos dados sem perda da 
informação contida na colecção dos dados inicial. 
Somatório ( å ): representa, de forma abreviada, uma soma. 
Sondagem: é o estudo estatístico que se baseia numa parte da 
população, isto é, numa amostra que deve ser representativa dessa 
população. 
Surveillance: Observações contínuas com um plano de ação com base 
nos resultados 
Survey: Observação com um objetivo/meta específica, semelhante a 
um estudo epidemiológico transversal. 
T quadrado de Hotteling (Hotelling's t-square): É um teste 
multivariado para verificar diferenças de médias para casos onde 
existam múltiplas variáveis dependentes intervalares e dois grupos 
formados por variáveis independentes categóricas. Para passar do 
traço de Hotelling ou traço de Lawley-Hotelling para o T quadrado 
deve-se multiplicar o traço por (n - l), onde "n" é o tamanho da 
amostra considerando todos os grupos e "l" é o número de 
24 
 
subgrupos. 
Tabela de Frequências: são tabelas onde se apresentam os dados por 
classes e as frequências respectivas. 
Tamanho da Amostra: é o número de elementos que constituem uma 
dada amostra. 
Teste bicaudal: teste cujo objetivo é testar apenas se as médias (ou 
proporções) são iguais ou diferentes e não estabelecer qual delas é 
maior ou menor. 
Teste bilateral (two-tailed test): Um teste é dito bilateral se a região 
crítica estiver dividida meio a meio entre valores superiores e 
inferiores. 
Teste da soma dos postos de Wilcoxon (Wilcoxon's rank sum test): 
Um nome alternativo para o teste de Mann-Whitney. 
Teste de esfericidade de Bartlett (Bartlett's sphericity test): Testa a 
hipótese nula de que a matriz das covariâncias das variáveis 
dependentes ortonormalizadas é proporcional a uma matriz 
identidade. 
Teste de esfericidade de Mauchly (Mauchly sphericity test): Testa a 
hipótese nula de que a matriz populacional de correlações é uma 
matriz identidade. Se o valor da estatística qui-quadrado obtido é 
significativo então a matriz de correlações a ser analisada é não 
aleatória. Neste caso é conveniente utilizar o teste de Humphrey e 
Ilgen. 
Teste dos sinais de Wilcoxon (Wilcoxon's signed rank test): Um 
teste não paramétrico ou de distribuição livre para testar a diferença 
entre duas populações utilizando amostras emparelhadas. O teste 
toma por base as diferenças absolutas dos pares de observações das 
duas amostras, ordenados de acordo com o seu valor onde cada 
posto (diferença) recebe o sinal da diferença original. A estatística 
teste é a soma dos postos positivos. 
Teste exato de Fisher (Fisher's exact test): Um teste de 
independência entre duas variáveis categóricas dicotômicas. Foi 
introduzido por Sir Ronald A. Fisher em 1935. O teste envolve o uso 
da distribuição hipergeométrica para calcular a probabilidade de uma 
determinada combinação de totais parciais (somas de linhas ou 
colunas) sob a hipótese nula de independência. 
Teste monocaudal: teste cuja hipótese alternativa é uma 
desigualdade, ou seja, deseja-se testar se o valor observado é maior 
25 
 
ou menor ao valor crítico correspondente à hipótese nula. 
Teste não paramétrico (nonparametric test): Um teste não 
paramétrico testa associações, dependência/independência e 
modelos ao invés de parâmetros. 
Teste Q de Cochran (Cochran's Q test). 
Teste qui-quadrado (chi square test). 
Teste t - de Student (t test or Student t test): Teste paramétrico que 
utiliza duas amostras independentes. Testa a diferença entre duas 
médias populacionais quando os desvios padrões populacionais são 
desconhecidos (o que ocorre na grande maioria dos casos). 
Teste t: teste estatístico cujo objetivo é testar a igualdade entre duas 
médias. O teste supõe independência e normalidade das 
observações. As variâncias dos dois grupos podem ser iguais ou 
diferentes, havendo alternativas de teste para as duas situações. 
Neste serviço, consideramos apenas o caso em que as variâncias são 
iguais. 
Teste U de Mann-Whitney (Mann-Whitney U test). 
Teste unilateral (one-tailed test): Um teste é dito unilateral quando a 
região crítica ou região de rejeição está situada à direita 
Teste Z: teste estatístico cujo objetivo é testar a igualdade entre uma 
média conhecida (numa população ) e uma média calculada pelo 
pesquisador (numa amostra). O teste supõe normalidade das 
observações. 
Unidade Amostral: a menor divisão do material que se mede em 
separado 
Unidade Estatística ou Indivíduo: é cada um dos elementos da 
população. 
Unidade Experimental: a menor divisão do material experimental que 
poderia receber qualquer tratamento. 
Validade externa: refere-se à inferência estatística, ou seja, a 
generalização dos resultados para toda a população de interesse. 
Validade interna: é a validação dos resultados apenas para a amostra 
considerada, ou seja, é a validade das inferências para os indivíduos 
que participaram do estudo. Os cálculos de tamanho de amostra 
feitos aqui são baseados principalmente nas técnicas estatísticas a 
serem utilizadas. Entretanto, é importante ressaltar que, o fato do 
26 
 
número de observações ser suficiente não garante a utilização da 
técnica estatística. Em geral, existem algumas suposições que devem 
ser satisfeitas como por exemplo, a normalidade das observações em 
testes de comparação de médias. 
Valor crítico (critical value): Valor da distribuição amostral que 
separa a região de região da de não rejeição. 
Variância ( σ2 ): é a medida que permite avaliar o grau de dispersão 
dos valores da variável em relação à média. 
Variância (variance): É a média do quadrado das distâncias 
euclidianos que cada ponto do conjunto está da média aritmética. 
Variância amostral (s2): Serve para estimar a variância populacional. 
Variância populacional (s2): É um valor que mede o grau de 
dispersão dos valores da variável, na população, em relação à média 
populacional. Definida como a soma dos quadrados dos desvios dos 
valores da variável em relação a sua média, divido pelo número de 
observações: Soma[(Xi – média)2]/N 
Variância relativa (relative variance): É o quociente entre a variância 
e o quadrado da média. 
Variáveis Contínuas: são as variáveis que podem tomar qualquer 
valor de um determinado intervalo. 
Variáveis Discretas: são as variáveis que podem tomar um número 
finito ou uma infinidade numerável de valores. 
Variáveis Qualitativas: o mesmo que Atributos Qualitativos. 
Variáveis Quantitativas: o mesmo que Atributos Quantitativos. 
Variável (variable): Uma característica comum a todos os dados. 
Variável aleatória: É uma variável cujo valor numérico atual é 
determinado por probabilidades. Por exemplo, X: pontuação na 
escala de atitudes em relação à Estatística,Y: número de disciplinas 
reprovadas em Estatística, etc. Observe que o resultado depende do 
aluno selecionado. A variável aleatória tem uma distribuição de 
probabilidades associada, o que nos permite calcular a probabilidade 
de ocorrência de certos valores. 
Variável contínua: variável cujos possíveis valores formam um 
intervalo de números reais e que resultam, normalmente, de uma 
mensuração, como por exemplo peso, altura e pressão arterial. 
Variável dependente (VD): Mede o fenômeno que se estuda e que se 
27 
 
quer explicar. São aquelas cujos efeitos são esperados de acordo 
com as causas. Elas se situam, habitualmente, no fim do processo 
causal e são sempre definidas na hipótese ou na questão de 
pesquisa. No nosso exemplo: desempenho em estatística e atitudes 
em relação à Estatística. 
Variável dicotômica: variável em que só existem duas respostas 
possíveis, como por exemplo sim/não, doente/não doente. 
Variável discreta: variável quantitativa cujos possíveis valores 
formam um conjunto finito ou enumerável de números e que 
geralmente resultam de uma contagem, como por exemplo o número 
de filhos. 
Variável independente (VI): São aquelas variáveis candidatas a 
explicar a(s) variável(eis) dependente(s), cujos efeitos queremos 
medir. Aqui devemos ter cuidado, pois mesmo encontrando relação 
entre as variáveis isto, não necessariamente, significa relação 
causal. 
Variável qualitativa (ou categórica) nominal: São aquelas cujas 
respostas podem ser encaixadas em categorias, sendo que cada 
categoria é independente, sem nenhuma relação com as outras: sexo 
(masculino, feminino), raça (branco, preto, outro), etc. 
Variável qualitativa (ou categórica) ordinal: São aquelas cujas 
categorias mantém uma relação de ordem com as outras, que podem 
ser regulares ou não (existe uma ordem natural nas categorias): 
classe social (alta, média, baixa), auto-percepção de desempenho em 
Matemática (péssimo, ruim, regular, bom , ótimo), etc. A rigor, no 
tratamento estatístico das variáveis categóricas, não existe diferença 
se ela for nominal ou ordinal, a única observação é que quando você 
está lidando com uma variável ordinal, é aconselhável manter a 
ordem natural das categorias, de menor para maior, na hora da 
apresentação, seja em tabela ou em gráficos. 
Variável quantitativa contínua: Resultados de mensurações, podem 
tomar infinitos valores: pontuação na escala de atitude, nota na 
prova de matemática, pontuação no vestibular, etc. 
Variável quantitativa discreta: São aquelas resultantes de contagens, 
constituem um conjunto finito de valores: número de filhos, número 
de reprovações em matemática, idade em anos completos, etc. 
Variável: é uma característica da população. Toda questão de 
pesquisa define um número de construções teóricas que o 
pesquisador quer associar. O grau de operacionalização destas 
construções não faz parte de um consenso. Por essa razão, a seção 
28 
 
que trata das definições das variáveis deve permitir ao leitor avaliar 
a adequação dos instrumentos utilizados, as variáveis escolhidas e 
as construções teóricas descritas no quadro conceitual. 
Vício (bias): Conceito referente a uma estatística ou estimador. Um 
estimador é dito sem vício (não-viciado), não- tendencioso ou 
imparcial se a média de sua distribuição amostral coincide com o 
parâmetro a ser estimado. 
Wavelet (Wavelet): É uma função matemática útil para 
processamento de sinais e compressão de imagens, embora seu uso 
com estes propósitos seja recente a teoria não é nova. Os princípios 
são semelhantes ao da Análise de Fourier. Na WWW wavelets tem 
sido utilizadas para a compressão de imagens com mais sucesso do 
que o método familiar JPEG. 
 
 
 
Referencias: 
http://www.pucrs.br/famat/statweb/glossarios/gloesta/ge_yz.htm 
http://www2.esec-miguel-torga.rcts.pt/Projectos/estatistica.pdf 
http://www.educ.fc.ul.pt/icm/icm2003/icm24/dicionario.htm 
http://www.unibero.edu.br/glossarios_def.asp 
http://www.socio-estatistica.com.br/Edestatistica/glossario.htm

Outros materiais

Outros materiais