Buscar

_Conceitos Analise de dados_Probabilidade

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Profª Josefa A . Alvarez 1 
Alguns conceitos: 
 
1.POPULAÇÃO: 
 É um conjunto de elementos com alguma característica comum. 
Exemplos: habitantes de São Paulo; alunos da Universidade XYZ; sócios de um clubeTUV; 
pinheiros do município de ABC. 
CENSO: 
É o levantamento efetuado em toda a população. Todos os sócios de um clube são pesquisados, 
por exemplo, e não apenas uma parte deles. Geralmente pesquisas em toda a população 
implicam em custo elevado e muito tempo, sendo necessário o estudo de apenas parte da 
população, ou amostra. 
2. AMOSTRA: 
 É apenas uma parte da população. 
 Exemplos de pesquisas amostrais: a) pesquisas de opinião para conhecer o provável eleito em 
eleições; b) o IBGE faz, periodicamente, pesquisas sobre emprego, desemprego, inflação, etc.; 
c) redes de rádio e televisão realizam pesquisas para conhecer a popularidade dos programas; 
d) biólogos marcam pássaros, peixes, etc. para uma previsão sobre hábitos de migração; e) os 
dirigentes de uma empresa de ônibus precisam determinar o consumo de óleo diesel.; f) 
verificar as causas de uma doença. 
AMOSTRAGEM: 
 É o processo que estabelece critérios para a seleção de uma amostra. Quando não é 
possível realizar um estudo sobre todos os elementos da população utiliza-se a amostragem. 
PARÂMETRO: 
Descreve uma informação sobre uma população. Por exemplo: a idade média de todos os alunos 
de uma escola de 2o grau é 16,5 anos. 
ESTATÍSTICA AMOSTRAL (ou apenas estatística): 
Descreve a informação contida em uma amostra. Por exemplo: a idade média de uma amostra 
de alunos de uma escola de 2o grau é 17 anos. 
3.VARIÁVEL: 
É toda característica que pode variar de um indivíduo para outro. 
 Pode ser qualitativa ou quantitativa. 
 
 Variável qualitativa (var.categóricas ou atributos): é aquela que fornece dados de 
natureza não numérica. Mesmo que os dados possam ser codificados numericamente (masculino 
= 1; feminino = 2), os números são apenas símbolos sem valor quantitativo. 
 A variável encontra-se no nível nominal quando diferencia-se uma categoria da outra 
somente através da denominação da categoria. Os dados são identificados pela atribuição de 
um “nome”, não existindo nenhuma relação de ordem entre as categorias. 
Por exemplo: profissão, curso, sexo, nacionalidade. 
 Ao nível ordinal é possível além de identificar diferentes categorias, reconhecer graus 
de intensidade entre elas. Indivíduos podem ser classificados como mais perturbado; mais 
agressivo; mais imaturo. 
 Outros exemplos: grau de instrução, conceitos, dias da semana. 
 
 Variável quantitativa: é aquela em que os dados são numéricos e expressam 
quantidades. 
A variável é denominada discreta quando assume apenas valores determinados dentro de 
certo intervalo. Geralmente são números inteiros. 
Por exemplo: número de irmãos; número de acertos; número de acidentes. 
Profª Josefa A . Alvarez 2 
 A variável é contínua quando pode assumir infinitos valores em certo intervalo. 
 Por exemplo: peso, altura, temperatura, diâmetro. 
 
 MEDIDAS ESTATÍSTICAS: 
Podem ser divididas em medidas de tendência posição e medidas de dispersão. 
 
 4.MEDIDAS DE POSIÇÃO: 
 
4.1 Média aritmética: 
É a soma dos valores da variável dividida pelo número de valores. Ou seja: 
 
n
xX ¦ onde: n = é o tamanho da amostra. 
O símbolo da média depende dos dados constituírem uma amostra ou uma população. Na 
população utilizam-se letras gregas, geralmente, para representar as medidas. Portanto a 
fórmula para a média na população será: 
N
x¦ P onde: N = é o tamanho da população. 
 A média aritmética de uma distribuição de freqüências por pontos ou por classes é dada 
por: 
n
fx
X ¦ onde: n = ¦ f 
Exemplo: 
A média do número de faltas de um grupo de alunos da Escola XYZ da TAB.2 é: 
7,1
60
102 ¦
n
fx
X faltas. 
N.de faltas ( x ) N.de alunos ( f ) xf 
0 12 0 
1 13 13 
2 20 40 
3 11 33 
4 4 16 
 ¦ 60 102 
Média Aritmética Ponderada : 
A média aritmética ponderada é calculada considerando o peso de cada variável. 
É o quociente entre a soma dos produtos das variáveis e seus respectivos pesos pela soma 
total de seus pesos. 
¦
¦ 
i
ii
w
xw
x 
Considere o quadro de notas que um aluno obteve em matemática : 
Tipo de avaliação Nota (xi) Peso (fi) Total de ptos. (xifi) 
Prova 8,0 3 24 
Trabalho 7,0 5 35 
Seminário 5 2 10 
Total 10 69 
x = (3 x 8 + 5 x 7 + 2 x 5)/10 = (24 + 35 + 10)/10 = 69/10 = 6,9 
4.2 Moda: 
 A moda é o valor que mais se repete, mais freqüente, de um conjunto de dados. A 
moda pode não ser única, isto é, um conjunto pode ser bimodal, trimodal, etc. ou mesmo amodal 
(sem moda). 
Profª Josefa A . Alvarez 3 
 Exemplo: 
Verificar o valor da moda, para os seguintes conjuntos de dados: 
 a) 12, 18, 20, 15, 12, 19, 15, 12. >>> Mo = 12 
 b) 15, 19, 21, 12, 15, 21, 17, 14. >>> Mo = 15 e Mo = 21 
 c) 12, 16, 13, 18, 20, 14, 25, 11 >>> amodal. 
 Exemplo: 
 Dado o conjunto: 1 2 2 3 3 4 4 4 7 9 15 
 A moda é 4. 
Se a variável for qualitativa nominal, como por exemplo, estado civil, a moda será o estado civil 
que mais se repetiu. 
Exemplo: 
Na distribuição de freqüência, a moda é obtida da mesma maneira que no caso dos dados não 
agrupados, ou seja, é o valor que possui maior freqüência. A 
Assim, a moda da TAB. é 2 faltas. 
4.3 Mediana: 
 A mediana de um conjunto ordenado de valores é definida como sendo o valor que 
separa o conjunto em dois subconjuntos do mesmo tamanho. Assim se “n” (número de 
elementos) é ímpar a mediana é o valor central do conjunto. Caso contrário a mediana é a 
média dos valores centrais do conjunto. 
 Observe-se que s Mediana divide o grupo ordenado de valores em 2 partes iguais (50% 
acima e 50% abaixo da Mediana). 
 Se o número de itens é par, a Mediana será a media dos 2 valores do meio. Se o número 
de itens for ímpar, a Mediana será o valor do meio. 
 Simbologia da mediana populacional: Md 
 Mediana (Md): é a medida que divide a distribuição em duas partes iguais. 
Podemos determinar a posição da mediana pelas fórmulas: 
 n ímpar: Md = x(n+1)/2 n par: Md = (xn/2 + xn/2+1)/2 
 EXEMPLO: Calcular a mediana para os seguintes conjuntos de dados: 
 a) 12, 15, 14, 19, 18, 10, 12. 
 Ordenando os dados: 10, 12, 12, 14, 15, 18, 19. Posição da mediana = (7 + 1) / 2 = 4 >>> a 
mediana é o 4º valor. Então o valor da mediana para estes dados é Md = 14. 
 b) 23, 25, 29, 18, 30, 19 
 Ordenando os dados: 18, 19, 23, 25, 29, 30. Posição da mediana = (6 + 1) / 2 = 3,5 
 a mediana é o valor médio entre o 3º e o 4º valores, ou seja: Md = (23 + 25) / 2 = 24. 
 
 c) Para o conjunto: 15 18 21 32 45 46 49 
 A mediana é: Me = 32 
 Ou seja, a mediana é o quarto valor na seqüência ordenada de elementos. 
 d) Se o conjunto fosse: 15 18 21 32 45 46 
 A mediana seria: Me = 26,50 
4.4 Separatrizes 
 Pode-se dizer que as separatrizes são uma medida de posição que estende a definição de 
mediana, dividindo a série em quatro, dez ou cem partes iguais. São elas: Quartis, Decis e 
Percentis. 
 
Quartil - Divide a série de dados em quatro partes. 
Suponha a reta de valores de uma série. Para que os quartis dividam essa série em quatro 
partes iguais, precisamos da presença apenas de três quartis. 
 
Profª Josefa A . Alvarez 4 
 Q1 Q2 Q3 
 
 
 
Q1 – Posição de determinada variável de tal maneira que 25% dos dados da série tem valor 
menor que o seu. E 75% dos dados tem valor superior ao seu. 
Q2 – Coincide exatamente com a mediana. 
Q3 - Posição de determinada variável de tal maneira que 75% dos dados da série tem valor 
menor que
o seu. E 25% dos dados tem valor superior ao seu. 
Quartis (Qi): são medidas que dividem a distribuição em quatro partes iguais. 
n ímpar: Q1 = x(n+1)/4; Q3 = x3(n+1)/4 
 n par: Q1 = (xn/4 + xn/4+1)/2; Q3 = (x3n/4 + x3n/4+1)/2 
 
5. Medidas de dispersão ou variabilidade: 
 
 5.1 Amplitude total 
(AT): É a única medida de dispersão que não tem na média o ponto de referência. 
Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o 
menor valor observado: 
AT = X máximo - X mínimo. 
Ex.: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: 
AT = 70 - 40 = 30 
Desvio médio, Variância e o Desvio padrão, indicam a dispersão dos valores da variável em 
relação a sua média. 
 
5.2 Desvio médio (DM) 
Avalia a dispersão dos dados de uma série estatística, em relação à sua respectiva média. 
DM = (Σ|di|) / n 
É a distância média em relação a média dos elementos de uma série. 
 Onde: (Σ|di|) ; é o somatório do módulo dos desvios;¦ � xxi 
 
 5.3 Variância absoluta: 
A variância é representada por s² (para amostra) e definida como sendo “a média dos 
quadrados dos desvios em relação à média aritmética”. Por desvio entende-se a diferença 
entre um valor do conjunto e a média. 
 
 � �
»
»
¼
º
«
«
¬
ª
�� �
�
 ¦ ¦¦
2
2
2
2
1
1
1
)(
n
x
x
nn
xx
s ii
i 
 Se os dados forem de uma população a variância será: 
 
 � �
»
»
¼
º
«
«
¬
ª
� 
�
 ¦ ¦¦ N
x
x
NN
x i
i
i
2
2
2
2 1)( PV 
 No caso de distribuição de freqüência o cálculo da variância será: 
� �
»
»
¼
º
«
«
¬
ª
�� �
�
 ¦ ¦¦ n
xf
xf
nn
xxf
s iiii
ii
2
2
2
2
1
1
1
)( 
 
Profª Josefa A . Alvarez 5 
onde xi: valores observados ou ponto médio 
 fi: frequência absoluta 
 n: tamanho da amostra 
 X : média amostral 
 
 
 5.4 Desvio padrão: 
 A variância por ser um quadrado não permite comparações com a unidade que se está 
trabalhando. Para se ter uma medida de variabilidade com a mesma unidade do conjunto 
utiliza-se a raiz quadrada da variância, que é denominada de desvio padrão. Assim a expressão 
para o desvio é: 
 2ss Na população será: 2VV 
Exemplo: 
Calcular a variância e o desvio padrão dos seguintes dados amostrais: 
 3 4 0 3 8 6 X = 24/6 = 4 ¦x² = 134 
A variância é: 6,7
16
24)
6
1(134 2
2 
�
�
 S E o desvio padrão: s = 2,76 
 5.5 Coeficiente de variação: 
 O coeficiente de variação é uma medida de dispersão relativa, isto é, não possui 
unidade de medida e é calculado por: 
 
X
sVC .. Usando os símbolos populacionais: P
V ..VC 
 Por não ter unidade de medida, o coeficiente de variação pode ser utilizado na comparação 
de duas ou mais séries de valores e conhecer a séria mais homogênea, uniforme. Ou seja, que tem 
menor variabilidade. 
 OBS.: Quanto maior o C.V. mais heterogêneo será o conjunto de dados. 
Exatidão: É o grau de concordância entre o resultado da medição e o valor verdadeiro 
convencional da grandeza medida. 
Precisão: É o grau de concordância entre medições independentes de uma característica 
dentro de condições específicas, medida através do desvio padrão. 
 Resumo das Propriedades da Soma, Subtração, Produto e Divisão: 
 O quadro abaixo poderá auxiliar nossa memória, no tocante às propriedades estudadas, 
e em relação às medidas já vistas: 
 Se tomarmos todos os elementos de um conjunto e os... 
 ...Somarmos a 
uma constante 
...Subtrairmos 
de uma 
constante 
...Multiplicarmos por 
uma constante 
...Dividirmos 
por uma 
constante 
A nova Média 
estará: 
Também 
somada a esta 
constante 
Também 
subtraída desta 
constante 
Também multiplicada 
por esta constante 
Também dividida 
por esta 
constante 
O novo Desvio 
Padrão 
estará: 
 
Inalterado 
 
Inalterado 
Também multiplicado 
por esta constante 
Também dividido 
por esta 
constante 
A nova 
Variância 
estará: 
 
Inalterada 
 
Inalterada 
Multiplicada pelo 
quadrado desta 
constante 
Dividida pelo 
quadrado desta 
constante 
 
Profª Josefa A . Alvarez 6 
6. Coeficientes de Assimetria e Curtose 
 Assimetria � �
s
xxAs
~3 � 
Se ~As~< 0,15 simétrica 0,15<~As~<1 => assimetria moderada ~As~>1 => assimetria é forte. 
7. Coeficiente de Curtose 
Uma medida de curtose muito usada na prática é o coeficiente percentílico de curtose, dado 
por: 
� �1090
2575
2 PP
PP
k �
� 
 
A determinação do tipo de curtose é feita com base nas relações a seguir: 
Leptocúrtica Platicúrtica Mesocúrtica 
Mais fechada que a curva normal Mais aberta que a curva normal É a própria curva normal. 
C< 0,263 C > 0,263 C = 0,263 
 
8. Gráficos 
8.1 Gráfico de Box-Plot: 
Define-se uma “caixa” com o nível superior dado pelo 3º quartil e o nível inferior pelo 1º 
quartil. A mediana é representada por um traço no interior da caixa e segmentos de reta são 
colocados da caixa até os valores máximo e mínimo que não sejam observações discrepantes 
(possíveis “outliers”). 
A representação gráfica através do Box-Plot informa, entre outras coisas, a variabilidade e a 
simetria dos dados. 
Box–plot ou Diagrama de Juntas 
 
 
1,5 d j d j 1,5 d j 
Q 1 Q 2 Q 3 
 
Exemplo 
16 15 18 26 17 12 15 14 18 10 13 14 16 15 20 
Q1=14 Mediana=15 Q3=18 IQ=18-14=4 n=15 
di
st
ân
ci
a
28
26
24
22
20
18
16
14
12
10
Boxplot of distância
 
Q3 
Q1 
Xmáximo 
Xminimo Q2 
Profª Josefa A . Alvarez 7 
8.2 Ramos e folhas 
Vantagem: não perde a informação sobre os dados. A idéia básica dividir cada observação em 
duas partes. Os ramos são colocados à esquerda e as folhas são colocadas à direita. 
69 84 52 93 61 74 79 65 88 63 
57 64 67 72 74 55 82 61 68 77 
Stem-and-Leaf Display Stem unit: 10 
Statistics 5 2 5 7 
Sample Size 20 6 1 1 345789 
Mean 70,25 7 24479 
Median 68,5 8 248 
Std. Deviation 11,14911 9 3 
Minimum 52 
Maximum 93 
8.3 Histograma: São gráficos de barras verticais nos quais as barras retangulares são 
construídas nos limites de cada classe. Os histogramas podem ser de freqüência, de 
freqüência relativa ou de percentagem. 
Polígono de Freqüências (ou percentagens): Os pontos do polígono são obtidos por 
perpendiculares traçadas a partir dos pontos médios das classes e de altura proporcional à 
freqüência (percentagem) de cada uma das classes. O polígono de percentagem é muito 
utilizado quando da comparação de dois ou mais conjuntos de dados. Lembrar que se utilizam 
as classes fictícias antecedente e sucedente com freqüências zero. 
Tabela completa de Distribuição de Freqüências 
Classes: fi fac Fr 
10 | 15 15 15 0,25 
15 | 20 19 34 0,32 
20 | 25 11 45 0,18 
25 | 30 7 52 0,12 
30 | 35 3 55 0,05 
35 | 40 4 59 0,07 
40 | 45 1 60 0,01 
¦ 60 
 
15
19
11
7
3
4
1
0
2
4
6
8
10
12
14
16
18
20
10|---15 15|---20 20|---25 25|---30 30|---35 35|---40 40|---45
classes
fr
eq
uê
nc
ia
 
 O Histograma mostra: 
x Espera-se entre 10 e 45 minutos 
x É mais provável esperar entre 15 e 20 minutos 
x É pouco provável esperar mais de que 30 minutos

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais