Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 1 1. Para cada uma das afirmações a seguir, diga se ela está correta e justifique sua resposta: (a) Para inferir sobre a moda de uma variável contínua a partir de uma amostra de observações, basta destacar aquele valor que mais se repete. (b) Em se tratando de variáveis contínuas, o cômputo do IQV (índice qualitativo de variação) não faz uso de distribuições de frequências. (c) A distribuição de frequências acumuladas de uma variável pode ser util para a obtenção da sua mediana. (d) Gráficos de Pareto são uteis para melhor esboçar a distribuição de frequências de variáveis qualitativas nominais. (e) Histogramas são uteis para esboçar a distribuição de frequências de variáveis qualitativas. 2. De maneira a administrar o problema da aftosa do rebanho de dado agricultor, seus 10 bovinos foram estudados, resultando nos dados a seguir: Indivíduo 1 2 3 4 5 6 7 8 9 10 A 3 1 0 1 1 3 1 0 1 1Nº de reincidências de vírus C 1 1 0 0 0 1 0 0 0 0 Peso (Kg) 208.3 157.5 98.7 121.2 134.9 216.5 136.7 66.2 139.1 130.5 Idade (meses) 38.8 26.6 10.9 17.1 20.8 40.7 21.3 1.0 21.9 19.6 Gênero 0 1 0 0 1 1 1 0 0 0 Nível de estresse 1 3 2 4 5 1 2 3 2 1 Atual condição 0 0 0 1 1 1 0 0 0 1 Legenda Gênero: 0 - Feminino, 1 - Masculino Nível de estresse: 1- desprezível, 2 - baixo, 3 - moderado, 4 - elevado, 5 – alarmante Atual condição: 0 - sem aftosa, 1 - com aftosa Pergunta-se: (a) Qual é a média e variância do peso dos animais selecionados? (b) Baseando-se no coeficiente de variação, você diria que o peso dos animais envolve um nível de incerteza maior que o da idade? (c) Baseando-se no IQV, você diria que a incerteza envolvendo a atual condição dos animais é maior que aquela envolvendo seu nível de estresse? (d) Baseando-se em uma medida de posição, preveja o gênero e o peso de um 11º animal a compor a amostra. (e) Baseando-se na distribuição bivariada de frequências relativas, você diria que há uma relação de dependência entre o gênero e a atual condição dos animais? 3. De maneira a administrar uma loja de artigos infantis, um gestor montou o seguinte conjunto de dados, envolvendo o atendimento a 10 clientes: Cliente 1 2 3 4 5 6 7 8 9 10 Instante de entrada na loja (horas) 8.6 9.4 9.5 10.2 11.5 12.4 12.5 13.4 13.6 14 Instante de saída da loja (horas) 8.7 10 9.8 10.7 11.9 12.8 12.6 13.5 13.8 14.8 Atendente 1 0 1 1 0 0 0 1 0 0 Quantia consumida (R$) 10.9 1.3 12.1 30 1.3 1 1.5 17.3 1.9 1.6 Legenda Atendente: 0 - Cícera; 1 – Maria Pergunta-se: (a) Baseando-se no coeficiente de variação, você diria que o tempo de permanência dos clientes na loja envolve um nível de variabilidade maior que o da quantia consumida nas compras? (b) Baseando-se no IQV, você diria que a variabilidade envolvendo o atendente é elevada? (c) Baseando-se na distribuição bivariada de frequências relativas, você diria que Cícera atende os clientes mais rapidamente que Maria? (d) A partir de um histograma, esboce a variabilidade do tempo de permanência dos clientes na loja. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 2 4. Um Cientista Social estuda o perfil sócio-econômico das pessoas de certa região. Para tanto, 1000 famílias foram sorteadas e entrevistadas quanto à renda familiar (em R$) e ao nº de pessoas que dependem diretamente desta renda. Os resultados estão sintetizados a seguir: Faixa de renda (R$) Frequência absoluta Nº de dependentes da renda familiar Frequência absoluta [0, 200) 300 [1, 3) 200 [200, 400) 400 [3, 5) 500 [400, 600) 200 [5, 7) 200 [600, 800) 60 [7, 9) 60 [800, 1000] 40 [9, 11] 40 Total 1000 Total 1000 Pergunta-se: (a) Qual é a renda familiar média na região? (b) Mais comumente, quantas pessoas dependem da mesma renda familiar? (c) Caso deseje-se determinar duas classes sociais na região, ambas com o mesmo percentual de famílias, qual seria a renda que separa as duas classes? (d) E quanto à variabilidade da renda familiar na região, ela é maior que a do nº de dependentes? 5. Para cada uma das afirmações a seguir, diga se ela está correta e justifique sua resposta: (a) A idade de uma pessoa é uma variável qualitativa ordinal. (b) O nível de escolaridade de uma pessoa é uma variável qualitativa nominal. (c) A média pode ser aplicada a qualquer tipo de variável. (d) A moda só pode ser aplicada a variáveis qualitativas. (e) A variância pode ser aplicada a qualquer tipo de variável. (f) O nº de dependentes de uma família é uma variável quantitativa contínua. (g) A classe social de uma pessoa é uma variável qualitativa nominal. (h) A mediana pode ser aplicada a qualquer tipo de variável. (i) A idade, em meses, de um ruminante é uma variável cujo espaço de possíveis resultados é dado pelo conjunto {0, 1, 2, 3, ...}. (j) Considere uma amostra de n observações de uma variável qualitativa que possui k categorias. Esta variável envolverá o maior nível de dispersão (variabilidade, incerteza) quando todos os resultados da amostra se concentrarem em exatamente uma das k categorias. (k) Nos casos em que se envolve o menor nível de incerteza, o índice qualitativo de variação equivale a 100%. (l) Diante de uma distribuição de frequências absolutas envolvendo k categorias de uma variável, a respectiva distribuição de frequências relativas resulta da divisão de cada frequência absoluta por k. (m) A média, a exemplo da mediana, não sofre influência de valores extremos da amostra. (n) A elaboração da distribuição de frequências de uma variável contínua é tão simples quanto aquela de uma variável qualitativa. (o) A distribuição de frequências acumuladas de uma variável pode ser util para a obtenção da sua mediana. 6. Um médico precisa informar quanto vai custar (em R$) o tratamento contra dada doença que acometeu um dado indivíduo. Para tanto, ele teve acesso ao custo de tratamento de 15 indivíduos anteriormente acometidos pela doença. A amostra destes custos, convenientemente ordenada, é apresentada abaixo. O estudo do médico se dará a partir de uma análise descritiva destes dados. Na posição do médico, responda sempre apresentando justificativas técnicas: (a) É pouco provável que o custo do tratamento do indivíduo doente seja superior a R$ 370.00? (b) Baseando-se em uma medida de posição, quanto você prevê que será gasto com o tratamento do doente? (c) Baseando-se em uma medida de dispersão, argumente sobre o nível de incerteza associado à previsão realizada no quesito anterior. (d) Esboce a variabilidade dos custos de tratamento da doença a partir de um gráfico. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 3 Indivíduo 1 2 3 4 5 6 7 8 9 Custo (R$) 160.4 213.8 235.4 250.8 263.5 274.7 285.1 295.1 304.9 Indivíduo 10 11 12 13 14 15 Custo (R$) 314.9 325.3 336.5 349.2 364.6 439.6 7. A tabela abaixo exibe o nº de falhas em 100 demandas a cada um de 20 servidores semelhantes, projetados e mantidos pela mesma equipe de profissionais. Na tabela os dados foram oportunamente ordenados e envolvem-se um total de 23 falhas. Baseie-se na abordagem frequentista da probabilidade e responda: Se um 21º servidor semelhante aos que compõem a amostra for posto em operação: (a) Qual é a probabilidade de que ele falhe quando demandado? (b) Se dá-se uma garantia de no máximo uma falha nas primeiras 100 demandas, qual é a probabilidade de que o servidor satisfaça tal garantia? (c) A partir de uma medida de posição, quantas falhas você prevê queocorrerão nas 100 primeiras demandas do servidor? (d) Baseando-se no índice qualitativo de variação (IQV) da variável amostrada (nº de falhas em 100 demandas), você diria que sua previsão em (c) envolve um nível de incerteza relativamente pequeno? Servidor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 nº de falhas em 100 demandas 0 0 0 0 0 1 1 1 1 1 1 1 1 1 2 2 2 2 3 3 8. A tabela abaixo exibe o nº de demandas até a falha de 20 servidores semelhantes, projetados e mantidos pela mesma equipe de profissionais. Na tabela os dados foram oportunamente ordenados e envolvem-se um total de 1897 demandas. Baseie-se na abordagem frequentista da probabilidade e responda: Se um 21º servidor semelhante aos que compõem a amostra for posto em operação: (a) Qual é a probabilidade de que ele falhe quando demandado? (b) Se deseja-se atribuir uma garantia baseada no nº de demandas até a falha deste servidor, onde a probabilidade de não ocorrer falha durante a garantia (confiabilidade) seja de 80%, qual seria a garantia? (c) A partir de uma medida de posição, quantas demandas você prevê que serão necessárias até que este servidor falhe? (d) Qual é o experimento subjacente à variável sob estudo em (c): Binomial, Normal, Uniforme, Geométrico ou de Poisson? Servidor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 nº de demandas até a falha 10 19 21 24 25 30 33 37 48 53 62 63 66 72 84 188 198 215 258 390 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 4 GABARITO 1) Esta questão relaciona-se a conceitos básicos necessários à análise descritiva de dados. 1.a) A moda de um conjunto de observações é uma função que estima aquele valor mais provável, verossímil, para a variável de interesse. Em se tratando de variáveis qualitativas, tal função opera simplesmente sobre o processo de contagem da frequência de cada um dos possíveis resultados da variável; nesta situação a moda retorna aquela categoria mais frequente na amostra. Por outro lado, em se tratando de variáveis contínuas, uma abordagem mais sofisticada é necessária, devido a amostras de variáveis contínuas tenderem a não apresentar valores repetidos, por um lado, e, por outro, devido ao fato de que a eventual repetição de algum valor não implicar em este ser necessariamente o mais provável. De fato, para uma variável contínua, a moda se confunde matematicamente com o ponto de máximo da função que modelaria o histograma associado à distribuição de frequências da amostra, conhecida como função de densidade de probabilidade (FDP). Caso haja conhecimento sobre a FDP da variável, sua moda será um ponto de máximo da FDP. Por outro lado, caso tenha-se acesso apenas à distribuição de frequências da amostra da variável, há aproximações tais como a moda de Czuber, onde a classe modal é o intervalo que apresenta a maior frequência absoluta (ou relativa) da distribuição e sugere-se um valor para a moda dentro deste intervalo: sendo, l - limite inferior da classe modal freqm - freq da classe modal (mais frequente) freqa - freq da classe anterior à modal freqp - freq da classe posterior à modal Δa = freqm – freqa e Δp = freqm – freqp h - amplitude da classe modal. Logo, a afirmação está INCORRETA. 1.b) O índice qualitativo de variação (IQV) é dado pela função )1( )( 2 1 22 − − = ∑ = kn nnk IQV k i i , onde k≡ número de classes (ou categorias) envolvidas na distribuição de frequências de interesse; n≡ número de observações envolvidas ni≡ frequência absoluta da categoria i. Vê-se que o IQV sempre opera sobre as frequências, independentemente da natureza das classes (categorias) relacionadas a tais frequências. Logo, tal medida pode ser aplicada a qualquer tipo de variável, já que para qualquer tipo pode-se obter uma distribuição de frequências diante de uma amostra. Portanto, a afirmação está INCORRETA. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 5 1.c) A mediana de um conjunto de observações relativas a uma variável X, (x1, x2, ..., xn) é uma medida de localização que permite, por exemplo, que se faça previsões sobre o valor de X. Ela é uma estatística de ordem dada matematicamente pelo valor que se encontraria no centro dos dados ordenados; isto é, trata-se daquele valor que acumularia metade das observações abaixo e metade acima dele; isto é, 50% das observações ordenadas. Por outro lado, a distribuição de frequências acumuladas permite associar a cada valor xi a frequência de valores menores ou iguais a xi. Desta forma, pode-se considerar que o valor cuja frequência acumulada relativa é de 50% na distribuição de frequências acumuladas é a mediana. Logo, vê-se que a operação de ordenação necessária à obtenção da mediana é também intrínseca à elaboração de uma distribuição de frequências acumuladas. De fato, não apenas a mediana pode ser obtida a partir da distribuição de frequências acumuladas mas, também, outras estatísticas de ordem ou quantis (tais como o valor que acumula até ele 25% ou 75% dos dados). Logo, a afirmação está CORRETA. 1.d) O intuito de qualquer gráfico é o de gerar informação a partir de um conjunto de dados. Por exemplo, diante de um gráfico de barras, o gráfico de Pareto permite destacar categorias mais e menos frequentes da variável. Ele faz isso ao aplicar uma ordenação decrescente das barras e suas respectivas categorias a partir da frequência destas categorias. Logo, a sequência inicialmente adotada para as categorias durante o cômputo da distribuição de frequências pode ser alterada ao se adotar Pareto. Destaque-se que quando a variável é qualitativa nominal suas categorias não têm qualquer relação de ordenação. Desta forma, as variáveis qualitativas nominais são as únicas onde uma rearrumação das categorias é sem importância, permitindo a adoção irrestrita do gráfico de Pareto. Assim, a afirmação está CORRETA. 1.e) Histogramas são uma alternativa gráfica que permitem esboçar em duas dimensões a distribuição de frequências de uma variável quantitativa (isto é, uma variável cujos possíveis resultados são, de fato, números, provenientes de um processo de contagem ou mensuração, por exemplo). Desta forma, como ambas as dimensões do gráfico contemplam números, histogramas não devem ser aplicados a variáveis qualitativas; a estas reservam-se os gráficos de barras e de setor, por exemplo. Assim, a afirmação é INCORRETA. █ 2) Esta questão trata estritamente do suporte a tomada de decisão fornecido pela estatística descritiva quando diante de um conjunto de dados. 2.a) Pede-se a média e a variância do peso dos animais estudados. Seja xi≡ "o peso do iº animal avaliado (em kg)", onde i varia entre 1 e 10 (estuda-se n=10 animais). Pede-se .kg 96.140 10 6.1409 10 5.130...5.1573.208 n x x ∑ n 1i i peso ==+++== = Assim, o peso médio dos animais selecionados é de 140.96 kg. Sobre a variância do peso: Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 6 .)kg( 74.2049 110 )96.1405.130(...)96.1405.157()96.1403.208( 1n )xx( s 2 222 n 1i 2 i 2 peso ∑ =− −++−+−=− − = = Note-se que a unidade de medida para a variância é o quadrado da da variável sob estudo. 2.b) O coeficiente de variação (cv) é uma medida adimensional que permite a mensuração da incerteza refletida no desvio padrão (s) em relação à média, de tal forma que, para variáveis que assumem valores não negativos, quanto mais próximode zero for o cv menor será a incerteza sobre a variável. O cv é também útil para comparar a dispersão/incerteza intrínseca a variáveis não negativas. Matematicamente, trata-se da razão entre desvio-padrão e média. Para o caso do peso dos animais, tem-se: .0.321 96.140 274.45 96.140 74.2049 x s cv peso peso peso ==== Assim, considera-se um nível de incerteza de cerca de 32.1% em relação à média em se tratando da variável Peso. Já em relação à idade dos animais, tem-se para a média e variância: meses; 87.21 10 7.218 10 6.19...6.268.38 n x x ∑ n 1i i idade ==+++== = .)esesm( 76.138 110 )28.216.19(...)28.216.26()28.218.38( 1n )xx( s 2 222 n 1i 2 i 2 idade ∑ =− −++−+−=− − = = Para o respectivo coeficiente de variação, tem-se .0.539 87.21 78.11 87.21 76.138 x s cv idade idade idade ==== Logo, baseando-se no coeficiente de variação, conclui-se que o peso dos animais envolve um nível de incerteza menor que o da idade. Em outros termos, seria mais difícil prever a idade de um dado animal do que seu peso. 2.c) Para fazer a comparação da variabilidade das variáveis "atual condição dos animais" e "nível de estresse", pode-se recorrer ao índice qualitativo de variação (IQV), já que tratam-se de variáveis qualitativas e o IQV é uma medida relativa util nessas situações. Para tanto, tem-se que )1( )( 2 1 22 − − = ∑ = kn nnk IQV k i i , onde k≡ número de classes (ou categorias) envolvidas na distribuição de frequências; n≡ número de observações envolvidas ni≡ frequência absoluta da categoria i. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 7 As respectivas distribuições de frequências são dadas abaixo Atual condição Frequência Nível de Estresse Frequência 0 – sem aftosa 6 1 - desprezível 3 1 – com aftosa 4 2 - baixo 3 Total 10 3 – moderado 2 4 – elevado 1 5 – alarmante 1 Total 10 Para a atual condição, tem-se: 96.0 )12(10 ))46(10(2 2 222 =− +−=condiçãoIQV . Logo, como o IQV assume valores entre 0 (nenhuma variação observada) a 1 (a maior variação observável), considera-se que a variável "condição atual" apresenta uma variabilidade relativamente elevada. Para o nível de estresse, tem-se: 95.0 )15(10 ))11233(10(5 2 222222 =− ++++−=estresseIQV . Considera-se assim que a variabilidade associada ao "nível de estresse" é relativamente elevada. Contudo, conclui-se também que esta variabilidade é menor que a da atual condição observada entre os animais. 2.d) Dentre as principais medidas de posição, destacam-se a média, mediana e moda. O quesito pede apenas uma destas medidas. Sobre a variável “gênero”, esta é de natureza qualitativa nominal e, assim, a única medida de posição irrestritamente aplicada é a moda. Em se tratando de variáveis qualitativas, a moda reflete aquele resultado que mais se observou na amostra. Assim, ela opera sobre a distribuição de frequências da variável. Para a amostra de gênero, tem- se a seguinte distribuição de frequências: Gênero Frequência 0 – Feminino 6 1 – Masculino 4 Total 10 Da moda da distribuição, prevê-se que mais provavelmente o gênero de um novo animal a ser estudado será feminino. Sobre a variável “peso”, esta é de natureza quantitativa contínua e, assim, tanto a moda quanto a mediana e a média podem ser usadas. Por simplicidade dos cálculos, poder-se- ia adotar a mediana, já que esta envolve como operação mais custosa a ordenação dos dados. De fato, a mediana trata-se apenas do valor que se encontra na posição central dos dados ordenados. A tabela abaixo exibe a amostra de pesos ordenada de forma crescente: Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 8 Índice (i) 1 2 3 4 5 6 7 8 9 10 Peso ordenado (yi) 66.2 98.7 121.2 130.5 134.9 136.7 139.1 157.5 208.3 216.5 Como a questão envolve um nº par de (n=)10 indivíduos, a mediana seria o valor que se encontraria entre as posições n/2=5 e n/2+1=6 dos dados ordenados (y5 e y6). Tal valor é representado pelo ponto médio entre os valores ordenados y5 e y6: Mediana = (y5 + y6)/2 = (134.9 + 136.7)/2 = 135.8 kg. Assim, sem tantos cálculos, pode-se prever que o peso do animal será algo em torno de 135.8 kg. Note-se as complicações adicionais caso opte-se por recorrer à média ou moda. A primeira envolveria a soma das 10 observações e a segunda necessitaria da elaboração da distribuição de frequências da variável de interesse em face aos dados. De qualquer forma, a título de ilustração, ter-se-ia a seguinte previsão baseando-se na média (x ), como visto no quesito (a): .kg 96.140 10 6.1409 10 5.130...5.1573.208 n x x ∑ n 1i i peso ==+++== = Assim, espera-se um peso de 140.96 kg para o novo animal. Já em se tratando da moda (Mo) outras operações são necessárias. O primeiro passo é elaborar a distribuição de frequência dos dados, cujo algoritmo para variáveis contínuas baseia-se nas medidas apresentados abaixo: n≡” O nº de observações” min≡” O valor mínimo observado” max≡” O valor máximo observado” k≡” O nº de categorias (intervalos) a adotar”: k= ( )Int n • Int(x) representa o número inteiro mais próximo de x h≡”O tamanho (amplitude) de cada intervalo”: h=(max-min)/k A partir das medidas acima, o intuito é elaborar a distribuição de frequências de k intervalos de comprimento h, desde min até max: [min, min+h), [min+h, min+2h), ..., [max-h, max]. Tais intervalos são ilustrados na figura abaixo. min min+h min+2h max-h... maxmin min+h min+2h max-h... max Dos dados do quesito, convenientemente ordenados para o cálculo da mediana, temos que n=10, min=66.2, max=216.5, k = ( )nInt =Int(3.33)=3, h=(216.5-66.2)/3=50.1. Isto leva à seguinte distribuição de frequências: Índice da categoria / intervalo (i) Intervalo Frequência(ni) 1 [66.2, 116.3) 2 2 [116.3, 166.4) 6 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 9 3 [166.4, 216.5] 2 Soma 10 Da distribuição de frequências, ainda em busca da moda, pode-se recorrer à fórmula de Czuber (Mo): h pa alModa ⋅⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ Δ+Δ Δ+= Onde Czuber sugere um valor para a moda dentro do intervalo (classe) modal. O intervalo modal é aquele que apresenta uma maior frequência (absoluta ou relativa). Neste caso, o intervalo modal é dado por [116.3, 166.4). Além disso, l ≡ “limite inferior da classe modal”: l = 116.3 nm ≡ “freq da classe modal (mais frequente)”: nm = 6 na ≡ “freq da classe anterior à modal” na = 2 np ≡ “freq da classe posterior à modal”: np = 2 Δa = nm – na e Δp = nm – np (Δa = 6 - 2 = 4, Δp = 6 - 2 = 4) h ≡ “amplitude da classe modal”: h’ = 166.4– 116.3= 50.1. Logo, Mo = 116.3+ (4/8)• 50.1=141.35 kg. Assim, prevê-se que mais provavelmente o peso do animal será algo em torno de 141.35 kg. 2.e) Este quesito permite o uso de conceitos da Estatística Descritiva, bem como do Cálculo de Probabilidades, para argumentar sobre a (in)dependência entre duas variáveis. Especificamente, tratam-se aqui das variáveis “gênero” (G) e “atual condição” (A) dos animais estudados. Estatisticamente, caso a distribuição de frequências relativas de A se mantiver semelhante ao longo das classes de G, então pode-se inferir que independente do gênero, as incertezas sobre a atual condição se mantém semelhantes. Probabilisticamente, se houver independência P(A|G) = P(A). Em ambosos casos, descreve-se matematicamente que, caso sejam independentes, o gênero não interfere na atual condição do animal. As distribuições bivariadas de frequências absolutas e relativas destas variáveis encontram- se abaixo. Sobre a montagem da distribuição bivariada de frequências absolutas, note-se que em quatro casos observou-se o evento “A=0∩G=0” (os indivíduos de nº 1, 3, 8 e 9), em dois casos observou-se o evento “A=1∩G=0” (os indivíduos 4 e 10), e assim por diante. Sobre a distribuição bivariada de frequências relativas, trata-se apenas da razão entre as respectivas frequências absolutas e o nº de indivíduos estudados (n=10). Distribuição Bivariada: Frequências absolutas Distribuição Bivariada: Frequências relativas Gênero (G) Gênero (G) Atual Condição (A) Feminino (0) Masculino (1) Total Atual Condição (A) Feminino (0) Masculino (1) Total Sem aftosa (0) 4 2 6 Sem aftosa (0) 0.4 0.2 0.6 Com aftosa (1) 2 2 4 Com aftosa (1) 0.2 0.2 0.4 Total 6 4 10 Total 0.6 0.4 1 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 10 Da distribuição bivariada de frequências relativas acima, note-se que as incertezas sobre a atual condição se alteram, a depender do gênero do indivíduo. Por exemplo, se o Gênero é feminino (G=0) tem-se, pela regra do produto, a seguinte probabilidade de o indivíduo estar sem aftosa (A=0): P(A=0|G=0) = P(A=0∩G=0)/P(G=0) = 0.4/0.6 ≈ 0.667, enquanto que se o Gênero é masculino (G=1) tem-se, pela regra do produto, P(A=0|G=1) = P(A=0∩G=1)/P(G=1) = 0.2/0.4 = 0.5. Note-se assim que as incertezas sobre A se alteram a depender do Gênero (G). De fato, tem-se que P(A=0) = 0.6 ≠ P(A=0|G=1)=0.5. Assim, infere-se que há uma relação de dependência entre o gênero e a atual condição dos animais, onde a chance de estar sem aftosa (A=0) é maior dentre os animais do gênero feminino (G=0), do que dentre aqueles do Gênero masculino (G=1). █ 3) Esta questão trata estritamente do suporte a tomada de decisão fornecido pela estatística descritiva e da probabilidade quando diante de um conjunto de dados. 3.a) O coeficiente de variação (cv) é uma medida adimensional que permite a mensuração da incerteza refletida no desvio padrão (s) em relação à média, de tal forma que, para variáveis que assumem valores não negativos, quanto mais próximo de zero for o cv menor será a incerteza sobre a variável. Por ser adimensional o cv facilita a comparação de variabilidade entre variáveis quantitativas. Matematicamente, trata-se da razão entre desvio- padrão e média: . x scv = Para o caso da variável “tempo de permanência do cliente na loja”, que trata-se da diferença entre os instantes de entrada e saída do cliente na loja, tem-se o seguinte conjunto de observações: Cliente (i) 1 2 3 4 5 6 7 8 9 10 Instante de entrada na loja (horas) (yi) 8.6 9.4 9.5 10.2 11.5 12.4 12.5 13.4 13.6 14 Instante de saída da loja (horas) (wi) 8.7 10 9.8 10.7 11.9 12.8 12.6 13.5 13.8 14.8 Tempo de permanência em horas (xi=wi-yi) 0.1 0.6 0.3 0.5 0.4 0.4 0.1 0.1 0.2 0.8 Para o cômputo da média da variável “tempo de permanência”, seja xi≡ “o tempo de permanência do iº cliente (em horas)”, tem-se 35.0 10 5.3 10 8.0...3.06.01.0 n x x ∑ n 1i i apermanenci tempo ==++++== = horas. Ou seja, em média, o tempo de permanência de um cliente na loja é de 0.35 horas (ou 21 minutos). Para o desvio-padrão, recorre-se primeiramente à variância do tempo de permanência: Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 11 .(horas) 056.0 9 505.0 110 )35.08.0(...)35.03.0()35.06.0()35.01.0( 1n )xx( s 2 2222 n 1i 2 i 2 apermanênci tempo ∑ = =− −++−+−+−=− − = = Logo, .676.0 35.0 056.0 x s cv apermanênci tempo apermanênci tempo apermanênci tempo === Assim, considera-se que a variabilidade do tempo de permanência dos clientes na loja é elevada, cerca de 67.6% em relação à média. Por outro lado, considerando a variável “quantia consumida”, tem-se: 89.7 $R 10 9.78 10 6.1...1.123.19.10 n x x ∑ n 1i i consumida quantia ==++++== = ; .(R$) 94.977 9 854.789 110 )89.76.1(...)89.71.12()89.73.1()89.79.10( 1n )xx( s 2 2222 n 1i 2 i 2 consumida quantia ∑ = =− −++−+−+−=− − = = Logo, .235.1 89.7 977.94 x s cv consumida uantiaq consumida uantiaq consumida uantiaq === Assim, considera-se que a variabilidade do tempo de permanência dos clientes na loja é bastante elevada, 123.5% em relação à média. Conclui-se assim que, baseando-se no coeficiente de variação, o tempo de permanência dos clientes na loja envolve um nível de variabilidade menor que o da quantia financeira consumida em suas compras. 3.b) Para estudar o nível de variabilidade da variável “Atendente", o quesito sugere o uso do índice qualitativo de variação (IQV), util tanto para variáveis qualitativas quanto quantitativas, já que opera sobre distribuições de frequências. Matematicamente, )1( )( 2 1 22 − − = ∑ = kn nnk IQV k i i , onde k≡ número de classes (ou categorias) envolvidas na distribuição de frequências; n≡ número de observações envolvidas ni≡ frequência absoluta da categoria i. A distribuição de frequências da variável atendente é dada abaixo Atendente Frequência Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 12 (ni) Cícera (0) 6 Maria (1) 4 Total 10 Sobre o IQV desta variável, tem-se: .96.0 100 )52100(2 )12(10 ))46(10(2IQV 2 222 atendente =−=− +−= Considera-se assim que a variabilidade associada ao "atendente" é bastante elevada, já que o maior valor assumido pelo IQV é 100%, envolvendo casos de variabilidade máxima. 3.c) Este quesito permite o uso de conceitos da Estatística Descritiva, bem como do Cálculo de Probabilidades, para argumentar sobre a (in)dependência entre duas variáveis. Especificamente, tratam-se aqui das variáveis “Atendente da loja” (A) e “tempo de permanência do cliente na loja” (T), cujos dados são apresentados pareados abaixo. Cliente 1 2 3 4 5 6 7 8 9 10 Tempo de permanência em horas (T) 0.1 0.6 0.3 0.5 0.4 0.4 0.1 0.1 0.2 0.8 Atendente (A) 1 0 1 1 0 0 0 1 0 0 Estatisticamente, se a distribuição de frequências relativas de T se mantiver semelhante ao longo das classes de A, então pode-se inferir que independente da atendente, as incertezas sobre o tempo de permanência dos clientes se mantém semelhantes. Probabilisticamente, tem-se que se houver independência, P(T|A) = P(T). Em ambos os casos, descreve-se matematicamente que, caso sejam independentes, a atendente não interfere no tempo de permanência do cliente na loja. As distribuições bivariadas de frequências absolutas e relativas destas variáveis encontram- se abaixo. Frequências absolutas Frequências relativas Atendente (A) Atendente (A) Tempo de Permanência (T) Cícera (0) Maria (1) Total Tempo de Permanência (T) Cícera (0) Maria (1) Total [0.1,0.333) (T=0) 2 3 5 [0.1,0.333) (0) 0.2 0.3 0.5 [0.333,0.567) (T=1) 2 1 3 [0.333,0.567) (1) 0.2 0.1 0.3 [0.567,0.8] (T=2) 2 0 2 [0.567,0.8] (2) 0.2 0.0 0.2 Total 6 4 10 Total 0.6 0.4 1 Sobre a montagem da distribuição bivariada de frequências absolutas, note-se que em dois casos observou-se o evento “T=0∩A=0” (os indivíduos de nº 7 e 9), em três casosobservou-se o evento “A=1∩T=0” (os indivíduos 1, 3 e 8), e assim por diante. Sobre a distribuição bivariada de frequências relativas, trata-se apenas da razão entre as respectivas frequências absolutas e o nº de indivíduos estudados (n=10). Vale destacar que pode-se inferir sobre a probabilidade de ocorrência de um dado evento a partir de sua frequência relativa. Trata-se da abordagem frequentista para a inferência sobre probabilidades. Da distribuição bivariada de frequências relativas acima, note-se que as incertezas sobre o tempo de permanência dos clientes se alteram, a depender da atendente da loja. Por Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 13 exemplo, se a atendente é Cícera (A=0) tem-se, pela regra do produto, a seguinte probabilidade de o cliente permanecer por mais tempo, isto é, entre 0.567 e 0.8 horas (T=2): P(T=2|A=0) = P(A=0∩T=2)/P(A=0) = 0.2/0.6 = 0.333, enquanto que se a atendente é Maria (A=1) tem-se, pela regra do produto, P(T=2|A=1) = P(A=1∩T=2)/P(A=1) = 0.0/0.4 = 0.0. Note-se assim que as incertezas sobre T se alteram a depender da atendente (A). De fato, tem-se que P(T=2) = 0.2 ≠ P(T=2|A=1)=0.0. Assim, infere-se que há uma relação de dependência entre a atendente e o tempo de permanência do cliente na loja, onde a chance de uma maior permanência do cliente (T=2) é maior dentre os clientes atendidos por Cícera (A=0), do que dentre aqueles atendidos por Maria (A=1). 3.d) Um histograma trata-se apenas de um esboço da distribuição de frequências de uma variável contínua, onde no eixo das abscissas encontram-se os intervalos que agrupam os valores observados da variável e no eixo das ordenadas as frequências (ou densidades) destes intervalos. Entre as últimas tabelas apresentadas para o quesito anterior encontra-se a distribuição de frequências absolutas da variável “tempo de permanência”. O histograma associado encontra-se abaixo. Do histograma, pode-se perceber que é mais comum que os consumidores permaneçam por menos tempo na loja e que à medida que o tempo de permanência aumenta, a frequência de clientes diminui. █ 4) Para esta questão, temos as seguintes distribuições de frequência para a renda familiar: Faixa de renda (R$) ponto médio da faixa i Frequência absoluta Frequência relativa Frequência acumulada relativa I Faixa x*i ni fi Fi 1 [0, 200) 100 300 0.30 0.30 2 [200, 400) 300 400 0.40 0.70 3 [400, 600) 500 200 0.20 0.9 Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 14 4 [600, 800) 700 60 0.06 0.96 5 [800, 1000] 900 40 0.04 1 ‐ Total - 1000 1.00 - 4.a) Pede-se a média de renda, que para os dados agrupados se dá por .00.328 1000 4090060700200500400300300100 ∑ 1 * =⋅+⋅+⋅+⋅+⋅== = n xn x k i ii Logo, estima-se que a renda familiar na região é de em média R$ 328.00. 4.b) Pede-se a moda do nº de dependentes da renda, isto é, aquele valor que representa a maioria das observações. A moda pode ser obtida a partir da fórmula de Czuber: onde, A classe modal é aquela que apresenta uma maior frequência absoluta (ou relativa). Sugere-se um valor para a moda dentro deste intervalo. Neste caso, o intervalo modal é dado por [3, 5). l - limite inferior da classe modal (l = 3) freqm - freq da classe modal (mais frequente) (freqm = 500) freqa - freq da classe anterior à modal (freqa = 200) freqp - freq da classe posterior à modal (freqp = 200) Δa = freqm – freqa e Δp = freqm – freqp (Δa = 500 - 200 = 300, Δp = 500 - 200 = 300) h - amplitude da classe modal(h = 5 - 3 = 2). Logo, Mo = 3 + (300/600)•2 = 4. Assim, mais comumente, cerca de 4 pessoas dependem da mesma renda. 4.c) Pergunta-se sobre a mediana da renda familiar, isto é, aquele valor que se localizaria no centro dos dados ordenados. Da distribuição de frequências acumuladas relativas, vê-se que o valor que acumula abaixo dele 50% das rendas estará no intervalo [200, 400). Para dados agrupados, a mediana será obtida a partir da igualdade ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −⋅+= mdf FahlMd 5.0 , onde Classe mediana: aquela que envolve a mediana. Trata-se da classe cuja frequência relativa acumulada até o seu início não ultrapassa os 50% e a frequência relativa acumulada até o seu final ultrapassa os 50%. Disto, vê-se que a classe mediana do problema em questão é o intervalo [200, 400). l≡ limite inferior da classe mediana (l = 200) h≡ amplitude (comprimento) da classe mediana (h = 400 - 200 = 200) Fa≡ frequência relativa acumulada da classe anterior à classe mediana (Fa = 0.3) Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 15 fmd≡ frequência relativa da classe mediana (fmd = 0.4). Logo, Md = 200 + 200 (0.5 - 0.3) / 0.4 = 300. Assim, o valor que separaria ambas as classes sociais seria R$ 300.00. 4.d) Para fazer a comparação das variáveis renda e nº de dependentes, pode-se recorrer, por exemplo, ao coeficiente de variação ou ao índice qualitativo de variação (IQV). Usando o último, tem-se que )1( )( 2 1 22 − − = ∑ = kn nnk IQV k i i , onde k≡ número de classes (ou categorias) envolvidas na distribuição de frequências; n≡ número de observações envolvidas ni≡ frequência absoluta da categoria i. Para a renda, tem-se: 881.0 )15(1000 ))4060200400300(1000(5 2 222222 =− ++++−=rendaIQV . Logo, como o IQV assume valores entre 0 (nenhuma variação observada) a 1 (a maior variação observável), considera-se que a renda apresenta uma variabilidade relativamente elevada. Para o nº de dependentes, tem-se: 831.0 )15(1000 ))4060200500200(1000(5 2 222222 º =− ++++−=depnIQV . Considera-se assim que a variabilidade associada ao nº de dependentes é relativamente elevada. Contudo, conclui-se também que esta variabilidade é menor que a da renda familiar. █ 5) Esta questão relaciona-se à natureza de variáveis aleatórias e sobre as operações matemáticas que a elas podem ser aplicadas, a depender de tal natureza. Podem-se destacar ao menos 4 tipos de variáveis: (i) as qualitativas nominais, onde os possíveis resultados são categorias ou atributos; (ii) as qualitativas ordinais, onde os possíveis resultados, embora que categorias (ou atributos), permitem que se realize uma ordenação nos mesmos; (iii) as quantitativas discretas, onde os possíveis resultados são quantidades numéricas discretas; isto é, compõem um conjunto enumerável onde qualquer operação matemática pode ser aplicada sobre seus elementos. Usualmente, variáveis discretas advém de um processo de contagem. Por fim, tem-se (iv) as variáveis quantitativas contínuas, geralmente provenientes de um processo de mensuração, onde os possíveis resultados compõem um conjunto contínuo, sendo representado por números reais. Em suma, pode-se aplicar qualquer operação matemática sobre variáveis quantitativas, enquanto que sobre as qualitativas aplica-se a contagem (o nº de ocorrências) dos seus atributos e, no máximo, uma ordenação dos resultados (para o caso das ordinais). Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 16 5.a) Como a idade de uma pessoa pode assumir qualquer valor real maior que zero, por um lado, e, por outro, é medida a partir de algum processo de mensuração do tempo, conclui-se que trata-se de uma variável quantitativa contínua. Logo, a afirmação é incorreta.5.b) Como o nível de escolaridade é um atributo ou, mais especificamente, um título, vê-se que trata-se de uma variável qualitativa. Além disso, vê-se que pode-se aplicar uma ordenação aos possíveis resultados desta variável. Por exemplo, pode-se concluir que o título do ensino médio é "superior" ao do fundamental. Logo, trata-se de uma variável ordinal. Assim, a afirmação é incorreta. 5.c) A média de um conjunto de observações (x1, x2, ..., xn) é dada pela função n x x n 1i i∑ == . Vê-se, com isso, que apenas variáveis quantitativas permitem a sua aplicação; já que tal função envolve operações de soma e divisão, incompatíveis, por sua vez, aos resultados categóricos das variáveis qualitativas; isto é, as observações (x1, x2, ..., xn) devem ser quantidades e não qualidades. Logo, a afirmação está incorreta. 5.d) A moda representa o valor mais frequente de um conjunto de observações (x1, x2, ..., xn). Logo, como trata-se basicamente de uma operação de contagem de ocorrências, que independe de as observações serem qualidades ou quantidades, a moda pode ser aplicada a qualquer tipo de variável. Logo, a afirmação está incorreta. 5.e) A argumentação aqui assemelha-se à do quesito 5.c, sobre a média. A variância de uma amostra de observações (x1, x2, ..., xn) é dada pela função 1n )xx( s n 1i 2 i 2 − − = ∑ = . Vê-se, com isso, que apenas variáveis quantitativas permitem a sua aplicação; já que tal função envolve operações de soma, subtração, potência e divisão, incompatíveis, por sua vez, aos resultados categóricos das variáveis qualitativas; isto é, as observações (x1, x2, ..., xn) devem ser quantidades e não qualidades. Logo, a afirmação está incorreta. 5.f) Como o nº de dependentes de uma família pode assumir qualquer valor inteiro não- negativo, por um lado, e, por outro, é medido a partir de um processo de contagem, conclui-se que trata-se de uma variável quantitativa discreta. Logo, a afirmação é incorreta. 5.g) Como a classe social é um atributo, vê-se que trata-se de uma variável qualitativa. Além disso, vê-se que pode-se aplicar uma ordenação aos possíveis resultados desta variável. Por exemplo, pode-se concluir que a classe A representa um patamar de renda mais elevado que o da B. Logo, trata-se de uma variável ordinal. Assim, a afirmação é incorreta. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 17 5.h) A mediana de um conjunto de observações (x1, x2, ..., xn) é dada pelo valor que se encontraria no centro dos dados ordenados; isto é, trata-se daquele valor que acumula 50% das observações ordenadas. Vê-se, com isso, que variáveis qualitativas nominais não permitem a sua aplicação; já que tal função envolve ordenação, incompatível, por sua vez, aos resultados das variáveis qualitativas nominais; isto é, as observações (x1, x2, ..., xn) devem ser ordenáveis. Logo, a afirmação está incorreta. 5.i) A variável idade, a exemplo das demais que se prestam a medir o tempo, é intrinsecamente quantitativa contínua. Este tipo de variável emerge frequentemente de processos de mensuração. A mensuração do peso, volume, comprimento e área são alguns exemplos de processos que resultam em variáveis quantitativas contínuas. Os possíveis valores que uma variável quantitativa contínua pode assumir são representados matematicamente por algum conjunto dos números reais. Por exemplo, os possíveis resultados da variável idade de um ruminante em meses (X) podem ser representados pelo conjunto ΩX = {x ℜ∈ |x ≥ 0}. Sobre a possibilidade de que X assuma o valor 0, pode-se argumentar que {X=0} expressa os casos em que o ruminante morre ainda durante sua gestação. De qualquer forma, excluir {X=0} de ΩX pode ainda ser considerado válido, a depender de como se define a idade (X). Por exemplo, caso X seja entendido como o tempo de vida desde a gestação, isto fatalmente elimina qualquer possibilidade de ocorrer {X=0} e conduz a ΩX = {x ℜ∈ |x > 0}. Outra condição que excluiria {X=0} seria descartar do estudo aqueles ruminantes que morrem durante a gestação. Em complemento, destaque-se ainda que o conjunto ΩX não apresenta um limite superior para X. Isto decorre do fato de que a definição de um valor máximo para X trata-se de um desafio tão grande quanto o do próprio estudo da variabilidade de X. Desta forma, mostrar-se-ia um trabalho desnecessário e demasiadamente custoso definir tal máximo. Por outro lado, note-se que o conjunto apresentado pelo enunciado Ω’X ={0, 1, 2, ...} envolve apenas os valores inteiros contidos nos reais não negativos. Por exemplo, tal conjunto não envolve como possível resultado para X o valor 2.5 meses, isto é, a idade “dois meses e meio”. Desta forma Ω’X não seria adequado para representar todos os possíveis resultados de X. Logo, a afirmação está INCORRETA. 5.j) Neste quesito destaca-se que todas as n observações da amostra estariam concentradas em uma só categoria, diga-se a categoria j. Dessa forma, baseando-se na amostra, não seria tão incerta a previsão sobre o resultado de uma futura observação: a previsão certamente apontaria para a categoria j. Por exemplo, consideremos a variável Xi≡"o estado de saúde do iº indivíduo selecionado de um local". Neste caso, o nº de categorias da variável poderia ser (k=)2, onde cada Xi poderia assumir os valores 0 (se o indivíduo está sadio) e 1 (se o indivíduo está doente). Se sortearmos (n=)100 indivíduos do local e observamos a amostra (x1=0, x2=0, ..., x100=0), então certamente preveremos, da amostra, que o 101º indivíduo a ser sorteado estará também sadio, ou seja, que ocorrerá {X101 = 0}. Perceba que nos casos onde todas as observações da amostra se concentram em um só resultado, verifica-se o menor nível de dispersão (variabilidade) dos dados e que isto Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 18 minimiza nossas incertezas ao fazermos previsões, por exemplo. No exemplo mencionado, a título de ilustração, o IQV assumiria o valor zero, refletindo incerteza mínima. Desta maneira, a afirmação está INCORRETA. 5.k) O índice qualitativo de variação (IQV) é dado pela função )1( )( 2 1 22 − − = ∑ = kn nnk IQV k i i , onde k≡ número de classes (ou categorias) envolvidas na distribuição de frequências de interesse; n≡ número de observações envolvidas ni≡ frequência absoluta da categoria i. De maneira a responder ao quesito, estudemos o caso onde a amostra apresenta a menor variabilidade possível, tal como descrito no quesito anterior: quando todas as observações se concentram em uma das categorias da variável, diga-se a categoria j. Nesses casos, ni=n, se i=j, e ni=0 caco contrário (se i≠j), isto é, a distribuição de frequências absolutas é dada pela tabela abaixo: Categoria (i) Frequência absoluta (ni) 1 0 2 0 ... ... j-1 0 j n j+1 0 ... ... k 0 soma n Nestes casos, obtemos ∑ = k i in 1 2 = 2n e .0 )1( )( 2 22 =− −= kn nnkIQVmínimo Logo, o caso de incerteza mínima a partir dos dados reflete-se em um IQV igual a zero, ou 0%. Assim, a afirmação está INCORRETA. 5.l) Na verdade, a frequência relativa de dada categoria de uma variável se dá pela divisão de sua frequência absoluta pelo nº de observações da amostra sob estudo. Em outros termos, tratam-se de frequências relativas ao tamanho amostral e não ao número de categorias da variável. Matematicamente, seja ni a frequência absoluta (o nº de ocorrências) da categoria i na amostra, onde i=1, 2,..., k. Seja n o tamanho da amostra sob estudo. Então, n = ∑ = k 1iin e a frequência relativa da categoria i é dada por fi = ni/n. De fato, o resultado ni/k não possui um significado imediatamente intuitivo. Logo, a afirmação é incorreta. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 19 5.m) A média de um conjunto envolvendo n observações x= (x1, x2, ..., xn) é dada pela função ∑ = = n 1i ixn 1x . Por outro lado, a mediana é o valor que se encontra na posição central dos dados ordenados, diga-se y=(y1, y2, ..., yn), onde y1 é o mínimo de x, yn é o máximo de x e os demais valores de y são o restante de x dispostos de forma não decrescente. Por exemplo, caso trate-se de um conjunto envolvendo um nº ímpar de observações, a mediana será o valor y(n+1)/2. Por outro lado, caso trate-se de um nº par de observações, a mediana pode se dar pelo ponto médio entre os valores centrais, yn/2 e yn/2+1, caso a variável seja quantitativa contínua. De qualquer forma, pode-se destacar que a função média, por envolver a soma de todos os valores da amostra, sofre grande influência de pontos extremos (isto é, pontos estranhos, aberrantes, discrepantes), enquanto que a mediana é insensível a tais valores, já que envolve apenas os valores centrais da amostra ordenada. Logo, a afirmação está incorreta. 5.n) Um dos primeiros passos de uma análise descritiva é a elaboração de distribuições que sintetizem os dados disponíveis. Destaque-se neste sentido as distribuições de frequências, que exibem a frequência de ocorrência de cada um dos possíveis resultados da variável a partir da amostra. Quando os dados envolvem uma variável qualitativa (ou seja, uma variável cujos possíveis resultados permitem como operação matemática direta sobre eles, no máximo, a ordenação), a elaboração da distribuição de frequência é relativamente simples: Basta computar a frequência de ocorrências de cada possível resultado na amostra. Por exemplo, se a variável envolve o gênero do indivíduo, computa-se da amostra a frequência de ocorrências de cada gênero (masculino e feminino). Por outro lado, caso trate-se de uma variável contínua (cujos resultados pertencem aos números reais), a elaboração de uma distribuição de frequências requer maiores sofisticações. De fato, caso adote-se a mesma regra direcionada a variáveis qualitativas, será possível que a distribuição de frequências coincida com os próprios dados da amostra. Isto porque é bem provável que os valores da amostra de uma variável contínua não se repitam e, também, mesmo se ocorrer repetições, isto não implica em tal valor ser o mais privável (verossímil). Neste sentido, antes da contagem, será preciso construir intervalos (classes, categorias), para que daí elabore-se a distribuição de frequência destes. Um algoritmo simples a ser adotado a partir da amostra envolve 1. O valor mínimo observado na amostra: min; 2. O valor máximo observado na amostra: max; 3. O nº de categorias (intervalos): k; 4. O tamanho (amplitude) de cada intervalo: h = (max-min)/k. A partir dos itens de 1 a 4 acima, constroem-se os k intervalos: 1. [min, min+h), 2. [min+h, min+2h), ..., k. [min+(k-1)h, max] De posse dos intervalos construídos acima, computa-se o nº de elementos da amostra que pertencem a cada intervalo, configurando-se assim em uma distribuição de frequências. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 20 Percebe-se assim que a elaboração da distribuição de frequências de uma variável contínua NÃO É tão simples quanto aquela de uma variável qualitativa. Assim, a afirmação está INCORRETA. 5.o) A mediana de um conjunto de observações relativa a uma variável X, (x1, x2, ..., xn), é uma medida de localização que permite, por exemplo, que se faça previsões sobre o valor de X. Ela é uma estatística de ordem dada matematicamente pelo valor que se encontraria no centro dos dados ordenados; isto é, trata-se daquele valor que acumularia 50% das observações ordenadas. Por outro lado, a distribuição de frequências acumuladas permite associar a cada valor xi a frequência de valores menores ou iguais a xi. Desta forma, pode-se considerar que o valor cuja frequência acumulada relativa é de 50% na distribuição de frequências acumuladas é a mediana. Logo, vê-se que a operação de ordenação necessária à obtenção da mediana é também intrínseca à elaboração de uma distribuição de frequências acumuladas. De fato, não apenas a mediana pode ser obtida a partir da distribuição de frequências acumuladas mas, também, outras estatísticas de ordem (tais como o valor que acumula até ele 25% ou 75% dos dados). Logo, a afirmação está CORRETA. █ 6) Nesta questão busca-se ilustrar a utilidade da estatística descritiva para o suporte à decisão racional sob incerteza. Aqui, o termo “racional” é também sinônimo de “técnico” ou mesmo “científico”. 6.a) Neste quesito, pode-se fazer uso da abordagem frequentista da probabilidade. Tal abordagem baseia-se no teorema, também conhecido como a “Lei dos Grandes Números”, que afirma que à medida que o tamanho amostral cresce, a frequência relativa do evento de interesse (E) aproxima-se da sua probabilidade de ocorrência. Matematicamente, a frequência relativa de E é dada por fE = nE/n onde n ≡ “tamanho da amostra” e nE ≡ “nº de vezes em que E ocorre dentre as n observações da amostra”. No quesito, o evento de interesse é E ≡”X>370”, onde X≡”custo do tratamento do indivíduo de interesse”. Por outro lado, vê-se que n=15 indivíduos e que nE=1, isto é, dentre os (n=)15 indivíduos da amostra, apenas (nE=)1 envolveu um (E≡) “custo de tratamento superior a R$370.00”. Logo, temos como estimativa para P(E), ou seja para a probabilidade de que o tratamento envolva um custo superior a R$370.00, a frequência relativa fE=1/15=0.067=6.7%. Assim, para um decisor propenso a risco o custo do tratamento ultrapassar R$350.00 pode ser considerado como um evento pouco provável, estimado em cerca de 6.7% de probabilidade de ocorrência. 6.b) Dentre as principais medidas de posição, destacam-se a média, mediana e moda. O quesito pede apenas uma destas medidas. Por simplicidade dos cálculos, poder-se-ia adotar a mediana, já que os dados já encontram-se ordenados. De fato, a mediana trata-se apenas do valor que se encontra na posição central dos dados ordenados. Como a questão envolve Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 21 um nº impar de (n=)15 indivíduos, a mediana seria o valor que se encontra na posição (n+1)/2=8 dos dados ordenados. Assim, sem tantos cálculos, obtém-se como mediana o valor R$ 295.1. Logo, pode-se prever que o custo de tratamento do doente será algo em torno de R$ 295.1. Note-se as complicações adicionais caso opte-se por recorrer à média ou moda. A primeira envolveria a soma das 15 observações e a segunda necessitaria da elaboração da distribuição de frequência da variável de interesse em face aos dados. De qualquer forma, a título de ilustração, ter-se-ia a seguinte previsão baseando-se na média ( x ): n i i 1 x 160.4 213.8 ... 364.6 439.6 4413.8x 294.3 n 15 15 = + + + += = = = ∑ . Já em se tratando da moda (Mo) outras operações são necessárias. O primeiro passo é elaborar a distribuição de frequência dos dados, cujo algoritmo para variáveis contínuas baseia-se nas medidas apresentados abaixo: n≡” O nº de observações” min≡” O valor mínimo observado” max≡” O valor máximo observado” k≡” O nº de categorias (intervalos) a adotar”: k= ( )Int n • Int(x)representa o número inteiro mais próximo de x h≡”O tamanho (amplitude) de cada intervalo”: h=(max-min)/k A partir das medidas acima, o intuito é elaborar a distribuição de frequências de k intervalos de comprimento h, desde min até max, [min, min+h), [min+h, min+2h), ..., [min+(k-1)h, max]. Tais intervalos são ilustrados na figura abaixo. min min+h min+2h max-h... maxmin min+h min+2h max-h... max Dos dados do quesito, convenientemente ordenados, temos que n=15, min=160.4, max=439.6, k = ( )Int 15 =Int(3.87)=4, h=(439.6-160.4)/4=69.8. Isto leva à seguinte distribuição de frequências: Índice da categoria (i) Intervalo Frequência absoluta (ni) 1 [160.4, 230.2) 2 2 [230.2, 300.0) 6 3 [300, 369.8) 6 4 [369.8, 439.6) 1 Soma 15 Da distribuição de frequência, ainda em busca da moda, pode-se recorrer à moda de Czuber (Mo): a a p Mo l h ' ⎛ ⎞Δ= + ⋅⎜ ⎟⎜ ⎟Δ − Δ⎝ ⎠ Onde Czuber sugere um valor para a moda dentro do intervalo (classe) modal. O intervalo modal é aquele que apresenta uma maior frequência (absoluta ou relativa). Neste caso, o Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 22 intervalo modal é dado por [230.2, 369.8), já que ambos os intervalos [230.2, 300.0) e [300.0, 369.8) são vizinhos entre si e possuem a maior frequência. Além disso, l ≡ “limite inferior da classe modal”: l = 230.2 nm ≡ “freq da classe modal (mais frequente)”: nm = 12 na ≡ “freq da classe anterior à modal” na = 2 np ≡ “freq da classe posterior à modal”: np = 1 Δa = nm – na e Δp = nm – np (Δa = 12 - 2 = 10, Δp = 12 - 1 = 11) h' ≡ “amplitude da classe modal”: h’ = 369.8 – 230.2 = 139.6. Logo, Mo = 230.2 + (10/21).139.6 =296.68. Assim, espera-se (seguindo a média) que o custo com o tratamento seja algo em torno de R$ 294.3, enquanto que mais provavelmente (seguindo a moda) prevê-se que tal custo será de cerca de R$ 296.68. 6.c) Para este quesito, poder-se-ia recorrer a medidas tais como o índice qualitativo de variação (IQV), a amplitude, a variância, o desvio-padrão ou o coeficiente de variação. Contudo, como a amplitude, a variância e o desvio-padrão requerem maior esforço para a elaboração de argumentos racionais acerca do nível de incerteza inerente à variável, adota- se aqui uma medida de variabilidade relativa, tal como o IQV ou o coeficiente de variação. Devido à simplicidade dos cálculos do IQV em face à distribuição de frequências montada no quesito anterior para o custo de tratamento da doença, adota-se aqui esta medida: k 2 2 i i 1 2 k n n IQV n (k 1) = ⎛ ⎞−⎜ ⎟⎝ ⎠= − ∑ , onde k≡ “número de classes (ou categorias) envolvidas na distribuição de frequências”: k=4 n≡ “número de observações envolvidas”: n=15 ni≡ “frequência absoluta da categoria i”. 2 2 2 2 2 2 4(15 (2 6 6 1 )) 4(225 77)IQV 0.877 15 (4 1) 675 − + + + −= = =− . Logo, baseando-se no IQV pode-se concluir que a previsão feita a partir do quesito anterior envolve um elevado nível de incerteza, já que o IQV assume valores entre 0 e 1 e quanto maior seu valor maior a dispersão presente na distribuição de frequências. Em outros termos, baseando-se no IQV o decisor não deve ficar surpreso caso o custo do tratamento não seja tão próximo do valor previsto. Assim como no quesito anterior, apresentam-se também medidas alternativas ao IQV para responder ao atual quesito: Amplitude = max-min = R$ 279.16 Variância: n 2 i 2 i 1 2 2 2 2 (x x) s n 1 (106.4 294.3) (213.8 294.3) ... (439.6 294.3) 4539.14(R$) 15 1 = − = =− − + − + + − =− ∑ Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 23 Desvio-padrão: s = 4539.14 R$67.37= Coeficiente de variação: s 67.37cv 0.23 x 294.3 = = = =23%. Destaque-se o valor obtido para o coeficiente de variação (cv) que, a exemplo do IQV, é uma medida relativa. Contudo, particularmente, o cv apresenta uma medida de dispersão relativa à média. Vale ressaltar que o cv sugere um nível de dispersão baixo relativamente à média. Assim, baseando-se no cv o decisor deveria considerar natural que o custo do tratamento não esteja tão próximo da média adotada como previsão, já que esta assume um valor razoavelmente elevado. Em resumo, tanto o IQV quanto o cv sugerem que o decisor encare como natural um eventual distanciamento entre o valor previsto e o observado: o IQV baseando-se na dispersão relativa à distribuição de frequências e o cv baseando-se na dispersão relativa à média. 6.d) Para este quesito, como trata-se de uma variável quantitativa contínua, recorre-se a um histograma. Um histograma nada mais é que o esboço da distribuição de frequências de uma variável quantitativa, onde no eixo das abscissas (x) encontram-se os intervalos da distribuição de frequências e no das ordenadas (y) as respectivas frequências. O histograma destaca que a maior parte dos dados encontra-se no intervalo [230, 370). Dentre as 15 observações, apenas 3 observações encontram-se fora deste intervalo. Vale destacar que não haveria sentido adotar gráficos tais como o de pares, uma vez que como trata-se de uma variável contínua, a frequência de cada valor da amostra seria sempre equivalente a 1 e o gráfico seria o esboço dos próprios dados, gerando pouca ou nenhuma informação. Da mesma forma, um gráfico onde o eixo das abscissas seria o rótulo do indivíduo e o das ordenadas o custo requer cautela, já que de acordo com o enunciado os dados foram apresentados ordenadamente apenas por conveniência, para facilitar os cálculos estatísticos demandados pelos quesitos, por um lado, e, por outro, tal gráfico requer maiores sofisticações para a leitura da variabilidade. Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 24 █ 7) Esta questão destina-se à relação entre distribuições de frequências e de probabilidades,diante de uma amostra sobre dada variável aleatória. Na Estatística, tal relação é formalmente apresentada através da abordagem frequentista para modelar probabilidades. Nesta abordagem, a probabilidade de ocorrer o evento de interesse E, P(E), pode ser aproximada pela frequência relativa de ocorrências de E na amostra: f(E) = n(E)/nT, onde nT≡ ”nº de oportunidades para a ocorrência ou não de E” e n(E)≡ ”nº de vezes em que E ocorreu nas nT oportunidades”. 7.a) Estuda-se a probabilidade de ocorrer o evento E≡”Dado servidor falha em uma demanda”. Da amostra tem-se que nT=20.100=2000 demandas (já que cada um dos 20 servidores foi demandado por 100 vezes) e que n(E)=23 (dessas 2000 demandas observaram-se 23 falhas). Logo, P(E) pode ser aproximada por 23/20000≈0.0115. Logo, a probabilidade de que ocorra de um servidor semelhante aos envolvidos na amostra (tal como o 21º) falhar quando demandando é de aproximadamente 1.15%. Raciocinando de outra maneira, vale perceber que, em média, ocorrem 1.15 falhas em 100 demandas, de acordo com a amostra, levando a uma frequência relativa de 1.15/100=1.15%. O cálculo para tal média encontra-se mais à frente, na resolução do quesito (c). 7.b) Para esta questão, considere a variável X≡”nº de falhas nas 100 primeiras demandas de um dado servidor”. Deseja-se saber P(X ≤ 1), já que dá-se a garantia de, no máximo, 1 falha em 100 demandas. Isto é, deseja-se a probabilidade de que o nº de falhas em 100 demandas não ultrapasse 1. Intuindo de maneira frequentista, deseja-se a frequência relativa do evento E2≡”X ≤ 1”. Note-se que tal quantidade é facilmente estimada a partirda distribuição de frequências acumuladas de X (já que os dados estão ordenados). Da amostra vê-se que P(X ≤ 0) ≈ 5/20, Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 25 já que dos 20, 5 não falharam quando demandados por 100 vezes. Seguindo o mesmo raciocínio frequentista, tem-se que P(X ≤ 1) ≈ 14/20=70%. Logo, a probabilidade de que o 21º servidor satisfaça a garantia de no máximo 1 falha nas 100 primeiras demandas é de aproximadamente 70%. 7.c) Para responder a este quesito uma de ao menos três medias estatísticas poderia ser adotada: a moda, a mediana ou a média. Para tanto, considere x= (x1, x2, ..., xn) como sendo o vetor de observações na amostra (n=20). A moda se destina a calcular o valor mais frequente (mais provável) da amostra e envolve a distribuição de frequências da amostra: I 1 2 3 4 Nº de falhas em 100 demandas 0 1 2 3 Frequência absoluta da categoria i (ni) 5 9 4 2 Da distribuição de frequências vê-se que o valor mais frequente é 1. Logo, baseando-se na moda prevê-se que mais provavelmente ocorrerá uma falha em 100 demandas do novo servidor. Por sua vez, a mediana seria de fácil obtenção, já que trata-se do valor que separa os dados ordenados ao meio (veja os elementos de x já são apresentados ordenados no enunciado). Como se envolve um nº par de observações (n=20 servidores), deve-se aproximar a mediana pelo ponto médio dos valores que se encontram nas posições centrais (xn/2=x10 e xn/2+1=x11): Md = (xn/2 + xn/2+1)/2. Dos dados, Md = (x10 + x11)/2 = 1. Logo, recorrendo à mediana, prevê-se que ocorrerá uma falha nas primeiras 100 demandas do 21º servidor. Por fim, a média é dada pela função ∑ = = n 1i ixn 1x =23/20=1.15. Como a variável de interesse é de natureza discreta, arredonda-se a média para seu inteiro mais próximo (1). Logo, recorrendo à média, prevê-se que ocorrerá uma falha nas primeiras 100 demandas do 21º servidor. Vê-se assim que neste caso, tanto a moda quanto a mediana e a média apontam para a ocorrência de uma falha nas 100 primeiras demandas do servidor. 7.d) Pede-se a interpretação da incerteza sobre o nº de falhas em 100 demandas a partir do IQV: )1k(n )nn(k IQV 2 k 1i 2 i 2 − − = ∑ = , onde k≡ número de classes (ou categorias) envolvidas na distribuição de frequências; n≡ número de observações envolvidas (tamanho da amostra) ni≡ frequência absoluta da categoria i. Para a distribuição de frequência da amostra (tabela anterior em (c)), tem-se que .9133.0 )14(20 ))2495(20(4IQV 2 22222 =− +++−= Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 26 Logo, baseando-se no IQV conclui-se que a previsão realizada a partir de (c) envolve um nível de incerteza relativamente alto, uma vez que o IQV assume valores entre zero e um onde quanto maior o IQV, maior o nível de incerteza associado à variável amostrada. █ 8) Esta questão destina-se à relação entre distribuições de frequências e de probabilidades,diante de uma amostra sobre dada variável aleatória. Na Estatística, tal relação é formalmente apresentada através da abordagem frequentista para modelar probabilidades. Nesta abordagem, a probabilidade de ocorrer o evento de interesse E, P(E), pode ser aproximada pela frequência relativa de ocorrências de E na amostra: f(E) = n(E)/nT, onde nT≡ ”nº de oportunidades para a ocorrência ou não de E” e n(E)≡ ”nº de vezes em que E ocorreu nas nT oportunidades”. 8.a) Estuda-se a probabilidade de ocorrer o evento E≡”Dado servidor falha em uma demanda”. Da amostra tem-se que nT=1896 e que n(E)=20. Para este último vale notar que cada servidor da amostra falhou exatamente por uma vez. Logo, P(E) pode ser aproximada por 20/1896≈0.0105. Logo, a probabilidade de que ocorra de um servidor semelhante aos envolvidos na amostra (tal como o 21º) falhar quando demandado é de aproximadamente 1.05%. 8.b) Para esta questão, considere a variável X≡”nº de demandas até a falha de um dado servidor”. Deseja-se saber a garantia em termos do nº de demandas até a falha, x, para a qual P(X > x)=0.8. Isto é, a probabilidade de que o nº de demandas ultrapasse x deve equivaler a 0.8. Intuindo de maneira frequentista, deseja-se o x para o qual a frequência relativa do evento E2≡”nº de demandas até a falha ultrapasse x” seja de 80%. Note-se que P(X > x) = 1 – P(X ≤ x) = 0.2, isto é, deseja-se também que a probabilidade de falha durante a garantia seja de 20%. Dessa forma, x é o quantil 20% associado a X, facilmente estimado a partir da distribuição de frequências acumuladas de X (já que os dados estão ordenados). Da amostra vê-se que P(X ≤ 10) ≈ 1/20, já que dos 20 servidores apenas 1 apresentou um nº de demandas até a falha menor ou igual a 10. Seguindo o mesmo raciocínio frequentista, tem-se que P(X ≤ 19) ≈ 2/20, P(X ≤ 21) ≈ 3/20 e que P(X ≤ 24) ≈ 4/20=20%. Por outro lado, veja que P(X > 24)≈15/20=80%, isto é, que o valor 24 acumula acima dele 15 das 20 observações da amostra. Logo, o quantil 20% da distribuição de frequências acumuladas relativas (x=24 demandas) é uma boa aproximação para a garantia do servidor baseada em uma confiabilidade de 80%. A garantia seria, assim, de 24 demandas. 8.c) Para responder a este quesito uma de ao menos três medidas estatísticas poderia ser adotada: a moda, a mediana ou a média. Para tanto, considere x= (x1, x2, ..., xn) como sendo as observações na amostra (n=20). A moda se destina a calcular o valor mais frequente (mais provável) da amostra e envolveria certamente maior esforço uma vez que seria necessário o cômputo da distribuição de frequências da amostra (veja que não há qualquer observação mais frequente na amostra). Universidade Federal do Cariri - UFCa INTRODUÇÃO À ESTATÍSTICA Prof. Paulo Renato Alves Firmino Lista de exercícios resolvidos – Estatística Descritiva 27 Por sua vez, a mediana é de fácil obtenção, já que trata-se do valor que separa os dados ordenados ao meio (veja que os elementos de x já são apresentados ordenados no enunciado). Como se envolve um nº par de observações (n=20 servidores), deve-se aproximar a mediana pelo ponto médio dos valores que se encontram nas posições centrais (xn/2=x10 e xn/2+1=x11): Md = (xn/2 + xn/2+1)/2. Dos dados, Md = (x10 + x11)/2 = 57.5. Como a variável de interesse é de natureza discreta, arredonda-se Md para seu inteiro mais próximo (Md≈58). Logo, recorrendo à mediana, prevê-se que serão necessárias cerca de 58 demandas até a ocorrência da falha do 21º servidor. Por fim, a média é dada pela função ∑ = = n 1i ixn 1x =1897/20=94.85. Como a variável de interesse é de natureza discreta, arredonda-se a média para seu inteiro mais próximo (95). Logo, recorrendo à média, prevê-se que serão necessárias cerca de 95 demandas até a ocorrência da falha do 21º servidor. 8.d) Tanto da tabela quanto do enunciado em (c) vê-se que a variável de interesse é X≡”nº de demandas do servidor até a falha”. Tal variável reflete um processo de contagem de um tipo de experimento onde, genericamente, tenta-se o sucesso até que ele ocorra. Neste específico caso, o sucesso seria evento “falha do servidor na demanda”. Trata-se, assim, de um experimento Geométrico. █
Compartilhar