Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ESTATÍSTICA DESCRITIVA 1.1. INTRODUÇÃO A Estatística pode ser considerada como um método quantitativo que se preocupa em coletar, organizar, analisar e interpretar um conjunto de observações, visando a tomada de decisões. Pode-se dizer que toda ciência que manipula dados experimentais necessita de Estatística como método de análise destes dados, para que o pesquisador possa tirar conclusões que tenham validade científica. Na área de Engenharia, a aplicação de Estatística é muito vasta, estando presente principalmente no estudo do controle estatístico de qualidade industrial, onde as técnicas de controle têm evoluído e proporcionado resultados importantes. Para ilustrar, suponha-se um processo produtivo onde ao se fabricar certa peça, uma de suas dimensões é planejada em 5 cm com desvio padrão de 0,02 cm. Um conjunto de 36 peças fabricadas forneceu uma média de 4,95 cm; podemos dizer que elas estão dentro da especificação desejada? O comprimento médio verdadeiro é menor que 5 cm? O número de peças observadas é suficiente para se obter conclusões acerca de toda produção? Pode-se constatar uma série de indagações cujas respostas serão possíveis graças aos métodos desenvolvidos mais adiante. O estudo que será desenvolvido pode ser dividido em quatro partes: Estatística Descritiva, Probabilidades, Amostragem e Inferência Estatística. A Estatística Descritiva se preocupa apenas em organizar e descrever um conjunto de observações. O estudo da Amostragem vai possibilitar o conhecimento das principais técnicas de obtenção de amostras bem como suas aplicações. O estudo de Probabilidades será necessário para que se possa desenvolver os principais métodos de Inferência Estatística. A Inferência Estatística vai possibilitar a tomada Estatística descritiva 2 de decisões acerca de populações (conjunto de elementos que tem pelo menos uma característica de interesse em comum). No exemplo ilustrado anteriormente, as 36 peças retiradas da produção representam uma amostra da população de todas as peças produzidas, de maneira que somente com a aplicação dos métodos de Inferência Estatística poderão ser respondidas àquelas indagações. Inicialmente não haverá a preocupação em diferenciar se um conjunto de observações corresponde a uma amostra ou população, já que essa distinção só será necessária a partir do estudo da Amostragem. 1.2 TIPOS DE VARIÁVEIS ESTATÍSTICAS Na descrição ou análise de um conjunto de dados estatísticos, pode-se associar a eles certos tipos de variáveis, pois o tratamento matemático exigido e o método estatístico a ser utilizado dependem dessa variável. Pode-se considerar dois tipos de variáveis: qualitativas e quantitativas. As variáveis qualitativas estão associadas a uma característica que denota qualidade ou atributo. Alguns exemplos de variáveis qualitativas são: cor dos olhos dos operários de certa indústria (azuis, castanhos, verdes, etc), desempenho dos operários (ótimo, bom, sofrível, etc), qualidade dos produtos (defeituosos, perfeitos, recuperáveis, etc). As variáveis quantitativas estão associadas a valores numéricos, podendo ser discretas ou contínuas. Uma variável é dita discreta quando o número de valores possíveis for finito ou infinito enumerável. Como exemplos de variáveis discretas pode-se citar: número de peças produzidas por uma indústria, número de defeitos encontrados em seus produtos, número de dias que choveu durante o mês de março em certa localidade, etc. A variável contínua é aquela que pode, ao menos teoricamente, assumir qualquer valor entre dois valores possíveis dessa variável. Alguns exemplos de variáveis contínuas são: comprimentos dos parafusos fabricados por certa máquina, tempos gastos pelos operários para realizar certa tarefa, resistência à ruptura dos cabos produzidos por certa companhia, etc. Costuma-se dizer, de uma maneira quase geral, que as variáveis discretas estão associadas às contagens e as variáveis contínuas às medições. Estatística Básica para os Cursos de Engenharia 3 1.3 DISTRIBUIÇÃO DE FREQÜÊNCIAS Um conjunto de observações de certo fenômeno, não estando adequadamente organizado, fornece poucas informações de interesse ao pesquisador. Para se obter informações de interesse, sobre o fenômeno em estudo, deve-se agrupar as observações em tabelas ou gráficos convenientemente construídos. O tipo de tabela ou gráfico utilizado é função do tipo de variável que representa o fenômeno de interesse. Considere a variável discreta X, representando o número de componentes eletrônicos defeituosos em cada lote de 500 componentes produzidos. Foram inspecionados 50 lotes fornecendo os seguintes valores para X: Com essas observações, pode-se construir uma tabela onde os Tabela 1.1- Distribuição de freqüências xi fi 0 2 1 3 2 4 3 7 4 12 5 10 6 8 7 3 8 1 Total 50 5 3 2 1 4 5 5 6 7 4 6 5 4 5 3 6 7 7 5 5 4 6 6 4 2 3 0 5 6 3 8 4 4 4 3 0 1 3 2 4 1 4 5 4 6 2 5 6 4 3 Estatística descritiva 4 valores de X, que serão representados por xi, estão dispostos em correspondência com suas freqüências (fi) respectivas, como mostra a distribuição de freqüências dada pela Tabela 1.1. A distribuição de freqüências da Tabela 1.1 está representada graficamente na Figura 1.1 através de um diagrama de freqüências por pontos. Esse diagrama mostra claramente que a variável (discreta) toma somente valores isolados. Figura 1.1 – Diagrama por pontos A Tabela 1.2 mostra as freqüências acumuladas, sendo a freqüência acumulada de um ponto igual à freqüência desse ponto somada com as freqüências de todos os valores menores que o ponto considerado. A Tabela 1.2 pode ser representada graficamente através do diagrama de freqüências acumuladas como mostra a Figura 1.2. 0 2 4 6 8 10 12 0 1 2 3 4 5 6 7 8 x f Estatística Básica para os Cursos de Engenharia 5 Tabela 1.2 - Distribuição de freqüências acumuladas xi fai 0 2 1 5 2 9 3 16 4 28 5 38 6 46 7 49 8 50 Figura 1.2 - Diagrama de freqüências acumuladas Figura 1.2 Diagrama de freqüências acumuladas Considere agora uma variável contínua Y representando as medidas de um ângulo tomadas por um topógrafo. Foram realizadas 50 medidas, fornecendo os resultados: 0 1 2 3 4 5 6 7 8 9 10 0 10 20 30 40 50 60 x fafa Estatística descritiva 6 Como a variável Y é contínua, os dados serão agrupados em classes ou categorias. Um critério utilizado na determinação do número de classes (k) é através da fórmula empírica de Sturges k = 1 + 3,32 log n (1.1) onde n representa o total de observações. A amplitude (h) de cada classe será dada por k a h (1.2) onde “a” representa a amplitude total das observações, definida como a diferença entre o maior e o menor valores observados. No caso do exemplo proposto, obtém-se 750log32,31 k '2 7 '13 7 '105'235 h , portanto, a tabela de freqüências, teráos dados distribuídos em 7 classes de amplitudes iguais a 2’. Assim obtém-se a Tabela 1.3. 50 10’ 50 16’ 50 17’ 50 14’ 50 15’ 50 18’ 50 12’ 50 21’ 50 23’ 50 19’ 50 11’ 50 16’ 50 14’ 50 16’ 50 17’ 50 16’ 50 17’ 50 11’ 50 16’ 50 13’ 50 12’ 50 22’ 50 15’ 50 20’ 50 18’ 50 21’ 50 17’ 50 21’ 50 18’ 50 15’ 50 16’ 50 19’ 50 12’ 50 16’ 50 13’ 50 19’ 50 23’ 50 14’ 50 19’ 50 14’ 50 14’ 50 18’ 50 15’ 50 16’ 50 18’ 50 15’ 50 20’ 50 17’ 50 18’ 50 10’ Estatística Básica para os Cursos de Engenharia 7 Tabela 1.3 - Distribuição de freqüências com limites aparentes Classes fi 5º10’ |- 5º12’ 4 5º12’ |- 5º14’ 5 5º14’ |- 5º16’ 10 5º16’ |- 5º18’ 13 5º18’ |- 5º20’ 10 5º20’ |- 5º22’ 5 5º22’ |- 5º24’ 3 Total 50 A notação 50 10’ |- 50 12’ é idêntica a [50 10’, 50 12’) e significa um intervalo que inclui o limite inferior 50 10’ e exclui o limite superior 50 12’, ou seja, é um intervalo fechado à esquerda e aberto à direita. De forma análoga, 50 10’ - 50 12’ ou (50 10’, 50 12’) representa um intervalo que exclui os dois limites. Outra discussão que merece certa atenção é quanto aos limites de classe. Na construção da tabela, utilizou-se os limites aparentes que geralmente não correspondem ao significado real das observações. No caso do exemplo dado, nota-se que os dados foram arredondados para minutos, portanto um ângulo de '115'4,115 estaria situado na primeira classe, enquanto que '125'7,115 estaria localizado na segunda classe. Partindo desse raciocínio, pode-se falar em limites reais Tabela 1.4 - Distribuição de freqüências com limites reais Classes fi 5º09,5’ |- 5º11,5’ 4 5º11,5’ |- 5º13,5’ 5 5º13,5’ |- 5º15,5’ 10 5º15,5’ |- 5º17,5’ 13 5º17,5’ |- 5º19,5’ 10 5º19,5’ |- 5º21,5’ 5 5º21,5’ |- 5º23,5’ 3 Total 50 Estatística descritiva 8 de classe, como mostra a Tabela 1.4. Muitas vezes, existe interesse em trabalhar com a freqüência relativa i'f de determinada classe. Essa freqüência é definida pelo quociente entre a freqüência de classe if e o número total de observações ou freqüência total n . Assim, tem-se n f 'f ii (1.3) Para a terceira classe do exemplo considerado tem-se 2,0 50 10 'f 3 , ou seja, 20% das medições apresentam resultados contidos no intervalo 50 14’ |- 50 16’. A representação gráfica da Tabela 1.3 é dada pelo histograma de freqüências. O histograma de freqüências é uma representação gráfica onde cada classe é representada por um retângulo, cuja base é igual à amplitude de classe correspondente, e a área é proporcional à freqüência de classe. A Figura 1.3 mostra o histograma de freqüências para os dados da Tabela 1.3. Figura 1.3 - Histograma de freqüências 0 5 10 15 5º10' 5º12' 5º14' 5º16' 5º18' 5º20' 5º22' 5º24' Classes F re q ü ê n ci a s Estatística Básica para os Cursos de Engenharia 9 Outra representação gráfica de interesse para uma variável contínua é o polígono de freqüências acumuladas. Esse gráfico é obtido, marcando-se no eixo das abcissas os valores da variável (em termos de limite de classe) e no eixo das ordenadas as freqüências acumuladas correspondentes. Na Tabela 1.5 os dados estão dispostos em correspondência com as freqüências acumuladas. Tabela 1.5 - Freqüências acumuladas Classes fi 5º10’ |- 5º12’ 4 5º12’ |- 5º14’ 9 5º14’ |- 5º16’ 19 5º16’ |- 5º18’ 32 5º18’ |- 5º20’ 42 5º20’ |- 5º22’ 47 5º22’ |- 5º24’ 50 O histograma de freqüências acumuladas correspondente à Tabela 1.5 está representado na Figura 1.4. Figura 1.4 - Polígono de freqüências acumuladas 0 10 20 30 40 50 60 5º10' 5º12' 5º14' 5º16' 5º18' 5º20' 5º22' 5º24' Classes F re q . a cu m u la d a s Estatística descritiva 10 1.4 MEDIDAS DE TENDÊNCIA CENTRAL Uma forma mais sintética de descrever um conjunto de dados pode ser feita através de um valor único, que representa em termos “médio” todo conjunto. Esse valor tende a se localizar no centro do conjunto de dados, sendo conhecido como medida de tendência central. As medidas de tendência central mais conhecidas e que serão estudadas a seguir são: a média aritmética, a mediana e a moda. 1.4.1 Média aritmética A média aritmética x de um conjunto de n valores x1, x2, ... , xn, é definida por n x n n 1i i x x (1.4) Se x1, x2, ... , xk, ocorrerem com as freqüências f1, f2, ..., fk, respectivamente, a média aritmética será dada pela expressão n fx f fx k 1i i f k 1i i x i f x (1.5) Caso os dados sejam distribuídos em classes, os valores x1, x2, ..., xk, corresponderão aos pontos médios das k classes. O ponto médio xi da i-ésima classe pode ser definido como a média aritmética entre os limites inferior (Li) e superior (Ls) da classe i considerada, ou seja, 2 LsLi i x (1.6) Entre as propriedades da média aritmética, as principais são: Estatística Básica para os Cursos de Engenharia 11 (1a) A soma algébrica dos desvios de um conjunto de números, em relação à média aritmética desse conjunto, é zero. (2a) A soma dos quadrados dos desvios de um conjunto de números, em relação a um número qualquer a, é um mínimo quando e somente quando a = x . Exemplos: (1) Foram feitas 10 medidas do tempo (em segundos) gasto por um operário para efetuar certa tarefa, obtendo-se: 15 13 10 14 15 15 14 14 12 13 que fornece um tempo médio 5,13 10 135 n x x segundos. (2) Foram inspecionados 30 aparelhos fabricados por certa indústria, obtendo-se os seguintes números de defeitos por aparelho: 1 0 2 0 1 1 4 0 2 3 2 2 1 0 0 0 2 1 1 0 0 4 2 1 0 0 0 0 1 2 resultando na distribuição de freqüências Tabela 1.6 - Distribuição de freqüências Número de defeitos fi 0 12 1 8 2 7 3 1 4 2 Estatística descritiva 12 O número médio de defeitos será 1,1 30 33 30 42312718012 n fx x (3) Seja agora a distribuição de freqüências dada pela Tabela 1.3. Tabela 1.7 - Cálculo da média Classes f x fx 5º10’ |- 5º12’ 4 5º11’ 20º044’ 5º12’ |- 5º14’ 5 5º13’ 25º065’ 5º14’ |- 5º16’ 10 5º15’ 50º150’ 5º16’ |- 5º18’ 13 5º17’ 65º221’ 5º18’ |- 5º20’ 10 5º19’ 50º190’ 5º20’ |- 5º22’ 5 5º21’ 25º105’ 5º22’ |- 5º24’ 3 5º23’ 15º069’ Total 50 - 250º844’ '175'88,165 50 '844250 n fx x . 1.4.2 Mediana A mediana Me de um conjunto de n valores ordenados x1, x2, ... , xn, é representada pelo valor central do conjunto, ou seja, pelo elemento de ordem (n+1)/2 para n ímpar ou pela média aritmética dos dois valores de ordem n/2 e (n/2)+1 para n par. Portanto, a mediana do conjunto 5 7 9 13 17 19 20 já ordenado, é igual ao valor central 13, pois n = 7 é ímpar. O conjunto, também ordenado Estatística Básica para os Cursos de Engenharia 13 3 7 8 10 12 15 tem mediana igual a 9, ou seja, é a média aritmética entre os valores 8 e 10, pois n = 6 (par). A mediana é útil principalmente quando o conjunto de dados é muito influenciado pelos extremos, refletindo aqui com mais fidelidade que a média aritmética a medida de tendência central correspondente. Para os dados da Tabela 1.6, com n = 30 (par), o elemento de ordem n/2 é igual a 1 e o elemento de ordem (n/2)+1 também é igual a 1, portanto a mediana é Me = (1+1)/2 = 1. No caso de dados agrupados em classes de freqüências, a mediana Me pode ser calculada pela expressão (deduzida a partir do histograma de freqüências) h f f'P LiMe Me a (1.7) onde: Li é o limite inferior da classe mediana (em umadistribuição de freqüências chama-se classe mediana à classe que contém a mediana); P = n/2 é a posição da classe mediana; af' é a freqüência acumulada da classe vizinha anterior à classe mediana; fMe é a freqüência da classe mediana; h é a amplitude do intervalo da classe mediana. Geometricamente, a mediana Me é o valor da variável que divide o histograma em duas partes de áreas iguais. Como exemplo, será calculada a mediana da distribuição de freqüências dada pela Tabela 1.3. Para esses dados, tem-se que P = n/2 = 50/2 = 25 (o 25o valor, em ordem crescente, está localizado na 4a classe, sendo esta a classe mediana). Assim, obtém-se Estatística descritiva 14 '165Li , 19af' , 13Me f , '2h , logo '175'92,165'2 13 1925 '165Me . 1.4.3 Moda A moda Mo de um conjunto de n valores x1, x2, ... , xn, é representada pelo valor que ocorre o maior número de vezes. Um conjunto de valores pode não apresentar moda, como também, a moda poderá não ser única. O conjunto 3, 5, 7, 7, 7, 8, 10, tem moda 7 (conjunto unimodal), enquanto que o conjunto 5, 7, 9, 10, 15, 20, não tem moda (denominado de conjunto amodal). O conjunto poderá apresentar mais de uma moda, por exemplo, 3, 5, 7, 7, 7, 8, 10, 10, 10, 15, 20, tem duas modas, 7 e 10, sendo esse conjunto denominado de bimodal. Para os dados da Tabela 1.6 a moda é representada pelo valor zero (valor de maior ocorrência), sendo esse conjunto unimodal. No caso de dados agrupados em classes de freqüências, a moda Mo pode ser calculada pela expressão (deduzida a partir do histograma de freqüências). h 'ff' 'f LiMo (1.8) Estatística Básica para os Cursos de Engenharia 15 onde: Li é o limite inferior da classe modal (em uma distribuição de freqüências chama-se de classe modal à classe de maior freqüência); f' é a freqüência absoluta de classe imediatamente anterior à classe modal; 'f é a freqüência absoluta de classe imediatamente posterior à classe modal; h é a amplitude de intervalo de classe modal. Como exemplo, considere a distribuição de freqüências da Tabela 1.3. A classe modal é aquela de freqüência igual a 13, portanto '165Li , 10f' , 10'f , '2h que substituindo na expressão (1.8) resulta '175'2 1010 10 '165Mo . 1.5 MEDIDAS DE DISPERSÃO As medidas de tendência central, como foi visto, dão uma idéia de todo o conjunto, através de um valor único. Mas elas são insuficientes para descrever mais detalhadamente o comportamento de todo o conjunto, como será visto em seguida. Considere os tempos, de três máquinas semelhantes, para executar certa operação industrial. Foram tomados os tempos (em segundos) de 5 operações para cada máquina, fornecendo os resultados Máquina A: 10, 10, 10, 10, 10; Máquina B: 11, 10, 9, 11, 9; Máquina C: 3, 4, 5, 20, 18. Calculando a média aritmética para cada máquina, obtém-se Estatística descritiva 16 10xxx CBA s, ou seja, o tempo médio para executar a operação é o mesmo pra as três máquinas. Mas, observando mais detalhadamente os três grupos obtidos, pode-se notar que se distribuem diferentemente em relação à média (10 s), como mostra a Figura 1.5. Figura 1.5 - Dispersão dos dados em torno da média 10 Máquina A: t 9 11 Máquina B: t 3 4 5 18 20 Máquina C: t Para uma análise quantitativa dessa maior ou menor variação (ou dispersão) do conjunto de valores em torno do valor médio, deve-se estudar as medidas de dispersão. As principais são: a amplitude, a variância, o desvio padrão e o coeficiente de variação. 1.5.1 Amplitude Amplitude ou amplitude total (a) de um conjunto de n valores x1, x2, ... , xn é definida pela diferença entre o maior valor (xmáx.) e o menor valor (xmín.) do conjunto, ou seja, .mín x .máx xa (1.9) Para o exemplo das máquinas, resulta Máquina A: a = 10 – 10 = 0 s Máquina B: a = 11 – 9 = 2 s Máquina C: a = 20 – 3 = 17 s Estatística Básica para os Cursos de Engenharia 17 Suponha que outra máquina D forneça os seguintes resultados 10, 10, 10, 3, 20, onde a = 20 – 3 = 17 s. Nota-se que as máquinas C e D apresentam uma mesma amplitude, apesar dos conjuntos de valores serem bem diferentes. Desta forma, verifica-se que a amplitude tem o grave inconveniente de depender somente de valores extremos do conjunto, desprezando os valores intermediários. Assim, a amplitude não pode fornecer uma idéia precisa quanto à dispersão. 1.5.2 Variância A variância (s2) de um conjunto de n valores x1, x2, ... , xn é a média aritmética dos quadrados dos desvios desses valores em relação à sua média aritmética, ou seja, n n 1i 2 )x i x( 2 s (1.10) Se x1, x2, ... , xk ocorrem com as freqüências f1, f2, ... , fk, respectivamente, a variância será dada pela expressão (1.11). As expressões que foram apresentadas devem ser utilizadas para calcular a variância de uma população, pois, no caso de amostras, deve-se substituir, nessas expressões, o denominador n por n – 1. A justificativa para essa substituição será apresentada no capítulo 4. n k 1i 2 )x i x( i f k 1i i f k 1i 2 )x i x( i f 2 s (1.11) A variância para os dados da máquina B será dada por Estatística descritiva 18 0,1 15 2 )109( 2 )1011( 2 )109( 2 )1010( 2 )1011(2 B s enquanto que para a máquina C será 5,68 15 2 )1018( 2 )1020( 2 )105( 2 )104( 2 )103(2 C s A expressão (1.11) pode ser utilizada para calcular a variância para os dados agrupados em intervalos de classe desde que xi represente o ponto médio de cada um desses intervalos. Como exemplo pode-se calcular a variância dos dados da Tabela 1.3. Tabela 1.8 - Cálculo da variância Classes f x 2)xx(f 5º10’ |- 5º12’ 4 5º11’ 138,2976 5º12’ |- 5º14’ 5 5º13’ 75,2720 5º14’ |- 5º16’ 10 5º15’ 35,3440 5º16’ |- 5º18’ 13 5º17’ 0,1872 5º18’ |- 5º20’ 10 5º19’ 44,9440 5º20’ |- 5º22’ 5 5º21’ 84,8720 5º22’ |- 5º24’ 3 5º23’ 112,3632 Total 50 - 491,2800 Nesse exemplo, trabalhou-se com a média '88,165x e considerando-se os dados como “amostra”, obtém-se 2 '026,10 150 2800,4912 s Estatística Básica para os Cursos de Engenharia 19 Notar que a unidade de variância é expressa pelo quadrado da unidade da variável em estudo. Em virtude do problema da unidade, é inconveniente o uso prático da variância. Para contornar o problema da unidade, define-se o desvio padrão. 1.5.3 Desvio padrão O desvio padrão (s) é definido como a raiz quadrada positiva da variância. No caso do exemplo anterior, o desvio padrão será '17,3026,10s 1.5.4 Coeficiente de variação O coeficiente de variação (cv) é uma medida adimensional de dispersão, sendo definida como o coeficiente entre o desvio padrão (s) e a média ( x ), ou seja, x s cv (1.12) O coeficiente de variação pode ser expresso em percentagem,sendo uma medida relativa de dispersão em relação ao seu valor médio. Assim, quando se deseja comparar as dispersões de 2 conjuntos de dados com médias bem diferentes, deve-se utilizar o coeficiente de variação, pois, o mesmo, leva em consideração a ordem de grandeza dos mesmos. Supondo que um conjunto de dados tem média 30x1 cm e desvio padrão 3s1 cm, enquanto um outro conjunto tem média 80x 2 cm e desvio padrão 4s2 cm. Nota-se que em termos absolutos, a dispersão do primeiro conjunto é menor que do segundo conjunto, pois, s1 < s2. Mas, em termos relativos, o primeiro conjunto possui coeficiente de variação Estatística descritiva 20 10,0 30 3 x s cv 1 1 1 ou 10%, enquanto que o segundo conjunto 05,0 80 4 x s cv 2 2 2 ou 5%, portanto, cv1 > cv2, ou seja, a dispersão relativa do primeiro conjunto é maior do que do segundo conjunto. 1.6 ASSIMETRIA A assimetria é definida como o grau de desvio, ou afastamento de simetria, de uma distribuição. Quantitativamente, o grau de desvio ou afastamento pode ser determinado pelas medidas denominadas de coeficiente do momento de assimetria e coeficiente de assimetria de Pearson. O coeficiente do momento de assimetria (a3) é uma medida adimensional definida como o quociente entre o terceiro momento centrado na média (m3) e o cubo do desvio padrão, ou seja, 3 3 3 s m a (1.13) O momento de ordem r (mr) centrado na média, de um conjunto de n valores x1, x2, ... , xn é definido pela quantidade n )xx( m n 1i r i r (1.14) Estatística Básica para os Cursos de Engenharia 21 que no caso de dados agrupados em classes de freqüências, a expressão (1.14) fica sendo n )xx(f f )xx(f m k 1i r ii k 1i i k 1i r ii r (1.15) Para r = 1 (momento de primeira ordem) verifica-se que m1 = 0, (1.16) enquanto que, para r = 2, m2 = s2 (1.17) Para a3 = 0, tem-se uma distribuição simétrica, caso contrário, a distribuição é dita assimétrica. Quando a3 < 0, a distribuição é dita alongada à esquerda, sendo denominada de negativamente assimétrica, enquanto que, para a3 > 0, a distribuição é alongada à direita, sendo denominada de positivamente assimétrica. Na Figura 1.6 pode-se verificar os três casos. Figura 1.6 - Assimetria nula, negativa e positiva a3 = 0 a3 < 0 a3 > 0 Como exemplo, considere os dados da Tabela 1.3, onde o desvio padrão já calculado resultou em '17,3s e o terceiro momento centrado da média (m3) será calculado a seguir. Estatística descritiva 22 .781,0 50 05281,39 n )xx(f m 3)'( 3 ii 3 Portanto, o coeficiente do momento de assimetria será .02,0 )17,3( 781,0 a 33 Tabela 1.9 - Cálculo do terceiro momento Classes f x 3)xx(f 5º10’ |- 5º12’ 4 5º11’ -813,18989 5º12’ |- 5º14’ 5 5º13’ -292,05536 5º14’ |- 5º16’ 10 5º15’ -66,44672 5º16’ |- 5º18’ 13 5º17’ 0,02246 5º18’ |- 5º20’ 10 5º19’ 95,28128 5º20’ |- 5º22’ 5 5º21’ 349,67264 5º22’ |- 5º24’ 3 5º23’ 687,66278 Total 50 - -39,05281 O coeficiente de assimetria de Pearson (A), é outra medida adimensional de assimetria, sendo definida pela expressão s Mox A (1.18) No caso dos dados da Tabela 1.3, onde '88,165x , '175Mo e '17,3s , resulta 04,0 '17,3 '175'88,165 A . Estatística Básica para os Cursos de Engenharia 23 Como os valores de a3 e A estão muito próximos de zero, a distribuição da Tabela 1.3 é praticamente simétrica. 1.7 CURTOSE A curtose é definida como o grau de achatamento de uma distribuição, considerado usualmente em relação à distribuição normal (distribuição teórica que será objeto de estudo no capítulo 2). Com relação ao achatamento, a distribuição normal é dita mesocúrtica. As distribuições mais achatadas que a normal são ditas platicúrticas, enquanto que as menos achatadas que a normal são ditas leptocúrticas. A Figura 1.7 mostra os três casos de curtose, utilizando a representação através de curvas de freqüências (aproximação de uma curva ao histograma de freqüências). Figura 1.7 - Distribuições quanto à curtose A principal medida de curtose é proporcionada pelo -3 -2 -1 0 1 2 3 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Mesocúrtica Leptocúrtica Platicúrtica Estatística descritiva 24 O coeficiente do momento de curtose (a4) é definido pelo quociente entre o quarto momento centrado na média e o quadrado da variância, ou seja, 4 4 22 4 4 s m )s( m a (1.19) O coeficiente do momento de curtose é uma medida adimensional de curtose, sendo a4 = 3 para a distribuição normal, a4 < 3 para as distribuições platicúrticas e a4 > 3 para as distribuições leptocúrticas. Na prática, só tem sentido calcular a curtose para as distribuições simétricas ou pelo menos aproximadamente simétricas. Como exemplo da determinação do coeficiente do momento de curtose, considere os dados da Tabela 1.3. Tabela 1.10 - Cálculo do quarto momento Classes F x 4)xx(f 5º10’ |- 5º12’ 4 5º11’ 4781,557 5º12’ |- 5º14’ 5 5º13’ 1133,175 5º14’ |- 5º16’ 10 5º15’ 124,920 5º16’ |- 5º18’ 13 5º17’ 0,003 5º18’ |- 5º20’ 10 5º19’ 201,996 5º20’ |- 5º22’ 5 5º21’ 1440,651 5º22’ |- 5º24’ 3 5º23’ 4208,496 Total 50 - 11890,798 O quarto momento centrado na média será 4)'( 4 ii 4 816,237 50 798,11890 n )xx(f m , proporcionando o coeficiente de curtose Estatística Básica para os Cursos de Engenharia 25 37,2 )026,10( 816,237 a 24 . Como a4 < 3, a distribuição dada pela Tabela 1.3 é do tipo platicúrtica. 1.8 PROBLEMAS PROPOSTOS 01. Uma amostra de 7 corpos de prova de concreto forneceu as seguintes resistências à ruptura: 340, 329, 337, 348, 351, 360 e 354 kg/cm2. Calcular a média, mediana, moda, variância, desvio padrão e coeficiente de variação. 02. O tempo necessário para se realizar certa operação industrial foi cronometrado (em segundos), sendo feitas 40 determinações. 45 37 39 48 51 40 53 49 39 41 45 43 45 34 45 35 41 57 38 46 46 58 57 36 58 35 31 59 44 57 45 44 38 43 33 56 47 48 44 49 Construa a tabela de freqüências, o histograma de freqüências e o polígono de freqüências acumuladas. 03. Foram realizadas 50 determinações do tempo de vida de certo componente eletrônico, obtendo-se a distribuição de freqüências: Estatística descritiva 26 Tempo (horas) Freqüências 1200 |- 1300 1 1300 |- 1400 3 1400 |- 1500 11 1500 |- 1600 20 1600 |- 1700 10 1700 |- 1800 3 1800 |- 1900 2 Calcular a média, a moda, a mediana, o desvio padrão, o coeficiente de momento de assimetria, o coeficiente de assimetria de Pearson e o coeficiente de momento de curtose, interpretando os resultados obtidos. 04. Foram realizadas 30 determinações de densidade de certo metal, resultando a distribuição de freqüências. Densidade (g/cm3) Freqüências 19,0 |- 19,1 4 19,1 |- 19,2 5 19,2 |- 19,3 8 19,3 |- 19,4 7 19,4 |- 19,5 3 19,5 |- 19,6 3 Qual a densidade média do metal? Quais os limites razoáveis para a determinação da densidade média? Com relação à curtose, como você considera essa distribuição? Essa distribuição tem assimetria negativa ou positiva? 05. Uma amostra de metal, que se presume seja ouro, é examinada mediante 10 determinações da densidade, obtendo-se: EstatísticaBásica para os Cursos de Engenharia 27 19,0 19,4 19,2 18,9 19,5 19,1 19,0 18,8 18,9 19,4 g /cm3. Determinar a densidade média, a amplitude total, o desvio padrão e o coeficiente de variação. 06. Classificar cada uma das seguintes variáveis (qualitativa, quantitativa discreta ou contínua): a) População: válvulas fabricadas por certa indústria; Variável: número de válvulas defeituosas em cada lote de 100 válvulas. b) População: cabos fabricados por certa companhia; Variável: tensão de ruptura. c) População: funcionários de certa empresa; Variável: grau de estudo. d) População: televisão de certa marca; Variável: opinião dos compradores acerca da qualidade. e) População: lâmpadas elétricas fabricadas por certa indústria; Variável: tempo de vida. 07. Para os dados da Tab. 1.1 (pág. 3), calcular: a média aritmética, a moda, a mediana, a amplitude, o desvio padrão, a variância, o coeficiente de variação, o terceiro e o quarto momentos centrados na média. Estatística descritiva 28 08. A tabela seguinte representa uma distribuição de freqüências dos diâmetros externos das tubulações fabricadas por certa companhia (amostra 200 tubos): Diâmetros externos (mm) Freqüências 20,1 |- 20,2 10 20,2 |- 20,3 25 20,3 |- 20,4 30 20,4 |- 20,5 35 20,5 |- 20,6 45 20,6 |- 20,7 25 20,7 |- 20,8 15 20,8 |- 20,9 10 20,9 |- 21,0 5 a) Construir o histograma de freqüências. b) Calcular a média e o desvio padrão desses diâmetros. c) Qual o valor do diâmetro externo, que ao menos teoricamente, deve ocorrer com mais freqüência? d) Qual a mediana dessa distribuição? Interpretar. e) Qual a % de tubos cujos diâmetros externos estão compreendidos entre sx e sx ? f) Calcular o coeficiente de assimetria de Pearson e interpretar o resultado.
Compartilhar