Baixe o app para aproveitar ainda mais
Prévia do material em texto
Cicero Aparecido Bezerra Egon Walter Wildauer Leandro Escobar Análise de dAdos pArA Business intelligence Superintendente Reitor Pró-Reitora Acadêmica Diretor de EAD Gerente Editorial e de Tutoria Gerente de Metodologia Autoria Supervisão Editorial Análise de Conteúdo Análise de Qualidade Edição de Texto Design Instrucional Design de Atividades Layout de Capa Imagem de Capa Edição de Arte Diagramação Design Gráfico Revisão Prof. Paulo Arns da Cunha Prof. José Pio Martins Profa. Márcia Teixeira Sebastiani Prof. Roberto de Fino Bentes Profa. Manoela Pierina Tagliaferro Profa. Dinamara Pereira Machado Prof. Cicero Aparecido Bezerra, Prof. Egon Walter Wildauer e Prof. Leandro Escobar Fabieli Campos Higashiyama e Bianca de Britto Nogueira Francine Ozaki e Silvia Mara Hadas Betina Dias Ferreira Giovane Michels Wagner Gonçalves da Silva Mariana Moschkovich Athayde Valdir de Oliveira Thiago Sihvenger Denis Kaio Tanaami Regiane Rosa Juliano Henrique e Thiago Sihvenger Anderson Novello, Elizabeth Pinheiro, Yohan Barczyszyn e Marina López Moreira *Todos os gráficos, tabelas e esquemas são creditados aos autores, salvo quando indicada a referência. Informamos que é de inteira responsabilidade dos autores a emissão de conceitos. Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. A violação dos direitos autorais é crime estabelecido pela Lei n.º 9.610/98 e punido pelo artigo 184 do Código Penal. Copyright Universidade Positivo 2014 Rua Prof. Pedro Viriato Parigot de Souza, 5300 – Campo Comprido Curitiba-PR – CEP 81280-330 Ícones Afirmação Contexto Biografia Conceito Esclarecimento Dicas Assista Curiosidade Exemplo InserIr AquI o TíTulo dA obrA 5 Sumário Apresentação ................................................................................................................... 7 Os autores ........................................................................................................................ 8 Capítulo 1 Introdução à teoria da probabilidade, aplicações e distribuição de frequências ...........11 1.1 Frequência.................................................................................................................11 1.1.1 Representações gráficas ....................................................................................................................................... 19 1.2 Arranjos e combinações ...........................................................................................24 1.2.1 Arranjos e combinações ....................................................................................................................................... 27 1.2.2 Espaço amostral e eventos ................................................................................................................................... 30 1.2.3 Teoria dos conjuntos ............................................................................................................................................. 31 Referências ......................................................................................................................43 Capítulo 2 Estatística ........................................................................................................................45 2.1 Medidas de tendência central ..................................................................................48 2.2 Medidas de dispersão ...............................................................................................51 2.3 População e amostragem .........................................................................................56 2.3.1 Amostragem probabilística .................................................................................................................................. 60 2.3.2 Amostragem não probabilística ........................................................................................................................... 68 2.4 Estimação estatística ................................................................................................74 Referências ......................................................................................................................80 InserIr AquI o TíTulo dA obrA 6 Capítulo 3 Teste de hipóteses ...........................................................................................................81 3.1 Definição do problema e hipóteses ..........................................................................82 3.2 Testes mono e bicaudais ...........................................................................................84 3.3 Distribuições Z e t �����������������������������������������������������������������������������������������������������93 3.4 Valores críticos, p-valores e erros ............................................................................100 Referências ....................................................................................................................115 Capítulo 4 Análise de regressão .....................................................................................................117 4.1 Elementos básicos ..................................................................................................117 4.2 Correlação ...............................................................................................................120 4.3 Regressão linear simples ........................................................................................124 4.4 Regressão múltipla e não linear .............................................................................140 Referências ....................................................................................................................154 Este livro apresenta os conceitos básicos pertinentes à análise de dados em um contexto empresarial, principalmente quando se verifica a necessidade de se estabele- cerem diferenciais competitivos baseados em informações. Fornece noções básicas de probabilidade, estatística e amostragem, visto que são elementos primordiais à análise de dados. A partir daí, aborda os procedimentos para se definirem hipóteses a respeito de um problema de análise, bem como testes para verificar a validade dessas hipóte- ses. Finalmente, emprega os modelos de regressão, com o intuito de verificar a relação entre fenômenos organizacionais que possam ser expressos por meio de variáveis. O li- vro foi elaborado para acompanhar o processo de ensino e aprendizagem à distância, com exemplos práticos aplicados à teoria e de fácil reprodução por parte do leitor. Apresentação Os autores O professor Egon Walter Wildauer é Doutor em Engenharia Florestal pela UFPR, com Estágio de Doutorado Sanduíche no exterior, na Albert Ludwig Freiburg Universität (2007), Mestre em Engenharia de Produção e Qualidade pela UFSC (2002), Especialista em Ciência da Computação pela PUC-PR (1995) e Graduado em Informática pela UFPR (1992). É autor de livros na área de informática e negócios. Tem experiên- cia na área de Ciência da Computação, com ênfase em Sistemas de Informação, atuan- do, principalmente, nos seguintes temas: Análise e Projeto de Sistemas de Informação, Banco de Dados, GED, Fluxo da Informação e Gestão da Informação. Atua também no campo de Administração nos temas Gerenciamento de Processos, Gestão da Qualidade e Indicadores, Gestão de Pessoas e Fluxos Informacionais. Currículo Lattes: <http://lattes.cnpq.br/1767196615552654> Para Laila, Ayesha e Ingrid, com e por amor. Os autores O professor Cicero Aparecido Bezerra possui Pós-Doutorado em Gestão Estratégica da Informação e do Conhecimento pela PUC-PR (2012), Doutorado e Mestrado emEngenharia de Produção pela UFSC (2007, 2001) e Graduação em Informática pela Universidade do Vale do Rio dos Sinos (1992). Tem experiência em Informática, com ênfase em Sistemas de Informação, atuando, principalmente, nos seguintes temas: Sistemas de Informação, Gestão da Informação, Gestão do Conhe- cimento e Análise de Dados. Currículo Lattes: <http://lattes.cnpq.br/8651113987192195> Aos professores Egon e Leandro, pela oportunidade. Os autores Leandro Escobar é especialista em Gestão e Planejamento de TI (FAE Business School) e bacharel em sistemas de informação (Universidade Tuiuti do Paraná). Já atuou como gestor de TI e gestor de projetos de TI em diversas empresas de médio e grande porte. Atua como professor em cursos de graduação e pós-graduação, minis- trando matérias nas áreas de tecnologia da informação, infraestrutura de TI, gestão de projetos, engenharia da computação, sistemas de informação e gestão de TI. Currículo Lattes: <http://lattes.cnpq.br/8395924007688119> A Vilmara, Isadora e Marcelo, pela inspiração e apoio. 1 Introdução à teoria da probabilidade, aplicações e distribuição de frequências Quando se trabalha com estatística, é co- mum a obtenção de dados em forma bruta, ou seja, na forma que foram coletados, sem nenhum tipo de tratamento e com pouca ou nenhuma in- formação ao usuário. Diante disso, há a neces- sidade de tratamento dos dados, de modo a organizá-los e melhor transmitir informações so- bre o contexto estudado e, assim, apoiar a toma- da de decisão nos negócios. 1.1 Frequência Uma forma usual de tratar os dados corres- ponde à distribuição de frequências, ou seja, utilizar uma tabela que apresenta o número de vezes que um evento ou observação ocorrem dentro de um conjunto de dados. As frequências absolutas representam a contagem das ocorrências. Já as frequências relativas representam a razão entre o número de ocorrências e o tamanho da amostra (conjunto de dados). © N ai lia S ch w ar z / / F ot ol ia Distribuição de frequências é a forma como dados são associados às variáveis representa- das, expressas na construção de tabelas de frequências. Isso permite reduzir o volume de da- dos para análise, ficando a contagem dos dados da variável exposta como frequências (BRUNI, 2011). Por exemplo, suponha os dados quantitativos coletados de uma empresa que vende eletrodomésticos no varejo, cujas informações de sugestões, reclamações, elo- gios e outras ocorrências importantes dos seus clientes são coletadas e registradas em um call center. As chamadas dos clientes ao call center são registradas individualmente pelos atendentes e, no final do dia, são somadas para realizar o fechamento do total das ligações. Em um período de 10 dias, foram registrados os totais apresentados no quadro a seguir: Análise de dAdos pArA Business intelligence 12 Dados de call center – número de ligações registradas por cada atendente 49 40 32 50 31 40 46 51 45 36 51 47 40 40 47 54 36 42 31 53 © W on de rf ul Pi xe l / / Fo to lia Se dispusermos os dados em ordem crescente, teremos o quadro a seguir: Dados ordenados de call center – Número de ligações registradas por cada atendente © W on de rf ul Pi xe l / / Fo to lia 31 40 45 50 31 40 46 51 32 40 47 51 36 40 47 53 36 42 49 54 Ao quadro com dados ordenados (seja em ordem crescente ou decrescente) da- mos o nome de conjunto de dados, pois possui uma lógica, um critério de apresentação e de organização das informações. Com base no conjunto de dados apresentado no quadro com dados ordenados, fica fácil identificar algumas informações, por exemplo, a ocorrência do menor e do maior número de ligações no call center: Menor valor = 31 ligações atendidas Maior valor = 54 ligações atendidas Também é fácil calcular a informação da amplitude dos dados, simplesmente subtraindo o valor do menor número de ligações recebidas no call center do maior nú- mero dessas ligações: Amplitude = 54 – 31 = 23 Análise de dAdos pArA Business intelligence 13 Outra informação que podemos extrair do quadro com dados ordenados é o valor que mais se repete na lista, facilmente identificado pelo número 40, que representa a moda do conjunto de dados. Amplitude de dados refere-se à distância numérica existente entre o maior e o menor número de uma lista. Para encontrá-la, ordene a lista em ordem crescente e, em seguida, faça a subtra- ção dos números das extremidades. O resultado será a amplitude da lista de dados. Moda é a representação do número que mais vezes se repete em uma lista de números. Quando temos em mãos dados que representam uma determinada característi- ca de uma unidade de negócios, como no exemplo das ligações de cliente para o call center da empresa, podemos aplicar sobre esses dados um tratamento que consiste em separar todas as ligações recebidas em parcelas de ligações, de acordo com uma determinada regra de agrupamentos, que passaremos a chamar de classes. Chamar de classe uma parcela de dados significa que se pode contar certo nú- mero de dados para compor classes de dados, chamados de intervalos de classe. Bruni (2013, p. 12) afirma que “quando variáveis quantitativas se apresentam com valores di- ferentes, sua análise pode apresentar melhor resultado se forem agrupados em clas- ses, isto é, a criação de classes de frequência, seguida de posterior tabulação”. Por definição, todo intervalo de classe pode possuir algum tipo de classificação: • intervalo de classe aberto: quando os limites inferior ( ) e superior ( ) não per- tencem à classe em questão; • intervalo de classe fechado: quando os limites inferior e superior pertencem à classe em questão; • intervalo de classe misto: quando apenas um dos limites, inferior ou superior, pertence à classe. O intervalo de classes mais utilizado é do tipo misto. Para determinar o interva- lo de classes do quadro com dados ordenados, é necessário seguir os seguintes passos: Análise de dAdos pArA Business intelligence 14 © k an at e / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e 1. Faça o conjunto de dados: 31 40 45 50 31 40 46 51 32 40 47 51 36 40 47 53 36 42 49 54 2. Determine as classes. Para isso, é necessário definir inicialmente o número de classes (k) que teremos, de acordo com a seguinte regra: Sendo n o número de dados (observações), as classes k podem ser definidas levando em consideração a quantidade de dados que compõem n, que representa o número de elementos na amostra. No caso em questão, n=20: Para n ≤ 100, use k = √ n Para n > 100, use k = 5 × log n Logo, temos: k = √ n k = √ 20 k = 4,45 ≅ 5 Resultando, portanto, 5 classes. © k an at e / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e Análise de dAdos pArA Business intelligence 15 3. Apresentar a amplitude total (maior – menor): Amplitude = 54 – 31 = 23 © k an at e / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e © k an at e / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e 4. Apresentar a amplitude do intervalo da classe, que é calculado por c, sendo apresentado em porcentagem (%): Assim, o intervalo entre as classes será de 6 elementos. c = 5,75 ~= 6 c = 235 – 1 c = k – 1 amplitude © k an at e / / F ot ol ia . ( A da pt ad o) . D es ig n Grá fi co : J ul ia no H en ri qu e 5. Finalmente, determinar os intervalos de classe. Podemos calcular, inicialmente, o limite inferior da classe, dado pela diferença: Limite inferior = 28 Limite inferior = menor valor – 2 c Limite inferior = 31 – 2 6 Análise de dAdos pArA Business intelligence 16 Atenção: Note que os intervalos de classe na tabela acima são fechados à esquerda e abertos à direita. Isso é demonstrado pelo símbolo . Isso significa que, o menor valor pertence à classe, mas o maior valor não pertence à classe. Por exemplo, na classe 34 40, conjunto possível de dados é {34, 35, 36, 37, 38, 39}. A definição quanto á estrutura “aberto” ou “fechado” dos intervalos de classe é fundamental para a análise das frequências e dos próprios dados. No que tange a distribuição de frequências de um conjunto de dados, podem ser de três tipos. Para conhecê-los, peguemos novamente o exemplo dos atendimentos no call center. Poderíamos contar o número de atendimentos relativos a sugestões, a elo- gios e a reclamações, apresentando, assim, a contagem de cada um deles. O número de reclamações com os atendimentos é chamado de frequência daquele atendimento e a tabela resultante é uma tabela de frequências. Vejamos os três tipos de frequências na prática: 1. Frequência absoluta ( fa): corresponde ao número de vezes que um valor em particular aparece no conjunto de dados. Por exemplo, na primeira classe, que diz respeito ao intervalo que possui a contagem de 28 até 34 ligações, há o to- tal de 3 atendentes que receberam ligações dentro desse intervalo (3 obser- vações). Pode-se afirmar que o intervalo 28 até 34 tem, portanto, frequência absoluta 3. fa = Nxi Onde xi é a observação ou evento dentro do intervalo. © k an at e / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e 6. Finalizando, basta somar o limite inferior encontrado com a amplitude (c) do intervalo de classe (passo 4) para determinar as 5 classes dos dados coletados: Quadro de classes 28 Ⱶ 34 Primeira classe 34 Ⱶ 40 Segunda classe 40 Ⱶ 46 Terceira classe 46 Ⱶ 52 Quarta classe 52 Ⱶ 58 Quinta classe Análise de dAdos pArA Business intelligence 17 2. Frequência relativa (fr): refere-se à proporção do número de observações que compõem uma determinada classe em relação ao total de observações, expresso em porcentagem. Por exemplo, na primeira classe, que equivale ao intervalo que possui a contagem de 28 até 34 ligações, há 3 atendentes que receberam liga- ções, e o total de todas as ligações recebidas soma 20 (em todas as classes). Por isso, a relação de 3 ligações sobre 20 corresponde a uma frequência relativa de 0,15, ou seja, a frequência relativa da primeira classe é de 15%. Onde: Nxi é o número de observações dentro da classe N é o total de elementos na amostra 3. Frequência acumulada ( fac): diz respeito à soma de todas as frequências até o valor presente (uma dada observação), acumulando-as. Por exemplo, na se- gunda classe das ligações recebidas no call center, no intervalo que possui a contagem de 34 até 40 ligações, há o total de 2 elementos, ( fa = 2; fr = 0,1). Todavia, na segunda classe, a frequência acumulada é 5, pois somam-se os va- lores da primeira classe ( fa = 3) com os da segunda ( fa = 2). Sabendo que a frequência absoluta ( fa) corresponde ao número de observações em uma determinada classe ou em um determinado atributo de uma variável, para conjunto de dados do quadro com dados ordenados visto anteriormente, temos que: fr = N Nxi A primeira classe corresponde a uma frequência absoluta de 3.28 Ⱶ 34 A segunda classe corresponde a uma frequência absoluta de 2.34 Ⱶ 40 Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 18 A terceira classe corresponde a uma frequência absoluta de 6.40 Ⱶ 46 A quarta classe corresponde a uma frequência absoluta de 7.46 Ⱶ 52 A quinta classe corresponde a uma frequência absoluta de 2. 52 Ⱶ 58 Vejamos na tabela a seguir a apresentação dos intervalos de classes e as respecti- vas frequências absolutas: Frequência absoluta do intervalo de classes Intervalo Frequência absoluta 28 34 3 34 40 2 40 46 6 46 52 7 52 58 2 Total 20 Para determinar as frequências relativas, deve-se levar em consideração que elas equivalem à razão entre a frequência absoluta e o total de elementos no conjunto de dados, conforme representação na tabela a seguir: fr = fa total Design Gráfico: Juliano Henrique © A le ks an dr B ry lia ev / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e Análise de dAdos pArA Business intelligence 19 Frequência relativa do intervalo de classes Intervalo Frequência absoluta Frequência relativa Frequência percentual 28 34 3 0,15 15% 34 40 2 0,10 10% 40 46 6 0,30 30% 46 52 7 0,35 35% 52 58 2 0,10 10% Total 20 1,00 100% Para determinar as frequências acumuladas, deve-se somar as frequências abso- lutas, algo que pode ser realizado diretamente no conjunto de dados, conforme apre- sentado na tabela a seguir: Intervalo de classes e relação das frequências Intervalo Frequência absoluta Frequência relativa Frequência acumulada Frequência acumulada (relativa) 28 34 3 0,15 3 0,15 34 40 2 0,10 5 0,25 40 46 6 0,30 11 0,55 46 52 7 0,35 18 0,90 52 58 2 0,10 20 1,00 Total 20 1,00 1.1.1 Representações gráficas Para apresentação gráfica dos dados, primeiramente, partimos da disposição ini- cial dos dados, os quais, em uma planilha eletrônica, podem ser configurados de acor- do com o que veremos logo adiante. Devemos ter em mente que, para cada tipo de variáveis, teremos um tipo específico de gráfico, por exemplo: se desejarmos apresen- tar variáveis que representem uma parte (uma contribuição) perante um todo, deve- remos usar o gráfico de setores para representar o percentual (%) de cada variável em relação às outras. Caso desejemos apresentar a contribuição de variáveis independen- tes umas das outras, utilizaremos o gráfico de colunas. O gráfico de linhas serve para mostrar a evolução de variáveis ao longo de um determinado contexto. Como pode- mos perceber, haverá um tipo de gráfico recomendado para cada situação e para cada conjunto de variáveis, dependendo do que se deseja representar. Análise de dAdos pArA Business intelligence 20 No nosso exemplo, vamos utilizar os dados (o número) das ligações recebidas pelo call center e que foram formatados em intervalos de classes, além do número de todas as ligações (dados) das distribuições de frequências, a fim de exemplificarmos suas representações gráficas. Intervalo de classes e frequências em uma planilha Para a representação gráfica de uma distribuição de frequência (DF), você pode utilizar três tipos de gráficos, os quais variam em função do tipo de frequência que de- seja ilustrar: (1) o histograma, baseado na frequência absoluta; (2) o polígono de fre- quência, baseado nos pontos médios das classes; (3) a ogiva, baseada nas frequências acumuladas. Histograma é a representação gráfica, em colunas, de um conjunto de dados previamente organizado em classes uniformes. A base de cada coluna representa uma classe e a altura da coluna representa a frequência com que tal classe ocorreu no conjunto de dados. O gráfico a seguir apresenta as frequências acumuladas de acordo com o intervalo de classes definidas para as chamadas no call center: Histograma da frequência acumulada dos intervalos de classes D es ig n G rá fi co : J ul ia no H en ri qu e Frequência acumulada Frequênciaacumulada 25 20 15 10 5 0 28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58 Análise de dAdos pArA Business intelligence 21 Referenciando os dados do intervalo de classes e frequências (conforme a tabe- la a seguir), podemos exibir as mesmas informações de um gráfico de colunas em um diagrama denominado polígono de frequências, o qual, em vez de utilizar barras para representar as classes, apresenta um ponto médio da classe, de modo a unir os pontos para designar toda a frequência. A figura após a tabela apresenta esse tipo de gráfico. Intervalo de classes e frequências acumuladas Intervalo Frequência acumulada 28 34 3 34 40 5 40 46 11 46 52 18 52 58 20 Gráfico de ogiva de frequências Nesse ponto, pode surgir uma pergunta: qual a aplicabilidade da frequência acu- mulada no call center, por exemplo? A resposta é que a frequência acumulada permi- te que o gestor tenha uma visão clara do total de observações (ligações recebidas) de uma determinada sequência de classes, dispondo, assim, do volume (absoluto ou rela- tivo) de ligações recebidas totais (somadas) recebidas dentro das classes em questão. A frequência acumulada pode ser aplicada aos casos em que o gestor deseja de- terminar a capacidade produtiva e partir desse número, verificar quantas classes serão atendidas. Se o gestor do call center tiver como meta atender até 90% das ligações, ele deve preparar sua equipe para receber 52 ligações diárias aproximadamente. D es ig n G rá fi co : J ul ia no H en ri qu e Frequência acumulada por intervalo de classes 25 20 15 10 5 0 28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58 Análise de dAdos pArA Business intelligence 22 Outra forma de representar a distribuição de frequência é o gráfico de colunas agrupadas, construído sobre dois eixos: o horizontal com as classes de dados, ou seja, os fenômenos, os processos, cujas intensidades são expressas no eixo vertical. É um gráfico muito utilizado quando necessitamos apresentar a evolução – ou diferença – de um determinado evento, como vendas, atendimentos, consultas e outras informações que dependem do contexto de uso. Gráfico de colunas agrupadas Os gráficos de linhas são muito úteis para comparar o comportamento de duas ou mais variáveis. São construídos sobre dois eixos (horizontal e vertical), nos quais há uma linha que representa a evolução (aumento ou diminuição) das informações de um determinado processo ou fenômeno em estudo no decorrer de um período. Pode tam- bém expressar a alteração de valores entre categorias, por exemplo: evolução de ven- das, de atendimentos etc. Gráfico de linhas 25 20 15 10 5 0 28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58 Frequência acumulada (relativa) Frequência acumulada Frequência relativa Frequência absoluta 25 20 15 10 5 0 28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58 Frequência absoluta Frequência relativa Frequência acumulada Frequência acumulada (relativa) D es ig n G rá fi co : J ul ia no H en ri qu e Análise de dAdos pArA Business intelligence 23 O gráfico de setores é útil quando desejamos visualizar uma determinada grandeza que se subdivide em diferentes categorias. Cada categoria é representada no gráfico por um setor proporcional à fração sua fração relativa ao total. Por exemplo: vamos supor que o gestor de uma universidade que oferece quatro cursos (Biologia, Administração, Direito e Ciência da Computação), cada qual com um determinado número de estudan- tes, deseja saber qual o percentual de participação de cada curso em relação ao total de estudantes da universidade. Para isso, o gestor elaboraria uma tabela de acordo com a descrição a seguir e, a partir dessa tabela, construiria a distribuição do número e percen- tual de estudantes de cada curso em um gráfico de setores, que representaria a fração de alunos de cada curso que compõe o total de estudantes da universidade: Estudantes de quatro cursos da universidade representados em tabela e em gráfico de setores 55 em Ciências da Computação; 18% Estudantes 65 em Administração; 22% Biologia Administração Direito C. da computação 85 em Direito; 28% 98 em Biologia; 32% D es ig n G rá fi co : J ul ia no H en ri qu e Análise de dAdos pArA Business intelligence 24 Nesse exemplo, cada categoria possui uma área do gráfico que corresponde a um percentual do todo. Assim, o curso de Administração corresponde a 22% do total, Biologia perfaz 32% do total e assim por diante, fechando em 100% o total de catego- rias da informação desejada. Até o momento, vimos que apresentar os dados em forma de tabelas e gráficos nos dá uma boa ideia do que eles representam. 1.2 Teoria da probabilidade De forma geral, quando procuramos descrever o comportamento de deter- minados fenômenos, formulamos um modelo matemático para explicá-lo. Bussab e Morettin (2012, p. 103) concordam com essa afirmação e acrescentam que “a par- tir das frequências observadas podemos calcular medidas de posição e variabilidade, como média, mediana, desvio-padrão e outros”. Essas medidas são estimativas de quantidades desconhecidas, associadas a populações que foram extraídas na forma de amostras. Logo, essas estimativas são as probabilidades de ocorrências de eventos de interesse. Nesse mesmo sentido, Neufeld (2003, p. 80) acrescenta que “o valor de uma variável não pode ser previsto antes da sua ocorrência”, então, conhecendo-se o con- junto de valores possíveis de essa variável ocorrer, podemos calcular a probabilidade de um determinado valor ocorrer. Essa é a base da teoria da probabilidade. Então, com perguntas ou suposições certas, podemos criar um modelo geral para reproduzir o comportamento da dis- tribuição de frequências de um experimen- to ou fenômeno. Por exemplo, os jogos de azar relacionam possibilidades e probabili- dades que foram fundamentalmente pos- tuladas desde o século XVIII, quando o matemático francês Pierre Simon Laplace (1749-1827) estudou teorias matemáticas e apresentou uma fórmula para explicar a Regra da Sucessão. Essa regra baseia-se no fato de que, se um processo só tiver dois possíveis resultados (sucesso e falha), com nenhum conhecimento prévio dos possíveis resultados, a fórmula pode apresentar uma probabilidade para que o próximo resultado do processo seja “sucesso”. Em outras palavras, simbolizando n como número total de processos observados e S como o número de “sucessos” anteriormente observados, te- remos a formulação da probabilidade P do próximo resultado: © N ai lia S ch w ar z / / F ot ol ia Análise de dAdos pArA Business intelligence 25 A formulação de Laplace surge com o nome de teoria da probabilidade; e o termo probabilidade passou a se referir ao estudo dos fenômenos aleatórios. Quando o problema versa sobre a probabilidade de um evento ocorrer em N ma- neiras excludentes, ou seja, um evento excluir a ocorrência de outro – igualmente pro- vável – e ambos os eventos com a mesma chance de ocorrer, então, a probabilidade de um evento ocorrer de N maneiras diferentes, podendo depender de m ocorrências com características favoráveis, é dado por: P(resultado futuro) = s + 1 n + 2 P(E ocorrer) = m N A teoria da probabilidade faz uso dessas teorias para melhor explicar seus even- tos. Exemplo: © g ar ri fr ot to / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e Qual a probabilidade de escolhermos uma empresa que esteja em dia com suasobrigações fiscais em um universo de seis empresas que estejam ou não em dia? Resposta: Se raciocinarmos com m sendo igual a 1 (uma) empresa que desejamos escolher e N como sendo 6 (seis), então, a probabilidade P de escolher uma empresa em dia será dada por: P(E ocorrer) = P(E ocorrer) = P(E ocorrer) = 0,1666 = 16,66% m N 1 6 Design Gráfico: Juliano Henrique Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 26 Outra forma de apresentar a probabilida- de é o estudo da jogada de uma moeda equili- brada (honesta), na forma cara = K, coroa = C. Para sabermos a probabilidade de ocorrer K em x jogadas de uma moeda, devemos primeiro calcular o número de resultados possíveis, ou seja, 2x (2 porque o jogo trata de duas condições possíveis, ocorrer K ou C e a potência x pelo número de repetições), de forma que possamos determinar o número de manei- ras possíveis de obter K por uso da seguinte formulação fatorial: © a sa fe lia so n / / F ot ol ia x! K! (x! –k!) 2x Por exemplo, a probabilidade de se obterem 4 caras (K) em 6 jogadas (x) de uma moeda equilibrada (honesta) será dada por: © H an s- Jö rg N is ch / / F o to lia . ( A da p ta do ). D es ig n G rá fi co : J ul ia no H en ri qu e x! K!(x! – k!) 2x 6! 4!(6! – 4!) 26 720 24(720 – 24) 64 720 16704 64 0,0431 64 0,000673 Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 27 Ou seja, a probabilidade de se obterem 4 caras (K) jogando-se uma moeda equili- brada 6 vezes (x) será de 0,0673%. A fim de estabelecermos limites para o número de jogadas de uma moeda e de obtermos cara, devemos utilizar o teste de hipóteses para definir uma zona de acei- tação, de forma a tornar conhecida a chance de um erro ocorrer (ou seja, de não ob- ter cara e sim coroa). O teste de hipótese, nesse caso, pode ser formulado pelos limites (x/2 – a) referindo-se ao inferior e (x/2 + a) referindo-se ao superior, em que x repre- senta o número de jogadas e a um número de escolha aleatória para tornar inferior a um valor dado a chance de ocorrer um erro. Um dos assuntos que a probabilidade aborda são os arranjos e as combinações. Então, sempre que desejarmos calcular o número de resultados possíveis que possam vir a satisfazer uma determinada condição, poderemos utilizar o conceito de arranjos ou o de combinações. 1.2.1 Arranjos e combinações Quando queremos descobrir o número de maneiras diferentes de escolher R obje- tos de um grupo de n objetos, falamos da técnica denominada arranjo. O número de arranjos de n objetos, tomados R de cada vez, é o número de escolhas distintas de R objetos de um grupo de n objetos (quando cada ordenação distinta dos objetos R escolhi- dos é contada separadamente). O cálculo do número de possibilidades será dado por: n! (n – R)! Exemplo Suponha que, em uma corrida da Fórmula 1, com o grid de largada formado por 24 carros, você deseja acertar a ordem de chegada dos três primeiros carros (pilotos), sem nada saber sobre os carros. Qual será a sua probabilidade de acertar a ordem de chegada dos três finalistas? Resposta: Como você deve escolher 3 entre 24 carros, isso equivale à escolha de 3 entre 24, ou seja, n será o total número de carros e R o número de carros que você es- colherá, então, n = 24 e R = 3, sendo dado por n! / (n – R)! Logo: Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 28 Em uma planilha, o cálculo é efetuado conforme formulações do exemplo a seguir: Exemplo do cálculo de arranjo D es ig n G rá fi co : J ul ia no H en ri qu e n! (n – R)! 24! (24 – 3)! A planilha exemplifica o uso de arranjo, em que a célula B4 destaca a fórmu- la =FATORIAL(A2)/(FATORIAL(A2-A3)), resultando em 12.144 diferentes arranjos, ou seja, uma dentre 12.144 é a chance que você possui de indicar aleatoriamente a ordem correta de chegada. Já a combinação é o conceito que utilizamos quando queremos descobrir o nú- mero de combinações de R objetos tomados x de cada vez. Nesse sentido, uma com- binação será o número de escolhas distintas de grupos de x objetos a partir de um conjunto de R objetos, desde que a ordem dos objetos que estão no grupo seja irrelevante. O cálculo do número de combinações de R objetos, tomados x de cada vez, é dado por: R! x! (R – x) CR,x = Por exemplo, suponha que um gerente de projetos de uma grande consultoria tem a sua disposição 22 consultores que devem ser alocados em duas equipes. Se o ge- rente dividir aleatoriamente 11 consultores para cada equipe, qual a probabilidade de todos os 11 melhores estarem na mesma equipe? Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 29 Resposta: Se definirmos os R = 22 objetos, tomados x = 11 de cada vez, teremos 705.432 maneiras de escolher a equipe que trabalhará primeiro. Portanto, a probabi- lidade de que todos os 11 melhores consultores estejam nessa equipe é de 1/705.432; mas há também a probabilidade de esses 11 consultores estarem na segunda equi- pe, dando a probabilidade de estarem na mesma equipe de 2/705.432, portanto, 0,00000283514, ou ainda, de 2,8 × 10-5. A figura a seguir mostra o uso da função COMBIN da planilha eletrônica, de ma- neira a calcular a combinação proposta no exemplo. Exemplo do cálculo de combinações A probabilidade passou a ser amplamente utilizada na área da gestão a partir do período da Revolução Industrial, com o surgimento do processo de produção em mas- sa, no século XVIII, permitindo e estudo dos fenômenos chamados determinísticos e aleatórios. Um fenômeno determinístico é aquele que, quando ocorre sempre sob as mes- mas características e condições, produz sempre o mesmo resultado, ou seja, os expe- rimentos seguem o seu modelo matemático e sempre resultam em erros pequenos comparados ao comportamento-padrão. Assim é, por exemplo, a Lei da Gravidade. Já o fenômeno não determinístico (ou aleatório) é aquele que, mesmo quando ocorre sempre sob a mesma formulação matemática, sob as mesmas características e condições, produz resultados diferentes, aleatórios. Assim é, por exemplo, a predição de dar cara em n jogadas de uma moeda equilibrada. Portanto, há certa probabilidade de os fenômenos ocorrerem, seja determinístico ou não determinístico (aleatório). Análise de dAdos pArA Business intelligence 30 1.2.2 Espaço amostral e eventos © p ix ar no / / F ot ol ia . ( A da pt ad o) . Para entender a teoria da probabilidade, necessitamos en- tender dois conceitos: o espaço amostral e seu número de elementos. Toda vez que realizamos um experimento, o con- junto de resultados que obtemos ao final será cha- mado de espaço amostral, também conhecido como espaço de probabilidade, que representaremos pela le- tra grega ômega (Ω), podendo ser finito ou infinito. O número de elementos (objetos) que o espaço amostral possui será representado por N. Por exemplo, o espaço amostral (Ω) de lançar um dado e ler o número que saiu para cima será dado por: Ω = {1, 2, 3, 4, 5, 6} O número de objetos que o espaço amostral possui será dado por: N (Ω) = 6. Já um evento é o subconjunto do espaço amostral (Ω). Então, um evento A que faça parte do espaço amostral pode ser escrito matematicamente por A ⊂ Ω, ou seja, o evento A está contido no espaço amostral Ω. Se tivermos dois eventos, chamados A e B, então, teremos as seguintes operações: • Dois eventos quaisquer podem ocorrer (união): A B = sucesso no resultado (o resultado vai ocorrer) se o evento A ocorre ou o evento B ocorre, ou se ambos ocorrem. • Dois eventos não ocorremsimultaneamente, ou seja, os dois eventos são mu- tuamente exclusivos (intersecção): A B = ∅ = o resultado vai ocorrer se o evento A e o evento B nunca ocorrerem juntos. • Negação: Ac o resultado vai ocorrer se o evento A não ocorrer. Análise de dAdos pArA Business intelligence 31 Por exemplo, ao jogarmos duas moedas (honestas) uma vez, definindo K como resultado cara e C como resultado coroa, o espaço amostral (ou seja, o conjunto de resultados possíveis) será dado por: Ω = {KK, KC, CK, CC} Determinando os resultados dos eventos por: A = {resultar uma cara e uma coroa} B = {resultar uma cara na primeira vez} C = {resultar, pelo menos, uma coroa} Teremos que: A = {KK, CK} B = {KK, KC} C = {KC, CK, CC} A∪B = {KC, CK, KK} B∩C = {KC} Ac= {KK, CC} © H an s- Jö rg N is ch / / F o to lia . ( A da p ta do ). D es ig n G rá fi co : J ul ia no H en ri qu e 1.2.3 Teoria dos conjuntos A teoria da probabilidade utiliza-se dos conceitos de espaço amostral e dos seus eventos, servindo justamente para calcular a chance de o evento apresentar um deter- minado resultado, levando em consideração algumas observações: • o evento ser repetido n número de vezes, sob determinadas condições; • não se conhecer o resultado, mas todos os possíveis; • sendo repetido n vezes, existir uma fração de ocorrer um determinado resulta- do em particular (como no exemplo clássico de jogar uma moeda, sabemos que o resultado pode ser cara ou coroa e que pode ser repetido indefinidamente). A teoria dos conjuntos aliada aos axiomas da probabilidade demonstram as ba- ses da teoria da probabilidade que, basicamente, são: • a soma de todos os eventos é 1 (100%); • para todos os eventos E1 e E2, a probabilidade de ocorrerem simultaneamen- te é igual à soma de todos os eventos inclusos em E1 e em E2, o que chamamos de intersecção. Se a intersecção for vazia, então, a probabilidade de ocorrerem simultaneamente é igual a zero e o conjunto será vazio; • para todos os eventos E1 e E2, a probabilidade de que um ou outro ocorra é fornecida pela soma das probabilidades dos eventos incluídos em E1 ou em E2, o que chamamos de união. Análise de dAdos pArA Business intelligence 32 Como conclusão, podemos dizer que toda vez que tivermos o evento E1 ocorren- do simultaneamente com o evento E2, haverá a intersecção dos eventos, representa- dos matematicamente por E1 E2. Ainda, quando ocorrer pelo menos um dos eventos E1 ou E2, teremos a união dos eventos, representados matematicamente por E1 E2. Com essa fundamentação, a probabilidade de um evento determinado ocorrer es- tará sempre no intervalo que vai de 0 (zero) a 1 (um, ou 100% – com P(A) sendo a pro- babilidade de o evento A ocorrer), então: 0 ≤ P(A) ≤ 1 Assim, a probabilidade de um evento A ocorrer favoravelmente dentro de um es- paço amostral possível será dado por P(A), ou seja: P(A) = A N (Ω) Sendo: P(A) é a probabilidade de sucesso de o evento A ocorrer; A é o evento para o qual se deseja sucesso; N(Ω) expressa o número de casos possíveis. Logo: Se P(A) = 1, então, o evento A terá 100% de certeza em ocorrer. Se P(A) = 0, então, o evento A terá 0% de certeza em ocorrer, ou seja, impossível. Se AC é o complemento do evento A, então, P(AC) = 1 – P(A). Se o evento A está contido no evento B (A ⊂ B), então, P(A) ≤ P(B). As propriedades apresentadas até agora podem ser expressas pela seguinte for- mulação geral: Σ U ωεΩ ωεΩ P({ω}) = P = 1{ω} Design Gráfico: Juliano Henrique Design Gráfico: Juliano Henrique Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 33 Sendo: Ω o espaço amostral; ω o elemento que se deseja obter no experimento; N(Ω) o número de casos possíveis. Sabendo-se que: Ω = {ω1, ω2, ω3 ... , ωn} No caso de os eventos serem mutuamente exclusivos (ou disjuntos), usamos a inter- secção, e a formulação da probabilidade de um evento ocorrer com sucesso é dada por: Σ U U ωεA1 A2 P({ω})P [A1 A2]= Sendo: A1 o evento 1 e A2 o evento 2; ω o elemento que se deseja obter no experimento. No caso da união, a formulação da probabilidade de um evento ocorrer com su- cesso é dada por: ΣU UωεA1 A2 P({ω})=P [A1 A2] Sendo: A1 o evento 1 e A2 o evento 2; ω o elemento que se deseja obter no experimento. Há casos em que a ocorrência do evento A1 elimina a ocorrência do evento A2 (conhecidos como eventos mutuamente exclusivos), ou seja, a probabilidade de que cada um dos eventos apresentados se realize é igual quando os elementos dos eventos não se repetem. Em outras palavras, dois eventos são mutuamente exclusivos quando não podem ocorrer simultaneamente. Por exemplo, jogarmos um dado, se definirmos A como o conjunto dos resultados de números pares e B como o conjunto dos números ímpares, então, teremos que: Design Gráfico: Juliano Henrique Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 34 Ω = {1, 2, 3, 4, 5, 6} A = {2, 4, 6} e, B = {1, 3, 5} Logo, A B = Ø Podemos também formular os eventos mutuamente exclusivos ao definirmos que, se A e B são dois eventos quaisquer, teremos a chamada regra da adição de proba- bilidades, dada por (BUSSAB; MORETTIN, 2012, p. 107): P(A B) = P(A) + P(B) – P(A B), que se reduz a P(A B) = P(A) + P(B), se A e B forem eventos mutuamente exclusivos. Um exemplo clássico que utiliza esse racio- cínio é o nascimento de uma criança. Sabendo-se que pode ser um menino ou uma menina e que os olhos podem ser verdes, azuis, castanhos ou pre- tos, pode-se estimar a probabilidade de nascer ou uma menina de olhos verdes ou um menino de olhos azuis. Podemos postular a probabilidade de nascer um ou outro, aplicando as formulações já descritas, então: O espaço amostral possui 8 elementos e equivale a: Menina Menina Olhos verdes Olhos azuis Menina Menina Olhos castanhos Olhos pretos Menino Menino Olhos verdes Olhos azuis Menino Menino Olhos castanhos Olhos pretos P(A) = P(menina de olhos verdes) = 1/8 P(B) = P(menino de olhos azuis) = 1/8 P(A B) = P(A) + P(B)= 1/8 + 1/8 = ¼ = 25% Podemos aplicar o teorema da probabilidade da soma se associarmos cada ele- mento do nosso espaço amostral (Ω) à mesma probabilidade de ocorrer (nesse caso, o espaço amostral será chamado de equiprovável), ou seja, o resultado só será válido © m as si m o m ag he nz an i / / Fo to lia Análise de dAdos pArA Business intelligence 35 quando não houver possibilidade de os eventos A e B ocorrerem simultaneamente. Portanto, se um evento A e outro B são eventos que ocorrem de forma mutuamente excludentes (que não podem ocorrer conjuntamente), então, a probabilidade de ocorrer o evento A ou de ocorrer o evento B é dada por: P(A ou B) = P(A) + P(B) P(A B) = P(A) + P(B) Para que possamos, então, determinar a probabilidade de ocorrer um entre dois eventos, basta efetuarmos a soma das probabilidades dos dois eventos. Agora, se os eventos A e B não são mutuamente excludentes, podemos expressar essa determinação por: P(A ou B) = P(A) + P(B) – P(A e B) P(A B) = P(A) + P(B) – P(A B) Vejamos um exemplo. Se A é o conjunto das letras vogais e B é o conjunto das letras consoantes, então, A ∪ B é o conjunto de todas as letras do alfabeto, ou seja, A seria composto por 5 letras e B por 21 letras. O resultado, portanto, seria o conjunto das 26 letras do nosso alfabeto português (incluindo-se as letras K, W e Y ). De acordo com Bussab e Morettin (2012), o teorema da probabilidade condicional leva em consideração que, existindo dois eventos A e B, em que o evento B já ocorreu (portanto, a P(B) > 0 por já ter ocorrido), a probabilidade de o eventoA ocorrer será dada pela probabilidade condi- cional, que é: P(A/B) = P(A ∩ B) / P(B) Então, caso o evento A já tenha ocorrido, teremos que: P(B/A) = P(A ∩ B) / P(A), lembrando que P(A) > 0 por já ter ocorrido.© li l_ 22 / / F ot ol ia . ( A da pt ad o) . Análise de dAdos pArA Business intelligence 36 A formulação geral do teorema da probabilidade condicional será dada sempre que houver um espaço amostral (Ω) finito composto pela ocorrência dos eventos A e B: P(A/B) = quantidade de elementos em (A B) / quantidade de elementos em (B). Vamos a um exemplo: Como a probabilidade condicional nos apresenta a probabilidade de ocorrer o evento A, se já sabemos de antemão que o outro evento (B) ocorreu, então, suponha que, utilizando um par de dados, deseja-se obter o total de 8 em uma jogada, saben- do-se que já obtivemos um 5 jogando o primeiro dado. Resposta: se definirmos o evento A como “obter o total de 8 jogando um par de dados” e o evento B como “foi obtido 5 jogando o primeiro dado”, a formulação será dada pela probabilidade condicional: (A B) só pode ocorrer se tivermos (5, 3) então: P(A B) = 1/36 De forma que: P(A B) = (1/36) / (1/6) P(A B) = (6) / (36) = 1/6 No que tange as probabilidades, o teorema do produto dispõe que, em um mes- mo espaço amostral (Ω), a probabilidade de ocorrerem simultaneamente dois eventos A e B é: igual ao produto da probabilidade de um dos eventos pela probabilidade condicio- nal do outro, informado o primeiro, ou seja, os eventos A e B podem ocorrer simulta- neamente. Isso significa que, se o primeiro de dois experimentos admite J resultados possíveis e o segundo comporta R resultados possíveis, pode ocorrer qualquer combi- nação (lembre-se da função fatorial!) desses resultados, de forma que o número total de resultados possíveis dos dois experimentos será dado por J × R. Portanto, podemos formular uma expressão para calcularmos essa probabilidade se tivermos a informação do primeiro evento, o evento A: P(A/B) = P(A B) / P(B), Então, teremos que P(A B) = P(B) × P(A/B) Mas se tivermos a informação do primeiro evento sendo o B: P(B/A) = P(A B) / P(A), Então, teremos que P(A B) = P(A) × P(B/A) Exemplo Qual a probabilidade de se retirar aleatoriamente uma carta que seja vermelha e figura de um baralho de 52 cartas? Análise de dAdos pArA Business intelligence 37 Resposta: No baralho, há 52 cartas, das quais temos o Valete, a Dama e o Rei, que são figuras com 4 naipes cada; então, teremos 4 × 3 = 12 figuras. O baralho con- tém 52 cartas, portanto, metade delas é vermelha (ouro e copas); então, 52/2 = 26 car- tas vermelhas. Logo, se definirmos A como uma carta com figura e B como uma carta vermelha, teremos: Figura → A = 12 / 52 = 0,2307 → 23,07% Vermelha → B = 26/52 = 0,5 → 50% A probabilidade de se obter uma carta figura (representada por A) e vermelha (representada por B) pode ser formulada por: P(FV) = P(A) ∩ P(B). Então, teremos: P(FV) = P(A) ∩ P(B) P(FV) = 12/52 ∩ 1/2 P(FV) = 6/52 P(FV) = 0,1153 P(FV) = 11,53% © fo to ge st oe be r / / Fo to lia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e O teorema da independência considera que um evento A é independente de B (então, o evento B também será independente de A) se a probabilidade de ocorrer o evento A for igual à probabilidade condicional de A, informado o B, ou seja: P(A) = P(A/B) Se considerarmos o teorema da probabilidade do produto, então, sempre que o evento A e o evento B forem independentes, teremos: P(A B) = P(A) × P(B) Análise de dAdos pArA Business intelligence 38 Vejamos um exemplo: © g ar ri fr ot to / / F ot ol ia . ( A da pt ad o) . D es ig n G rá fi co : J ul ia no H en ri qu e Jogando-se um dado, se sair um 5 na primeira jogada, qual a probabilidade de sair um 4 na segunda? Resposta: O fato de ter saído um 5 na primeira jogada nada nos diz a respeito de sair um 4 na jogada seguinte. Chamaremos de A a primeira jogada (A = 5) e de B a segunda jogada (B = 4). Podemos realizar a seguinte formulação: P(A) = 1/6 e a P(B) = 1/6 Logo: P(A∩B) = P(A) × P(B) P(A∩B) = 1/6 × 1/6 → 1/36 O fato de A ter ocorrido não afeta a probabilidade da ocorrência de B. A tabela a seguir apresenta os dados de estudantes (alunos e alunas) matricula- dos em cursos de uma universidade. Com base nela, podemos exemplificar o uso dos teoremas e das propriedades de probabilidades, como soma, produto, independên- cia, união ( ), intersecção ( ) e negação (C). Distribuição de estudantes por curso e sexo em uma universidade CURSO Alunos (Homens – H) Alunas (Mulheres – M) TOTAL BIO – Biologia 45 53 98 ADM – Administração 23 42 65 DIR – Direito 51 34 85 CC – C. Computação 34 21 55 TOTAL (por sexo) 153 150 303 Questionamento 01 Qual a probabilidade de se escolher um ALUNO (homem – H) dessa universidade? Resposta: O espaço amostral Ω de estudantes é de 303 e o total de homens é de 153, então, a P(H) = 153 / 303 = 0,50495 = 50,49%. Análise de dAdos pArA Business intelligence 39 Questionamento 02 Qual a probabilidade de se escolher aleatoriamente um estudante do curso de Biologia (BIO)? Resposta: O espaço amostral Ω de estudantes é de 303 e o total de estudantes (ho- mens e mulheres) de Biologia (BIO) é de 98, então, P(BIO) = 98 / 303 = 0,32343 = 32,34%. Podemos considerar, ainda, questionamentos mais abrangentes, que exemplifi- cam o uso das propriedades da probabilidade. Questionamento 03 Qual a probabilidade de escolhermos aleatoriamente um aluno (portanto homem – H) de um curso de Direito (DIR)? Resposta: H DIR, chamado intersecção de H e DIR, porque H e DIR ocorrem si- multaneamente, então, utilizamos a propriedade da intersecção para resolver a ques- tão. O espaço amostral Ω de estudantes é de 303 e o total de estudantes homens (H) que cursam Direito (DIR) 51, então: P(H DIR) = 51/303 O que significa que o estudante escolhido deve ser homem e, ao mesmo tempo, deverá estar matriculado no curso de Direito. Questionamento 04 Qual é a probabilidade de escolhermos um aluno (homem) ou qualquer aluno (homem ou mulher) do curso de direito? Se P(H) representa a probabilidade de esco- lher um homem em todo o espaço amostral Ω, então, temos que P(H) = 153/303 e que P(DIR) é a probabilidade de escolher um estudante qualquer de Direito (DIR) em todo o espaço amostral Ω. Logo, temos que P(DIR) = 85/303. A formulação é P(H DIR), en- tão, poderíamos pensar em: P(H DIR) = P(H) + P(DIR) = 153/303 + 85/303 = 238/303 No entanto contaríamos, assim, duas vezes os homens matriculados no curso de Direito. Para resolvermos, utilizaremos o teorema da adição, que consiste em: P(H DIR) = P(H) + P(DIR) – P(H DIR) = 153/303 + 85/303 – 51/303 = 187/303 Questionamento 05 Qual a probabilidade de escolhermos aleatoriamente um estudante que está ma- triculado em Administração, Direito ou Ciência da Computação, sem nos interessar se é homem ou mulher? Análise de dAdos pArA Business intelligence 40 Resposta: Devemos considerar que A representa um estudante (de qual- quer sexo) e B os cursos, então, temos que B = ADM DIR CC. Podemos conside- rar, então, que A B = Ω e que A B = Ø; portanto, podemos dizer que A e B são complementares, sendo: P(A) + P(B) = 1 que é o mesmo que: P(A) + P(AC) = 1 A resposta, então, será dada por: P(B) = P(ADM) + P(DIR) + P(CC) = 65/303 + 85/303 + 55/303 = 205/303 Sendo: P(A) = 98/303 Questionamento 06 Qual a probabilidade de escolhermos aleatoriamente um estudante de Ciência da Computação, sendo que o estudante é uma mulher? Resposta:Como foi definida a probabilidade condicionada de estudante de Ciência da Computação (CC), sendo fornecida a condição mulher (M), temos uma questão do teorema da probabilidade condicional, que define a probabilidade con- dicional de um evento A dado B, ou seja, (P(A|B), como definem Bussab e Morettin (2012, p. 111): P(A|B) = P(A B) / P(B) Nesse caso, definimos que o evento A é o “estudante de Ciência da Computação” (A = CC) e que o evento B é a condição dada, ou seja, de “ser mulher” (B = M). Logo, devemos observar que: a. P(A) = P(CC) = Probabilidade de “ser estudante matriculado em Ciência da Computação” = 55/303. b. Temos a informação dada de que B ocorreu, ou seja, P(B) = P(M) = Probabilidade de “ser estudante mulher” = 21/303. c. Com a informação de que B ocorreu, aumenta a chance de A ocorrer, então: P(CC|M) = P(CC M) / P(M) = (55/303) / (21/303) = 55/21 Análise de dAdos pArA Business intelligence 41 Outro exemplo que podemos utili- zar, a fim de ilustrarmos o uso da teoria da probabilidade, é o de jogar em uma loteria, que consiste em escolher 6 nú- meros entre 60 possíveis, ou seja, jogar em 6 dezenas de 60 disponíveis. Além disso, pode-se realizar um jogo pagan- do-se um valor adicional, que permite a escolha de 7, 8 ou até 15 números (de- zenas) – levando-se em consideração que estamos jogando com uma única aposta, em um único cartão. D es ig n G rá fi co : B er na rd o B eg he tt o Teremos, então, a seguinte formulação de probabilidade de acertar na loteria, sendo: m o número de casos favoráveis; n o número de casos possíveis. A probabilidade de o evento (A), que é acertar, ocorrer será dada por: P(A) = m n Logo, o número de casos possíveis de acertar na loteria é de 1, então, m = 1; o nú- mero possível de casos favoráveis de acertar 6 em 60 é dado por n, ou seja, pela com- binatória de: n = 60 6 Design Gráfico: Juliano Henrique Design Gráfico: Juliano Henrique Análise de dAdos pArA Business intelligence 42 Então, a formulação geral do problema de acertar na loteria com um cartão e um jogo será dada por: P(A) = 1/ P(A) = 1/50.063.860 60 6 D es ig n G rá fi co : J ul ia no H en ri qu e Assim, 1 (uma) oportunidade de acertar em 50.063.860 possíveis. Neste capítulo, foram apresentados os conceitos de dado e de informação, es- senciais para a compreensão do seu uso e aplicabilidade em estatística. Uma vez conhe- cidos os dados – que podem ser coletados nos ambientes organizacionais (empresas públicas ou privadas) de diferentes formas –, verificamos que podemos aplicar técnicas para disponibilizá-los de diferentes maneiras, por exemplo, em uma distribuição de fre- quências, em determinados intervalos de classes e suas variações (absoluta, relativa ou acumulada), facilitando seu uso para uma posterior análise e tomada de decisão. Da mesma forma, este capítulo apresentou os principais elementos que com- põem a teoria da probabilidade. Vimos que o objetivo do estudo da probabilidade é calcular o número de resultados possíveis que venham a satisfazer determinada condi- ção, a qual poderá ser aplicada pelo gestor em sua unidade de negócios. Portanto, útil para determinar espaços amostrais, arranjos e combinações possíveis de eventos (ou ocorrências), que são mapeados em objetos (dados) para futura análise e decisão. Análise de dAdos pArA Business intelligence 43 Referências BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 4. ed. São Paulo: Atlas, 2011. BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 4. ed. São Paulo: Atlas, 2013. BUSSAB, W. de O.; MORETTIN, P. M. Estatística Básica. 7. ed. São Paulo: Saraiva, 2012. NEUFELD, J L. Estatística Aplicada à Administração Usando Microsoft Excel. São Paulo: Prentice Hall, 2003. 2 Estatística © C ol ou re s- pi c / / F ot ol ia O termo estatística é comumente utilizado com diferentes significados. Por vezes, significa um grupo de dados numéricos; outras, um conjunto de dados que representam o comportamento de vendas de um produto. Mas também pode significar uma coleção de dados numéricos que descrevem o comportamento das exportações de um país ou, ainda, seu produto interno bruto (PIB) – isso apenas para ficarmos em alguns exemplos. Portanto, como podemos constatar, são vários os usos do termo estatística para relacionar, correlacionar, ordenar, classificar e apresentar dados, entre outras ações. A estatística é um ramo da matemática que trata e analisa dados de acordo com um determinado critério, que chamamos de método estatístico. A estatística é aplicada em várias áreas de estudo: administração, economia, contabilidade, medicina, farmá- cia, veterinária, computação, jogos e outras áreas que utilizam dados para gerenciar seu ramo de atuação e facilitar a tomada de decisões. Por exemplo, antes de lançar um remédio no mercado, os farmacêuticos necessitam testar as diferentes fórmulas asso- ciadas aos diferentes voluntários e verificar se as dosagens, tomadas em grupos ou in- dividualmente, são eficientes. Para trabalharmos com estatística, é importante, inicialmente, definirmos sua ne- cessidade e a aplicação dos seus métodos de forma adequada. Para um melhor entendi- mento das questões que nos cercam, fazemos uso do raciocínio lógico que, por sua vez, faz-se sobre determinadas construções de raciocínio, que podem ser de cunho dedutivo ou indutivo. 46 O raciocínio dedutivo é aquele que, quando de posse de um conhecimento geral, partimos para conhecer o particular, ou seja, é uma modalidade de raciocínio que parte do pressuposto de que todo problema possui um princípio geral ou um conjunto de princípios que permitem, por meio da dedução, conhecer certos aspectos particulares, por exemplo: • Conhecida a lei da gravidade, qual o peso de uma maçã em diversos locais do globo terrestre? • Qual a medida da hipotenusa de um triângulo de 7 cm por 9 cm de arestas? • Conhecidos os princípios de controle das doen- ças respiratórias, que resultados podem ser esperados quando aplicados na população de- terminados medicamentos químicos em uma dose específica? © k an at e / / F o to lia . ( A da p ta do ). O raciocínio indutivo é aquele que parte do particular para o geral, ou seja, a partir do conhecimento daquilo que é específico, particular, chega-se a um princípio geral ou a um conjunto de princípios. Dessa forma, surge a expressão inferência esta- tística, que dá origem à ideia de generalização das conclusões de dados de um deter- minado contexto, por exemplo: 47 • Conhecidas as maçãs, qual seria o peso delas em cada posição do globo terrestre, ou seja, em cada lugar possível no planeta Terra? • Conhecidas as medidas de um triângulo, quais leis ou regras podemos aplicar para conhecer- mos medidas de outros triângulos? • Conhecidos os resultados de várias tentati- vas de controle de doenças respiratórias por meio de doses químicas de medicamentos, que recomendações gerais podem ser feitas à população quanto ao uso desses medica- mentos no controle dessas doenças? © k an at e / / F o to lia . ( A da p ta do ). Analistas de dados percebem a necessidade da estatística para fornecer uma base objetiva na avaliação dos resultados que possuem em mãos, de onde surge sua aplica- ção, por exemplo: • Uma escola possui vários estudantes na terceira série do ensino médio com a mesma professora, porém os estudantes apresentam graus de aprendizado diferentes. • Se duas fábricas de uma empresa de automóveis produzem modelos iguais, sa- be-se que dificilmente terão a mesma produção. • Em um pomar, os pesos de frutos de árvores adjacentes raramente são iguais; nessescasos, são comuns as diferenças entre frutos da mesma planta. Conhecida a variabilidade, percebe-se a dificuldade de se avaliar o problema, o que suscita a necessidade de estudar os dados sob a óptica da estatística, com base em suas definições e métodos. Quando estudamos estatística, estamos estudando 48 medidas estatísticas. A medida estatística é um número utilizado para resumir as pro- priedades de um conjunto de números. Neste capítulo, estudaremos as medidas de tendência central e as medidas de dispersão, que nos ajudarão a entender o comportamento dos dados e, em seguida, veremos o conceito de população e os diferentes tipos de amostragens dele derivadas, bem como o cálculo da amostra. 2.1 Medidas de tendência central Medidas de tendência central, como o nome sugere, são dados coletados de um problema predefinido e que são tratados sob o ponto de vista central, buscando o cen- tro do comportamento comum dos dados coletados. Com base na coleta de dados representados na figura a seguir, que nos informa o número de carros utilitários vendidos por uma concessionária, vamos conhecer cada um dos conceitos das medidas de tendência central: média, moda e mediana. Número de vendas de carros utilitários por mês Conceitualmente, média é um valor obtido com a soma de todos os números de uma lista e a divisão dessa soma pela quantidade de números somados. Esse resultado apresenta uma boa ideia do tamanho do número que provavelmente obteremos se es- colhermos aleatoriamente um valor qualquer da lista de números. Para formularmos o cálculo da média, definimos n como o número de elementos na lista, i como o descritor de cada elemento da lista de valores e x como o número in- dividual da lista. Com i, n e x definidos, temos que a média será dada pela somatória de xi, quando i variar de 1 até n, tudo dividido por n, então: D es ig n G rá fi co : J ul ia no H en ri qu e x¡Σ ¡ = 1 n µ = n 49 Para calcular a média com base nos números de carros vendidos por mês, basta somar todas as quantidades de vendas por mês e dividir pela quantidade de meses. Se definirmos o mês por i e a quantidade de carros utilitários vendidos por x, po- demos verificar que no mês 1, ou seja, no i = 1, a quantidade x de carros utilitários ven- didos foi de 45, ou seja x = 45 quando i = 1. Considerando que a lógica é a mesma para todos os i, cuja soma é 12, se chamarmos o total de meses de n, teremos n = 12, ou seja, o total de meses cujas quantidades de vendas foram coletadas foi de 12, sendo n = 12. Assim, o cálculo da média é obtido da seguinte forma: 1. Somar todos os números: 45 + 67 + 59 + 81 + 75 + 55 + 67 + 84 + 73 + 80 + 77 + 90 = 853 2. Dividir a soma (do passo 1) pelo total de coletas, ou seja, n = 12: 853 / 12 = 71,08 A média do conjunto de dados, portanto, é 71,08. © M ar in a G or sk ay a / / F o to lia . ( A da p ta do ). D es ig n G rá fi co : T hi ag o S ih ve ng er Outra medida de tendência central é a moda. Moda é o valor que ocorre com maior frequência em uma relação de números, em um intervalo de dados, em uma ma- triz ou em outro tipo de coleta de dados. Se houver mais de um valor que corresponde ao conceito de moda, então, esses valores podem ser chamados modas. A moda possui classificações: • Unimodal: ocorre quando há um número com maior incidência de repetição na lista. • Bimodal: ocorre quando existem dois números que se repetem. • Multimodal: ocorre quando há mais de dois números que se repetem na lista. • Amodal: quando não há um número que se repita em uma determinada lista. Ao analisarmos a figura que apresenta os números de carros vendidos, podemos identificar o número que mais se repete na lista: 67. É esse, portanto, o valor da moda da lista em questão. 50 Mediana é o número central de uma lista de números. Em outras palavras, em uma lista de números que estão ordenados (crescentemente), a mediana é o valor ob- tido de forma que tenhamos a mesma proporção de números acima e abaixo dele. Então, para o cálculo da mediana, dois passos são necessários: 1 Ordenar a lista de números em ordem crescente (conjunto de dados ordenados do menor para o maior). 2 Encontrar o elemento central. 3 Ordenar a lista de números em ordem crescente (conjunto de dados ordenados do menor para o maior). 4 Encontrar o elemento central. © A le ks an dr B ry lia ev / / F o to lia . ( A da p ta do ). D es ig n G rá fi co : T hi ag o S ih ve ng er Se a lista apresentar um número par de números, teremos dois elementos cen- trais, assim, a mediana será dada pela média desses dois números. Caso a lista apre- sente um número ímpar de números, basta encontrar o elemento do meio da lista para determinar o valor da mediana. No caso da figura, que apresenta os números de carros utilitários vendidos, te- mos uma lista de números pares e, para o cálculo da mediana, devemos ordená-la e encontrar o elemento central dado pelo cálculo da média dos dois números: Lista original: 45 67 59 81 75 55 67 84 73 80 77 90 Lista ordenada: 45 55 59 67 67 73 75 77 80 81 84 90 51 Da lista ordenada, identificamos os elementos centrais e, dado que a lista de nú- meros é par, esses elementos são os números 73 e 75. Veja: 45, 55, 59, 67, 67, 73, 75, 77, 80, 81, 84, 90 A mediana será dada pela média dos números 73 e 75, ou seja 74. Diversas ferramentas eletrônicas podem ser utilizadas para obter as medidas que discutimos até aqui, como o Microsoft Excel®, conforme vemos a seguir: Fórmulas de medidas de tendência central 2.2 Medidas de dispersão Medidas de dispersão são aquelas que permitem analisar os desvios das obser- vações de uma determinada lista em relação à média dessas observações (BUSSAB; MORETIN, 2012, p. 38). Em outras palavras, são dispersões calculadas em relação à média das observações. De acordo com Downing e Clark (2000), podemos utilizar o termo dispersão para indicar o grau de afastamento de um conjunto de números em relação à média. As medidas de dispersão são conhecidas por amplitude, desvio médio absoluto, va- riância e desvio-padrão. São esses métodos estatísticos de tratamento de dados que são utilizados para medir a dispersão dos dados em torno da média, informando ao analista de dados o quão distante está cada número em relação à média geral. A amplitude é uma medida que apresenta a distância existente entre o maior e o menor número da lista. É calculada em relação à amplitude total existente na lista de números. Apesar de fornecer a distância entre o maior e o menor valor da lista, a amplitude não fornece nenhuma informação sobre qualquer elemento na relação, com exceção da distância entre os valores extremos da lista, o que faz com que seja mui- to utilizada para o caso da amplitude térmica: o menor valor representando o frio e o maior valor o quente, cuja diferença é a amplitude térmica. Esse princípio também pode ser utilizado, por exemplo, para maior venda e menor venda, como na amplitude de vendas. 52 Para calcular a amplitude, basta subtrair o maior número da lista pelo menor. Aproveitemos a figura com os números de carros vendidos: Número de vendas de carros utilitários por mês Amplitude = (maior valor – menor valor) Amplitude = (90 – 45) Amplitude = 45 O desvio médio absoluto ou DMA é uma medida de dispersão, uma vez que toma a média da soma total da lista de números que foram, cada um, subtraídos da média, resultando em um valor que representa, em termos absolutos, a distância mé- dia de cada número em relação à média (sem considerar positivamente ou negativa- mente, ou seja, acima ou abaixo da média). O DMA, como sugeresua definição, pode ser utilizado, por exemplo, para veri- ficar quantos atendimentos fora da média um determinado vendedor efetuou em um período. O número de atendimentos pode ser apresentado por um determinado nú- mero acima ou abaixo da média, uma vez que o valor é expresso em termos absolutos, portanto, sem sinal. Para calcular o DMA, basta subtrair cada número da lista pela média, em termos absolutos e, em seguida, calcular a média desses números, que resultará na distância média de cada número em relação à média, conforme cálculos a seguir. 53 © k an at e / / F o to lia . ( A da p ta do ). D es ig n G rá fi co : T hi ag o S ih ve ng er Os números resultantes da subtração dos dados originais com a média são os números absolutos da terceira linha que, se somados, resultam em 124,8. O total da soma dos números (124,8) dividido pelo número total de elementos da lista (n = 12) resultará em 10,4. Ainda de posse da lista dos números de carros vendidos, analisaremos a variabilida- de dos dados. Para isso, devemos basear-nos no DMA da lista e empregar a variância, que nada mais é do que a grandeza que eleva ao quadrado cada uma das diferenças dos núme- ros em relação à média geral. A variância serve para analisar o grau de variabilidade que pode existir entre os dados, permitindo saber se os desempenhos estão próximos, muito diferentes ou mesmo iguais. Para tanto, é necessário estudar uma área da estatística que se cha- ma análise de variância ou, derivado do termo original em inglês, analisys of variance (ANOVA). Original 45 67 59 81 75 55 67 84 73 80 77 90 Média 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 DMA 26,08 4,08 12,08 9,92 3,92 16,08 4,08 12,92 1,92 8,92 5,92 18,92 54 Observação 1: é aconselhável que se trabalhe com 4 (quatro) casas decimais após a vírgula, visando à precisão do cálculo final. Observação 2: a variância sempre será um número maior que a média, seu resul- tado é a média dos quadrados dos desvios. Por sua vez, o desvio-padrão de uma lista de números é dado pela raiz quadrada da variância dessa lista. O símbolo para designar o desvio-padrão populacional é a le- tra grega sigma (σ). Para calcularmos o desvio-padrão da lista de números do nosso exemplo, basta cal- cularmos a raiz quadrada da variância encontrada, ou seja: D es ig n G rá fi co : J ul ia no H en ri qu eσ = √σ Em nosso exemplo: σ – √156,2431 σ = 12,4997 σ2 © a rc hi d ea ph o to / / F o to lia . ( A da p ta do ). D es ig n G rá fi co : T hi ag o S ih ve ng er Uma vez determinado o desvio-padrão e com o valor da média em mãos, pode- mos calcular o coeficiente de variação dos dados. Por definição, o coeficiente de va- riação apresenta-nos o grau de afastamento geral médio padronizado relativo a todos os números de uma lista que estão afastados da média geral daquela lista. 55 cv = σ µ D es ig n G rá fi co : J ul ia no H en ri qu e D es ig n G rá fi co : J ul ia no H en ri qu e D es ig n G rá fi co : T hi ag o S ih ve ng er Com os dados das vendas de carros mostrados anteriormente: cv = 0,1758 cv = 12,4997 71,08 Ao multiplicarmos o coeficiente de variação por 100, temos que 17,58% é a varia- ção geral média das vendas entre todos os meses em relação à média geral de vendas. Esse tipo de operação pode ser realizado com mais facilidade em ferramentas eletrôni- cas, como em planilhas eletrônicas, cujas fórmulas podem ser empregadas para obter- mos as medidas de dispersão, conforme mostradas a seguir: Fórmulas medidas de dispersão O Coeficiente de Variação é uma medida utilizada para verificar a homogeneidade dos dados em relação à média; se essa medida for inferior a 30%, em geral, a média será bastante repre- sentativa. É um número adimensional, ao contrário da variância e do desvio-padrão. Para calcular o coeficiente de variação (cv), basta dividir o desvio-padrão pela mé- dia encontrada, conforme equação a seguir: 56 2.3 População e amostragem O conceito estatístico de população engloba o uso de todos os valores das variá- veis de um determinado estudo. Temos, basicamente, dois tipos de populações: a fi- nita, quando temos a certeza – ou probabilidade – do número de elementos a serem considerados; a infinita, quando não temos a certeza – ou probabilidade – do número de elementos a serem considerados. Por exemplo: D es ig n G rá fi co : T hi ag o S ih ve ng er Suponhamos a seguinte necessidade de estudo de um analista: “Estudar a condição de saúde cardíaca de homens do município de Curitiba”. Como a população de homens no município de Curitiba é muito grande, não há tempo e verba para coletar os dados de todos, um a um, pois seria um procedimento um tanto dis- pendioso em termos de recursos humanos, materiais e financeiros. Parte-se, então, para o estudo da amostragem. População finita: sabe-se quantos elementos existem. Exemplo: em uma urna, existem 100 bolas; destas, 10 são extraídas, sem reposição. Nesse exemplo, toma-se a amostragem de uma população finita, uma vez que são 100 bolas existentes no total, retirando-se uma quantidade desejada de elementos. População infinita: a população não possui contagem final ou a mensuração final é difícil, como no caso de astrônomos selecionarem 10 estrelas do universo para estudo. As estrelas, como sabemos, possuem um número difícil de mensurar, considerado infinito. 57 D es ig n G rá fi co : T hi ag o S ih ve ng er Na estatística, o termo inferência significa desenvolver ou fazer uso de métodos que permi- tam generalizar conclusões, ou seja, a partir de dados amostrais, apresentar conclusões, conse- quências, deduções em uma população. Amostragem ou amostra é um campo da estatística que consiste em consultar uma parcela de valores das variáveis em estudo e aplicar inferências sobre a popula- ção a partir do estudo de uma pequena parte de seus componentes. De acordo com Fonseca e Martins (1996, p. 177), “a amostra é um subconjunto da população”. É conveniente planejarmos o tamanho da amostra para que tenhamos amostras grandes o suficiente para detectarmos diferenças importantes. Por outro lado, amos- tras exageradamente grandes, além de elevarem o custo do estudo, podem tornar di- ferenças irrelevantes em estatisticamente significativas. A amostra envolve premissas que dizem respeito às características do evento es- tudado, aos fatores que exerçam influência sobre esse evento e à análise que se pre- tende fazer. Portanto, antes de definir o tamanho da amostra, o analista de dados deverá ocupar-se das definições de um planejamento amostral, cujas características serão particulares para cada estudo. De acordo com Barbetta (2001, p. 43), a razão para usar amostragem reside nos seguintes fatores: Economia: é mais econômico usar amostras em somente uma parte da população. Tempo: reduz o tempo suficiente para pesquisar toda a população, mesmo se houver recursos financeiros em abundância. 58 Confiabilidade de dados: quando se pesquisa um número reduzido de elementos, pode-se dar mais atenção aos casos individuais e, consequentemente, evitar evitar erros nas respostas. Operacionalidade: é mais fácil realizar operações de pequena escala. D es ig n G rá fi co : T hi ag o S ih ve ng er D es ig n G rá fi co : T hi ag o S ih ve ng er Barbetta (2001, p. 43) ainda aconselha a não usar amostragem nos seguintes casos: • quando temos uma população
Compartilhar