Baixe o app para aproveitar ainda mais
Prévia do material em texto
CIÊNCIA DE DADOS BIG DATA ANALYTICS .......................................... 4 Aula 1 .......................................................................................................... 4 Big Data: Uma Visão Geral ............................................................................ 4 Aula 2 ........................................................................................................ 13 Aula 3 .................................................................................................. 28 1. Introdução ............................................................................................. 28 2. O método Estatístico ....................................................................... 30 2.1 O Método Científico .............................................................................. 30 2.1.1 Método Experimental ......................................................................... 30 2.1.2 Método Estatístico .............................................................................. 30 3. Estatística .............................................................................................. 31 4. Fases do Método Estatístico .................................................................... 31 4.1 Coleta de Dados ................................................................................... 32 4.2 Crítica dos Dados .................................................................................. 33 4.3 Apuração dos Dados ............................................................................. 33 4.4 Exposição ou Apresentação dos Dados ................................................... 33 4.5 Análise dos Resultados .......................................................................... 33 5.0 Variáveis .............................................................................................. 33 6.0 População e Amostra: ........................................................................... 34 7.0 Amostragem ......................................................................................... 35 7.1 Amostragem Casual ou Aleatória Simples ............................................... 35 7.2 Amostragem Proporcional Estratificada .................................................. 35 7.3 Amostragem Sistemática ....................................................................... 35 Aula 4 .................................................................................................. 36 1.0 Introdução ........................................................................................... 36 2.0 Download ............................................................................................. 38 3.0 Instalação ............................................................................................ 41 4.0 Interface .............................................................................................. 44 5.0 Tipos de Dados..................................................................................... 45 6.0 Comandos Básicos ................................................................................ 46 6.1 Atribuição de Valores ............................................................................ 47 6.2 Comandos Auxiliares ............................................................................. 47 6.3 Operadores Matemáticos ....................................................................... 48 7. Vetores .................................................................................................. 49 Aula 5 .................................................................................................. 50 1.0 Introdução ........................................................................................... 50 2.0 Gráfico de Barras .................................................................................. 51 3.0 Gráfico de Pizza .................................................................................... 54 4.0 Histograma .......................................................................................... 56 Aula 6 .................................................................................................. 58 1.0 Introdução ........................................................................................... 58 2.0 Medidas de Posição............................................................................... 58 2.1 Média Aritmética .............................................................................. 58 2.2 Mediana ............................................................................................... 59 2.3 Moda ................................................................................................... 61 2.4. Quartis ................................................................................................ 62 Aula 7 .................................................................................................. 63 1.0 Introdução ........................................................................................... 63 2.0 Experimento Aleatório ........................................................................... 64 3.0 Espaço Amostral ................................................................................... 64 4.0 Eventos ................................................................................................ 65 5.0 Probabilidade ....................................................................................... 65 6.0 Eventos Complementares ...................................................................... 66 7.0 Eventos Independentes ......................................................................... 66 8.0 Eventos Mutuamente Exclusivos ............................................................ 67 9.0 Variável Aleatória .................................................................................. 68 10.0 Distribuição de Probabilidade ............................................................... 68 Aula 8 .................................................................................................. 69 1.0 Introdução ........................................................................................... 69 2.0 Definindo Funções ................................................................................ 69 3.0 Estrutura Seleção ................................................................................. 71 4.0 Estrutura de Repetição .......................................................................... 72 Bibliografia Básica: ..................................................................................... 75 Bibliografia Complementar: ......................................................................... 75 CIÊNCIA DE DADOS BIG DATA ANALYTICS Aula 1 BIG DATA: UMA VISAO GERAL Edgar Gurgel edgargurgel@gmail.com Na década de 60 e 70 era usual guardar informações em diários, livros ecadernetas, por períodos de tempos curtos e médios. Pequenos pedações de papéis eram utilizados no comércio para registrar as vendas realizadas diariamente. Porém, nos dias atuais, já não é possível gerenciar uma Organização que não esteja informatizada ou uma indústria automatizada, devido a grande quantidade de dados e da velocidade com que as informações são geradas. Atualmente lidamos com informações que são geradas ininterruptamente pelas mais diversas formas e em imensa quantidade, como em aplicações científicas e de engenharias, redes sociais, redes de sensores, dados médicos e biológicos, transações de comércio eletrônico e financeiro, entre inúmeras outras. Em muitas áreas da ciência, os avanços na tecnologia estão resultando na geração de grandes massas de dados, de uma forma cadavez mais rápida. É nesse contexto que houve a necessidade de tratar a grande quantidade de informações geradas. O termo Big Data não é um termo novo, ele é mais antigo do que realmente imaginamos, pois as áreas de física e de ciências biológicas já tratam há anos com a questão da manipulação, armazenamento e uso de grandes massas de dados. O projeto genoma, por exemplo, levou quase uma década para o sequenciamento de três bilhões de pares-base. Com o uso de novas tecnologias, hoje levamos um dia para sequenciar a mesma quantidade de pares-base. Outro bom exemplo são os projetos da NASA para o estudo do Universo. O termo Big Data foi introduzido em 1990 pela NASA para descrever grandes conjuntos de dados que desafiam o processamento computacional, sendo difícil de colocar esse termo em prática devido a restrições técnicas. Nessa época, ainda não existiam os dados de dinâmica social, não se falava em rastros digitais nem em internet das coisas. Os cientistas lidavam com os dados gerados nas pesquisas específicas do seu domínio e que eram livremente compartilhadas, o que gerava conhecimentos e novos dados de forma exponencial. Nos dias atuais com a evolução do processamento e armazenamento, e com a redução de custos, o conceito de Big Data popularizou-se para ser aplicado nas mais diversas áreas do conhecimento. O termo Big Data é bem amplo e ainda não existe um consenso em sua definição, desta forma encontramos várias definições na literatura. Por exemplo, podemos definir como sendo um termo usado para descrever o conjunto de dados cuja captura, armazenamento, distribuição e análise requerem métodos e tecnologias avançadas. Pode ainda ser definido como o processamento (eficiente e escalável) analítico de grande volumes de dados complexos produzidos por várias aplicações. Segue abaixo uma tabela com algumas definições do termo Big Data: DEMIRKAN, et. al. Decision Support Systems Há o desafio de gerenciar grandes quantidades de dados (Big Data), que está ficando cada vez maior por causa do armazenamento mais barato e evolução dos dados digitais e dispositivos de coleta de informações, como telefones celulares, laptops e sensores. MANYKA, J.; et. al. Mckinsey Global Institute Big Data refere-se a conjuntos de dados cujo tamanho é além da capacidade de ferramentas de software de banco de dados típicos para capturar, armazenar, gerenciar e analisar. Gartner Group (consultoria de pesquisa de mercado na área de TI) 2012 Big Data, em geral, é definido como ativos de alto volume, velocidade e variedade de informação que exigem custo- benefício, de formas inovadoras de processamento de informações para maior visibilidade e tomada de decisão. Internacional Data Corporation As tecnologias de Big Data descrevem uma nova geração de tecnologias e arquiteturas projetadas para extrair economicamente o valor de volumes muito grandes e de uma grande variedade de dados, permitindo alta velocidade de captura, descoberta e/ou análise. INTEL, 2013 A princípio, pode-se definir o conceito de Big Data como sendo um conjunto de dados extremamente amplos e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação processada por esses meios possa ser encontrada, analisada e aproveitada em tempo hábil: “O valor real do Big Data está no insight que ele produz quando analisado – buscando padrões, derivando significado, tomando decisões e, por fim, respondendo ao mundo com inteligência. De acordo com o relatório fornecido pelo IDC (International Data Corporation), em 2003 todo o volume de dados gerado e armazenado no mundo inteiro foi inferior a 1.8 Zettabytes. Em apenas dois dias no ano de 2011 o volume de dados gerado foi superior a 1.8 Zettabytes. A tendência é de aumentar o volume de bancos de dados corporativos em 40% a cada ano. Segundo os resultados do 7o. Estudo EMC Digital Universe, realizado pela EMC Corporation, devido, em parte, a Internet das Coisas, o tamanho do Universo Digital está dobrando a cada dois anos e se multiplicará entre 2013 e 2020 – de 4.4 zettabytes para 44 zettabytes ou 44 trilhoes de gigabytes. Veja, abaixo, a quantidade de dados que são gerados diariamente na internet. A nova abordagem para o tratamento de grandes quantidades de dados foi primeiramente definida por Doug Laney, em 2001, no seu artigo intitulado 3D Data Management Controlling Data Volume, Velocity and Variety, quando ele definiu o termo Big Data para 3V’s: Volume - Organizações coletam dados de uma grande variedade de fontes, incluindo transações comerciais, redes sociais e informações de sensores ou dados transmitidos de máquina a máquina. Anteriormente, armazenar tamanha quantidade de informações era um grande problema – mas novas tecnologias têm possibilitado tal atividade; Velocidade - Os dados fluem em uma velocidade sem precedentes e devem ser tratados em tempo hábil. Tags de Radio frequency identification (RFID), sensores, celulares e contadores inteligentes estão impulsionando a necessidade de lidar com imensas quantidades de dados em tempo real; Variedade - Os dados são gerados em todos os tipos de formatos - de dados estruturados, dados numéricos em bancos de dados tradicionais, até documentos de texto não estruturados, e-mails, vídeos, áudios, dados de cotações da bolsa e transações financeiras. Além dessas dimensões, os Professores Hans Buhl e Maximillian Roglinger, da Universidade de Augsburg, na Alemanha, e Julia Heidemann, da empresa McKinsey da Alemanha, acrescentaram mais uma dimensão (veracidade) e posteriormente mais uma foi adicionada: Veracidade – considera a inconsistência no fluxo de dados. O carregamento de dados torna-se um desafio a ser mantido, especialmente em redes sociais com o incremento no uso que geram picos de carregamento de dados com a ocorrência de certos eventos. Esta dimensão inclui principalmente dois aspectos: consistência dos dados que pode ser definida por sua confiabilidade estatística e a confiabilidade dos dados definida pelo número de fatores incluindo a origem dos dados, métodos de coleta, processamento e infraestrutura confiável. Além disso, garante que o dado usado é confiável, autêntico e protegido de acessos e modificações não autorizadas; Valor - é uma importante característica de um dado que é definida pelo valor agregado que o dado coletado pode trazer para um processo, atividade ou hipótese. Por exemplo, no intuito de obter informações baseadas no histórico de dados armazenados, aplicações de software podem executar certas consultas numa determinada base de dados e assim podem deduzir importantes resultados. Esses resultados podem auxiliar os usuários a encontrarem tendências de negócio, permitindo a possibilidade de alteração nas suas estratégias. Assim, pode-se perceber que existe um grande valor contido nos dados armazenados e que pode levar a muitas vantagens para a indústria e comércio, dentre outros ramos. Big Data provê grande potencial no processo decisório baseado em dados, podendo trazer benefícios como nova visão de negócio, habilidade de medir e monitorar fatores influentes no negócio, descoberta de novas oportunidades de vendas dentre outros benefícios. Big Data é utilizada nas diferentes áreas de conhecimento, como por exemplo, Ciência, Telecomunicação, Indústria, Negócios, Planejamento Urbano, Mídia social, Saúde, entreoutras. Dessa forma, podemos utilizá-la para conhecer o comportamento do consumidor a, por exemplo, melhorar o desempenho de um atleta, analisando padrões encontrados em cada partida para que no decorrer da carreira o nível de excelência aumente cada vez mais. Na saúde, tornou-se muito mais rápido o acesso a dados comparativos entre as doenças: uma questão essencial, nos dias de hoje, é poder analisar e comparar resultados de exames de pessoas com sintomas semelhantes, como aquelas diagnosticadas com câncer, com exames de outros pacientes com a mesma doença, para chegar a um diagnóstico mais preciso e rápido, tendo como consequência melhor precisão no tratamento. São questões como essas que há alguns anos poderiam ficar sem resposta, ou, cujas informações levariam muito tempo para poder ser reunidas, tempo que um paciente não tem. Hoje o cenário foi modificado graças ao Big Data, podendo, assim, não só obter respostas rápidas e precisas, mas mostrar fatos e resultados. Pode-se citar, por exemplo, os seguintes setores na utilização do Big Data: Bancos - com uma vasta quantidades de informações fluindo a partir de inúmeras fontes, os bancos são desafiados a encontrar maneiras inovadoras de gerenciar essa grande massa de dados. Ao mesmo tempo em que a ferramenta é importante para compreender os clientes e aumentar sua satisfação, é igualmente importante para minimizar os riscos e fraudes enquanto mantém uma conformidade regulatória; Ensino - instituições com uma visão orientada a dados podem ter um impacto significativo sobre os sistemas escolares, estudantes e currículos. Analisando grandes massas de dados, elas podem identificar alunos em risco, assegurar que os estudantes estão progredindo de forma adequada, e podem implementar um sistema melhor de avaliação e apoio aos docentes e diretores; Governo – a partir do momento que as organizações do governo são capazes de aproveitar e aplicar análises massiva de dados, elas avançam significativamente quando se trata de gerenciar serviços públicos, lidar com o congestionamento ou prevenir a criminalidade. Porém, os governos também devem discutir as questões de transparência e privacidade das informações; Saúde – nesta área tudo necessita ser feito rapidamente, com precisão e, em alguns casos, com suficiente transparência para satisfazer as regulamentações rigorosas desta área rigorosa. Quando grandes massas de dados são geridas de forma eficaz, os responsáveis pela saúde podem descobrir insights escondidos que melhoram o atendimento aos pacientes; Manufatura-os fabricantes podem utilizar o poder da análise de grandes massas de dados para aumentar a qualidade e a produção, minimizando o desperdício, fundamentais no mercado altamente competitivo de hoje. Mais e mais fabricantes estão trabalhando em uma cultura baseada em análise de dados, o que significa que eles podem resolver problemas mais rapidamente e tomar decisões de negócios mais ágeis; Varejo – criar e manter um bom relacionamento com o cliente é fundamental para o setor de varejo, e a melhor forma de fazer isso é analisando grandes massas de dados. Os varejistas precisam saber a melhor maneira de vender aos clientes, a maneira mais eficaz de lidar com transações, e a maneira mais estratégica de aumentar o número de negócios Aula 2 Com o crescente volume e a demanda para extrair informações sobre esses dados, surge a necessidade de utilizarmos as tecnologias predecessoras do Big Data e as que dão suporte ao uso desse novo conceito. Serão abordadas e discutidas as tecnologias de apoio, como Data Warehouse, Data Mart, Data Mining e BI. De acordo com o Gartner, um Data Warehouse é uma arquitetura de armazenamento que tem como objetivo guardar dados extraídos a partir de sistemas transacionais, de sistemas operacionais e de fontes externas. Ele combina estes dados em uma forma agregada, resumida e adequada para análise de dados e geração de relatórios Organizacionais, com objetivo de atender as necessidades do negócio. Os Data Marts são Data Warehouse orientados a departamentos, como departamentos de uma organização (comercial, administrativo, financeiro, entre outros), em que cada departamento poderá ser considerado um Data Mart individual. Depois de um período estipulado um Data Mart, poderá constituir ou formar um Data Warehouse, neste caso, pode-se dizer que um Data Mart é um subconjunto de um Data Warehouse. Um Data Warehouse após ser implantado por vários Data Marts passa a realizar o caminho inverso de um Data Mart, alimentado, assim, os Data Marts separadamente. Com isso, pode-se dizer que os Data Marts surgem de duas formas: Top-down e Bottom-up. Um Data Mart surge de forma Top-down quando uma organização cria um Data Warehouse e depois o segmenta para os departamentos, ou seja, divide o Data Warehouse em áreas menores, formando, assim, pequenos bancos de dados orientados por departamento e/ou assunto. O Data Mart surge de forma Bottom-up quando a situação é inversa à Top-down, quando por estratégia de negócio se criam pequenos bancos de dados e depois os unem para formar uma área inteira, um Data Warehouse. Assim que os resultados são alcançados, esses pequenos Data Marts são integrados e formam um Data Warehouse. Data mining refere-se a extrair ou minerar conhecimento de grandes quantidades de dados. A mineração de ouro das rochas ou da areia é referenciada como a mineração de ouro, em vez de mineração de rocha ou de areia. Desta forma, data mining deveria ter sido nomeado de uma forma mais apropriada como knowledge mining from data, que infelizmente é um termo longo. Knowledge mining, um termo mais curto, pode não refletir a ênfase na mineração de grandes quantidades de dados. Contudo, mining é um termo nítido que caracteriza o processo de encontrar um pequeno conjunto de preciosas pepitas a partir de uma grande quantidade de dados brutos (dados recolhidos e estocados da mesma forma que foram adquiridos, sem terem sofrido o menor tratamento). A proposta de uso de um Data Mining é que, uma vez definido o problema, os dados e a ferramenta de análise, o Data Mining pesquisa, automaticamente, em uma massa de dados, anomalias e prováveis relacionamentos, encontrando possíveis problemas que não foram identificados anteriormente pelos usuários. Muitas pessoas tratam data mining como um sinônimo para outro termo popular utilizado, Knowledge Discovery in Databases (KDD). Alternativamente, outros veem data mining como simplesmente um passo essencial no processo de descoberta de conhecimento em banco de dados. Entretanto, vamos entender que a descoberta de conhecimento em Bancos de Dados ou KDD consiste em muito mais do que apenas a mineração de dados. A Descoberta de Conhecimento em Banco de Dados é um procedimento não trivial, automatizado e que visa buscar em grande bases de dados, novos conhecimentos e novos padrões de relacionamento de dados, que possuem algum tipo de produtividade e informação, caso os resultados sejam apresentados para um especialista da área. O KDD é composto por seis etapas: seleção de dados, limpeza de dados, enriquecimento, transformação ou codificação dos dados, mineração de dados e apresentação dos resultados. Podem existir algumas variações destes conceitos, apontadas por cada autor, por exemplo Fayyad (1996) determina que a divisão seja entre 5, onde as etapas de limpeza e enriquecimento dos dados sejam efetuados na mesma fase de pré-processamento, unificaçãodevida a semelhança entre estas duas etapas. Vamos apresentar cada uma das etapas da descoberta de conhecimento. A Seleção de Dados é uma das principais etapas dos principais processos da Descoberta de Conhecimento em Banco de Dados, pois esta etapa é a responsável em efetuar a seleção o e filtragem dos dados que deverão ser avaliados pelas etapas seguintes do KDD. Os dados coletados nesta etapa refletem diretamente na qualidade do resultado final da análise da mineração de dados, de forma que estes dados são a principal fonte de informações da análise. Nesta etapa são efetuadas as análises de levantamentos das variáveis e grupo de variáveis necessárias para efetuar a seleção e extração dos dados da base selecionada. Para a execução desta etapa normalmente são escritas aplicações que ficam responsabilizadas por efetuar a extração das bases de dados, das quais estas podem ser originadas de diferentes fontes de dados. Esta aplicação também fica responsabilizada por efetuar as filtragens necessárias, para não trazer para a análise dados que não devem ser analisados e por conta disso, é muito importante também definir quais são os tipos de informações e quais são os filtros que a aplicação deve ter implementada para que a qualidade dos dados seja mantida. No Pré-processamento, os dados levantados pela etapa anterior podem possuir alguns caracteres indesejados, alguns ruídos ou possuir informações incompletas. Este tipo de situação normalmente ocorre quando os dados são selecionados de bases heterogêneas, quando são originárias de bancos de dados que não possuem um devido tratamento no gerenciamento de dados ou quando provém da internet. Para conseguir resolver estes problemas com os dados, é necessário efetuar a limpeza dos dados para que não existam interferências durante a execução do algoritmo de mineração de dados, onde são removidos qualquer tipo de caractere indesejado e descartadas as mensagens que possuem informações incompletas ou algum outro tipo de ruído que não possa ser tratado. O uso de Data Warehouse pode facilitar a tarefa de limpeza dos dados. Normalmente eles possuem uma organização e gerenciamento mais bem definido, que acabam mantendo os dados do banco de dados em um estado limpo. O uso dele contribui e facilita o processo de limpeza dos dados, para o qual será necessário menos tempo e esforço. A Transformação de Dados tem como objetivo adequar os dados em uma estrutura e formatação necessários conforme é exigido pelo procedimento do algoritmo de mineração de dados. Além de adequar estes dados, cada algoritmo exige uma determinada estruturação para que o algoritmo consiga executar as análises corretamente, sem interferências ou erros durante a execução. Nesta etapa ocorre a conversão dos tipos de dados, para que o algoritmo de mineração de dados consiga efetuar a análise, assim como a filtragem de treinamento para o algoritmo de mineração de dados. A Mineração de Dados, envolve métodos e aplicações iterativas e interações de mineração de dados em particular. Ou seja, a mineração de dados é um processo automático ou semi-automático que visa explorar e analisar grandes bases de dados. Baseando-se nestas análises, poderão ser encontradas novos padrões e regras úteis e compreensíveis para o analista. Este tipo de análise que é efetuado de forma automática pela mineração de dados não seria possível de ser efetuadas por humanos em procedimentos convencionais devido ao grande volume de dados que teria que ser processado, de mesma forma que a imensidão de relações que a análise exige também não seria humanamente possível. Para resolver este tipo de problema, foram desenvolvidos algoritmos que trabalham de forma automática e semi- autônomos, que conseguem retornar o mesmo resultado que o efetuado por um ser humano. A interação e intervenção do analista ainda é exigida em alguns momentos para conseguir interpretar os resultados que a execução do algoritmo retornou, que é através da interpretação do analista que os padrões serão determinados como úteis ou não. Os algoritmos por si só efetuam o trabalho de encontrar as principais relações. Como o processo de mineração de dados não possui um procedimento padronizado para resolver qualquer problema, existem diversos algoritmos que podem ser usados para cada tipo de problema proposto. Estes algoritmos são classificados em dois grandes grupos que variam de acordo com o tipo de conhecimento que se deseja extrair. Estes grupos são Predição ou Atividades Preditivas e Descrição ou Atividades Descritivas. Após a mineração de dados, é efetuada a Exibição dos Resultados, que por alguns autores é enquadrada no grupo de etapas de pós-processamento. Nesta etapa são efetuadas as seleções e ordenações das descobertas interessantes, efetuado o mapeamento de apresentação dos resultados obtidos e gerando relatório dos resultados. Existem muitas formas de apresentar estes dados, sendo através de gráficos, relatórios, tabelas ou qualquer outra forma de apresentação dos resultados. No momento de planejar sua atuação no mercado, uma organização precisa de informações disponíveis e relevantes para responder questionamentos a respeito de seu negócio. O termo Inteligência de Negócios, ou Business Intelligence (BI) é um termo cunhado pelo Gartner Group na década de 80 e descreve as habilidades das corporações para acessar dados e explorar as informações (normalmente contidas em uma Data Warehouse / Data Mart), analisando-as e desenvolvendo percepções e entendimentos a seu respeito. Isto permite incrementar e tornar mais pautada em informações as tomadas de decisão. Uma solução de BI permite monitorar o desempenho dos processos operacionais, táticos ou estratégicos por meio de indicadores de desempenho e apresentá-los em painéis de controle ou dashboard, com recursos analíticos e interativos que permitem cruzar e analisar informações, no tempo em que se precisa, transformando o processo de decisão em algo simples, rápido e eficiente. Uma arquitetura padrão de soluções de BI possui três componentes: o processo de extração de dados Extraction, Transformation and Loading (ETL), o repositório dedados não volátil (Data Warehouse) e a área de apresentação. A importância do big data não gira em torno da quantidade de dados que você tem, mas em torno do que você faz com eles. É possível analisar dados de qualquer fonte para encontrar respostas que permitam: Redução de custos; Redução de tempo; Desenvolvimento de novos produtos; Decisões mais inteligentes. Ao combinar a ferramenta de Big Data com a alta potência da análise de dados, será possível realizar tarefas relacionadas a negócios, como: Determinar a causa raiz de falhas, problemas e defeitos em tempo quase real; Otimizar ações no ponto de venda com base em hábitos de compra dos clientes; Recalcular carteiras de risco inteiras, em questão de minutos; Detectar comportamentos fraudulentos antes que eles afetem sua organização. Muitas empresas atualmente iniciam atividades relacionadas a Big Data. Contudo, existe uma necessidade iminente de incorporar capacidades analíticas na organização. Caso contrário, não é possível fazer progressos substanciais e assim, produzir insights significativos. Os primeiros líderes a implementarem essa cultura nas empresas têm sido os responsáveis por criar uma vantagem competitiva em relação aos seus concorrentes. Segundo levantamento realizado em mais de 400 grandes empresas, aquelas que possuem capacidades analíticas mais avançadasestão superando seus concorrentes em ampla vantagem, como: Duas vezes mais propensas a ter desempenho financeiro elevado dentro de seu mercado de atuação; Cinco vezes mais propensas a tomar decisões mais rápidas que seus concorrentes; Três vezes mais propensas a executar decisões conforme o planejado; Duas vezes mais propensas a se basear nos dados no momento da tomada de decisão. Muitas vezes ouvimos falar de big data como uma metodologia, tecnologia ou ferramenta capaz de extrair valor de uma grande quantidade de dados digitais. A melhor maneira para falar de metodologias e tecnologias em big data é utilizar a expressão Data Analytics ou Analítica de Dados que pode ser definida como o uso da tecnologia para a compreensão, comunicação e utilização inteligente dos dados digitais. Existem basicamente quatro tipos de Analítica: Analítica Descritiva: se encarrega de analisar o que aconteceu; Analítica Diagnóstica: analisa porque determinado evento aconteceu; Analítica Preditiva: aponta o que irá (ou poderá) acontecer (predição); Analítica Prescritiva: identifica o que se deseja que aconteça e o que pode ser feito para alcançar esse objetivo (reforçar, modificar ou evitar uma predição). Pode-se aplicar os quatro tipos de analíticas em big data, embora os maiores valores agregados aos dados estejam nas duas últimas (preditiva e prescritiva) já que as duas primeiras (descritiva e diagnóstica) já são amplamente utilizadas e com sucesso antes do fenômeno big data. Nesse ponto, aparece a primeira das importantes diferenças básicas entre os dados em big data e bancos de dados estruturados de grande porte. Quando falamos em analítica preditiva, estamos falando de uma metodologia completamente diferente das previsões que estamos acostumados a ver a partir de data warehouses ou de pesquisas de opinião. O que determina a mudança na metodologia é a natureza dos dados utilizados. Ela é feita a partir de uma grande quantidade de dados de domínios diferentes (big data). A metodologia é um julgamento baseado na experiência e no aprendizado que se dá quando dados de um domínio do conhecimento viaja para outros domínios. A previsão (ou forecast) é feita a partir da utilização de grandes quantidades de dados de mesma natureza. A metodologia consiste em uma projeção, em que os dados viajam para dimensões maiores de tempo ou espaço. O exemplo mais conhecido disso é a previsão do tempo. Dados de um mesmo domínio, que têm uma relação direta de causa e efeito com o fenômeno, são transferidos para o futuro (viagem no tempo) gerando um resultado com grau de incerteza conhecido. Outro exemplo é a pesquisa de opinião. Dados de uma mesma natureza, coletados em uma amostra, são transferidos para o total da população (viagem no espaço) gerando também um resultado confiável. Diferente da previsão, a analítica preditiva é capaz de antecipar as mudanças nas tendências porque considera fatores que não têm uma relação causa-efeito imediata com o fenômeno. Em 2008, por exemplo, o Google conseguiu antecipar em 7 a 10 dias, a dinâmica da contaminação pelo vírus da gripe H1N1, baseado nos dados de utilização da ferramenta de busca dos seus usuários. Rastreando o conteúdo das buscas, a empresa conseguiu identificar correlações inusitadas entre as pesquisas e a contração da doença em um determinado grupo social. É importante entender que o modelo antecipava não apenas a quantidade de casos, mas também o deslocamento do vírus. O modelo foi tão bem sucedido que fundamentou as ações preventivas do governo americano para impedir uma pandemia da doença. O resultado de uma previsão é uma estimativa e a ciência que fundamenta a metodologia é a Estatística. O cenário de crescimento do Big Data aponta estão surgindo novas oportunidades de emprego para profissionais de TI e de outros setores. Um novo cargo, chamado de Data Scientist ou Cientista de Dados é um bom exemplo. Essa atividade deve ser desenvolvida por alguém que é curioso, que analisa os dados para detectar tendências. Além do cientista de dados, existe espaço para outras atividades profissionais. Por exemplo, haverá forte demanda também por desenvolvedores e administradores de sistemas que se especializam em ferramentas voltadas para Big Data, como o Hadoop, tecnologia projetada para aplicações distribuídas com uso intensivo de dados e utilizados por sítios bastante conhecidos como o Yahoo, Facebook, LinkedIn e eBay. Podemos identificar três perfis básicos de profissionais engajados em Big Data: Cientista de Dados, são profissionais capacitados em estatística, ciência da computação e/ou matemática capazes de analisar grandes volumes de dados e extrair insights que criem novas oportunidades de negócios; Analistas de Negócios, que conhecendo bem o negócio em que atuam, consigam formular as perguntas corretas. Analisar as respostas e tomar decisões estratégicas e táticas que alavanquem novos negócios ou aumentem a lucratividade da empresa. Esta função tende a ser acoplada a função de Cientista de Dados; Profissionais de TI, que cuidarão da infraestrutura e seu suporte técnico para sustentar Big Data. O aparato tecnológico de Big Data não é muito comum em empresas tipicamente comerciais, pois demanda expertise em gerenciar hardware em clusters de alta performance (Hadoop é massivamente paralelo) e pensar em volumes de dados significativamente maiores em muito mais variados que comumente se usam em sistemas tradicionais. Aula 3 1. Introdução O processo de registro numérico surge da necessidade básica de controle, de gerar estatísticas, como diríamos hoje, dando ao ser humano informações relevantes para seu dia a dia. A etimologia da palavra estatística é a mesma da de estado. O dicionário etimológico online Harper menciona que a palavra entra no vocabulário inglês em 1770, com o significado de ciência que trata de dados sobre as condições de um estado ou comunidade, originando-se do alemão statistik, palavra popularizada e talvez cunhada em 1748 pelo cientista político alemão Gottfried Aschenwall, do latim moderno statisticum (assuntos do estado), do italiano statista (estadista) e do latim status (estado). Gottfried Aschenwall (1719-1772) O significado mais amplo, de ramo da ciência que trata da coleção e classificação de dados numéricos, é de 1829. O dicionário Michaelis registra que a palavra entra no vocabulário português através do francês, statistique, que, segundo o Centre National de Ressources Textuelles et Lexicales, provém do alemão, statistik, forjado pelo economista alemão Gottfried Aschenwall, que a derivou do italiano, statista. Para Aschenwall, a estatística representa o conjunto de conhecimentos que um homem de estado deve possuir. Agora, pense em algumas situações de utilização da estatística. É quase impossível hoje em dia, para qualquer ramo do conhecimento, desconsiderar as ferramentas estatísticas. De fato, desde que o ser humano inventou os números, cada vez mais somos deles dependentes, especialmente com o avanço da ciência. Algumas aplicações são: prévias eleitorais, pesquisa de mercado, auditoria, previsões econômicas, previsões de vendas, controle de qualidade, avaliação de desempenho, pesquisa científica, entre outras. Precisamos das ferramentas da estatística para a tomada de decisão empresarial, para acessarmos qualquer literatura técnica e profissional e para embasarmos a pesquisa científica.2. O método Estatístico 2.1 O método científico Muitos dos conhecimentos que possuímos foram obtidos na Antiguidade por acaso e, outros, por necessidades práticas, sem aplicação de um método. Atualmente, quase todo acréscimo de conhecimento resulta da observação e do estudo. Porém muito desse conhecimento pode ter sido observado incialmente por acaso, a verdade é que desenvolvemos processos científicos para o estudo e para a aquisição de tais conhecimentos. Desta forma, pode-se dizer que método é um conjunto de meios dispostos convenientemente para se chegar a um fim que se deseja. Dentre os métodos científicos, vamos discutir o experimental e o estatístico. 2.1.1 Método Experimental Consiste em manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam. É um método bastante utilizado na Física e Química, por exemplo. 2.1.2 Método Estatístico Em alguns estudos há a necessidade de descobrir fatos em um campo em que o método experimental não se aplica, como por exemplo nas ciências sociais, já que os vários fatores que afetam o fenômeno em estudo não podem permanecer constantes enquanto fazemos variar a causa que, naquele momento, nos interessa. Pode-se citar, por exemplo, a determinação das causas que definem o preço de uma mercadoria. Para aplicar o método experimental, seria necessário fazer variar a quantidade da mercadoria e verificar se tal fato influenciaria o seu preço. Porém, seria necessário que não houvesse alteração nos outros fatores. Desta forma, deveria existir, no momento da pesquisa, uma uniformidade dos salários, o gosto dos consumidores deveria permanecer constante, seria necessária a fixação do nível geral dos preços das outras necessidades, entre outros. Porém isso tudo seria praticamente impossível de ocorrer. Nesses casos, vamos aplicar o método estatístico que é mais adequado. 3. Estatística É uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para utilização dos mesmos na tomada de decisões. Os dados expressam por meio de números as observações que se fazem de elementos com, pelo menos, uma característica comum. De uma forma geral, as pessoas quando se referem ao termo estatística, o fazem no sentido da organização e descrição dos dados (estatísticas de acidentes, estatísticas de jogos ganhos, entre outros), lembrando que existe também a estatística indutiva que proporciona métodos inferenciais que permitem conclusões que transcendem os dados obtidos inicialmente. Assim sendo, a análise e interpretação dos dados estatísticos tornam possível o diagnóstico de uma empresa, o conhecimento de seus problemas, a formulação de soluções apropriadas e um planejamento objetivo de ação. 4. Fases do Método Estatístico O método estatístico é composto das seguintes fases: 4.1 Coleta de dados A coleta de dados vem após cuidadoso planejamento e a devida determinação das características mensuráveis do fenômeno que ser quer pesquisar. Ela pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimentos, casamentos, importação e exportação de mercadorias) ou quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários, como é o caso de notas de exames, do censo demográfico, entre outros. Ela pode ser classificada relativamente ao fator tempo em: Continua (registro) – quando feita continuamente, tal como a de nascimentos e a de frequência dos alunos às aulas; Periódica – quando feita em intervalos constantes de tempo, como os censos de 10 em 10 anos e as avaliações mensais dos alunos; Ocasional – quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam uma sociedade. A coleta se diz indireta quando é inferida de elementos conhecidos e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, pode-se citar a pesquisa sobre a frequência dos alunos as aulas, que é feita através de dados colhidos por uma coleta direta. 4.2 Crítica dos dados Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas e imperfeições, a fim de não incorrer em erros que possam influir sensivelmente nos resultados. Ela pode ser externa ou interna. É externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas. E é interna quando visa observar os elementos originais dos dados de coleta. 4.3 Apuração dos dados Representa a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação. 4.4 Exposição ou apresentação dos dados Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob a forma adequada de tabelas ou gráficos, tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico. 4.5 Análise dos resultados O objetivo final da Estatística é tirar conclusões sobre o todo a partir de informações fornecidas por parte representativa do todo. Desta forma, nesta etapa, é realizada uma análise dos resultados, obtendo conclusões e previsões dessa análise. 5.0 Variáveis Cada fenômeno corresponde a um número de possíveis resultados. Por exemplo, para o fenômeno sexo são dois os possíveis resultados: masculino e feminino. Para o fenômeno número de filhos há um número de resultados possíveis expresso através dos números naturais: 0,1,2,3,...,n. Para os fenômeno estatura há uma situação diferente, pois os resultados podem tomar um número infinito de valores numéricos dentro de um determinado intervalo. Assim sendo, pode-se definir variável como sendo o conjunto de possíveis resultados de um fenômeno. As variáveis podem ser: Qualitativa – quando seus valores são expressos por atributos, como: sexo, cor dos olhos, entre outros; Quantitativa – quando seus valores são expressos em números, como: salário, idade, nota, entre outros. A variável quantitativa pode ser: contínua ou discreta. Ela é contínua quando pode assumir, teoricamente, qualquer valor entre dois limites. E é discreta quando só pode assumir valores pertencentes a um conjunto enumerável. Assim, o número de alunos de uma escola pode assumir qualquer um dos valores do conjunto N = {1,2,3,...50}, mas nunca valores como 3,5 ou 7,58. Logo é uma variável discreta. Já o peso desses alunos e uma variável continua, pois um dos alunos pode pesar 55 kg, como 70 kg, ou ainda 88,5 kg. Designamos as variáveis por letras, em geral, as últimas: X, y, z. Por exemplo, sejam 2,4,6,8 e 10, todos os possíveis resultados de um dado fenômeno. Fazendo uso da letra x para indicar a variável relativa ao fenômeno considerado, temos: X {2,4,6,8,10} 6.0 População e Amostra: Na maioria das vezes, por impossibilidade ou inviabilidade econômica ou temporal, as observações referentes a uma determinada pesquisa são limitadas a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos de amostra. Ou seja, amostra é um subconjunto finito da população. 7.0 Amostragem É uma técnica para recolher amostras, que garante, tanto quanto possível, o acaso na escolha. Onde cada elemento da população passa a ter a mesma chance de ser escolhido, garantindo à amostra o caráter de representatividade. Em seguida discutiremos três das principais técnicas de amostragem:7.1 Amostragem casual ou aleatória simples Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, x números dessa sequência, os quais corresponderão aos elementos pertencentes a amostra. 7.2 Amostragem proporcional estratificada Muitas vezes a população se divide em subpopulações, que são os estratos. É provável que os comportamentos dos estratos sejam heterogêneos e dentro de cada estrato, um comportamento homogêneo. Esta técnica leva em consideração e existência de estratos e obtém os elementos da amostra proporcional ao número de elementos dos mesmos. 7.3 Amostragem Sistemática Quando os elementos da população já se acham ordenados, não há a necessidade de construir o sistema de referência. A seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador, caracterizando a amostragem sistemática. Aula 4 1.0 Introdução O R foi criado originalmente por Ross Ihaka e por Robert Gentleman na universidade de Auckland, Nova Zelândia, e foi desenvolvido por um esforço colaborativo de pessoas em vários locais do mundo. O nome R provém em parte das iniciais dos criadores e também de um jogo figurado com a linguagem S (da Bell Laboratories, antiga AT&T). O R é ao mesmo tempo uma linguagem de programação e um ambiente para computação estatística e gráfica. Trata-se de uma linguagem de programação especializada em computação com dados. Algumas das suas principais características são o seu caráter gratuito e a sua disponibilidade para uma gama bastante variada de sistemas operacionais, tais como UNIX, Linux, Windows e OS X. Faz parte da filosofia do Projeto GNU e está disponível em https://www.r-project.org/ , como Software Livre. Possui as seguintes características, dentre outras: Uma manipulação de dados eficaz e facilidade de armazenamento; Uma série de operadores para cálculos com arranjos, especialmente matrizes; Uma extensa, coerente e integrada coleção de ferramentas intermediárias para análise de dados; Instalações gráficas para análises de dados; Uma bem desenvolvida, simples e eficaz linguagem de programação, a qual inclui condições, loops, funções recursivas definidas pelo usuário e instalações de entradas e saídas. O R também é altamente expansível com o uso dos pacotes, que são bibliotecas para funções específicas ou áreas de estudo específicas. Um conjunto de pacotes é incluído com a instalação do software, mas muitos outros estão disponíveis na rede de distribuição do R. 2.0 Download Primeiramente, deve-se acessar o sitio www.r-project.org . Em seguida, clicar no link CRAN localizado à esquerda da página em Download. Após a atualização da página você será direcionado para a página CRAN Mirros, escolha o servidor de seu país e da cidade mais próxima que está acessando. Em seguida você será direcionado para a página The Comprehensive R Archive Network. Posteriormente escolha a versão do R de acordo com o Sistema Operacional de sua preferência. Vamos considerar que a maioria dos usuários utilizam o Sistema Operacional Windows. Desta forma clique em Download R for Windows. Você será direcionado para a página R for Windows, clique em base. Em seguida clicar em Download R 3.3.1 for Windows. A seguir selecionar o botão Salvar. Em seguida localize onde você salvou o arquivo R-3.3.1-win.exe e execute-o. 3.0 Instalação Para instalar, siga as indicações de instalação ilustradas nas figuras abaixo: 5 Repare a esta altura que após ter sido selecionado o link para download do R as páginas estavam todas em língua portuguesa. Isto ocorre porque foi optado por baixar o 5 Repare a esta altura que após ter sido selecionado o link para download do R as páginas estavam todas em língua portuguesa. Isto ocorre porque foi optado por baixar o 5 Repare a esta altura que após ter sido selecionado o link para download do R as páginas estavam todas em língua portuguesa. Isto ocorre porque foi optado por baixar o É importante perceber que após ter sido selecionado o link para download do R as páginas aparecem todas em língua portuguesa. Isto ocorre porque foi optado por baixar o programa a partir de um CRAN brasileiro. Em seguida deve-se escolher a pasta onde se quer salvar o programa: 6 programa a partir de um “CRAN” (Comprehensive R Arquive Network, ou, rede de arquivos R compreensíveis) brasileiro. Neste ponto chamamos atenção para a dimensão espetacular que o projeto dispõe na atualidade, ofertando versões do programa em diversas línguas. Em seguida deve-se escolher a pasta onde se quer salvar o programa: 6 programa a partir de um “CRAN” (Comprehensive R Arquive Network, ou, rede de arquivos R compreensíveis) brasileiro. Neste ponto chamamos atenção para a dimensão espetacular que o projeto dispõe na atualidade, ofertando versões do programa em diversas línguas. Em seguida deve-se escolher a pasta onde se quer salvar o programa: 7 7 8 Após o termino da instalação, aparecerá uma janela de finalização do instalador. Nela, clicar em “Concluir”. A partir daí, o R já pode ser usado. Observação: As janelas exibidas nesta apostila foram as do Windows XP. • Pacotes do R No R existe uma grande diversidade de pacotes. Estes pacotes contêm um conjunto de funções que permitem ou facilitam a realização das análises estatísticas, além de possuírem ajuda para suas funções, alguns dos quais com demonstrações de execução. Ao instalar, apenas alguns pacotes vêm juntos com a instalação do R, os quais são fundamentais para o funcionamento do programa e que denominamos de módulo ou pacote básico. Muitos destes pacotes podem servir de base e pré-requisito para o funcionamento de outros pacotes. Após o termino da instalação, aparecerá uma janela de finalização do instalador. Clique em Concluir. A partir deste momento o R já pode ser usado 4.0 Interface Ao iniciar o R abrirá automaticamente o Console que é a janela onde os comandos são digitados. Internamente ao Console, se encontra o prompt, conforme figura abaixo, que é um sinal indicador de que o programa está pronto para receber comandos. 5.0 Tipos de Dados Basicamente temos quatro tipos de dados no R: numéricos, caracteres, lógicos e números complexos. Cada objeto possui dois atributos: tipo (mode) e o tamanho (length). Essas informações são bastante importantes durante a manipulação de dados. Veja abaixo alguns exemplos de tipos de dados no R: 6.0 Comandos Básicos Durante a utilização do software é possível consultar a sintaxe de algum comando ou obter mais informações sobre determinada função. Para isso o R conta com o comando help. A sintaxe do comando é a seguinte: Ao executar o exemplo acima, uma interface do menu de ajuda será executada mostrando o tópico da função sqrt, que é função matemática para a raiz quadrada. 6.1 Atribuição de valores Como todo tipo de programação, é comum que tenhamos que atribuir valores para algumas variáveis antes de utilizá-las. No Rpodemos fazer uma atribuição de valores de várias formas, conforme os exemplos abaixo: Para mostrar o valor armazenado em uma variável, basta digitar a variável na Console e depois dar Enter. Qualquer valor digitado sem atribuição pode ser mostrado na tela. O último valor inserido (em uma atribuição ou não) é sempre armazenado em uma variável especial, denominada .Last.value. Esta variável pode ser utilizada para realizar operações, mas é preciso tomar cuidado, pois seu valor está sendo constantemente modificado. 6.2 Comandos Auxiliares Segue abaixo, uma tabela com os principais comandos que ajudam a manipular os objetos e a área de trabalho (workspace) que estão sendo utilizados durante a execução do programa. Func ̧ão Descric ̧ão ls() ou objects() lista curta de variáveis definidas ls.str() lista detalhada de variáveis definidas str(x) ver informações detalhadas de x rm(x) deletar variável x rm(x, y) deletar as variáveis x e y rm(list = ls()) deletar todas as variáveis (limpar a workspace) class(x) ver que tipo de objeto é x q() sair do R com a opção de salvar a workspace em um arquivo (“Name.RData”) e o histórico de comandos em outro arquivo (“Name.RHistory”) ctrl + L pressione ctrl+L para limpar a tela da console (Windows) e option + command + L (OS X) 6.3 Operadores matemáticos Segue, abaixo, os operadores matemáticos: x + y , x - y Soma, Subtração x*y , x/y Multiplicação , Divisão x**y ou x^y Potência X%%y Resto da Divisão (Módulo) Segue, abaixo, os operadores relacionais: Símbolo Descrição < Menor <= Menor ou igual > Maior >= Maior ou igual == Igual != Diferente & AND | OR ! NOT TRUE ou 1 Valor booleano verdadeiro (1) FALSE ou 0 Valor booleano falso (0) 7. Vetores Vetores são conjuntos de dados unidimensionais. Sua principal utilidade é poder armazenar diversos dados em forma de lista e aplicar funções e operações sobre todos os dados pertencentes a determinado vetor com apenas poucos comandos. A sintaxe para declarar um vetor é: vetor = c(a1,a2,a3,...,an) Exemplos: Aula 5 1.0 Introdução As capacidades gráficas são uma componente muito importante e extremamente versátil do ambiente R. O R consegue plotar desde gráficos bidimensionais simples até gráficos tridimensionais mais complexos por meio de comandos simples. Dá-se muita ênfase no R aos gráficos estatísticos, tais como gráfico de barras, histogramas, gráficos de setores ou de pizza, gráfico de linhas, dentre outros. O gráfico de linha constitui uma aplicação do processo de representação das funções num sistema de coordenadas cartesianas 2.0 Gráfico de Barras O gráfico de barras é composto por duas linhas ou eixos, um vertical e outro horizontal. No eixo vertical são construídas as barras que representam a variação de um fenômeno ou de um processo de acordo com sua intensidade ou frequência. Essa intensidade é indicada pela altura da barra. No eixo horizontal especifica-se as categorias da variável. As barras devem sempre possuir a mesma largura e a distância entre elas deve ser constante. Vamos construir um gráfico de barras utilizando a tabela abaixo que representa os tipos de Ensino Fundamental, e a quantidade de professores e de alunos: Fundamental Professores Alunos Privada 2250 28790 Estadual 1248 22578 Municipal 875 19345 Federal 37 347 O primeiro passo na construção do gráfico é ter os dados armazenados em objeto apropriado. No caso de gráfico de barras é necessário que os dados estejam armazenados em um vetor ou matriz. Agora vamos colocar um título no gráfico: Agora vamos colocar nomes nos eixos x e y: Agora vamos colocar um subtítulo no gráfico, colocando o argumento sub. 3.0 Gráfico de Pizza Os gráficos de pizza (ou de setor) são representados por círculos divididos proporcionalmente de acordo com os dados do fenômeno ou do processo a ser representado. Os valores são expressos em números ou em percentuais (%). É empregado sempre que desejamos ressaltar a participação do dado no total Vamos utilizar os dados da tabela abaixo referentes a quantidade de veículos em determinada cidade: Tipo de veículo Frota Automóveis 13377 Motocicletas 18754 Caminhonetes 8058 Motonetas 3201 Ônibus 2154 Caminhões 1895 O primeiro passo na construção do gráfico é ter os dados armazenados em objeto apropriado nomeando cada posição do vetor. Agora vamos colocar um título no gráfico: 4.0 Histograma Um histograma divide uma série de dados em diferentes classes igualmente espaçadas e mostra a frequência de valores em cada classe. Em um gráfico, o histograma mostra diferentes barras, com bases iguais e amplitudes relativas às frequências dos dados em cada classe. O eixo das ordenadas, portanto, mostra a frequência relativa de cada classe e o eixo das abcissas os valores e intervalos das classes. Abaixo é apresentada a sintaxe do comando e em seguida será apresentado um exemplo. Observe que a coluna de 2 a 3 do histograma indica que há oito elementos nessa classe. Isso ocorre porque o padrão do comando hist() inclui os elementos que estão à direita. Além disso, devido ao argumento include.lowest, que por padrão também é True, inclui o último valor do vetor. Outro argumento importante é o breaks, que define os intervalos a serem usados no eixo das abscissas do histograma. Vamos construir um histograma com os tempos coletados das voltas dos carros em um determinado circuito, onde o argumento right significa que ele é fechado à direita e col representa a cor do gráfico. Aula 6 1.0 Introdução A estatística descritiva ocupa-se da organização, apresentação e sintetização dos dados. Discutiremos os componentes da estatística descritiva, bem como os comandos utilizados no ambiente R. Apresentaremos exemplos, demonstrando alguns dos conceitos e comandos discutidos. 2.0 Medidas de Posição São as estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal (eixo x) do gráfico da curva de frequência. As medidas de posição mais importantes são as medidas de tendência central, no qual se verifica uma tendência dos dados observados a se agruparem em torno dos valores centrais. Discutiremos então, as medidas de tendência central mais utilizadas. 2.1 Média Aritmética A média aritmética é igual ao quociente entre a soma dos valores do conjunto e o número total dos valores. Onde Xi são os dados amostrais e n o número de valores amostrais. O comando para calcularmos a média aritmética segue abaixo, juntamente com um exemplo: 2.2 Mediana A mediana de um conjunto de valores, dispostos segundo uma ordem (crescente ou decrescente) é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. Existe um método prático para o cálculo da mediana. Descritos abaixo: 1. Se a série dada tiver número ímpar de termos - o valor mediano será o termo de ordem dado pela fórmula: Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5} 1. Ordenar a série: {0, 0, 1, 1, 2, 2, 3, 4, 5}; 2. n = 9 elementos. 3. Pela fórmula: (n+1)/2 é dado por: (9+1)/2 = 5;4. Logo, o quinto elemento da série ordenada será a mediana. Este elemento é o número 2. 2. Se a série dada tiver número par de termos - o valor mediano será o termo de ordem dado pela fórmula: onde (n/2) e (n/2 + 1) são termos de ordem e devem ser substituídos pelo seu valor correspondente. Exemplo: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 } 1. Ordenar a série {0,0,1,1,2,3,3,4,5,6}; 2. n = 10 elementos; 3. Pela fórmula [(10/2) + (10/2 + 1)]/2 resultará na realidade (5o termo + 6o termo)/2. Estes termos são 2 e 3, respectivamente; 4. Logo a mediana será (2+3)/ 2, ou seja, Md = 2,5. Observações: Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série. Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana com um dos elementos da série. A mediana será sempre a média aritmética dos dois elementos centrais da série. 2.3 Moda É o valor que ocorre com maior frequência em uma série de valores. A moda é facilmente reconhecida, basta, de acordo com definição, procurar o valor que mais se repete. Observação: há séries em que não existe valor modal, isto é, série nas quais nenhum valor apareça mais vezes que os outros. Nestes casos dizemos que a série é amodal. Porém, em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois valores (bimodal) ou mais. Existem duas formas que podem ser utilizadas para encontrar a moda de uma série de dados. São elas: table(): este comando ordena em ordem crescente os dados e indica o número de vezes em que o elemento se repete na série de dados apresentada. É utilizado para encontrar a moda em pequenas amostras. subset(): em oposição ao item anterior esta função é utilizada quando o tamanho da amostra é grande. O comando para a obtenção da moda é dado abaixo: Observe que ambos os comandos indicam qual é o valor da série de dados que mais se repete. No exemplo, este valor é o dado 10, com três ocorrências. 2.4. Quartis Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos, portanto, de três quartis (Q1, Q2 e Q3) para dividir a série em quatro partes iguais. O quartil Q2 sempre será igual à mediana da série. Exemplo: Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15} Inicialmente se deve ordenar em ordem crescente os valores. Isto resulta em: {2, 5, 6, 9, 10, 13, 15}. O valor que divide a série acima em duas partes iguais é o elemento 9, logo a mediana e o quartil 2 (Q2) é 9. Temos agora {2, 5, 6, 9} e {9, 10, 13, 15}, como sendo os dois grupos contendo 50% das informações sobre os dados da série. Para o cálculo do primeiro e do terceiro quartis, basta calcular as medianas dos dois grupos resultantes. Logo em {2,5,6,9} a mediana é 5.5, ou seja, o quartil Q1 é 5.5 e em {9,10, 13, 15} a mediana é 11.5, ou seja, o quartil Q3 é 11.5. Podemos encontrar os quartis através do comando summary(dados). Este comando calcula e apresenta o resultado de outros comandos. Desta forma, a função summary é capaz de resumir vários tipos de objetos em uma única função. Dentre esses objetos encontram-se o primeiro e o terceiro quartil, sendo que o segundo quartil é dado indiretamente através da mediana. Calculando o exemplo acima apresentado através do R: Uma distribuição de frequência simétrica apresenta como característica principal o fato de as três medidas de tendência central mais usadas (moda, media aritmética e mediana), serem iguais. Aula 7 1.0 Introdução Apesar do cálculo das probabilidades pertencer ao campo da Matemática, o seu estudo se justifica pelo fato da maioria dos fenômenos de que trata a Estatística ser de natureza aleatória ou probabilística. Desta forma, o conhecimento dos aspectos fundamentais do calculo de probabilidades é uma necessidade essencial para o estudo da Estatística. A probabilidade é um número atribuído a cada membro de uma coleção de eventos a partir de um experimento aleatório. Ela é normalmente quantificada de maneira a representar o grau de crença que determinado evento possa ocorrer. Por exemplo, pode- se afirmar que a probabilidade de chover no fim de semana é de 40%. Quando se quantifica determinado acontecimento, atribui-se um valor entre 0 e 1 ou em porcentagem. Quando a probabilidade é igual a zero, o evento não ocorrerá. Já quando a probabilidade é igual a um, ele certamente ocorrerá. 2.0 Experimento Aleatório Em quase tudo, em maior ou menor grau, lidamos com o acaso. Assim, da seguinte afirmação: é provável que o meu time ganhe a partida de hoje, pode resultar nos seguintes resultados: Que, apesar do favoritismo, ele perca; Que, comprove o favoritismo e ganhe; Que empate. Desta forma, o resultado final depende do acaso. Fenômenos como esse são chamados de fenômenos aleatórios ou experimentos aleatórios, que são aqueles que, mesmo repetidos várias vezes sob condições semelhantes, apresentam resultados imprevisíveis. 3.0 Espaço Amostral A cada experimento correspondem, em geral, vários resultados possíveis. Assim, ao lançarmos um moeda, há dois resultados possíveis: ocorrer cara ou coroa. Já ao lançarmos um dado há seis resultados possíveis: 1,2,3,4,5 ou 6. Ao conjunto desses resultados possíveis de um experimento aleatório, definimos com o nome de espaço amostral ou conjunto universo, representado por S. Os dois experimentos citados anteriormente têm os seguintes espaços amostrais: Lançamento de uma moeda: S = {Ca,Co}; Lançamento de um dado: S = {1,2,3,4,5,6}. Do mesmo modo, como em dois lançamentos sucessivos de uma moeda podemos obter cara nos dois lançamentos, ou cara no primeiro e coroa no segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois lançamentos. Assim sendo, o espaço amostral é: S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) }. Cada um dos elementos de S que corresponde a um resultado recebe o nome de ponto amostral. Assim sendo: 2 € S => 2 é um ponto amostral de S. 4.0 Eventos Evento é qualquer subconjunto do espaço amostral S de um experimento aleatório. Assim, qualquer que seja E, se E S, então E é um evento de S. Se E = S, E um evento certo. Se E S e E um conjunto unitário, E é chamado evento elementar. Se E = (conjunto vazio), E é chamado evento impossível. 5.0 Probabilidade Dado um experimento aleatório, sendo S o seu espaço amostral, vamos admitir que todos os elementos de S tenham a mesma chance de acontecer, ou seja, que S é um conjunto equiprovável. Chama-se de probabilidade de um evento A (A S), o número real P(A), tal que: onde: n(A) é o número de elementos de A; n(S) é o número de elementos de S. Vamos ver um exemplo: 1. Considerando o lançamento de uma moeda e o evento A obter cara, temos: S = {Ca,Co} => n(S) = 2; A = {Ca} = > n(A) = 1. Logo: O resultado acima nos permite afirmar que, ao lançarmos uma moeda não viciada, temos 50% de chance de que apareça cara na face superior. 6.0 Eventos Complementares Sabemos que um evento pode ocorrer ou não. Sendo p a probabilidade de que ele ocorra (sucesso) e q a probabilidade de que ele não ocorra (insucesso), para um mesmo evento existe sempre a relação: p + q = 1 => q = 1 – p.Assim, se a probabilidade de se realizar um evento é , a probabilidade de que ele não ocorra é: q = 1 – p => q = 1 - = Sabemos que a probabilidade de tirar o 4 no lançamento de um dado é . Logo a probabilidade de não tirar o 4 no lançamento de uma dado é: q = 1 - = 7.0 Eventos Independentes Dois eventos são independentes quando a realização ou a não realização de um dos eventos não afeta a probabilidade da realização do outro evento e vice-versa. Por exemplo, quando lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos são independentes, a probabilidade de que se realizem simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. Assim, sendo a probabilidade de realização do primeiro evento e a probabilidade de realização do segundo evento, a probabilidade de que tais eventos se realizem simultaneamente é dada por: p = x Exemplo: Quando lançamos dois dados, a probabilidade de obtermos 1 no primeiro dado é: A probabilidade de obtermos 5 no segundo dado é: Logo, a probabilidade de obtermos, simultaneamente, 1 no primeiro e 5 no segundo é: p = x = 8.0 Eventos Mutuamente Exclusivos Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma moeda, o evento tirar cara e o evento tirar coroa são mutuamente exclusivos, já que, ao realizar um deles, o outro não se realiza. Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual a soma das probabilidades de que cada um deles se realize: p = + Exemplo: Quando lançamos um dado, a probabilidade de se tirar o 1 ou 3 é: p = + = = 9.0 Variável aleatória Considere um espaço amostral S e que a cada ponto amostral seja atribuído um número. Fica, então, definida uma função chamada variável aleatória, indicada por uma maiúscula, sendo seus valores indicados por letras minúsculas. Assim, se o espaço amostral relativo ao lançamento simultâneo de duas moedas é S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) } e se X representa o número de caras que aparecem, a cada ponto amostral pode-se associar um número X, de acordo com a tabela abaixo: Ponto Amostral X (Ca,Ca) 2 (Ca,Co) 1 (Co,Ca) 1 (Co,Co) 0 10.0 Distribuição de Probabilidade Considere a distribuição de frequências relativa ao número de acidentes de carros diários em um estacionamento: Número de Acidentes Frequências 0 22 1 5 2 2 3 1 = 30 Em um dia, a probabilidade de: não ocorrer acidente é: = 0,73 ocorrer um acidente é: = 0,17 ocorrem dois acidentes é: = 0,07 ocorrem três acidentes é: = 0,03 Desta forma, pode-se escrever a tabela de distribuição de probabilidades: Número de Acidentes Probabilidades 0 0,73 1 0,17 2 0,07 3 0,03 = 1,00 Aula 8 1.0 Introdução O R possui uma ferramenta de programação que permite a codificação de pequenos programas. Um programa é a codificação de um algoritmo em uma linguagem de programação, neste caso a linguagem R. A linguagem R é composta por um conjunto de instruções que são escritas através de um conjunto de códigos. Este conjunto de códigos possui regras de estruturação lógica e sintática própria. 2.0 Definindo Funções O R permite que o programador possa definir novas funções que poderão ser utilizadas da mesma forma que as pré-definidas no R. Esta possibilidade torna o sistema R num sistema bem mais flexível e poderoso. O tipo function é um dos tipos de objetos do R podendo ser definido da mesma forma que os outros objetos, usando a atribuição. Para a definição de uma nova função usa-se a palavra chave function. Veja um exemplo, abaixo, que define uma função para calcular o quadrado de um número: No código da função volesfera, abaixo, a linha iniciada com o símbolo # representa comentários do programador, i.e. linhas que não são interpretadas pelo R e que apenas servem para melhorar a legibilidade da definição de funções. Note que o resultado de uma função é definido pela expressão dada na última linha da sua definição (vol). Segue exemplo de uma função para o cálculo de uma esfera. 3.0 Estrutura Seleção A estrutura if permite realizar um (ou vários) comandos de forma condicional. Assim, se uma dada condição for verdadeira realiza-se um conjunto de operações; se esta for falsa os comandos serão outros (ou nenhuns). A sua sintaxe é: if (condição) instrução ou bloco de instruções else instrução ou bloco de instruções Se tivermos mais do que um comando, quer no caso verdadeiro, quer no falso podemos colocar um bloco de instruções. Estes são conjuntos de instruções separados por ; ou mudança de linha e delimitados por { }. Como exemplo da utilização da função veja-se a definição de uma função que retorna o menor de dois valores numéricos dados como argumentos: 4.0 Estrutura de Repetição A linguagem de programação do R permite que sejam utilizadas estruturas de repetição, quer seja como linha de comando ou como a definição de novas funções. Estas permitem definir uma operação (ou um bloco de operações) que são repetidas mais do que uma vez. A estrutura for permite realizar uma operação (ou bloco de operações) um determinado número (fixo) de vezes. A sua sintaxe é: for (variável in expressão) instrução ou for (variável in expressão) { bloco de instruções } Segue, abaixo, um exemplo da utilização da instrução for na linha de comandos: Por outro lado, a instrução for é especialmente utilizada ao nível da definição de novas funções. A função seguinte efetua a soma dos elementos de um vetor: Uma forma mais simples de escrever o código é: Outra estrutura de repetição que pode ser usada é o comando while, que permite realizar as instruções um número variável de iterações. Essa possibilidade depende de uma condição que pode tomar o valor verdadeiro ou falso, à semelhança do que acontece com as instruções condicionais. A instrução ou o bloco de instruções é realizado enquanto a condição se mantiver verdadeira. É importante que o bloco de instruções deverá, em algum momento, tornar a condição falsa de forma a que o ciclo termine. A sua sintaxe é: while (condição) instrução ou while (condição) { bloco de instruções } Veja um exemplo de utilização da estrutura while. Neste caso, um vetor é percorrido no sentido de se descobrir se um determinado valor existe ou não no vetor. Quando o valor é descoberto o ciclo while é interrompido. Para evitar que o ciclo se torne infinito, o ciclo termina quando se chega ao final do vetor. É importante perceber que o R trabalha muito com vetores, isso leva a que muitas operações se realizem naturalmente sobre estas estruturas sem necessidade de estruturas de repetição. Porém é essencial conhecermos as estruturas do ambiente R. Bibliografia basica: DAVENPORT, Thomas H. Big Data No Trabalho - Derrubando Mitos e Descobrindo Oportunidades. Editora Campus. MAYER-SCHONBERGER, Viktor; KENNETH, Cukier. Big Data - Como Extrair Volume, Variedade, Velocidade e Valor da Avalanche de
Compartilhar