Prévia do material em texto
09 Linguagem de Desenvolvimento II Bases de Dados e Tipos de Arquivos para Aprendizagem e Análise de Dados Prof. Me. Rodrigo Nascimento Aula Bases de Dados e Tipos de Arquivos para Aprendizagem e Análise de Dados • Big Data é definido por grandes estruturas de dados que podem conter informações pertinentes de uma empresa, populações, clientes, entre outros. Todas essas informações podem ser obtidas a partir da internet, por exemplo: Redes sociais, Lojas virtuais, Blogs, entre outros. • Mesmo que oculto, a linguagem de C++ é usada em Big Data junto à linguagem de programação Java, mesmo que utilizem framework Java como o MapReduce ou Spark. C++ é bastante utilizado no espaço da ciência de dados por ser uma linguagem que aumenta a velocidade do processamento; essa velocidade ocorre pois a linguagem é do tipo compilado e não interpretado. • Quando algoritmos de aprendizado de máquina complexos estão envolvidos, grandes conjuntos de dados de gigabyte, terabyte ou petabyte necessitam ser processados com rapidez, desta forma, gerando um custo computacional relativamente alto. • Muitos desses dados precisam ser tratados e, assim, gerar arquivos, dos quais possamos utilizar para análise de dados pelas linguagens de programação Java e C++. Para isso, precisamos gerar novos arquivos CSV conhecidos como Valores Separados por Vírgula do inglês Comma-Separated Values. • Tais bases de dados podemos encontrar de forma pública ou privada; para que possamos tratar e realizar análises, existem algumas bases de dados. Essas bases de dados podemos encontrar nos seguintes sites: 1. https://registry.opendata.aws/ 2. https://www.data.gov/ 3. https://www.google.com/publicdata/directory 4. https://www.kaggle.com/datasets 5. http://dados.gov.br/ 6. https://github.com/fivethirtyeight/data 7. http://www.portaldatransparencia.gov.br/ 8. https://data.world/ 9. https://www.drivendata.org/ • A partir desses sites podemos obter diversos tipos de dados como por exemplo, dados de saúde, governo e político, educação, agricultura, economia entre outros. Vamos ler uma base de dados “Pesquisa Nacional de Saúde do Escolar - PENSE”, tal base de dados possui a seguinte informação “Escolares frequentando o 9º ano do ensino fundamental, total e percentual, em que a localidade onde a escola está situada foi considerada, nos últimos 12 meses, área de risco em termos de violência (roubos, furtos, assaltos, troca de tiros, consumo de drogas, homicídios, etc.), por dependência administrativa da escola”. • Primeiramente, precisamos ler o arquivo do tipo JSON e em seguida converter para CSV. O arquivo JSON conhecido como JavaScript Object Notation - Notação de Objetos JavaScript é uma formatação leve de troca de dados, e tais arquivos são fáceis de ler e escrever para seres humanos. • O mesmo ocorre com a leitura de arquivos do tipo XML, no quais podemos compartilhar informações por meio da internet de forma mais fácil. Contudo, é mais complexo que o modelo de arquivo JSON. Os arquivos XML são conhecidos pela fácil portabilidade, já que informações de um banco de dados podem ser transmitidas e lidas por outros banco de dados. Um exemplo prático é a utilização do XML da nota fiscal e a melhor forma de mantê-los organizados para facilitar o dia a dia. • Como percebemos, até o momento existem diversos tipos de arquivos disponíveis na internet ou mesmo base de dados que podem ser processados na linguagem Java e C++. Desta forma, podemos ter uma ideia de como podemos processar diversos tipos de arquivos e assim processar essas informações. DEITEL, Harvey. C++ Como Programar. São Paulo: Person, 2006. ISBN 9788543013732. DEITEL, HARVEY M. DEITEL; PAUL J. Java: Como Programar. Cidade: Bookman, 2002. CLARO, Daniela Barreiro; SOBRAL, João Bosco Mangueira. Programação em JAVA. Livro Programando em Java 1. edição, p. 12, 2008. MENDES, Douglas Rocha. Programação Java com ênfase em Orientação a Objetos. Novatec Editora, 2009. SCHILDT, Herbert; SKRIEN, Dale. Programação com Java: uma introdução abrangente. Bookman Editora, 2013. REFERÊNCIAS DEITEL, Harvey. C++ Como Programar. São Paulo: Person, 2006. ISBN 9788543013732. DEITEL, HARVEY M. DEITEL; PAUL J. Java: Como Programar. Cidade: Bookman, 2002. CLARO, Daniela Barreiro; SOBRAL, João Bosco Mangueira. Programação em JAVA. Livro Programando em Java 1. edição, p. 12, 2008. MENDES, Douglas Rocha. Programação Java com ênfase em Orientação a Objetos. Novatec Editora, 2009. SCHILDT, Herbert; SKRIEN, Dale. Programação com Java: uma introdução abrangente. Bookman Editora, 2013. Bons Estudos! Número do slide 1 Bases de Dados e Tipos de Arquivos para Aprendizagem e Análise de Dados Número do slide 3 Número do slide 4 Número do slide 5 Número do slide 6 Número do slide 7 Número do slide 8 Número do slide 9 Número do slide 10 DEITEL, Harvey. C++ Como Programar. São Paulo: Person, 2006. ISBN 9788543013732.�DEITEL, HARVEY M. DEITEL; PAUL J. Java: Como Programar. Cidade: Bookman, 2002.�CLARO, Daniela Barreiro; SOBRAL, João Bosco Mangueira. Programação em JAVA. Livro Programando em Java 1. edição, p. 12, 2008.�MENDES, Douglas Rocha. Programação Java com ênfase em Orientação a Objetos. Novatec Editora, 2009.�SCHILDT, Herbert; SKRIEN, Dale. Programação com Java: uma introdução abrangente. Bookman Editora, 2013.� Bons Estudos!