Buscar

BIG DATA NA EDUCAÇÃO

Prévia do material em texto

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO AMAZONAS
CURSO DE TECNOLOGIA EM ANALISE E DESENVOLVIMENTO DE 	SISTEMAS
 
 
 
 
Turma: Informática na Educação (EDTECH) /TADS 	
Prof.ª: Andréa Mendonça
 
Equipe
 Sérgio Ademir Rocha do Carmo
Carlos Eduardo da Silva
 
 e-mail: sergioademirch@gmail.com
 
 
 
 
 
 
SEMINARIO BIG DATA
 
 
 
 
 
 
 
 
 
 
 
 
Manaus - Am
 	Março 2015
 
Big Data
O Big Data fundamenta-se em um extremo e amplo conjunto de dados constituído de ferramentas especializadas em processar e armazenar grandes volumes de dados de forma que toda e qualquer informação nestes meios de dados possa ser encontrada, analisada e aproveitada em tempo hábil ou em tempo real. De forma mais simples a ideia de Big Data pode ser compreendida como uma analises de quantidades de dados para a gerar um conjunto de informações importantes que em volumes pequenos não reproduziria o resultado esperado da informação.
O Big Data “é mais do que apenas uma questão de tamanho: é uma oportunidade de descobrir insights, ou seja descobrir o discernimento, o critério, a compreensão clara da natureza intima da coisa” (Soluções Big Data, 2014). (You Find Soluctions o Big Data( so na referencia Bibçliografica) Disponível em:<http://blog.youfindsolutions.com/como-o-big-data-nao-e-so-um-projeto-de-ti>. Acesso em: 30/03/2015).
Novos tipos de dados e conteúdo para tornar agora a informação processada ou armazenada em um negócio ágil de excelente lucratividade ou de ótimo resultado seja este em qualquer ramo de atividade.
Porvir: “O Big Data designa um volume muito grande de dados cuja existência armazenamento e analise passaram a ser possíveis, com o desenvolvimento da tecnologia o Big Data costuma ser explicado a partir dos 5Vs volume, velocidade, variedade, veracidade e valor”. (Disponível em: < 
- >. Acesso em: 23/03 /2015).
Desde os primórdios da humanidade lidamos com os dados, ou seja procuramos guarda e processar os dados captado com clareza e com o mínimo de perda de sua informação.
A ideia de Big Data se mostra concreta quando especialistas sintetizam, ou seja, abrangem em resumo o assunto em os 5Vs do Big Data que são:
Volume: O Big Data deve possibilitar a análise de grandes volumes de dados.
Velocidade: O Big Data deve fornecer as repostas com velocidade e em tempo hábil.
Variedade: Big Data deve ser capaz de lidar com diferentes formatos de informação. Áudio, vídeo, mensagens de texto, redes sociais etc.
 Veracidade: Os dados devem ser fiéis a realidade.
Valor: Os dados do Big Data devem agregar valor ao negócio. Sem valor, a informação não tem utilidade.
 
Big Data um Pouco de Sua História
Big data se refere à terceira época da era da informação, a primeira foi em 1954 com a implementação dos sistemas de informação nas organizações. Durante um período de 35 anos em processos internos, cede lugar para as interações externas através da rede de computadores e a evolução da globalização tornado o ambiente empresarial complexo é nesse ambiente que as empresas formalizam uma forma de armazenar e processar seus dados com segurança.
De uma forma um pouco mais abrangente o termo “Big Data” aparece na comunidade cientifica em 1997 por cientistas da NASA, descrevendo um problema com visualização (computação gráfica) o desafio era como tributar em sistemas de computadores conjuntos de dados geralmente muito grandes nas memórias principais do disco local e até mesmo em disco remoto, a esse desafio deram o nome de “big data”.
Agosto 1999 Steve Bryson, David Kenwright, Michael Cox, David Ellsworth, e Robert Haimes publicar " Visualmente explorar conjuntos de dados gigabyte em tempo real "nas comunicações do ACM. Ele é o primeiro artigo MCCA a usar o termo "Big Data" (o título de uma das seções do artigo é "Big Data para Visualização Científica"). O artigo começa com a seguinte declaração: "Muito computadores poderosos são uma bênção para muitos campos de investigação. Eles também são uma maldição; cálculos rápidos expelem enormes quantidades de dados. Quando conjuntos de dados megabyte já foram considerados grandes, encontramos agora conjuntos de dados de simulações individuais no intervalo de 300GB. Mas entender os dados resultantes da computação high end é um esforço significativo. Como mais de um cientista colocou, é simplesmente difícil olhar para todos os números.
E, como Richard W. Hamming, matemático e cientista pioneiro da computação, assinalou, o objetivo da computação é insight, não números. (Em A Very Short History Of Big Data. Disponível em:<http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#comment_reply>. Acesso em: 05/04/2014).
Portanto, o Big Data oferece meios disponíveis com diferenciais diversos de outras épocas, dados podem ser analisados em sua forma original, não estruturada, analisar o passado, prever o que irá acontecer com riqueza de detalhes. Podemos usufruir de logs na web, vídeo clips, gravações de voz, documentos de repositórios como share point, dados sociais, dados abertos do governo e outros que irão compor o corpo analítico. Nesse sentido constrói-se o termo “Ciência de Dados” aplicados ao método científico e aos negócios.
 
Big Data na Educação
Na educação o Big Data poderá estabelecer uma correlação se for analisado os dados do estudante com as ferramentas tecnológicas disponíveis. Aprimorando o produto ou o serviço educacional que oferecem. Com as ferramentas de Big Data Analytics será possível reunir os dados de um serviço ou produto educacional para personalizar o ensino.
Todas as economias mundiais que investiram em Educação saíram de crises, prosperaram ou estão neste caminho. Surtiram algum efeito e podem a médio prazo, gerar impactos importantes na educação. É através do mundo Digital com dados estruturados, não estruturados, Analytics, Big Data e mobilidade, que podemos acelerar efetivamente e habilitar transformações em diversos níveis e em diversos setores educacionais. (Melhorando o Ensino e o Aprendizado com Analytics. Disponível em: <http://cio.com.br/tecnologia/2014/09/05/melhorando-o-ensino-e-aprendizado-com-analytics-big-data/>. Acesso em: 23 de Março de 2015).
Uma das aplicações em Big Data na educação são as plataformas Adaptativas de Aprendizagem usada de uma forma embrionária em algumas disciplinas do ensino superior e em instituições de alguns países.
As Plataformas de Aprendizagem Adaptativa são: um conjunto de interações entre Alunos e Máquinas, na qual o conteúdo, o formato, o dispositivo e as avaliações, são apresentados com base em resultados prévios, ações, preferências, dados capturados de resultados, comparação com resultados similares, suportado em diferentes graus por instrutores ao vivo, com objetivo de criar diferentes caminhos de aprendizado. Permitindo uma personalização de ensino apropriada ao conteúdo, a mensagem, ao formato e a apresentação de uso, integrando-se as tecnologias digitais sofisticadas.
A Smart Sparrow é uma plataforma que permite ao aluno criar o seu curso interativo e adaptativo ela é oferecida ao público de nível médio e superior.
DreamBox Learning é uma plataforma adaptativa de matemática para o ensino básico e fundamental que utiliza a lógica da gamificação para personalizar o ensino, ou seja personaliza o ensino através de games. A plataforma usa jogos como uma metáfora como desenvolvimento de releitura na experiência da aprendizagem, no jogo está camuflado alguma coisa que já sabemos e isso se torna interessante para aluno o que chama a atenção para aprender como essa coisa funciona, assim o aluno resolve problemas e aprende, mas o mais importante num jogo de aprendizagem é que não existe fracasso. 	 
A edX é uma plataforma que oferece cursos online grátis em parceria com as melhores faculdades, tais como Harvard, Columbia e MIT. Nos cursos oferecidos pela edX é possível a certificação após a conclusão a maioria dos cursos desde que o aluno tenha nota satisfatória noperíodo em que assistiu as aulas. Para cursos pagos o aluno só será certificado se cumprir as atividades e exercícios nos prazos estabelecidos e obtiver boa pontuação. Ao logo do curso se um aluno não passa no teste o algoritmo planeja um novo meio de ensinar ao aluno aquele conteúdo especifico. A medida que o algoritmo fica mais inteligente e conhece mais as habilidades de cada aluno o aluno evolui, o professor evolui todos crescem ao mesmo tempo. O algoritmo nos permite ensinar, fazer o que aprendemos a fazer, ele permite transmitir o poder da educação.
Knewton é uma plataforma que capacita instrutores a personalizar cursos digital para alunos com deferentes dificuldades. O algoritmo executa a mineração dos dados desse aluno e descobre o que o estudante sabe, a sua dificuldade, as dificuldades de cumprir as metas e os prazos para resolver um problema. O algoritmo da plataforma Knewton é executado e recomenda as melhores atividades para esse aluno. 
De forma evidente algumas instituições já iniciaram com as ferramentas de “Aprendizagem Adaptativa”, buscando sempre compartilhar pontos que são necessários para o sucesso usando uma filosofia de personalização baseada em estar ciente de sua missão identificando os problemas que a ferramenta de ensino pode resolver deixando de forma clara os custos em adota-la ou não, escolhendo a tecnologia adequada.
As características dessas ferramentas geralmente são:
- Personalização: Uma aprendizagem única, adaptada as necessidades individuais de cada aluno obedecendo metas.
- Remediação: Tecnologia ajustada ou adaptada ao domínio de qualquer nível de habilidade dos alunos em uma experiência de aprendizagem.
- Diferenciação: Um conjunto de matérias adaptado exclusivamente com base nas necessidades de aprendizagem, como determinado pelas funções de ferramentas tecnológicas altamente sofisticadas.
- Automação: Gerenciamento de custos de produção permitindo a composição de categorias e informando uma ecologia mais eficaz para o aprendizado.
- Empowerment (Autorização): Estudantes assumem o controle de um conjunto de discurso de um curso, selecionando o tema baseado em suas capacidades, objetivos de aprendizagem e preferências de entrega.
 
 
 
 Ferramentas Big Data
A coleta e analises de uma quantidade gigantesca de dados digitais é uma pratica já amplamente utilizada em e-commerces, essa coleta se fundamentou no histórico de compras, hábitos de navegação e preferencias dos usuários para as empresas que com esse estudo de dados direcionaram suas divulgações para atrair mais consumidores e vender mais. Mas embora esse seja o conhecimento mais popular de Big Data o mesmo princípio é aplicável a outras áreas.
E uma dessas áreas é a educação que vem passando periodicamente nos últimos anos por uma radical mudança, ou seja, o ensino dado em sala de aula agora ministrado em plataformas online gerando milhares de dados a serem analisados sobre desempenho dos estudantes e sobre a utilização de padrões e modelos que personalize sua aprendizagem. Os cursos online são cada vez mais comuns e os dados digitais gerados são tratados com ferramentas Big Data Analytics tornando-se valiosos na educação e no modo de como as pessoas aprendem, possibilitando a avaliação do aluno e melhoria no seu desempenho educacional. 
E em escala suportado por plataformas tecnológicas escaláveis e com alta eficiência em custo e desempenho, capazes de tratar grandes volumes e variedades de dados, permitindo rapidamente personalizar ou ajustar o caminho do aprendizado para cada indivíduo, para atender às diversas metas de aprendizagem (da instituição e/ou do aluno).” (Melhorando o Ensino e o Aprendizado com Analytics. < Disponível em:http://cio.com.br/tecnologia/2014/09/05/melhorando-o-ensino-e-aprendizado-com-analytics-big-data/>. Acesso em: 23 de Março de 2015).
Um Pouco de Como O Big Data Funciona Internamente com A Ferramenta Apache Hadoop
Muito bem, mas como funciona o Big Data nas empresas ou nas escolas e universidades. Empresas, escolas ou universidades produzem uma quantidade gigantesca de dados estes se forem tratados e administrados corretamente se transformarão em potentes ferramentas, plataformas voltadas para o ramo dos negócios ou da educação com quantidades gigantes de linhas de informação e de combinações possíveis sendo assim o Big Data exige ferramentas especiais que consigam manejar um universo de dados de maneira ajustada e eficaz. Com a exigência de uma ferramenta propicia surge o Big Data Analytics formado sob um ligado de ferramentas e métodos destinados a coletar, organizar e analisar um grande número de dados para descobrir padrões e identificar outras informações úteis para o negócio. Um exemplo é dado na ciência onde os pesquisadores através dessa ferramenta estão codificando o DNA humano e identificando genes responsáveis por doenças. Outro pelo padrão de consomo de uma pessoa e na educação não será diferente pesquisas apontam uma evolução da educação no mundo vinda de plataformas construídas para ensinar o aluno e aprender com ele o modo como ele aprende. Confuso mas é isso mesmo (a plataforma opera um algoritmo que aprende como o aluno aprende a aprender e como ele se depara com as dificuldades em aprender oferecendo os melhores padrões e métodos adequados para esse aluno seguir em frente no seu aprendizado) ferramentas estão sendo construídas para universidades e escolas, empresas e industrias dentro desses perfis. E é aí que o Big Data entra como uma poderosíssima ferramenta administradora de dados formadora de padrões adequados para alunos na educação e para clientes no mundo dos negócios.
Um processo pesado que consome muito recurso de banco de dados, redes, Cpu e que roda por horas pode ser substituído por Jobs hadoop que são executados na fração desse tempo. Assim as principais tarefas que as ferramentas de Big Data deve resolver será a análise de dados podendo-se otimizar rotinas já existentes ou criar novas funcionalidades com analises estatísticas de grandes volumes de dados, armazenar para depois proceder com as análises mas para armazenar precisamos garantir tolerância a falhas, replicação, integridade, velocidade para gravação e para leitura na mesma situação estão os arquivos textos. Mover o processamento é mais barato que mover os dados essa é a exatidão de conformidade em processamento em tempo real ao invés de mover os dados de um lado pro outro é mais eficiente mover o processamento pra perto dos dados. Buscadores (Google, Bing, Yahoo) são necessários sem eles não será possível realizar pesquisas uma vez que o desenvolvimento do dessa proposta é analisar, armazenar e pesquisar essas tarefas são realizadas no decurso do hadoop que é uma ferramenta de busca, portanto, a busca e o Big Data são muito próximas. A visualização de dados é o produto final do Big Data.
A ferramenta Apache Hadoop que é um processo open Source para processamento distribuído e foi pensado para resolver as características da computação distribuída de forma clara e para ter um modelo de programação simples onde o profissional de T.I., não precise se preocupar com implementações complexas como tolerância a falhas, balanceamento de carga e replicação. O hadoop e fundamentado em dois serviços MapReduce (um modelo de programação) e HDFS (sistema de arquivo de alta performance), essa ferramenta garante uma serie de performance que são:
ü Escalabilidade Linear
ü Alta Disponibilidade de Replicação
ü Hardware Commodity
ü IO de Alta Performance com HDFS
ü Modelo Simples de Programação baseado em MapReduce
É importante esclarecer que o hadoop uma ferramenta para processamento em batch e não para análise em tempo real ela chega a ser quase em tempo real mas não é, ela não substitui a infraestrutura existente devendo ser usada em conjunto e não como reposição. A ferramenta é para dados complexo em grandes volumes.
O HDFS é responsável pelo armazenamento dos dados em cluster hadoop suportando uma organização de arquivos hierárquica, semelhante ao sistemade arquivos tradicional assim podemos criar diretórios e arquivos, excluir, mover e renomear. No HDFS cada arquivo é armazenado numa sequência de blocos geralmente de 64 ou de 128 Mbps depois eles são distribuídos entre os nós do clusters e esses arquivos são somente leitura uma vez gravado não pode ser alterado por isso o aumento da velocidade de leitura somados ao fator de replicação (o mesmo bloco e replicado em vários nós de no máximo três replicas) adquirindo escalabilidade, tolerância a falhas e alta disponibilidade, trabalhando com arquitetura máster slave chamada de Namenode (armazena os metadados da arvore de diretório) ele conhece os Datanode e determina a localização dos blocos funciona como um gerente dos arquivos. Datanode são os servidores que efetivamente armazenam os dados e são responsáveis pelas operações de gravação e leitura como criação, exclusão, replicação dos blocos de dados além do armazenamento ele envia sinais frequentes ao Namenode para informar que está ativo quanto espaço em disco estão disponíveis e se suas réplicas estão disponíveis, com essas informações o Namenode pode fazer o balanceamento dos arquivos.
MapReduce é um modelo de programação ou Framework para processamento distribuído de Jobs, quando usamos MapReduce as complexidades ficam abstraídas, ou seja, o programador não precisa saber como o framework trabalha internamente você escreve o programa manda executar e o resto é por conta do hadoop.
 Essa ferramenta Big Data pode se somar a muitas outras ferramentas tais como:
ü Hive (Data werehouse em SQL para fazer consultas em grandes volumes de dados quase em tempo real),
ü Pig (Plataforma para analises em grandes volumes de dados com linguagem de alto nível faz agrupamento, junção e filtros diretamente no HDFS),
ü Scoop (Importação e Exportação para bancos relacionais),
ü Oozie (Sistemas de Workflow para gerenciamento de Jobs)
ü HBase (Banco de Dados noSQL que roda no HDFS).
 O Hadoop é apenas uma ferramenta que pode ser potencialmente explorada e depende da equipe que o utiliza e do ramo de negócio seja ele comércio, indústria ou educação. A análise de Big Data ajuda a reconhecer padrões aumentando as previsões do ramo analisado essas ideias pode ser amplamente aproveitada.
Na educação o Apache Hadoop poderá analisar dados para a personalização e a eficácia no aprendizado em cursos on line por exemplo onde o aluno poderá acessar materiais de diversos formatos - textos, vídeos, áudios – participar de fóruns fazer entregas de trabalhos e receber notas. Esses dados cruzados entre si podem dizer muita coisa sobre a rotina de estudo, a eficiência do material de aprendizagem e a necessidade de intervenções de professor. Tratam-se de informações como o nível de presença e engajamento do aluno e o Hadoop somados ao MapReduce e HDFS pode como ferramenta Big Data analisar.

Continue navegando