Baixe o app para aproveitar ainda mais
Prévia do material em texto
Instituto Superior entre Douro e Vouga Trabalho: Linguagem XML Docente: Dr. Nuno Peixoto Discente: Cristiana Rosa Soares Carvalho 1 Índice Linguagem XML………...………………………………………………………………… 3 HTML versus XML……………………………….………………..……………………… 6 Regras de Construção………………………………………………………………….... 7 Regras de Sintaxe………………………………………………………………………... 7 - Secções CDATA……………………………………………………………………..… 8 - Esquema DTD…………………………………………………………………………… 9 - Esquema XML Schema………………………………………………………………… 10 Modelos de Processamento…………………………………………………...………... 10 - SAX……………………………………………………………………………………….. 11 - DOM……………………………………………...………………………………………. 11 Conclusão…………………………………………………………………………………. 12 Bibliografia………………………………………………………………………………. 13 2 Linguagem XML Extensible Markup Language (XML) é uma linguagem de marcação de dados que dota um formato para descrever dados estruturados. Ou seja, é uma linguagem criada para descrever informação, baseada em marcas. Isso facilita declarações mais precisas do conteúdo e resultados mais significativos de busca através de múltiplas plataformas. A linguagem XML também vai permitir o surgimento de uma nova geração de aplicações de manipulação e visualização de dados via internet. O XML é uma recomendação da World Wide Web Consortium (W3C) para gerar linguagens de marcação para necessidades especiais. A W3C como não estava satisfeita com os formatos existentes, começou a trabalhar na década de 1990 numa linguagem de marcação que combinasse a flexibilidade da SGML com a simplicidade da HTML. O princípio do projecto era criar uma linguagem que pudesse ser lida por software, e integrar-se com as demais linguagens. A sua filosofia seria incorporada por vários princípios importantes: Separação do conteúdo da formatação; Simplicidade e legibilidade tanto para os utilizadores quanto para os computadores; Possibilidade de criação de tags sem limitação; Criação de arquivos para validação de estrutura (chamados DTDs); Interligação de bancos de dados distintos; Concentração na estrutura da informação e não na sua aparência. O XML é considerado um bom formato para a criação de documentos com dados organizados de forma hierárquica. A linguagem XML é vocacionada para aceder e consultar informação, como por exemplo transacções financeiras, notícias, registos de dados, bibliotecas, etc.. Um documento XML diz-se bem formado quando respeita as seguintes regras: Ter um nó raiz; Ter um único elemento raiz; Ter um ou vários nós elemento; Os valores dos atributos têm que estar entre aspas; Todos os elementos têm que ser fechados; Os elementos fecham pela ordem inversa em que abrem, e têm de estar encadeados; Os elementos têm de começar por uma letra ou “underscore” ( _ ); Os nós elemento estarem correctamente aninhados. Exemplo de um Curriculum Vitae utilizando a linguagem XML: <?xml version=”1.0” encoding=”isso-8859-1”?> <Currículo> <Informação Pessoal> <Data de Nascimento> 22 – 12 – 1980 </Data de Nascimento> <Nome> Cristiana Carvalho</Nome> <Contactos> <Morada> <Rua>Rua Chavinha de Água</Rua> <Número>Rccasa3</Número> <Cidade>Canelas</Cidade> </Morada> <Telefone>936947114</Telefone> <Email>cristianascarvalho@gmail.com</Email> </Contactos> <Nacionalidade>Portuguesa</Nacionalidade> </Informação Pessoal> <Formação>Licenciatura em 1.º Ciclo com v. E.V.T</Formação> </Currículo> Exemplo de uma re ceita de pão utilizando a linguagem XML: Este exemplo demonstra a sintaxe flexível do XML sendo usada para descrever uma receita de pão: <?xml version="1.0" encoding="ISO-8859-1"?> <receita nome="pão" tempo_de_preparo="5 minutos" tempo_de_cozimento="1 hora"> 4 <titulo>Pão simples</titulo> <ingredientes> <ingrediente quantidade="3" unidade="xícaras">Farinha</ingrediente> <ingrediente quantidade="7" unidade="gramas">Fermento</ingrediente> <ingrediente quantidade="1.5" unidade="xícaras" estado="morna">Água</ingrediente> <ingrediente quantidade="1" unidade="colheres de chá">Sal</ingrediente> </ingredientes> <instrucoes> <passo>Misture todos os ingredientes, e dissolva bem.</passo> <passo>Cubra com um pano e deixe por uma hora num local morno.</passo> <passo>Misture novamente, coloque numa bandeja e asse num forno.</passo> </instrucoes> </receita> Onde temos na primeira linha: <Receita nome="pão" tempo_de_preparo="5 minutos" tempo_de_cozimento="1 hora"> "Receita" é o nome principal para o seu documento. Note que a semelhança entre XML e HTML é grande, na 1ª linha abrimos a tag Receita e na última linha a fechamos, como em HTML, assim se estendendo por todo o exemplo. 5 HTML versus XML A linguagem XML descreve a estrutura e o conteúdo dos documentos, não a apresentação visual. As formatações podem ser adicionadas aos documentos através de folhas de estilo, podendo desta forma ser colocados na Web documentos essencialmente enriquecidos em termos de formatação, relativamente ao HTML. O XML usa as marcas somente para delimitar e organizar os dados, enquanto que em HTML uma marca <p> indica um parágrafo, em XML essa marca pode indicar um preço. As marcas HTML, apesar de não descreverem directamente as características de formatação de texto, são orientadas para a descrição do aspecto gráfico da página no browser. No XML as marcas estão lá para descrever o conteúdo independentemente de como vai formatado graficamente. Em seguida, podemos visualizar dois exemplos que explicam esta diferença: Exemplo de um ficheiro HTML: Exemplo de um ficheiro XML: <h2> Carro do mês:</h2> <p> <ul> <li> Opel Frontera</li> <li> Cilindrada: 2.2</li> <li> Preço: 4800</li> </ul> <carro> <marca>Opel</marca> <modelo>Frontera</modelo> <cilindrada>2.2</cilindrada> <preço>4800</preço> </carro> São de facto coisas diferentes, mas se for aplicada a folha de estilo correcta, o resultado da visualização em browser pode ser parecido ou mesmo igual. No entanto, ao utilizar XML temos os dados perfeitamente estruturados, a ponto de podermos ter aplicações a interagir com os dados publicados. 6 Regras de Construção Regras de Sintaxe As regras de sintaxe do XML são simples, mas bastante rigorosas. Permitem ter documentos menos complexos e melhor estruturados, evitando situações de interpretação confusa. Os documentos XML respeitam rigorosamente as regras de construção de elementos e atributos. O documento pode ou não iniciar-se com a declaração: <?xml version=”1.0” encoding=”ISO-8859-1”?>. Esta declaração define a versão do XML e a codificação de caracteres utilizada é a ISSO-8859-1 (Latin-1 /West European). A declaração faz parte da estrutura do documento, mas não é um elemento. Para diferenciar a declaração coloca-se “<? … ?>” em vez de “< … >”. Um documento XML deve ter um nó raiz e deve ter sempre um elemento raiz, esse elemento é único. Os restantes elementos têm que estar dentro do elemento raiz. Todos os elementos podem ter sub-elementos (nó elemento), como podemos ver no exemplo seguinte: <nó raiz> <elemento raiz> <nó elemento> <nó texto> … </nó texto> </nó elemento> </elemento raiz> Todos os elementos de um documento têm que conter o fecho da marca respectiva: <nacionalidade> Portuguesa </nacionalidade>. Os elementos estão correctamente aninhados quando as etiquetas abrem e fecham em sequências inversas: <x><y> Correcto </y></x>. As etiquetas XML diferenciam entre maiúscula e minúsculas: <Mensagem> Errado </mensagem> <mensagem> Correcto </mensagem>7 <Mensagem> Correcto </Mensagem> Os valores dos atributos têm que estar envolvidos em aspas: <mensagem número=”13”>. O XML preserva o espaço em branco (espaços, mudanças de linha, tabulações, …). Cada um destes espaços é um caracter específico. Para escrever comentários em documentos XML é igual à do HTML: <!— comentário-->. Se um documento respeitar todas as regras de construção, diz-se bem formado (well-formed) e pode ser utilizado por qualquer interpretador XML. Para além de ser bem formado, um documento pode também ser válido. Um documento diz-se válido se é bem formado e respeita um conjunto de regras definidas por DTD (Document Type Definition) ou XML Schema. Existem alguns caracteres que são ilegais em XML, pois a sua utilização gera documentos com interpretações confusas. Contudo, existem outros caracteres, que apesar de não serem ilegais, também devem ser substituídos. Estes caracteres têm que ser sunstitídos por códigos começados pelo caracter & e terminados pelo caracter ;. Caracteres ilegais ou que devem ser substituídos Códigos < < & & > > ‘ ' “ " Secções CDATA O CDATA permite definir secções de texto que não são interpretadas, e que portanto não restringem a utilização de caracteres ilegais. Uma secção CDATA começa com <![CDATA[ e termina com ]]>. As secções CDATA não podem conter outras secções CDATA. 8 A sequência ]]> não pode ter espaços nem mudanças de linha no seu interior. Exemplo de uma secção CDATA: <script> <![CDATA[ If (a<b && a<0) then return 1; else return 0; ]]> </script> Esquema DTD A utilização de DTDs teve grande importância quando o padrão XML surgiu. Era o padrão para a validação de documentos da antecessora da XML (o SGML) e foi utilizada também como forma de validação para o XML. Embora seja capaz de realizar a validação, a DTD possui algumas limitações. Todos os dados são interpretados como texto, trazendo efeitos desagradáveis como validação, comparação, etc.. Também não suportam espaços de nomes (namespace), impõem que os elementos apareçam sempre na ordem especificada, levando ao desuso. Os documentos que respeitem o DTD dizem-se válidos. O padrão XSD (XML Schema Definition) ou XS (XML Schema) é a recomendação oficial do W3C desde 2001 para validação. Esse padrão consegue suprir as limitações da DTD, além de fornecer diversas funcionalidades, é possível construir tipos próprios derivados dos tipos básicos, realizar relacionamentos entre elementos de dados dentro do XML (idêntico aos relacionamentos entre tabelas), etc.. 9 Esquema XML Schema XML Schema é uma linguagem baseada no formato XML para definição de regras de validação em documentos no formato XML. Foi a primeira linguagem de esquema para XML a obter o status de recomendação por parte do W3C. Um arquivo quando contém as definições na linguagem XML Schema é chamado de XSD (XML Schema Definition), este descreve a estrutura de um documento XML. Quando um documento XML é bem formado, ele pode ser validado com base em regras que podem ser definidas utilizando a linguagem XML Schema. Esta linguagem é uma alternativa ao DTD, cuja sintaxe não é baseada no formato XML. Isto é, a utilização de DTD tem tendência a ser substituída por XML Schema porque apresenta diversas vantagens: É extensível; É mais expressiva que o DTD; É escrita em XML; Suporta tipos de dados. Modelos de Processamento Para construir um documento XML não é necessário nenhuma ferramenta especial, é preciso ter atenção se estamos a construir um documento que seja válido ou não. No entanto, para ler um documento XML já é preciso um compilador XML. Os dois modelos de processamento de documentos XML, baseados em API (Applications Programming Interface) são: SAX (Simple API for XML); DOM (Document Object Model). 10 SAX O SAX (Simple API for XML) processa um documento XML em série, transformando uma sequência de caracteres numa sequência de eventos: início de documento, início de elemento, atributo, fim de elemento, fim de documento. Faz mais sentido usar o SAX quando se pretende processar documentos muito grandes sem precisar de aceder a toda a informação em simultâneo. Este modelo é mais rápido e utiliza menos memória que o DOM. O SAX é utilizado no lado do servidor de aplicações em rede. Um das restrições é que não é possível “voltar atrás” no documento, devido ao processamento em série. DOM DOM (Document Object Model) significa Modelo de Objectos de Documentos. DOM é uma especificação da W3C, independente da plataforma e da linguagem, onde se pode alterar e editar a estrutura, o conteúdo e estilo de um documento electrónico. Ou seja, permite que o documento seja mais tarde processado e os resultados desse processamento sejam incorporados de volta no próprio documento. O DOM lê o documento e constrói uma estrutura em árvore, onde cada nó é um componente do documento XML. A API DOM oferece uma maneira padrão de se aceder aos elementos de um documento, além de se poder trabalhar com cada um desses elementos separadamente, e por esses motivos criar páginas muito dinâmicas. O principal problema deste modelo é que necessita de bastante memória, impedindo de manipular documentos de grande dimensão. Por este motivo, o DOM é utilizado na aplicação do cliente. 11 Conclusão A XML (Extensible Markup Language) é uma linguagem extensível criada para descrever informação, que é baseada em marcas. A XML descreve os dados enquanto a linguagem HTML apresenta os dados. A linguagem XML obedece a regras de construção simples mas rigorosamente interpretadas: Obedecem a uma sintaxe, são bem formados; Um documento XML é válido se obedece a um conjunto de regras contidas nos esquemas DTD ou XML Schema. Existem dois modelos de processamento XML: SAX – processamento em série, baseado no tratamento de eventos; DOM – manipulação de árvore construída em memória. 12 Bibliografia http://pt.wikipedia.org/wiki/XML http://www.gta.ufrj.br/grad/00_1/miguel/link1.htm Linguagem XML Exemplo de uma receita de pão utilizando a linguagem XML: Regras de Construção Regras de Sintaxe Secções CDATA Esquema DTD Esquema XML Schema Modelos de Processamento SAX DOM Conclusão Bibliografia
Compartilhar