Unicode: O Padrão Mundial de Caracteres

•

ESTÁCIO

4

0

4

0

Max Moreira

18/06/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Princípios de Sistemas da Informação

1.193 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Unicode 
 
 
 
Unicode é um padrão adotado mundialmente que possibilita com que todos 
os caracteres de todas as linguagens escritas utilizadas no planeta possam ser 
representados em computadores. A “missão” do Unicode é apresentada de forma 
clara no web site do Unicode Consortium (entidade responsável pela sua gestão): 
Unicode fornece um número único para cada caractere, não importa a 
plataforma, não importa o programa e não importa a linguagem. 
O padrão Unicode é capaz de representar não somente as letras utilizadas 
pelas linguagens mais “familiares” para nós ocidentais, como Inglês, Espanhol, 
Francês e o nosso Português, mas também letras e símbolos utilizados em 
qualquer outra linguagem: Russo, Japonês, Chinês, Hebreu, etc. Além disso, inclui 
símbolos de pontuação, símbolos técnicos e outros caracteres que podem ser 
utilizados em texto escrito. 
 
 
Como o Unicode trabalha? 
 
 
 
No padrão Unicode, cada diferente letra ou símbolo de cada alfabeto 
utilizado no mundo é mapeado para um diferente code point. O code point é um 
código no formato U + número em hexadecimal. O exemplo abaixo mostra os 
códigos das letras que compõem a palavra “BRASIL” (em maiúsculo). 
 
B - U+0042 
R - U+0052 
A - U+0041 
S - U+0053 
I - U+0049 
L - U+004C 
 
É muito importante mencionar que as letras maiúsculas possuem code points 
diferentes das letras minúsculas. Por exemplo: o code point da letra “A” é U+0041, 
enquanto o da letra “a” é U+0061, o code point de “Ç” é U+00C7 e o de “ç” 
é U+00E7 (e por aí vai). Outra observação importante é que os primeiros 127 code 
points (até U+007F) são compatíveis com os códigos utilizados na antiga tabela 
ASCII (basicamente são os códigos associados aos números, letras maiúsculas e 
minúsculas sem acento e símbolos de pontuação mais comuns). 
 
Bibliografia: 
 
1. https://www.devmedia.com.br/unicode-conceitos-basicos/25169