Teoria_da_Informacao_slides_de_curso_Lec

•
Colegio Pedro II

Sobre tudo e menos nada
25/09/2022
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Sistemas de Comunicação

535 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Curso: Teoria da Informação
Lectures: Information Theory
 H.M. de Oliveira
Departmento de Estatística, CCEN Universidade Federal de Pernambuco http://www.de.ufpe.br/~hmo/TI.html
Recife, 2017, Brazil 
Este é um curso introdutório sobre a Teoria da Informação (Shannon theory) destinado 
aos estudantes de graduação em Estatística, ministrado no Centro de Ciências Exatas e 
da Natureza (CCEN) da Universidade Federal de Pernambuco, Recife. Grosso modo, 
trata-se de uma tentativa de fornecer uma janela panorâmica focada em algumas das 
técnicas clássicas do assunto, apresentar resultados e as linhas gerais sobre algumas das 
aplicações desta potente teoria, através de uma seleção particular de tópicos. O 
conteúdo está longe de ser razoavelmente integralizado: mesmo alguns assuntos como 
criptografia ou teoria da distorção de taxa sequer foram tratados. O ponto mais relevante 
a destacar nesta apresentação, a fim de não causar expectativas frustradas ou má 
interpretação, é que a abordagem não é bem sintonizada com aquela corriqueira na 
Estatística (correlata com o rigor exigido na Matemática). Com uma formação de 
Engenharia, a visão adotada permite omitir muitas das provas, e não haver uma 
preocupação maior com o rigor. Cursos e livros de Teoria da Informação por Matemáticos 
e/ou Estatísticos costumam ser "um pouco áridos", densos e rigorosos, perdendo-se no 
formalismo -- com ênfase menor no significado, ou em interpretações. O objetivo é um 
compêndio exordial apresentando a área aos principiantes. Há um espaço particular para 
tal enfoque: espera-se que os usuários possam aproveitar ou até mesmo apreciar.
	 	 Bom uso,
	 	 !
DE- CCEN 
TEORIA DA INFORMAÇÃO 
Prof. Hélio Magalhães de Oliveira, DE 
2017.2
1
http://ufpe.academia.edu/hmdeoliveira
Bem-vindos! (1o slide)
H. Magalhães de Oliveira, DE - UFPE 
http://www.de.ufpe.br/~hmo/TI.html 
https://en.wikipedia.org/wiki/Information_theory 
http://ufpe.academia.edu/hmdeoliveira
TEORIA DA INFORMAÇÃO
Código: ET647 
carga horária: 60 h
reponsável: Hélio Magalhães de Oliveira
Objetivos: entender o significado de informação e 
entropia; compreender dois aspectos da informação: 
compressão, controle de erros.
 
Os objetivos deste curso são apresentar os princípios 
e aplicações da teoria da informação. No curso 
estuda-se como a informação é medida em termos de 
probabilidade e entropia; Como elas são usadas para 
calcular a capacidade de um canal de comunicação, 
com e sem ruído. Entender suas ligações com a 
estatística. 
http://ufpe.academia.edu/hmdeoliveira
Como interfere o acaso?
• Vida biológica (Evolução & Seleção) 
• Matéria do universo (Mecânica Quântica) 
• Informação (TI) 
• Inteligência artificial (AI) 
– alea 
 
 (tudo o que fazemos...)
http://ufpe.academia.edu/hmdeoliveira
H.M. de Oliveira (1959-) nasceu em Arcoverde, 
Pernambuco, em 1959. Ele recebeu os graus de 
Engenheiro e Mestre em Engenharia Elétrica da 
Universidade Federal de Pernambuco em 1983. Ingressou 
na UFPE como Docente em 1983, e em 1992 recebeu o 
grau de Docteur de l’École Nationale Supérieure des 
Télécommunications, Paris. Atua no DE da UFPE desde 
2015.
http://ufpe.academia.edu/hmdeoliveira
http://www.de.ufpe.br/~hmo/deOliveira.html
«O acaso é um conceito mais fundamental que a causalidade», 
 Max Born, Nobel 1954
Origens históricas e contribuições importantes:
Ludwig Boltzmann (1844-1906), físico, mostrou em 1877 
que a entropia termodinâmica (definida como a energia de um conjunto 
estatístico [como um gás] dividido pela sua temperatura: ergs / grau) está 
relacionada à distribuição estatística das configurações moleculares. Com 
crescente entropia correspondente ao aumento da aleatoriedade. Ele tornou 
este relacionamento preciso com sua famosa fórmula S=k log W em que S 
define a entropia, W é o número total de possíveis configurações 
moleculares, e k é a constante que tem o nome de Boltzmann: k=1.38x10-16 
ergs por grau centigrado. (A fórmula acima aparece como um epitáfio na 
lápide de Boltzmann). Isto é equivalente à definição das informações 
("negentropia") em um conjunto, todos cujos possíveis estados são 
equiprováveis, mas com um sinal de menos na frente (e quando o 
Logaritmo é base 2, k=1). As conexões profundas entre a Teoria da 
Informação e o ramo da física em relação à termodinâmica e à mecânica 
estatística, dependem do trabalho de Boltzmann.
http://ufpe.academia.edu/hmdeoliveira
 
 Leo Szilard (1898-1964) em 1929 identificou a entropia com 
informações. Ele formulou conceitos chave da teoria da 
informação para resolver o paradoxo termodinâmico 
conhecido como "Demônio de Maxwell" (um experimento 
sobre as moléculas de gás em uma caixa particionada) ao 
mostrar que a quantidade de informação exigida pelo 
demônio sobre as posições e as velocidades das moléculas 
era igual (negativamente) ao incremento de entropia do 
demônio.
http://ufpe.academia.edu/hmdeoliveira
 Ralph V. Hartley (1888-1970) em 1928 fundou a  
teoria da comunicação com o seu papel de 
transmissão de informações. Ele propôs que um canal 
de comunicação com largura de banda Ω durante uma 
duração T tenha um número limitado de graus de 
liberdade, ou seja, 2ΩT, e, portanto, pode comunicar 
ao máximo essa quantidade de informação. Ele 
também definiu o conteúdo de informação de um 
conjunto equiprovável com N estados possíveis como 
igual a log2N.
http://ufpe.academia.edu/hmdeoliveira
 Norbert Wiener (1894-1964) unificou a teoria da informação e 
análise de Fourier, derivando uma série de relações entre as 
duas. Ele inventou a "análise de ruído branco" de sistemas 
não-lineares e contribuiu definitivamente para modelar e 
descrever o conteúdo de informações de processos 
estocásticos conhecidos como séries temporais. Criou a área 
que chamou de cibernética e foi um dos pioneiros de modelos 
de processos estocáticos. Estudou e estabeleceu os principios 
de preditores lineares estocásticos e suavizadores.
http://ufpe.academia.edu/hmdeoliveira
 Dennis Gabor (1900-1979) cristalizou a visão de Hartley 
formulando um Princípio geral de incerteza para obter 
informações, expressando o trade-off para resolução entre 
largura de banda e tempo. (Os sinais que estão bem 
especificados no conteúdo de freqüência devem estar mal 
localizados no tempo, e aqueles que estão bem localizados no 
tempo devem ser mal especificados no conteúdo de freqüência). 
Ele formalizou o "Diagrama de Informações" para descrever 
esse trade-off fundamental e derivado A família de funções 
contínua que otimiza (minimiza) a relação de incerteza conjunta. 
Em 1974 Gabor ganhou o Prêmio Nobel de Física por seu 
trabalho em óptica de Fourier, incluindo a invenção da 
holografia.
http://ufpe.academia.edu/hmdeoliveira
Vladimir Kotelnikov (1908-2005) foi um pioneiro em 
teoria da informação e astronomia de radar. Ele é 
conhecido por descobrir, antes de Nyquist e Shannon, 
o teorema da amostragem. Ele também foi pioneiro 
no uso da teoria de sinais na modulação e comunicações. 
Foi criador da teoria da imunidade ao ruído. 
Kotelnikov esteve também envolvido em criptografia, 
provando a segurança absoluta do sistema one-time-pad.
http://ufpe.academia.edu/hmdeoliveira
 Claude Shannon (1916-2001) em 1948 escreveu o trabalho 
definitivo, clássico, na teoria da informação: A Teoria 
Matemática da Comunicação. Dividido em tratamentos 
separados para sinais, sistemas e canais de tempo contínuo e 
discreto, apresentou todos os conceitos chave que definem o 
campo. Em particular, ele provou o famoso Teorema de 
Codificação de fontes e o Teorema de Codificação de Canal 
Ruidoso. Estabeleceu todos os fundamentos de segurança de 
dados/criptografia. Criador da Eletrônica Digital, foi pioneiro 
em inteligencia artificial, em máquinas inteligentes...
http://ufpe.academia.edu/hmdeoliveira
 S. Kullback e R. A. Leibler (1951) definiram  
a entropiarelativa (também chamada de 
discriminante, ou K-L Distance.)
http://ufpe.academia.edu/hmdeoliveira
 E. T. Jaynes (1922 - 1998) desenvolveu métodos de 
entropia máxima para inferência, teste de hipóteses e 
tomada de decisão. Outros investigaram se esses princípios 
impõem limites físicos fundamentais à própria computação. 
http://ufpe.academia.edu/hmdeoliveira
 A. N. Kolmogorov (1903-1987) em 1965 propôs 
que a complexidade de uma série de dados pode ser 
definida pelo comprimento do programa binário 
mais curto para computar a sequencia. Assim, a 
complexidade dos dados é o comprimento da 
descrição mínima, e isso especifica sua 
compressibilidade máxima. A "complexidade 
Kolmogorov" K é aproximadamente igual à sua 
entropia Shannon H, unificando assim a teoria da 
complexidade descritiva e da teoria da informação.
http://ufpe.academia.edu/hmdeoliveira
 Gregory Chaitin (1947-), argentino-eua, na 
Coppe, UFRJ, contribuiu de forma definitiva 
para a teoria da informação algorítmica e a 
metamathematics, em particular um resultado 
computacional equivalente ao teorema de 
incompletude de Gödel. Ele é considerado 
um dos fundadores do que hoje se conhece 
como complexidade de Kolmogorov (ou 
Kolmogorov-Chaitin), juntamente com 
Andrei Kolmogorov e Ray Solomonoff. 
http://ufpe.academia.edu/hmdeoliveira
Claude Elwood Shannon 
 
C. E. Shannon (1916-2001)  
IEEE S´36 - M´48 - SM´49 - F´50
Seus prêmios e títulos incluem, pelo menos, os seguintes: 
The National Medal of Science 
The Medal of honor of the IEEE 
The Harvey prize 
The Mervin J. Kelly Award 
The Morris Liebmann Memorial Award 
The Stuart Balantine Medal (of the Franklin Institute) 
The Jacquard Award 
The Harold Pender Award 
The Research Coorporation Award 
The Medal of Honor of Rice University 
John Fritz Medal 
Golden plate Award 
Kyoto prize, entre vários outros.
Obituário
http://ufpe.academia.edu/hmdeoliveira
Contribuições C.E. Shannon
• Eletrônica Digital 
• Teoria da Informação 
– hoje, uma das áreas da matemática 
• Pioneiro em 
– Computadores digitais 
– Inteligência artificial 
– Evolução genética de populações (e informação genética) 
Leiam: interview ** Assistam: juggling 
https://www.youtube.com/watch?v=pHSRHi17RKM 
http://ufpe.academia.edu/hmdeoliveira
TEORIA DA INFORMAÇÃO
Ramo da Matemática
http://ufpe.academia.edu/hmdeoliveira
Algebra (elementary linear multilinear abstract) 
Arithmetic / Number theory 
Calculus / Analysis 
Category theory 
Combinatorics 
Group theory 
Computation 
Control theory 
Differential equations / Dynamical systems 
Functional analysis 
Game theory 
Geometry (discrete algebraic analytic differential finite) 
Graph theory 
History of mathematics 
Information theory 
Lie theory 
Mathematics and art 
Mathematics education 
Mathematical logic 
Mathematical physics 
Mathematical statistics 
Numerical analysis 
Optimization 
Order theory 
Philosophy of mathematics 
mathematics education 
Probability 
Recreational mathematics 
Representation theory 
Set theory 
Statistics 
Topology 
Trigonometry 
Áreas da matemática
http://ufpe.academia.edu/hmdeoliveira
ATIVIDADES
 Grau duplo em Matemática e 
Engenharia Elétrica, aos 20 
anos.
 Tese Mestrado: A symbolic 
analysis of Relay and switching 
circuits inaugurou o uso de 
lógica boolena em circuitos.
 Tese de doutorado: An algebra 
for theoretical genetics
 Ele colheu um ganho financeiro 
considerável usando a teoria da 
informação e dos jogos.  
Ele co-desenvolveu o que agora é 
referido como o critério de Kelly para 
otimizar apostas e investimentos com 
John Kelly, Jr. no início da década de 
1950; A aplicação desta estratégia ao 
mercado de ações fez deu ganhos 
substanciais a Shannon. 
  
Fora de suas pesquisas acadêmicas, 
Shannon estava interessado em 
malabarismo, monociclo,  
e xadrez. Ele também inventou 
diversos dispositivos (gadgets). 
http://ufpe.academia.edu/hmdeoliveira
Juggling
http://www.de.ufpe.br/~hmo/shannon_juggling.mov 
http://ufpe.academia.edu/hmdeoliveira
 Inspirado pelo pioneiro de 
inteligência artificial, Marvin 
Minsky, ele projetou o que foi 
apelidado de Ultimate Machine
 Ele construiu um dispositivo que 
poderia resolver o Cubo de 
Rubik
 
https://www.youtube.com/watch?v=Maiqnr2TZks 
http://www.kugelbahn.ch/sesam_e.htm
https://www.youtube.com/watch?v=G5rJJgt_5mg
http://ufpe.academia.edu/hmdeoliveira
Playing machines
http://www2.ee.ufpe.br/codec/Programming_a_computer_for_playing_chess.shannon.062303002.pdf
1936 1997 (game over)
http://ufpe.academia.edu/hmdeoliveira
Theseus (AI)
Apresentação (link) por Shannon
http://ufpe.academia.edu/hmdeoliveira
diorama
Cyrus Field
zoetrope
Massachusetts Institute of Jugglology
http://ufpe.academia.edu/hmdeoliveira
Opinion:
 I keep asking myself:  
How would you do this? Is it possible to make a machine to 
do that?  
Can you prove this theorem? 
These are my kind of problems. Not because I am going to 
do something useful. 
 
 
"My mind wanders around, and I conceive of different 
things day and night.  
Like a science-fiction writer, I'm thinking,  
What if it were like this? Or,  
Is there an interesting problem of this type?  
And I'm not caring whether someone is working on it or 
not" 
 I visualize a time when we will be to robots  
 what dogs are to humans, and I'm rooting for the machines. 
Claude Shannon
interview
http://ufpe.academia.edu/hmdeoliveira
links
http://www2.ee.ufpe.br/codec/shannon.pdf 
Obituário 
http://www2.ee.ufpe.br/codec/Shannon_interview.pdf 
Omni 
http://www2.ee.ufpe.br/codec/Programming_a_computer_for_playing_chess.shannon.
062303002.pdf Chess 
https://www.youtube.com/watch?v=sBHGzRxfeJY 
juggling 
http://www.de.ufpe.br/~hmo/shannon_juggling.mov 
juggling 
http://www.de.ufpe.br/~hmo/ClaudeElwoodShannon.html 
Biografia 
https://vimeo.com/98345492 
Paper Into Pixels 
http://www.kugelbahn.ch/sesam_e.htm 
http://www.de.ufpe.br/%7Ehmo/useless.gif 
https://www.youtube.com/watch?v=G5rJJgt_5mg 
http://ufpe.academia.edu/hmdeoliveira
�
informação, entropia e codificação de fontes
tentativas prévias... 
If you can not measure it, you can not improve it. Lord Kelvin
como medir a quantidade de informação? texto, fala, imagem, vídeo...
�
 
Ralph V. Hartley 
 A quantidade de informação depende fundamental-
mente do número de escolhas possíveis. 
 Como na maioria das unidades de engenharia um sistema 
com base logarítmica é apropriado (ex. dB), para uma 
situação com N escolhas possíveis, ele propos: 
I=log N 
  
�
Uma tentativa similar foi proposta por Alan Turing (the ban and the 
deciban were invented by 1940): I=10 log10N decibans. 
Se você tem apenas uma única escolha, N=20, então não há nada a informar (já se sabe).
Se você tem duas escolhas possíveis, N=21, então há uma unidade a informar (qual a escolha).
Se você tem quatro escolhas possíveis, N=22, e há dois códigos para informar a escolha.
 Comunicação analógica � Comunicação Digital*  
 
Eletrônica analógica � Eletrônica Digital* 
Conversão a/d � d/a*
×
×
×
�
  
Até o meio do Século XX, os sistemas analógicos eram 
reconhecidos como superiores aos sistemas digital. 
Evolução: 
 Telegrafia (digital), 
 Telefonia, Rádio, TV (analógicos) 
* criadas por Shannon, hoje são padrão universal.  
 
A toria da informação se consolidou com um importante ramo da teoriaestatística, com um conjunto de conceitos próprios e mostrando uma 
aplicabilidade e fertilidade em muitos ramos da ciência além da teoria da 
comunicação e, na minha opinião, em todos os ramos da ciência.
�
Medida de informação 
 Definição: [Shannon, 1948] 
 Um evento aleatório E com probabilidade de ocorrência P(E) tem 
associado um conteúdo de informação 
! . 
 NB. por sugestão de Tukey, Shannon batizou a unidade por bit (bit 
de informação), sendo hoje adotada Shannon como unidade de 
medida. 
I(E) := log2 1/P(E) = − log2 P(E)
�
Unidades de medida 
Bit= binary digit 
Bit= binary unit (of information) 
 Unidade de informação 
● log tomado em base 2, Shannon 
● log tomado em base 10, Hartley 
● log neperiano em base e, Nat. 
1 bit = 1 Sh ≈ 0.693 nat ≈ 0.301 Hart.
iso https://www.iso.org/standard/31898.html
https://en.wikipedia.org/wiki/Nat_(unit)
https://en.wikipedia.org/wiki/Hartley_(unit)
https://www.iso.org/standard/31898.html
�
 
Semântica versus incerteza 
 Não há conotação semântica na interpretação de Shannon 
(apenas ligada à incerteza). 
Sequência binária (Bernoulli) 
 Bit 0 ou 1, de igual probabilidade, carrega -log2 (½) =1 Sh 
 Bit 0 (0.9) carrega 0.952 Sh 
 Bit 1 (0.1) carrega 3.322 Sh 
 Converter o problema em "lançamentos de Bernoulli 
equivalentes"... 
�
Eventos & Informação 
 Ouvindo Adágio de Albinoni ou Canon de Pachelbel em Ré maior pela primeira 
vez… Ou pela trilionésima!
 Assistindo a um novo filme: esperado, inesperado, detalhes mínimos…
 Jogo de futebol: Flamengo (RJ) versus Ibis (PE). Quais as chances? Se fosse 
evento certo, nem adiantaria jogar. A zebra é um resultado possível…
– Se é certo que o placar final será de 9 × 0, basta “desligar”: não 
efetuar o jogo. Para que? (A quoi bom?)
 Informação vital (sua vida dependendo dela), por exemplo, pode ter conteúdo 
muito pequeno de informação de Shannon!
 Importância do incerto, inesperado, do improvável na vida...
�
Lembranças do passado  
(algo inexistente no presente...) 
�
Qual das imagens possivelmente possui maior conteúdo 
de informação? [ordem&desordem] 
Interpretando e entendendo… 
Associe também com o conceito 
de complexidade de Kolmogorov
�
BASES PARA DEFINIÇÃO DE INFORMAÇÃO MARGINAL 
modelo: Fonte 
  
 “letras" oriundas de um alfabeto discreto, com rótulos inteiros {k} 
Considere uma fonte que produz mensagens rotuladas por {k} 
 mensagem:= vista como uma sequência aleatória de saída da fonte com 
letras de um “alfabeto fonte”. 
Fonte
�
Proposta: ! 
 informação é uma função APENAS da probabilidade da ocorrência do 
símbolo " deve ser determinada. 
Condições impostas (lembre-se dos axiomas de Kolmogorov): 
 C1) não negatividade 
 C2) evento certo não tem informação 
 C3) monotonicidade f(pk)>f(pl), se pk<pl. 
Ik = f(pk)
⇒ f( ⋅ )
f ( pk )≥0 ,se 0≤ pk ≤1
lim
pk→ 1
f (pk )= 0
�
 Muitas funções obedecem 1-3, e a ideia final vem da consideração da 
transmissão de eventos independentes (play the role of mutually 
exclusive events in Kolmogorov axioms...). 
 
Independência 
 Se uma mensagem k tem conteúdo de informação Ik e outra mensagem l 
independente tem conteúdo de informação Il (ex. provindo de fontes 
independentes), 
 podemos falar da mensagem conjunta k;l em que pk;l=pk.pl 
independentes Ik;l=Ik+Il ou f(pk;l)=f(pk.pl)=f(pk)+f(pl). 
�
 
Equação funcional de Cauchy 
 1) f(x)>f(y) se x>y>0. 
 2) f(x.y)=f(x)+f(y). 
Solução única: f(x)=k log x (qualquer base). 
para C1, k<0, Cologaritmo, como pH 
https://en.wikipedia.org/wiki/Cologarithm 
https://en.wikipedia.org/wiki/Cologarithm
�
 
 I(k):=-log2 pk =log2 1/pk 
 Shannon definiu a unidade de medida de informação (sugestão de 
Tukey) como bit 
 bit= binary unit of information 
 bit= binary digit 
fonte binária = alfabeto {0,1} 
�
 um bit pode transportar mais (ou menos) que 1 bit de informação.
 bit 0, com p(0)=1/2 bit 0 transporta I0= 1 bit 
 
 bit 1, com p(1)=1/2 bit 1 transporta I1= 1 bit. 
Mas
 bit 0, com p(0)=1/4 bit 0 transporta I0= 2 bit 
 bit 1, com p(1)=3/4 bit 1 transporta I1= 0.42 bit. 
�
Esquema mais simples de transmissão de informação: 
símbolos p-ários, cada com duração t seg. 
 --- --- --- ... --- p-1 
 --- --- --- ... --- p-2 
 --- --- --- ... --- ... 
 . . . . 
 . . . . 
 . . . . 
 --- --- --- ... --- 1 
 --- --- --- ... --- 0 
 t seg t seg ... t seg 
 <------------------------> duração total T seg. 
�
 
Limitação na quantidade de informação: 
tempo para transmissão de um símbolo (aumentar velocidade) 
no de níveis diferentes possíveis (potência e ruído) 
no de intervalos n=T/t 
Teorema da contagem: 
p.p.p...p =pT/t sequências distintas possíveis 
�
 Se as sequências possíveis tem a mesma probabiliade de ocorrência 
(equiprováveis), uma sequência S arbitrária tem 
p(S)=1/ pT/t => I(S)=- log2 p(S)= . 
T maior tempo transmitindo 
 t símbolos mais rápidos I 
p mais opções no alfabeto de símbolos 
 
=Eis a razão por que se fala tanto hoje em redes de alta velocidade 
T
t
. log2 p
t ↓
�
 
Lidando com probabilidades... 
dificuldade em se lidar com valores extremos de probabilidades:
 p→0 e p →1
são consequências da evolução. 
Precisamos “entender/interpretar” apenas a faixa do meio, 
para uso eficiente da sobrevivência – seleção natural.
p →1 (evento certo, ignorar a incerteza)
p → 0 (o tal do “milagre"…)
http://www.de.ufpe.br/~hmo/alguns_grandes_numeros.pdf
http://www.de.ufpe.br/~hmo/alguns_grandes_numeros.pdf
�
número estimado de Homo sapiens que já viveram no planeta =100 billion=10^11  
 
 
(Wolframalpha: World population) 
�
 Pensemos em um evento que chamamos de raro:  
algo impar, fato que só aconteceu com um único homem na história 
da humanidade:
 P(raríssimo)=10-11.
 O que diachos seria um evento de probabilidade 10-60 ?  
As pessoas, com hábito de uso de calculadoras, escrevem coisas 
assim sem ter atenção ao significado... 
�
 
UMA CONVERSA SOBRE O NASCER DO SOL  
E SUAS IMPLICAÇÕES
Vamos examinar o conteúdo de informação dos eventos: 
 E ={o sol nascerá amanhã pela manhã} e  
 EC={o sol não nascerá amanhã} 
 Sabemos que o evento E é praticamente um evento certo, i.e. Pr(E) =1. 
Mas de fato, não se tem Pr(E)=1. 
�
Alguns ensaios: 
usemos este link http://www.de.ufpe.br/~hmo/alguns_grandes_numeros.pdf 
a) Digamos que P(E)=1-10-30
b) Digamos que P(E)=1-10-60 
c) Digamos que P(E)=1-10-120
Em cada caso, podemos usar a expansão de Taylor
como uma boa aproximação:
log(1-x) ≈-x e � 
I(E) ≈-log (1-10-30)/log(2)=1.4427*10-30≈10-30 Sh. 
De qualquer forma, I(E) ≈ 0 Sh como esperado.
log(1 + x) ≈ x −
x2
2
+
x3
3
−
x4
4
+ ⋯
http://www.de.ufpe.br/~hmo/alguns_grandes_numeros.pdf
�
Examinemos agora o evento complementar.  
A quantidade de informação associada ao evento EC  
seria aproximadamente:
 a) -log2(10-30) =1.4427*30*ln(10) = 100 Sh
 b) -log2(10-60) =1.4427*60*ln(10) = 200 Sh
 c) -log2(10-120) =1.4427*120*ln(10) = 400 Sh
 
A “surpresa" de o sol não nascer amanhã seria praticamente 
idêntica àquela de se jogar uma moeda 400 vezes (?) seguidas e 
observar "Ca" em todos os eventos!!
�
Qual o conteúdo de informação da seguintes 
mãos de Poker: 
~1.25 Sh
~4.4 Sh
~9.0 Sh
�
Poker probabilities(veja wolframalpha)
https://en.wikipedia.org/wiki/Poker_probability 
http://www.wolframalpha.com/input/?i=poker+probabilities 
https://en.wikipedia.org/wiki/Poker_probability
http://www.wolframalpha.com/input/?i=poker+probabilities
�
 
Jogadas raras... 
	 A informação associada à saída de um Royal flush é cerca de 
I(royal flush) = -log2(1/649740) ~19.3 Sh 
 Interpretar Shannons de informação associado a um evento equivalente de 
sequências de variável de Bernoulli X~Ber(0.5) Next slide... 
�
Mega sena 
Distribuição hipergeométrica X~Hiper(100,6,6) 
A probabilidade de se ganhar na mega sena com um único 
volante de 6 números é P(X=6)=0,00000008%
O conteúdo de informação associado a ganhar na mega sena 
com um único volante de 6 números é, portanto, cerca de 30 Sh.
Compare isso com efetuar 30 jogadas sucessivas de uma moeda 
honesta e obter 30 caras...
�
Dennis Gabor
 Gabor provou seu princípio de incerteza aplicando para sinais 
arbitrários a mesma técnica matemática usada na dedução de 
Heisenberg-Weyl do princípio da incerteza na mecânica 
quântica. 
 O PRINCÍPIO DA INCERTEZA DE SINAIS 
 Vale citar também uma formulação para o Princípio da Incerteza de 
Heisenberg (tempo × freqüência), desenvolvida por Gabor [1946].  
 Trata-se de uma relação entre a duração efetiva de um sinal e sua banda 
passante efetiva, obtida no contexto de sinais determinísticos. 
�
 
  
Seja f(t) um sinal de energia finita, não necessariamente real, possuindo 
transformada F(w). 
Definem-se os momentos temporais e freqüenciais pelas seguintes relações: 
 
Werner Heisenberg (1901-1976) Dennis Gabor (1900-1978)
�
Considere a seguinte analogia com a teoria das Probabilidades:
 O integrando |f(t)|2/E denotando uma densidade de energia no tempo, em 
que a energia E é um fator de normalização para que a integral da 
densidade seja unitária. 
 É usual se trabalhar com a densidade espectral de energia ψ(w)=|F(w)| " , 
cuja integral definida em dado intervalo de freqüências fornece a energia 
do sinal nesta faixa do espectro. 
2
�
 A duração (banda passante) efetiva de um sinal f(t) 
(F(w)) pode ser definida via:
 Duração rms 
 
 Banda rms
�
 Δt e Δf correspondem aos desvios padrões  
(raiz quadrada da variância), medidas clássicas de espalhamento. 
 Aplicando argumentos típicos da mecânica quântica, Gabor provou uma 
relação de incerteza do tipo:
 estabelecendo que t e f não podem ser simultaneamente definidos de 
forma exata. Os valores de Δt e Δf são freqüentemente referidos como 
largura de pulso equivalente e banda passante equivalente, 
respectivamente. 
Δt . Δf ≥ 1/2,
�
  
Claramente, α≤1 e β≤1. Sem perda de generalidade, pode-se 
considerar sinais de energia normalizada E=1. Então: 
 
 O princípio da incerteza estabelece que, fixada uma das duas 
quantidades α ou β, a outra deve ser mantida abaixo de certo valor 
máximo, dependendo do produto T.Ω. 
�
  
Fixado α, há um sinal para o qual um máximo β é obtido. Alterna-
tivamente, fixado β, a um sinal para o qual um máximo valor de α é 
atingido. Se o sinal é banda limitada em Ω, então β=1 e α<1. 
 Qual o maior valor de α, e para que função ele é atingido? 
 Em termos de otimização (f(t)↔F(w)), o problema é colocado sob a 
forma: 
 ⇔ 
�
 A resposta para sinais com limitação foi encontrada por Slepian e 
Pollack [SLE&POL 1961] e são as funções de onda prolate esferoidais. 
 Elas obedecem a equação integral (são as autofunções da transformação 
envolvendo a função " ): Sa( ⋅ )
�
Essas funções são relacionadas com soluções da equação diferencial:
 t∈ [-1,1]. 
 Considerando a possibilidade de atingir a cota inferior da 
desigualdade, a menor área de um retângulo (quantum de sinal) de 
informação seria
Δt . Δf = 1/2
�
 Gabor definiu este retângulo Δt.Δf no plano tempo-frequência de 
Fourier para ser um quantum básico da informação e chamou-o 
de um logon.
	 Assim, para medir a quantidade de informação associada a um 
sinal arbitrário, calcular-se-ia quantas unidades de logon vale a 
sua área no plano tempo × freqüência.
�
 
Viva a Gaussiana! 
O sinal contínuo que atinge esta cota (melhor preenchimento do 
plano t-f, mais compacto) é um pulso de formato gaussiano.
 Está em todas! 
● Vide teorema central do limite…
● Vide autofunções da transformada Fourier
● Vide capacidade de canal com ruído branco
�
Teoria da Informação é um ramo da matemática que trata de 
três conceitos básicos:
a) a medida de informação 
b) a capacidade de um canal de informação em transferir informação 
 (de um ponto ao outro) 
c) codificação como uma maneira de utilizar canais (e memórias) com 
 capacidade plena 
�
Reconhecimento do problema 
 Se a informação a ser transmitida é conhecida com exatidão e 
certeza pelo receptor, pode-se desligar o transmissor 
(desnecessário).
 Como o ruído (através da limitação em precisão) limita a 
capacidade de armazenamento ou transmissão?
 
�
Teoria Estatística da Comunicações 
 Anterior a 1940, poucos passos foram dados no 
sentido de construir uma Teoria das comunicações. 
(investigações telegráficas, Nyquist, Hartley). Após a 
II Guerra, Claude Shannon & Norbert Wiener 
estabeleceram os novos conceitos os quais continuam 
a ter impacto. “Juntas”, estas ideias estabeleceram a 
TEORIA MODERNA DAS COMUNICAÇÕES 
�
 
Apenas como uma referência (sem muito sentido), no Google Scholar,
um reprint do trabalho original de Shannons feita em 2001 (reprint of 1948 paper)
ACM SIGMOBILE Mobile Computing and Communications Review 5 (1), 3-55
tem mais de 100.000 citações...
Para enfatizar a relevância, vale lembrar da citação de Gergor Cantor:
In re mathematica ars proponendi questionem pluris facienda est quam solvendi 
(Na matemática, a arte de propor questões é mais relevante do que resolvê-las) 
�
ENTROPIA
	 	 
Fonte discreta de alfabeto " 
j=0 p0 I0=-log2 p0 
j=1 p1 I1=-log2 p1
... ... ...
j=J-1 pJ-1 IJ-1=-log2 pJ-1 
 
qual a informação média fornecida? (quanto?)
H(X) := − ∑
x∈χ
p(x)log2 p(x) .
j ∈ {0,1,2,⋯, J − 1}
�
 
X é v.a. discreta, X=j com probabilidade pj 
" 
 Esta é a quantidade de informação necessitada, em média, para 
remover totalmente a incerteza associada a X.
O nome entropia e o símbolo � foram emprestados da 
mecânica estatística.
𝔼{I(X = j)} =
J−1
∑
j=0
P(X = j)I(X = j) = −
J−1
∑
j=0
p( j)log2 p( j) .
H( ⋅ )
�
Entropia é uma invenção de físicos. 
Aparece na termodinâmica macroscópica como uma necessidade 
teórica: o segundo princípio da termodinâmica só expressa sua 
existência (Clausius 1854). Existe uma fórmula para sua variação 
durante algumas transformações, mas nenhuma expressão direta. 
A física estatística (Boltzmann) deu novas bases, microscópicas, à 
termodinâmica e, finalmente, fornece uma expressão analítica para 
a entropia de um sistema: é o logaritmo do número de possíveis 
configurações microscópicas para o sistema.
�
Quando Shannon derivou sua famosa fórmula para definir 
informação, ele perguntou a von Neumann como deveria ser 
chamada e von Neumann respondeu: 
"Você deve chamá-la de entropia por dois motivos: primeiro 
porque isso é a fórmula aparece em mecanização estatística, 
mas segundo e mais importante, como ninguém sabe o que é 
entropia, sempre que você usar o termo, você estará em 
vantagem!”
�
A Termodinâmica destina-se a explicar e desenvolver as máquinas 
térmicas, ponto central da Revolução Industrial. 
Nesse contexto, a entropia aparece com o intuito de distinguir 
processos reversíveis e irreversíveis, estando assim intimamente 
ligada com a questão da direção da chamada “seta do tempo”.
na última metade do SéculoXX ganharam importância a noção de 
taxa de criação de entropia em sistemas dinâmicos, bem como 
surgiu o conceito de entropia não-extensiva, devido a 
Constantino Tsallis (1943- ). 
�
A VIDA E A MORTE --- LIGAÇÃO COM A TERMODINÂMICA
1a lei da termodinâmica
a energia não pode ser criada nem destruída e a energia total em 
um sistema fechado permanece a mesma (o universo é fechado 
ou aberto?)
2a lei da termodinâmica
qualquer processo real só pode prosseguir na direção de um 
aumento da ENTROPIA.
�
As ideias de Boltzmann foram exploradas por Schrödinger, o qual 
notou que alguns sistemas, como a vida, parecem desafiar a 2a 
lei da termodinâmica.  
Um organismo permanece vivo no seu estado de organização ao 
“importar” energia de fora de si e ao degradá-la para sustentar 
sua estrutura organizacional.  
Ou como disse Schrödinger, a única maneira de um sistema vivo 
permanecer vivo, longe da entropia máxima ou da morte é
“retirando continuamente entropia negativa do seu ambiente… 
portanto, o estrategema que o roganismo usa para se manter 
estacionário (baixa entropia) consiste em continuamente “sugar” 
ordenação do seu ambiente (Schödinger, 1949)”
�
Considere o seguinte texto de Feynman:
“In fact, the science of thermodynamics began with an analysis, by 
the great engineer Sadi Carnot, of the problem of how to build the 
best and most efficient engine, and this constitutes one of the few 
famous cases in which engineering has contributed to fundamental 
physical theory. Another example that comes to mind is the more 
recent analysis of information theory by Claude Shannon. These two 
analyses, incidentally, turn out to be closely related”. 
Richard Feynman – Lectures on Physics 
�
Arrow of Time 
A Seta do Tempo (Arrow of Time) é um conceito desenvolvido em 1927 
pelo astrônomo britânico Arthur Eddington envolvendo a "direção 
unidirecional" ou "assimetria" do tempo. 
Isto está diretamente ligado à lei da termodinâmica e ao conceito de entropia.
information is not simply a physical property of a message: 
it is a property of the message and your knowledgement about it R. Feynman.
�
No lançamento de uma moeda honesta, associa-se automaticamente um 
conteúdo de informação de 1 Shannon. As coisas são mais sutis: veja o exemplo 
do lanámento de uma moeda honesta com entropia de Shannons. A 
esquerda, um resultado do tipo ‘coroa, quadrante II’, enquanto que a moeda do 
lado direito resulta ‘cara, quadrante I’.
 
log2 8 = 3
�
EXEMPLO
X1 j p(j) X2 j p(j)
0 1/8 0 1/4
1 1/8 1 1/4
2 1/8 2 1/4
3 1/8 3 1/8
4 1/8 4 1/32
5 1/8 5 1/32
6 1/8 6 1/32
7 1/8 7 1/32
�
Adiante veremos que H(X) nos fornece um limite inferior para o 
número médio de digitos binários necessários para codificar X  
(1o Teorema de Shannon).
A entropia é máxima para eventos equiprováveis.
�
Teorema. Dado um conjunto X de possíveis ocorrências, em que 
X assume valores no alfabeto � com 
distribuição de probabilidade � , tem-se :
� ,
em que a desigualdade à direita é satisfeita sss as ocorrências 
são equiprováveis e à esquerda sss � .
prova.
�
j ∈ {0,1,2,⋯, J − 1}
{p( j)}
0 ≤ H(X) ≤ log2 J
∃j0 |p( j0) = 1
H(X) = −
J−1
∑
j=0
p( j) . log2 p( j) .
�
a) como � , logo � e � 
Se existe j0 tal que p(j0)=1, então p(j)=0 (Kolmogorov) 
Logo � 
Avaliando-se: 
 " . 
Então H(X)=0 se j0 tal que p(j0)=1. 
∀j 0 ≤ p( j) ≤ 1 −log2 p( j) ≥ 0 H(X) ≥ 0.
∀j ≠ j0
H(X) = − 1. log2 1 − ∑
j≠j0
0. log2 0
lim
ϵ→0
− ϵ log2 ϵ = lim
ϵ→0
−
log2 ϵ
1/ϵ
= lim
ϵ→0
−
−1/ϵ
−1/ϵ2
= 0
�
b) Vamos usar a desigualdade fundamental da Teoria da Informação 
� 
inspeção gráfica 
ln x { < x − 1 x > 0, x ≠ 1= x − 1 x = 1.
�
inspeção analítica 
seja � . �
y’=0 em x=1(ponto crítico). Além disso, � máximo.
y := ln(x) − x + 1 dy
dx
=
1
x
− 1
d2y
dx2
= −
1
x2
≤ ⇒
�
vamos considerar apenas os valores de j estritamente positivos.
 
 De � , segue-se � . 
 Verificando que a igualdade é verdadeira somente quando os 
eventos são equiprováveis:
� 
 Para eventos equiprováveis, p(j)=1/J para todo j, donde H(X)-
log2J=0 Q.E.D.
H(X) − log2 J ≤ 0 H(X) ≤ log2 J
H(X) − log2 J =
J−1
∑
j=0
p( j) . log2
1
p( j)J
.
�
ENTROPIA DE VARIÁVEIS ALEATÓRIAS 
Denotemos por � o valor esperado. Assim, se X ∼ p(x), o valor 
esperado da variável aleatória g(X) é 
� ,
no caso particular em que g(X)=log 1/p(x), tem-se a entropia H(X).
Lema 1. �
prova. Como � então � .
logo �
𝔼
𝔼p g(X) = ∑
x∈χ
g(x)p(x)
H(X) ≥ 0.
0 ≤ p(x) ≤ 1 log
1
p(x)
≥ 0
H(X) ≥ 0.
�
Lema 2. �
prova. mudança de base. �
Entropia binária. Bernoulli.
a entropia de X vale:
 " 
Hb(X) = (logb a)Ha(X) .
Hb(X) = (logb a)loga p .
H(X ) = − p . log p − (1 − p) . log(1 − p) := H2(p)
�
 
Exemplo.
 
�
Entropia de uma fonte: uma introdução informal
Sejam saídas independentes de uma fonte (eventos) � 
{podem ser amostras aleatórias de uma v.a. X}
definidas com símbolos sobre um alfabeto finito, � com 
cardinalidade � . Qual a probabilidade de uma sequência típica? Entenda-se 
por sequência típica TODAS as sequências possíveis, excetuando-se uma 
fração de medida nula, i.e., que tem probabilidade que tende a se anular 
quando � .
X := (X1, X2, ⋯, Xn)
𝔸 = {a1, a2, ⋯, aK}
K
n → ∞
�
Considerando uma distribuição � sobre os símbolos (independentes) da 
fonte, � .
Ora, � prob. de uma sequência
� sendo � a frequência relativa de aparecimento do 
símbolo � na sequência � .
Pela Lei dos Grandes Números, para � suficientemente grande
�
{pk}Kk=1
P(ak) = pk, ∀k
P( X) = P(X1) . P(X2) . P(X3)⋯P(Xn)
P( X) =
K
∏
k=1
P(ak)Nk, Nk
ak X := (X1, X2, ⋯, Xn)
n
p lim
n→∞
Nk = n . P(ak) = n . pk
�
Na maioria das sequências (na maioria das amostras), com � grande
� e chega-se a
� em que definiu-se a entropia da fonte � como
�
Veremos a seguir que (AES) há assintoticamente � sequências 
típicas que são praticamente equiprováveis...
n
P( X) =
K
∏
k=1
P(ak)nP(ak) = (
K
∏
k=1
ppkk )
n
p lim
n→∞
P( X) ≈ 2−nH𝔸 H𝔸
H𝔸 := −
K
∑
k=1
p(ak)log2 P(ak) = −
K
∑
k=1
pk log2 pk
Mn ≈ 2nH𝔸
�
Exemplo: entropia de fotos
entropias 7.62 Sh/pix 7.48 Sh/pix 6.92 Sh/pix 3.35 Sh/pix 1.39 Sh/pix 
 ++sal e pimenta +ruído 256 níveis 16 níveis 4 níveis
O. Le Meur, Université of Rennes
�
Entropia conjunta e Entropia condicional
Definição. (entropia conjunta de duas v.a’s)
" 
então
" 
H(X, Y ) := − 𝔼 log p(X, Y ) .
H(X, Y ) = − ∑
x∈χ
∑
y∈Υ
p(x, y)log p(x, y) .
�
Definição. (entropia condicional entre v.a’s).
Se �  
" 
" 
(X, Y ) ∼ p(X, Y ),
H(Y |X ) = ∑
x∈χ
p(x)H(Y |X = x) = − ∑
x∈χ
∑
y∈Υ
p(x, y)log p(y |x)
H(Y |X) = − 𝔼 log p(Y |X) .
�
Teorema (regra da cadeia)
�
prova.
� 
logo
� 
e a prova segue.
H(X, Y ) = H(X) + H(Y |X) .
H(X, Y ) = − ∑
x∈χ
∑
y∈Υ
p(x, y) . log p(x, y) = − ∑
x∈χ
∑
y∈Υ
p(x, y) . log p(x)p(y |x)
H(X, Y ) = − ∑
x∈χ
∑
y∈Υ
p(x, y) . log p(x) − ∑
x∈χ
∑
y∈Υ
p(x, y) . log p(y |x)
�
corolário.
" 
Nota (assimetria).
	 �  
	 		 	 	 	 	 � 
H(X, Y |Z ) = H(X |Z ) + H(Y |X, Z ) .
H(X |Y ) ≠ H(Y |X )
H(X ) − H(X |Y ) = H(Y ) − H(Y |X ) .
�
Entropia relativa
A entropia relativa é uma medida de distância entre duas 
distribuições de probabilidade.
(em estatística, aparece como o valor esperado do log da razão 
de verossimilhança)
 
 Se sabemos que a “verdadeira" distribuição de probabilidade é p, 
mas usamos uma outra distribuição q (por exemplo, distribuição 
aproximada), será necessário, em média, H(p)+D(p||q) Sh para 
descrever a variável aleatória.
�
Definição. A entropia relativa (ou distância de Kullback-Leibler, 
denotada por D(p||q) ou H(p||q)) entre duas distribuições 
discretas de probabilidade p(x) e q(x) é definida por 
 " 
 nota: por convenção, aqui 0.log(0/0)=0.
Observação: em geral
 " . 
D(p ∥ q) := ∑
x∈χ
p(x) . log
p(x)
q(x)
.
D(q ∥ p) ≠ D(p∥ q)
�
Axiomas de Kinchine para entropia
Aleksandr Khinchin, Matemático russo
A definição de entropia pode ser decorrente de uma série de 
axiomas, como proposto por Kinchine (lembre-se do teorema de 
Wiener-Kinchine para avaliar a importância do autor...).
�
AX1. Para � fixo e uma distribuição discreta de probabilidades 
� , a função � é máxima no caso equiprovável, 
i.e, para � .
AX2. �
AX3. �  
 
(ao se juntar um evento de probabilidade nula, a entropia não se 
altera).
n
{pi}n1 H(p1, p2, ⋯, pn)
pi = 1/n, ∀n
H(X, Y ) = H(X) + H(Y |X)
H(p1, p2, ⋯, pn,0) = H(p1, p2, ⋯, pn)
�
Consequências.
Proposição. A única função � contínua com relação 
a cada das variáveis que satisfaz AX1...AX3 é da forma:
� .
Isto "justifica" a definição de entropia de Shannon.
H(p1, p2, ⋯, pn)
H(p1, p2, ⋯, pn) =
n
∑
i=1
pi log
1
pi
�
 
Prova.
Seja � De AX1 e AX3, 
�
Logo � .
Se � são v.a.’s independentes associadas a r 
eventos equiprováveis, AX2 implica em
� .
l(n) := H(1/n,1/n, ⋯,1/n) .
l(n) = H(1/n,1/n, ⋯,1/n,0) ≤ H(
1
n + 1
,
1
n + 1
, ⋯,
1
n + 1
= l(n + 1)
{l(n)} ↓
{X1, X2, ⋯, Xm}
H(X1, X2, ⋯, Xm) = m . l(r)
�
Mas se definimos � uma v.a. com � eventos elementares que são 
o produto cartesiano dos espaços amostrais, então
� .
� . 
Em particular, escolhendo-se � chega-se a:
� .
Y rm
l(rm) = m . l(r)
(∀s, n), l(sn) = n . l(s)
rm ≤ sn < rm+1
m
n
≤
log(s)
log(r)
<
m
n
+
1
n
�
A função � é monotona não-decrescente, e 
� , ou seja
� e isso significa que 
 �
l( . )
m . l(r) ≤ n . l(s) ≤ (m + 1) . l(r)
m
n
≤
l(s)
l(r)
<
m
n
+
1
n
l(s)
l(r)
−
log(s)
log(r)
≤
1
n
�
Para � arbitrariamente grande � e
� sendo � , pois � é decrescente.
Agora considere � discreta, associada a � ,
probabilidades racionais, � . 
n
l(s)
l(r)
−
log(s)
log(r)
= 0
l(s) = λ log(s) λ > 0 l(s)
X pk =
gk
g
∀k = 1,2,⋯, n
∀k com gk ∈ ℕ
�
Claro que � . Seja � uma v.a. discreta que depende de � , 
contendo � grupos.
� e � .
Do AX2, 
� .
Válida para � racionais e por extensão, usando a 
continuidade, para qualquer � .
g =
n
∑
k=1
gk Y X
g
H(Y |X = ak) = − log gk H(Y |X) =
n
∑
k=1
pk log gk
H(X, Y ) = log g = H(X) + H(Y |X) ⇒ H(X) = −
n
∑
k=1
pk log pk
pk = gk /g
pk
�
Definição (informação mútua entre v.a.’s). I(X;Y)
A informação mútua é a entropia relativa entre a distribuição 
conjunta p(X,Y) e a distribuição produto p(X).p(Y) (caso de 
independência) 
	 		 	 	 	 � 
 
Observação: �
I(X; Y ) := ∑
x∈χ
∑
y∈Υ
p(x, y) . log
p(X, Y )
p(X)p(Y )
.
I(X; Y ) = I(Y; X) .
�
 
Relações entre entropia e informação mútua:
mostre que
" . 
" . 
Finalmente, mostremos que 
" 
I(X; Y ) = H(X ) − H(X |Y )
I(X; Y ) = H(Y ) − H(Y |X )
I(X; Y ) = H(X ) + H(Y ) − H(X, Y ) .
�
Analise também o caso de informação mútua de X com X 
(autoinformação I(X,X)). Temos o seguinte resumo:
 
�
EXEMPLO
Consideremos um baralho tradicional com 52 cartas. 
Seja X ∈ {1 ,. . . , 10, J, Q, K} × {♥, ♦, ♠, ♣} 
X é o vetor aleatório do par (valor da carta, naipe) de uma carta retirada aleatoriamente 
Seja Y ∈ {♥, ♦, ♠, ♣} 
Y é a variável aleatória "ensina" qual carta Jogada. 
Se a lei sobre X for uma lei uniforme, então 
� Sha.I(X; Y ) = H(Y ) = log2 4 = 2
�
Informação Mútua entre variáveis conjuntamente Gaussianas 
Considere � duas variáveis aleatórias conjuntamente gaussianas.
X, Y
�
� 
Mostra-se que
	 	 	 	 	 � ,
em que � é o coeficiente de correlação de Pearson.
I(X1; X2) = ∫
+∞
−∞ ∫
+∞
−∞
fX1,X2(x1, x2)log2
fX1,X2(x1, x2)
fX1(x1) . fX2(x2)
dx1dx2
I(X1; X2) = −
1
2
log2(1 − ρ2)
ρ
�
Teorema (relações entre informação mútua e entropia)
 
�
 
Regras da cadeia 
• Regra da cadeia para entropia 
• Regra da cadeia para entropia relativa 
• Regra da cadeia para informação mútua 
�
 
 Teorema (regra da cadeia para a entropia)
 Sejam X1,X2,...Xn variáveis com distribuição conjunta 
p(X1,X2,...Xn). 
 " . 
 prova. 
i) para duas variáveis:
�
H(X1, X2, ⋯, Xn) =
n
∑
i=1
H(Xi |Xi−1, ⋯, X1)
H(X1, X2) = H(X1) + H(X2 |X1),
�
ii) para três variáveis:
 
�
então:
" 
passando ao caso n variáveis:
" . 
Q.E.D. 
H(X1, X2, X3) = H(X1) + H(X2, X3 |X1),
H(X1, X2, X3) = H(X1) + H(X2, X3 |X1) = H(X1) + H(X2 |X1) + H(X3 |X2, X1),
H(X1, X2, ⋯, Xn) = H(X1) + H(X2 |X1) + H(X3 |X2, X1) + ⋯ + H(Xn |Xn−1, ⋯, X1)
�
Definição (informação mútua condicional).
A informação mútua entre duas variáveis X e Y condicionada a Z é
�
então 
Teorema (regra da cadeia para a informação)
 
�
I(X; Y |Z ) := H(X |Z ) − H(X |Y, Z )
I(X1, X2, ⋯, Xn; Y ) = ∑
i=1
I(Xi; Y |Xi−1, Xi−2, ⋯, X1) .
�
prova.
" 
e, portanto, 
" 
Q.E.D.
I(X1, X2, ⋯, Xn; Y ) = H(X1, X2, ⋯, Xn) − H(X1, X2, ⋯, Xn |Y )
I(X1, X2, ⋯, Xn; Y ) =
n
∑
i=1
H(Xi |Xi−1, Xi−2, ⋯, X1) −
n
∑
i=1
H(Xi |Xi−1, Xi−2, ⋯, X1 |Y )
�
conceito de entropia de um processo estocástico
Seja � um processo estocástico estacionário.
A entropia do processo é
�
resultando em
� .
X := {Xn}∞n=1
H(X) := lim
n→∞
H(Xn |Xn−1, Xn−2, ⋯, X2, X1)
H(X) = lim
n→∞
H(X1, X2, ⋯, Xn−1, Xn)
n
�
 
convexidade �
 seja uma énupla no espaço vetorial euclidiano " : 
� .
�
�
�
 
Definição. Uma região convexa � é dita ser convexa, se 
dados dois pontos quaisquer � e dado um número real 
� , então
�
∪ & ∩
ℝn
(x1, x2, ⋯, xn)
∀ x, y ∈ ℝn, ∀c ∈ ℝ
x + y := (x1 + y1, x2 + y2, ⋯, xn + yn)
c . x := (cx1, cx2, ⋯, cxn) .
S ⊂ ℝn
α, β ∈ S
0 ≤ θ ≤ 1
θα + (1 − θ)β ∈ S .
�
 
interpretação
S é convexa se a reta que une quaisquer pontos interiores de S, 
tem todos os seus pontos também pertencentes a S.
exemplo:
o conjunto � de vetores de probabilidade no � é uma região 
convexa.
ℙ ℝn
�
� e � com
� �
verificação.
veremos se � é também um vetor de 
probabilidades para todo e qualquer � , �
Ora, � , logo � e
� .
α = (α1, α2, ⋯, αn) β = (β1, β2, ⋯, βn)
n
∑
i=1
αi = 1, αi ≥ 0 ∀i = 1,n .
n
∑
i=1
βi = 1, βi ≥ 0 ∀i = 1,n .
γ := θα + (1 − θ)β
θ 0 ≤ θ ≤ 1.
γk = θαk + (1 − θ)βk γk ≥ 0 ∀k = 1,n
n
∑
k=1
γk = θ
n
∑
k=1
αk + (1 − θ)
n
∑
k=1
βk = 1
�
Desigualdade de Jensen & suas consequências
 seja f uma função de valores reais definida em uma região 
convexa do espaço euclidiano.
Definição.  
Uma função f(x) é dita ser convexa � no intervalo (a,b) se para 
cada � e � , tem-se
 " . 
 ela é dita estritamente convexa se a igualdade só é atingida nos 
valores extremos de � .
∩
x1, x2 ∈ (a, b) 0 ≤ λ ≤ 1
f(λx1 + (1 − λ)x2) ≤ λf(x1) + (1 − λ)f(x2)
λ
�
�
 
Propriedades da funções convexas �
P1- sejam � funções convexas definidas numa região S.
Sejam � constantes reais positivas. Então a 
combinação linear de funções � também é uma função 
convexa em S.
prova.
� 
�
∩
f1, f2, ⋯, fl
c1, c2, ⋯, cl
l
∑
i=1
ci fi
α, β ∈ S,  com f convexa .
θf(α) + (1 − θ)f(β) ≤ f(θα + (1 − θ)β) .
�
Se � , dados � , 
provar que � é convexa, i.e.
�
Ora 
�
multiplicando por � constante positiva
 �
h(α) :=
l
∑
i=1
ci fi(α) ∀α ∈ S α, β,  e 0 ≤ θ ≤ 1
h( ⋅ )
θh(α) + (1 − θ)h(β) ≤ h(θα + (1 − θ)β) .
θfi(α) + (1 − θ)fi(β) ≤ fi(θα + (1 − θ)β)∀i = 1,l
ci
θci fi(α) + (1 − θ)ci fi(β) ≤ ci fi(θα + (1 − θ)β)
�
escrevendo as desigualdades para i=1,l e somando-se membro a 
membro...
� 
Q.E.D.
P2- Se f for uma função convexa � definida em um intervalo da reta 
real, então 
� (f admite um máximo).
θ
l
∑
i=1
ci fi(α) + (1 − θ)
l
∑
i=1
ci fi(β) ≤
l
∑
i=1
ci fi(θα + (1 − θ)β)
∩
∂2f
∂x2
≤ 0 ∀x ∈ I
�
Aplicação
Seja X uma v.a. discreta com entropia �
Note que � é uma combinação linear de funções 
� com coeficientes reais positivos.
Examinando: � � 
�
H(X) = −
K−1
∑
k=0
pk log2 pk .
H( ⋅ )
h(pk) := − pk log2 pk
h(pk) := − pk log2 pk ⇒
∂h(pk)
∂pk
= −
∂
∂pk
pk . ln pk
ln 2
�
donde �
como � , usando � , � ou seja, 
� é � Q.E.D.
∂2h(pk)
∂p2k
= −
1
ln 2
.
∂
∂pk
{1 + ln pk} = − 1ln 2 .
1
pk
0 ≤ pk ≤ 1 pk ≠ 0
∂2h
∂p2k
≤ 0,
H(X) =
K−1
∑
k=0
h(pk) ∩
�
Teorema. se uma funçãotem segunda derivada que é não-
negativa (positiva) no intervalo, então a função é convexa 
(estritamente convexa).
prova. Usando a expansão de Taylor em torno de um ponto 
interno do intervalo 
�
sendo x* entre x0 e x.
f(x) = f(x0) + f′�(x0)(x − x0) +
f′�′�(x*)
2
(x − x0)2,
�
Por hipótese, f’’(x0)>0 e assim o último termo é não negativo para 
qualquer valor de x no intervalo.
Seja �
 e avaliando a expressão no ponto x=x1, e em x=x2  
" 
" 
 combinando as duas expressões (eq1� e eq2 � ), o 
resultado segue. Q.E.D. 
x0 = λx1 + (1 − λ)x2
f(x1) ≥ f(x0) + f′ �(x0)(1 − λ(x1 − x2)) .
f(x2) ≥ f(x0) + f′ �(x0)(λ(x1 − x2)) .
* λ * (1 − λ)
�
 Teorema (Desiguladade de Jensen).  
Se f é uma função convexa e X é uma variável aleatória, então
� .
OBS. se a função for estritamente convexa, então
� com probabilidade 1.
prova.
por indução. Para distribuição com valores não nulos em apenas 
2 pontos, � .
𝔼f(X) ≥ f(𝔼X)
𝔼f(X) > f(𝔼X)
p1 f(x1) + p2 f(x2) ≥ f(p1x1 + p2x2)
�
 
Suponha que o teorema é verdadeiro para k-1 pontos de massa 
na distribuição. Vamos mostrar que também será para k pontos. 
 
 
 
em que 
Q.E.D.
�
Teorema (desigualdade de informação). 
Sejam p(x), q(x) duas distribuições discretas de probabilidade.
 Então: � com igualdade iff � . 
 prova. 
Seja � o suporte de p(x). Então:
 "  
 e portanto, via desigualdade de Jensen: 
�  
(a condição sss deve ser verificada...)	 	 Q.E.D. 
D(p ∥ q) ≥ 0 p(x) = q(x)∀x
A := {x |p(x) > 0}
−D(p ∥ q) = − ∑
x∈A
p(x)log
p(x)
q(x)
∑
x∈A
p(x)log
q(x)
p(x)
≤ log∑
x∈A
p(x) .
q(x)
p(x)
≤ log∑
x∈A
q(x) = log 1 = 0
�
 
Corolário (não-negatividade da informação mútua).
Para quaisquer duas variáveis aleatórias X e Y,
� ,
com igualdade sss X e Y são independentes.
prova.
� , com igualdade apenas quando 
p(x,y)=p(x).p(y).
corolário. � ,
com igualdade sss as v.a.’s X e Y são condicionalmente independentes 
de Z.
I(X; Y ) ≥ 0
I(X; Y ) = D(p(x, y) | |p(x) . p(y)) ≥ 0
I(X; Y |Z) ≥ 0
�
 
Teorema (já provado; uma prova alternativa). A entropia de uma 
v.a. X é máxima para variável uniformemente distribuída,
� .
prova.
seja � a distribuição uniforme e p(x) outra arbitrária.
�  
Claro que D é não-negativa, donde o resultado.
� . Q.E.D.
H(X) ≤ log | χ |
u(x) :=
1
| χ |
D(u | |p) = ∑ p(x)log
p(x)
u(x)
= log | χ | − H(X ) .
0 ≤ D(p ∥ u) = log | χ | − H(X)
�
 
Teorema (informação não machuca ninguém). 
 � , com igualdade sss X e Y são independentes.
prova.
Decorre de � Q.E.D.
Teorema (cota da entropia por independência).
�
com igualdade sss todos os Xi's são mutuamente independentes.
H(X |Y ) ≤ H(X)
0 ≤ I(X; Y ) = H(X) − H(X |Y )
H(X1, X2, ⋯, Xn) ≤
n
∑
i=1
H(Xi)
�
prova.
�
com igualdade atingida na independência. Q.E.D.
H(X1, X2, ⋯, Xn) =
n
∑
i=1
H(Xi |Xi−1, ⋯, X1) ≤
n
∑
i=1
H(Xi)
�
DESIGUALDADE DE PROCESSAMENTO DE DADOS
X, Y e Z formam um cadeia markoviana nesta ordem 
( � ) se a distribuição condicional de Z depende apenas 
de Y e é independente condicionalmente em X.
Definição. Cascata markoviana
Conjunto de v.a.’s X,Y, Z com H(Z|X,Y)=H(Z|Y).
A incerteza sobre Z conhecida apenas Y em nada altera pelo 
conhecimento suplementar de X, pois que Z só depende de (X,Y) 
por intermédio de Y.
X → Y → Z
�
Proposição. �
A igualdade (cascata markoviana) ocorre sss
� com �
 
Prova. 
�
 = �
isto pode ser escrito como:
H(Z |X, Y ) ≤ H(Z |Y ) .
P(Z |X, Y ) = P(Z |Y ), ∀x, y, z p(x, y, z) ≠ 0.
H(Z |X, Y ) − H(Z |Y ) = 𝔼 {−log P(Z |X, Y ) + log P(Z |Y )}
∑
x
∑
y
∑
z
P(x, y, z) log
P(Z |Y )
P(Z |X, Y )
.
�
=�
o somatório em z é uma entropia relativa � , logo não 
negativa.
Então � Q.E.D.
Corolário. Uma condição necessária e suficiente para que X,Y,Z 
forme uma cadeia markoviana é que I(X,Z |Y)=0.
∑
x
∑
y
P(x, y)∑
z
P(Z |X, Y ) . log
P(Z |Y )
P(Z |X, Y )
.
D( ⋅ )
H(Z |X, Y ) − H(Z |Y ) ≥ 0
�
O seguinte teorema (des igualdade fundamenta l de 
processamento de dados) prova que nenhum procedimento 
sobre Y, de natureza determinística ou aleatória, pode 
aumentar a informação que Y contém sobre X.
Teorema. Se � , então � .
prova:
Pela regra da cadeia, �
e também �
Como X e Z são condicionalmente independentes dado Y, 
�  
X → Y → Z I(X; Y ) ≥ I(X; Z)
I(X; Y, Z) = I(X; Z) + I(X; Y |Z)
I(X; Y, Z) = I(X; Y ) + I(X; Z |Y ) .
I(X; Z |Y ) = 0.
�
Lembrando a não-negatividade � temos:
� 
Igualdade sss � Q.E.D.
Corolário. Se Z=g(Y), tem-se � 
I(X; Y |Z) ≥ 0,
I(X; Y ) ≥ I(X; Z)
I(X; Y |Z) = 0.
I(X; Y ) ≥ I(X; g(Y ))
�
Algumas outras definições de entropia em TI
entropia de Rényi
Alfréd Rényi, matemático húngaro 
"Um matemático é um dispositivo que transforma café em teoremas.",
A entropia de Rényi de ordem , é definida como
 com ≥0 e ≠1
α
Hα(X ) :=
1
1 − α
log (
n
∑
i=1
pαi ) α α
�
entropia binária de Rényi (compare com a entropia H2)
�
casos limites
.
 (entropia de Shannon)
 (min-entropy)
lim
α→0
Hα(X ) = H0(X ) = max-entropy(X ) = log2 ∥ X ∥
lim
α→1
Hα(X ) = H(X )
lim
α→∞
Hα(X ) = H∞(X ) = min
i
(−log2 pi)
�
Examinemos a aproximação para a entropia de Shannon.
.
Seja . 
Logo . Mas e 
podemos usar o desenvolvimento em série de Taylor:
Hα(X) :=
1
1 − α
log (
n
∑
i=1
pαi )
α = 1 − ϵ
Hα(X) :=
1
ϵ
log2 (
n
∑
i=1
p1−ϵi ) p1−ϵi = pip−ϵi
p−ϵi = exp[−ϵ ln(pi)] = 1 − ϵ ln(pi) + O(ϵ
2) .
�
Tem-se então
.
Separando os termos
, donde
n
∑
i=1
p1−ϵi = ∑
i
pi [1 − ϵ ln(pi) + O(ϵ2)]
n
∑
i=1
p1−ϵi = 1 − ϵ∑
i
pi [ln(pi) + O(ϵ)]
log2 (
n
∑
i=1
p1−ϵi ) = 1ln 2 ln{1 − ϵ∑i pi[ln(pi) − O(ϵ)]}
�
ou, finalmente,
.
Dividindo por e passando ao limite,
.
Q.E.D.
log2 (
n
∑
i=1
p1−ϵi ) = − ϵ 1ln 2 ∑i pi ln(pi) + O(ϵ
2)
ϵ
lim
α→1
Hα(X) = −
1
ln 2 ∑
i
pi ln(pi) = ∑
i
pi log(pi) = H(X)
�
entropia de von Neumann
János Neumann, gênio Húngaro-Americano
� ,
definida em mecânica quântica! 
� é a matriz de densidade e � denota o traço da matriz
S := − tr (ρ ln ρ)
ρ tr( ⋅ )
�
entropia de Tsallis (1988)
Constantino Tsallis, matemático grego 
 
� .
q real, chamado de índice entrópico.
No limite � , transforma-se na entropia de Boltzmann.
Sq(pi) :=
k
q − 1 (1 − ∑i p
q
i )
q → 1
�
A Entropia diferencial de Shannon
Shannon também lidou com o caso contínuo, propondo a 
definição de entropia diferencial
abordagem heurística: X, com densidade de probabilidade �
Separação com uma partição.
�
fX(x)
H([X]π) = −
+∞
∑
j=−∞
fX(xj)Δxj . log2[ fX(xj)Δxj]
�
�
no limite de refinamento da partição:
� .
o 2o termo diverge e não tem sentido físico.
= −
+∞
∑
j=−∞
fX(xj) . log2[ fX(xj)] +
+∞
∑
j=−∞
fX(xj) . log2[
1
Δxj
] . Δxj
H(X) = − ∫
+∞
−∞
fX(x) log2 fX(x)dx + ∫
+∞
−∞
fX(x) log2{
1
dx
}dx
�
Definição. A entropia diferencial de Shannon de uma variável 
aleatória X contínua com densidade de probabilidade � é
� .
Notas:
a) não é invariante a uma transformação afim
b) pode resultar em quantidade negativas (valores negativos)
fX(x)
H(X) := − ∫
+∞
−∞
fX(x) log2 fX(x)dx = 𝔼 − log fX(x)
�
Generalizando: Definir uma informação mútua no caso contínuo:
� .
Modernamente, esta definição é estabelecida através da derivada 
de Radon-Nikodym:
� .
****************************************************************************
I(X; Y ) := − ∫
+∞
−∞ ∫
+∞
−∞
fX,Y(x, y) log2
fX,Y(x, y)
fX(x) . fY(y)
dxdy
H(X) := 𝔼 − log ( dμXdμ )
�
uma tentativa de redefinição da entropia no caso contínuo
Uma proposta para entropia de "de oliveira” (tentativa)
�
a ideia não é particionar o intervalo � da abscissas, 
como na integral de Riemann, mas sim as ordenadas, como 
ocorre na integral de Lebesgue. O que interessa são os pontos 
em que � assume valores maiores que a unidade, sendo 
associados a um conteúdo de informação “negativo”.
Note que há um isomorfismo (one-to-one) entre os intervalos:
� via o mapeamento � . 
HdeO(X) := − ∫{x|fX(x)≤1} fX(x) log2 fX(x)dx− ∫{x|fX(x)>1}
1
fX(?)
log2
1
fX(?)
d ( 1x )
(−∞, + ∞)
fX(x)
[0,1], (1, + ∞) ⊂ ℝ+
1
x
← x
�
Estatística Suficiente
a desigualdade de processamento de dados em TI está ligada ao 
conceito de estatística suficiente.
Seja � uma família de distribuições discretas indexada por 
um parâmetro � . Seja X uma amostra desta família.
Seja T(X) uma estatística. Então: � donde
� .
Se a igualdade é atingida, nenhuma informação é perdida.
{fθ(x)}
θ
θ → X → T(X),
I(θ; T(X)) ≤ I(θ; X)
�
Definição. Uma estatística T(X) é dita ser uma estatística 
suficiente relativa à família � se X é independente de � 
dado T(X) para qualquer distribuição sobre � .
� forma uma cascata markoviana.
Estatística suficiente preserva a informação mútua...
Aqui segue também o conceito de estatística suficiente mínima ...  
(não apresentado, vide livro texto)
{fθ(x)} θ
θ
θ → T(X) → X
�
 
Aproximação de coeficientes binomiais
Para � , tomando a fração � ,
� em que
�
Pode ser usada a cota
�
0 < k < n q := k /n
2nH2(q)
n + 1
≤ (nk) ≤ 2nH2(q)
H2(q) := − q log2 q − (1 − q)log2(1 − q)
( nλn) ≈ 2nH2(λ)[1−ϵ(n)]
�
 
Fórmula de Stirling e entropia de Shannon 
 
A distribuição de Poisson é totalmente caracterizada pelo parâmetro � (que é 
igual a sua média e sua variância): � 
λ
P(N ) =
λN
N!
e−λ
�
Para N suficientemente grande, esta distribuição tende para uma normal de 
mesma média e variância (ver figura para � =15). 
Podemos então escrever � para N perto da 
média � . Em particular para N=� , obtém-se: � , ou seja, a 
fórmula de Stirling � .
Ainda para N suficientemente grande, tomando-se o logaritmo, deriva-se:
 
� .
� 
λ
λN
N!
e−λ ≈
1
2πλ
exp (− −(N − λ)
2
2λ )
λ λ
NN
N!
e−N ≈
1
2πN
N! ≈ NN exp (−N ) 2πN
log2(N!) = N log2 N − N + 0.5 log2(2Nπ) ≈ N . log2 N − N
log2(N!) ≈ N . log2 N
�
Modelos para Fontes de Texto
1. Alfabetos
	 conjunto de letras maiúsculas A,B,C,D,E,...,X,Y,Z
	 
	 conjunto de letras e numerais	A,B,C,D,...,Y,Z,0,1,2,...9
	 conjunto de maiúsculas, minúsculas, espaço, pontuação
	 conjunto A,T,C,G
	 conjunto de palavras do 
	 	 	 	 	 Grande dicionário Houaiss 270.000 verbetes
	 ...
�
n-gramas 
� � 
� 		 	 � 
� 
digramas 		 	
� 
trigramas
� 
...
A = {a1, a2, a3, ⋯, am−1} ∥ A ∥= m
ℤm := {0,1,2,⋯, m − 1} ∥ ℤm ∥= m
A ↔ ℤm
A2 = A × A = {a0a0, a0a1, ⋯, a0am−1, ⋯, am−1am−1}
A3 = A × A × A = {a0a0a0, a0a0a1, ⋯, a0a0am−1, ⋯, am−1am−1am−1}
�
mensagens (textos) são n-gramas sobre � � 
A saída da fonte é modelada via um processo estocástico discreto, 
uma sequência de v.a’s contendo elementos de 
� ou � 
Sobre os n-gramas:
1) normalização � 
2) consistência de Kolmogorov, � 
	
� 
ℤm ⇔ ℤnm
s ∈ {A, A2, A3, A4, ⋯} s ∈ ⋃
k=1
Ak
∑
xn∈ℤm
P (x0, x1, ⋯, xn−1) = 1
s > n
∑
xn∈ℤm
P (x0, x1, ⋯, xn−1) = ∑
xn,xn+1,⋯,xs−1
P (x0, x1, ⋯, xn−1, xn, xn+1, ⋯, xs−1)
�
exemplo. 
3-grama BIO sobre � 
5-grama BIO** sobre � 	 	 � 
MODELO 1: texto de ordem-0 (unigramas)
uniforme em � , � .
Em , A={A,B,C,...,Z,_} 
ℤ3m
ℤ5m
262
∑
k = 1
* *
P(BIO * * ) = P(BIO)
ℤm P(ai) =
1
m
ai ∈ ℤm
ℤ27 P(ai) =
1
27
ai ∈ ℤ27
�
MODELO 2: texto de ordem-1 (unigramas independentes)
Em � , A={A,B,C,...,Z,_}
 � 
� 
ℤ27
P(ai) = freq. relativa ocorrência de ai, ai ∈ ℤ27
P (x0, x1, ⋯, xn−1) =
n−1
∏
k=0
P(xk)
�
	 
Digramas 
	 	 	 	 	 P(QU)=P(Q).P(U)=0.007 x 0.030 =2.1 10-4
	 	 	 	 	 P(QR)=P(Q).P(R)=0.007 x 0.053 =3.7 10-4
MODELO 3: texto de ordem-2 (digramas independentes)
� 
	 	 	 	 	 � 
	 	 	 	 	 � 
P (x0, x1, . . . , x2n−1) = P(x0, x1) . P(x2, x3) . ⋯ . P(x2n−2, x2n−1)
P(s, t) ≥ 0 0 ≤ s, t ≤ m
∑
s
∑
t
P(s, t) = 1
�
Digramas 
	 	 	 	 	 P(QU)= 0.0072 
	 	 	 	 	 P(QR)= 0.0000
MODELO 4: fonte markoviana (modelo com memória)
cadeia de Markov com matriz de probabilidades de transição
� 
Para cadeia ergódica, a distribuição estacionária de equilíbrio:
	 	 	 	 	 	 � 
{P(s | t)} 0 ≤ t, s < m
π = {π0, π1, ⋯, πm−1}
�
Distribuição de equilíbrio segue da matriz de transição
� 
� 
...
� 
ou � .
π0 = π0P(0 |0) + π1P(0 |1) + π2P(0 |2) + ⋯ + πm−1P(0 |m − 1)
π1 = π0P(1 |0) + π1P(1 |1) + π2P(1 |2) + ⋯ + πm−1P(1 |m − 1)
πm−1 = π0P(m − 1 |0) + π1P(m − 1 |1) + π2P(m − 1 |2) + ⋯ + πm−1P(m − 1 |m − 1)
π = π[P]
�
� 
Simulando:
	 	 1) abra texto de referência em página aleatória
	 	 	 1o caractere é x1
	 	 2) abra texto de referência em página aleatória
	 	 	 procure x1; o próximo caractere é x2
	 	 3) abra texto de referência em página aleatória
	 	 	 procure x2; o próximo caractere é x3
	 	 ...
P =
P(A |A) P(B |A) ⋯ P(Z |A) P(_ |A)
P(A |B) P(B |B) ⋯ P(Z |B) P(_ |B)
⋯ ⋯ ⋯
P(A |Z) P(B |Z) ⋯ P(Z |Z) P(_ |Z)
P(A |_) P(B |_) ⋯ P(Z |_) P(_ |_)
�
Considere um modelo markoviano de ordem-n mais elevada �  
	 n=1 	 monograma-a-monograma	 	 � 	
	 n=2 	 digrama-a-diagrama 	 	 	 	 � 
	 n=3 	 trigrama-a-trigrama		 	 	 	 � 
... 
 
com alfabeto maiúsculas, minúsculas e números, � :
Para tetragramas, 
	 	 a matriz P de probabilidades de transição tem dimensão: 
	 	 	 	 	 	 � 
ℤ27
m × m → 27 × 27
m2 × m2 → 272 × 272
m3 × m3 → 273 × 273
ℤ63
15.752.961 × 15.752.961
�
Entropia da língua inglesa (Claude Shannon)
 
 
Zero-order approximation.  
 
(The symbols are independent and equiprobable.) 
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ
FFJEYVKCQSGXYD QPAAMKBZAACIBZLHJQD 
The entropy of zeroth-order model = log 27 = 4.76 Sh per letter. 
�
 
 
First-order approximation.  
 
(The symbols are independent.  
The frequency of letters matches English text.)
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI
ALHENHTTPA OOBTTVA NAH BRL 
The first order model gives an estimate of the entropy of 4.03 Sh 
per letter
�
Second-order approximation.  
 
(The frequency of pairs of letters matches English text.) 
ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY
ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO
TIZIN ANDY TOBE SEACE CTISBE
 
EXT OR SYMAD RES FUN PLUDEFOLY FOR ORY THER CURSOR 
STEME TO OU ANNINPUT
�
Third-order approximation.  
 
(The frequency of triplets of letters matches English text.) 
IN NO IST LAT WHEY CRATICT FROURE BERS GROCID
PONDENOME OF DEMONSTURES OF THE REPTAGIN IS
REGOACTIONA OF CRE
MAJORIZONTAL IS ZEROUS COMPUT COPY OF AND THE 
LIMILABLESPOT LEVE AVE MODE IS DEALINE OF 
PERMINORMATION
�
 
 
 
 
 
Fourth-order approximation.  
(The frequency of quadruplets of letters matches English text.) 
THE GENERATED JOB PROVIDUAL BETTER TRAND THE 
DISPLAYED CODE, ABOVERY UPONDULTS WELL THE CODERST 
IN THESTICAL IT DO HOCK BOTHE MERG. (INSTATES CONS 
ERATION. NEVER ANY OF PUBLE AND TO THEORY. EVENTIAL 
CALLEGAND TO ELAST BENERATED IN WITH PIES AS IS WITH 
THE )
 
fourth-order model gives an estimate of 2.8 Sh per letter.
�
 
 
Entropy of English using Shannon guessing game. 
Shannon 1950: entropy rate for English using a human gambler to 
estimate probabilities. 1.34 Sh per letter.
entropia modelo
4.60 Sh fonte simétrica sem memória com 27 símbolos
4.13 Sh fonte de 1a ordem, frequência de letras estimada
3.34 Sh fonte de 2a ordem
2.80 Sh fonte de 4a ordem
1.30 Sh Shannon guessing game
�
A entropia de um texto "representativo" em inglês com alfabeto de 27 letras 
(nenhuma distinção de pontuação ou minúscula/maiúscula: 26 letras e mais um 
caractere "espaço") foi estimada em aproximadamente H = 1,3 bits por letra.
Interpretação
 A redundância é cerca de � . 
 um livro com 300 páginas pode ser reduzido para 300(1 - 0,73) = 81 páginas 
sobre o mesmo alfabeto ou  
 um livro com 300 páginas pode ser reduzido para conter apenas 27(1-0.73) = 
2.43 (i.e., pelo menos 3) símbolos.
R = 1 −
1.3
log2 27
= 0.73
�
First-order word model. 
(The words are chosen independently but with frequencies as in English.) 
REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN
DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO
EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE.
(The word transitionprobabilities match English text.)  
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER
THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER
METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD
THE PROBLEM FOR AN UNEXPECTED 
 
�
Fontes de Markov
caracterizada por estados 1,2,...,J
letras do alfabeto �
sequência da fonte: �
sequência de estados: �
Denota-se por Qji a probabilidade condicional de ir ao estado i quando o estado anterior é j
� PROB. TRANSIÇÃO DE ESTADOS
Fonte Markov: Propriedade: � .
a1, a2, ⋯, aK
u = (u1, u2, ⋯)
s = (s1, s2, ⋯)
Qji = Pr(sl = i |sl−1 = j)
Pr(sl |sl−1, sl−2, sl−2, ⋯) = Pr(sl |sl−1)
�
Cadeia de Markov discreta
Seja � 
a probabilidade da letra ak ser emitida quando a fonte está no estado j.
Exemplo.
ramos rotulados pelos símbolos de saída � ; probabilidade � .
Pj(ak) = Pr[ul = ak |sl = j]
ak Pj(ak)
�
Cadeias de Markov homogêneas
um estado s é transitório se há outro estado que pode ser alcançado a partir dele, mas 
que do mesmo é impossível retornar a s.
vide ESTADO 1
um conjunto de estados é irredutível se, de cada dos estados, nenhum estado fora do 
conjunto pode ser atingido e cada estado do conjunto pode ser atingido em uma ou 
mais transições.
vide ESTADOS {2,3} e ESTADOS {4,5}
transitórios + irredutíveis
com probabilidade 1 a cadeia vai para um dos conjuntos irredutíveis e estaciona lá
�
período de estados irredutíveis:
maior inteiro m tal que todas as recorrências para os estados são 
múltiplos de m.
ESTADOS {2,3} período m=1
ESTADOS {4,5} período m=2.
Se uma cadeia é homogenea com estados irredutíveis de período 
m=1, ela é chamada ergódica.
�
Probabilidade limite de estados ergódicos E
Há probabilidades estacionárias � para cada estado, soluções de:
�
� .
Além disso, as probabilidades assintóticas de estados � verificam:
�
se a fonte iniciou em um estado ergódico há infinitamente muito tempo atrás
�
q( j)
∑
j∈E
q( j)Qji = q(i)
∑
j∈E
q( j) = 1
i ∈ E
lim
l→∞
Pr(sl = i |s1 = j) = q(i) .
Pr(sl = i) = q(i) ∀l .
�
Outro Exemplo
�
Os estados 1,2 e 3 são transitórios (não essenciais)
Duas cadeias irredutíveis: {estados 4 e 5, aperiódica} e {estados 6,7 e 8, de período m=2)
 
Teorema. Para uma cadeia de Markov finita, irredutível e aperiódica, existem os limites
� e são independentes de i.lim
n→∞
pnij = πj
�
 
Entropia de uma fonte de Markov
� .
Teorema. A entropia por letra de uma fonte ergódica markoviana é dada por 
� , em que � .
(o limite sempre existe). Se a cadeia só possui um conjunto de estados irredutíveis, então
� , as probabilidades estacionárias dos estados.
prova. vide Robert Gallager (book).
H(U |s = j) = −
K
∑
k=1
Pj(ak)log Pj(ak)
H∞(U ) :=
J
∑
i=1
q(1,∞)H(U |s = i) q(1,∞) = lim
L→∞
1
L
L
∑
l=1
P(sl = i)
q(1,∞)(i) = q(i)
�
 
TEOREMA DA CODIFICAÇÃO DE FONTES
(teorema da codificação para canais sem ruído)
(1o Teorema de Shannon)
Fontes DMS - discretas e sem memória; emitem símbolos 
sucessivos independentes.
�
Estamos interessados em codificar a saída da fonte usando um 
novo alfabeto de “D" letras. A codificação deve ser tal que:
1) Dada um sequência emitida pela fonte, queremos que a 
sequência código transmitida seja tal que de posse da 
mesma, possamos recuperar a sequência da fonte com um 
probabilidade tão alta como se queira.
2) o número de letras código “gasto" por letras fonte deve ser o 
mínimo possível (compressão de dados).
�
Entender compactação como “retirada” da informação redundante
POXM LIT ST ISNVE N IT
A PROXM LITA EST ISPNIVE N SIT
A PROXMA LITA EST ISPNIVE NO SIT
A PROXIMA LISTA ESTÁ DISPONIVEL NO SITE
Como achar a sequência mais curta tal que possamos recuperar 
toda a mensagem??
�
Seja � uma sequência de tamanho L, com 
letras de um alfabeto de cardinalidade K. O número de possíveis 
sequências distintas é � .
Suponha que desejamos codificá-la em uma sequência de 
tamanho N com letras oriundas de um alfabeto de cardinalidade 
D. Há, naturalmente, � delas.
uL := (u1, u2, . . . , uL)
KL
DN
�
Devemos impor, vista a condição 1, que � ou seja
� .
N/L é o 
número de letras do alfabeto código/número de letras do alfabeto fonte
podemos fazer melhor? 
É possível se escolher � e ainda assim satisfazer 1.
Mas há um limite em quanto reduzir N/L.
DN ≥ KL
N
L
≥
log2 K
log2 D
N
L
<
log2 K
log2 D
�
 
veja que em geral o codificador converte sequências de 
comprimento L de letras da fonte em sequências de comprimento 
N de letras do código.
O caso mais simples é L=1, em que desejamos codificar as letras 
da fonte (monogramas) em letras-código binárias D=2. 
No caso de texto com K=27 letras {A,B,C,...,X,Y,Z, space}, se a 
codificação é binária, �DN ≥ KL → 2N ≥ 271 → N ≥ 5.
�
sequências-código sequências-fonte
 --- ---
--- ---
--- ---
...
--- ---
---
---
 � implica em “sobras”: há uma distinta para cada 
sequência-fonte e as vermelhas não são usadas.
DN > KL
�
� significa que há mais sequências-código e pode ser 
feito um mapeamento biunívoco de todas as sequências-fonte (e 
“sobram" ainda sequências-código). �  
00000 A
00001 B
00010 C
...
11001 Y
11010 Z
11011 SPACE 11100 ... 11111 não são usadas.
DN ≥ KL
25 ≥ 271
�
Exemplos de códigos: Braille
L. Braille (1829): 
código de 6 bits permite 63 códigos possíveis (plano ou ponto elevado).
- 	 26 são usados para codificar letras romanas
- 	 o resto para codificar palavras de comando (e, para, de, com) 
- 	 e combinações comuns de duas letras (ch, gh, sh, th, wh, ed, er, ou, ow)
�
Usando dicionário, decodifique o seguinte texto Braille:
�
1o Teorema de Shannon codificação de fontes com comprimento fixo.
Teorema. Seja uma fonte DMS de entropia H(U), com alfabeto de 
cardinalidade K e C um código de comprimento N sobre um 
alfabeto de cardinalidade D. Se Pe denota a probabilidade de 
uma sequência de comprimento L da fonte não coberta pela 
código, então para qualquer � :
mensagem direta.
Se , então Pe pode ser fe i ta 
arbitrariamente pequena fazendo-se L suficientemente grande. 
δ > 0
N
L
≥
H(U) + δ
log2 D
�
 
mensagem inversa.
Se , então Pe se tornará arbitrariamente 
próxima de 1 a medida que L cresce.
prova. 
 
Vejamos
� .
N
L
≤
H(U) − δ
log2 D
I(uL) = − log2 P(uL) = − log2
L
∏
i=1
p(ui) = −
L
∑
i=1
log2 p(ui)
�
Assim, 
� para fonte sem memória.
Portanto, � é uma soma de v.a.’s iid.
Versão fraca da lei dos grandes números
Se � são v.a.’s i.i.d. com média comum � , então
� .
(média amostral converge para a média estatística).
I(uL) =
L
∑
i=1
I(ui)
I(uL)
{Xi}Li=1 X̄
lim
L→∞
1
L
L
∑
i=1
Xi → X̄ em probabilidade
�
------
A média de � é igual à entropia da fonte, denotada por H(U).
� .
 
Então 
� .
I(ui) ∀i
H(U) := −
K
∑
k=1
P(ak)I(ak)
lim
L→∞
1
L
L
∑
i=1
I(ui) → H(U) em probabilidade
�
significado grosseiro
� , ou seja, �
� .
A probabilidade de uma sequência típica de comprimento L 
emitida pela fonte é � e o número de sequências-típicas 
será grosseiramente igual a:
� . 
Pela condição 1, impõe-se � .
1
L
L
∑
i=1
I(ui) →
?
H(U) I(uL) →
?
LH(U) .
−log2 P(uL) →
?
LH(U) ∴ P(uL) →
?
2−LH(U)
2−LH(U)
ML ≈ 2LH(U)
DN ≥ ML ≈ 2LH(U)
�
Esta condição conduz a � . Caso binário, D=2 e
� .
Procedendo agora de modo rigoroso [prova].
� significa:
N
L
≥
H(U)
log2 D
N
L
≥ H(U)
lim
L→+∞
1
L
L
∑
i=1
I(ui) → H(U) em probabilidade
�
Dado � 
� ,
em que �
Denominemos por T o conjunto de todas as sequências � da 
fonte tais que
� (*TIPICAS)
(chamaremos esta sequências de típicas).
δ > 0 ∃ϵ(δ, L) |
P[ |
1
L
L
∑
i=1
I(ui) − H(U) | > δ] ≤ ϵ(δ, L)
lim
L→+∞
ϵ(δ, L) = 0.
uL
|
I(uL)
L
− H(U) | < δ
�
Logo � .
De (*), � , donde
�
e usando a definição de � , 
�
Para L suficientente grande � .
P(T ) = 1 − P[ |
I(uL)
L
− H(U) | ≥ δ] ≥ 1 − ϵ(δ, L)
−δ ≤
I(uL)
L
− H(U) ≤ δ
L [H(U) − δ] ≤ I(uL) ≤ L [H(U) + δ]
I( ⋅ )
2−L [H(U)−δ] > P(uL) > 2−L [H(U)+δ]
P(uL) ≈2−L [H(U)]
�
a) podemos afirmar que  
� ou seja, 
 
 �
de modo que o número de sequências típicas é limitado por 
�
P(T ) = ∑
u∈T
P(u)
1 ≥ P(T ) ≥ ML.2−L[H(U)+δ]
ML ≤ 2L[H(U)+δ]
�
b) Por outro lado, 
�
 
de modo que o número de seq. típicas é limitado por 
 
�
COMBINANDO-SE a) e b) chega-se ao número de seq. típicas
� . (AES)
1 − ϵ(δ, L) ≤ P(T ) ≤ ML.2−L[H(U)−δ]
ML ≥ [1 − ϵ(δ, L)].2L[H(U)−δ]
[1 − ϵ(δ, L)].2L[H(U)−δ] ≤ ML ≤ 2L[H(U)+δ]
�
i) Mensagem direta do teorema. 
 
Suponha que as sequências típicas sejam codificadas de tal 
modo que  
 
� �  
 
Logo, a cada sequência típica poderá corresponder uma 
sequência código e
�  
DN ≥ 2L[H(U)+δ] ≥ ML
N
L
≥
H(U) + δ
log2 D
Pe ≤ P(T̄, não ser codificada) ≤ P(T̄ )
�
Mas a probabilidade de sequências atípicas vai a zero:
� ,
assim 
� .
ii) Mensagem inversa do teorema.
Codificando a sequência fonte de modo que �
� .
P(T̄ ) = 1 − P(T ) ≤ 1 − {1 − ϵ(δ, L)} ≤ ϵ(δ, L)
lim
L→+∞
P(T̄ ) = 0
DN < 2L[H(U)−2δ]
N
L
<
H(U) − 2δ
log2 D
�
�
com
�
�
Finalmente,
� ,
ou seja,
�
1 − Pe = P(T, ser codificada) + P(T̄, ser codificada)
P(T, ser codificada) = ∑
uL∈T
P(uL) ≤ DN max
uL
P(uL)
P(T̄, ser codificada) ≤ P(T̄ ) ≤ ϵ(δ, L)
1 − Pe ≤ 2L[H(U)−2δ].2−L[H(U)−δ] + ϵ(δ, L)
Pe ≥ 1 − 2−Lδ + ϵ(δ, L) → 1.
�
Códigos: comprimento fixo vs comprimento variável
K=4 D=2
alfabeto � probabilidades �a1, a2, a3, a4 P(a1), P(a2), P(a3), P(a4)
�
interesse: � , número médio de letras-código/letras-fonte
�
alfabeto comprimento fixo comprimento variável
� 2 bits10
� 2 bits00�a3
� 2 bits11
� 1 bit0�a1
� 3 bits111�a4
� 2 bits01
� 1 bit1�a2
� 2 bits00
n̄
n̄ :=
K
∑
k=1
P(ak) . nk
�
Uma fonte DMS emite 5 símbolos � com 
probabilidade � .
Considere dois códigos binários diferentes para os símbolos da 
fonte:
� 0 � 00
� 10 � 01
� 110 � 10
� 1110 � 110
� 1111 � 111
{a1, a2, a3, a4, a5}
{ 12 , 18 , 18 , 18 , 18 }
a1 → a1 →
a2 → a2 →
a3 → a3 →
a4 → a4 →
a5 → a5 →
�
Estimando o comprimento médio das palavras-código:
código 1
� = 2.125 bits/letra 
código 2
� = 2.250 bits/letra
Há um melhor código? (de menor comprimento, i.e. de 
representação mais compacta da fonte). Como encontrá-lo?
n̄1 = 1.
1
2
+
1
8
[2 + 3 + 2 × 4]
n̄2 = 2.
1
2
+
1
8
[2 × 2 + 2 × 3]
�
 Exemplos de códigos
código I � ; � não é unicamente decodificável
alfabeto código I código II código III código IV
1/2
1/4
1/8
1/8
�a3 �011
�10
�0
�11
�1
�a1
�a4
�0
�0111
�110
�1
�0
�P(ak)
�10
�a2 �01
�0
�111
�00
�0
a1 → 0 a2 → 0
�
código II  
�
logo não é univocamente decodificável.
unicamente decodificável [univocamente decodificável]
Se qualquer sequência fonte distinta de comprimento finito tem 
sequência de letras-código diferentes a ela associadas.
0 0 1 1 1⋯
→ a1 a1 a2 a2 a2⋯
→ a3 a2 a2 a2 . . .
→ a3 a4 a4 ⋯ ⋯
→ a1 a1 a4 a3 a3⋯
�
código com condição de prefixo [códigos instantâneos]
Um código com condição de prefixo é aquele no qual nenhuma 
palavra-código é prefixo de outra palavra-código.
códigos I & II & IV não são.
códigos prefixo � unicamente decodificável
código III 1 1 1 1 0 0 ... 111 | 10 | 0 ... = 
código sem pontuação (comma free code)
código IV 0 0 0 1 0 1 1 1 0 0 | 0 | 01 | 0111 | 0 |...
⇒
⇒ a4 a2 a1 ⋯
⇒
�
código com pontuação (comma code)
representação em árvore.
�
 
Desigualdade de Kraft
Se os inteiros � satisfazem a desigualdade
�
� então existe um código com alfabeto de cardinalidade D que 
satisfaz a condição de prefixo e tem estes inteiros como 
comprimento das palavras-código.
� Os comprimentos de todos os códigos com condição de prefixo 
satisfazem a desigualdade de Kraft.
necessidade & suficiência
n1, n2, ⋯, nK
K
∑
k=1
D−nk ≤ 1
⇒
⇐
�
prova [esboço]
árvore completa 
árvore completa de ordem n, no alfabeto D � � nós terminais
 
exemplo: D=2 árvore binária
⇒ Dn
�
exemplo: D=3 árvore ternária
(esboço de prova � )
A fração de nós partindo de um nó terminal na ordem i é �
ao se selecionar um nó como "nó terminal" para alocar uma 
palavra-código, elimina-se esta fração de nós candidatos.
⇒
D−i
�
 
�
Como nó terminal, não haverá nenhuma palavra-código mapeada 
em nós acima dele (garantindo a condição de prefixo).
aloca-se um nó terminal na ordem � � � fração descartada
aloca-se um nó terminal na ordem � � � fração descartada
...
 aloca-se um nó terminal na ordem � � � fração descartada
n1 ⇒ D−n1
n2 ⇒ D−n2
nK ⇒ D−nK
�
como � , ainda há nó disponível na alocação do nó 
terminal para a última letra do alfabeto [cabe alocar terminais]
Exemplo. 
D=2 ( � )=(1 2 3 3) com �
um nó terminal na ordem 1 (cor vermelha)
um nó terminal na ordem 2 (cor laranja)
dois nós terminais na ordem 3 (cores verde e azul)
K
∑
k=1
D−nk ≤ 1
n1, n2, ⋯, nK 2−1 + 2−2 + 2−3 + 2−3 ≤ 1
�
Leon G. Kraft Jr., (and Wilbur B. Davenport Jr.), MIT 1943
(esboço de prova � )
qualquer código com condição de prefixo está incluso na árvore 
completa [vide detalhes da prova]
⇐
�
Teorema (McMillan)
Considere um código cujos comprimentos das palavras-código 
valem � sobre símbolos de um alfabeto de 
cardinalidade D.
Se o código é unicamente decifrável, então a desigualdade de 
Kraft deve ser satisfeita.
prova. [vide livro texto TI]. 
unicamente decodificável � Kraft � código com condição de prefixo.
Consequência: se unicamente decifrável, pode-se construir um 
código com condição de prefixo com os mesmos comprimentos!
n1, n2, ⋯, nK
⇒ ⇔
�
1o Teorema de Shannon codificação de fontes com comprimento variável.
Teorema. Seja uma fonte DMS de entropia H(U), com alfabeto de 
cardinalidade K e C um código sobre um alfabeto de 
cardinalidade D. É possível atribuir palavras-código para as letras 
fonte satisfazendo a condição de prefixo e cujo comprimento 
médio das palavras-código � verifica:
� .
Além disso, para qualquer conjunto de palavras-código 
unicamente decodificáveis, tem-se
� .
n̄
n̄ ≤
H(U)
log D
+ 1
n̄ ≥
H(U)
log D
�
prova.
Sejam � as probabilidades das letras-fonte e 
sejam � os comprimentos das palavras-código 
correspondentes.
�
pondo -nk no logaritmo e combinando termos
� .
P(a1), ⋯, P(aK)
n1, ⋯, nK
H(U) − n̄ log D =
K
∑
k=1
P(ak) . log2
1
P(ak)
−
K
∑
k=1
P(ak)nk . log D
H(U) − n̄ log D =
K
∑
k=1
P(ak) . log2
D−nk
P(ak)
�
Da desigualdade fundamental da TI, 
�
A última desigualdade segue da desigualdade de Kraft que é 
válida para qualquer código univocamente decifrável.
A igualdade se verifica sss � . (**) 
parte ii provada.
H(U) − n̄ log D ≤ (log e)[
K
∑
k=1
D−nk − ∑
k
P(ak)] ≤ 0.
P(ak) = D−nk, 1 ≤ k ≤ K
�
Para satisfazer a equação (**), podem ser escolhidos nk tais que
�
Escrevendo cada equação e somando todas membro a membro, 
o lado esquerdo se torna a desigualdade de Kraft (existe código 
com condição de prefixo).
 
O lado direito, via log, resulta �
Finalmente, 
�
Multiplicando por � e somando, chega-se ao resultado Q.E.D.
D−nk ≤ P(ak) ≤ D−nk+1, 1 ≤ k ≤ K
log P(ak) < (−nk + 1) . log D
nk <
−log P(ak)
log D
+ 1
P(ak)
�
Teorema. Seja uma fonte DMS de entropia H(U) e C um código 
sobre um alfabeto de cardinalidade D. É possível atribuir 
palavras-código para sequência de L letras-fonte satisfazendo a 
condição de prefixo e cujo comprimento médio das palavras-
código � verifica:
� .
Além disso, a desigualdade a esquerda é satisfeita por qualquer 
código unicamente decodificável.
n̄
H(U)
log2 D
≤ n̄ <
H(U)
log2 D
+
1
L
�
prova.
Para codificar sequências de L letras, a entropia é LH(U) e o 
comprimento médio das palavras-código � de modo que 
aplicando o teorema anterior,
� ,
o resultado segue dividindo-se por L todos os membros.
Ln̄
LH(U)
log2 D
≤ Ln̄ <
LH(U)
log2 D
+ 1
�
redundância:= � .
Uma discussão do teorema da codificação para códigos de 
comprimento variável também se aplica para fontes de Markov, 
mostrando o seguinte resultado:
Teorema