2519_Internet

•

Escola Monteiro Lobato

Elson Costa

22/12/2012

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Algoritmos

28.928 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Internet – Assistente de Gestão
Administrativa

Autor:
Leonardo A Alves

INTERNET
Assistente de Gestão Administrativa - Informática

INTERNET
ASSISTENTE DE GESTÃO ADMINISTRATIVA – INFORMÀTICA

Organizador Leonardo A Alves
INTRODUÇÃO
A Internet tem revolucionado o mundo dos computadores e das comunicações como
nenhuma invenção foi capaz de fazer antes. A invenção do telégrafo, telefone, rádio e
computador prepararam o terreno para esta nunca antes havida integração de capacidades.
A Internet é, de uma vez e ao mesmo tempo, um mecanismo de disseminação da
informação e divulgação mundial e um meio para colaboração e interação entre indivíduos
e seus computadores, independentemente de suas localizações geográficas.
A Internet representa um dos mais bem sucedidos exemplos dos benefícios da manutenção
do investimento e do compromisso com a pesquisa e o desenvolvimento de uma infra-
estrutura para a informação. Começando com as primeiras pesquisas em trocas de pacotes,
o governo, a indústria e o meio acadêmico tem sido parceiros na evolução e uso desta
excitante nova tecnologia. Hoje, termos como nome@nomedeempresa.com.br (ou
nome@nomedeempresa.com.br, no caso do Brasil) e http://www.nomedeempresa.com (ou
http://www.nomedeempresa.com.br, no caso do Brasil) são usados diariamente por milhões
de pessoas.
Nesta análise, muitos de nós envolvidos com o desenvolvimento e a evolução da Internet
dão suas visões sobre as origens e a história da Internet. A história envolve quatro aspectos
distintos:
• a evolução tecnológica que começou com as primeiras pesquisas sobre trocas de
pacotes e a ARPANET e suas tecnologias, e onde pesquisa atual continua a
expandir os horizontes da infra-estrutura em várias dimensões como escala,
desempenho e funcionalidade de mais alto nível;
• os aspectos operacionais e gerenciais de uma infra-estrutura operacional complexa e
global;
• o aspecto social que resultou numa larga comunidade de internautas trabalhando
juntos para criar e evoluir com a tecnologia;
• e o aspecto de comercialização que resulta numa transição extremamente efetiva da
pesquisa numa infra-estrutura de informação disponível e utilizável.
A Internet hoje é uma larga infra-estrutura de informação, o protótipo inicial do que é
frequentemente chamado a Infra-Estrutura Global ou Galáxica da Informação. A história da
Internet é complexa e envolve muitos aspectos - tecnológicos, organizacionais e
comunitários. E sua influência atinge não somente os campos técnicos das comunicações
via computadores mas toda a sociedade, na medida em que usamos cada vez mais
ferramentas online para fazer comércio eletrônico, adquirir informação e operar em
comunidade.
A ORIGEM DA INTERNET

Os primeiros registros de interações sociais que poderiam ser realizadas através de redes foi
uma série de memorandos escritos por J.C.R. Licklider, do MIT - Massachussets Institute
of Technology, em agosto de 1962, discutindo o conceito da "Rede Galáxica". Ele previa
vários computadores interconectados globalmente, pelo meio dos quais todos poderiam
acessar dados e programas de qualquer local rapidamente. Em essência, o conceito foi
muito parecido com a Internet de hoje. Licklider foi o primeiro gerente do programa de
pesquisa de computador do DARPA, começando em outubro de 1962. Enquanto
trabalhando neste projeto, ele convenceu seus sucessores Ivan Sutherland, Bob Taylor e
Lawrence G. Roberts da importância do conceito de redes computadorizadas.
Leonard Kleinrock, do MIT, publicou o primeiro trabalho sobre a teoria de trocas de
pacotes em julho de 1961 e o primeiro livro sobre o assunto em 1964. Kleinrock convenceu
Roberts da possibilidade teórica das comunicações usando pacotes ao invés de circuitos, o
que representou um grande passo para tornar possíveis as redes de computadores. O outro
grande passo foi fazer os computadores se conversarem. Em 1965, Roberts e Thomas
Merrill conectaram um computador TX-2 em Massachussets com um Q-32 na California
com uma linha discada de baixa velocidade, criando assim o primeiro computador de rede
do mundo. O resultado deste experimento foi a comprovação de que computadores
poderiam trabalhar bem juntos, rodando programas e recuperando dados quando necessário
em máquinas remotas, mas que o circuito do sistema telefônico era totalmente inadequado
para o intento. Foi confirmada assim a convicção de Kleinrock sobre a necessidade de
trocas de pacotes.
No final de 1966, Roberts começou a trabalhar no DARPA para desenvolver o conceito das
redes computadorizadas e elaborou o seu plano para a ARPANET, publicado em 1967. Na
conferência onde ele apresentou este trabalho, houve também uma apresentação sobre o
conceito de redes de pacotes desenvolvida pelos ingleses Donald Davies e Roger
Scantlebury, da NPL-Nuclear Physics Laboratory. Scantlebury conversou com Roberts
sobre o trabalho da NPL e do trabalho de Paul Baran e outros em RAND. O grupo do
projeto RAND tinha escrito um trabalho sobre o papel das redes de trocas de pacotes para
voz segura quando serviam militarmente em 1964. O que se percebeu então é que os
trabalhos desenvolvidos no MIT (1961-67), RAND (1962-65) e NPL (1964-67) estavam se
desenrolando em paralelo sem que nenhum dos pesquisadores soubesse dos outros
trabalhos. A palavra "pacote" foi adotada do trabalho desenvolvido no NPL e a velocidade
de linha proposta para ser usada no projeto da ARPANET foi upgraded de 2,4 Kb para 50
Kb.
Em agosto de 1968, depois de Roberts e o grupo do DARPA terem refinado a estrutura e
especificações para a ARPANET, uma seleção foi feita para o desenvolvimento de um dos
componentes-chave do projeto: o processador de interface das mensagens (IMP). Um grupo
dirigido por Frank Heart (Bolt Beranek) e Newman (BBN) foi selecionado. Paralelamente
ao trabalho do grupo da BBN nos IMPs com Bob Kahn assumindo um papel vital do
desenho arquitetônico da ARPANET, a topologia e economia da rede foi desenvolvida e
otimizada por Roberts em conjunto com Howard Frank e seu grupo da Network Analysis
Corporation, e sistema de mensuração da rede foi preparado pelo pessoal de Kleinrock na
UCLA -University of California at Los Angeles.
Devido à teoria de trocas de pacotes de Kleinrock e seu foco em análise, desenho e
mensuração, seu Centro de Mensuração de Rede da UCLA foi escolhido para ser o
primeiro nó (ponta) da ARPANET. Isso aconteceu em setembro de 1969, quando BBN
instalou o primeiro IMP na UCLA e o primeiro servidor de computador foi conectado. O
projeto chamado Aumento do Intelecto Humano, de Doug Engelbart, que incluía NLS (um
precursor dos sistemas de hipertexto), no SRI-Stanford Research Institute, foi o segundo
nó ou ponta. SRI passou a manter as tabelas de "Host Name" para o mapeamento dos
endereços e diretório do RFC. Um mês depois, quando SRI foi conectado à ARPANET, a
primeira mensagem entre servidores foi enviada do laboratório de Kleinrock para o SRI.
Dois outros "nodes" foram acrescentados então: a UC Santa Barbara e a Universidade de
Utah. Este dois nós incorporavam projetos de aplicações visuais, com Glen Culler e Burton
Fried na UCSB investigando métodos de uso de funções matemáticas para restaurar
visualizações na rede e Robert Taylor e Ivan Sutherland em Utah investigando métodos de
representação em terceira dimensão na rede. Assim, no final de 1969, quatro servidores
estavam conectados na ARPANET e, mesmo naquela época, os trabalhos se concentravam
tanto na rede em si como no estudo das possíveis aplicações da rede. Esta tradição continua
até hoje.
Computadores foram rapidamente adicionados à ARPANET nos anos seguintes e os grupos
de trabalho desenvolveram um protocolo servidor a servidor funcionalmente completo e
outros softwares de rede. Em dezembro de 1971, o Network Working Group (NWG)
gerenciado porS. Crocker, concluiu o primeiro protocolo servidor a servidor da
ARPANET, chamado Network Control Protocol (NCP). De 1971 a 1972, os usuários da
rede finalmente puderam começar a desenvolver as suas aplicações. Em outubro de 1972,
Kahn organizou uma grande e bem sucedida demonstração sobre a ARPANET na
Conferência Internacional de Comunicação entre Computadores (ICCC). Esta foi a
primeira demonstração pública da nova tecnologia de rede para o público. Foi também em
1972 que o correio eletrônico, considerado a primeira aplicação "hot", foi introduzido. Em
março de 1972, Ray Tomlinson, da BBN, escreveu o software básico de e-mail com as
funções de "send/enviar" e "read/ler", motivado pela necessidade dos desenvolvedores da
ARPANET de ter um fácil mecanismo de coordenação. Em julho, Roberts expandiu a
utilidade do e-mail escrevendo o primeiro programa utilitário de e-mail para listar, ler
seletivamente, arquivar, encaminhar e responder a mensagens. Dali, o correio eletrônico se
tornou a maior aplicação de rede por mais de uma década. Este foi o prenúncio do tipo de
atividade que vemos hoje na WWW hoje, ou seja, o enorme crescimento de todos os tipos
de aplicações e utilitários agregados pessoa-a-pessoa.
OS CONCEITOS INICIAIS DA INTERNET

A ARPANET original cresceu e se tornou a Internet. A Internet foi baseada na idéia de que
haveria múltiplas redes independentes de desenho arbitrário, começando com a ARPANET
como rede pioneira de trocas de pacotes mas logo incluindo redes de satélites, de rádio, etc.
A Internet como conhecemos hoje incorpora uma idéia-chave: rede de arquitetura aberta.
Nesta abordagem, a opção pela tecnologia de qualquer rede individual não é ditada por
nenhuma arquitetura de rede particular e sim escolhida livremente pelo provedor, que a
torna capaz de entrar em rede com outras redes pela "Arquitetura de Internetworking". Até
aquele período, havia apenas um método para agregar redes: a tradicional troca de circuitos
onde redes se interconectavam no nível do circuito, passando bits individuais em base
síncrona por um circuito ponta a ponta entre duas localidades. Lembre que Kleinrock tinha
mostrado em 1961 que troca de pacotes era um método mais eficiente. Condições
específicas de interconexão entre redes era outra possibilidade. Enquanto havia outras
formas limitadas de interconectar redes, todas requeriam que uma fosse componente da
outra, ao invés de agirem como companheiras no oferecimento do serviço ponta a ponta.
Numa rede de arquitetura aberta, as redes individuais podem ser separadamente desenhadas
e desenvolvidas e cada uma pode ter sua interface própria que pode ser oferecida a usuários
e outros provedores. Cada rede pode ser desenhada de acordo com o ambiente e os
requerimentos dos seus usuários. Não há restrições em relação aos tipos de redes que
podem ser incluídas numa área geográfica, apesar de algumas considerações pragmáticas
ditarem o que é razoável oferecer.
A idéia de redes de arquitetura aberta foi primeiro introduzida por Kahn em 1972. Este
trabalho foi parte de um programa de pacotes de rádio, mas depois se tornou um programa
em separado. Naquele tempo, o programa foi chamado "Internetting". NCP não tinha a
habilidade de endereçar redes e máquinas além da destinação IMP da ARPANET e
portanto deveria ser mudado. NCP se amparava na ARPANET para prover confiabilidade
de ponta a ponta. Se qualquer pacote fosse perdido, o protocolo e qualquer aplicação que
ele suportasse iria simplesmente parar a transferência de dados. Nesse modelo, NCP não
tinha controle de erro ponta a ponta, uma vez que pensava-se que a ARPANET seria a
única rede em existência e ela seria tão confiável que nenhum controle de erro seria
necessário por parte dos servidores. Então Kahn decidiu desenvolver uma nova versão do
protocolo que iria satisfazer as necessidades de um ambiente de redes de arquitetura aberta.
Este protocolo iria eventualmente ser chamado Transmission Control Protocol/Internet
Protocol (TCP/IP). Enquanto NCP agia como um driver de equipamento, o novo protocolo
seria mais um protocolo de comunicações.
Quatro regras foram críticas para a idéia de Kahn:
• cada rede distinta deveria ser independente e mudanças internas não deveriam ser
requisitadas para conectá-las à Internet;
• comunicações seriam na base do melhor esforço. Se um pacote não chegasse à sua
destinação final, ele seria retransmitido da fonte;
• caixas pretas seriam usadas para conectar as redes. Mais tarde elas seriam chamadas
gateways e roteadores. Os gateways não reteriam informações sobre os fluxos de
pacotes passantes. Isso assegurou que eles se mantivessem simples, evitando
adaptações complicadas e recuperações de erros;
• não haveria controle global no nível operacional.
Outros itens avaliados foram os seguintes:
• algorítmos para prevenir perda de pacote de comunicações desabilitadas,
capacitando-os a serem retransmitidos da fonte;
• provimento de "pipelining" de servidor a servidor, de forma que múltiplos pacotes
poderiam ser roteados da fonte ao destino à vontade dos servidores participantes, se
redes intermediárias o permitissem;
• funções de gateway (porta de entrada) para encaminhar os pacotes apropriadamente.
Isso incluiria cabeçalhos de IP para roteamento, interfaces dirigidas, quebra de
pacotes em pedaços menores (caso necessário), etc;
• a necessidade de checagens ponta a ponta, recuperação dos pacotes de fragmentos e
detecção de duplicatas;
• a necessidade do endereçamento global;
• técnicas de controle de fluxo servidor a servidor;
• interfaces com vários sistemas operacionais;
• eficiência da implementação, performance entre as redes, etc.
Kahn começou a trabalhar na série orientada às comunicações dos princípios do sistema
operacional enquanto na BBN, e documentou alguns dos seus pensamentos num
memorando interno chamado "Princípios de Comunicações para Sistemas Operacionais".
Neste ponto, ele percebeu que seria necessário aprender os detalhes de implementação de
cada sistema operacional para ter a chance de embutir neles novos protocolos de uma forma
eficiente. Assim, na primavera de 1973, depois de começar o projeto "internetting", Kahn
chamou Vint Cerf (então trabalhando em Stanford) para trabalhar com ele no desenho
detalhado do protocolo. Cerf tinha se envolvido intimamente com o desenho e
desenvolvimento do NCP original e já tinha o conhecimento em interfacing com os
sistemas operacionais existentes. A abordagem arquitetônica para a comunicação de Kahn e
a experiência em NCP de Cerf possibilitaram a construção do que se tornou TCP/IP.
O trabalho de Kahn e Cerf foi altamente produtivo e a primeira versão escrita da teoria
resultante foi distribuída numa reunião especial do International Network Working Group
(INWG), que tinha sido definido numa conferência da Sussex University em setembro de
1973. Cerf tinha sido convidado para dirigir este grupo e usou a ocasião para realizar o
encontro do INWG. Algumas teses básicas surgiram da colaboração entre Kahn e Cerf:
• comunicação entre dois processos deveria consistir logicamente de uma longa
corrente de bytes (que eles chamaram de octets). A posição de qualquer octet na
corrente seria usada para identificá-lo;
• o controle do fluxo seria feito usando janelas e corrediças e acks. O destino poderia
selecionar quando seria efetuado o reconhecimento e cada ack retornado seria
cumulativo para todos os pacotes recebidos;
• foi deixado em aberto como a fonte e o destino iriam concordar nos parâmetros das
janelas a serem usadas. Padrões foram usados inicialmente;
• apesar de a Ethernet (sistema de redes que transporta sinais (bits) para todos os
microcomputadores em rede) estar em desenvolvimento em Xerox PARC naquele
tempo, a proliferação de LANs (redes locais) não era prevista, muito menos a
proliferação de PCs (computadores pessoais) e estações de trabalho. O modelo
original foi redes nacionais comoa ARPANET, que se pensava não iriam existir
muitas como ela. Então um IP de 32 bits foi usado, dos quais os primeiros 8 bits
indicavam a rede e os restantes 24 bits designavam o servidor na rede. Esta hipótese
de que 256 redes seriam suficientes para o futuro próximo passou necessariamente a
ser reconsiderada quando LANs começaram a aparecer no final da década de 1970.
O trabalho original de Cerf e Kahn sobre a Internet descreveu um protocolo chamado TCP,
que provia todo o transporte e serviços de encaminhamento na Internet. Kahn queria que o
protocolo suportasse uma série de serviços de transporte, desde a entrega sequenciada de
dados totalmente confiável (modelo de circuito virtual) até o serviço de datagram, onde a
aplicação fazia uso direto do serviço básico de rede, o que poderia implicar em pacotes
ocasionalmente perdidos, corrompidos ou reordenados. Entretanto, o esforço inicial para
implementar TCP resultou numa versão que somente permitiu circuitos virtuais. O modelo
funcionou bem para transferência de arquivos e aplicações de logins remotos, mas alguns
dos trabalhos em aplicações avançadas como pacotes de voz mostraram que, em alguns
casos, a perda de pacotes deveria ser corrigida pela aplicação e não pelo protocolo TCP.
Isso levou a uma reorganização do TCP original em dois protocolos: o simples IP que
provia apenas o endereçamento e o roteamento dos pacotes individuais e o TCP em
separado, que se preocupava com o controle do fluxo e a recuperação de pacotes perdidos.
Para as aplicações que não queriam os serviços de TCP, uma alternativa chamada User
Datagram Protocol (UDP) foi adicionada para prover acesso direto ao serviço básico de IP.
Uma grande motivação inicial para a ARPANET e para a Internet foi o compartilhamento
de recursos. A conexão das duas redes foi muito mais econômica do que a duplicação de
caros computadores. Entretanto, enquanto a transferência de arquivos e o login remoto
(Telnet) foram aplicações muito importantes, o correio eletrônico teve o impacto mais
significativo das inovações daquela época. O correio eletrônico ou e-mail criou um novo
modelo no qual as pessoas poderiam se comunicar e mudou a natureza da colaboração,
primeiro na construção da própria Internet e mais tarde na sua utilização por grande parte
da sociedade.
Outras aplicações foram propostas nos dias iniciais da Internet, incluindo comunicação de
voz (precursora da telefonia via Internet), vários modelos de compartilhamento de arquivos
e discos, e os primeiros programas que mostraram o conceito de agentes (e vírus..). Um
conceito-chave da Internet é que ela não é desenhada para apenas uma aplicação, mas é
uma infra-estrutura genérica na qual novas aplicações podem ser concebidas, como
aconteceu com a World Wide Web. Foi e é a natureza do serviço provido pelos protocolos
TCP e IP que tornam isso possível.
NOVAS IDÉIAS

DARPA fez três contratos para Stanford (Cerf), BBN (Ray Tomlinson) e UCL (Peter
Kirstein) implementarem TCP/IP (que foi simplesmente chamado TCP no trabalho de
Cerf/Kahn, mas que continha ambos os componentes). A equipe de Stanford, liderada por
Cerf, produziu uma detalhada especificação e, em um ano, haviam três implementações
independentes de TCP que poderiam operar em conjunto. Este foi o começo de longa
experimentação e desenvolvimento a fim de evoluir e amadurecer os conceitos e a
tecnologia da Internet. Começando com as três primeiras redes (ARPANET, Packet Radio e
Packet Satellite) e suas comunidades iniciais de pesquisa, o ambiente experimental cresceu
para incorporar essencialmente qualquer forma de rede e grande comunidade de pesquisa e
desenvolvimento. E, com cada expansão, novos desafios surgiram.
As primeiras implementações de TCP foram feitas por sistemas como Tenex e TOPS 20.
Quando os microcomputadores apareceram, alguns acharam que TCP foi grande e
complexo demais para rodar neles. David Clark e seu grupo de pesquisa no MIT
trabalharam para mostrar que poderia haver uma simples e compacta implementação de
TCP. Eles produziram esta implementação, primeiro para o Xerox Alto (a primeira estação
de trabalho pessoal desenvolvida em Xerox PARC) e depois para o IBM PC. Esta
implementação foi completamente inter-operável com outros TCPs, mas foi feita sob
medida para microcomputadores, e mostrou que estações de trabalho, tanto quanto sistemas
de grande porte, poderiam tornar-se parte da Internet. Em 1976, Kleinrck publicou o
primeiro livro sobre ARPANET, com ênfase na complexidade dos protocolos e nas
dificuldades que eles introduzem. Este livro foi importante na divulgação da crença nas
redes com trocas de pacotes para uma grande comunidade.
O desenvolvimento generalizado de LANs, PCs e estações de trabalho na década de 80
permitiu a prosperidade da Internet que nascia. A tecnologia Ethernet, desenvolvida por
Bob Metcalfe em 1973 na Xerox PARC é agora provavelmente a tecnologia de rede
dominante na Internet e os PCs e estações de trabalho são os computadores dominantes. A
mudança entre poucas redes com pequeno número de servidores (o modelo original
ARPANET) e muitas redes resultou num número de novos conceitos e mudanças na
tecnologia básica. Primeiro, isso resultou na definição de três classes de rede (A, B e C)
para acomodar o alcance das redes. A classe A passou a representar redes de grande escala
nacional (pequeno número de redes com grande número de servidores). A classe B passou a
representar redes de escala regional. E a classe C passou a representar redes locais (grande
número de redes com relativamente poucos servidores).
Uma grande mudança ocorreu como resultado do aumento da escala da Internet e os
assuntos gerenciais associados. Para facilitar o uso da rede, nomes foram atribuídos a
servidores para que não fosse necessário lembrar endereços numéricos. Originalmente, o
número de servidores foi limitado e, portanto, foi possível manter uma tabela única de
todos os servidores e seus nomes e endereços. A mudança para o grande número de redes
independentemente gerenciadas (por exempo, LANs) significou o fim da tabela única de
servidores, e o Domain Name System (DNS) foi inventado por Paul Mockapetris, da
USC/ISI. O DNS permitiu um mecanismo escalarmente distribuído para resolver nomes de
servidores hierárquicos (por exemplo, www.acm.org) num endereço Internet.
O crescimento da Internet também desafiou a capacidade dos roteamentos. Originalmente
existiu um único algorítmo distribuído para roteamento que foi implementado
uniformemente por todos os roteadores na Internet. Quando explodiu o número de redes na
Internet e o desenho inicial de roteamento não expandiu o suficiente, este foi substituído
por um modelo hierárquico de roteamento com um Interior Gateway Protocol (IGP) usado
dentro de cada região da Internet e um Exterior Gateway Project (EGP) usado para ligar as
regiões. Este desenho permitiu que diferentes regiões usassem diferentes IGPs, de forma
que diferentes requerimentos de custo, rápida configuração, robustez e escala pudessem ser
acomodados. Não apenas o algorítmo de roteamento mas também o tamanho das tabelas de
endereçamento acentuaram a capacidade dos roteamentos. Novas abordagens para
agregação de endereço, em particular roteamento entre domínios sem classe (CIDR) foram
introduzidas para controlar o tamanho das tabelas de roteamento. Um dos maiores desafios
foi como propagar as mudanças para o software, particularmente o software do servidor.
DARPA dava suporte à UC Berkeley para investigar modificações para o sistema
operacional Unix, inclusive incorporando o TCP/IP desenvolvido em BBN. Apesar de
Berkeley ter mais tarde reescrito o código para torná-lo mais adequado ao sistema Unix, a
incorporação do TCP/IP no Unix BSD foi crítica para a dispersão dos protocolos na
comunidade de pesquisa. Muitos da comunidade de pesquisa da ciência da computação já
haviam começado a usar Unix BSD no seu dia-a-dia e a estratégia de incorporar protocolosInternet no sistema operacional da comunidade de pesquisa foi um dos elementos-chave do
larga e bem-sucedida adoção da Internet.
Um dos mais interessantes desafios foi a transição do protocolo de servidor da ARPANET
de NCP para TCP/IP em 01/01/1983. Foi uma transição imediata, requisitando todos os
servidores em conversão simultânea (ou então passariam a se comunicar via mecanismos
específicos). A transição foi cuidadosamente planejada pela comunidade por anos antes e
foi muito fácil no dia em que realmente aconteceu (mas teve como consequência a
distribuição de "buttons" dizendo "Eu sobrevivi à transição para o TCP/IP").
O protocolo TCP/IP tinha sido adotado como padrão de defesa três anos antes, em 1980.
Tal fato levou diretamente à eventual divisão entre comunidades militar e não militar. Em
1983, ARPANET estava sendo usada por um número significante de organizações de
pesquisa e desenvolvimento e de operações da defesa. A transição da ARPANET do
protocolo NCP para o protocolo TCP/IP permitiu a divisão entre a MILNET, que passou a
suportar os requisitos operacionais, e a ARPANET, que passou a suportar as necessidades
de pesquisa.
Portanto, em 1985, a Internet já estava bem estabelecida como uma larga comunidade de
suporte de pesquisadores e desenvolvedores e começava a ser usada por outras
comunidades para comunicações diárias pelo computador. O correio eletrônico já estava
sendo usado por muitas comunidades, frequentemente com sistemas diferentes, mas a
interconexão entre os diferentes sistemas de de correio foi demonstrando a utilidade de
comunicação eletrônica entre as pessoas.
A TRANSIÇÃO PARA A INFRA-ESTRUTURA ABERTA

Ao mesmo tempo em que a tecnologia Internet estava sendo experimentalmente validada e
largamente utilizada por um conjunto de pesquisadores da ciência da computação, outras
redes e tecnologias de rede estavam sendo criadas. A utilidade das redes computadorizadas
- especialmente o correio eletrônico - demonstrada por DARPA e pelo Departamento de
Defesa dos Estados Unidos não foi perdida em outras comunidades e disciplinas, e, ainda
na década de 1970, redes começaram a aparecer em qualquer lugar que dispusesse de
fundos e recursos para isso. O Departamento de Energia dos Estados Unidos estabaleceu a
MFENet para seus pesquisadores em energia de fusão magnética e a HEPNet para o grupo
de física de alta energia. Os físicos espaciais da NASA seguiram com a SPAN, e Rick
Adrion, David Farber, and Larry Landweber estabeleceram a CSNET para a comunidade
acadêmica e industrial da Ciência da Computação com um subsídio inicial da NSF-
National Science Foundation. A livre disseminação do sistema operacional Unix na
AT&T resultou na USENET, baseada no protocolo de comunicação UUCP incluído no
Unix, e, em 1981, Ira Fuchs e Greydon Freeman projetaram a BITNET, que ligou os
computadores acadêmicos num paradigma do tipo "correio eletrônico como imagens de
cartão".
Com a exceção da BITNET e da USENET, estas primeiras redes (incluindo ARPANET)
tinham sido construídas para um objetivo específico, isto é, elas foram criadas para, e
largamente restritas a, comunidades fechadas de acadêmicos. Havia pouca pressão para que
as redes individuais fossem compatíveis e, na verdade, elas não eram. Mais ainda,
tecnologias alternativas estavam sendo procuradas pelo segmento comercial, incluindo
XNS da Xerox, DECNet e SNA da IBM. Restou à inglesa JANET (1984) e à U.S.
NSFNET (1985) programas para explicitamente anunciar seus intentos de servirem à
comunidade educacional, não importando a disciplina. Mais, a condição para universidades
americanas receberem fundos do NSF era que "a conexão deveria estar disponível para
todos os usuários qualificados no campus".
Em 1985, Dennis Jennings, da Irlanda, passou um ano na NSF liderando o programa da
NSFNET. Ele trabalhou com a comunidade para ajudar a NSF a tomar uma decisão crítica:
que TCP/IP iria ser mandatório para o programa da NSFNET. Quando Steve Wolff chegou
à NSFNET em 1986, ele reconheceu a necessidade por uma infraestrutura de rede maior
para suportar as comunidades acadêmicas e de pesquisa, além da necessidade de
desenvolver uma estratégia para estabelecer esta infra-estrutura independentemente dos
recursos federais. Políticas e estratégias foram adotadas para atingir este fim.
NSF também decidiu suportar a infra-estrutura organizacional da Internet da DARPA já
existente, hierarquicamente arranjada pelo então Internet Activities Board (IAB). A
declaração pública desta opção foi a autoria conjunta pelo grupo de Engenharia e
Arquitetura da Internet da IAB e pelo grupo de Assessoria Técnica de Rede da NSF do
RFC 985 - Requirements for Internet Gateways, que formalmente assegurou a
interoperabilidade entre DARPA e NSF.
Em adição à seleção do TCP/IP para o NSFNET, agências federais norte-americanas
fizeram e implementaram várias outras decisões políticas que definiram a Internet de hoje,
como segue:
• Agências federais norte-americanas dividiram o custo da infra-estrutura, como os
circuitos transoceânicos. Elas também apoiaram os pontos de interconexão para o
tráfego entre agências. Federal Internet Exchanges (FIX-E e FIX-W) construídas
com este objetivo serviram como modelos para os pontos de acesso da rede e
facilidades "*IX" que são características proeminentes da arquitetura Internet de
hoje;
• Para coordenar esta participação, foi formado o Federal Networking Council
(Conselho Federal de Redes). The FNC cooperou com organizações internacionais
como o RARE na Europa, através do Comitê de Pesquisa Intercontinental, para
coordenar o apoio da comunidade mundial de pesquisa à Internet;
• Esta participação e cooperação entre agências em assuntos relacionados à Internet
tem uma longa história. Um acordo sem precedentes realizado em 1981 entre
Farber, representando a CSNET e a NSF, e Kahn, representando a DARPA,
permitiu à CSNET compartilhar a infra-estrutura da ARPANET numa base
estatística;
• Similarmente, a NSF encorajou redes regionais (inicialmente acadêmicas) da
NSFNET a buscar clientes comerciais, expandir seus estabelecimentos para serví-
los e explorar as resultantes economias de escala para baixar os custos de subscrição
para todos;
• No backbone da NSFNET, o segmento de escala nacional da NSFNET, NSF fez
cumprir uma política (Acceptable Use Policy - AUP) que proibiu o uso do backbone
para objetivos que não fosssem de suporte à Pesquisa e à Educação. O resultado
predizível e desejado do encorajamento de tráfego comercial nos níveis local e
regional, enquando proibindo seu acesso ao backbone nacional, foi estimular a
emergência e o crescimento de redes privadas e competitivas (como PSI, UUNET,
ANS CO+RE e outras mais tarde). Este processo de aumento de redes privadas e
auto-financiadas para usos comerciais foi iniciado em 1988 numa série de
conferências promovidas pela NSF em Harvard's Kennedy School of
Government sob o título "A Comercialização e Privatização da Internet" e na lista
"com-priv" da rede;
• Em 1988, o comitê do Conselho Nacional de Pesquisa norte-americano, dirigido por
Kleinrock e com Kahn e Clark como membros, produziu um relatório autorizado
pela NSF entitulado "Em Direção a uma Rede Nacional de Pesquisa". Este relatório
influenciou o então Senador Al Gore e anunciou as redes de alta velocidade que se
tornariam a fundação para a superhighway da informação do futuro;
• Em 1994, o comitê do Conselho Nacional de Pesquisa norte-americano, novamente
dirigido por Kleinrock e novamente com Kahn e Clark como membros, produziu
um novo relatório autorizado pela NSF entitulado "Fazendo Idéia do Futuro da
Informação: a Internet e Além". Neste documento, a superhighway da informação
foi articulada e tópicos críticos como direitos da pripriedade intelectual, ética,
preços, educação, arquitetura e regulamentação da Internet foram discutidos;
• A política de privatização da NSF culminou em abril de 1995, como fim do
subsídio ao backbone da NSFNET. Os fundos recuperados foram competitivamente
redistribuídos para redes regionais para compra de conectividade nacional das agora
numerosas redes privadas.
O backbone fez a transição entre a rede construída de roteadores da comunidade de
pesquisa para equipamentos comerciais. Em seus oito anos e meio, o backbone cresceu de
seis nodes com links de 56 Kb para 21 nodes com múltiplos links de 45 Mb. A Internet
cresceu para mais de 50 mil redes em todos os sete continentes, com aproximadamente 29
mil redes apenas nos Estados Unidos.
Tal foi o peso do ecumenismo e dos recursos da NSFNET (US$ 200 milhões entre 1986 e
1995) e a qualidade dos protocolos, que em 1990, quando a ARPANET foi desautorizada,
TCP/IP tinha suplantado e marginalizado os demais protocolos de rede, e IP estava também
se tornando o serviço de sustentação da infra-estrutura da informação global.
O PAPEL DA DOCUMENTAÇÃO

A chave para o rápido crescimento da Internet tem sido o livre e aberto acesso aos
documentos básicos, especialmente as especificações dos protocolos.
Os inícios da ARPANET e da Internet na comunidade acadêmica de pesquisa promoveu a
tradição acadêmica de publicação de idéias e resultados. Entretanto, o ciclo normal da
publicação acadêmica tradicional era formal e devagar demais para a dinâmica troca de
idéias na criação das redes. Em 1969, um passo importante foi tomado por S. Crocker,
então na UCLA, estabelecendo série de notas relativas a "Request for Comments" (RFC,
ou, traduzindo, Solicitação de Comentários). Estas notas ou memorandos seriam uma forma
rápida de distribuição de observações no compartilhamento de idéias com outros
pesquisadores. A princípio, os RFCs eram impressos e distribuídos pelo correio tradicional.
Quando o File Transfer Protocol (FTP, significando protocolo de transferência de
arqruivos) começou a ser usado, os RFCs se tornaram arquivos online acessados via FTP.
Agora, claro, os RFCs são facilmente acessados via web em dezenas de sites no mundo. O
SRI- Stanford Research Institute, no papel de Centro de Informação de Redes, manteve os
diretórios online. Jon Postel atua até hoje como editor dos RFCs, bem como gerente da
administração centralizada de número de protocolo.
O efeito dos RFCs foi criar um círculo positivo de retornos, com idéias e propostas
apresentadas em um RFC gerando outro RFC com mais idéias, e daí por diante. Quando
algum consenso (ou pelo menos uma série consistente de idéias) era atingido, um
documento com as especificações era então preparado. Estas especificações seriam então
usadas como base para implementações pelas várias equipes de pesquisa.
Com o tempo, os RFCs se tornaram mais focados nos padrões de protocolo ( as
especificações oficiais), apesar de ainda existir RFCs informativos que descrevem
abordagens alterantivas ou provêem informações antecedentes sobre protocolos e
engenharia. Os RFCs são agora vistos como documentos de registro nas comunidades de
engenharia e padrões da Internet. O acesso aberto aos RFCs (grátis, se você tem qualquer
tipo de conexão com a Internet) promove o crescimento da Internet porque permite que
especificações reais sejam usadas como exemplos em classes universitárias e por
empreendedores desenvolvendo novos sistemas.
O correio eletrônico tem sido essencial em todas as áreas da Internet, e especialmente no
desenvolvimento das especificações dos protocolos, padrões técnicos e engenharia da
Internet. OS RFCs mais antigos apresentaram um conjunto de idéias desenvolvidas por
pesquisadores de um determinado lugar para o resto da comunidade. Depois que o e-mail
ou correio eletrônico começou a ser utilizado, o padrão de autoria mudou - os RFCs eram
apresentados por co-autores com uma visão comum, independentemente de suas
localizações.
O uso de listas de discussão especializados tem por muito tempo sido usado no
desenvolvimento das especificações de protocolo e continua a ser uma ferramente
importante. O IETF tem agora mais de 75 grupos de trabalho, cada um trabalhando num
aspecto diferente da engenharia da Internet. Cada um desses grupos tem uma lista de
discussão para trocar idéias sobre documentos em desenvolvimento. Quando o consenso é
atingido num rascunho, o documento é então distribuído como um RFC.
Como o rápido crescimento da Internet é acelerado pelo entendimento da sua capacidade de
promover o compartilhamento de informações, nós deveríamos entender que o primeiro
papel da rede foi permitir o compartilhamento da informação sbre seu próprio desenho e
operação através dos RFC. Este método único para a evolução de novas capacidades da
rede continuará a ser crítico na evolução futura da Internet.
A FORMAÇÃO DA COMUNIDADE

A Internet representa tanto uma coleção de comunidades como uma coleção de tecnologias,
e seu sucesso é largamente atribuído à satisfação das necessidades básicas da comunidade e
à utilização efetiva da comunidade na expansão da sua infra-estrutura. O espírito da
comunidade tem uma longa história, começando com a ARPANET. Os pesquisadores da
antiga ARPANET trabalharam numa comunidade fechada para conseguirem fazer as
demonstrações iniciais da tecnologia de transferência de pacotes descrita anteriormente. Da
mesma forma, vários outros programas de pesquisa da ciência da computação promovidos
pela DARPA (Packet Satellite, Packet Radio e outros) foram fruto de atividades cooperadas
que usavam pesadamente qualquer mecanismo disponível para coordenar seus esforços,
começando com o correio eletrônico e acrescentando compartilhamento de arquivos, acesso
remoto e WWW. Cada um dos programas formou um grupo de trabalho, começando com o
Grupo de Trabalho de Rede da ARPANET. Por conta do papel da ARPANET na infra-
estrutura de suporte a vários programas de pesquisa, e com a evolução da Internet, o Grupo
de Trabalho de Rede se tornou o Grupo de Trabalho da Internet.
No final da década de 70, reconhecendo que o crescimento da Internet foi acompanhado
pelo crescimento em tamanho da comunidade de pesquisa interessada na Internet e que,
portanto, havia uma necessidade maior de mecanismos de coordenação, Vint Cerf, então
gerente do Programa Internet da DARPA, formou vários grupos de coordenação:
• um Conselho de Cooperação Internacional (ICB-Internet Cooperation Board),
presidido por Peter Kirstein da UCL, para coordenar as atividades com alguns
países europeus envolvidos no programa Packet Satellite;
• um Grupo de Pesquisa Internet (Internet Research Group), para prover um ambiente
para a troca geral de informações sobre a Internet;
• e um Conselho de Controle de Configuração da Internet (ICCB-Internet
Configuration Control Board), presidido por Clark. O ICCB iria assessorar Cerf na
gerência da florescente Internet.
Em 1983, quando Barry Leiner passou a gerenciar o programa de pesquisa da Internet na
DARPA, ele e Clark reconheceram que o crescimento contínuo da comunidade Internet
demandava uma reestruturação dos mecanismos de coordenação. O ICCB foi então
substituído por forças-tarefa, cada uma focalizando uma área particular da tecnologia
(roteamentos, protocolos ponta-a-ponta, etc.). O IAB, então chamado Internet Activities
Board ou Conselho de Atividades Internet, foi então formado com os presidentes das
forças-tarefa. Foi uma coincidência que esses presidentes fossem os mesmos do antigo
ICCB e Dave Clark continuou a presidí-lo. Depois de algumas mudanças no IAB, Phill
Gross se tornou o presidente da revitalizada IETF-The Internet Engineering Task Force
(Força-Tarefa da Engenharia da Internet), naquele tempo apenas uma das forças-tarefa do
IAB. Em 1985 então, houve um tremendo crescimento no lado prático/da engenharia da
Internet. Este crescimento resultou na explosão dos comparecimentos nas reuniões do
IETF, e Gross teve que criar uma sub-estrutura do IETF na forma de grupos de trabalho.
Este crescimento foi complementado por uma grande expansão da comunidade.DARPA
então tinha deixado de ser o maior financiador da Internet. Além da NSFNet e de várias
atividades financiadas pelos governos americano e internacionais, o segmento comercial
começou a se interessar pela Internet. Também em 1985 Kahn e Leiner deixaram a DARPA
que não vinha conseguindo manter seu ritmo de atividades Internet. Como resultado, o IAB
perdeu seu patrocinador e progressivamente assumiu o papel de líder na Internet.
O crescimento da Internet continuou, resultando em nova sub-estruturação do IAB e do
IETF. O IETF combinou Grupos de Trabalho em Áreas, e designou Diretores de Áreas. Um
Grupo Diretivo de Engenharia da Internet ou a

A maioria das pessoas concorda que a Internet apareceu na data em que foi criada a
ARPANET, em 1969. Esta rede criou a primeira infra-estrutura global de comunicações e
os respectivos protocolos.
A ARPANET tinha como objectivo principal servir a investigação e o desenvolvimento,
sobretudo para o Departamento de Defesa dos Estados Unidos da América. Qualquer
conteúdo ou comunicação de índole comercial era estrictamente proíbido naquela altura.
Durante da década de 1980, a ARPANET foi sendo ligada a outras redes de universidades
e de grandes empresas, como a HP, para dinamizar ainda mais a I&D. Nos finais da década
a ARPANET deu por atingidos os seus objetivos e entregou à NSF a responsabilidade de
manter e aumentar o backbone. A NSF desenvolveu a rede sobretudo nos EUA.
Os primeiros ISP - Internet Service Providers - começaram a aparecer na década de 1980 e
começaram a dar acesso a empresas e particulares, sobretudo através de dial-up.
No início da década de 1990, a NSF começou a perder o controle sobre o backbone, à
medida que operadores privados começaram a criar as suas próprias infra-estruturas. Foi
nessa altura que as restrições à comercialização da Internet foram totalmenta abolidas.
Desde 1969, surgiram várias aplicações para a Internet, cada vez mais amigáveis ao
usuário. Alguns exemplos: Gopher, Veronica, WAIS, FTP. Outras formas de
comunicação em rede também tiveram sucesso e fizeram os primórdios da Internet, como é
o caso das BBS ou de serviços online como a Compuserve ou a AOL.
Na década de 1990, o aparecimento da World Wide Web, o desenvolvimento dos
browsers, a diminuição de custos de acesso, o aumento de conteúdos, entre outros factores,
fizeram com que a Internet tivesse um crescimento exponencial.

De onde vem os endereçosDe onde vem os endereçosDe onde vem os endereçosDe onde vem os endereços
Toda máquina na Internet precisa de um endereço IP. Eles são fornecidos normalmente
pelos ISPs (provedores) a seus associados. Cada endereço vem com um bloco de números
IP que foi dado aos ISPs pelo registro local de endereços de IP. O registro local de
endereços IPs é gerenciado por organizações internacionais, geralmente voluntárias e em
universidades ou também por outras instituições públicas. A ICANN (Internet Corporation
for Assigned Names and Numbers) gerencia a locação de endereços IPs nos Estados
Unidos enquanto que a RIPE manipula os endereços na Europa. A região Ásia-Pacífico é
controlada pela APNIC. No Brasil você pode ir ao endereço http://registro.br e encontrar
informações sobre os provedores nacionais. Você pode usar os serviços destas organizações
para determinar a quem pertence um determinado bloco de endereços, o que pode ser útil
para você tentar punir retirando da rede um invasor ou alguém que nos envie um spam.
Os números IPs são recursos valiosos. A versão atual de IP, v4, é somente um sistema de
32-bits, cujos endereços são divididos em quatro octetos separados por pontos. Estes são
representações binárias, de grupos de 8-bits, que compõem o endereço IP. Um endereço
como 192.132.34.36 é um número binário de 32-bits. Isto significa que existem
4.294.967.296 possibilidades para endereços IPs, embora isto na realidade é um pouco
menor visto que alguns deles são reservados para máscara de rede e gateways. Esta
quantidade não era tão ruim nos primórdios da Rede, onde podíamos resolver tudo com um
ou dois conjuntos. As companhias e organizações são agrupadas por tipo de endereços:
classe A, que é na forma 1.0.0.0, classe B, na forma 1.1.0.0 e classe C (1.1.1.0). Uma
simples classe C pode conter 254 endereços IP para seus dispositivos e uma classe A pode
conter 0,4% de todos os endereços da Internet.
Isto pode não parecer muito, mas se considerarmos que 100 classes do tipo A são utilizadas
por grandes companhias e universidades isto vem a corresponder perto de 40 por cento de
todos os endereços e estes ficam reservados, mesmo se somente alguns milhares deles não
estejam realmente em uso.
Foi por isto que foi criado o CIDR (Classless Inter Domain Routing). O CIDR é uma banda
adicional que veio ajudar a reduzir a divisão daqueles endereços IPs que estão sendo mal
utilizados.Ao invés de utilizarmos o mínimo de 254 endereços, o registro de endereços
pode utilizá-los quatro vezes mais. Pelo encorajamento do uso de serviços transacionados
por estes endereços e por espaços de endereços privados sem rota, definidos pelo RFC
1918, a demanda por novos endereços caiu drasticamente.

IPv6IPv6IPv6IPv6
Uma nova versão do IP, v6, promete expandir bastante o número de IPs disponíveis.
Atualmente em teste, o IPv6 é suportado pela maioria dos sistemas operacionais, incluindo
o Windows 2000 e o Linux. Ele aumentou significantemente o número de IPs disponíveis
por ser um número de 64-bits. Isto, teoricamente, permite atingir acima de 1,8 x 1.019
endereços - o que é mais do que suficiente para nós, isto até que venhamos a criar a versão
de 128-bits de IP a qualquer momento em nosso futuro. O IPv6 tem a capacidade de
suportar o número astronômico de dispositivos sem-fio, assim como as tecnologias de rede
Jini e Bluetooth.
Então, como um pacote caminha de uma máquina para a outra? É impraticável lembrar do
endereço IP de cada dispositivo na Internet. Muito cedo na história da Internet foi
encontrada uma solução bem simples que ainda é utilizada até hoje. O DNS (Domain Name
Server) mapeia os endereços IPs das máquinas através dos nomes simples, armazendados
em uma árvore hierárquica do sistema DNS. Um servidor DNS manipula todos os nomes
de máquinas de sua rede assim como seus endereços IPs.
Imagine uma árvoreImagine uma árvoreImagine uma árvoreImagine uma árvore
Quando uma aplicação solicita um endereço de uma máquina através de seu nome, ele é
enviado para um sistema DNS de sua rede de computadores. Se o endereço da máquina for
encontrada 'localmente', então o problema é resolvido rapidamente. Senão, a solicitação é
passada rapidamente para a árvore de servidores DNS até encontrar o servidor que
manipula a informação. É bem mais fácil de entender se considerarmos o sistema de DNS
como uma árvore, onde cada parte é um novo nível do nome do domínio. Por exemplo,
'maca.com.br' pode ser enviado para o servidor responsável por '.com.br', ou até mesmo
para '.br'.
Assim como os endereços IPs, os nomes dos domínios precisam ser registrados
centralizadamente. Registros de nomes de domínios nacionais e internacionais são
manipulados, criando-se tabelas de DNS de alto nível para os domínios de nível superior
(TLDs - Top Level Domains). Os TLDs incluem domínios como .com, .org, .br, .ru e
nomes de registos de domínios registrados sob os auspícios do ICANN e são gerenciados
por seus governos nacionais.
Recentemente os principais TLDs foram entregues a um número de organizações
diferentes, ao invés de uma solução dentro na Internet, dando-lhes, então, um monopólio
virtual.
Visto isto tudo, o IP e o DNS formam a base de como os computadores se interagem na
Internet. Eles não são ferramentas simples, naturalmente, mas eles estão mudando o mundo
de uma forma que seus projetistas nunca imaginaram.
HISTÓRIA DO E-MAIL
O e-mail é anterior ao surgimento da Internet. Os sistemas de e-mail foram uma ferramenta
crucial para a criaçãoda rede internacional de computadores.
O primeiro sistema de troca de mensagens que se tem notícia foi criado em 1965, e
possibilitava a comunicação entre os múltiplos usuários de um computador do tipo
mainframe. Apesar da história ser um tanto obscura, acredita-se que os primeiros sistemas
criados com tal funcionalidade foram o Q32 da SDC e o CTSS do MIT.
O e-mail transformou-se rapidamente em um "e-mail em rede", permitindo que usuários
situados em diferentes computadores trocassem mensagens. Também não é muito claro
qual foi o primeiro sistema que suportou o e-mail em rede. O sistema AUTODIN, em
1966, parece ter sido o primeiro a permitir que mensagens eletrônicas fossem transferidas
entre computadores diferentes, mas é possível que o sistema SAGE tivesse a mesma
funcionalidade algum tempo antes.
A rede de computadores ARPANET fez uma grande contribuição para a evolução do e-
mail. Existe um relato que indica a transferência de mensagens de e-mail entre diferentes
sistemas situados nesta rede logo após a sua criação, em 1969. O programador Ray
Tomlinson iniciou o uso do sinal @ para separar os nomes do usuário e da máquina no
endereço de email em 1971. Considerar que ele foi o "inventor" do e-mail é um exagero,
apesar da importância dos seus programas de email: SNDMSG e READMAIL. A primeira
mensagem enviada por Ray Tomlinson não foi preservada; era uma mensagem anunciando
a disponibilidade de um e-mail em rede. A ARPANET aumentou significativamente a
popularidade do e-mail.
Tecnologia
Servidores de E-mail
O que é e para que serve um servidor de E-mail? Um servidor de E-mail gerencia os e-
mails que são enviados e recebidos. Os servidores de e-mail podem ser servidores Internet,
onde e-mails enviados e recebidos podem ser transitados para qualquer lugar do mundo, ou
servidores de correio de intranet onde as mensagens trafegam apenas dentro da empresa.
Através do correio eletrônico podem ser criados grupos de discussão sobre quaisquer
assuntos. Estes grupos são chamados de listas ou refletores. Um refletor é uma caixa postal
eletrônica falsa. Todas as mensagens enviadas para esta caixa postal, são transmitidas para
as pessoas cadastradas na lista deste refletor. Desta forma cada membro do grupo passa a
dispor das mensagens enviadas para o refletor em sua caixa postal ou mailbox. Cada
membro, pode ler as mensagens e dar a sua opinião sobre elas enviando uma nova
mensagem para o refletor.
Sistemas Livres
O correio eletrônico tornou-se uma ferramenta indispensável não só para tornar a
comunicação dentro das organizações mais rápida, como também os processos, fazendo
com que o acesso às informações seja democrático e ajudar a popularizar as rotinas e
procedimentos. Utilizar correios eletrônicos comerciais, e manter estes produtos
atualizados, torna-se bastante caros para as organizações que não fazem recursos de
groupware. Ainda com o aumento de usuários e o custo da implementação, faz com que
estas empresas migrem seus serviços de email para uma solução gratuita, sem perda de
funcionalidade, qualidade de produto ou segurança. Uns destes Sistemas Livres é o
sendmail que é um servidor de correio eletrônico largamente utilizado na internet. Este
dispõe de ferramentas que permitem estabelecer a conexão via protocolo SMTP para enviar
mensagens, os clientes web têm se tornado cada vez mais populares devido à facilidade de
acesso, já que não é preciso instalar nenhum software específico ou configurar perfis de
acesso para cada usuário. Cada vez mais grandes organizações tem utilizado o sistema de
correio eletrônico para aumentar a comunicação entre os seus diversos setores. Só que nem
sempre este benefício de se ter um meio tão ágil apresenta um custo baixo, por isso foram
desenvolvidas várias ferramentas gratuitas para o uso de correio eletrônico.
Como exemplo de sistemas de correio eletrônico livres podemos citar o PostFix, que é um
dos candidatos a substituir o SendEmail. O PostFix é hoje uma das melhores alternativas
para todas as empresas que desejam utilizar um servidor de email sem ter grandes gastos,
ele foi escrito de forma direta e clara e visa facilitar e ajudar o Administrador Linux já que
esse software é muito fácil de utilizar, além de ser um agente de transporte de email muitas
vezes chamado simplesmente de servidor de email. O PostFix pode ser utilizado em grande
escala pelas empresas, pois o mesmo pode ser utilizado desde laptop pessoal até para
gigantes. Além de apresentar grande facilidade para sua configuração ele é um servidor de
email robusto e apresenta vários recursos como ANTI_SPAM, evitando assim o número de
SPAM enviado na rede. A utilização de softwares livres nas organizações podem trazer
grandes vantagens para as organizações. Além desses softwares reduzirem drasticamente os
gastos com lincenças em relação aos softwares proprietários, podem ser adicionados partes
de software ou programas para realizar determinada tarefa não atentida por esses softwares.
O PostFix se torna uma solução barata para utilizxcvação em empresas já que é facil de
utilizar e configurar, não tendo necessidade de grandes treinamentos para sua instalação e
administração, isso está tornando sua disseminação rápida e este software está cada vez
mais sendo utilizado.
Sistemas Comerciais
Podemos citar como exemplo o Microsoft Exchange 2000 Server. Examinando os
ambientes do Exchange, podemos perceber como são organizados, isto acontece porque a
raiz de um ambiente Exchange é uma organização. Desta forma, encontramos os
componentes principais que compõem a organização do Microsoft Exchange: ·
Configurações globais: aplicam-se a todos os servidores e destinatários de uma
organização. As três configurações globais mais comuns são: formatos de mensagens da
internet, entrega de mensagens e mensagens instantâneas; · Destinatários: entidade que
pode receber mensagens do Exchange. Os destinatários podem ser usuários, contatos,
grupos e outros recursos. Você se refere aos destinatários como ativado para caixa de
correio ou como ativado para correio. Os destinatários que são ativados para caixa de
correio (usuários) possuem caixas de correio para enviar e receber mensagens de email. Os
destinatários que são ativados para correio (contatos e grupos) têm endereço de email, mas
não têm caixa postal. Assim, eles podem receber mensagens, mas não podem enviar; ·
Grupos administrativos: definem a estrutura lógica de uma organização do Exchange.
Usados para organizar objetos de diretório e gerenciar os recursos do Exchange com
eficiência. Os grupos administrativos são mais adequados para organizações grandes ou
para organizações que possuam escritórios em várias localidades. Em uma empresa de
pequeno ou médio porte, por exemplo, pode não ser necessário utilizar grupos
administrativos. · Grupos de roteamento: são usados em instalações avançadas do
Exchange, nas quais é preciso controlar a conectividade das mensagens e os canais de
comunicação para grupos de servidores do Exchange. Quando você instala o primeiro
servidor do Exchange em uma organização, o servidor é adicionado ao grupo de roteamento
padrão. Não existe controle sobre esse grupo de roteamento com operações em modo misto.
Os servidores adicionais instalados na organização do Exchange são adicionados a esse
mesmo grupo de roteamento por padrão, e a conectividade de mensagens e a comunicação
entre esses servidores são configuradas automaticamente.

O envio e recebimento de uma mensagem de e-mail é realizada através de um sistema de
correio eletrônico. Um sistema de correio eletrônico é composto de programas de
computador que suportam a funcionalidade de cliente de e-mail e de um ou mais
servidores de e-mail que, através de um endereço de e-mail, conseguem transferir uma
mensagem de um usuário para outro. Estes sistemas utilizam protocolos de internet que
permitem o tráfego de mensagens de um remetente para um ou mais destinatários que
possuem computadoresconectados à Internet.
Formato de e-mail na Internet
O formato na Internet para mensagens de e-mail é definido na RFC 2822 e uma série de
outras RFCs (RFC 2045 até a RFC 2049) que são conhecidas como MIME.
Mensagens de e-mail consistem basicamente de duas seções principais:
• cabeçalho (header) - é estruturada em campos que contém o remetente, destinatário
e outras informações sobre o e-mail.
• corpo (body) - contém o texto da mensagem.
O corpo é separado do cabeçalho por uma linha em branco.
Funcionalidades
Hoje os grandes Sites criaram uma série de facilidades para o usuário podemos citar
algumas. Note que essa variação é só uma facilidade e não um novo tipo de e-mail. Entre
estas podemos citar:
E-mail oculto
É um mecanismo que permite o usuário ocultar seu endereço de origem e ao mesmo tempo
manter em segredo seu dado pessoal
E-mail restrito
Alguns sites restringem alguns tipos de e-mail. Esse tipo de restrição normalmente é usado
a fim de evitar a atuação de um spammer ou divulgador não autorizado, normalmente esse
tipo de e-mail é mais usado em empresas.
E-mail com privacidade segura
Normalmente usado por autoridades e seu uso é controlado. Por medida de segurança
alguns organismos e entidades internacionais ou mesmo ligados a Governos, categorizam o
e-mail como:
• Privativo ou de uso exclusivo da autoridade, esse e-mail, apesar de ter acesso a rede
é tão restrito que a própria autoridade deve configurar de quem recebe os e-mails;
• Semi Privativo o mesmo que privativo porem menos restrito.
Os americanos chegam ao cúmulo de dar níveis e subníveis a esse tipo de e-mail;
Entretanto, vêm crescendo o uso da criação de chaves criptográficas pessoais (facilidade
provida por aplicativos especializados), assegurando a privacidade das informações "de
qualquer importância" de cada indivíduo. Tais chaves possuem uma grande flexibilidade,
escalabilidade e confiabilidade. Dicas de segurança: nunca abrir ou responder e-mails
desconhecidos,nunca abrir arquivos de e-mails desconhecidos, pois podem conter vírus e
ter sempre um anti-spyware e antivírus instalados no seu computador.
E-mail categorizado ou especial
Especial ou categorizado em níveis, são de usos exclusivos dos Provedores de INTERNET,
servem para testes e verificar se funciona ou não o seu sistema anti spam.
E-mails gratuitos
Com a popularização da internet através dos provedores gratuitos (cujos usuários
ganhavam também um e-mail grátis) muitos sites começaram a oferecer e-mails gratuitos
desvinculados de qualquer outro serviço. Esses e-mails podem ser lidos com o uso do
próprio navegador, sem a necessidade de um software específico, sendo por isso também
chamados webmail.
Popularidade
O correio eletrônico se tornou tão popular devido a sua grande facilidade em quebrar
barreiras geográficas. Pessoas que estão em diferentes continentes podem se comunicar,
desde que possuam computadores conectado a Internet, eles podem enviar e receber
mensagens a qualquer hora do dia e para qualquer parte do mundo.
Observa-se que o correio eletrônico deixa de ser apenas um meio de troca de mensagens
entre pessoas para se tornar um grande fator na produtividade das empresas. Grandes
empresas estão cada vez mais utilizando o correio eletrônico para desempenhar papéis
decisivos em suas negociações. A Intranet pode ser utilizada para tornar a comunicação de
funcionários com outros grupos tornando assim mais fácil o trabalho e eliminando SPAM e
outras mensagens indesejadas.
Áreas de Aplicações
As aplicações de correio eletrônico, normalmente oferecem ao usuário uma série de
facilidades. A maior parte delas fornece um editor de textos embutido e a possibilidade do
envio de arquivos anexados a correspondência. Além disso, a maioria das aplicações
permite o envio de correspondências para um único destinatário ou o envio para mais de
uma pessoa ou para um grupo de pessoas. Embora não tenha sido desenvolvida como uma
ferramenta de trabalho cooperativo, os serviços de correio eletrônico adaptaram-se muito
bem ao ambiente de grupos de trabalho onde se tornaram indispenáveis nas organizações,
agilizando processos, democratizando o acesso as informações e diminuindo os custos. Esta
é uma das formas mais utilizadas para o estabelecimento de comunicações através do
computador. Muitas organizações utilizam o correio eletrônico como forma de troca de
mensagens, mas se quiserem utilizar recursos de groupware poderão inclui-los de forma
simples e com baixo custo, com uma boa seguranca.

FTP (File Transfer Protocol)

FTP significa File Transfer Protocol (Protocolo de Transferência de Arquivos), e é uma
forma bastante rápida e versátil de transferir arquivos sendo uma das mais usadas na
internet.
Pode referir-se tanto ao protocolo quanto ao programa que implementa este protocolo
(neste caso, tradicionalmente aparece em letras minúsculas, por influência do programa de
transferência de arquivos do Unix).
A transferência de dados em redes de computadores envolve normalmente transferência de
ficheiros e acesso a sistemas de ficheiros remotos (com a mesma interface usada nos
ficheiros locais). O FTP (RFC 959) é baseado no TCP, mas é anterior à pilha de protocolos
TCP/IP, sendo posteriormente adaptado para o TCP/IP. É o standard da pilha TCP/IP para
transferir ficheiros, é um protocolo genérico independente de hardware e do sistema
operativo e transfere ficheiros por livre arbítrio, tendo em conta restrições de acesso e
propriedades dos ficheiros.
Modos e interfaces
O protocolo subjacente ao FTP pode correr nos modos iterativo ou "batch". O cliente FTP
fornece uma interface interactiva, enquanto que o MIME e o HTTP usam-no directamente.
O protocolo permite a gravação e obtenção de ficheiros, a listagem do directório e a
alteração do directório de trabalho.
Funcionamento
O protocolo de transferência de arquivos envolve duas diferentes conexões . O programa
do usuário envia o comando " log-me neste usuário" , " aqui está meu password" , " envie-
me o arquivo com este nome".
Assim que o comando para mandar dados é enviado, uma segunda conexão é aberta para
seus dados.
Certamente seria possível enviar dados em uma conexão, como o mail faz. Entretanto,
transferências de arquivos geralmente levam algum tempo e os projetistas do FTP
desejavam permitir que o usuário continuasse emitindo comandos enquanto a transferência
era feita. Por exemplo, solicitar uma informação ou abortar a transferência. Assim os
projetistas sentiram que foi melhor usar uma conexão separada para os dados e deixar a
conexão original para os comandos.
Facilidades FTP
1)Acesso interativo
Embora FTP seja designado para ser usado por programas, a maioria das
implementações proporcionam uma interface interativa que permite as pessoas
interagirem com servidores remotos facilmente.
2)Especificação do formato
FTP permite ao cliente especificar o tipo e o formato dos dados armazenados.
3)Controle de autenticação
FTP solicita aos clientes a sua autorização para enviar um login name e uma
password para o servidor antes de solicitar transferência de arquivo. O servidor
recusa o acesso do cliente que não fornece um login e uma password válidos.

FERRAMENTAS DE BUSCA

Principais ferramentas de busca nos EUA e no Brasil, segundo UFRJ.
Estados Unidos
37.com
AHKING.NET
All4One
AllSearchEngin
es.com
Amera
Argus Clearingh.
Altavista
Atlantica
Belseek
Bighoo!
Big what.com
Bomis.com
Clever Search
Cyber411
Cyberdirectory
Direct Hit!
Eletric Library
EL TURCO!
Excite
Fast Search
FINAL
SEARCH
Galaxy
Go Crawl
Go To.com
Google
Guide to Meta
SEs
Hachette.net
HandiLinks
Hitbox!
Hits Galore
Hotbot
Hyperseek
ICN Explorer
i.Explorer
Infohiway
Infomak
Infoseek
InfoSpaceJASS
AN
Jump City
Kanoodle
Linkavista.com
Link Monster
Linkopedia
LinkStar
Look Smart
Lycos
Magellan
Mamma
Match SiteMeta Bug
MetaCrawler
MetaFind
Meta Gopher
Meta Search
MEGAWEB
Mining Co.Com
MicroWho
Monster Crawler
MultiMeta
MyWay
National
Directory
Net Acer
Net Guide
Nerd World
Net Windows
Netcenter
Northern Light
One Seek
Open Directory
Open Text
PHATOZ
Prime Seek
ProFusion
Pure Search
Qango
Quest Finder
Resoft Links
REX
SavvySearch
Surfy
Search-Beat
Search King
Search Lynx
SearchSpaniel
SignPost!
SmallBizFFA
Snap
Starting Point
Suite 101.com
Surf Oasis
Surf Point
Super Crawler
Super Snooper
Surf Gopher
Tagapaghanap
Tecor
The Big Hub
The Cozy Cabin
THE NET ONE
The Rail
Junction
The Search
Index
The
UltraBrowser
total SEEK
Turbo Seek.net!
Webcrawler
WebData®
Classifications
Web Ripper
Web Search
Web Surfer
What´s New
What´s New
Too
WhatUseek
World Hot.com
WWWVirtualLi
b
Web Info Search
Web Taxi
WebSearch
Yahoo
Yep
Yippie.net

Brasil
Abusca
Altavista.com.br
Aonde
Argos
BookMarks -
AlterNex Search
Brazilian
Business
ConnectionBrazi
lBiz
Brazilis Index
Busca Aqui
Busca Web
Cadê?
forum busca
Guia Internet
StarMedia
i mais
Online WWW
Index
LOJA NET
MetaBusca
Miner
MisterZ
NetscOpiO
PlugSearch
Quem?
Radar UOL
Radix
Surf
SuperMail
Tornado
Vanguarda
VISÃO
WS Guide
www.procura.co
m.br
Yahoo!Brasil
ZAP BUSCA
Zeek

Textos complementares

Possibilidades da tecnologia
Deve haver equilíbrio entre troca de arquivo e direito autoral
por Daniel Arbix
Desde antes da internet, conteúdos podiam ser transmitidos de um computador para outro, por
meio de conexão direta. Hoje, tornou-se comum uma pessoa mandar a outra, por e-mail, um
texto, uma música ou uma foto. A diversidade de ferramentas de publicação impressiona: blogs,
fotologs, websites e wikis surgem como novas opções para o envio de arquivos, com poucos
cliques, sem intermediários e praticamente sem custos.
Esses modelos de troca de conteúdos pressupõem o conhecimento do interlocutor virtual.
Quem deseja um arquivo precisa tomar algum contato prévio com quem o enviará. Com a
popularização da internet, porém, demandaram-se meios mais eficientes para a aproximação
desses interessados. Então, substituindo formas mais simples de comunicação, as tecnologias
P2P — peer-to-peer revolucionaram as relações online de troca e distribuição de conteúdos.
O funcionamento dos programas P2P é tão inovador quanto simples. Um software liga cada
pessoa online às outras, formando listas de todas as músicas, textos e filmes disponíveis.
Nessa rede virtual, multiplicam-se os conteúdos trocáveis e as trocas de conteúdo — quase
sempre entre desconhecidos.
A partir do Napster, de 1999, uma infinidade de programas P2P voltou-se à transmissão de
conteúdos digitais. Essa proliferação transformou os fluxos da internet — arquivos antes
transmitidos de websites a usuários da rede passaram a circular diretamente entre os
interessados. Sem “depósitos de arquivos”, o trânsito de parceiro para parceiro (peer to peer)
dispensou intermediários.
As ferramentas P2P são hoje responsáveis por mais da metade do tráfego da internet. Seu
sucesso vem da flexibilidade (além de músicas e vídeos, textos, jogos e até softwares inteiros
são distribuídos por esses programas), e de facilidade e rapidez no contato com novos
conteúdos. A oferta ampliada de produtos culturais fascina internautas antigos e recentes. Com
os programas P2P, a projeção cultural é possível sem os canais tradicionais da indústria do
entretenimento.
As limitações materiais enfrentadas são a capacidade da conexão à internet e o tempo
disponível. Para os usuários incautos desses programas, contudo, mais perigosa é a limitação
jurídica à troca de conteúdos: a proteção imediata decorrente de direitos autorais e de imagem,
e a mediata, das relações contratuais em que os bens intelectuais trocados se inserem.
As empresas que investem em P2P tem nos anúncios sua principal fonte de receitas. Por isso,
visam à ampliação de sua base de consumidores. Nem sempre, entretanto, de forma atenta a
direitos de terceiros — há poucos instrumentos de compensação aos autores dos conteúdos
transmitidos, e até pouco tempo atrás, havia mesmo descaso com os direitos envolvidos. Os
programas P2P foram logo acusados de violação em massa de tais direitos, de desrespeito à
privacidade de usuários e de disseminação de vírus e pornografia.
Essas reclamações alimentaram uma ação judicial contra o Napster, condenado pela Suprema
Corte dos Estados Unidos por não monitorar a transmissão de conteúdos protegidos. Os
programas P2P posteriores já não podiam mais fazer esse tipo de intervenção, porque não
formavam listas de arquivos em um único servidor. Cada usuário enxergava os conteúdos
disponíveis após comunicação direta com os demais usuários. À primeira vista, o controle mais
frouxo seria um incentivo à impunidade.
Mas, no final de 2005, a mesma Suprema Corte condenou o programa Grokster por incentivar a
violação de direitos autorais, ainda que não pudesse controlar as ações dos usuários de seu
software. Ademais, no mundo todo, indivíduos foram processados por transmitir, sem
autorização, conteúdos protegidos por direitos autorais.
A distinção nebulosa entre usos legítimos e ilegais das tecnologias P2P torna essas batalhas
judiciais incertas, custosas e negativas sobre o público consumidor de músicas e filmes. A
opção pelo litígio divide titulares de direitos autorais, de um lado, e empresas e indivíduos
interessados em compartilhar conteúdos protegidos, de outro.
A indústria do entretenimento, então, adotou de vez o comércio pela internet. O pioneiro site
iTunes recentemente ultrapassou 500 milhões de downloads, movimentando em 2005 mais de
US$ 1 bilhão. No Brasil, gravadoras, selos fonográficos, distribuidores de filmes e artistas
independentes também seguem essa tendência.
A opção pela distribuição não convencional é estratégia comercial cada vez mais necessária e
lucrativa. Perdem espaço os suportes físicos (CDs, DVDs etc.) — os estúdios Warner, por
exemplo, acabam de anunciar a venda de filmes pelo programa P2P BitTorrent, responsável
atualmente por um quarto do tráfego da internet.
Esses programas, por sua vez, tomaram medidas próprias para evitar confrontos judiciais.
Alguns filtram os arquivos transmitidos, vetando conteúdos ilícitos. Outros excluem usuários
que promovem a pirataria. Tais iniciativas mostram clara disposição para não violar as leis que
protegem as criações intelectuais.
Busca-se assim um equilíbrio quanto aos direitos autorais e as tecnologias de transmissão de
conteúdos. Os direitos da indústria do entretenimento são protegidos, com punições às
transmissões ilegais de conteúdo. Ao mesmo tempo, não ficam proibidas as novas tecnologias.
E os consumidores de tecnologias e bens intelectuais podem respirar mais livremente.
(Artigo originalmente publicado no Valor Econômico)

The Anatomy of a Large-Scale Hypertextual Web Search Engine
Sergey Brin and Lawrence Page
{sergey, page}@cs.stanford.edu
Computer Science Department, Stanford University, Stanford, CA
94305

Resumo

Nesse paper, apresentamos Google, um protótipo de uma máquina de busca em larga escala
que faz uso intensivo da estrutura presente em hipertextos. Google é projetada para rastrear e
indexar eficientemente a Web e produzir resultados mais satisfatórios do que sistemas
existentes. Um protótipo com bancos de dados de textos completos e hiperlinks de pelo menos
24 milhões de páginas está disponível em /google.standford.edu
Projetar uma máquina de busca é uma tarefa desafiante. Máquinas de busca indexam dezenas
ou centenas de milhões de páginas web, contendo um número comparável de diferentes
termos. Elas respondem a dezenas de milhões de pesquisas todos os dias. Apesar da
importância demáquinas de busca em larga escala na internet, muito pouca pesquisa
acadêmica tem sido feita a esse respeito. Além disso, por causa do rápido avanço da
tecnologia e do crescimento acelerado da web, criar uma máquina de busca hoje é muito mais
difícil do que três anos atrás. Esse paper fornece uma descrição detalhada de nossa máquina
de busca de larga escala - a primeira descrição desse tipo de que se tem notícia até o presente.
Além dos problemas de se adaptar as técnicas de pesquisa tradicionais a essas escalas
gigantescas, existem outros desafios técnicos a serem enfrentados, referentes à utilização, para
aprimoramento dos resultados, das informações adicionais presentes nos hipertextos.
Outro problema abordado é como lidar com o fato de que novas informações, na forma de
hipertexto, podem ser livremente publicadas por qualquer pessoa.

Palavras-chave: World Wide Web, Search Engines, Information Retrieval, PageRank, Google
Características do sistema.
A Google apresenta duas importantes características que a ajudam a produzir resultados de
alta precisão. Em primeiro lugar, ela faz uso da estrutura de links da Web pra calcular uma
medida de qualidade para cada página; essa medida é chamada PageRank, e está descrita
com detalhes em [Page 98]. Em segundo lugar, a Google utiliza informações contidas em links
para melhorar o resultado das pesquisas.
2.1 PageRank: trazendo ordem para a Web
O grafo de citações (links) da web é um recurso importante que tem sido pouco usado pelas
máquinas de busca. Nós criamos alguns mapas que contêm 518 milhões de hiperlinks, uma
amostra significativa do total. Esses mapas permitem um rápido cálculo do "PageRank" de
páginas da web, uma medida objetiva de sua importância em citações, que guarda boa
correlação com a idéia subjetiva que as pessoas têm de importância. Graças a essa correlação,
PageRank é uma excelente maneira de priorizar os resultados de pesquisas por palavras-
chave. Para temas populares, uma pesquisa que examina apenas os títulos das web pages
retorna resultados admiráveis, quando os mesmos são ordenados por PageRank (demo
disponível em google. stanford.edu). Para as pesquisas que avaliam todo o texto dos
documentos, como ocorre no sistema principal da Google, PageRank também é de grande
utilidade.
2.1.1. Descrição do cálculo do PageRank
A técnica acadêmica de citações literárias tem sido aplicada à web, principalmente por meio da
contagem de citações (links) a uma determinada página; essa técnicao fornece uma
aproximação da importância ou qualidade de uma página.
PageRank é uma extensão dessa idéia, com algumas diferenças: os links não são
considerados todos iguais; é feita uma normalização do número de links em cada página.
PageRank é definido da seguinte forma:
Assumimos que existam páginas T1, T2, ..., Tn que contenham links apontando para a página
A (ou seja, as páginas T fazem citações à página A). O parâmetro d é um fator redutor que
pode assumir valores entre 0 e 1; nós usualmente estabelecemos d como 0.85 (há mais
detalhes sobre d na próxima seção). C(A) representa o número de links que existem na página
A. O PageRank da página A é dado pela expressão:
PR(A) = (1-d) + d [PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn)]
Observe que os PageRanks formam uma distribuição de probabilidades através de páginas
web; assim a soma dos PageRanks de todas as páginas web é igual a um.

PageRank ou PR(A) pode ser calculado utilizando-se um simples algoritmo iterativo, e
corresponde ao eigenvector principal da matriz normalizada de links da web. Ademais, o
PageRank de 26 milhões de páginas pode ser calculado em algumas horas, utilizando-se uma
estação de trabalho de médio porte. Há muitos outros detalhes que estão além do escopo
desse trabalho.

2.2 Explicação intuitiva
PageRank pode ser interpretado como o modelo de comportamento de um usário. Nós
supomos que existe um "usuário aleatório", a quem se fornece uma página aleatório, a partir da
qual ele clica aleatoriamente; tal usuário nunca clica o botão "back", mas em algum momento
ele se cansa do conteúdo da página que está visitando e requisita outra página aleatória. A
probabilidade de que esse usuário aleatório visite determinada página é o PageRank dessa
página. Além disso, o fator redutor d é a probabilidade, em cada página, de que o usuário
aleatório se canse e requisite outra página aleatória.
Uma variação importante é atribuir o fator d apenas a uma página, ou a um grupo de páginas.
Isso permite personalização e torna quase impossível enganar deliberadamente o sistema, a
fim de se conseguir maiores rankings. Há outras extensões de PageRank, ver [Page98].
Outra explicação intuitiva é que uma página terá alto PageRank se houver muitas páginas
apontando para ela, ou se houver algumas páginas de alto PageRank apontando para ela.
Intuitivamente, é fácil aceitar que páginas que são freqüentemente citadas em muitos outros
pontos da web são merecedoras de uma visita; por outro lado; se uma página não é de alta
qualidade, ou se for um link quebrado, é pouco provável que a homepage do Yahoo! aponte
para ela. PageRank trata essas duas situações, e todas as outras situações intermediárias, por
meio da propagação recursiva de pesos através da estrutura de links da web.

2.2 Texto âncora
O texto dos links é tratado de maneira especial pela nossa search engine. A maioria das
máquinas de busca associa o texto de um link com a página que contém o link; nós, além de
fazer isso, associamos o texto com a página para a qual o link aponta. Isso apresenta algumas
vantagens. Âncoras, freqüentemente, fornecem uma descrição mais precisa de páginas web do
que as próprias páginas. Além disso, âncoras podem existir para documentos que não podem
indexadas por uma search engine baseada em texto, tais como imagens, programas e bancos
de dados; torna-se possível assim retornar páginas que não foram de fatos rastreadas
(crawled). Vale notar que páginas que não foram rastreadas podem causar problemas, já que
sua validade nunca foi verificada, antes de serem retornadas para os usários; pode ocorrer,
inclusive, que a search engine retorne uma página que nunca tenha existido, mas que tenha
links apontando para ela (contudo, como é possível ordenar os resultados, esse problema
raramente acontece).
Essa idéia de propagação de texto-âncora à página à qual o link aponta foi implementada no
World Wide Web Worm [McBryan 94], especialmente porque ela ajuda na pesquisa de
informações não-textuais, e expande a cobertura da pesquisa a partir de um menor número de
documentos baixados. Nós utilizamos texto-âncora principalmente para obter resultados de
melhor qualidade. A utilização eficiente de textos-âncora é difícil, por causa das grandes
quantidades de dados que vem ser processadas; em nossa amostra de 24 milhões de páginas,
nós indexamos mais de 259 milhões de âncoras.

2.3 Outras peculiaridades
Além de PageRank e do uso de texto âncora, Google apresenta outras diversas peculiaridades.
Primeiramente, ela tem informação sobre a localização de todos os hits (Nota do Tradutor: um
hit significa que uma palavra-chave foi identificada num documento) e, por isso, faz uso
intensivo da proximidade de palavras-chave, ao realizar as pesquisas. Além disso, Google
presta atenção a alguns detalhes visuais da apresentação, como tamanho das fontes; palavras
escritas em fontes maiores ou com negritos têm um peso maior que outras palavras. Ademais,
o inteiro teor das páginas HTML fica disponível em um repositório próprio.

Google PageRank
Para se compreender o que é, e qual a importância do Pagerank, é necessário recordar um
pouco da luta entre Search Engines e spammers que vem sendo travada desde que a internet
tornou-se comercial.
Já se tornara evidente que (as SERPs mostravam isso), se se deixasse a cargo dos
webmasters a tarefa de determinar qual o assunto abordado nas páginas (ou seja, se o ranking
fosse determinado apenas por fatores