Home About us Products Services Contact us Bookmark
:: wikimiki.org ::
Internet

Internet

Internet est le nom donné au réseau informatique mondial, reposant sur le système d'adresses global des protocoles de communication TCP/IP (Transmission Control Protocol/Internet Protocol) et qui rend accessible au public des services comme le courrier électronique et le World Wide Web. Comme l'internet a été popularisé par l'apparition du World Wide Web (alias la Toile d'Araignée Mondiale), un système hypertexte fonctionnant sur l'internet, les deux sont parfois confondus par le public non averti. La Toile est une application informatique fonctionnant sur Internet parmi d'autres, comme le courrier électronique, la messagerie instantanée ou les systèmes de partage de fichiers poste à poste. poste à poste

Terminologie

Le terme d'origine anglaise Internet a été dérivé du concept dinternetting (interconnecter des réseaux) dont la première utilisation documentée remonte à octobre 1972 par Robert Kahn [http://www.cnri.reston.va.us/bios/kahn.html] au cours de la première ICCC (International Conference on Computer Communications) à Washington. Au cours de l'histoire de la création d'Internet, on trouve différents noms qui sont parfois considérés comme ancêtres du terme Internet : internetting, interconnected networks, internetworking, internetwork, international inter-connected networks, Inter Net, inter-net, International Network. Toutefois les origines exactes du terme Internet restent à déterminer. Ce flou a favorisé l'apparition de multiples explications faisant office d'origine. Aujourd'hui ceux qui prétendent détenir la véritable origine du terme sont légion (un exemple courant est de dire quInternet est l'acronyme dinterconnected networks). Toutefois on sait que c'est le 1983 que le nom Internet, déjà en usage pour désigner l'ensemble d'ARPANET et des réseaux, est devenu officiel. La définition de ce qu'est Internet n'est pas évidente à expliciter de manière précise sans entrer dans les détails techniques, ce qui tend à une vulgarisation de la définition et facilite les confusions et imprécisions en français. Une des confusions les plus courantes porte sur le Net (en français « réseau ») et le Web (en français « toile » dans le sens « toile d'araignée »). En réaction à l'importance croissante du « phénomène Internet » et la prolifération de termes relatifs à ce phénomène dans le langage, il y a eu diverses publications au Journal officiel de la République française [http://www.journal-officiel.gouv.fr/]. L'une d'elle indique qu'il faut utiliser le mot Internet comme un nom commun, c'est-à-dire sans majuscule. L'Académie française recommande de dire « l'internet », comme on dit souvent « le web ». En anglais, on utilise un article défini et une majuscule pour parler dInternet. Cet usage vient du fait quInternet est de loin le plus étendu (mondial) et le plus grand internet du monde. Un internet (avec un i minuscule) est un terme anglais utilisé pour désigner une interconnexion de réseaux informatiques par internetworking (voir l'article anglais internetworking). L'usage courant fait référence à Internet de différentes manières. Outre les recommandations officielles, il n'est pas rare de rencontrer les termes suivants : « le Net » ou « le net », « Internet », « l'Internet », « le réseau des réseaux » ou plus simplement « le réseau » ou « le Réseau » décliné parfois en « Le réseau ». Certains termes sont utilisés à tort pour faire référence à Internet, par exemple : « la Toile », « le web » ou « le Web » (the Web en anglais), mais cela désigne la Toile et non pas Internet. Cette confusion entre web et net existe aussi en anglais.
- Internet a été conçu pour relier des réseaux informatiques hétéroclites sur des distances intercontinentales : universitaires, d'entreprises, gouvernementaux, domestiques, etc., qui peuvent eux-mêmes relier des sous-réseaux et finalement des ordinateurs.

Histoire

Les origines

Les mémos que J.C.R. Licklider du Massachusetts Institute of Technology (MIT) écrivit en août 1962 sont les plus anciens textes décrivant les interactions sociales qui seraient possibles avec un réseau d'ordinateurs. Cela devait notamment faciliter les communications entre chercheurs du Defense Advanced Research Projects Agency (DARPA). En octobre 1962, Licklider fut le premier chef du programme de recherche en informatique du DARPA. Il convainquit ses successeurs Ivan Sutherland, Bob Taylor et le chercheur du MIT Lawrence G. Roberts de l'intérêt des réseaux informatiques. En 1961, Leonard Kleinrock du MIT avait publié le premier texte théorique sur les télécommunications par paquets et en 1964 il publia le premier livre sur le sujet. En 1965, Roberts testa avec Thomas Merrill la première connexion informatique à longue distance, entre le Massachusetts et la Californie. Le résultat montra que des ordinateurs pouvaient travailler ensemble à distance, mais que le mode de télécommunication par établissement de circuit du système téléphonique était inadapté. Le concept de communication par paquets de Kleinrock s'imposa. En 1966, Roberts fut engagé par Taylor au DARPA pour concevoir l'ARPANET. Il publia les plans en 1967. En présentant ce texte, il découvrit deux autres groupes de chercheurs travaillant indépendamment sur le même sujet : un groupe du National Physics Laboratory (NPL) du Royaume-Uni avec Donald Davies et Roger Scantlebury, et un groupe de la RAND Corporation avec Paul Baran. Entre 1962 et 1965, le groupe de la RAND avait étudié la transmission par paquets pour l'armée américaine. Le but était de pouvoir maintenir les télécommunications en cas d'attaque (éventuellement atomique), ce que permet une transmission par paquets dans un réseau non centralisé. Il s'agit d'un développement indépendant d'ARPANET : bien que probablement robuste face à une telle attaque, ARPANET n'a été conçu que pour faciliter les télécommunications entre chercheurs. En août 1968, le DARPA accepta de financer le développement du matériel de routage des paquets d'ARPANET. Ce développement fut confié en décembre à un groupe de la firme BBN (Bolt Beranek and Newman) de Boston. Ce dernier travailla avec Robert E. Kahn (Bob Kahn) sur l'architecture du réseau. Roberts améliorait les aspects topologiques et économiques du réseau. Kleinrock préparait des systèmes de mesure du réseau. En septembre 1969, BBN installa le premier équipement à l'université de Californie (UCLA) où travaillait Kleinrock. Le second nœud du réseau fut installé au Stanford Research Institute (SRI) où travaillait Doug Engelbart sur un projet d'hypertexte. Deux nœuds supplémentaires furent ajoutés avec l'université de Santa Barbara et l'université de l'Utah. Fin 1969, ARPANET comptait donc quatre nœuds. Le Network Working Group (NWG) conduit par Steve Crocker finit le protocole de communication poste à poste NCP en décembre 1970. Ce protocole fut adopté entre 1971 et 1972 par les sites branchés à ARPANET. Ceci permit le développement d'applications par les utilisateurs du réseau. En 1972, Ray Tomlinson mit au point la première application importante : le courrier électronique. En octobre 1972, Kahn organisa la première démonstration à grande échelle d'ARPANET à l'International Computer Communication Conference (ICCC). C'était la première démonstration publique. Le concept d'Internet est né d'ARPANET. L'idée était de permettre la connexion entre des réseaux divers : ARPANET, des communications avec les satellites, des communications par radio. Cette idée fut introduite par Kahn en 1972 sous le nom de
Internetting. Le protocole NCP d'ARPANET ne permettait pas d'adresser des hôtes hors d'ARPANET ni de corriger d'éventuelles erreurs de transmission. Kahn décida donc de développer un nouveau protocole, qui devint finalement TCP/IP. En parallèle, un projet inspiré par ARPANET était dirigé en France par Louis Pouzin : le projet Cyclades. De nombreuses propriétés de TCP/IP ont été aussi développées, plus tôt, pour Cyclades. Pouzin et Kahn indiquent que TCP/IP a été inspiré par Cyclades. En 1973, Kahn demanda à Vinton G. Cerf (Vint Cerf) (parfois appelé père de l'Internet) de travailler avec lui, car Cerf connaissait les détails de mise en œuvre de NCP. Le premier document faisant référence à TCP est écrit en 1973 par Cerf : A Partial Specification of an International Transmission Protocol. La première spécification formelle de TCP date de décembre 1974, c'est le RFC 675. La version initiale de TCP ne permettait que la communication en établissant un circuit virtuel. Cela fonctionnait bien pour le transfert de fichiers ou le travail à distance, mais n'était pas adapté à des applications comme la téléphonie par Internet. TCP fut donc séparé de IP et UDP proposé pour les transmissions sans établissement d'un circuit.

Gouvernance/Gestion

Un certain nombre d'organismes sont chargés de la gestion d'Internet, avec des attributions spécifiques. Ils participent à l'élaboration des standards techniques, l'attribution des noms de domaines, des adresses IP, etc. :
- ICANN ; sous la tutelle du ministère du Commerce américain.
- IETF ;
- ISOC.
- Liens externes
  - http://www.gouvernance-internet.com.fr (non maintenu)
  - http://smsi.internet.gouv.fr/ site officiel de la contribution française au sommet mondial de la société de l'information

Technique

Internet est composé d'une multitude de réseaux répartis dans le monde entier. Chaque réseau est rattaché à une entité propre (université, fournisseur d'accès à Internet, armée) et se voit attribué un identifiant unique appelé
Autonomous System (AS). Afin de pouvoir communiquer entre eux, les réseaux s'échangent des données, soit en établissant une liaison directe, soit en se rattachant à un nœud d'échange (point de peering). Chaque réseau est donc connecté à plusieurs autres réseaux. Lorsqu'une communication doit s'établir entre deux ordinateurs appartenant à des AS différents, il faut alors déterminer le chemin à effectuer parmi les réseaux. Aucun élément d'Internet ne connaît le réseau dans son ensemble, les données sont simplement redirigées vers un autre nœud selon des règles de routage. Environ 50 % du trafic mondial d’Internet passe par l'État de Virginie. Un très gros spammeur (envoi de pourriels) habitant dans un État voisin y est condamné en novembre 2004 à neuf ans de prison.

Requis

Faire partie d'Internet, en tant que réseau de réseaux, nécessite d'être connecté à un réseau IP. Pour le grand public, du matériel et des logiciels sont nécessaires :
- Canal de communication :
  - lignes téléphoniques :
    - analogiques : RTC, xDSL
    - numériques : RNIS
  - fibre optique
  - câble
  - satellite
- Fournisseur d'accès à Internet (
FAI) (en anglais ISP pour Internet Service Provider)
- Client pour le protocole réseau utilisé (PPP, PPPoX, Ethernet, ATM, etc.) D'autres logiciels sont eux nécessaires pour exploiter Internet suivant les usages.
- World Wide Web : un navigateur Web
- Messagerie électronique : un client SMTP et POP(POP3) ou IMAP / IMAP4 D'autres encore assurent la sécurité, par exemple :
- Pare-feu

Protocoles

Internet fonctionne suivant un modèle en couches, calqué sur le modèle OSI. Les éléments appartenant aux mêmes couches utilisent un protocole de communication pour s'échanger des informations. Un protocole est un ensemble de règles qui définissent un langage afin de faire communiquer plusieurs ordinateurs. Ils sont définis par des normes ouvertes, les RFC. Chaque protocole a des indications particulières et, ensemble, ils fournissent un éventail de moyens permettant de répondre à la multiplicité et à la diversité des besoins sur Internet. Les principaux sont les suivants :
- IP (
Internet Protocol) : protocole réseau qui définit le mode d'échange élémentaire entre les ordinateurs participant au réseau en leur donnant une adresse unique sur le réseau.
  - TCP : responsable de l'établissement de la connexion et du contrôle de la transmission. C'est un protocole de remise fiable. Il s'assure que le destinataire a bien reçu les données, au contraire d'UDP.
    - HTTP (
HyperText Transfer Protocol) : protocole mis en œuvre pour le chargement des pages Web.
    - HTTPS : pendant du HTTP pour la navigation en mode sécurisé.
    - FTP (
File Transfer Protocol) : protocole utilisé pour le transfert de fichiers sur Internet.
    - SMTP (
Simple Mail Transfer Protocol) : mode d'échange du courrier électronique en envoi.
    - POP3 (
Post Office Protocol version 3) : mode d'échange du courrier électronique en réception.
    - IMAP (
Internet Message Access Protocol) : un autre mode d'échange de courrier électronique.
    - IRC (
Internet Relay Chat) : protocole de discussion instantanée.
    - NNTP (
Network News Transfert Protocol) : protocole de transfert de message utilisé par les forums de discussion Usenet
    - SSL ou
TLS : protocoles de transaction sécurisée, utilisés notamment pour le paiement sécurisé.
  - UDP : permet de communiquer, de façon non fiable mais légère, par petits datagrammes.
    - DNS (
Domain Name System) : système de résolution de noms Internet.
  - ICMP (
Internet control message protocol) : protocole de contrôle du protocole IP. Indépendamment du transfert entre deux points, quelques protocoles sont nécessaires aussi pour que les passerelles puissent s'échanger des informations de routage. Ce sont Interior Gateway Protocol (IGP), Exterior Gateway Protocol (EGP) et Border Gateway Protocol (BGP).

Citations


-
Je suis convaincu qu'Internet est une expérience pour voir à combien d'adultes l'on peut faire fixer un écran sur lequel rien d'intéressant ne se passe, et où souvent il ne se passe rien - Jerry Pournelle.
-
Regardez bien au fond du flacon d'où est sortie la bulle Internet : vous verrez qu'il y reste encore beaucoup de savon ! - Jean-Pierre Raffarin
-
Sur internet, on peut écouter la radio tout en payant le téléphone. - Anne Roumanoff
-
Internet. On ne sait pas ce qu'on y cherche mais on trouve tout ce qu'on ne cherche pas. - Anne Roumanoff

Voir aussi

Liens internes

Organisme

[ Internet Society | Internet Engineering Task Force | Internet Systems Consortium ]

Technique

[ adresse IP | suite des protocoles internet | modèle OSI | fournisseur d'accès à Internet | hébergeur Internet | Internet2 ]

Application

[ courrier électronique | World Wide Web | messagerie instantanée | Poste à poste | visioconférence | radio | utilisations d'Internet ]

Société

[ internaute | commerce électronique | société de l'information | fracture numérique | technologies de l'information et de la communication | économie de la connaissance | libertés sur Internet | langues de l'Internet | Dépendance à l'internet ]

Cyberculture

[
flaming | hack | crack | net-sociologie | netiquette | troll | loi de Godwin | Internetophobie ]

Liens externes


- [http://stielec.ac-aix-marseille.fr/electron/cours.htm#internet
Internet et réseaux] ;
- [http://www.9atech.com/page_fete1.html Une histoire alternative et distrayante de l'Internet.];
- [http://www.ietf.org/rfc/rfc1000.txt RFC1000], l'histoire des débuts de l'Internet et des premiers RFC;
- [http://www.isoc.org/internet/history/brief.shtml
A Brief History of the Internet], par l'ISOC ;
- [http://www.computerhistory.org/exhibits/internet_history/ Internet history], histoire illustrée ;
- [http://www.cs.utexas.edu/users/chris/think/ THINK protocols], par l'université du Texas à Austin, recherche historique ;
- [http://www.ibiblio.org/pioneers/index.html Internet Pioneers], avec plusieurs biographies ;
- [http://www.anderbergfamily.net/ant/history/ History of the Internet and Web], chonologie ;
- [http://opte.org/ The Opte Project], cartographie d'Internet ;
- [http://www.acm.org/ubiquity/views/v6i5_simoneli.html A Concise Guide to the Major Internet Bodies].
- [http://www.alexa.com/ Alexa], Mesure d'audience ; Catégorie:Internet fiu-vro:Internet ja:インターネット ko:인터넷 ms:Internet simple:Internet th:อินเทอร์เน็ต

Réseau informatique

zh-min-nan:Tiān-náu bāng-lō· ja:コンピュータ・ネットワーク simple:Computer network th:เครือข่ายคอมพิวเตอร์ Catégorie:Réseau informatique Un réseau informatique est un ensemble d'équipements interconnectés qui servent à acheminer un flux d'informations. Sa naissance est le fruit du mariage entre Informatique et Télécommunications. Indépendamment de la technologie sous-jacente, on porte généralement une vue matricielle sur ce qu'est un réseau. De façon horizontale, un réseau est une strate de 3 couches : les infrastructures, les fonctions de contrôle et de commande, les services rendus à l'utilisateur. De façon verticale, on utilise souvent un découpage géographique : réseau local, réseau d'accès et réseau d'interconnexion.

Infrastructures

Les ipetit ou supports peuvent être sur des câbles dans lesquels circulent des signaux électriques, l'éther (physique) (c'est-à-dire l'espace, aucune atmosphère n'est nécessaire) où circulent des ondes radio ou des fibres optiques qui propagent des ondes lumineuses. Elles permettent de relier « physiquement » des équipements assurant l'interconnexion des moyens physiques et des protocoles. Les équipements d'un réseau sont connectés directement ou non entre eux, conformément à quelques organisations types connues sous le nom de topologie de réseau. Les principaux types de réseaux filaires sont :
- 10BASE5 : câble coaxial épais bande de base
- 10BASE2 : câble coaxial fin bande de base
- 10BASE-T : paires torsadées Plusieurs normes définissent les modalités de fonctionnement des réseaux hertziens, comme par exemple la norme WiFi.

Protocoles et services

Ils permettent de définir la manière dont les informations sont échangées entre les équipements du réseau : il s'agit d'une manière de contrôler le flux d'information. Les équipements d'interconnexion gèrent ces protocoles : les routeurs IP, les commutateurs téléphoniques, les antennes GSM. Les fonctions de contrôle peuvent être assurées par des protocoles de signalisation ou des tables de routage. Les services sont par exemple :
- des transferts de textes (SMS...)
- ou de données (internet...),
- des communications vocales (téléphone...),
- ou des diffusions d'images (télévision...).

Sous-réseau

Un réseau peut être composé de réseaux, on parle alors de sous-réseau. Dans le protocole IP les membres d'un même sous réseau possèdent le même identifiant de réseau, calculable à partir de l'adresse IP et du masque de sous réseau. L'utilisation d'une architecture comprenant des sous-réseaux permet une gestion du parc informatique plus aisée (un sous-réseau par service ou par salle, par exemple) ou un broadcast sélectif

Découpage géographique

Le réseau local ou LAN (Local Area Network) est celui qui relie les ordinateurs d'une entreprise ou les différents postes téléphoniques d'une maison, le réseau d'accès est la ligne qui relie le client à l'opérateur. Autres types de réseaux en fonction de leur échelle géographique :
- PAN : Personal Area Network : réseau personnel
- MAN : Metropolitan Area Network : réseau à l'échelle d'une ville
- WAN : Wide Area Network : réseau à grande échelle (voir : Internet) ou est un ensemble d'ordinateurs connectés entre eux , grace à

Découpage fonctionnel

Un réseau peut être classé en fonction de son utilisation et des services qu'il offre. Ce découpage recoupe également la notion d'échelle. Ainsi, pour les réseaux utilisant les technologies Internet (famille des protocoles TCP/IP), la nomenclature est la suivante :
- Intranet : le réseau interne d'une entité organisationnelle
- Extranet : le réseau externe d'une entité organisationnelle
- Internet : le réseau des réseaux interconnectés à l'échelle de la planète

Voir aussi


- Télécommunications
- Catégories de réseau informatique
- AbulÉdu : logiciel libre pour faciliter l'usage des réseaux à l'école
- Réseau ad-hoc

Liens externes


- [http://stielec.ac-aix-marseille.fr/electron/cours.htm#internet Internet et réseaux, cours de génie électrique à l'académie d'Aix-Marseille]


TCP/IP

Suite_des _protocoles_internet

World Wide Web

] Le World Wide Web, communément appelé le Web, parfois la Toile, littéralement la « toile (d'araignée) mondiale », est un système hypertexte public fonctionnant sur Internet et qui permet de consulter, avec un navigateur Web, des pages Web mises en ligne dans des sites Web. L'image de la toile vient des hyperliens qui lient les pages Web entre elles. Le Web a rendu les médias grand public attentifs à Internet. Depuis, il est fréquemment confondu avec ce dernier, particulièrement lorsque le mot Toile est utilisé. Ce n'est cependant qu'un des systèmes disponibles sur Internet, avec le courrier électronique, Usenet, la messagerie instantanée, etc. Le Web a été inventé alors qu'Internet existait depuis plusieurs années.

Terminologie

World Wide Web

Le World Wide Web est et a été désigné par de nombreux noms et abréviations synonymes : WorldWideWeb, World Wide Web, World-wide Web, Web, WWW, W3, Toile d'araignée mondiale, Toile mondiale, Toile. Le nom du projet originel était WorldWideWeb (voir historique). Le mots ont été rapidement séparés en World Wide Web pour améliorer la lisibilité. Le nom World-Wide Web a également été utilisé par les inventeurs du Web, mais le nom désormais préconisé par le World Wide Web Consortium sépare les trois mots sans trait d'union [http://www.w3.org/People/Berners-Lee/FAQ.html#Spelling]. Bien que « mondial » s'écrit world-wide ou worldwide en anglais, l'orthographe World Wide Web et l'abréviation Web sont maintenant bien établis. En inventant le Web, Tim Berners-Lee avait aussi pensé à d'autres noms, comme Information Mesh (maillage d'informations), Mine of Information ou encore The Information Mine (la mine d'informations, dont le sigle serait Tim). Le sigle WWW a été largement utilisé pour abréger World Wide Web avant que l'abréviation Web ne prenne le pas. La prononciation laborieuse en français comme en anglais de WWW a sans doute précipité son déclin. Les lettres www restent cependant très utilisées dans les adresses Web et quelques autres usages formels ou techniques, bien que cela ne réponde à aucune contrainte technique. Dans la seconde moitié des années 1990, alors que les réseaux étaient engorgés par la popularité grandissante du Web, une blague répandue prétendait que WWW signifiait World Wide Wait, soit « attente mondiale ». WWW est parfois abrégé en W3, abréviation qu'on retrouve dans le sigle W3C du World Wide Web Consortium. Pour écrire « le Web », l'usage de la minuscule (« le web ») est de plus en plus courant. L'Office québécois de la langue française préconise la majuscule [http://www.olf.gouv.qc.ca/ressources/bibliotheque/dictionnaires/Internet/fiches/2075076.html], le Journal officiel français préconise « la toile d'araignée mondiale » [http://www.culture.gouv.fr/culture/dglf/cogeter/16-03-99-internet-listes.html].

Termes rattachés

La terminologie propre au Web contient plusieurs dizaines de termes. Ce chapitre expose ceux qui sont utilisés dans cet article. L'expression en ligne signifie « connecté à un réseau », en l'occurrence le réseau informatique Internet. Cette expression n'est pas propre au Web, on l'a retrouve à propos du téléphone. Un hôte est un ordinateur en ligne. Chaque hôte d'Internet est identifié par une adresse IP à laquelle correspondent zéro, un ou plusieurs noms d'hôte. Cette terminologie n'est pas propre au Web, mais à Internet. Une ressource du Web est une entité informatique (texte, image, forum Usenet, boîte aux lettres électronique, etc.) accessible indépendamment d'autres ressources. Une ressource en accès public est librement accessible depuis Internet. Une ressource locale est présente sur l'ordinateur utilisé, par opposition à une ressource distante (ou en ligne), accessible à travers un réseau. On ne peut accéder à une ressource distante qu'en respectant un protocole de communication. Les fonctionnalités de chaque protocole varient : réception, envoi, voire échange continu d'informations. HTTP (pour HyperText Transfer Protocol) est le protocole de communication communément utilisé pour transférer les ressources du Web. HTTPS est la variante sécurisée de ce protocole. Une URL (pour Uniform Resource Locator) pointe sur une ressource. C'est une chaîne de caractères permettant d'indiquer un protocole de communication et un emplacement pour toute ressource. Un hyperlien (ou lien) est un élément dans une ressource associé à une URL. Un hyperlien est à sens unique, la ressource pointée n'en porte aucune trace. Il existe deux types d'hyperlien : le premier doit être activé pour accéder à la ressource pointée ; le second cause un accès automatique à la ressource pointée. HTML (pour HyperText Markup Language) est un langage informatique permettant de décrire le contenu d'un document (titres, paragraphes, disposition des images, etc.) et d'y inclure des hyperliens. Un document HTML est un document décrit avec le langage HTML. Dans un mode de communication client-serveur, un serveur est un hôte sur lequel fonctionne un logiciel serveur auquel peuvent se connecter des logiciels clients fonctionnant sur des hôtes clients. Un serveur Web est un hôte sur lequel fonctionne un serveur HTTP (ou serveur Web). Un serveur Web héberge les ressources qu'il sert. Un navigateur Web est un logiciel client HTTP conçu pour accéder aux ressources du Web. Sa fonction de base est de permettre la consultation des documents HTML disponibles sur les serveurs HTTP. Le support d'autres types de ressource et d'autres protocoles de communication dépend du navigateur considéré. Une page Web (ou page) est un document destiné à être consulté avec un navigateur Web. Une page Web est toujours constituée d'une ressource centrale (généralement un document HTML) et d'éventuelles ressources liées automatiquement accédées (typiquement des images). Un éditeur HTML (ou éditeur Web) est un logiciel conçu pour faciliter l'écriture de documents HTML et de pages Web en général. Un site Web (ou site) est un ensemble de pages Web et d'éventuelles autres ressources, liées dans une structure cohérente, publiée par un propriétaire (une entreprise, une administration, une association, un particulier, etc.) et hébergée sur un ou plusieurs serveurs Web. Visiter un site Web signifie « consulter ses pages ». Le terme visite vient du fait que l'on consulte généralement plusieurs pages d'un site, comme on visite les pièces d'un bâtiment. La visite est menée par un utilisateur (ou visiteur ou internaute). La mesure d'audience est obtenue en copiant le code en javascript d’un lien vers le site d'un prestataire spécialisé suivant la technique du marqueur à distance. Une adresse Web est une URL de page Web, généralement écrite sous une forme simplifiée limitée à un nom d'hôte. Une adresse de site Web est en fait l'adresse d'une page du site prévue pour accueillir les visiteurs. Un hébergeur Web est une entreprise de services informatiques hébergeant (mettant en ligne) sur ses serveurs Web les ressources constituant les sites Web de ses clients. Une agence Web est une entreprise de services informatiques réalisant des sites Web pour ses clients. L'expression surfer sur le Web signifie « consulter le Web ». Elle a été inventée pour mettre l'accent sur le fait que consulter le Web consiste à suivre de nombreux hyperliens de page en page. Elle est principalement utilisée par les médias ; elle n'appartient pas au vocabulaire technique. Un annuaire Web est un site Web répertoriant des sites Web. Un portail Web est un site Web tentant de regrouper la plus large palette d'informations et de services sur un thème donné. Un service Web est une technologie client-serveur basée sur les protocoles du Web.

Architecture

Le World Wide Web, en tant qu'ensemble de ressources hypertextes, est modélisable en graphe orienté avec les ressources pour sommets et les hyperliens pour arêtes. Du fait que le graphe est orienté, certaines ressources peuvent constituer des puits : il n'existe aucun chemin vers le reste du Web. À l'inverse, certaines ressources peuvent constituer des sources : il n'existe aucun chemin depuis le reste du Web. Techniquement, rien ne distingue le World Wide Web d'un quelconque autre web utilisant les mêmes technologies ; d'ailleurs d'innombrables autres webs séparés du Web existent. Dans la pratique, on considère qu'une page d'un site Web populaire, comme un annuaire Web, fait partie du Web. Le Web se trouve alors défini par les ressources et les hyperliens que l'on peut récursivement découvrir à partir de cette page, ce qui exclut les sources et les webs séparés.

Intranets et webs privés

Un web sur un intranet est soit séparé du Web, soit une source du Web. Il est une source lorsque l'intranet est relié à Internet et qu'un hyperlien du web pointe sur une ressource du Web. Les liens depuis le Web sont en revanche impossibles car par définition un intranet n'offre pas d'accès public. Une source peut aussi se trouver sur Internet. En ce cas, elle constitue un web virtuellement privé, car le public n'a aucun moyen de le découvrir, même si l'accès est public.

Limites pratiques

L'exploration récursive à partir de ressources bien choisies est la méthode de base des robots d'indexation des moteurs de recherche. Dans la pratique, plusieurs catégories de ressources découvertes sont souvent ignorées :
- les ressources sans accès public, notamment les pages personnelles, administratives ou payantes, protégées par un mot de passe ;
- les ressources appartenant à des systèmes distincts et souvent plus anciens que le Web (courrier électronique, Usenet, sites FTP), voire simplement les ressources non servies par un serveur HTTP ou HTTPS ;
- les ressources de type non supporté ;
- les ressources vers lesquels les hyperliens sont créés dynamiquement en réponse aux interrogations des visiteurs ;
- les ressources marquées comme ne devant pas être indexées par les robots d'indexation. En 2004, les moteurs de recherche indexent environ 4 milliards de ressources. Avec des millions de pages et documents créés, mais aussi modifiés et supprimés, plusieurs projets d'archivages du contenu du Web ont vu le jour, afin de conserver une trace. Le projet Internet Archive est l'un d'eux.

Web profond

Le « Web profond » ou « Web invisible » est l'ensemble des pages et documents, qui sont accessibles par les internautes, mais non trouvables au travers de moteurs de recherche généralistes. Ces ressources sont en général non indexées, car non accessibles aux robots d'indexation car les hyperliens, qui permettent d'y accéder, sont créés dynamiquement en réponse à une interrogation. Or un robot est incapable d'émettre des interrogations pertinentes, donc aucun hyperlien n'est créé lors de sa visite. Il s'agit surtout de ressources provenant de bases de données, accessibles à travers une passerelle. D'autres raisons peuvent être a l'origine de cette non indexation :
- Incapacité pour le robot d'indexation de lire certains formats de données.
- Une volonté délibérée des administrateurs des données du site d'interdire l'accés aux robots.
- Puissance de calcul non suffisante pour les moteurs de recherche pour indexer tout le contenu des URLs trouvées par les robots d'indexation. Une étude de la firme [http://www.brightplanet.com/ BrightPlanet] a évalué que le Web profond pouvait contenir 500 fois plus de ressources que le Web indexé par les moteurs de recherche.

Serveurs publics

Un autre moyen d'exploration consiste à mesurer l'infrastructure informatique déployée, plutôt que la taille du système hypertexte qu'est le Web. Il s'agit d'utiliser les noms de domaine enregistrés dans le DNS, d'essayer de se connecter aux serveurs Web potentiels et de compter les réponses positives. C'est notamment la méthode utilisée par la société Netcraft, qui publie régulièrement les résultats de ses explorations, dont les mesures de popularité des serveurs HTTP. Cette mesure porte plus sur l'utilisation des technologies du Web que sur le Web lui-même. Elle permet notamment de trouver des sites séparés du World Wide Web.

Types de ressource

Les divers types de ressource du Web ont des usages assez distincts :
- les ressources constituant les pages Web : documents HTML, images JPEG ou PNG ou GIF, scripts JavaScript, feuilles de style CSS, sons, animations ;
- les ressources accessibles depuis une page Web mais consultables avec une interface particulière : flux audio, flux vidéo ;
- les ressources conçues pour être consultées séparément : documents (PDF, PostScript, Word, etc), fichier texte, images de tout types, morceaux de musique, vidéo, fichiers à sauvegarder ;
- les ressources appartenant à des systèmes bien distincts du Web : forums Usenet, boîtes aux lettres électronique, fichiers locaux.

Documents HTML

lettres électronique] Le document HTML est la principale ressource d'une page Web, celle qui contient les hyperliens, qui contient et structure le texte, qui lie et dispose les ressources multimédias. Un document HTML contient uniquement du texte : le texte consulté, le texte en langage HTML plus d'éventuels autres langages de script ou de style. La présentation de documents HTML est la principale fonctionnalité d'un navigateur Web. HTML laisse au navigateur le soin d'exploiter au mieux les capacités de l'ordinateur pour présenter les ressources. Typiquement, la police de caractère, la longueur des lignes de texte, les couleurs, etc, doivent être adaptées au périphérique de sortie (écran, imprimante, etc).

Multimédia

Les éléments multimédias proviennent toujours de ressources indépendantes du document HTML. Les documents HTML contiennent des hyperliens pointant sur les ressources multimédias, qui peuvent donc être éparpillées sur Internet. Les éléments multimédias liés sont automatiquement transférés pour présenter une page Web. Seul l'usage des images et des petites animations est standardisé. Le support du son, de la vidéo, d'espaces tridimensionnels ou d'autres éléments multimédias repose encore sur des technologies non standardisées. De nombreux navigateurs Web proposent la possibilité de greffer des logiciels (plugin) pour étendre leurs fonctionnalités, notamment le support de types de média non standard. Les flux (audio, vidéo) nécessitent un protocole de communication au fonctionnement différent de HTTP. C'est une des raisons pour lesquelles ce type de ressource nécessite souvent un plugin et est mal intégré aux pages Web.

Images

Ce chapitre concerne les images intégrées aux pages Web. L'usage du format de données JPEG est indiqué pour les images naturelles, principalement les photographies. L'usage du format de données PNG est indiqué pour les images synthétiques (logos, éléments graphiques). Il est aussi indiqué pour les images naturelles, mais uniquement lorsque la qualité prime totalement sur la durée du transfert. L'usage du format de données GIF est indiqué pour les petites animations. Pour les images synthétiques, la popularité ancienne de GIF le fait souvent préférer à PNG. Cependant, GIF souffre de quelques désavantages, notamment la limitation du nombre de couleurs et un degré de compression généralement moindre. En outre une controverse a entouré l'usage de GIF de 1994 à 2004 car Unisys a fait valoir un brevet couvrant la méthode de compression. L'usage d'images de format de données XBM est obsolète.

Scripts

Un langage de script permet d'écrire le texte d'un programme directement exécuté par un logiciel. Dans le cadre du Web, un script est exécuté par un navigateur Web et programme des actions répondant à l'usage que le visiteur fait de la page Web consultée. Un script peut être intégré au document HTML ou provenir d'une ressource liée. Le premier langage de script du Web fut JavaScript, développé par Netscape. Ensuite Microsoft a développé une variante concurrente sous le nom de JScript. Finalement, la norme ECMAScript a été proposée pour la syntaxe du langage, et les normes DOM pour l'interface avec les documents.

Styles

Le langage CSS a été développé pour gérer en détail la présentation des documents HTML. Le texte en langage CSS peut être intégré au document HTML ou provenir de ressources liées, les feuilles de style. Cette séparation permet une gestion séparée de l'information (contenue dans des documents HTML) et de sa présentation (contenue dans des feuilles de style). On parle aussi de « séparation du fond et de la forme ».

Autres

La gestion des autres types de ressource dépend des logiciels installés sur l'hôte client et de leurs réglages. Lorsque le logiciel correspondant est disponible, les documents et images de tout types sont généralement automatiquement présentés, selon des modalités (fenêtrage, dialogues) dépendant du navigateur Web et du logiciel gérant le type. Lorsque le type de la ressource n'est pas géré, il est généralement possible de la sauver dans un fichier local. Pour gérer les ressources de systèmes différents du Web comme le courrier électronique, les navigateurs font habituellement appel à des logiciels séparés. Si aucun logiciel ne gère un type de ressource, un simple message d'erreur l'indique.

Conception

Universalité

Le Web a été conçu pour être accessible avec les équipements informatiques les plus divers : station de travail, terminal en mode texte, ordinateur personnel, PDA, etc. Cette universalité d'accès dépend en premier lieu de l'universalité des protocoles Internet. En second lieu, elle dépend de la flexibilité de présentation des pages Web, offerte par HTML. En outre, HTTP offre aux navigateurs la possibilité de négocier le type de chaque ressource. Enfin, CSS permet de proposer différentes présentations, sélectionnées pour leur adéquation avec l'équipement utilisé. L'universalité d'accès au Web pour les individus handicapés est aussi l'objet de standards et d'attentions particulières.

Décentralisation

Les technologies du Web n'imposent pas d'organisation entre les pages Web, ni a fortiori entre les sites Web. Toute page du Web peut contenir un hyperlien vers toute autre ressource accessible d'Internet. L'établissement d'un hyperlien ne requiert absolument aucune action du côté de la ressource pointée. Il n'y a pas de registre centralisé d'hyperliens, de pages ou de sites. Le seul registre central utilisé est celui du DNS, qui répertorie des hôtes et est utile à tous les systèmes basés sur Internet. Cette conception décentralisée devait favoriser, et a favorisé, une augmentation rapide de la taille du Web. Elle a aussi favorisé l'essor de sites spécialisés dans les informations sur les autres sites : les annuaires et les moteurs de recherche. Sans ces sites, la recherche d'information dans le Web serait extrêmement laborieuse. La démarche inverse, le portail Web, tente de concentrer un maximum d'informations et de services dans un seul site. Une faiblesse de la décentralisation est le manque de suivi lorsqu'une ressource est déplacée ou supprimée : les hyperliens qui la pointaient se retrouvent cassés. Et cela n'est visible qu'en activant l'hyperlien, le résultat le plus courant étant le message d'erreur 404.

Technologies

Pré-existantes

Le Web repose sur les technologies d'Internet, notamment TCP/IP pour assurer le transfert des données, DNS pour convertir les noms d'hôte en adresses IP et MIME pour indiquer le type des données. Les formats d'image numérique GIF et JPEG ont été développé indépendamment.

Spécifiques

Trois technologies ont dû être développées pour le World Wide Web :
- le langage HTML pour écrire des pages Web contenant des hyperliens ;
- les URL pour pouvoir identifier toute ressource dans un hyperlien ;
- le protocole de communication HTTP utilisé entre les navigateurs et les serveurs Web, qui permet d'indiquer le type MIME des ressources transférées. Ces premières technologies ont été normalisées comme les autres technologies d'Internet : en utilisant le processus des Request for Comments. Cela a donné le RFC 1738 pour les URL, le RFC 1866 pour HTML 2.0 et le RFC 1945 pour HTTP/1.0. Le World Wide Web Consortium a été fondé en 1994 pour développer et promouvoir les nouveaux standards du Web. Son rôle est notamment de veiller à l'universalité des nouvelles technologies. Des technologies ont également été développées par des entreprises privées.

Actuelles

Les principaux standards actuels sont :
- XML 1.0 développé pour donner aux langages de balises, dont HTML, une syntaxe plus simple que SGML ;
- HTML 4.01 basé sur SGML, et XHTML 1.0 basés sur XML ;
- le RFC 2396 (Uniform Resource Identifiers), qui recouvre les URL ;
- le RFC 2616 (HTTP/1.1) ;
- les feuilles de styles en cascade CSS level 1 et level 2 ;
- les modèles de document DOM level 1 et level 2 ;
- le langage de script JavaScript pour manipuler les documents ;
- les formats d'image numérique PNG, JPEG et GIF.

Historique

Les premières années de cet historique sont largement basées sur [http://www.w3.org/History.html A Little History of the World Wide Web] (toutes les sources de ce chapitre sont en anglais).
- 1989
  - Tim Berners-Lee propose au CERN, à Genève, de développer un système hypertexte organisé en web, pour améliorer la diffusion des informations internes : [http://www.w3.org/History/1989/proposal.html Information Management: A Proposal].
- 1990 1990]
  - Robert Cailliau rejoint le projet et collabore à la révision de la proposition : [http://www.w3.org/Proposal.html WorldWideWeb: Proposal for a HyperText Project].
  - Étendue : premier serveur Web (nxoc01.cern.ch) ; première page Web (d'URL http://nxoc01.cern.ch/hypertext/WWW/TheProject.html) ; la plus ancienne [http://www.w3.org/History/19921103-hypertext/hypertext/WWW/Link.html page conservée] date du 13 novembre.
  - Logiciels : navigateur-éditeur WorldWideWeb développé en Objective C sur NeXT [http://www.w3.org/People/Berners-Lee/WorldWideWeb.html] ; navigateur mode texte line-mode développé en langage C.
  - Technologies : URL ; HTML ; HTTP ; feuille de style.
- 1991
  - Tim Berners-Lee rend le projet WorldWideWeb public dans un message sur Usenet [http://groups.google.com/groups?selm=6484%40cernvax.cern.ch&oe=UTF-8&output=gplain].
  - Étendue : premier serveur Web hors d'Europe ; passerelle avec WAIS [http://ksi.cpsc.ucalgary.ca/archives/WWW-TALK/www-talk-1991.messages/8.html].
  - Logiciels : fichiers développés au CERN disponibles par FTP.
- 1992
  - Le World Wide Web est promu sur le World Wide Web [http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html].
  - Étendue : 26 sites Web raisonnablement fiables [http://www.w3.org/History/19921103-hypertext/hypertext/DataSources/WWW/Servers.html].
  - Logiciels : navigateurs Erwise [http://www.w3.org/History/19921103-hypertext/hypertext/Erwise/Review.html], ViolaWWW [http://www.w3.org/History/19921103-hypertext/hypertext/Viola/Review_0.html] ; serveur NCSA HTTPd.
- 1993
  - Le 30 avril, le CERN met les logiciels du World Wide Web dans le domaine public [http://intranet.cern.ch/Chronological/Announcements/CERNAnnouncements/2003/04-30TenYearsWWW/]. À la fin de l'année, les médias grand public remarquent Internet et le WWW.
  - Étendue : 130 sites Web en juin, 623 en décembre [http://www.mit.edu/people/mkgray/net/] ; l'usage croît d'un rythme annuel de 341 634 %.
  - Logiciels : navigateurs NCSA Mosaic et Lynx.
  - Technologies : images dans les pages Web (Mosaic 0.10) ; formulaires interactifs (Mosaic 2.0pre5).
- 1994
  - Étendue : 2738 sites en juin, 10 022 en décembre.
  - Sites : Yahoo! créé par deux étudiants ; apparition de la publicité sur [http://hotwired.com HotWired].
  - Logiciels : Netscape Navigator 1.0.
  - Standards : fondation du World Wide Web Consortium ; RFC 1738 (Uniform Resource Locators).
- 1995
  - Microsoft crée MSN pour concurrencer Internet et le Web, puis change d'avis et lance la guerre des navigateurs.
  - Étendue : 23 500 sites en juin (18 957 en août selon la première mesure de Netcraft [http://www.netcraft.com/survey/Reports/9508/ALL/]).
  - Logiciels : serveur HTTP Apache ; Microsoft Internet Explorer 1.0 et 2.0.
  - Sites : moteur de recherche AltaVista.
  - Technologies : formatage tabulaire (Netscape Navigator 1.1b1), documents multi-cadres (Netscape Navigator 2.0b1), Java, JavaScript (Netscape Navigator 2.0b3).
  - Standards : RFC 1866 (HTML 2.0).
- 1996
  - Étendue : 100 000 sites en janvier, environ 230 000 en juin.
  - Logiciels : Netscape Navigator 2.0 et 3.0 ; Internet Explorer 3.0 ; Opera 2.1.
  - Standards : RFC 1945 (HTTP/1.0) ; CSS level 1.
- 1997
  - Étendue : plus de 1 000 000 sites en avril selon Netcraft.
  - Logiciels : Netscape Navigator 4.0 ; Internet Explorer 4.0.
  - Standards : HTML 3.2 ; HTML 4.0.
- 1998
  - America Online rachète Netscape qui a perdu la guerre des navigateurs pour 4 milliards US$.
  - Étendue : plus de 2 000 000 sites en mars.
  - Logiciels : Netscape Navigator 4.5 ; projet Mozilla.
  - Sites : Google.
  - Standards : XML 1.0 ; CSS level 2 ; DOM level 1.
- 1999
  - Étendue : plus de 4 000 000 de sites en janvier, plus de 7 400 000 en août.
  - Logiciels : Internet Explorer 5.0.
  - Standards : HTML 4.01 ; RFC 2616 (HTTP/1.1).
- 2000
  - Étendue : 11 161 854 sites en février, 19 823 296 en août selon Netcraft [http://www.netcraft.com/survey/archive.html].
  - Standards : XHTML™ 1.0.
- 2001
  - Étendue : 27 585 719 sites en janvier, 30 775 624 en août.
  - Logiciels : Internet Explorer 6.0.
- 2002
  - Étendue : 36 689 008 sites en janvier, 35 991 815 en août.
  - Logiciels : Mozilla 1.0.
- 2003
  - Étendue : 35 863 952 sites en février, 42 807 275 en août.
  - Logiciels : Safari.
- 2004
  - Étendue : 46 067 743 sites en janvier, 53 341 867 en août.
  - Standards : création du WHATwg.
  - Logiciels : Mozilla Firefox 1.0.

Voir aussi

Concepts généraux

[ Internet | hypertexte | hyperlien | multimédia | e-commerce ]

Concepts du Web

[ agence Web | hébergeur Web | serveur Web | adresse Web | site Web | annuaire Web | portail Web | page Web | accessibilité du Web | Web sémantique | Web 2.0 ]

Technologies du Web

[ URL | URI | HTTP | HTML | SGML | XHTML | XML | CSS | JavaScript | ActionScript | DOM | dynamic HTML | Standards du Web ]

Logiciels serveurs

[ serveur HTTP | NCSA HTTPd | Apache HTTP Server | serveur proxy | moteur de recherche ]

Logiciels clients

[ éditeur HTML | navigateur Web | liste de navigateurs Web | robot d'indexation | guerre des navigateurs ]

Acteurs

[ Tim Berners-Lee | Robert Cailliau | CERN | NCSA | IETF | World Wide Web Consortium | Netscape Communications Corporation | Microsoft | America Online ]

Applications

[ Wiki | Weblog | Webmail | Web conférence ]

Liens externes


- [http://www.w3.org/History.html A Little History of the World Wide Web]
- [http://www.addnb.org/fr/docs/webinvisible.htm Le web invisible]
-
ja:World Wide Web ko:월드 와이드 웹 simple:World Wide Web th:เวิลด์ไวด์เว็บ

World Wide Web

] Le World Wide Web, communément appelé le Web, parfois la Toile, littéralement la « toile (d'araignée) mondiale », est un système hypertexte public fonctionnant sur Internet et qui permet de consulter, avec un navigateur Web, des pages Web mises en ligne dans des sites Web. L'image de la toile vient des hyperliens qui lient les pages Web entre elles. Le Web a rendu les médias grand public attentifs à Internet. Depuis, il est fréquemment confondu avec ce dernier, particulièrement lorsque le mot Toile est utilisé. Ce n'est cependant qu'un des systèmes disponibles sur Internet, avec le courrier électronique, Usenet, la messagerie instantanée, etc. Le Web a été inventé alors qu'Internet existait depuis plusieurs années.

Terminologie

World Wide Web

Le World Wide Web est et a été désigné par de nombreux noms et abréviations synonymes : WorldWideWeb, World Wide Web, World-wide Web, Web, WWW, W3, Toile d'araignée mondiale, Toile mondiale, Toile. Le nom du projet originel était WorldWideWeb (voir historique). Le mots ont été rapidement séparés en World Wide Web pour améliorer la lisibilité. Le nom World-Wide Web a également été utilisé par les inventeurs du Web, mais le nom désormais préconisé par le World Wide Web Consortium sépare les trois mots sans trait d'union [http://www.w3.org/People/Berners-Lee/FAQ.html#Spelling]. Bien que « mondial » s'écrit world-wide ou worldwide en anglais, l'orthographe World Wide Web et l'abréviation Web sont maintenant bien établis. En inventant le Web, Tim Berners-Lee avait aussi pensé à d'autres noms, comme Information Mesh (maillage d'informations), Mine of Information ou encore The Information Mine (la mine d'informations, dont le sigle serait Tim). Le sigle WWW a été largement utilisé pour abréger World Wide Web avant que l'abréviation Web ne prenne le pas. La prononciation laborieuse en français comme en anglais de WWW a sans doute précipité son déclin. Les lettres www restent cependant très utilisées dans les adresses Web et quelques autres usages formels ou techniques, bien que cela ne réponde à aucune contrainte technique. Dans la seconde moitié des années 1990, alors que les réseaux étaient engorgés par la popularité grandissante du Web, une blague répandue prétendait que WWW signifiait World Wide Wait, soit « attente mondiale ». WWW est parfois abrégé en W3, abréviation qu'on retrouve dans le sigle W3C du World Wide Web Consortium. Pour écrire « le Web », l'usage de la minuscule (« le web ») est de plus en plus courant. L'Office québécois de la langue française préconise la majuscule [http://www.olf.gouv.qc.ca/ressources/bibliotheque/dictionnaires/Internet/fiches/2075076.html], le Journal officiel français préconise « la toile d'araignée mondiale » [http://www.culture.gouv.fr/culture/dglf/cogeter/16-03-99-internet-listes.html].

Termes rattachés

La terminologie propre au Web contient plusieurs dizaines de termes. Ce chapitre expose ceux qui sont utilisés dans cet article. L'expression en ligne signifie « connecté à un réseau », en l'occurrence le réseau informatique Internet. Cette expression n'est pas propre au Web, on l'a retrouve à propos du téléphone. Un hôte est un ordinateur en ligne. Chaque hôte d'Internet est identifié par une adresse IP à laquelle correspondent zéro, un ou plusieurs noms d'hôte. Cette terminologie n'est pas propre au Web, mais à Internet. Une ressource du Web est une entité informatique (texte, image, forum Usenet, boîte aux lettres électronique, etc.) accessible indépendamment d'autres ressources. Une ressource en accès public est librement accessible depuis Internet. Une ressource locale est présente sur l'ordinateur utilisé, par opposition à une ressource distante (ou en ligne), accessible à travers un réseau. On ne peut accéder à une ressource distante qu'en respectant un protocole de communication. Les fonctionnalités de chaque protocole varient : réception, envoi, voire échange continu d'informations. HTTP (pour HyperText Transfer Protocol) est le protocole de communication communément utilisé pour transférer les ressources du Web. HTTPS est la variante sécurisée de ce protocole. Une URL (pour Uniform Resource Locator) pointe sur une ressource. C'est une chaîne de caractères permettant d'indiquer un protocole de communication et un emplacement pour toute ressource. Un hyperlien (ou lien) est un élément dans une ressource associé à une URL. Un hyperlien est à sens unique, la ressource pointée n'en porte aucune trace. Il existe deux types d'hyperlien : le premier doit être activé pour accéder à la ressource pointée ; le second cause un accès automatique à la ressource pointée. HTML (pour HyperText Markup Language) est un langage informatique permettant de décrire le contenu d'un document (titres, paragraphes, disposition des images, etc.) et d'y inclure des hyperliens. Un document HTML est un document décrit avec le langage HTML. Dans un mode de communication client-serveur, un serveur est un hôte sur lequel fonctionne un logiciel serveur auquel peuvent se connecter des logiciels clients fonctionnant sur des hôtes clients. Un serveur Web est un hôte sur lequel fonctionne un serveur HTTP (ou serveur Web). Un serveur Web héberge les ressources qu'il sert. Un navigateur Web est un logiciel client HTTP conçu pour accéder aux ressources du Web. Sa fonction de base est de permettre la consultation des documents HTML disponibles sur les serveurs HTTP. Le support d'autres types de ressource et d'autres protocoles de communication dépend du navigateur considéré. Une page Web (ou page) est un document destiné à être consulté avec un navigateur Web. Une page Web est toujours constituée d'une ressource centrale (généralement un document HTML) et d'éventuelles ressources liées automatiquement accédées (typiquement des images). Un éditeur HTML (ou éditeur Web) est un logiciel conçu pour faciliter l'écriture de documents HTML et de pages Web en général. Un site Web (ou site) est un ensemble de pages Web et d'éventuelles autres ressources, liées dans une structure cohérente, publiée par un propriétaire (une entreprise, une administration, une association, un particulier, etc.) et hébergée sur un ou plusieurs serveurs Web. Visiter un site Web signifie « consulter ses pages ». Le terme visite vient du fait que l'on consulte généralement plusieurs pages d'un site, comme on visite les pièces d'un bâtiment. La visite est menée par un utilisateur (ou visiteur ou internaute). La mesure d'audience est obtenue en copiant le code en javascript d’un lien vers le site d'un prestataire spécialisé suivant la technique du marqueur à distance. Une adresse Web est une URL de page Web, généralement écrite sous une forme simplifiée limitée à un nom d'hôte. Une adresse de site Web est en fait l'adresse d'une page du site prévue pour accueillir les visiteurs. Un hébergeur Web est une entreprise de services informatiques hébergeant (mettant en ligne) sur ses serveurs Web les ressources constituant les sites Web de ses clients. Une agence Web est une entreprise de services informatiques réalisant des sites Web pour ses clients. L'expression surfer sur le Web signifie « consulter le Web ». Elle a été inventée pour mettre l'accent sur le fait que consulter le Web consiste à suivre de nombreux hyperliens de page en page. Elle est principalement utilisée par les médias ; elle n'appartient pas au vocabulaire technique. Un annuaire Web est un site Web répertoriant des sites Web. Un portail Web est un site Web tentant de regrouper la plus large palette d'informations et de services sur un thème donné. Un service Web est une technologie client-serveur basée sur les protocoles du Web.

Architecture

Le World Wide Web, en tant qu'ensemble de ressources hypertextes, est modélisable en graphe orienté avec les ressources pour sommets et les hyperliens pour arêtes. Du fait que le graphe est orienté, certaines ressources peuvent constituer des puits : il n'existe aucun chemin vers le reste du Web. À l'inverse, certaines ressources peuvent constituer des sources : il n'existe aucun chemin depuis le reste du Web. Techniquement, rien ne distingue le World Wide Web d'un quelconque autre web utilisant les mêmes technologies ; d'ailleurs d'innombrables autres webs séparés du Web existent. Dans la pratique, on considère qu'une page d'un site Web populaire, comme un annuaire Web, fait partie du Web. Le Web se trouve alors défini par les ressources et les hyperliens que l'on peut récursivement découvrir à partir de cette page, ce qui exclut les sources et les webs séparés.

Intranets et webs privés

Un web sur un intranet est soit séparé du Web, soit une source du Web. Il est une source lorsque l'intranet est relié à Internet et qu'un hyperlien du web pointe sur une ressource du Web. Les liens depuis le Web sont en revanche impossibles car par définition un intranet n'offre pas d'accès public. Une source peut aussi se trouver sur Internet. En ce cas, elle constitue un web virtuellement privé, car le public n'a aucun moyen de le découvrir, même si l'accès est public.

Limites pratiques

L'exploration récursive à partir de ressources bien choisies est la méthode de base des robots d'indexation des moteurs de recherche. Dans la pratique, plusieurs catégories de ressources découvertes sont souvent ignorées :
- les ressources sans accès public, notamment les pages personnelles, administratives ou payantes, protégées par un mot de passe ;
- les ressources appartenant à des systèmes distincts et souvent plus anciens que le Web (courrier électronique, Usenet, sites FTP), voire simplement les ressources non servies par un serveur HTTP ou HTTPS ;
- les ressources de type non supporté ;
- les ressources vers lesquels les hyperliens sont créés dynamiquement en réponse aux interrogations des visiteurs ;
- les ressources marquées comme ne devant pas être indexées par les robots d'indexation. En 2004, les moteurs de recherche indexent environ 4 milliards de ressources. Avec des millions de pages et documents créés, mais aussi modifiés et supprimés, plusieurs projets d'archivages du contenu du Web ont vu le jour, afin de conserver une trace. Le projet Internet Archive est l'un d'eux.

Web profond

Le « Web profond » ou « Web invisible » est l'ensemble des pages et documents, qui sont accessibles par les internautes, mais non trouvables au travers de moteurs de recherche généralistes. Ces ressources sont en général non indexées, car non accessibles aux robots d'indexation car les hyperliens, qui permettent d'y accéder, sont créés dynamiquement en réponse à une interrogation. Or un robot est incapable d'émettre des interrogations pertinentes, donc aucun hyperlien n'est créé lors de sa visite. Il s'agit surtout de ressources provenant de bases de données, accessibles à travers une passerelle. D'autres raisons peuvent être a l'origine de cette non indexation :
- Incapacité pour le robot d'indexation de lire certains formats de données.
- Une volonté délibérée des administrateurs des données du site d'interdire l'accés aux robots.
- Puissance de calcul non suffisante pour les moteurs de recherche pour indexer tout le contenu des URLs trouvées par les robots d'indexation. Une étude de la firme [http://www.brightplanet.com/ BrightPlanet] a évalué que le Web profond pouvait contenir 500 fois plus de ressources que le Web indexé par les moteurs de recherche.

Serveurs publics

Un autre moyen d'exploration consiste à mesurer l'infrastructure informatique déployée, plutôt que la taille du système hypertexte qu'est le Web. Il s'agit d'utiliser les noms de domaine enregistrés dans le DNS, d'essayer de se connecter aux serveurs Web potentiels et de compter les réponses positives. C'est notamment la méthode utilisée par la société Netcraft, qui publie régulièrement les résultats de ses explorations, dont les mesures de popularité des serveurs HTTP. Cette mesure porte plus sur l'utilisation des technologies du Web que sur le Web lui-même. Elle permet notamment de trouver des sites séparés du World Wide Web.

Types de ressource

Les divers types de ressource du Web ont des usages assez distincts :
- les ressources constituant les pages Web : documents HTML, images JPEG ou PNG ou GIF, scripts JavaScript, feuilles de style CSS, sons, animations ;
- les ressources accessibles depuis une page Web mais consultables avec une interface particulière : flux audio, flux vidéo ;
- les ressources conçues pour être consultées séparément : documents (PDF, PostScript, Word, etc), fichier texte, images de tout types, morceaux de musique, vidéo, fichiers à sauvegarder ;
- les ressources appartenant à des systèmes bien distincts du Web : forums Usenet, boîtes aux lettres électronique, fichiers locaux.

Documents HTML

lettres électronique] Le document HTML est la principale ressource d'une page Web, celle qui contient les hyperliens, qui contient et structure le texte, qui lie et dispose les ressources multimédias. Un document HTML contient uniquement du texte : le texte consulté, le texte en langage HTML plus d'éventuels autres langages de script ou de style. La présentation de documents HTML est la principale fonctionnalité d'un navigateur Web. HTML laisse au navigateur le soin d'exploiter au mieux les capacités de l'ordinateur pour présenter les ressources. Typiquement, la police de caractère, la longueur des lignes de texte, les couleurs, etc, doivent être adaptées au périphérique de sortie (écran, imprimante, etc).

Multimédia

Les éléments multimédias proviennent toujours de ressources indépendantes du document HTML. Les documents HTML contiennent des hyperliens pointant sur les ressources multimédias, qui peuvent donc être éparpillées sur Internet. Les éléments multimédias liés sont automatiquement transférés pour présenter une page Web. Seul l'usage des images et des petites animations est standardisé. Le support du son, de la vidéo, d'espaces tridimensionnels ou d'autres éléments multimédias repose encore sur des technologies non standardisées. De nombreux navigateurs Web proposent la possibilité de greffer des logiciels (plugin) pour étendre leurs fonctionnalités, notamment le support de types de média non standard. Les flux (audio, vidéo) nécessitent un protocole de communication au fonctionnement différent de HTTP. C'est une des raisons pour lesquelles ce type de ressource nécessite souvent un plugin et est mal intégré aux pages Web.

Images

Ce chapitre concerne les images intégrées aux pages Web. L'usage du format de données JPEG est indiqué pour les images naturelles, principalement les photographies. L'usage du format de données PNG est indiqué pour les images synthétiques (logos, éléments graphiques). Il est aussi indiqué pour les images naturelles, mais uniquement lorsque la qualité prime totalement sur la durée du transfert. L'usage du format de données GIF est indiqué pour les petites animations. Pour les images synthétiques, la popularité ancienne de GIF le fait souvent préférer à PNG. Cependant, GIF souffre de quelques désavantages, notamment la limitation du nombre de couleurs et un degré de compression généralement moindre. En outre une controverse a entouré l'usage de GIF de 1994 à 2004 car Unisys a fait valoir un brevet couvrant la méthode de compression. L'usage d'images de format de données XBM est obsolète.

Scripts

Un langage de script permet d'écrire le texte d'un programme directement exécuté par un logiciel. Dans le cadre du Web, un script est exécuté par un navigateur Web et programme des actions répondant à l'usage que le visiteur fait de la page Web consultée. Un script peut être intégré au document HTML ou provenir d'une ressource liée. Le premier langage de script du Web fut JavaScript, développé par Netscape. Ensuite Microsoft a développé une variante concurrente sous le nom de JScript. Finalement, la norme ECMAScript a été proposée pour la syntaxe du langage, et les normes DOM pour l'interface avec les documents.

Styles

Le langage CSS a été développé pour gérer en détail la présentation des documents HTML. Le texte en langage CSS peut être intégré au document HTML ou provenir de ressources liées, les feuilles de style. Cette séparation permet une gestion séparée de l'information (contenue dans des documents HTML) et de sa présentation (contenue dans des feuilles de style). On parle aussi de « séparation du fond et de la forme ».

Autres

La gestion des autres types de ressource dépend des logiciels installés sur l'hôte client et de leurs réglages. Lorsque le logiciel correspondant est disponible, les documents et images de tout types sont généralement automatiquement présentés, selon des modalités (fenêtrage, dialogues) dépendant du navigateur Web et du logiciel gérant le type. Lorsque le type de la ressource n'est pas géré, il est généralement possible de la sauver dans un fichier local. Pour gérer les ressources de systèmes différents du Web comme le courrier électronique, les navigateurs font habituellement appel à des logiciels séparés. Si aucun logiciel ne gère un type de ressource, un simple message d'erreur l'indique.

Conception

Universalité

Le Web a été conçu pour être accessible avec les équipements informatiques les plus divers : station de travail, terminal en mode texte, ordinateur personnel, PDA, etc. Cette universalité d'accès dépend en premier lieu de l'universalité des protocoles Internet. En second lieu, elle dépend de la flexibilité de présentation des pages Web, offerte par HTML. En outre, HTTP offre aux navigateurs la possibilité de négocier le type de chaque ressource. Enfin, CSS permet de proposer différentes présentations, sélectionnées pour leur adéquation avec l'équipement utilisé. L'universalité d'accès au Web pour les individus handicapés est aussi l'objet de standards et d'attentions particulières.

Décentralisation

Les technologies du Web n'imposent pas d'organisation entre les pages Web, ni a fortiori entre les sites Web. Toute page du Web peut contenir un hyperlien vers toute autre ressource accessible d'Internet. L'établissement d'un hyperlien ne requiert absolument aucune action du côté de la ressource pointée. Il n'y a pas de registre centralisé d'hyperliens, de pages ou de sites. Le seul registre central utilisé est celui du DNS, qui répertorie des hôtes et est utile à tous les systèmes basés sur Internet. Cette conception décentralisée devait favoriser, et a favorisé, une augmentation rapide de la taille du Web. Elle a aussi favorisé l'essor de sites spécialisés dans les informations sur les autres sites : les annuaires et les moteurs de recherche. Sans ces sites, la recherche d'information dans le Web serait extrêmement laborieuse. La démarche inverse, le portail Web, tente de concentrer un maximum d'informations et de services dans un seul site. Une faiblesse de la décentralisation est le manque de suivi lorsqu'une ressource est déplacée ou supprimée : les hyperliens qui la pointaient se retrouvent cassés. Et cela n'est visible qu'en activant l'hyperlien, le résultat le plus courant étant le message d'erreur 404.

Technologies

Pré-existantes

Le Web repose sur les technologies d'Internet, notamment TCP/IP pour assurer le transfert des données, DNS pour convertir les noms d'hôte en adresses IP et MIME pour indiquer le type des données. Les formats d'image numérique GIF et JPEG ont été développé indépendamment.

Spécifiques

Trois technologies ont dû être développées pour le World Wide Web :
- le langage HTML pour écrire des pages Web contenant des hyperliens ;
- les URL pour pouvoir identifier toute ressource dans un hyperlien ;
- le protocole de communication HTTP utilisé entre les navigateurs et les serveurs Web, qui permet d'indiquer le type MIME des ressources transférées. Ces premières technologies ont été normalisées comme les autres technologies d'Internet : en utilisant le processus des Request for Comments. Cela a donné le RFC 1738 pour les URL, le RFC 1866 pour HTML 2.0 et le RFC 1945 pour HTTP/1.0. Le World Wide Web Consortium a été fondé en 1994 pour développer et promouvoir les nouveaux standards du Web. Son rôle est notamment de veiller à l'universalité des nouvelles technologies. Des technologies ont également été développées par des entreprises privées.

Actuelles

Les principaux standards actuels sont :
- XML 1.0 développé pour donner aux langages de balises, dont HTML, une syntaxe plus simple que SGML ;
- HTML 4.01 basé sur SGML, et XHTML 1.0 basés sur XML ;
- le RFC 2396 (Uniform Resource Identifiers), qui recouvre les URL ;
- le RFC 2616 (HTTP/1.1) ;
- les feuilles de styles en cascade CSS level 1 et level 2 ;
- les modèles de document DOM level 1 et level 2 ;
- le langage de script JavaScript pour manipuler les documents ;
- les formats d'image numérique PNG, JPEG et GIF.

Historique

Les premières années de cet historique sont largement basées sur [http://www.w3.org/History.html A Little History of the World Wide Web] (toutes les sources de ce chapitre sont en anglais).
- 1989
  - Tim Berners-Lee propose au CERN, à Genève, de développer un système hypertexte organisé en web, pour améliorer la diffusion des informations internes : [http://www.w3.org/History/1989/proposal.html Information Management: A Proposal].
- 1990 1990]
  - Robert Cailliau rejoint le projet et collabore à la révision de la proposition : [http://www.w3.org/Proposal.html WorldWideWeb: Proposal for a HyperText Project].
  - Étendue : premier serveur Web (nxoc01.cern.ch) ; première page Web (d'URL http://nxoc01.cern.ch/hypertext/WWW/TheProject.html) ; la plus ancienne [http://www.w3.org/History/19921103-hypertext/hypertext/WWW/Link.html page conservée] date du 13 novembre.
  - Logiciels : navigateur-éditeur WorldWideWeb développé en Objective C sur NeXT [http://www.w3.org/People/Berners-Lee/WorldWideWeb.html] ; navigateur mode texte line-mode développé en langage C.
  - Technologies : URL ; HTML ; HTTP ; feuille de style.
- 1991
  - Tim Berners-Lee rend le projet WorldWideWeb public dans un message sur Usenet [http://groups.google.com/groups?selm=6484%40cernvax.cern.ch&oe=UTF-8&output=gplain].
  - Étendue : premier serveur Web hors d'Europe ; passerelle avec WAIS [http://ksi.cpsc.ucalgary.ca/archives/WWW-TALK/www-talk-1991.messages/8.html].
  - Logiciels : fichiers développés au CERN disponibles par FTP.
- 1992
  - Le World Wide Web est promu sur le World Wide Web [http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html].
  - Étendue : 26 sites Web raisonnablement fiables [http://www.w3.org/History/19921103-hypertext/hypertext/DataSources/WWW/Servers.html].
  - Logiciels : navigateurs Erwise [http://www.w3.org/History/19921103-hypertext/hypertext/Erwise/Review.html], ViolaWWW [http://www.w3.org/History/19921103-hypertext/hypertext/Viola/Review_0.html] ; serveur NCSA HTTPd.
- 1993
  - Le 30 avril, le CERN met les logiciels du World Wide Web dans le domaine public [http://intranet.cern.ch/Chronological/Announcements/CERNAnnouncements/2003/04-30TenYearsWWW/]. À la fin de l'année, les médias grand public remarquent Internet et le WWW.
  - Étendue : 130 sites Web en juin, 623 en décembre [http://www.mit.edu/people/mkgray/net/] ; l'usage croît d'un rythme annuel de 341 634 %.
  - Logiciels : navigateurs NCSA Mosaic et Lynx.
  - Technologies : images dans les pages Web (Mosaic 0.10) ; formulaires interactifs (Mosaic 2.0pre5).
- 1994
  - Étendue : 2738 sites en juin, 10 022 en décembre.
  - Sites : Yahoo! créé par deux étudiants ; apparition de la publicité sur [http://hotwired.com HotWired].
  - Logiciels : Netscape Navigator 1.0.
  - Standards : fondation du World Wide Web Consortium ; RFC 1738 (Uniform Resource Locators).
- 1995
  - Microsoft crée MSN pour concurrencer Internet et le Web, puis change d'avis et lance la guerre des navigateurs.
  - Étendue : 23 500 sites en juin (18 957 en août selon la première mesure de Netcraft [http://www.netcraft.com/survey/Reports/9508/ALL/]).
  - Logiciels : serveur HTTP Apache ; Microsoft Internet Explorer 1.0 et 2.0.
  - Sites : moteur de recherche AltaVista.
  - Technologies : formatage tabulaire (Netscape Navigator 1.1b1), documents multi-cadres (Netscape Navigator 2.0b1), Java, JavaScript (Netscape Navigator 2.0b3).
  - Standards : RFC 1866 (HTML 2.0).
-