background preloader

Robot d'indexation

Robot d'indexation
Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir Spider. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En Français, depuis 2013, crawler est remplaçable par le mot collecteur[1]. Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. Principes d'indexation[modifier | modifier le code] Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Un fichier d'exclusion (robots.txt) placé dans la racine d'un site Web permet de donner aux robots une liste de ressources à ignorer. Deux caractéristiques du Web compliquent le travail du robot d'indexation : le volume de données et la bande passante. Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants : Related:  .caisson test

Architecture web Un article de Wikipédia, l'encyclopédie libre. Les technologies web sont un ensemble de technologies qui composent et utilisent le World Wide Web (généralement abrégé en Web) et ses normes. Le web été créé en 1990 comme application de partage d'informations puis est devenu une plateforme à part entière sur laquelle sont développées régulièrement des nouvelles technologies[1]. Les bases de ces technologies sont le protocole réseau HTTP (abr. de Hypertext Transfer Protocol), normalisé par l'IETF et le format de document HTML (abr. de Hypertext Markup Language), normalisé par le W3C. Destiné par son créateur Tim Berners-Lee, en Suisse, au CERN, à lier un document à un autre via une balise de texte renvoyant vers une autre page, selon le principe de l'hypertexte, le web est devenu l'un des protocoles d'échange les plus utilisés. Historique[modifier | modifier le code] Contexte de l'invention[modifier | modifier le code] La technologie TCP/IP été lancée en 1970 et adoptée pour l'Internet.

Répertoire des robots du web annuaire-info Bien plus qu'un annuaire d'annuaires ! Annuaire d'annuaires Documentation Outils Blog Contact Répertoire des robots du web Vous voulez tout savoir sur , ou ? Nos pages de documentation décrivent complètement le , le fichier , la , la norme officielle et de nombreuses extensions non standard. La liste ci-dessous reprend les noms de nombreux robots avec, pour chacun, un lien vers une page d’informations obtenues à partir de nos propres observations et directement du propriétaire du robot. AbiLogic Accoona AdSense aipbot Alexa almaden AOL France appie Ask Jeeves ASPseek Baidu baiduspider BecomeBot Bloglines BlogPulse Boitho btbot Burf.com Camcrawler Camdiscover Cerberian cfetch Charlotte CheckWeb Combine Cosmix cuill.com DataCha0s DataparkSearch dir.com DTS Agent e-SocietyRobot Enfin Everbee exabot Exabot-Images Exalead Fast Search Filangy Findexa FindLinks FURL genieBot Gigablast gigabot Girafa Google AdSense Google Image Googlebot Googlebot-Image Gossamer Links grub Java Jeeves QweeryBot

Web profond Un article de Wikipédia, l'encyclopédie libre. Ne doit pas être confondu avec darknet. Ne pas confondre[modifier | modifier le code] Ressources profondes[modifier | modifier le code] Les robots d'indexation sont des programmes utilisés par les moteurs de recherche pour parcourir le web. Afin de découvrir de nouvelles pages, ces robots suivent les hyperliens. On peut classer les ressources du web profond dans une ou plusieurs des catégories suivantes : contenu dynamique ;contenu non lié ;contenu à accès limité ;contenu de script ;format non indexable. Voir aussi la section raisons de la non-indexation qui donne plus de précision. Taille[modifier | modifier le code] Une étude de juillet 2001 réalisée par l'entreprise BrightPlanet[1] estime que le web profond pouvait contenir 500 fois plus de ressources que le web indexé par les moteurs de recherche. Web opaque[modifier | modifier le code] Une partie très importante du web est théoriquement indexable, mais non indexée de fait par les moteurs.

Licence publique générale GNU Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir GPL. Licence publique générale GNU Logo de la licence publique générale GNU, version 3. Cette licence a depuis été adoptée, en tant que document définissant le mode d'utilisation, donc d'usage et de diffusion, par de nombreux auteurs de logiciels libres, en dehors des projets GNU. Principe de la licence GPL[modifier | modifier le code] La GPL met en œuvre la notion de copyleft, un jeu de mots anglais faisant référence à la notion de copyright (right en anglais signifie à la fois le droit, c'est-à-dire la règle juridique, et la droite, qui marque une direction) que l'on peut transposer en français en parlant de « Gauche d'auteur » par référence au Droit d'auteur. La GPL est la licence de logiciel libre la plus utilisée. L'esprit et l'objectif[modifier | modifier le code] Son histoire[modifier | modifier le code] Richard Stallman en discussion au deuxième jour de la première conférence GPLv3 le 17 janvier 2006.

Web sémantique Logo du W3C pour le Web sémantique Le Web sémantique, ou toile sémantique[1], est une extension du Web standardisée par le World Wide Web Consortium (W3C)[2]. Ces standards encouragent l'utilisation de formats de données et de protocoles d'échange normés sur le Web, en s'appuyant sur le modèle Resource Description Framework (RDF). Le web sémantique est par certains qualifié de web 3.0 . Alors que ses détracteurs ont mis en doute sa faisabilité, ses promoteurs font valoir que les applications réalisées par les chercheurs dans l'industrie, la biologie et les sciences humaines ont déjà prouvé la validité de ce nouveau concept[5]. Histoire[modifier | modifier le code] Tim Berners-Lee à l'origine exprimait la vision du Web sémantique comme suit : I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web — the content, links, and transactions between people and computers. — Tim Berners-Lee, Weaving the Web[13] — Weaving the Web[13]

Free Software Foundation Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir FSF. La FSF aide également au financement du projet GNU depuis l'origine. Son nom est associé au mouvement du logiciel libre. Le logiciel libre[modifier | modifier le code] La fondation est à l'origine des quatre règles fondatrices du logiciel libre : La liberté d'exécuter le programme, pour tous les usages (liberté 0).La liberté d'étudier le fonctionnement du programme, et de l'adapter à ses besoins (liberté 1). Le projet GNU[modifier | modifier le code] Protection légale[modifier | modifier le code] En concevant les licences GNU GPL, LGPL et FDL sous l'égide de Richard Stallman et d'Eben Moglen, la fondation devient une protection légale pour GNU. Ce mécanisme sera plus tard reproduit par la fondation Mozilla. Financement[modifier | modifier le code] La FSF employait à l'origine certains hackers du projet. La communauté du logiciel libre[modifier | modifier le code] Techniques[modifier | modifier le code] BadVista

Intelligence collective Un article de Wikipédia, l'encyclopédie libre. L'intelligence collective désigne les capacités cognitives d'une communauté résultant des interactions multiples entre ses membres (ou agents). La connaissance des membres de la communauté est limitée à une perception partielle de l'environnement, ils n'ont pas conscience de la totalité des éléments qui influencent le groupe. Des agents au comportement très simple peuvent ainsi accomplir des tâches apparemment très complexes grâce à un mécanisme fondamental appelé synergie ou stigmergie[réf. souhaitée]. l'Intelligence Collective se distingue de l'intelligence collaborative (efficacité des échanges centrés sur une tache) et de l'intelligence projective (synergie des motivations individuelles et collectives, porteuse de sens individuel et collectif). Les formes d'intelligence collective sont très diverses selon les types de communauté et les membres qu'elles réunissent. Intelligence collective humaine[modifier | modifier le code] et

Top 50 Programming Quotes of All Time I hope you have enjoyed our collection of funny computer quotes, Linux quotes, and all those quotes that we have shared with you so far. For today, I've decided to gather a good number of my all-time favorite programming-related quotes. Most of the programming quotes I've collected are made by some of the famous names in the industry, while others came from not-so-famous people. Nevertheless, they are all witty so I hope you will find them fascinating and enlightening. Without further delay, here are my top 50 programming quotes of all time: 50. - Rick Cook 49. - Alan Kay. 48. - Edward V Berard 47. - Olav Mjelde. 46. - Alan J. 45. - Waldi Ravens. 44. - Bjarne Stroustrup 43. - Eric S. 42. - Mosher’s Law of Software Engineering 41. - Oktal 40. - pixadel 39. - Bill Clinton 38. - E.W. 37. - Roberto Waltman. 36. 35. - Bill Bryson 34. - Blair P. 33. - Alan J. 32. - Ron Sercely 31. - Thomas C. 30. - Cory Dodt 29. - Linus Torvalds 28. - Antoine de Saint-Exupéry 27. - Dennis M. 26. - Yoggi Berra 25. - Jim McCarthy

Métadonnée Le catalogue de la bibliothèque universitaire de Graz en Autriche. La carte présentée renvoie à un texte de Schleimer qui a défini les règles de ce catalogue. Historique[modifier | modifier le code] Tous les établissements qui ont à gérer de l'information, bibliothèques, archives ou médiathèques ont déjà une longue pratique dans la codification du signalement ou des contenus des documents qu'ils manipulent. Avant l'arrivée de l'informatique on utilisait des fiches cartonnées dont la structure a été normalisée en 1954 sous la référence ISBD (International standard bibliographic description). Ces descriptions ont ensuite été informatisées sous la forme de notices bibliographiques et normalisées (voir par exemple les formats MARC en 1964 utilisant la norme ISO 2709 dont la conception a démarré en 1960). Les bibliothèques numériques ont eu recours aux mêmes dispositifs pour gérer et localiser des documents électroniques. Généralisation[modifier | modifier le code] Voir : Liste non exhaustive :

Welcome to Rosetta Code Hypertext Transfer Protocol Un article de Wikipédia, l'encyclopédie libre. L'HyperText Transfer Protocol, plus connu sous l'abréviation HTTP — littéralement « protocole de transfert hypertexte » — est un protocole de communication client-serveur développé pour le World Wide Web. HTTPS (avec S pour secured, soit « sécurisé ») est la variante du HTTP sécurisée par l'usage des protocoles SSL ou TLS. Les clients HTTP les plus connus sont les navigateurs Web permettant à un utilisateur d'accéder à un serveur contenant les données. Il existe aussi des systèmes pour récupérer automatiquement le contenu d'un site tel que les aspirateurs de site Web ou les robots d'indexation. Ces clients se connectent à des serveurs HTTP tels qu'Apache HTTP Server ou Internet Information Services. Historique[modifier | modifier le code] HTTP a été inventé par Tim Berners-Lee avec les adresses Web et le langage HTML pour créer le World Wide Web. En , HTTP/1.0 voit le jour et est décrit dans la RFC 1945. Méthodes[modifier | modifier le code]

Five APIs that developers should know about Developers have arguably never had it better. A big reason for that: there are virtually countless APIs that enable developers to build really cool applications on top of foundations that someone else invested in laying down. When it comes to APIs, however, a lot of attention is focused on popular services that have created platforms that developers can tap in to. Facebook and Twitter are two of the most prominent, and many developers have cashed in developing on their platforms. While there's nothing wrong building Facebook games or Twitter-based applications, some of the most useful and promising APIs out there have nothing to do with building apps for someone else's platform. Instead, they allow developers to create useful and entertaining offerings without having to spend time building the most complicated low-level features. Zencoder Video is an important part of the web, and it's only getting more important. Twilio Contrary to popular belief, the phone is far from dead. Saplo

Related: