background preloader

Robot d'indexation

Robot d'indexation
Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir Spider. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En Français, depuis 2013, crawler est remplaçable par le mot collecteur[1]. Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. Principes d'indexation[modifier | modifier le code] Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Un fichier d'exclusion (robots.txt) placé dans la racine d'un site Web permet de donner aux robots une liste de ressources à ignorer. Deux caractéristiques du Web compliquent le travail du robot d'indexation : le volume de données et la bande passante. Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants : Related:  Internet & Cie

Heritrix Un article de Wikipédia, l'encyclopédie libre. Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première publication officielle a eu lieu en janvier 2004, et il a depuis été continuellement amélioré par les membres d'Internet Archive et par des tiers intéressés. Projets utilisant Heritrix[modifier | modifier le code] Un nombre important d'organisations et de bibliothèques nationales utilisent Heritrix, parmi lesquels : Fichier Arc[modifier | modifier le code] Exemple : 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! Outils pour le traitement de fichiers Arc[modifier | modifier le code]

Moteur de recherche : définition Un article de Wikipédia, l'encyclopédie libre. Un moteur de recherche est une application web permettant de retrouver des ressources (pages web, articles de forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même (Google Video par exemple est un moteur de recherche vidéo). C'est par abus de langage qu'on appelle également moteurs de recherche des sites web proposant des annuaires de sites web : dans ce cas, ce sont des instruments de recherche élaborés par des personnes qui répertorient et classifient des sites web jugés dignes d'intérêt, et non des robots d'indexation — on peut citer par exemple DMOZ et Yahoo! Historique[modifier | modifier le code] Des moteurs historiques ont été Yahoo, Altavista (premier moteur 64 bits), et Backrub, ancêtre de Google. Fonctionnement[modifier | modifier le code] Outils[modifier | modifier le code]

Utiliser les flux RSS et les podcasts — Enseigner avec le numérique Quelques suggestions - éducation aux médias - langues étrangères - sciences économiques et sociales - activités interdisciplinaires Pourquoi et comment faire ? Univers Netvibes et documentationJacqueline Valladon "A l’origine la page personnelle était uniquement privée. Voici peu de temps que Netvibes a étendu son service de mise à disposition des "Univers" en ligne au grand public, via Ginger nouvelle version de Netvibes. Doc pour Docs, site mutualiste, 13/04/2008 Les Dossiers de l'ingénierie éducative Rester branché avec les fils RSS"L’actualisation des connaissances dans l’enseignement et la prise en compte en classe de l’actualité et des questions vives s’accélèrent avec Internet. "Le traitement de l'actualité : médias et savoirs". Univers pour la documentation Kiosque presse : univers Netvibes"Ce kiosque présente un éventail de l'actualité française, francophone et internationale. Sélections d'univers

Répertoire des robots du web annuaire-info Bien plus qu'un annuaire d'annuaires ! Annuaire d'annuaires Documentation Outils Blog Contact Répertoire des robots du web Vous voulez tout savoir sur , ou ? Nos pages de documentation décrivent complètement le , le fichier , la , la norme officielle et de nombreuses extensions non standard. La liste ci-dessous reprend les noms de nombreux robots avec, pour chacun, un lien vers une page d’informations obtenues à partir de nos propres observations et directement du propriétaire du robot. AbiLogic Accoona AdSense aipbot Alexa almaden AOL France appie Ask Jeeves ASPseek Baidu baiduspider BecomeBot Bloglines BlogPulse Boitho btbot Burf.com Camcrawler Camdiscover Cerberian cfetch Charlotte CheckWeb Combine Cosmix cuill.com DataCha0s DataparkSearch dir.com DTS Agent e-SocietyRobot Enfin Everbee exabot Exabot-Images Exalead Fast Search Filangy Findexa FindLinks FURL genieBot Gigablast gigabot Girafa Google AdSense Google Image Googlebot Googlebot-Image Gossamer Links grub Java Jeeves QweeryBot

Indexation automatique de documents Un article de Wikipédia, l'encyclopédie libre. Un index est en toute généralité, une liste de descripteurs à chacun desquels est associée une liste des documents et/ou parties de documents auxquels ce descripteur renvoie. Ce renvoi peut être pondéré. Lors de la recherche d'information d'un usager, le système rapprochera la demande de l'index pour établir une liste de réponses. En amont, les méthodes utilisées pour constituer automatiquement un index pour un ensemble de documents varient considérablement avec la nature des contenus documentaires à indexer. Indexation de textes[modifier | modifier le code] Pour un texte, un index très simple à établir automatiquement est la liste ordonnée de tous les mots apparaissant dans les documents avec la localisation exacte de chacune de leurs occurrences ; mais un tel index est volumineux et surtout peu exploitable. L'indexation automatique tend donc plutôt à rechercher les mots qui correspondent au mieux au contenu informationnel d'un document.

FAQ - schema.org What is the purpose of schema.org? Why are Google, Bing, Yandex and Yahoo! collaborating? There are lots of schemas out there. Is schema.org a standards body like the W3C or IETF ? How does schema.org relate to Facebook Open Graph? What's coming next? Who is managing schema.org on an ongoing basis? Is schema.org available in multiple languages? How do I mark up my site using this schema? Why should I add markup? This is too much work. I have already added markup in some other format (i.e. microformats, RDFa, data-vocabulary.org, etc). My website contains content that is of a type that is unsupported. Do I have to mark up every property? Why microdata? Why don't you support other vocabularies such as FOAF, SKOS, etc? Where can I give feedback, report bugs, etc.? What do you mean by "Schema Version 0.9x" that is on every schema page? Q: What is the purpose of schema.org? Q: Why are Google, Bing, Yandex and Yahoo! Q: There are lots of schemas out there. No. Q: What's coming next? Q: Why microdata?

Logiciel : définition Un article de Wikipédia, l'encyclopédie libre. Démarche de construction d'un logiciel. En informatique, un logiciel est un ensemble composé d'un ou plusieurs programmes, ainsi que les fichiers nécessaires pour les rendre opérationnels. Le logiciel détermine les tâches qu'un appareil informatique peut effectuer et donne à l'ordinateur sa valeur ajoutée. Un logiciel peut être classé comme système, applicatif, standard, spécifique, ou libre, selon la manière dont il interagit avec le matériel, selon la stratégie commerciale et les droits sur le code source des programmes. Les logiciels sont créés et livrés à la demande d'un client, ou alors ils sont créés sur l'initiative du producteur, et mis sur le marché, parfois gratuitement. Créer un logiciel est un travail intellectuel qui prend du temps. Étymologie[modifier | modifier le code] Dérivé du mot logique. Introduction[modifier | modifier le code] Un ordinateur est composé de matériel et de logiciel. Typologie[modifier | modifier le code]

Evolutions des moteurs de recherche sur internet A l'heure où la diversité de ressources sur internet nécessite des outils appropriés, où le web social et les sites en temps réel font désormais partie intégrante du web et où Google investit le domaine de la recherche sémantique avec son Knowledge Graph, où en sommes-nous des évolutions des moteurs de recherche ? De nouveaux outils viennent-ils proposer des alternatives crédibles à Google et aux autres moteurs « traditionnels » ? Quelles sont les pistes du future of search ? - Principes et état des lieux * rappels * moteurs de recherche * pratiques des internautes - Diversification des contenus * recherche personnalisée * recherche sociale * recherche temps réel * recherche inversée - Pertinence des réponses * recherche sémantique * moteurs de réponses * recherche anticipatoire * recherche conversationnelle - Visualisation des résultats * moteurs linéaires * moteurs graphiques * moteurs à clusters * moteurs visuels * moteurs multimedia ► L'essentiel des outils sur une carte heuristique

Licence publique générale GNU Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir GPL. Licence publique générale GNU Logo de la licence publique générale GNU, version 3. Cette licence a depuis été adoptée, en tant que document définissant le mode d'utilisation, donc d'usage et de diffusion, par de nombreux auteurs de logiciels libres, en dehors des projets GNU. Principe de la licence GPL[modifier | modifier le code] La GPL met en œuvre la notion de copyleft, un jeu de mots anglais faisant référence à la notion de copyright (right en anglais signifie à la fois le droit, c'est-à-dire la règle juridique, et la droite, qui marque une direction) que l'on peut transposer en français en parlant de « Gauche d'auteur » par référence au Droit d'auteur. La GPL est la licence de logiciel libre la plus utilisée. L'esprit et l'objectif[modifier | modifier le code] Son histoire[modifier | modifier le code] Richard Stallman en discussion au deuxième jour de la première conférence GPLv3 le 17 janvier 2006.

Search engine indexing Popular engines focus on the full-text indexing of online, natural language documents.[1] Media types such as video and audio[2] and graphics[3] are also searchable. Meta search engines reuse the indices of other services and do not store a local index, whereas cache-based search engines permanently store the index along with the corpus. Unlike full-text indices, partial-text services restrict the depth indexed to reduce index size. Indexing[edit] The purpose of storing an index is to optimize speed and performance in finding relevant documents for a search query. Index design factors[edit] Major factors in designing a search engine's architecture include: Merge factors Storage techniques How to store the index data, that is, whether information should be data compressed or filtered. Index size How much computer storage is required to support the index. Lookup speed How quickly a word can be found in the inverted index. Maintenance How the index is maintained over time.[5] Fault tolerance

Web sémantique : Google, Yahoo et Bing font enfin route commune::Gestion des données Désormais, les développeurs Web ont un bonne raison d’ajouter les technologies du Web Sémantique dans leurs pages Web. Google, Yahoo et Microsoft, les trois acteurs qui font la pluie et le beau temps dans la recherche en ligne dans le monde, ont décidé de s’entendre sur des spécifications communes en termes de tags sémantiques à greffer aux pages HTML. Les trois moteurs de recherche ont ainsi décidé de collaborer au sein de schema.org, un projet qui entend livrer une série de vocabulaires et de schémas types sur lesquels les développeurs pourront se reposer pour structurer leurs données dans HTML. La conférence SemWeb Pro de janvier dernier nous avait permis de le confirmer. Microdata au lieu de RDFa ou des microformats Selon la FAQ du site Schema.org, “il existe actuellement de nombreux schémas et standards pour tagguer différents types d’informations sur des pages Web. Un énième schéma type Pour Schema.org, ce choix des micro-données relève du pragmatisme.

Page web : définition Un article de Wikipédia, l'encyclopédie libre. Une page Web. Consultation[modifier | modifier le code] Bases techniques[modifier | modifier le code] Mise en page[modifier | modifier le code] On appelle « design fluide » les méthodes de design qui permettent aux pages de s'adapter aux conditions de consultation. Créer une page Web[modifier | modifier le code] Pour créer une page Web un éditeur de texte ou un éditeur HTML spécialisé est nécessaire. Le design d’une page Web est personnel. Page d'accueil[modifier | modifier le code] La page d'accueil d'un site web est la page correspondant à l'adresse racine du site. Notes et références[modifier | modifier le code] Voir aussi[modifier | modifier le code] Conception de site web

Related: