background preloader

Crawl et logs

Facebook Twitter

Robots.txt - Manuel d'implémentation. Budget Crawl : Google nous explique sa vision. Budget Crawl : Google nous explique sa vision 4.29 (85.71%) 7 votes Pour analyser un site web et mettre à jour son index, un moteur de recherche utilise des robots (ou agents, spiders, crawlers, etc.) qui vont parcourir toutes les pages d'un site en cliquant sur tous les liens rencontrés, sauvegardant à chaque étape le contenu de la page visitée. Cette indispensable étape d'exploration s'appelle le crawl et elle est effectuée chez Google par son robot qui répond au doux nom de Googlebot. Dans ce domaine, on parle souvent de "budget crawl" pour caractériser le temps alloué par Google à l'exploration d'un site. Le post précise tout d'abord que ces notions ne concernent que les "gros sites" (plus de quelques milliers d'URL).

Bref, il faut bien le dire, un post assez décevant (on s'attendait quand même à quelque chose d'un peu plus fouillé), qui aligne des généralités bien connues de la plupart des référenceurs. Pourquoi faut-il crawler son site régulièrement ? | Search / Result. Crawler son site régulièrement n’est pas encore un réflexe chez tous les chefs de projet ou responsable SEO. Ce n’est malheureusement pas non plus un réflexe chez les développeurs avant une mise en production.

Il existe pourtant un réel intérêt à le faire, surtout que ce n’est ni compliqué, ni chronophage. Voici pourquoi il faut le faire présenté par une étude de cas. Que ce soit lors de modifications sur le site (mise en ligne de nouvelles pages, changements dans l’arborescence ou le maillage, etc…) ou en simple contrôle de « sécurité », il faut crawler son site régulièrement. Personnellement, si il n’y a pas de mise en production, je le fais chaque mois. Idéalement, on utilisera un outil comme Botify. Ca demande un certain budget mais le tarif débute à 39 euros/mois et vous avez un mois d’essai gratuit. Google Webmaster Tools On le dit souvent, Google est ton ami. Ces données sont précieuses car elles vous indiquent la façon dont GoogleBot visite votre site et à quelle fréquence. Botify Knowledge Base. Robots d'exploration Google - Aide Search Console. L'expression "robot d'exploration" désigne tout programme qui permet de détecter et d'explorer automatiquement des sites Web en suivant des liens d'une page à une autre.

Notre robot d'exploration principal s'appelle Googlebot. Le tableau ci-après répertorie les caractéristiques des robots d'exploration Google classiques qui peuvent figurer dans les fichiers journaux de votre URL de provenance, ainsi que la manière dont ils doivent être indiqués dans le fichier robots.txt, dans les balises Meta pour les robots et dans les instructions HTTP X-Robots-Tag. Dans le tableau suivant, le jeton user-agent est utilisé dans la ligne User-agent: du fichier robots.txt pour correspondre à ce robot d'exploration spécifique. Certains robots répondent à plusieurs jetons, comme indiqué dans le tableau : vous devez utiliser un seul jeton correspondant pour un robot d'exploration. Cette liste n'est pas complète, mais couvre la plupart des robots que vous pouvez voir sur votre site Web.

Why Check Canonicals Consistency. A canonical tag is meant to indicate that the page's content is not the primary version of this content, and point to the page with the main version (canonical). It is an indication to search engines, to advise them to present the canonical version in their search result pages, and not the non-primary, alternate version. Search engines can ignore canonical tags Precisely because a canonical tag is "just" an indication (a hint) and not a directive (an instruction that has to be followed, such as those found in a website's robots.txt), search engines can ignored it.

Why would they? First of all, because sometimes, canonical tags are implemented the wrong way. Whatever the reasons, if you are focusing your SEO work on canonical pages while, and if in the mean time, search engines are preferring some non-canonical pages, you are wasting time and are not achieving results. What can we look at to check canonicals consistency? Related to usage statistics Related to the user's device. Crawl, data et vlookup : le super combo du SEO. Mais encore ? Vlookup (recherchev) est donc une fonction intégrée aux tableurs (Excel). Ca peut aussi marcher avec d’autres comme open office, Google spreadsheet etc, mais attention, le nom de la fonction peut changer.

Néanmoins le principe reste le même. L’idée étant de regrouper au sein d’un même tableau, des données issues de plusieurs tableaux différents, mais ayant des données en commun (bien souvent les URLs). C’est encore un peu flou ? Vous comprendrez mieux par la suite… Celui qui ne fait pas de recoupement, fait du SEO en aveugle Récolter des données c’est bien, c’est même la base. Au début, il y a le crawl Certains outils que je qualifierai de « multidimensionnels » permettent nativement de faire du recoupement en agrégeant plusieurs données issues d’outils différents. Le crawler dois-je le rappeler, est lui aussi un outil indispensable à toute analyse et audit.

Tutorial pas à pas La première étape consiste donc à crawler le site pour en récupérer toutes les URLs. Voilà. Le rapport Ressources bloquées de Google Webmaster Tools. Depuis le 11 mars 2015, Google fournit dans ses outils pour webmasters une rubrique intitulée Ressources bloquées. Elle liste principalement les fichiers images, Javascript (.js) et CSS bloqués au crawl de Google, ce qui peut gêner l'analyse des pages qui les incluent et donc le SEO.

Google Webmaster Tools propose une interface de gestion des ressources bloquées au crawl (codes Javascript, feuilles de styles CSS, images...) Javascript et CSS sont des éléments incontournables de la création de sites web et ces technologies sont largement utilisées partout. Google a depuis longtemps expliqué qu'il ne faut pas bloquer à son robot Googlebot l'accès aux fichiers JS et CSS, car cela l'empêche de bien comprendre les pages web. C'est particulièrement important depuis que les sites sont adaptés aux mobiles, par exemple avec la technique du responsive design. Google commence par ce résumé - avertissement : "Un affichage sans certaines ressources peut nuire à l'indexation de vos pages Web". Analyse et étude du Crawl Google pour le SEO via les logs. Les logs serveurs, une existence depuis la nuit des temps ! Pourtant de manière visible, c’est depuis trois ou quatre ans qu’on a vu surgir certains articles à ce sujet, deux ans qu’on commence sérieusement à s’y intéresser et maintenant qu’ils se démocratisent totalement.

Certains consultants ou agence SEO ne font d’ailleurs plus d’audit sur de gros sites sans ces données. Mais au fait, à quoi ça sert et comment ça marche ? C’est toujours aussi étonnant de voir comment un référenceur peut être un champion de la technique ou un littéraire dans l’âme. Ici, vous l’avez compris, sauf à avoir à disposition un mec qui te met en place le tout, il va falloir sortir le tournevis pour opter pour la bonne méthode d’analyse des données. De notre coté, nous avons fait un choix à l’agence KEEG : celui de développer notre propre tool. Oui, on est des fous ici (ou pas). Nous avons fait le choix numéro trois pour au moins trois raisons : Les logs serveurs, c’est quoi et comment ça marche ? Pour qui ? Robots d'exploration Google - Centre d'aide Outils pour les webmasters.