background preloader

Scrapy – Un framework dédié au crawl et à l’extraction de données en ligne

Scrapy – Un framework dédié au crawl et à l’extraction de données en ligne
Si votre passion dans la vie, c'est de programmer des bots qui vont crawler des sites web pour en extraire le contenu afin d'alimenter vos propres bases données, vous serez surement heureux de découvrir Scrapy ? Ce framework dédié au parcours de site et à l'extraction de données structurées dans les pages web peut être utilisé dans de nombreuses situations... Par exemple pour faire du monitoring, extraire des liens, ou encore récupérer du contenu éditorial...etc. Scrapy est léger, facile à comprendre (ça utilise du Xpath et un système de règles), et fonctionne sous Windows, Linux, Mac, BSD...etc (c'est du Python). Voici ce que ça donne par exemple pour extraire les liens des derniers torrents mis en ligne sur Mininova. Toute la doc et le soft sont disponibles sur le site officiel de Scrapy. Vous avez aimé cet article ?

http://korben.info/extraire-donnee-pages-web.html

Related:  Télécharger - Synchroniser - Aspirer - Crawlerrobot

Scrapy, l’outil de crawl facile pour extraire des données Quelque soit la raison, bonne ou mauvaise, pour laquelle vous pourriez être amenés à avoir besoin de crawler des sites pour en extraire des données et bien sachez qu’il existe un outil très pratique pour faire cela: Scrapy. Tous ceux qui ont eu à faire une fois un crawler savent que c’est souvent une expérience douloureuse et fastidieuse. Il faut tenir compte des redirections, gérer les erreurs, gérer l’encoding, etc…L’avantage d’utiliser un outil c’est qu’il englobe tout cela dans un socle et que le développeur n’a plus besoin de gérer ces problèmes, c’est ce que propose Scrapy, un outil écrit en Python et qui utilise XPath. Le coeur de métier de l’outil c’est de crawler une ou plusieurs pages et de s’occuper des toutes les problématiques citées ci-dessus, charge ensuite à l’utilisateur de dire quelles pages il souhaite visiter, quelles pages il souhaite parser, et ce qu’il veut parser dans les pages.

Ressources Python Ressources didactiques Gérard Swinnen Vous trouverez ci-dessous : en téléchargement libre, les versions numériques de l'ouvrage "Apprendre à programmer avec Python" de Gérard Swinnen (troisième et cinquième éditions), anciennement publié aux éditions O'Reilly et dorénavant édité chez Eyrolles (ISBN 978-2-212-13434-6) ; le code source des exemples et exercices proposés dans le livre ;Les diapositives et le code source des exemples présentés par G.Swinnen au colloque "Libr'East of Paris" (IUT de Marne-la-vallée) les 23 & 24 Avril 2004 ;Les diapositives de la conférence sur Python présentée à l'IUT de Vannes (Université de Bretagne Sud), le 15 Avril 2005 ;La traduction du livre en hongrois (+ lien vers le site web du traducteur).La traduction du livre en arabe (+ lien vers le site web des traducteurs). Les deux dernières éditions traitent de la version 3 de Python.

WebSiteSniffer WebSiteSniffer WebSiteSniffer est une application Windows plutôt sympa car elle permet de sniffer tout ce qui passe par votre navigateur internet. En gros, tout ce qui est diffusé en HTTP se retrouve enregistré par ce petit soft et stocké sur votre disque dur. Connect things to the home! » Harmony Home : une box domotique 2.0 qui pourrait s’imposer Logitech lance Harmony Home, un hub domotique accompagné d’une télécommande avec ou sans écran tactile et d’une application mobile. Harmony proposait des télécommandes universelles dédiées au pilotage audio/vidéo uniquement jusqu’ici. La gamme précédente Ultimate et Smart Control, dont je vous parlais dernièrement, apportait le pilotage IP et Bluetooth, essentiellement pour Sonos, Amazon FireTV, Philips Hue et Nest. Un pas était déjà mis dans le monde de la maison connectée. Ces deux produits évoluent pour devenir Ultimate Home (version avec écran – ~350 €) et Home Control (sans écran – ~150 €). On retrouve le même principe, avec l’ajout de nouveaux produits IP comme la serrure connectée August, et une toute nouvelle interface graphique dans la tendance actuelle « gros boutons/grandes polices ».

Synchroniser iTunes avec un Android Synchroniser iTunes avec un Android iSyncr est un outil que j'ai testé en début de semaine pour Appload qui va surement vous plaire. Ce soft se compose d'une partie logicielle pour votre PC Windows ou votre Mac et d'une partie logicielle pour votre Android, qui lui permettent de synchroniser votre bibliothèque iTunes avec votre téléphone (musique ET vidéos). [Python] Créer un bot avec Scrapy, ça donne quoi ? (recherche d'utilisateur Twitter) dimanche 2 février - 110645 vues Scrapy permet de coder en Python des petits bots pour du scrap et du crawl. C'est très simple (quand on sait déjà coder et qu'on a envie de faire des bots) et c'est génial. Comment automatiser le web (robot, crawler, scraper) ?Geek Me Up – Devenez Geek ! Vous connaissez les macros sur Excel qui vous permettent d’abattre des tâches répétitives et de vous faire gagner un temps considérable ? Sur le web, il existe des technologies du même acabit grâces auxquelles vous n’effectuerez plus aucune tâche répétitive. On parle alors de robots, de crawling, de scraping, de data-mining… Pourquoi est-il utile d’automatiser votre navigation sur le Web ? Pour impressionner vos collègues et votre chefPour gagner en productivité (dès qu’une tâche est répétitive, vous l’automatisez ) et économiser votre temps.Pour faire de la recherche fondamentale (par exemple analyser des champs lexicaux dans des blogs)Pour surveiller les faits et gestes de vos concurrents (prix de leurs produits, nouveautés, etc.).Pour faire une étude de marché complète et actualisée (par exemple en suivant les annonces de tel produit sur Leboncoin).Pour tester automatiquement votre site Internet sur différents navigateurs.Pour créer de nouveaux services sur Internet.

Impossible de télécharger une vidéo Youtube ? Voici une solution… Impossible de télécharger une vidéo Youtube ? Voici une solution… Edit : J'ai été contacté par le papa de Video Download Helper qui m'a informé que le souci était maintenant réglé. Vous pouvez télécharger la mise à jour ici. Débuter avec Python au lycée De quoi a-t-on besoin ? D’une version de Python. Il en existe plusieurs. Attention, les anciennes versions en 2.x sont incompatibles avec les plus récentes en 3.x.Et au minimum, d’un éditeur de texte. Comment télécharger une émission en replay On en a parlé souvent entre nous dans les commentaires et sur Twitter, mais je n'avais jamais pris le temps d'en faire un article. Si vous souhaitez voir dans VLC une émission en replay ou télécharger une émission en replay sur votre ordinateur Windows, le meilleur soft qui existe permettant de faire ça est Captvty. CapTVty fonctionne uniquement sous Windows et permet de récupérer les vidéos de TF1, France 2, France 3 (pluzz), Canal+, France 5, M6, Arte, Direct 8, W9, TMC, NT1, NRJ 12, LCP, Public Sénat, France 4, BFM TV, I>Télé, Direct Star, Gulli, France Ô, Histoire, Outre-Mer 1ère, TV5 Monde, Equidia et RTBF. Bref, à essayer d'urgence pour récupérer quelques émissions, un peu comme des podcasts pour pouvoir les regarder offline dans le train ou l'avion. Par contre, pas sûr que ça fonctionne depuis l'étranger. Bon, je vous laisse, j'ai quelques Plus Belle La Vie à récupérer. ;-)

mises en forme conditionnelles Comme son nom l'indique, la mise en forme conditionnelle (abrégée en MFC) est une mise en forme appliquée sous certaines conditions. Commençons avec quelques exemples de MFC "prêtes à l'emploi". Sélectionnez les cellules cibles et choisissez la MFC « Supérieur à... » : Entrez une valeur limite (ici, 50'000) et choisissez une mise en forme. Python et les interfaces graphiques — InitiationPython 1.5.1 documentation Tkinter Le module Tkinter cite{tkinter-intro} est basé sur Tk, la librairie développée par J.~Ousterout pour faire des interfaces graphiques en Tclcite{tcltk}, et disponible sur plusieurs plates-formes (dont X11, Mac OS X, MS-Windows).

Tribler s’attaque à l’anonymat ! Tribler s’attaque à l’anonymat ! Vous vous souvenez de Tribler, ce client bittorrent sponsorisé par l'Union Européenne, qui permet de télécharger de manière complètement décentralisée (c'est à dire sans avoir besoin d'aucun serveur) ? Et bien, dans une interview accordée à Torrent Freak, l'un des chercheurs qui bosse sur les algos de Tribler a annoncé que le fruit d'un long travail de recherche de plusieurs années devrait voir le jour dans 2 ou 3 mois. Mais que nous mijotent-ils ? Et bien, ce qui va arriver est un peu le rêve de tous les pirates téléchargeurs et le cauchemar des futurs chômeurs qui hantent encore les couloirs de l'Hadopi...

Related: