background preloader

Scrapy – Un framework dédié au crawl et à l’extraction de données en ligne

Scrapy – Un framework dédié au crawl et à l’extraction de données en ligne
Si votre passion dans la vie, c'est de programmer des bots qui vont crawler des sites web pour en extraire le contenu afin d'alimenter vos propres bases données, vous serez surement heureux de découvrir Scrapy ? Ce framework dédié au parcours de site et à l'extraction de données structurées dans les pages web peut être utilisé dans de nombreuses situations... Par exemple pour faire du monitoring, extraire des liens, ou encore récupérer du contenu éditorial...etc. Scrapy est léger, facile à comprendre (ça utilise du Xpath et un système de règles), et fonctionne sous Windows, Linux, Mac, BSD...etc (c'est du Python). Toute la doc et le soft sont disponibles sur le site officiel de Scrapy. Vous avez aimé cet article ? Related:  Télécharger - Synchroniser - Aspirer - Crawlerrobot

How to Watch YouTube Videos in VLC Media Player VLC Media player is capable of playing just about anything you can throw at it, but did you know that includes YouTube videos? How to Watch YouTube Videos in VLC Media Player You will first need to open VLC, then click on the Media menu followed by Open Network Stream… Then simply paste your link into the text box and click play. That’s all there is to it. Taylor Gibb is a Microsoft MVP and all round geek, he loves everything from Windows 8 to Windows Server 2012 and even C# and PowerShell.

[Python] Créer un bot avec Scrapy, ça donne quoi ? (recherche d'utilisateur Twitter) dimanche 2 février - 110645 vues Scrapy permet de coder en Python des petits bots pour du scrap et du crawl. C'est très simple (quand on sait déjà coder et qu'on a envie de faire des bots) et c'est génial. Le scrapingC'est lire tout le contenu d'une page web et faire du traitement dessus. Et une fois que t'as bien compris comment ça marche, tu peux passer à la suite. Après avoir galéré à installer tout ce qu'il y a à installer pour que Scrapy fonctionne, je te file un code simple pour faire une recherche d'utilisateur sur Twitter. L'item à mettre dans items.py : class User(Item): nom = Field() url = Field() adr = Field() descr = Field() La spider que j'ai appelé twitter.py : from scrapy.selector import Selector from scrapy.spider import Spider from dirbot.items import User class TwitterSpider(Spider): name = 'twitter' allowed_domains = ['twitter.com'] def __init__(self, name=None, *args, **kwargs): super(TwitterSpider, self). scrapy crawl twitter -a name=MOT_A_CHERCHER

About What is Media Queries? Media Queries is a W3C Candidate Recommendation—a widely reviewed document which is ready for implementation by browser vendors. It's an extension of media dependent stylesheets tailored for different media types (i.e. screen and print) found in CSS2. In its essence a media query consists of a media type and an expression to check for certain conditions of a particular media feature. The most commonly used media feature is width. By restricting CSS rules to a certain width of the device displaying a web page, one can tailor the page's representation to devices (i.e. smartphones, tablets, netbooks, and desktops) with varying screen resolution. What is Responsive Web Design? The term Responsive Web Design was coined by Ethan Marcotte and is the practice of using fluid grids, flexible images, and media queries to progressively enhance a web page for different viewing contexts. What screen resolutions do you use while taking screenshots? Smartphone 320px Tablet 768px Netbook

WebSiteSniffer WebSiteSniffer WebSiteSniffer est une application Windows plutôt sympa car elle permet de sniffer tout ce qui passe par votre navigateur internet. En gros, tout ce qui est diffusé en HTTP se retrouve enregistré par ce petit soft et stocké sur votre disque dur. Ça peut être pratique si vous voulez voir un peu ce qui passe par votre ordi, et surtout récupérer des fichiers XML. C'est un outil proposé par Nirsoft et téléchargeable ici. [Source et photo] Vous avez aimé cet article ? Tutorial — Scrapy 0.24.4 documentation In this tutorial, we’ll assume that Scrapy is already installed on your system. If that’s not the case, see Installation guide. We are going to use Open directory project (dmoz) as our example domain to scrape. This tutorial will walk you through these tasks: Creating a new Scrapy projectDefining the Items you will extractWriting a spider to crawl a site and extract ItemsWriting an Item Pipeline to store the extracted Items Scrapy is written in Python. Creating a project¶ Before you start scraping, you will have set up a new Scrapy project. scrapy startproject tutorial This will create a tutorial directory with the following contents: tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ... These are basically: Defining our Item¶ Items are containers that will be loaded with the scraped data; they work like simple python dicts but provide additional protection against populating undeclared fields, to prevent typos. Our first Spider¶ Crawling¶ Note [ ...

GoMo: An Initiative From Google Synchroniser iTunes avec un Android Synchroniser iTunes avec un Android iSyncr est un outil que j'ai testé en début de semaine pour Appload qui va surement vous plaire. Ce soft se compose d'une partie logicielle pour votre PC Windows ou votre Mac et d'une partie logicielle pour votre Android, qui lui permettent de synchroniser votre bibliothèque iTunes avec votre téléphone (musique ET vidéos). L'outil sait gérer les listes de lectures, les pochettes d'albums et se synchronise avec autant de bibliothèques iTunes que vous le désirez, via un câble USB ou en WiFi. iSyncr propose aussi la création de playlists intelligentes en fonction du nombre de lectures sur une chanson, de celles que vous avez passé ou de la note que vous lui avez attribuée. Les softs sur le Google Play sont disponibles en version Lite (gratuit) et en version payante (2,99€) pour PC et pour Mac. Et évidemment, que ce soit avec la version payante ou la version gratuite, s'il y a un DRM sur votre fichier, celui-ci ne sera pas transférable.

Scrapy, l’outil de crawl facile pour extraire des données | Liteweb.fr Quelque soit la raison, bonne ou mauvaise, pour laquelle vous pourriez être amenés à avoir besoin de crawler des sites pour en extraire des données et bien sachez qu’il existe un outil très pratique pour faire cela: Scrapy. Tous ceux qui ont eu à faire une fois un crawler savent que c’est souvent une expérience douloureuse et fastidieuse. Il faut tenir compte des redirections, gérer les erreurs, gérer l’encoding, etc…L’avantage d’utiliser un outil c’est qu’il englobe tout cela dans un socle et que le développeur n’a plus besoin de gérer ces problèmes, c’est ce que propose Scrapy, un outil écrit en Python et qui utilise XPath. Le coeur de métier de l’outil c’est de crawler une ou plusieurs pages et de s’occuper des toutes les problématiques citées ci-dessus, charge ensuite à l’utilisateur de dire quelles pages il souhaite visiter, quelles pages il souhaite parser, et ce qu’il veut parser dans les pages. En avant pour le tutorial ! I – Installation II – Création d’un workspace

Impossible de télécharger une vidéo Youtube ? Voici une solution… Impossible de télécharger une vidéo Youtube ? Voici une solution… Edit : J'ai été contacté par le papa de Video Download Helper qui m'a informé que le souci était maintenant réglé. Vous pouvez télécharger la mise à jour ici. Depuis quelques heures, YouTube a fait des modifications sur ses pages qui empêchent les gens d'utiliser des logiciels de téléchargement de vidéos tels que le très célèbre Video DownloadHelper. Pas cool ! Ce "bug" est semble-t-il une volonté de la part de Google pour d'empêcher le téléchargement de vidéos. De mon point de vue, c'est nécessaire de pouvoir effectuer une copie locale d'une vidéo YouTube pour permettre le partage et la diffusion de l'information. La team de Video DownloadHelper est donc sur la brèche pour trouver un moyen de rétablir les fonctionnalités de base de l'extension Firefox, mais en attendant, si vous souhaitez quand même pouvoir utiliser Video DownloadHelper avec YouTube, il va falloir passer en mode HTML5 en cliquant ici. Merci à Éric et Mig.

Building a Web Crawler with Scrapy : Blog of the Pirates Recently, crawling data from a website or websites is not so complicated as it used to be. Actually, you can build a simple crawler within an hour or left with a scripting language such as PHP or even Javascript (on server side). In this post, I will introduce an approach to the topic by using a Python framework – Scrapy – to build a web crawler. Okay, let’s dive in. 0. Why Scrapy? You might ask why I choose a Python framework instead of using some other “faster” solutions. 1. Before installing Scrapy, be sure you have already installed Python (latest version). After installing Python, there are several options for you: Install Scrapy from source (if it does ring a bell, you are awesome!). The third one is so far the most general method, which can be applied for MacOS X, Linux and Windows. Once you have installed pip, run the command below: If there are errors relating to permissions, please add sudo to the beginning of the command. 2. scrapy startproject your_project_name 3. 4. 5. “Man! 6.

Comment télécharger une émission en replay On en a parlé souvent entre nous dans les commentaires et sur Twitter, mais je n'avais jamais pris le temps d'en faire un article. Si vous souhaitez voir dans VLC une émission en replay ou télécharger une émission en replay sur votre ordinateur Windows, le meilleur soft qui existe permettant de faire ça est Captvty. CapTVty fonctionne uniquement sous Windows et permet de récupérer les vidéos de TF1, France 2, France 3 (pluzz), Canal+, France 5, M6, Arte, Direct 8, W9, TMC, NT1, NRJ 12, LCP, Public Sénat, France 4, BFM TV, I>Télé, Direct Star, Gulli, France Ô, Histoire, Outre-Mer 1ère, TV5 Monde, Equidia et RTBF. Bref, à essayer d'urgence pour récupérer quelques émissions, un peu comme des podcasts pour pouvoir les regarder offline dans le train ou l'avion. Par contre, pas sûr que ça fonctionne depuis l'étranger. Bon, je vous laisse, j'ai quelques Plus Belle La Vie à récupérer. ;-) Vous avez aimé cet article ?

Firebug download YouTube videos Here’s a cool little trick I discovered by accident. If you use the excellent Firebug add-on for Firefox you can very easily download YouTube videos without resorting to websites like Keepvid or add-ons like Fast Video Download. Here’s how: Start up Firebug by clicking on the logo in the status bar (you might have to right-click and remove the ‘Disable Firebug’ tick)Go to the movie on YouTube you want to downloadGo to the ‘Net’ tab in Firebug(you might need to turn on the ‘Net’ panel first in newer versions of Firebug) and locate the ‘get_video’ object, it’s a few megabytes in size, depending on how long the video is Right-click on the URL and select ‘Copy location’ Paste the URL in your favourite download manager. Update (03/02/2009) I found out that this method actually works on most sites with video content. And if you want to view the downloaded file (usually a Flash video or ‘flv’ file) on your iPod, iPhone or PSP you can use the excellent Handbrake to convert to those formats.

Tribler s’attaque à l’anonymat ! Tribler s’attaque à l’anonymat ! Vous vous souvenez de Tribler, ce client bittorrent sponsorisé par l'Union Européenne, qui permet de télécharger de manière complètement décentralisée (c'est à dire sans avoir besoin d'aucun serveur) ? Et bien, dans une interview accordée à Torrent Freak, l'un des chercheurs qui bosse sur les algos de Tribler a annoncé que le fruit d'un long travail de recherche de plusieurs années devrait voir le jour dans 2 ou 3 mois. Mais que nous mijotent-ils ? Et bien, ce qui va arriver est un peu le rêve de tous les pirates téléchargeurs et le cauchemar des futurs chômeurs qui hantent encore les couloirs de l'Hadopi... C'est une belle promesse que les développeurs de Tribler nous font là, même si je demande à tester avant de déclarer ça comme le St Graal du client Torrent ;-) Tribler est open source et on peut très bien imaginer que si cette techno fonctionne convenablement, d'autres clients comme uTorrent se l'approprieront. Affaire à suivre donc...

Related: