background preloader

Scrapy – Un framework dédié au crawl et à l’extraction de données en ligne

Scrapy – Un framework dédié au crawl et à l’extraction de données en ligne
Si votre passion dans la vie, c'est de programmer des bots qui vont crawler des sites web pour en extraire le contenu afin d'alimenter vos propres bases données, vous serez surement heureux de découvrir Scrapy ? Ce framework dédié au parcours de site et à l'extraction de données structurées dans les pages web peut être utilisé dans de nombreuses situations... Par exemple pour faire du monitoring, extraire des liens, ou encore récupérer du contenu éditorial...etc. Scrapy est léger, facile à comprendre (ça utilise du Xpath et un système de règles), et fonctionne sous Windows, Linux, Mac, BSD...etc (c'est du Python). Toute la doc et le soft sont disponibles sur le site officiel de Scrapy. Vous avez aimé cet article ? Related:  Télécharger - Synchroniser - Aspirer - Crawlerrobot

How to Watch YouTube Videos in VLC Media Player VLC Media player is capable of playing just about anything you can throw at it, but did you know that includes YouTube videos? How to Watch YouTube Videos in VLC Media Player You will first need to open VLC, then click on the Media menu followed by Open Network Stream… Then simply paste your link into the text box and click play. That’s all there is to it. Taylor Gibb is a Microsoft MVP and all round geek, he loves everything from Windows 8 to Windows Server 2012 and even C# and PowerShell.

[Python] Créer un bot avec Scrapy, ça donne quoi ? (recherche d'utilisateur Twitter) dimanche 2 février - 110645 vues Scrapy permet de coder en Python des petits bots pour du scrap et du crawl. C'est très simple (quand on sait déjà coder et qu'on a envie de faire des bots) et c'est génial. Le scrapingC'est lire tout le contenu d'une page web et faire du traitement dessus. Et une fois que t'as bien compris comment ça marche, tu peux passer à la suite. Après avoir galéré à installer tout ce qu'il y a à installer pour que Scrapy fonctionne, je te file un code simple pour faire une recherche d'utilisateur sur Twitter. L'item à mettre dans items.py : class User(Item): nom = Field() url = Field() adr = Field() descr = Field() La spider que j'ai appelé twitter.py : from scrapy.selector import Selector from scrapy.spider import Spider from dirbot.items import User class TwitterSpider(Spider): name = 'twitter' allowed_domains = ['twitter.com'] def __init__(self, name=None, *args, **kwargs): super(TwitterSpider, self). scrapy crawl twitter -a name=MOT_A_CHERCHER

About What is Media Queries? Media Queries is a W3C Candidate Recommendation—a widely reviewed document which is ready for implementation by browser vendors. It's an extension of media dependent stylesheets tailored for different media types (i.e. screen and print) found in CSS2. In its essence a media query consists of a media type and an expression to check for certain conditions of a particular media feature. The most commonly used media feature is width. By restricting CSS rules to a certain width of the device displaying a web page, one can tailor the page's representation to devices (i.e. smartphones, tablets, netbooks, and desktops) with varying screen resolution. What is Responsive Web Design? The term Responsive Web Design was coined by Ethan Marcotte and is the practice of using fluid grids, flexible images, and media queries to progressively enhance a web page for different viewing contexts. What screen resolutions do you use while taking screenshots? Smartphone 320px Tablet 768px Netbook

s Python Class - Google's Python Class - Google Code Welcome to Google's Python Class -- this is a free class for people with a little bit of programming experience who want to learn Python. The class includes written materials, lecture videos, and lots of code exercises to practice Python coding. These materials are used within Google to introduce Python to people who have just a little programming experience. The first exercises work on basic Python concepts like strings and lists, building up to the later exercises which are full programs dealing with text files, processes, and http connections. To get started, the Python sections are linked at the left -- Python Set Up to get Python installed on your machine, Python Introduction for an introduction to the language, and then Python Strings starts the coding material, leading to the first exercise. This material was created by Nick Parlante working in the engEDU group at Google. Tip: Check out the Python Google Code University Forum to ask and answer questions.

WebSiteSniffer WebSiteSniffer WebSiteSniffer est une application Windows plutôt sympa car elle permet de sniffer tout ce qui passe par votre navigateur internet. En gros, tout ce qui est diffusé en HTTP se retrouve enregistré par ce petit soft et stocké sur votre disque dur. Ça peut être pratique si vous voulez voir un peu ce qui passe par votre ordi, et surtout récupérer des fichiers XML. C'est un outil proposé par Nirsoft et téléchargeable ici. [Source et photo] Vous avez aimé cet article ? Tutorial — Scrapy 0.24.4 documentation In this tutorial, we’ll assume that Scrapy is already installed on your system. If that’s not the case, see Installation guide. We are going to use Open directory project (dmoz) as our example domain to scrape. This tutorial will walk you through these tasks: Creating a new Scrapy projectDefining the Items you will extractWriting a spider to crawl a site and extract ItemsWriting an Item Pipeline to store the extracted Items Scrapy is written in Python. Creating a project¶ Before you start scraping, you will have set up a new Scrapy project. scrapy startproject tutorial This will create a tutorial directory with the following contents: tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ... These are basically: Defining our Item¶ Items are containers that will be loaded with the scraped data; they work like simple python dicts but provide additional protection against populating undeclared fields, to prevent typos. Our first Spider¶ Crawling¶ Note [ ...

GoMo: An Initiative From Google Testez SyncApp de Bittorrent Ça vous dirait de tester le nouvel outil de synchronisation p2p mis au point par la société Bittorrent ? Nommée SyncApp, cette application est destinée à synchroniser des répertoires de votre choix entre plusieurs machines et cela, que ce soit en local ou via l'Internet mondial. Je viens de tester une synchro entre en Mac et un Linux et je suis bluffé. C'est une alpha, mais elle fonctionne déjà très bien et les débits sont top ! Je trouve ça génial, surtout la version pour Linux qui fonctionne très bien sur les NAS et autres petits appareils sur lesquels vous avez un accès SSH. SyncApp a dans son ADN de quoi détrôner Dropbox et autres... Pour la version Linux, il faut dézipper le binaire, faire un petit chmod +x pour le rendre exécutable et le lancer. SyncApp est dispo pour Windows, OSX et pour Linux (ARM, PowerPC, i386) à cette adresse. Amusez-vous bien et n'oubliez pas que c'est une alpha, donc si ça bug, c'est normal (Chez moi aucun souci jusqu'à présent) Vous avez aimé cet article ?

Synchroniser iTunes avec un Android Synchroniser iTunes avec un Android iSyncr est un outil que j'ai testé en début de semaine pour Appload qui va surement vous plaire. Ce soft se compose d'une partie logicielle pour votre PC Windows ou votre Mac et d'une partie logicielle pour votre Android, qui lui permettent de synchroniser votre bibliothèque iTunes avec votre téléphone (musique ET vidéos). L'outil sait gérer les listes de lectures, les pochettes d'albums et se synchronise avec autant de bibliothèques iTunes que vous le désirez, via un câble USB ou en WiFi. iSyncr propose aussi la création de playlists intelligentes en fonction du nombre de lectures sur une chanson, de celles que vous avez passé ou de la note que vous lui avez attribuée. Les softs sur le Google Play sont disponibles en version Lite (gratuit) et en version payante (2,99€) pour PC et pour Mac. Et évidemment, que ce soit avec la version payante ou la version gratuite, s'il y a un DRM sur votre fichier, celui-ci ne sera pas transférable.

Scrapy, l’outil de crawl facile pour extraire des données | Liteweb.fr Quelque soit la raison, bonne ou mauvaise, pour laquelle vous pourriez être amenés à avoir besoin de crawler des sites pour en extraire des données et bien sachez qu’il existe un outil très pratique pour faire cela: Scrapy. Tous ceux qui ont eu à faire une fois un crawler savent que c’est souvent une expérience douloureuse et fastidieuse. Il faut tenir compte des redirections, gérer les erreurs, gérer l’encoding, etc…L’avantage d’utiliser un outil c’est qu’il englobe tout cela dans un socle et que le développeur n’a plus besoin de gérer ces problèmes, c’est ce que propose Scrapy, un outil écrit en Python et qui utilise XPath. Le coeur de métier de l’outil c’est de crawler une ou plusieurs pages et de s’occuper des toutes les problématiques citées ci-dessus, charge ensuite à l’utilisateur de dire quelles pages il souhaite visiter, quelles pages il souhaite parser, et ce qu’il veut parser dans les pages. En avant pour le tutorial ! I – Installation II – Création d’un workspace

The ROI of Website Performance: A Resources Guide Today, you can have all the SEO, inbound marketing, and dynamic web design necessary to turn your website into an ROI powerhouse - but it all means relatively little without website performance optimization. For many businesses, speed = money, and having a poorly optimized website will always lead to lower conversion rates and unhappy customers. So when it comes to website success, we are ready to crown ROI as #1 in terms of performance metrics. We've compiled a list of some of the best resources on website performance ROI available. Articles & eBooks Infographics Tools Impossible de télécharger une vidéo Youtube ? Voici une solution… Impossible de télécharger une vidéo Youtube ? Voici une solution… Edit : J'ai été contacté par le papa de Video Download Helper qui m'a informé que le souci était maintenant réglé. Vous pouvez télécharger la mise à jour ici. Depuis quelques heures, YouTube a fait des modifications sur ses pages qui empêchent les gens d'utiliser des logiciels de téléchargement de vidéos tels que le très célèbre Video DownloadHelper. Pas cool ! Ce "bug" est semble-t-il une volonté de la part de Google pour d'empêcher le téléchargement de vidéos. De mon point de vue, c'est nécessaire de pouvoir effectuer une copie locale d'une vidéo YouTube pour permettre le partage et la diffusion de l'information. La team de Video DownloadHelper est donc sur la brèche pour trouver un moyen de rétablir les fonctionnalités de base de l'extension Firefox, mais en attendant, si vous souhaitez quand même pouvoir utiliser Video DownloadHelper avec YouTube, il va falloir passer en mode HTML5 en cliquant ici. Merci à Éric et Mig.

Building a Web Crawler with Scrapy : Blog of the Pirates Recently, crawling data from a website or websites is not so complicated as it used to be. Actually, you can build a simple crawler within an hour or left with a scripting language such as PHP or even Javascript (on server side). In this post, I will introduce an approach to the topic by using a Python framework – Scrapy – to build a web crawler. Okay, let’s dive in. 0. Why Scrapy? You might ask why I choose a Python framework instead of using some other “faster” solutions. 1. Before installing Scrapy, be sure you have already installed Python (latest version). After installing Python, there are several options for you: Install Scrapy from source (if it does ring a bell, you are awesome!). The third one is so far the most general method, which can be applied for MacOS X, Linux and Windows. Once you have installed pip, run the command below: If there are errors relating to permissions, please add sudo to the beginning of the command. 2. scrapy startproject your_project_name 3. 4. 5. “Man! 6.

Related: