background preloader

Scraping

Facebook Twitter

Generate Focused Crawlers Without Coding - Scrape.it. Crawly: Never write another web scraper. ImportXml & ImportHtml: Scraper avec Google Spreadsheet. Scraper, selon wikipedia c’est « extraire du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte ».

ImportXml & ImportHtml: Scraper avec Google Spreadsheet

Extraire des données c’est déjà bien, mais dans un tableau google spreadsheet, c’est encore mieux. Pourquoi Scraper des données disponibles sur le web ? Pour 2 raisons principales: un simple copier coller ne conserve pas toujours la mise en formeen scrapant les données, on peut actualiser très facilement la récupération de données issues de multiples sources Quelques exemples d’utilisations: Extraire les résultats de recherche de Google ou Twitter pour découvrir les concurrents sur son domaine, ou juste mesurer son positionnementExtraire un tableau depuis wikipedia pour en exploiter les donnéesExtraire la liste des annonces (titre, prix, etc.) d’un résultat de recherche sur leboncoinTraduire ses flux RSS en françaisetc.

ImportHtml: importer facilement des tableaux et des listes Syntaxe: Exemple d’utilisation: Screen Scraping, Data Scraping, Data Extraction Software. Comment automatiser le web (robot, crawler, scraper) ?Geek Me Up – Devenez Geek ! Vous connaissez les macros sur Excel qui vous permettent d’abattre des tâches répétitives et de vous faire gagner un temps considérable ?

Comment automatiser le web (robot, crawler, scraper) ?Geek Me Up – Devenez Geek !

Sur le web, il existe des technologies du même acabit grâces auxquelles vous n’effectuerez plus aucune tâche répétitive. On parle alors de robots, de crawling, de scraping, de data-mining… Pourquoi est-il utile d’automatiser votre navigation sur le Web ? Pour impressionner vos collègues et votre chefPour gagner en productivité (dès qu’une tâche est répétitive, vous l’automatisez ) et économiser votre temps.Pour faire de la recherche fondamentale (par exemple analyser des champs lexicaux dans des blogs)Pour surveiller les faits et gestes de vos concurrents (prix de leurs produits, nouveautés, etc.).Pour faire une étude de marché complète et actualisée (par exemple en suivant les annonces de tel produit sur Leboncoin).Pour tester automatiquement votre site Internet sur différents navigateurs.Pour créer de nouveaux services sur Internet. I. A) IFTTT II. Dexi.io - web data extraction tool for professionals. Les règles d'or du web scraping Partie 1 - Nael Shiab.

Cet article a aussi été publié sur Projet-J.

Les règles d'or du web scraping Partie 1 - Nael Shiab

Vous rappelez-vous quand Twitter a perdu 8 millards de dollars en quelques heures à peine? C’était à cause d’un web scraper (souvent affectueusement surnommé « robot »), un outil utilisé depuis longtemps par certaines entreprises, mais aussi par les plus geeks des journalistes! Petit retour en arrière. En avril dernier, Twitter devait annoncer ses résultats trimestriels une fois les marchés boursiers fermés. Les résultats étant un peu décevants, Twitter voulait éviter une vente brutale de ses actions. Ces 45 secondes permettent alors à un robot programmé pour faire du web scraping de détecter la publication, la formater et la publier automatiquement sur… Twitter! Et oui, de nos jours, les robots aussi ont des scoops de temps en temps! Un web scraper est tout simplement un programme informatique qui lit le code html des pages web et l’analyse. Une fois le tweet publié, les marchés boursiers s’emballent.

Restez à l’affût! Des députés fédéraux et du web scraping - Nael Shiab. Ça faisait un moment que je me cherchais un petit projet personnel sur les députés fédéraux.

Des députés fédéraux et du web scraping - Nael Shiab

Rien de bien sérieux. Juste de quoi coder pour m’amuser un peu. Le résultat: une ligne du temps interactive sur les emplois déclarés par les députés au fil des années! Surprenant l’implication des agriculteurs en politique avant les années 70, n’est-ce pas? Et la professionnalisation du rôle de député par la suite? Comment ai-je réalisé cette amusante infographie? #1 Trouver l’information En cherchant des informations sur les députés fédéraux, je suis tombé sur cette intéressante page web.

Voici à quoi le tout ressemble par exemple pour Calgary-Centre et Calgary-Centre-Nord, lors de l’élection générale de 2011. Évidemment, nous pourrions demander aux administrateurs du site web de nous envoyer leur base de données directement, mais c’est beaucoup plus amusant d’extraire les données nous-même! Premier réflexe: jeter un coup d’oeil au code source de la page: Analysons l’url de la page web maintenant: A Fast and Powerful Scraping and Web Crawling Framework.