background preloader

An open source web scraping framework for Python

An open source web scraping framework for Python

http://scrapy.org/

Related:  Moteurs de RechercheProductivityScrapingScraping

Ce qu'il faut savoir sur le Knowledge Graph de Google Moteur de recherche - C’était une des annonces de l’édition 2012 de LeWeb : Google vient d’annoncer la mise en place du Knowledge Graph sur la version française de son moteur, après avoir déjà implémenté cette fonctionnalité sur d’autres versions linguistiques, dont notamment le site US. En résulte un nouvel affichage des page de résultats, et une fiche de résultats structurés. Mais jusqu'à quel point est-ce vraiment révolutionnaire ? Le Knowledge Graph décrypté. L'objectif du Knowledge Graph, ou graphe de la connaissance, est de proposer une réponse structurée correspondant à la requête de l'utilisateur, plutôt que de simples liens vers des sites comme le font traditionnellement les moteurs. Pour composer cette réponse complète, le principe choisi par Google est d'agréger les informations de façon structurée au sein d'une "fiche" informationnelle, tout en proposant des liens relatifs pour prolonger.

Sozi - Présentation Sozi est un logiciel libre permettant de réaliser des présentations animées. Initialement inspiré par le logiciel propriétaire Prezi, l’un des intérêts de Sozi est l’utilisation de formats ouverts. Ainsi, les présentations créées avec Sozi peuvent être jouées dans tout navigateur web capable d’afficher des documents SVG et d’exécuter du Javascript.

Quelle techno pour faire du web scraping ? En Ruby j'utilise le Nokogiri3 gem, très efficace.Lorsque la structure du site est complexe j'utilise l'extension Chrome de Kimono4 pour identifier les common patterns/css selectors qui m'intéressent. Demo : Après avoir rajouté gem 'nokogiri' et fait tourner bundle install, créer une rake task (sur Rails créer un fichier: /lib/tasks/scrape.rake).Par exemple pour récupérer tous les sujets de discussion de Human Coders (NB: je ne fais pas ça généralement, mais la démo me paraissait intéressante!): namespace :scrape_human_coders do desc "Scraping list of topics" task :get_topics => :environment do require 'open-uri' require 'nokogiri' url = " document = open(url).read html_doc = Nokogiri::HTML(document) topics_format = "#main-outlet .topic-list a" html_doc.css(topics_format).each_with_index do |topic, index| if topic['href'][1] == "t" puts topic.text end end endend Ensuite il suffit de taper ' rake scrape_human_coders:get_topics ' et d'observer le résultat.

Les règles d'or du web scraping Partie 1 - Nael Shiab Cet article a aussi été publié sur Projet-J. Vous rappelez-vous quand Twitter a perdu 8 millards de dollars en quelques heures à peine? C’était à cause d’un web scraper (souvent affectueusement surnommé « robot »), un outil utilisé depuis longtemps par certaines entreprises, mais aussi par les plus geeks des journalistes! Fouille du web Un article de Wikipédia, l'encyclopédie libre. La fouille du Web est l'application des techniques d'exploration de données en vue de découvrir des constantes, schémas ou modèles, dans les ressources d'internet ou les données le concernant. Selon ses cibles, la fouille du web peut être divisée en trois types : la fouille de l'usage du web, la fouille du contenu du web, la fouille de la structure du web[1]. Fouille de l'usage du web[modifier | modifier le code]

De la recherche sociale au web social 1/3 : D’Altavista à Google +1, la guerre des boutons a commencé Le lancement officiel du bouton Google +1 début juin signe le début d’une guerre ouverte entre le moteur de recherche vedette et l’alliance Facebook/Microsoft au sein du moteur Bing. Pourquoi une guerre ? Pourquoi sommes nous tous concernés ? Parce que ces boutons constituent le point de départ d’une évolution majeure d’internet qui démarre avec la Recherche Sociale, et qu’il nous sera de plus en plus difficile d’ignorer ce mouvement de fond, y compris en dehors d’internet. Telescope - Installez votre clone de Reddit Telescope – Installez votre clone de Reddit Si vous voulez initier une communauté en ligne en proposant à vos visiteurs une plateforme de partage social similaire à Reddit ou HackerNews, cet article va vous plaire. Telescope est un script sous licence MIT qui peut faire office de forum, de site de partage de liens, d'outil de suivi de bug, d'outil de gestion de projet...Etc. Chaque utilisateur inscrit peut y poster du texte (y compris en Markdown !) et des liens, mis à jour en temps réel et que les autres peuvent commenter. C'est vraiment comme sur Reddit.

ImportXml & ImportHtml: Scraper avec Google Spreadsheet Scraper, selon wikipedia c’est « extraire du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte ». Extraire des données c’est déjà bien, mais dans un tableau google spreadsheet, c’est encore mieux. Pourquoi Scraper des données disponibles sur le web ? Pour 2 raisons principales: un simple copier coller ne conserve pas toujours la mise en formeen scrapant les données, on peut actualiser très facilement la récupération de données issues de multiples sources Quelques exemples d’utilisations: Des députés fédéraux et du web scraping - Nael Shiab Ça faisait un moment que je me cherchais un petit projet personnel sur les députés fédéraux. Rien de bien sérieux. Juste de quoi coder pour m’amuser un peu. Le résultat: une ligne du temps interactive sur les emplois déclarés par les députés au fil des années! Surprenant l’implication des agriculteurs en politique avant les années 70, n’est-ce pas? Et la professionnalisation du rôle de député par la suite?

Related:  Outils de veillesInformatiqueOutils de veilleText MiningWeb Scrapingwww / http / httpsToolsPython Webapp Tools and How2s