background preloader

DBpedia

DBpedia
Un article de Wikipédia, l'encyclopédie libre. DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique. DBpedia vise aussi à relier à Wikipédia (et inversement) des ensembles d'autres données ouvertes provenant du Web des données : DBpedia a été conçu par ses auteurs comme l'un des « noyaux du Web émergent de l'Open data »[2] (connu également sous le nom de Web des données) et l'un de ses possibles points d'entrée. Ce projet est conduit par l'université de Leipzig, l'université libre de Berlin et l'entreprise OpenLink Software. Historique[modifier | modifier le code] Le projet a été lancé par l'université libre de Berlin et l'université de Leipzig, en collaboration avec OpenLink Software. Contenus[modifier | modifier le code] Related:  Big Data - Gestion données de masse

DBpediaFr - Accueil Extraction de données structurées des pages de Wikipédia en français. Présentation du projet DBpedia en français est le chapitre francophone de DBpedia, il s'inscrit dans l'effort d'internationalisation de DBpedia dont le but est de maintenir des données structurées extraites de différents chapitres de Wikipedia. Le développement de DBpedia en français est mené dans le cadre de la plateforme Sémanticpédia dont les partenaires sont : Qu’est-ce que DBpedia ? Il s'agit d'un effort communautaire ayant pour but d’extraire des informations structurées des pages de Wikipedia afin de rendre ces données disponibles sur le Web. DBpedia est cependant centré sur les pages en anglais de DBpedia, et ignore par conséquent des informations présentes sur les pages d'autres langues. Différentes versions locales de DBpedia, dont la version francophone ont pour but de donner accès aux données publiées dans les version respectives de Wikipedia. À quoi sert DBpedia ? Quelques exemples d'utilisation :

Voyage de DBpedia en Wikidata à bord d’un bot | Do-zo L’idée est de récupérer les informations des fichiers image des œuvres d’art de DBpedia et de les publier automatiquement dans Wikidata, le principe pouvant être appliqué à bien d’autres données. Short | Les sources (fichier zip, 6 ko) Ce billet n’a pas l’ambition d’être un tutoriel mais plutôt une relation de codage en cours sans autre prétention que celle d’être déjà arrivé à faire quelque chose. Comme il n’a pas été aisé d’y parvenir, il est possible que malgré leurs défauts, voire même leurs erreurs, ces quelques notes puissent être utiles. C’est l’occasion aussi de voir à nouveau que non seulement le web sémantique existe déjà, qu’il fonctionne même et que, cerise sur gâteau, il peut être très utile. Les grandes étapes : I. Techno : SparQL DBpedia, qu’est-ce que c’est ? TL;DR, on va dire que DBpedia est une version base de données libre de certaines informations de Wikipédia avec une structure intelligible et partagée. Exemple de requête SparQL Ce qui peut se traduire ainsi en SparQL :

Ontologie (informatique) Un article de Wikipédia, l'encyclopédie libre. Par analogie, le terme est repris en informatique et en science de l'information, où une ontologie est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de connaissances. L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts. L'objectif premier d'une ontologie est de modéliser un ensemble de connaissances dans un domaine donné, qui peut être réel ou imaginaire. Les ontologies sont employées dans l'intelligence artificielle, le Web sémantique, le génie logiciel, l'informatique biomédicale ou encore l'architecture de l'information comme une forme de représentation de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde. Une des définitions de l'ontologie qui fait autorité est celle de Gruber[2] : Notes

l'Informathèque - Influences entre artistes : le cas DBpedia L'article précédent interrogeait la question des relations entre auteurs d'un point de vue conceptuel et pour tout dire un peu théorique. Il est temps de voir en pratique les sources qui peuvent être interrogées pour accéder à des relations d'influence ou de collaboration entre créateurs. Observations A terme, il sera possible de faire les requêtes qui suivent sur le chapitre français. Aujourd'hui les seules relations qui existent concernent la philosophie. allons donc exploiter le chapitre US qui est plus complet. Comme dans notre premier article sur DBpedia, nous allons d'abord observer une fiche wikipedia. Pourquoi autant de propriétés pour désigner les mêmes choses? Parce que les propriétés commençant par dbpedia:owl sont normalisés grâce à un mapping propre à chaque classe (ici writer) dans le cadre d'une ontologie structurant les données de dbpedia. Et l'intérêt des classes? Les propriétés influenced et influencedBy sont ainsi définies dans la classe Artist. Les requêtes? Pourquoi ? ?

Captain Dash, futur super héros du Big Data J’ai rencontré Gilles Babinet un soir d’avril pour évoquer avec lui sa nouvelle aventure : Captain Dash. Armé de ma tablette (sur laquelle j’avais préalablement chargé l’application idoine), j’ai découvert, démonstration à l’appui, qu’un Captain Dash pouvait en cacher un autre… « L’institutionnel c’est bien, mais la start-up c’est génial ! » Gilles Babinet, vous le connaissez déjà (voir la superbe transcription d’une de ses dernières présentations sur la révolution de la société par Internet, retranscrite par Michael Tartar). C’est ainsi que l’ex fondateur de Eyeka est reparti à l’aventure, et ce n’est pas un vain mot : « cela représente 2 ans et demi de développement » a-t-il dit. [mon “univers” statistique avec Captain Dash] Réinventer le tableau de bord La mission de Captain Dash, c’est de devenir le super-héros du tableau de bord. [le mode battle] à l’assaut des grands comptes Tout cela est fort beau, mais ce n’est pas là que notre super héros frappe le plus fort ! WordPress:

l'Informathèque - Enrichir son catalogue avec dbPedia ? Décembre 2012, Google propose le knowledge graph à ses utilisateurs français. Octobre 2012, l'Inria, le Ministère de la Culture et Wikimédia officialisent l'existence du dbpdia français sous le nom de code sémanticpédia. Ca bouge ! Et nos catalogues ? Comment les enrichir automatiquement avec dbpedia ? Pour répondre à cette question ouverte par Lully sur son blog, j'ai tenté quelques observations et expériences avec le langage d’interrogation SPARQL. Certaines des requêtes que vous aurez l'occasion de rencontrer peuvent sembler inutilies, des pages wikipédia existent pour décrire les mêmes résultats. L’idée de départ est de récupérer la biographie des auteurs, musiciens et réalisateurs, ainsi que les prix et distinctions dont ils sont lauréats. Exploration du graphe d’un auteur. Observons la ressource Milan Kundera. Analyse quantitative des prix représentés Soient 166 prix dont 31 prix avec plus de 10 lauréats et 55 avec 1 seul lauréat. Cette solution était la plus attirante. En conclusion .

Apache™ Hadoop® l'Informathèque - Enrichir son catalogue avec dbPedia... Comment ? Enrichir son catalogue avec dbPedia... Comment ? Nous avons vu dans l'article précédent qu'il était possible d'exploiter les données de dbpédia pour enrichir les pages de nos catalogues. Très bien, maintenant, nous allons voir quelques astuces de développement pour ça. Les prérequis sont de connaître un peu : le javascript et jquery un langage serveur Je plaisante Les web services Pour faire communiquer des applications serveurs entre elles, les fameux services web sont communément utilisés. Communiquer avec dbpedia Dbpedia est un webservice. Dans le cas d'une application client-serveur, pas de problèmes. Nous allons en effet utiliser l'architecture AJAX qui est depuis quelques années l'un des piliers sur lequel s'appuient la plupart des sites que vous utilisez tous les jours. Un autre problème à régler : La notion de sécurité cross domain (Entre domaines). La solution : JSONP ( JSON with padding, c’est-à-dire préformaté). Plugin Vous pouvez accéder au code du plugin sur github. Voir aussi :

Hadoop Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : Le HDFS n'est pas entièrement conforme aux spécifications POSIX, en effet les exigences relatives à un système de fichiers POSIX diffèrent des objectifs cibles pour une application Hadoop. MapReduce[modifier | modifier le code] Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce. HBase[modifier | modifier le code] Article détaillé : HBase.

Big Data : les 5 mesures du plan de soutien dévoilées Fleur Pellerin a détaillé les mesures envisagées dans le cadre de son plan Big Data. En ligne de mire : l'aide à la formation de plusieurs dizaines de milliers de datascientists en France. Dans le sillage de la feuille de route gouvernementale annoncée en février dernier (lire l'article : les 18 mesures du gouvernement pour le numérique), la ministre déléguée à l'Economie Numérique Fleur Pellerin a annoncé plusieurs mesures, actuellement en cours de finalisation, pour soutenir "une politique volontariste en matière de Big Data". Ce "plan Big Data" est articulé autour de cinq axes. "On estime à 300 000 le nombre de datascientists nécessaires à l'Europe dans les années qui viennent", a précisé Fleur Pellerin. Troisième pilier du plan Big data du gouvernement : l'objectif de renforcer la chaîne de financement de l'innovation en permettant l'émergence d'un ou plusieurs fonds d'amorçage dans le Big Data, aux côtés du fonds Ambition numérique existant.

De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données Par Rémi Sussan le 12/03/13 | 2 commentaires | 1,618 lectures | Impression L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects “matériels” de la collection de données, ce qu’il appelle la “friction des données”. Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids ! A cette friction des données correspond celle des “métadonnées”, qui racontent comment les données ont été construites. Paul Edwards a illustré le problème à partir d’exemples sur le réchauffement climatique (comme il l’a fait dernièrement dans l’émission Place de la Toile où il évoquait le même thème).

Related: