background preloader

DBpedia

DBpedia
Un article de Wikipédia, l'encyclopédie libre. DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique. DBpedia vise aussi à relier à Wikipédia (et inversement) des ensembles d'autres données ouvertes provenant du Web des données : DBpedia a été conçu par ses auteurs comme l'un des « noyaux du Web émergent de l'Open data »[2] (connu également sous le nom de Web des données) et l'un de ses possibles points d'entrée. Ce projet est conduit par l'université de Leipzig, l'université libre de Berlin et l'entreprise OpenLink Software. Historique[modifier | modifier le code] Le projet a été lancé par l'université libre de Berlin et l'université de Leipzig, en collaboration avec OpenLink Software. Contenus[modifier | modifier le code] Related:  Big Data - Gestion données de masse

DBpediaFr - Accueil Extraction de données structurées des pages de Wikipédia en français. Présentation du projet DBpedia en français est le chapitre francophone de DBpedia, il s'inscrit dans l'effort d'internationalisation de DBpedia dont le but est de maintenir des données structurées extraites de différents chapitres de Wikipedia. Le développement de DBpedia en français est mené dans le cadre de la plateforme Sémanticpédia dont les partenaires sont : Qu’est-ce que DBpedia ? Il s'agit d'un effort communautaire ayant pour but d’extraire des informations structurées des pages de Wikipedia afin de rendre ces données disponibles sur le Web. DBpedia est cependant centré sur les pages en anglais de DBpedia, et ignore par conséquent des informations présentes sur les pages d'autres langues. Différentes versions locales de DBpedia, dont la version francophone ont pour but de donner accès aux données publiées dans les version respectives de Wikipedia. À quoi sert DBpedia ? Quelques exemples d'utilisation :

Ontologie (informatique) Un article de Wikipédia, l'encyclopédie libre. Par analogie, le terme est repris en informatique et en science de l'information, où une ontologie est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de connaissances. L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts. L'objectif premier d'une ontologie est de modéliser un ensemble de connaissances dans un domaine donné, qui peut être réel ou imaginaire. Les ontologies sont employées dans l'intelligence artificielle, le Web sémantique, le génie logiciel, l'informatique biomédicale ou encore l'architecture de l'information comme une forme de représentation de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde. Une des définitions de l'ontologie qui fait autorité est celle de Gruber[2] : Notes

Captain Dash, futur super héros du Big Data J’ai rencontré Gilles Babinet un soir d’avril pour évoquer avec lui sa nouvelle aventure : Captain Dash. Armé de ma tablette (sur laquelle j’avais préalablement chargé l’application idoine), j’ai découvert, démonstration à l’appui, qu’un Captain Dash pouvait en cacher un autre… « L’institutionnel c’est bien, mais la start-up c’est génial ! » Gilles Babinet, vous le connaissez déjà (voir la superbe transcription d’une de ses dernières présentations sur la révolution de la société par Internet, retranscrite par Michael Tartar). C’est ainsi que l’ex fondateur de Eyeka est reparti à l’aventure, et ce n’est pas un vain mot : « cela représente 2 ans et demi de développement » a-t-il dit. [mon “univers” statistique avec Captain Dash] Réinventer le tableau de bord La mission de Captain Dash, c’est de devenir le super-héros du tableau de bord. [le mode battle] à l’assaut des grands comptes Tout cela est fort beau, mais ce n’est pas là que notre super héros frappe le plus fort ! WordPress:

Apache™ Hadoop® Hadoop Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : Le HDFS n'est pas entièrement conforme aux spécifications POSIX, en effet les exigences relatives à un système de fichiers POSIX diffèrent des objectifs cibles pour une application Hadoop. MapReduce[modifier | modifier le code] Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce. HBase[modifier | modifier le code] Article détaillé : HBase.

Big Data : les 5 mesures du plan de soutien dévoilées Fleur Pellerin a détaillé les mesures envisagées dans le cadre de son plan Big Data. En ligne de mire : l'aide à la formation de plusieurs dizaines de milliers de datascientists en France. Dans le sillage de la feuille de route gouvernementale annoncée en février dernier (lire l'article : les 18 mesures du gouvernement pour le numérique), la ministre déléguée à l'Economie Numérique Fleur Pellerin a annoncé plusieurs mesures, actuellement en cours de finalisation, pour soutenir "une politique volontariste en matière de Big Data". Ce "plan Big Data" est articulé autour de cinq axes. "On estime à 300 000 le nombre de datascientists nécessaires à l'Europe dans les années qui viennent", a précisé Fleur Pellerin. Troisième pilier du plan Big data du gouvernement : l'objectif de renforcer la chaîne de financement de l'innovation en permettant l'émergence d'un ou plusieurs fonds d'amorçage dans le Big Data, aux côtés du fonds Ambition numérique existant.

De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données Par Rémi Sussan le 12/03/13 | 2 commentaires | 1,618 lectures | Impression L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects “matériels” de la collection de données, ce qu’il appelle la “friction des données”. Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids ! A cette friction des données correspond celle des “métadonnées”, qui racontent comment les données ont été construites. Paul Edwards a illustré le problème à partir d’exemples sur le réchauffement climatique (comme il l’a fait dernièrement dans l’émission Place de la Toile où il évoquait le même thème).

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée. Pourtant, avant toute cartographie, la sélection et la préparation des données s’imposent. La science des données est-elle une science ? En quoi consiste sa tâche ? Le domaine de la “data science” n’est pas sans susciter quelques interrogations. L’entreprise de la “data science” ne va pas sans entraîner un questionnement philosophique.

La fondation Apache publie Hadoop 2 L'architecture Yarn de Hadoop 2. Crédit Photo: D.R Après la version preview en juin, l'Apache Software Foundation a publié la version définitive de Hadoop 2, la distribution pour le traitement du big data. L'Apache Software Foundation a dévoilé Hadoop 2, la dernière version du logiciel Open Source de traitement big data. Yarn se situe au-dessus de HDFS (Hadoop Distributed File System) et se positionne comme un système d'exploitation distribué pour les applications big data. Hadoop 2 est disponible immédiatement.

Big Data Hadoop Hadoop est aujourd’hui la plateforme de référence permettant l’écriture d’application de stockage et de traitement de données distribuées en mode batch. Lire la fiche complètetop Hive A l’image de Pig, Hive permet l’écriture de tâche de traitement de données aux développeurs ne maîtrisant pas Java. Lire la fiche complètetop Pig Pig est un outil de traitement de données qui fait partie de la suite Hadoop et qui permet l’écriture de scripts qui sont éxécutés sur l’infrastructure Hadoop sans être obligé de passer par l’écriture de tâche en Java via le framework MapReduce. Lire la fiche complètetop Sqoop Sqoop est un projet de la fondation Apache qui a pour objectif de permettre une meilleure cohabitation des systèmes traditionnels de type SGBDs avec la plateforme Hadoop. Lire la fiche complètetop

Big Data et Technologies du Langage

Related: