background preloader

Hadoop

Hadoop
Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : Le HDFS n'est pas entièrement conforme aux spécifications POSIX, en effet les exigences relatives à un système de fichiers POSIX diffèrent des objectifs cibles pour une application Hadoop. MapReduce[modifier | modifier le code] Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce. HBase[modifier | modifier le code] Article détaillé : HBase.

Big Data et Technologies du Langage MapReduce Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). map(clé1,valeur1) → list(clé2,valeur2) reduce(key2,list(valeur2))→ list(valeur2)[1] Hadoop Logo

MariaDB Un article de Wikipédia, l'encyclopédie libre. Historique[modifier | modifier le code] Un consortium baptisé « Open Database Alliance » a par ailleurs été créé pour assurer le développement du logiciel (comparable à la fondation Linux avec le noyau Linux). Monty Program AB[modifier | modifier le code] Société fondée par Michael "Monty" Widenius, à l’origine du projet MariaDB, elle en assure aujourd’hui la maintenance. Elle a signé un accord de fusion avec la société SkySQL[10], en avril 2013, dans le but développer MariaDB dans une version « NewSQL », en regroupant le meilleur des mondes SQL et NoSQL[11]. Fondation MariaDB[modifier | modifier le code] Versions[modifier | modifier le code] Les différentes versions de MariaDB s’articulent sur le code source de MySQL de la version 5.1 aux versions plus récentes (comme la 5.6 fin 2012). Voir aussi[modifier | modifier le code] Notes et références[modifier | modifier le code] Liens externes[modifier | modifier le code]

Bases de données graphes : un tour d’horizon Dans un précédent article, nous avons introduit quelques concepts à propos des graphes, et les avons illustrés par deux exemples en utilisant la base de données graphe Neo4j. Au cours de ces dernières années, de nombreuses compagnies ont développé leur solution de base de données graphe, en tant qu’éditeur comme Neo Technology avec Neo4j, Objectivity avec InfiniteGraph ou encore Sparsity avec dex*, ou en développant leur propre solution pour l’intégrer à leur application, comme LinkedIn ou Twitter. Il est donc assez difficile de s’y retrouver dans ce paysage riche, qui continue à évoluer très vite. Dans ce nouvel article qui se focalise sur les bases de données graphes, nous donnerons les éléments nécessaires à la compréhension de leur positionnement dans leur écosystème, par rapport aux autres types de base de données et aux autres types d’outils dédiés au traitement de graphes. Une telle base de données répond donc généralement aux critères suivants : Graph storage et graph processing

BigTable Un article de Wikipédia, l'encyclopédie libre. BigTable est un système de gestion de base de données compressées, haute performance, propriétaire, développé et exploité par Google[1]. Chez Google, BigTable est stockée sur le système de fichiers distribué GoogleFS. Google ne distribue pas sa base de données mais propose une utilisation publique de BigTable via sa plateforme d'application Google App Engine. fabFORCE.net General Information - What is DBDesigner 4? DBDesigner 4 is a visual database design system that integrates database design, modeling, creation and maintenance into a single, seamless environment. It combines professional features and a clear and simple user interface to offer the most efficient way to handle your databases. DBDesigner 4 compares to products like Oracle's Designer�, IBM's Rational Rose�, Computer Associates's ERwin� and theKompany's DataArchitect� but is an Open Source Project available for Microsoft Windows� 2k/XP and Linux KDE/Gnome. It is release on the GPL. DBDesigner 4 and MySQL DBDesigner 4 is developed and optimized for the open source MySQL-Database to support MySQL users with a powerful and free available design tool. All MySQL specific features have been built in to offer the most convenient way to design and keep control of your MySQL-Databases. DBDesigner 4 Development Browse through the following sections to get more information about DBDesigner4.

CIO Agenda: Big Data Ecosystem IN TERMS of ‘forces’ affecting the CIO Agenda, Information Strategy and Enterprise Architecture, Big Data is increasingly important. This is due to explosive growth in number of data source types: applications, digital media, mobiles, users, customers, unstructured data sets, sensors, emails, blogs etc. Data is complex and in mixed formats (text, video, audio), on-demand infrastructure scalability (including massively scalable storage) is needed to deliver Big Data capabilities, as are robust analytics and visualisation tools and techniques for distributed, parallel systems. Increasing bandwidth availability has also led to exponential data growth rates and capabilities e.g. social networks, video and microblogging. Figure 1: A (simplified) Big Data Ecosystem, source: Steve Nimmons Where do you start in formulating a reference architecture for Big Data and sourcing suppliers for a Big Data ecosystem? Big Data: A Revolution That Will Transform How We Live, Work and Think Hadoop Overview

22 outils gratuits pour visualiser et analyser les données (1ère partie) Vous avez des données à explorer ? Voici quelques outils qui pourront vous être utiles pour les transformer en informations et en graphiques attrayants. Pour faire parler des données, rien ne vaut une panoplie d'outils de visualisation graphique. Il en existe de nombreux, notamment destinés aux professionnels versés dans l'analyse statistique. Mais leur prix, généralement élevé, ne convient pas aux utilisateurs moins spécialisés qui n'ont besoin qu'occasionnellement d'afficher des données sous une forme graphique. Or, il existe, pour ceux dont le budget est limité, un nombre surprenant d'outils très intéressants pour la visualisation et l'analyse de données, accessibles gratuitement. Computerworld souligne que la correction des textes se fait simplement. DataWrangler (cliquer ici pour agrandir l'image) Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Google Refine (cliquer ici pour agrandir l'image)

Visual Database Creation with MySQL Workbench In today's tutorial, you'll learn how to use a visual database modeling utility to draw a database diagram and automatically generate SQL. Specifically, we'll review how to use MySQL Workbench, a cross-platform, visual database design tool. What is MySQL Workbench? MySQL Workbench is a powerful tool developed by MySQL with three primary areas of functionality: SQL Development: Replaces MySQL query browser. In this tutorial, we'll focus on the Data Modeling aspect to create a database from scratch, and then have just a quick look at the SQL editor to execute our generated SQL script and create the database within MySQL. MySQL Workbench is available for Windows, Linux and Mac OSX. Note: this tutorial is based on the Community OSS Edition version 5.2 (5.2.16), currently in beta release at the time of the writing (April 2010). Planning our Database To learn how to use MySQL Workbench, we'll use a very simple database for online classes as an example. Send in MySQL Workbench Clarifying Concepts

The Definition of Enterprise Big Data With David Vellante With the inaugural O'Reilly Media Strata conference, the topic of is coming into sharper focus. When O'Reilly initiates coverage of a topic through an event like Strata, you can be sure the content will be well-thought-out, rich, relevant and visionary in nature. A key theme that emerged from the event was that Big Data is not just about cool technologies and Web 2.0 companies experimenting with gigantic data sets. Rather it's defining new value streams based on leveraging information. The confluence of enterprise IT, cloud computing and Big Data are combining with mobility and emerging social trends to re-shape the technology industry this decade. Big-data Background Big Data is emerging from the realms of science projects at Web companies to help companies like telecommunication giants understand exactly which customers are unhappy with service and what processes caused the dissatisfaction, and predict which customers are going to change carriers. Enterprise Big Data

Les 50 plus beaux graphiques de visualisation de données ! - graphisme Ces dernières années le Web a vu émerger de nouvelles tendances sur la visualisation et la gestion graphique des données. On sait que sur la toile, une multitude d'informations circulent, entre statistiques et arts visuels découvrez notre sélection des p Studyscape Patrick Vuarnoz Suitmen Life Map par ritwikdey Web Trend Map v4.0 par Information Architects Killer Earth par Andrew Blauvelt Visualization of iTunes Libraries par Caleb Larsen Chart Arcs par Martin Dittus par Peter Crnokrak Netdisco Max Baker Networkism par Tatiana Plakhova Mo Money Mo Problems par Nick Hardeman Twingly Screensaver Time Magazine par Joe Lertola DriftNet par Norimichi Hirakawa Glocal par Jer Thorp Visualizing The Bible par Chris Harrison Barcode Plantage par Daniel A. Fyre par David Trowbridge, Micah Dowty Disarticulate par Ben Fry Visual Poetry par Boris Muller MSN History Visualization par MSN History Visualization flowerGarden par Greg Judelman, Maria Lantin Maeve insatallation par University of Applied Sciences Potsdam AmoebaAbstracts 1-3 Gcrawler

Visualization-based data discovery tools Visualization-based data discovery tools may account for less than 5 % of the Business Intelligence (BI) Market, but they are fighting above their weight in terms of profile. In 2011, Gartner placed Visualisation at the peak of the BI Hype Cycle. Despite this indicating the category may lose some of its lustre , Gartner are still predicting a compound annual growth rate of 30% in each of next 5 years. So what are Data Visualisation tools and how are they defined? According to Gartner, there are 3 common elements An intuitive interface that enables users to explore data without much training.A proprietary data structure to store and model data gathered from disparate sources, which minimizes reliance on predefined drill paths and dimensional hierarchies.A built-in performance layer that obviates the need for aggregates, summaries, and pre-calculations. Who are the main vendors in the Data Visualisation category? Gartner ranked the leading players, based on estimated revenue, to be Figure 2.

Related: