Hadoop

Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : Le HDFS n'est pas entièrement conforme aux spécifications POSIX, en effet les exigences relatives à un système de fichiers POSIX diffèrent des objectifs cibles pour une application Hadoop. MapReduce[modifier | modifier le code] Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce. HBase[modifier | modifier le code] Article détaillé : HBase.

MapReduce Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). map(clé1,valeur1) → list(clé2,valeur2) reduce(key2,list(valeur2))→ list(valeur2)[1] Hadoop Logo

MariaDB Un article de Wikipédia, l'encyclopédie libre. Historique[modifier | modifier le code] Un consortium baptisé « Open Database Alliance » a par ailleurs été créé pour assurer le développement du logiciel (comparable à la fondation Linux avec le noyau Linux). Monty Program AB[modifier | modifier le code] Société fondée par Michael "Monty" Widenius, à l’origine du projet MariaDB, elle en assure aujourd’hui la maintenance. Elle a signé un accord de fusion avec la société SkySQL[10], en avril 2013, dans le but développer MariaDB dans une version « NewSQL », en regroupant le meilleur des mondes SQL et NoSQL[11]. Fondation MariaDB[modifier | modifier le code] Versions[modifier | modifier le code] Les différentes versions de MariaDB s’articulent sur le code source de MySQL de la version 5.1 aux versions plus récentes (comme la 5.6 fin 2012). Voir aussi[modifier | modifier le code] Notes et références[modifier | modifier le code] Liens externes[modifier | modifier le code]

Hadoop : une plateforme de référence pour faire du Big Data Fonctionnement d’Hadoop Basé sur le principe des grilles de calcul, Hadoop fractionne les fichiers en gros blocs et les distribue à travers les nœuds du cluster. Il comprend plusieurs composants : les principaux étant les nœuds maîtres (Master nodes) et les travailleurs (Worker nodes). Les nœuds travailleurs sont parfois appelés nœuds esclaves (Slave nodes). Hadoop Cluster Node Types – Source : Hortonworks Composition d’Hadoop Le framework Hadoop se compose des modules suivants: D’autre part, le mot Hadoop se réfère également à son écosystème et à l’ensemble des logiciels comme Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache oozie et Apache Storm. Solutions Hadoop Dans la pratique, Hadoop est un standard pour le traitement Big Data et son universalité attire de nombreux acteurs. Les fournisseurs de distributions Hadoop En plus d’Apache Hadoop, il existe quatre distributions Hadoop : Formations Hadoop

Solid-state drive Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir SSD et SSHD. Un SSD, pour solid-state drive aussi appelé disque électronique au Québec[1], est un matériel informatique permettant le stockage de données sur de la mémoire flash. Un SSD est matériellement plus solide qu'un disque dur, les plateaux de ces derniers étant de plus en plus souvent en verre depuis 2003[2]. Cette spécificité lui permet une résistance aux chocs et aux vibrations bien plus importante que les disques mécaniques. Les SSD surclassent les disques durs classiques au niveau de la performance (débit, latence inexistante sur les SSD, consommation). Une tendance apparue en 2012 sur les ordinateurs de salon consiste à mettre le système sur un SSD d'environ 100 Go et les données sur un disque dur dix fois plus gros et de coût similaire. Historique[modifier | modifier le code] Développement des SSD[modifier | modifier le code] Ce propos doit toutefois être nuancé par deux points :

BigTable Un article de Wikipédia, l'encyclopédie libre. BigTable est un système de gestion de base de données compressées, haute performance, propriétaire, développé et exploité par Google[1]. Chez Google, BigTable est stockée sur le système de fichiers distribué GoogleFS. Google ne distribue pas sa base de données mais propose une utilisation publique de BigTable via sa plateforme d'application Google App Engine. fabFORCE.net General Information - What is DBDesigner 4? DBDesigner 4 is a visual database design system that integrates database design, modeling, creation and maintenance into a single, seamless environment. It combines professional features and a clear and simple user interface to offer the most efficient way to handle your databases. DBDesigner 4 compares to products like Oracle's Designerï¿½, IBM's Rational Roseï¿½, Computer Associates's ERwinï¿½ and theKompany's DataArchitectï¿½ but is an Open Source Project available for Microsoft Windowsï¿½ 2k/XP and Linux KDE/Gnome. It is release on the GPL. DBDesigner 4 and MySQL DBDesigner 4 is developed and optimized for the open source MySQL-Database to support MySQL users with a powerful and free available design tool. All MySQL specific features have been built in to offer the most convenient way to design and keep control of your MySQL-Databases. DBDesigner 4 Development Browse through the following sections to get more information about DBDesigner4.

Introduction à Apache Hadoop : généralités sur HDFS et MapReduce Nous sommes actuellement dans l'ère de la production massive de données (BigData) dont une définition implique trois dimensions (3Vs) : Volume, Variété et Vélocité (fréquence). Les sources de données sont nombreuses. D'une part les applications génèrent des données issues des logs, des réseaux de capteurs, des rapports de transactions, des traces de GPS, etc. et d'autre part, les individus produisent des données telles que des photographies, des vidéos, des musiques ou encore des données sur l'état de santé (rythme cardiaque, pression ou poids). Un problème se pose alors quant au stockage et à l'analyse des données. Apache Hadoop (High-availability distributed object-oriented platform) est un système distribué qui répond à ces problématiques. Hadoop a été créé par Doug Cutting pour les besoins du projet Apache Nutch, un moteur de recherche open source. Pour la petite histoire, le logo Hadoop est basé sur le doudou d'un des enfants de Doug Cutting. III-A. III-B. III-C. IV-A. IV-A-1. V-A.

Sony fait tenir 185 To de données sur une cartouche La prochaine génération de cartouche magnétique de Sony pourra 74 fois plus de données que les LTO-6 actuelles. Crédit Sony Sony a développé une technologie de bande magnétique permettant de stockerjusqu'à 185 To de données sur une cartouche. Les temps sont durs pour la conservation des données sur bandes magnétiques, confrontées à la concurrence acharnée du stockage sur disques durs. Mais voilà que Sony pourrait bien redorer le blason de cette technologie qui équipe encore les datacenters pour l'archivage de données froides. Amazon l'utilise d'ailleurs avec son service Glacier pour proposer des prix très compétitifs. Ainsi, en parvenant à créer une couche de fines particules magnétiques d'une taille moyenne de 7,7 nanomètres, le constructeur japonais a développé une technologie de stockage sur bande magnétique d'une densité 74 fois supérieure à celle que l'on trouve actuellement sur le marché, indique Sony.

22 outils gratuits pour visualiser et analyser les données (1ère partie) Vous avez des données à explorer ? Voici quelques outils qui pourront vous être utiles pour les transformer en informations et en graphiques attrayants. Pour faire parler des données, rien ne vaut une panoplie d'outils de visualisation graphique. Il en existe de nombreux, notamment destinés aux professionnels versés dans l'analyse statistique. Mais leur prix, généralement élevé, ne convient pas aux utilisateurs moins spécialisés qui n'ont besoin qu'occasionnellement d'afficher des données sous une forme graphique. Or, il existe, pour ceux dont le budget est limité, un nombre surprenant d'outils très intéressants pour la visualisation et l'analyse de données, accessibles gratuitement. Computerworld souligne que la correction des textes se fait simplement. DataWrangler (cliquer ici pour agrandir l'image) Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Google Refine (cliquer ici pour agrandir l'image)

Visual Database Creation with MySQL Workbench In today's tutorial, you'll learn how to use a visual database modeling utility to draw a database diagram and automatically generate SQL. Specifically, we'll review how to use MySQL Workbench, a cross-platform, visual database design tool. What is MySQL Workbench? MySQL Workbench is a powerful tool developed by MySQL with three primary areas of functionality: SQL Development: Replaces MySQL query browser. In this tutorial, we'll focus on the Data Modeling aspect to create a database from scratch, and then have just a quick look at the SQL editor to execute our generated SQL script and create the database within MySQL. MySQL Workbench is available for Windows, Linux and Mac OSX. Note: this tutorial is based on the Community OSS Edition version 5.2 (5.2.16), currently in beta release at the time of the writing (April 2010). Planning our Database To learn how to use MySQL Workbench, we'll use a very simple database for online classes as an example. Send in MySQL Workbench Clarifying Concepts

Hadoop - Tout savoir sur la principale plateforme Big Data À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage et le traitement d’immenses volumes de données, ce framework logiciel et ses différents composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data. En parcourant ce dossier, vous saurez tout sur Hadoop et son fonctionnement. Hadoop est un framework logiciel open source permettant de stocker des données, et de lancer ds applications sur des grappes de machines standards. Grâce au framework MapReduce, il permet de traiter les immenses quantités de données. Lors de l’avènement du World Wide Web à la fin des années 90 et au début des années 2000, les moteurs de recherche et les index furent créés pour aider à localiser des informations pertinentes au sein de contenus textuels. Parmi ces moteurs de recherche, le projet open source Nutch fut créé par Doug Cutting et Mike Cafarella. En 2008, Yahoo proposa Hadoop sous la forme d’un projet Open Source.

DAS, NAS, SAN, kesako ? par Ludovic ROUCOU | Alternance Informatique Cesi Arras Bonjour à tous, vous trouverez ci-dessous un article de Ludovic Roucou qui nous fait un petit topo des technologies de stockages…. Introduction Le stockage des données et leurs exploitations sont au cœur du système d’information d’une entreprise. Pour cela différentes architectures sont possibles, mais quelles sont-elles et laquelle choisir ? I – DAS, NAS, SAN, kesako ? DAS :Direct Attached Storage, ou comme son nom l’indique, méthode de connexion où la baie de disque est directement connectée sur un serveur NAS :Network Attached Storage, via cette méthode on distingue la connexion d’une baie de stockage directement sur le réseau. SAN :Storage Area Network , on reste sur les baies de stockage connectées au réseau, mais cette fois ce réseau leur est dédié. II – lequel choisir ? A – DAS (Direct Attached Storage) Dans le cadre d’un réseau d’entreprise on comprend vite les limitations induites par une architecture DAS : Le DAS tend à disparaitre au sein des stockages d’entreprises. B – NAS et SAN