background preloader

Hadoop

Hadoop
Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : Le HDFS n'est pas entièrement conforme aux spécifications POSIX, en effet les exigences relatives à un système de fichiers POSIX diffèrent des objectifs cibles pour une application Hadoop. MapReduce[modifier | modifier le code] Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce. HBase[modifier | modifier le code] Article détaillé : HBase.

Les innovations des technologies Big Data par Brian Gentile ¿ Chronique Solutions Selon une étude Gartner , le volume de données généré sur la seule année 2009 était plus important que le cumul des 5000 années précédentes. Les technologies doivent suivre. L'expression Big Data, apparue pour la première fois en 2008, se réfère aux technologies qui permettent aux entreprises d'analyser rapidement un volume de données très important et d'obtenir une vue synoptique. Car aujourd'hui, le nombre de données à traiter est sans égal et augmente de manière exponentielle. Les matériels de base courants ("commodity"), moins onéreux, permettent également de développer des solutions destinées à analyser et agréger instantanément des pétaoctets de données (1 pétaoctet = 1 000 téraoctets). A partir de quelle taille un volume de données est-il important ? "Les hommes ont généré 150 exaoctets (milliards de gigaoctets) de données en 2005. Innovations Big Data 1. 2. 3. Map-Reduce et Hadoop sont les modèles NoSQL les plus répandus. Vers une informatique décisionnelle - BI - Big Data.

Selenium - Web Browser Automation Hadoop : une plateforme de référence pour faire du Big Data Fonctionnement d’Hadoop Basé sur le principe des grilles de calcul, Hadoop fractionne les fichiers en gros blocs et les distribue à travers les nœuds du cluster. Il comprend plusieurs composants : les principaux étant les nœuds maîtres (Master nodes) et les travailleurs (Worker nodes). Les nœuds travailleurs sont parfois appelés nœuds esclaves (Slave nodes). Hadoop Cluster Node Types – Source : Hortonworks Composition d’Hadoop Le framework Hadoop se compose des modules suivants: D’autre part, le mot Hadoop se réfère également à son écosystème et à l’ensemble des logiciels comme Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache oozie et Apache Storm. Solutions Hadoop Dans la pratique, Hadoop est un standard pour le traitement Big Data et son universalité attire de nombreux acteurs. Les fournisseurs de distributions Hadoop En plus d’Apache Hadoop, il existe quatre distributions Hadoop : Formations Hadoop

Solid-state drive Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir SSD et SSHD. Un SSD, pour solid-state drive aussi appelé disque électronique au Québec[1], est un matériel informatique permettant le stockage de données sur de la mémoire flash. Un SSD est matériellement plus solide qu'un disque dur, les plateaux de ces derniers étant de plus en plus souvent en verre depuis 2003[2]. Cette spécificité lui permet une résistance aux chocs et aux vibrations bien plus importante que les disques mécaniques. Les SSD surclassent les disques durs classiques au niveau de la performance (débit, latence inexistante sur les SSD, consommation). Une tendance apparue en 2012 sur les ordinateurs de salon consiste à mettre le système sur un SSD d'environ 100 Go et les données sur un disque dur dix fois plus gros et de coût similaire. Historique[modifier | modifier le code] Développement des SSD[modifier | modifier le code] Ce propos doit toutefois être nuancé par deux points :

home: Strata New York 2011 - O'Reilly Conferences, September 22 - 23, 2011, New York, NY Find out more about Strata 2012, happening February 28 - March 1 in Santa Clara, California. If you weren't able to attend, you can still get a taste of Strata New York with the Strata Conference New York 2011: Complete Video Compilation . At our first Strata Conference in February, forward-thinking developers, analysts, researchers, and entrepreneurs realized that they were converging on a new profession—data scientist. Since then, demand has skyrocketed for data scientists who are proficient in the fast-moving constellation of technologies for gleaning insight and utility from big data. "A significant constraint on realizing value from big data will be a shortage of talent, particularly of people with deep expertise in statistic and machine learning, and the manager and analysts who know how to operate companies by using insights from big data." —McKinsey Global Institute report, "Big Data: The next frontier for innovation, competition, and productivity," May, 2011

Apache JMeter - Apache JMeter™ Introduction à Apache Hadoop : généralités sur HDFS et MapReduce Nous sommes actuellement dans l'ère de la production massive de données (BigData) dont une définition implique trois dimensions (3Vs) : Volume, Variété et Vélocité (fréquence). Les sources de données sont nombreuses. D'une part les applications génèrent des données issues des logs, des réseaux de capteurs, des rapports de transactions, des traces de GPS, etc. et d'autre part, les individus produisent des données telles que des photographies, des vidéos, des musiques ou encore des données sur l'état de santé (rythme cardiaque, pression ou poids). Un problème se pose alors quant au stockage et à l'analyse des données. Apache Hadoop (High-availability distributed object-oriented platform) est un système distribué qui répond à ces problématiques. Hadoop a été créé par Doug Cutting pour les besoins du projet Apache Nutch, un moteur de recherche open source. Pour la petite histoire, le logo Hadoop est basé sur le doudou d'un des enfants de Doug Cutting. III-A. III-B. III-C. IV-A. IV-A-1. V-A.

Sony fait tenir 185 To de données sur une cartouche La prochaine génération de cartouche magnétique de Sony pourra 74 fois plus de données que les LTO-6 actuelles. Crédit Sony Sony a développé une technologie de bande magnétique permettant de stockerjusqu'à 185 To de données sur une cartouche. Les temps sont durs pour la conservation des données sur bandes magnétiques, confrontées à la concurrence acharnée du stockage sur disques durs. Mais voilà que Sony pourrait bien redorer le blason de cette technologie qui équipe encore les datacenters pour l'archivage de données froides. Amazon l'utilise d'ailleurs avec son service Glacier pour proposer des prix très compétitifs. Ainsi, en parvenant à créer une couche de fines particules magnétiques d'une taille moyenne de 7,7 nanomètres, le constructeur japonais a développé une technologie de stockage sur bande magnétique d'une densité 74 fois supérieure à celle que l'on trouve actuellement sur le marché, indique Sony.

Big Data, Big Noise, Big Trouble? | CIO Dilemma I have been hearing the term “big data” a lot lately (should it be capitalized?) and may even have talked about it inadvertently in my latest blog (“What Lurks in your Unstructured Data?”). But, I am not sure what it is. Can one byte be bigger than another? At least I wasn’t sure what it was until I looked it up (1,100,000 results on a Google search) and checked with my own colleagues. As I understand it, Big Data (caps) is not a thing (or things if you consider the word data to be plural), but rather the process of extracting value from very large volumes of data, by allowing high velocity capture, discovery, and analysis. I know, my own company says so (see page 15, IDC Predictions 2011, Perhaps it’s the curmudgeon in me, but doesn’t anyone remember E.F. I know, I know, I’m being two-faced. I expect the CIOs and their staffs will be up to the challenges of managing, storing, and securing those large volumes of data. Like this: Like Loading...

Framework .NET Un article de Wikipédia, l'encyclopédie libre. Le .NET Framework[1] est un framework pouvant être utilisé par un système d'exploitation Microsoft Windows et Microsoft Windows Mobile depuis la version 5 (.NET Compact Framework). Une version légère et limitée fournie avec un moteur d'exécution fonctionnant à l'intérieur d'un navigateur ou d'un périphérique mobile est disponible sous le nom de Silverlight. La version 3.0 du framework est intégrée à Windows Vista et à la plupart des versions de Windows Server 2008 ou téléchargeable depuis le site de l'éditeur Microsoft. Le framework .NET s'appuie sur la norme Common Language Infrastructure (CLI) qui est indépendante du langage de programmation utilisé. Il a pour but de faciliter la tâche des développeurs en proposant une approche unifiée à la conception d'applications Windows ou Web, tout en introduisant des facilités pour le développement, le déploiement et la maintenance d'applications. Elle est composée des deux principaux blocs :

Hadoop - Tout savoir sur la principale plateforme Big Data À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage et le traitement d’immenses volumes de données, ce framework logiciel et ses différents composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data. En parcourant ce dossier, vous saurez tout sur Hadoop et son fonctionnement. Hadoop est un framework logiciel open source permettant de stocker des données, et de lancer ds applications sur des grappes de machines standards. Grâce au framework MapReduce, il permet de traiter les immenses quantités de données. Lors de l’avènement du World Wide Web à la fin des années 90 et au début des années 2000, les moteurs de recherche et les index furent créés pour aider à localiser des informations pertinentes au sein de contenus textuels. Parmi ces moteurs de recherche, le projet open source Nutch fut créé par Doug Cutting et Mike Cafarella. En 2008, Yahoo proposa Hadoop sous la forme d’un projet Open Source.

DAS, NAS, SAN, kesako ? par Ludovic ROUCOU | Alternance Informatique Cesi Arras Bonjour à tous, vous trouverez ci-dessous un article de Ludovic Roucou qui nous fait un petit topo des technologies de stockages…. Introduction Le stockage des données et leurs exploitations sont au cœur du système d’information d’une entreprise. Pour cela différentes architectures sont possibles, mais quelles sont-elles et laquelle choisir ? I – DAS, NAS, SAN, kesako ? DAS :Direct Attached Storage, ou comme son nom l’indique, méthode de connexion où la baie de disque est directement connectée sur un serveur NAS :Network Attached Storage, via cette méthode on distingue la connexion d’une baie de stockage directement sur le réseau. SAN :Storage Area Network , on reste sur les baies de stockage connectées au réseau, mais cette fois ce réseau leur est dédié. II – lequel choisir ? A – DAS (Direct Attached Storage) Dans le cadre d’un réseau d’entreprise on comprend vite les limitations induites par une architecture DAS : Le DAS tend à disparaitre au sein des stockages d’entreprises. B – NAS et SAN

Related: