background preloader

MapReduce

MapReduce
Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). Un cluster MapReduce utilise une architecture de type Maître-esclave où un nœud maître dirige tous les nœuds esclaves. benchmark de tri Related:  Data Viz

Big Data : comparatif des technos, actualités, conseils... Pour faire face à l'explosion du volume des données, un nouveau domaine technologique a vu le jour : le Big Data. Inventées par les géants du web, ces solutions sont dessinées pour offrir un accès en temps réel à des bases de données géantes. Comment définir le Big Data, et quelle est sa promesse ? Face à l'explosion du volume d'informations, le Big Data vise à proposer une alternative aux solutions traditionnelles de bases de données et d'analyse (serveur SQL, plateforme de Business Intelligence...). Confrontés très tôt à des problématiques de très gros volumes, les géants du web, au premier rang desquels Yahoo (mais aussi Google et Facebook), ont été les premiers à déployer ce type de technologies. Quelles sont les principales technologies de Big Data ? Elles sont nombreuses. Des infrastructures de serveurs pour distribuer les traitements sur des dizaines, centaines, voire milliers de nœuds.

Votre première installation Hadoop Cet article est pensé pour vous aider à affronter le baptême du feu : l’installation de la plate-forme. Quelle distribution choisir ? La première question à se poser lorsque l’on choisit sa distribution Hadoop est celle du support. En effet, sur la version packagée par Apache, il est difficile de se procurer un support efficace et digne de ce nom. Les principaux contributeurs au projet Hadoop sont tous salariés d’entreprises offrant un support commercial, mais uniquement sur leur propre distribution. Les trois principaux acteurs de ce marché sont : Cloudera, avec la Cloudera Hadoop Distribution, actuellement en version 4 (CDH4), qui package Hadoop 2.0 ;HortonWorks, qui package Hadoop 1.0.3 ;MapR, qui propose lui aussi une distribution autour de Hadoop 2. Hormis l’accès à un support, ces distributions offrent toutes un gros effort de packaging de l’écosystème Hadoop, c’est à dire Hadoop en lui même, mais aussi ses satellites, comme HBase, Hive ou encore Pig. Le choix des machines Le monitoring

Big Data : premiers pas avec MapReduce, brique centrale d'Hadoop Le modèle MapReduce est conçu pour lire, traiter et écrire des volumes massifs de données. Des bonnes feuilles issues de l'ouvrage Big Data chez Eni. MapReduce est un modèle de programmation conçu spécifiquement pour lire, traiter et écrire des volumes de données très importants. Un programme Hadoop met généralement en œuvre à la fois des tâches de type map et des tâches de type reduce. MapReduce implémente les fonctionnalités suivantes : Parallélisation automatique des programmes Hadoop. Gestion transparente du mode distribué. Tolérance aux pannes. Plus généralement, MapReduce simplifie grandement la vie du développeur Hadoop, en lui masquant une bonne partie du fonctionnement interne de Hadoop. Ainsi, lorsqu'il écrit le code du mapper (cf. section suivante), le développeur Hadoop travaille comme s'il ne devait traiter qu'un seul enregistrement. 3. Un programme Hadoop se divise généralement en trois parties : Le mapper est chargé de lire les données stockées sur disque et les traiter. 4. etc.

Watch_Dogs WeAreData Dans Watch_Dogs, la ville de Chicago est gérée par le ctOS, un système de contrôle informatisé hautement perfectionné. Ce réseau utilise les données qui lui sont transmises pour contrôler l’ensemble des infrastructures urbaines et résoudre les problèmes complexes liés à la circulation routière, la lutte contre la délinquance, la gestion de l’électricité, etc. Mais aujourd’hui, cette situation n’a plus rien de fictif : les villes « intelligentes » sont une réalité. Chaque jour, une quantité incalculable de données sont recueillies et traitées avant d’être rendues publiques et accessibles à tous. Watch_Dogs WeareData est le premier site Internet à rassembler en un même endroit les données publiques de Paris, Londres et Berlin. Ce que vous allez découvrir ici est la pure réalité.

Wikiverse: a galactic reimagining of Wikipedia OpenStreetMap Where am I? Welcome to OpenStreetMap! OpenStreetMap is a map of the world, created by people like you and free to use under an open license. Hosting is supported by the UCL VR Centre, Bytemark Hosting and Imperial College London, and other partners. Learn More Start Mapping <div id="noscript"><p>You are either using a browser that does not support JavaScript, or you have disabled JavaScript. 10 m 50 ft © OpenStreetMap contributors ♥ Make a Donation Directions from hereDirections to hereAdd a note hereShow addressQuery featuresCentre map here

Understand on-premises data gateways for Microsoft PowerApps Installation and configuration Prerequisites Minimum: .NET 4.5 Framework 64-bit version of Windows 7 or Windows Server 2008 R2 (or later) Recommended: 8 Core CPU 8 GB Memory 64-bit version of Windows 2012 R2 (or later) Related considerations: You can't install a gateway on a domain controller. Install a gateway Download the installer, and then run it. Restart the gateway The gateway runs as a Windows service, so you can start and stop it in multiple ways. To stop the service, run this command: net stop PBIEgwService To start the service, run this command: net start PBIEgwService Configure a firewall or proxy For information about how to provide proxy information for your gateway, see Configure proxy settings. You can verify whether your firewall, or proxy, may be blocking connections by running the following command from a PowerShell prompt. Test-NetConnection -ComputerName watchdog.servicebus.windows.net -Port 9350 The results should look similar to this example. Configure ports Sign-in account

geoplay.fr Wedodata - Agence/Studio de Dataviz Khartis - cartographie thématique Le contenu de ce site internet est fourni par : Sciences Po 27 rue Saint-Guillaume 75337 Paris Cedex 07 Tel. : 01 45 49 50 50 Fax. : 01 42 22 31 26 webmestre@sciencespo.fr Directeur de la publication : Frédéric Mion, administrateur de la Fondation nationale des sciences politiques et directeur de l’Institut d’études politiques de Paris. Hébergement : Ce site internet est hébergé par la Fondation Nationale des Sciences Politiques (FNSP), Sciences Po - Direction des Systèmes d'Information Code APE : 803Z 27, rue saint Guillaume 75337 Paris cedex 07 Propriété Industrielle et Intellectuelle : Toutes les informations reproduites dans ce site web (textes, photos, logos...) sont protégées par des droits de propriété intellectuelle détenus par Sciences Po ou par ses partenaires. Les liens hypertextes Informatique et Libertés Droit d'accès, modification suppression des données personnelles vous concernant : Photographies et icones

Wedodata - Agence/Studio de Dataviz Visualisation de données maison, nos outils préférés Visualisation de données maison, nos outils préférés Les warlogs de Wikileaks (_The Guardian_) Quels sont les outils de visualisation disponibles sur le Net qui sont faciles à utiliser – et gratuits ? Cela peut sembler un peu pingre, étant donné que nous avons évidemment accès aux graphistes et aux designers exceptionnels du Guardian pour ces articles où nous avons un peu plus de temps – comme cette carte sur les dépenses publiques (créée avec Illustrator) ou ce graphique interactif sur Twitter et les émeutes britanniques. Mais dans notre travail quotidien, nous utilisons souvent des outils que n’importe qui peut utiliser – et nous créons des graphiques que n’importe qui peut créer. Google Fusion Tables Ce système de base de données et de cartographie est devenu notre outil par défaut pour produire des cartes détaillées rapidement, particulièrement quand il est nécessaire de pouvoir zoomer. Carte interactive des sans-domiciles (The Guardian) Tableau Public Datamarket

Créer son GPX

Related: