background preloader

Ce que Hadoop ?

Ce que Hadoop ?
Data warehouse, stockage et traitement distribués Définition Hadoop Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Hadoop et les analyses massives Le web n'est pas le seul à générer de grandes masses d'informations. Les analyses massives autorisent alors des optimisations bien plus fines. Benchmark Pour avoir une meilleure idée de la performance du système et de la révolution à venir : En Mai 2009 chez Yahoo Corp, utilisateur de Hadoop, 1 téra-octet (1012 ) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)... Ressources Lecture recommandée › Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Hadoop The Definitive Guide Related:  Business Intelligence

MapReduce Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). map(clé1,valeur1) → list(clé2,valeur2) reduce(key2,list(valeur2))→ list(valeur2)[1] Hadoop Logo

Criteo = Hadoop + CouchBase + Elastic Serach Pour offrir le meilleur aux annonceurs, Criteo manipule des volumes de données considérables avec des temps de réponse de quelques dixièmes de seconde. Plongeon au cœur de son architecture. C'est l'une des start-up internet françaises qui connaît actuellement le plus de succès dans le monde. Pionnier de ce que l'on appelle le retargeting publicitaire, Criteo manipule des volumes de données considérables dans des temps de réponse de quelques dixièmes de seconde afin d'offrir le meilleur service aux annonceurs. Tout le monde connait aujourd'hui ces bannières publicitaires ultra-ciblées qui vous suivent d'un site à l'autre, vous rappelant les articles que vous avez vus sur un site marchand et vous proposant de retourner sur ce site pour conclure votre achat. Pour offrir un tel service aux annonceurs, Criteo a mis en place une architecture informatique à la pointe de ce qui se fait de mieux dans le domaine du Big Data.

Les principes de l’ETL Pour alimenter le datawarehouse des différentes applications de l’entreprise, on utilise une gamme d’outils appelés ETL, pour « Extract, Transform, Load ». Comme le nom l’indique, ces outils permettent d’extraire des données à partir de différentes sources, de les transformer (format, dénomination), et de les charger dans la base de données cible, ici le datawarehouse. Les transformations confiées à un ETL sont souvent simples, mais elles peuvent dans certains cas inclure des traitements procéduraux, de véritables programmes spécifiques. Un ETL permet d’éviter la réalisation de programmes batch répétitifs, souvent semblables, dont il faudra également assurer la maintenance. L’ETL peut prendre en charge différentes natures de sources de données, tant en entrée qu’en sortie, les principales étant bien sûr les SGBD relationnels, et les flux XML, mais il peut s’agir aussi de fichiers à formats fixes ou avec séparateurs (CSV). L’ETL a vocation à travailler en différé, le plus souvent la nuit.

ETL, les questions à se poser ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels). Ce système ne se contente pas de charger les données, il doit les faire passer par un tas de moulinettes pour les dé-normaliser, les nettoyer, les contextualiser, puis de les charger de la façon adéquate. Nous verrons par la suite ce que chaque mot veut dire. Il est important de savoir que la réalisation de l'ETL constitue 70% d'un projet décisionnel en moyenne. Et ce n'est pas pour rien, ce système est complexe et ne doit rien laisser s'échapper, sous peine d'avoir une mauvaise information dans l'entrepôt, donc des données fausses, donc inutilisables. Avant de commencer, visualisez le schéma d'un entrepôt et sa façon de fonctionner (gérer l'historique, dimensions, faits, etc.). Si vous cherchez des méthodes de conceptions d'ETL, et bien il n'y en a pas. III-A.

Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue Le Data Lake doit permettre, enfin, de casser les silos des systèmes d’information. C’est aussi un moyen de gagner en agilité. L'expert Vincent Heuschling répond aux questions du JDN. Qu’est-ce qu’un Data Lake ? Le Data Lake, ou lac de données, est un concept relativement nouveau lié à la mouvance Big Data. L’émergence du concept de Data Lake s’est accélérée grâce avec la convergence du besoin de plateformes fédératrices dans les entreprises et de nouveaux moyens techniques économiques apportés par les technologies de Big Data. En quoi est-ce différent d'un datawarehouse ? La tentation est très souvent forte d’apparenter le Data Lake à un classique datawarehouse, mais les différences entre les deux sont importantes, et ceci sur plusieurs plans. Avec le Data Lake, l'analyse de données devient opérationnelle Un autre facteur différenciant le Data Lake vis-à-vis de son ancêtre réside dans le coté opérationnel qui peut lui être associé. Quels sont les atouts d'un Data Lake ?

Louis Naugès Dans la première partie de cette analyse, j’ai présenté les trois familles d’intelligence artificielle (IA) et l’état actuel de l’A N I, Artificial Narrow Intelligence, l’IA spécialisée sur une seule activité. Face à nous, les A N I ont gagné la bataille des usages spécialisés. Il reste encore quelques activités humaines pour lesquelles des solutions A N I sont encore en retrait, en particulier dans le domaine des arts et de la pensée, oui ; pour combien de temps ? Je prendrai un seul exemple, dans le domaine de la musique. Flow Machines est un projet de recherche européen qui a pour objectif de créer des musiques originales à l’aide d’outils d’IA. Cette vidéo YouTube, Daddy’s car, composée dans le style des Beatles, en présente l’un des premiers résultats. A G I : Artificial General Intelligence Rappel : une A G I est une intelligence artificielle capable de réaliser de très nombreuses activités différentes, comme un être humain. Combien d’années, «That’s the question!». A S I : impacts

L'intelligence artificielle révolutionne la relation client Deviner les envies, prédire les comportements, désamorcer les conflits… L'IA modifie le rapport au client, en particulier dans les grands groupes. Noël approche et avec lui l'impossible quête du cadeau parfait. Enfin pas pour tout le monde. Les clients du géant sud-coréen du commerce Lotte, eux, vont pouvoir bénéficier d'un assistant aussi précieux qu'inattendu. Son nom ? IBM Watson. "Notre système cognitif pioche dans toutes les données non structurées qui peuvent intéresser le marketeur mais étaient jusque-là inaccessibles" Le duo Lotte-IBM Watson touche ici du doigt le graal de tout marketer : être en mesure de deviner les besoins des consommateurs, grâce à des algorithmes de machine learning qui moulinent la donnée récoltée sur tous les points de contacts (site Web, applications mobiles, magasins…). En France, ce scenario à mi-chemin entre 1984 et Minority Report tient encore de la science-fiction. Les groupes français n'en restent pas pour autant les bras ballants.

Evolution Business Intelligence : les 4 étapes majeures Le marché de la Business Intelligence ne cesse d’évoluer. Voici les 4 étapes majeures dans l’évolution de la Business Intelligence : DW et ETL De l’extraction des données de l’Entreprise pour la construction des fameux « Data Warehouse » ou « Entrepôts de données » grâce aux outils ETL (Extraction, Transformation, Loading) > Talend, Oracle Data Integrator, IBM DataStage, Informatica, SAP Data Services, Microsoft SSIS, OpenText, Pentaho La BI Entreprise A partir des années 90 : Apparition de logiciels graphiquesDéveloppement du concept des couches sémantiques (Vue métier ou Univers)Apparition des fonctionnalités de type « glisser-déposer » (ou « drag-and-drop ») Le reporting opérationnel et l’analyse multi dimensionnelle OLAP peuvent alors se développer pour couvrir les besoins standards ‘BI’ dans les Entreprise > SAP WebIntelligence et Crystal Reports La BI Agile La BI Agile répond à des nouveaux besoins : > SAP Lumira L’analyse prédictive > SAP Predictive Analytics

Un vaste réservoir d’images sous licences libres Vous cherchez des images utilisables pour vos sites ou publications ? Savez-vous qu’il est facile d’en trouver avec divers niveaux de permissions via le moteur de recherche des Creative Commons ? Ces petits logos, familiers des libristes, sont souvent combinés et permettent de savoir précisément à quelles conditions vous pouvez utiliser les images : Attribution : vous devez mentionner l’identité de l’auteur initial (obligatoire en droit français) (sigle : BY) Non Commercial : vous ne pouvez pas tirer un profit commercial de l’œuvre sans autorisation de l’auteur (sigle : NC) No derivative works : vous ne pouvez pas intégrer tout ou partie dans une œuvre composite (sigle : ND) Share alike : partage de l’œuvre, vous pouvez rediffuser mais selon la même licence ou une licence similaire (sigle : SA) … mais il arrive souvent que de grands médias donnent aussi de bien mauvais exemples ! Article original : CC Search is out of beta with 300M images and easier attribution Traduction Framalang : Goofy

Les cinquante cartes de Charles-Joseph Minard - Sandra Rendgen Pour aborder l’histoire de Charles-Joseph Minard, il faut revenir sur sa démarche intellectuelle (comment se sont faits les choix thématiques) et sur son approche méthodologique (pour ce qui concerne la création graphique, en d’autres termes, comment il a opéré ses choix de représentation visuelle). Né en 1781, il suit une formation d’ingénieur au tout début du XIXe siècle. Il grandit pendant la période la plus intense de la « Révolution industrielle ». Pendant trois décennies, il va travailler à l’École nationale des Ponts et Chaussées où il est chargé de concevoir et construire les infrastructures – ponts et ports – le long des voies fluviales. Il va matérialiser son travail de terrain par des « dessins techniques », comme par exemple ce grand plan qui réunit une série de graphiques et de cartes et montre l’importance des dégâts causés par les inondations sur les ponts. Une analyse du transport Minard expliquait avec insistance : Une cartographie des flux

5 étapes faciles pour réaliser un tableau de bord avec Excel (Last Updated On: 12 février 2018) Voici une approche générale de la conception de tableaux de bord sous Excel. Chaque tableau de bord est unique car il répond à une problématique spécifique, néanmoins je pense que la réalisation de tableaux de bord sous Excel peut suivre ces quelques étapes principales. 1. Déterminez les exigences du tableau de bord avec les utilisateurs. Je vous conseille fortement d’écrire l’objectif et de vous assurer que les utilisateurs soient tous d’accord et ont bien compris la même chose. Identifiez ensuite les interlocuteurs qui pourront vous aider dans la conception du tableau de bord (fournisseurs de données, experts sur la partie métier, etc.) Il faut vraiment considérer quelles sont les questions ou problématiques auxquelles les utilisateurs cherchent à répondre ou à résoudre en se mettant à leur place et ne pas avoir peur de poser des “questions bêtes”. Exemples de problématiques : 2. 3. 4. 5.

Comment utiliser les Sparklines Pas toujours évident de bien saisir le sens porté par des données "brutes". L'analyse de listes de chiffres à brûle pourpoint, dans le feu de l'action est toujours une torture de l'esprit. C'est pour résoudre cette question ardue qu'Edward Tufte a eu la géniale idée des "Sparklines", des mini-graphes qui n'occupent guère plus de place qu'une cellule de tableur. C'est une solution de choix pour les pages d'analyse du tableau de bord "un seul coup d'oeil". 1) Utilisation, 2) Tableau de Bord, 3) Couleurs, 4) Références Mini-graphes et mini-courbes, les mini indicateurs Sparklines : small, intense, word-sized graphics. Les sparklines, , sont de judicieux mini graphiques, suffisamment petits pour tenir dans une seule cellule du tableur Excel. Comment les utiliser, mode d'emploi Pour installer les sparklines avec la dernière distribution de Microsoft Excel, il suffit de choisir la fonction directement dans le ruban. Voir ci-dessus le ruban Choisir la forme et la couleur de la présentation.

A Tour of Artificial Intelligence Features in Power BI I recently had the pleasure of attending the Artificial Intelligence (AI) & Machine Learning (ML) in Power BI track at the Microsoft Power BI Bootcamp for partners. The two-day track was a deep dive into the various AI and ML capabilities currently available in Power BI. Partner attendees got to share the room with members of the Power BI product team over the two days. It was really fun to be able to hear directly from the team why features were designed a certain way, and even offer up feedback of how we think the platform could be further improved. 1 - Different personas in Power BI. Before we dive into specific AI features, let’s take a 50,000-foot view of the complete, end-to-end Power BI platform. 2 - Notice how AI is being integrated into data visualization, data preparation, and data modeling components. Conceptually, I like to think of most Power BI authoring components falling into one of three categories: Data visualizationData preparationData modeling Decomposition Tree

Identifez les différentes étapes de modélisation - Initiez-vous au Machine Learning Dans le chapitre précédent, vous avez découvert le cycle de travail du data scientist. Nous allons maintenant parler spécifiquement de la partie qui nous intéresse dans ce cours, c'est-à-dire la modélisation. Et pour modéliser les données, un vrai data scientist utilise son arme secrète de ninja : le fameux machine learning. Démystifions le machine learning Lorsqu'on entend parler de machine learning, ou plus généralement de l'intelligence artificielle - dont le machine learning est un sous-domaine -, on pense généralement à ça : Mais les experts du domaine sont formels : malgré toutes les inquiétudes évoquées dans les médias, le machine learning, et de manière plus générale l'intelligence artificielle, ne constituent pas une réelle menace. Le machine learning constitue, comme on l'a vu dans le chapitre précédent, une manière de modéliser des phénomènes, dans le but de prendre des décisions stratégiques. Avant la modélisation Un exemple concret L'étape de modélisation Les données Le texte

Related: