background preloader


Facebook Twitter

HADOOP, HIVE, Map Reduce avec PHP : part 1. Lorsque l’on commence à débattre sur le «BIG DATA», on finit toujours par discuter du stockage. «Hadoop», de par son architecture et son fonctionnement, n’impose aucune contrainte technique sur le stockage de la donnée. Intégrant nativement le concept de Map & Reduce, «Hadoop» est un candidat sérieux pour les besoins de stockage massif et d’extraction qu’impose le «BIG DATA». Facebook a retenu «Hadoop» comme entrepôt de données pour ses calculs de statistiques marketing.

Dans un précédent article consacré à «CASSANDRA», nous avions conclu «qu’une architecture permettant l’extraction, la manipulation et l’interprétation socio-économique de données massives, était composée de plusieurs maillons technologiques». Architecture technique Hadoop Le schéma ci-dessus décrit l’architecture technique d’une entreprise de e-commerce vendant des produits alimentaires pour animaux. Installation du framework HADOOP Un nombre important de projets OpenSources s’appuyant sur le framework ont vu le jour : Learn Hadoop & Big Data with Free Courses Online | Big Data University. Introduction to Apache Pig - Online Hadoop Training Video.

PigTools - Apache Pig. UDF Collections. DataFu DataFu is Linkedin's collection of Pig UDFs, which has become an Apache Incubator project. ( Elephant-Bird Twitter's library of LZO and/or Protocol Buffer-related Hadoop InputFormats, OutputFormats, Writables, Pig LoadFuncs, HBase miscellanea, etc. The majority of these are in production at Twitter running over data every day. RPM and Debian packages for Elephant Bird can be found at Pygmalion A project to facilitate using Pig with Apache Cassandra. Tools that help run Pig workflows Amazon Amazon Elastic MapReduce makes it easy to launch Pig in interactive or batch mode in AWS. 'hamake' utility allows you to automate incremental processing of datasets stored on HDFS using Hadoop tasks written in Java or using PigLatin scripts. Mortar Data Mortar Framework.

Data Mining Research - | Data Mining Blogs. If you're new here, you may want to subscribe to my RSS feed. Thanks for visiting! I posted an earlier version of this data mining blog list in a previously on DMR. Here is an updated version (blogs recently added to the list have the logo “new”). I will keep this version up-to-date. You can access it at any time from the DMR top bar. If you know a data mining blog that is not in this list, feel free to post a comment so I can add the link.

Ryan Rosario.