background preloader

Hadoop

Facebook Twitter

Jen Underwood sur Twitter : "Best Practices for Hadoop EDW 101 by @cloudera #hadoopedw. Best Practices for the Hadoop Data Warehouse: EDW 101 for Hadoop Prof… Pulling Twitter Updates Using Talend Open Studio -Part II. In previous post you have seen how to get a user ID`s from twitter API.

Pulling Twitter Updates Using Talend Open Studio -Part II

In this post we will see how can we get the Users details. Requirement for Demo. Talend Open Studio. Twitter API Access. JDK installed. To get user`s detail we will have to use users/show API so make sure you are able to access this API. Our Xpath Loop expression is: /user/statusselect below list of field using Ctrl+click and drag and drop to “Fileds to extract” and click on “Refresh Preview” button to make sure you have parsed XML properly. created_at description es_count favourites_count followers_count following friends_count id location name screen_name time_zone usl verified Now we have ready our sample file with twitter user details. we have to store this information into CSV file, hence you need to drag and drop tFileOutPutDelimited, Drag and Drop schema mapping we created recently for XML on designer and select tFileInputXML.

Output. Query Twitter with Talend to see what people think about … Hi all, Almost on holidays after a very hard working year.

Query Twitter with Talend to see what people think about …

I have some beach time. This morning, I tried to query Twitter and to process the data. My purpose is to quickly build a data set showing what people are talking about … let’s say, Obama. Easy, Twitter is providing an interface to run queries and retrieve the results back with json format. Using Talend to read tweets. A project regarding visual discovery required me to look into the possibilities of reading tweets.

Using Talend to read tweets

During my search for a suitable method to accomplish this, I came across the software Talend Open Studio. This is an open source data integration product which allowed me to fulfil my need to read tweets in a very easy way. You won’t have to manually use the Twitter API to get raw JSON, but have the possibility to load and transform the structured data into a file. In this post we’ll go through the steps you have to take to get the Talend software to use this API and get you the tweets you want. Please keep in mind that, in order to successfully do this, you will need a Twitter account to authenticate yourself and some custom components. As you might know, it used to be possible to get an unlimited amount of tweets for free using the Twitter API v1. Step 1: Adding custom Twitter components Unfortunately, the components you need aren’t included in Talend by default. Click on Apply/ok. Home - Talend Open Studio for Big Data v5.5.1 - Guide utilisateur (FR) - Talend Online Documentation & Knowledge Base.

Home - Composants Talend Open Studio for Big Data v5.5.1 - Guide de référence (FR) - Talend Online Documentation & Knowledge Base. Home - Talend Open Studio for Big Data v5.5.1 - Guide de prise en main (FR) - Talend Online Documentation & Knowledge Base. Hadoop streaming avec PHP et extraction HIVE – part 2. Dans cette suite de billets consacrés à HADOOP, HIVE et Map Reduce, nous allons présenter «Hadoop streaming» et voir comment il est simple d’utiliser les fonctions natives de Map Reduce du framework «Hadoop» avec PHP.

Hadoop streaming avec PHP et extraction HIVE – part 2

En reprenant le schéma de la première partie consacré à l’introduction d’«hadoop» et à son installation, nous nous attarderons sur les services de «Logs», «App Engine», «HIVE» et «HDFS» de l’architecture. Pour avoir une idée de comment s’articule l’ensemble de ces services jusqu’à la visualisation des métriques marketing, je vous propose le plan suivant : collecte et centralisation des logs,manipulation des logs et utilisation de Map Reduce,introduction à HIVE,extraction de données.

Savoir écouter son marché pour collecter de l’information stratégique Lorsque le business modèle d’une entreprise s’articule sur le web et pour le web, elle est capable de mettre en place une interaction «OneToOne» (Peppers & Rogers) avec l’ensemble de son marché !. Le SI de demain se façonne aujourd'hui. L’augmentation des sources de données et le volume généré rend les traitements BI classiques couteux en temps et en argent.

Le SI de demain se façonne aujourd'hui

L’émergence du stockage distribué et des traitements parallèles avec le framework Hadoop en se basant sur des serveurs standards (comodity server), valorise et donne une seconde vie aux données. Toutefois, le modèle de programmation MapReduce exige des développements bas niveau, personnalisés, qui sont difficiles à maintenir et à réutiliser. Afin de lever ce type de complexité dans l’utilisation de Hadoop, que le projet Hive a été mis en place. Hive permet de définir une structure pour les données non structurées, ce qui simplifie le processus d’analyses et de recherches. Hive fournit un langage déclarative HQL de plus haut niveau pour faciliter le traitement des données à grande échelle. 1. Apache Hive est un entrepôt données (Data Warehouse) open source pour Hadoop. L’accès aux données se fait via des tables structurées.