background preloader

BigData

Facebook Twitter

ProjetFilRouge

WebSementique. Talend. Dossiers. Hadoop. XD blog. 2016-07-07 Machine Learning?

XD blog

What did you say? Yesterday my sister asked : What is machine learning? And she quickly added please explain with terms I know. Ok... So I won't say this is just a bunch of optimization problems which apply on data to improve the efficiency of a company. What should i say? Should I apply the shaddock logic to my job: if I can't explain, I'm no use. Well... Machine Learning is everywhere but that won't help. So I thought. Is that the end of the story? The robot knows more and more and still can only solve problems we've seen. Spark Archives - Back To Bazics. Spark groupBy example can also be compared with groupBy of SQL.

Spark Archives - Back To Bazics

In spark, groupBy is a transformation operation. Let’s have some overview first then we’ll understand this operation by some examples in Scala, Java and Python languages. Looking at spark reduceByKey example, we can say that reduceByKey is one step ahead then reduce function in Spark with the contradiction that it is a transformation operation. Let’s understand this operation by some examples in Scala, Java and Python languages. Here in spark reduce example, we’ll understand how reduce operation works in Spark with examples in languages like Scala, Java and Python.

In spark filter example, we’ll explore filter method of Spark RDD class in all of three languages Scala, Java and Python. Spark est un framework qui a de plus en plus le vent en poupe et le fait qu’il ait été promu en top-level project par la fondation Apache qu’il a rejoint récemment (en juin 2013) montre bien de l’intérêt qu’il succite (cela est d’aileurs confirmé par son intégration avec des solutions comme celles de DataStax (cf. ici) ou mapR (cf. ici).

Un des points central de Spark est son utilisation des RDDs (Resilient Distributed Datasets). Cet article tentera d’expliquer un peu plus précisément ce que sont ces fameux RDDs (enfin, pour être plus précis, il ne s’agit (comme à mon habitude) que d’une pseudo-traduction du papier de recherche expliquant ses tenants et aboutissants). Les frameworks de cluster de calcul tels que Dryad et ceux basés sur MapReduce ont largement été adoptés pour les analyses de données à grande échelle. Analyse de données : le projet IPython évolue vers Jupyter. L'interface Notebook de IPython (ou Jupyter) permet de créer des documents combinant du code avec du texte, des équations, des images, des vidéos et des visualisations graphiques.

Analyse de données : le projet IPython évolue vers Jupyter

Agnostique vis-à-vis des langages de développement, l'interface Notebook du projet Jupyter - qui scinde IPython en plusieurs composantes - peut fonctionner avec une douzaine de langages dont Julia, R, Scala, JavaScript, Matlab et Bash. IPython, un outil qui s’appuie sur le langage Python pour l'analyse et la visualisation de données, a été divisé en plusieurs packages dans le cadre de sa transition vers le projet Jupyter qui lui permet d’être agnostique vis-à-vis des langages de développement. IPython, ainsi que l’explique le site qui héberge le projet, fournit une architecture pour des traitements interactifs. La version 4.0 du projet, présentée la semaine dernière, complète sa transition vers Jupyter. Databricks lève de fonds pour incarner la prochaine étape du Big Data.

Databricks, une entreprise construite sur le projet open source Apache Spark, vient d’obtenir 60 millions de dollars dans un nouveau financement.

Databricks lève de fonds pour incarner la prochaine étape du Big Data

La société a l’ambition de représenter la prochaine avancée dans l’organisation des données, le calcul et la livraison de Big Data. Entreprise née du projet open source Apache Spark, Databricks prend l’itinéraire emprunté par de nombreuses sociétés de Big Data avant elle. Kaggle, le site qui transforme le « big data » en or. Cette start-up présente le traitement des données scientifiques et la modélisation prédictive comme la promesse « de fortune, de gloire et de plaisir ».

Kaggle, le site qui transforme le « big data » en or

Le Monde.fr | • Mis à jour le | Par Mathilde Damgé Matthieu Scordia a présenté, mercredi 11 décembre à Paris, ses « trucs » pour gagner. L'actuel numéro un français sur Kaggle, un site de concours de « big data » (de traitement de gros volumes de données, en français), expliquera à ses collègues comment il compte améliorer Yandex, le Google russe, en « tunant » des algorithmes récupérés sur une librairie participative.

Pour ce concours, organisé par Yandex lui-même ainsi que d'autres moteurs de recherche (Yahoo! Et Bing), 104 équipes de toutes nationalités sont déjà inscrites, avec deux mois pour réfléchir et un prix de 9 000 dollars (6523 euros) à la clé. Data science : apprendre la discipline en 8 étapes avec DataCamp. Le métier de data scientist a été surnommé par Harvard Business Review comme « le plus sexy du 21e siècle » en 2012 et « le meilleur emploi de l’année » en 2016 par Glassdoor.

Data science : apprendre la discipline en 8 étapes avec DataCamp

Data Camp a dévoilé une infographie qui résume la façon d’apprendre la data science en 8 étapes. Un métier encore méconnu La position vis-à-vis de la data science a considérablement évolué au cours de ces quatre dernières années. En 2012, la majorité des articles visaient à expliquer le rôle du data scientist et son activité exacte. À l’époque, une recherche Google de « comment devenir un data scientist » montrait que ce concept pouvait avoir un grand nombre de significations. Ils sont très importants, car il existe très peu de data scientists répondant aux attentes des entreprises à ce jour, bien que la définition de ce métier ne soit pas encore fixe. Avec plus de demande que d’offre, l’attention que l’on porte aux équipes de data scientists est à la hausse. De nombreuses compétences requises. Télécharger le Cahier Spécial "Les 10 tendances clés 2017 de la Data Intelligence / Data Intelligence Forum" Big Data Use Cases - Real-life Case Studies for Apache Hadoop Spark and Flink - DataFlair.

1.

Big Data Use Cases - Real-life Case Studies for Apache Hadoop Spark and Flink - DataFlair

5 Big Data Use Cases To Watch. Query results - INSEE SPARQL Endpoint - DataLift. For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights - The New York Times. Big Data : quelles sont les 10 tendances majeures pour 2017. Durant l'année qui vient de passer, de plus en plus d’organisations se sont vues stocker, traiter et exploiter leurs données.

Big Data : quelles sont les 10 tendances majeures pour 2017

En 2017, les systèmes qui prennent en charge une grande quantité de données, structurées et non structurées, continueront à se développer. Les dispositifs devront permettre aux personnes qui s'occupent des données d'assurer la gouvernance et la sécurité du Big Data tout en donnant aux usagers finaux les moyens d'analyser ces données. Une fois arrivées à maturité, elles s'intégreront facilement et rapidement aux systèmes et aux normes informatiques des entreprises.

Voici nos prédictions pour 2017. 1. Il est évidemment possible de mettre en œuvre du machine learning et de réaliser des analyses de sentiments sur Hadoop, mais la première question posée généralement par les utilisateurs est : Quelle est la performance du SQL interactif ? Big data - L’analyse de données avec Pig : Inovia Blog. Par Kadda SAHNINE Publié le | 5 décembre 2012 | Le paradigme MapReduce est fondamentalement adapté pour paralléliser des traitements sur un volume important de données, ce qui a valut à Hadoop le succès que l’on sait.

Big data - L’analyse de données avec Pig : Inovia Blog

Mais il atteint ses limites dès qu’il s’agit d’implémenter des traitements plus complexes que le simple comptage de mots dans un corpus de textes, fussent-ils volumineux. Certification. XPath : Localiser les données - Structurez vos données avec XML.