background preloader

BigData

Facebook Twitter

ProjetFilRouge

WebSementique. Talend. Dossiers. Hadoop. XD blog. Spark Archives - Back To Bazics. Spark est un framework qui a de plus en plus le vent en poupe et le fait qu’il ait été promu en top-level project par la fondation Apache qu’il a rejoint récemment (en juin 2013) montre bien de l’intérêt qu’il succite (cela est d’aileurs confirmé par son intégration avec des solutions comme celles de DataStax (cf. ici) ou mapR (cf. ici).

Un des points central de Spark est son utilisation des RDDs (Resilient Distributed Datasets). Cet article tentera d’expliquer un peu plus précisément ce que sont ces fameux RDDs (enfin, pour être plus précis, il ne s’agit (comme à mon habitude) que d’une pseudo-traduction du papier de recherche expliquant ses tenants et aboutissants). Big Data & logistique. Analyse de données : le projet IPython évolue vers Jupyter. L'interface Notebook de IPython (ou Jupyter) permet de créer des documents combinant du code avec du texte, des équations, des images, des vidéos et des visualisations graphiques.

Analyse de données : le projet IPython évolue vers Jupyter

Agnostique vis-à-vis des langages de développement, l'interface Notebook du projet Jupyter - qui scinde IPython en plusieurs composantes - peut fonctionner avec une douzaine de langages dont Julia, R, Scala, JavaScript, Matlab et Bash. IPython, un outil qui s’appuie sur le langage Python pour l'analyse et la visualisation de données, a été divisé en plusieurs packages dans le cadre de sa transition vers le projet Jupyter qui lui permet d’être agnostique vis-à-vis des langages de développement. IPython, ainsi que l’explique le site qui héberge le projet, fournit une architecture pour des traitements interactifs. Databricks lève de fonds pour incarner la prochaine étape du Big Data. Databricks, une entreprise construite sur le projet open source Apache Spark, vient d’obtenir 60 millions de dollars dans un nouveau financement.

Databricks lève de fonds pour incarner la prochaine étape du Big Data

La société a l’ambition de représenter la prochaine avancée dans l’organisation des données, le calcul et la livraison de Big Data. Entreprise née du projet open source Apache Spark, Databricks prend l’itinéraire emprunté par de nombreuses sociétés de Big Data avant elle. Spark est une nouvelle étape dans la longue marche des data scientists pour compiler des quantités massives de données faciles à comprendre et à utiliser dans la prochaine génération d’applications. Kaggle, le site qui transforme le « big data » en or. Cette start-up présente le traitement des données scientifiques et la modélisation prédictive comme la promesse « de fortune, de gloire et de plaisir ».

Kaggle, le site qui transforme le « big data » en or

Le Monde.fr | • Mis à jour le | Par Mathilde Damgé Matthieu Scordia a présenté, mercredi 11 décembre à Paris, ses « trucs » pour gagner. Learn R, Python & Data Science Online. Data science : apprendre la discipline en 8 étapes avec DataCamp. Le métier de data scientist a été surnommé par Harvard Business Review comme « le plus sexy du 21e siècle » en 2012 et « le meilleur emploi de l’année » en 2016 par Glassdoor.

Data science : apprendre la discipline en 8 étapes avec DataCamp

Data Camp a dévoilé une infographie qui résume la façon d’apprendre la data science en 8 étapes. Un métier encore méconnu La position vis-à-vis de la data science a considérablement évolué au cours de ces quatre dernières années. En 2012, la majorité des articles visaient à expliquer le rôle du data scientist et son activité exacte. À l’époque, une recherche Google de « comment devenir un data scientist » montrait que ce concept pouvait avoir un grand nombre de significations. Télécharger le Cahier Spécial "Les 10 tendances clés 2017 de la Data Intelligence / Data Intelligence Forum" By Veillemag pour le Data Intelligence Forum CAHIER DIF TENDANCES 10.pdf (317.95 Ko) Les 29 & 30 mars 2017 se tiendra la 2ème édition du Data Intelligence Forum organisé par Reed Expositions France.

Télécharger le Cahier Spécial "Les 10 tendances clés 2017 de la Data Intelligence / Data Intelligence Forum"

Big Data Use Cases - Real-life Case Studies for Apache Hadoop Spark and Flink - DataFlair. 5 Big Data Use Cases To Watch. Query results - INSEE SPARQL Endpoint - DataLift. For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights - The New York Times. Big Data : quelles sont les 10 tendances majeures pour 2017. Durant l'année qui vient de passer, de plus en plus d’organisations se sont vues stocker, traiter et exploiter leurs données.

Big Data : quelles sont les 10 tendances majeures pour 2017

En 2017, les systèmes qui prennent en charge une grande quantité de données, structurées et non structurées, continueront à se développer. Les dispositifs devront permettre aux personnes qui s'occupent des données d'assurer la gouvernance et la sécurité du Big Data tout en donnant aux usagers finaux les moyens d'analyser ces données. Big data - L’analyse de données avec Pig : Inovia Blog. Par Kadda SAHNINE Publié le | 5 décembre 2012 | Le paradigme MapReduce est fondamentalement adapté pour paralléliser des traitements sur un volume important de données, ce qui a valut à Hadoop le succès que l’on sait.

Big data - L’analyse de données avec Pig : Inovia Blog

Certification. XPath : Localiser les données - Structurez vos données avec XML.