background preloader

Bigdata

Facebook Twitter

Machine Learning

CrateDB vs Other Databases. There are many different databases on the market.

CrateDB vs Other Databases

This general CrateDB comparison will help you understand what makes CrateDB unique and whether it’s a good fit for you. Ideal use case CrateDB is ideal for real-time machine data and other applications that require: SQL access – CrateDB is accessed via ANSI SQLHigh velocity INSERTs – Scales linearly to handle millions of inserts per second.Easy scaling – Shared-nothing architecture automatically replicates and redistributes data as the cluster grows.Data type variety – Manages structured and unstructured data in the same database.Fast distributed queries, JOINs, aggregations – Innovative query engine delivers real-time performance, even for complex SQL queries.Open source economics – CrateDB is free to use under the Apache 2.0 license. Read on if you’d like to learn more about CrateDB differentiators. Masterless, shared-nothing architecture Some databases have a strong master-slave model. Standard SQL API. Maître Céline ATIK-ARIANE, Avocate à la cour. 20 Big Data Repositories You Should Check Out.

Data Science Central 20 Big Data Repositories You Should Check Out by Mirko Krivanek Aug 4, 2015 This is an interesting listing created by Bernard Marr.

20 Big Data Repositories You Should Check Out

Operationalizing Spark Streaming (Part 1) Operationalizing Spark Streaming (Part 1) For those looking to run Spark Streaming in production, this two-part article contains tips and best practices collected from the front lines during a recent exercise in taking Spark Streaming to production.

Operationalizing Spark Streaming (Part 1)

For my use case, Spark Streaming serves as the core processing engine for a new real time Lodging Market Intelligence system used across the Lodging Shopping stack on Expedia.com, Hotels.com and other brands. The system integrates with Kafka, S3, Aurora and Redshift and processes 500 msg/sec average with spikes up to 2000 msg/sec. The topics discussed are: Sections in Part 1 Spark Overview and Standalone ClustersDesign Patterns for PerformanceSpark Cluster and App Stability Sections in Part 2 (coming soon) Direct Kafka IntegrationGuaranteed message processing (at-least-once semantics, strong and weak microbatch transactionality)Operational monitoring So, let’s begin with Part 1.

L’évolution des architectures décisionnelles avec Big Data. Nous vivons une époque formidable.

L’évolution des architectures décisionnelles avec Big Data

En revenant un peu sur l’histoire de l’informatique, on apprend que les capacités que cela soit de RAM, disque ou CPU sont de grands sponsors de la loi de Moore au sens commun du terme (« quelque chose » qui double tous les dix-huit mois). Ces efforts seraient vains si les prix ne suivaient pas le phénomène inverse (divisés par 200 000 en 30 ans pour le disque par exemple).

Exposé comme cela, on se dit que nos envies ne peuvent connaitre de limite et qu’il suffit de changer la RAM, le disque ou le CPU pour prendre en charge l’explosion du volume de données à traiter qui globalement suit bien la loi de Moore aussi. Figure 1 Evolutions hardware, 2011, Alors où est le problème, qu’est qui fait que nos architectures décisionnelles aujourd’hui, non contentes de coûter de plus en plus chères, sont aussi en incapacité à se projeter sur des Tera ou des Peta de données. Figure 2 Evolution du débit des disques durs, source : wikipedia. Mettre en place un projet Big Data en entreprise. Le Big Data est une opportunité pour l’entreprise.

Mettre en place un projet Big Data en entreprise

En utilisant toutes les données issues de ses réseaux sociaux, de ses sites et de ses bases de données, l’entreprise peut améliorer sa connaissance des clients et des prospects. Elle peut aussi optimiser ses coûts ou innover. Mais pour mettre en place un projet Big Data, l’entreprise doit aussi repenser son fonctionnement, adopter des solutions techniques adaptées et être prête à suivre une nouvelle stratégie.

Le Big Data : quels enjeux pour l’entreprise ? Le Big Data (ou Smart Data, Analytics…) désigne les données numériques qui circulent sur les réseaux sociaux et sur l’ensemble des supports web. Tous les secteurs sont concernés : le commerce et le e-commerce bien sûr, mais aussi la santé, les transports, les collectivités, le sport… Pour l’entreprise, les enjeux du Big Data sont notables : Le Big Data est pourtant encore peu mis à profit par les entreprises. Concevoir sa plateforme Big Data.

Introduction Les Entreprises évoluent dans un contexte économique difficile leur imposant de maximiser leurs profits et de réduire leurs dépenses. Elles ont besoin de cibler au mieux leur clientèle, de comprendre les canaux de distribution, de réussir à vendre leurs offres, ainsi que de satisfaire leurs actionnaires. Par ailleurs, chaque fois qu'une Entreprise lance de nouveaux produits ou souhaite évaluer ses performances, elle il doit savoir répondre à certaines questions telles que : Quels types de produits intéressent mes clients ?

Quel est le canal de distribution le plus efficace ? ... Il est important de comprendre comment un DW traditionnel fonctionne. La question est toutefois de savoir si ces DW sont aptes à faire face au phénomène Big Data. Limitations des Data Warehouse traditionnels Les solutions traditionnelles de bases de données relationnelles ne sont pas forcément plus adaptées que les DW pour traiter la plupart des ensembles de données. List of Physical Visualizations. Bokeh Docs.