background preloader

Lightning-Fast Cluster Computing

Lightning-Fast Cluster Computing

The Scala Programming Language Spark, an alternative for fast data analytics Spark is an open source cluster computing environment similar to Hadoop, but it has some useful differences that make it superior in certain workloads—namely, Spark enables in-memory distributed datasets that optimize iterative workloads in addition to interactive queries. Spark is implemented in the Scala language and uses Scala as its application framework. Unlike Hadoop, Spark and Scala create a tight integration, where Scala can easily manipulate distributed datasets as locally collective objects. Although Spark was created to support iterative jobs on distributed datasets, it's actually complementary to Hadoop and can run side by side over the Hadoop file system. This behavior is supported through a third-party clustering framework called Mesos. Spark was developed at the University of California, Berkeley, Algorithms, Machines, and People Lab to build large-scale and low-latency data analytics applications. Spark cluster computing architecture Figure 1. Spark programming model $ . $ .

Elastic Compute Cloud (Amazon EC2) Découvrez gratuitement AWS Le niveau gratuit d'AWS inclut 750 heures par mois d'utilisation d'instances Micro Linux et Windows durant un an. Pour rester dans le cadre du niveau gratuit, vous devez uniquement utiliser des instances EC2 Micro. Voir les détails relatifs au niveau gratuit d'AWS » Amazon Elastic Compute Cloud (Amazon EC2) est un service Web qui fournit une capacité de calcul redimensionnable dans le cloud. L'interface simple du service Web d'Amazon EC2 vous permet d'obtenir et de configurer la capacité avec un minimum de friction. Amazon EC2 vous permet d'augmenter ou de diminuer la capacité en quelques minutes, pas quelques heures ou quelques jours. Vous disposez d'un contrôle total sur vos instances. Vous avez le choix entre plusieurs types d'instances, systèmes d'exploitation et packs logiciels. Amazon EC2 propose un environnement hautement fiable, dans lequel les instances de remplacement peuvent être rapidement mises en service et ce, de façon prévisible.

Related: