background preloader

Data Science

Facebook Twitter

Data Talks. How to Make a Heatmap – a Quick and Easy Solution. Дискретные структуры: матан для айтишников. Посмотришь на любую программу обучения по IT-специальности, и тут же увидишь дисциплину «Дискретная математика» (возможно, под другим названием), обычно для перво- или второкурсников.

Дискретные структуры: матан для айтишников

И её наличие вполне разумно, поскольку дискретная математика и непрерывная математика (представленная на первом курсе институтов с незапамятных времён математическим анализом) — две грани единой Математики, — красивой, могучей науки. Хотя раньше такого понятия, как «дискретная математика» вовсе не было, это не значит, что не возникало дискретных задач: Абель, Дирихле, Фибоначчи, Эйлер, чьи имена возникают по ходу изучения дискретной математики, — отнюдь не наши современники! Но просто в те времена для выделения самостоятельной ветви математики ещё не сложилось критической массы задач и приёмов, не было видно взаимосвязей между ними.

А большое количество плодотворных взаимосвязей между, на первый взгляд, различными понятиями, — то, что математики в своей науке очень ценят. MAXimal. Видеолекции курса «Алгоритмы и структуры данных» Видеолекции курса «Дискретный анализ и теория вероятностей» Ваш персональный курс по Big Data / Блог компании MLClass. Привет, хабр!

Ваш персональный курс по Big Data / Блог компании MLClass

После публикации нескольких статей по Big Data и Машинному обучению, ко мне пришло немало писем от читателей с вопросами. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт, некоторые из них — уже решают прикладные задачи и делают успехи. А кто-то уже устроился на работу и занимается решением реальных задач. Моя цель — чтобы вокруг меня были умные люди, с которыми в том числе и я смогу работать в дальнейшем. Поэтому я хочу помочь тем, кто действительно хочет научиться решать настоящие задачи на практике. Станьте отличным математиком Да, это наверное самое важное — математическое мышление, которое надо развивать в себе постоянно с младших лет.

После того, как ваш мозг научился оперировать с дисретными обьектами, а также развилось алгоритмическое мышление вам необходимо научиться мыслить в терминах теории вероятности. Data Mining. This six-week long Capstone course of the Data Mining Specialization will allow you to apply the learned algorithms and techniques for data mining from the previous courses in the Specialization, including Pattern Discovery, Clustering, Text Retrieval, Text Mining, and Visualization, to solve interesting real-world data mining challenges.

Data Mining

Specifically, you will work on a restaurant review data set from Yelp and use all the knowledge and skills you’ve learned from the previous courses to mine this data set to discover interesting and useful knowledge. Confusion matrix. In the field of machine learning, a confusion matrix, also known as a contingency table or an error matrix [1] , is a specific table layout that allows visualization of the performance of an algorithm, typically a supervised learning one (in unsupervised learning it is usually called a matching matrix).

Confusion matrix

Specialization. Specialization. Welcome to Apache™ Hadoop®! Файловая система и Hadoop: Опыт Twitter (Часть 2) / Блог компании 1cloud.ru. Примечание переводчика:В нашем блоге мы много пишем о построении облачного сервиса 1cloud, но немало интересного можно почерпнуть и из опыта по работе с инфраструктурой других компаний.

Файловая система и Hadoop: Опыт Twitter (Часть 2) / Блог компании 1cloud.ru

Стоит ли платить за Apache Hadoop? В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data».

Стоит ли платить за Apache Hadoop?

Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop. Cloudera Inc. В октябре 2008 года в Америке три инженера из Google, Facebook и Yahoo и один менеджер из Oracle создали новую компанию Cloudera.

Поговорим за Hadoop / Блог компании DataArt. Введение Как человеку с не очень устойчивой психикой, мне достаточно одного взгляда на картинку, подобную этой, для начала панической атаки.

Поговорим за Hadoop / Блог компании DataArt

Но я решил, что страдать буду только сам. Apache Hadoop (Доклад Владимира Климонтовича на ADD-2010) / Блог компании Лаборатория тестирования. Представляем вашему вниманию доклад Владимира Климонтовича, сделанный им на конференции Application Developer Days, в котором он поделился своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.

Apache Hadoop (Доклад Владимира Климонтовича на ADD-2010) / Блог компании Лаборатория тестирования

Ниже представлены текстовая версия доклада + видео + аудио и слайды презентации. Спасибо belonesox за работу над подготовкой материалов доклада. История вопроса . Hadoop vs Dryad (или ничего личного) UPD: сменил заголовок статьи, т.к. прошлый заголовок я написал, пока был лунатиком (шутка, разумеется).

Hadoop vs Dryad (или ничего личного)

На прошлой неделе на Хабре появилось 2 поста о фреймворке распределенных вычислений от Microsoft Research – Dryad. В частности, подробно были описаны концепции и архитектура ключевых компонентов Dryad – среды исполнения Dryad и языка запросов DryadLINQ. Логическим завершением цикла статей о Dryad видится сравнение фреймворка Dryad с другими, знакомыми разработчикам MPP-приложений, инструментами: реляционными СУБД (в т.ч. параллельными), GPU-вычислениями и платформой Hadoop. Initiating and Planning Projects - Course Videos, Lectures, Quizzes. Дайджест статей по анализу данных и big data.

Introduction to Big Data with Apache Spark. Organizations use their data for decision support and to build data-intensive products and services, such as recommendation, prediction, and diagnostic systems.

Introduction to Big Data with Apache Spark

Scalable Machine Learning. Wat is Hadoop? Ngram Viewer. SDSS. FiveThirtyEight.