background preloader

Data analysis

Facebook Twitter

ESLII print10. Основы статистики - Stepic. !!!!!Введение в машинное обучение с помощью Python и Scikit-Learn / Блог компании MLClass. Привет, хабр!

!!!!!Введение в машинное обучение с помощью Python и Scikit-Learn / Блог компании MLClass

Меня зовут Александр, я занимаюсь машинным обучением и анализом веб-графов (в основном — теоретическим), а также разработкой Big Data продуктов в одном из операторов Большой Тройки. Это мой первый пост — прошу, не судите строго!) В последнее время ко мне все чаще стали обращаться люди, которые хотят научиться разрабатывать эффективные алгоритмы и участвовать в соревнованиях по машинному обучению с вопросом: «С чего начать?». Некоторое время назад я руководил разработкой инструментов Big Data для анализа медиа и социальных сетей в одном из учреждений Правительства РФ, и у меня остался некоторый материал, по которому обучалась моя команда и которым можно поделиться. Предполагается, что у читателя есть хорошее знание математики и машинного обучения (в команде были в основном выпускники МФТИ и студенты Школы Анализа Данных).

Наиболее распространенными инструментами Data Scientist'а на сегодняшний день являются R и Python. Загрузка данных Нормализация данных Отбор признаков. Ваш персональный курс по Big Data / Блог компании MLClass. Привет, хабр!

Ваш персональный курс по Big Data / Блог компании MLClass

После публикации нескольких статей по Big Data и Машинному обучению, ко мне пришло немало писем от читателей с вопросами. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт, некоторые из них — уже решают прикладные задачи и делают успехи. А кто-то уже устроился на работу и занимается решением реальных задач. Моя цель — чтобы вокруг меня были умные люди, с которыми в том числе и я смогу работать в дальнейшем. Поэтому я хочу помочь тем, кто действительно хочет научиться решать настоящие задачи на практике. Станьте отличным математиком Да, это наверное самое важное — математическое мышление, которое надо развивать в себе постоянно с младших лет. После того, как ваш мозг научился оперировать с дисретными обьектами, а также развилось алгоритмическое мышление вам необходимо научиться мыслить в терминах теории вероятности.

Научитесь писать код Пройдите основные курсы по машинному обучению Практикуйтесь в построении алгоритмов. Bag-of-Words-Meets-Bag-of-Popcorns-using-Word2vec-in-R: An entry to Bag of words meets bag of popcorns using word2vec in R. Bag of Words Meets Bags of Popcorn. In this tutorial competition, we dig a little "deeper" into sentiment analysis.

Bag of Words Meets Bags of Popcorn

Google's Word2Vec is a deep-learning inspired method that focuses on the meaning of words. Word2Vec attempts to understand meaning and semantic relationships among words. It works in a way that is similar to deep approaches, such as recurrent neural nets or deep neural nets, but is computationally more efficient. This tutorial focuses on Word2Vec for sentiment analysis. Titanic: Machine Learning from Disaster. See best practice code and explore visualizations of the Titanic dataset on Kaggle Scripts.

Titanic: Machine Learning from Disaster

Submit directly to the competition, no data download or local environment needed! The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy shocked the international community and led to better safety regulations for ships. One of the reasons that the shipwreck led to such loss of life was that there were not enough lifeboats for the passengers and crew. Coursera. Ваши вопросы о Data Science / Блог компании MLClass. Привет, хабр!

Ваши вопросы о Data Science / Блог компании MLClass

Мы перезапустили MLClass! — первое в России сообщество любителей Data Science В связи с этим, как и обещал в статье Ваш персональный курс по Big Data, выкладываю ответы на самые часто задаваемые вопросы, которые возникают у людей, интересующихся Data Science и Big Data. Ответы даны лучшими практиками анализа данных: победителями Kaggle, сотрудниками многих компаний, внедряющих у себя Big Data решения и всеми, кто знает, что такое Data Science не понаслышке. Стоит отметить, что с каждым днем все больше людей в России (а также в странах СНГ) интересуются анализом данных, проходит все больше соревнований, хакатонов. Итак, я взял около 100 самых распространенных вопросов, выделили из них наиболее обсуждаемые, и прокомментировал каждый из наиболее подробно, чтобы вопросов больше не осталось!

Как быстро начать решать задачи по машинному обучению? Конечно же, ответ на этот вопрос сильно зависит от подготовки человека, который собирается решать задачи. С чего начать изучение? 1. 2.