Машинное обучение конструирование признаков книга

Машинное обучение — популярное направление, по которому написано множество книг и курсов. Какие из них полезны и заслуживают внимания? Делимся в статье.

Машинное обучение — это часть Data Science, посвящённая решению задач прогнозирования или поиска структуры в данных. Зачастую, когда говорят про Data Science или про Artificial Intelligence, имеют ввиду именно Machine Learning.

В этой подборке мы приводим книги и курсы, которые позволят погрузиться в мир машинного обучения.

Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.

Учебная воронка на курсах по машинному обучению жестока: несмотря на лояльность онлайн-университетов, больше половины студентов уходят (так было у меня), потому что не выдерживают нагрузку или теряют интерес. Частично справиться с этим: повторить материал, узнать что-то за рамками программы — помогают книги. Здесь я собрала небольшой список тех, которые погрузят в тему и разрушат популярные мифы.

Машинное обучение — обширная тема, ставшая в последнее время весьма важной. Для тех, кто хочет с ней познакомиться, эта подборка станет приятным подспорьем.

На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Содержание

The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Inductive Logic Programming: Theory and Methods
Reinforcement Learning: An Introduction
Information Theory, Inference, and Learning Algorithms
Gaussian Processes for Machine Learning
Bayesian Reasoning and Machine Learning
A Course in Machine Learning
Machine Learning, Neural and Statistical Classification
Introduction To Machine Learning
Введение в информационный поиск
«Mining of Massive Datasets». Jure Leskovec, Anand Rajaraman, Jeff Ullman
«An Introduction to Statistical Learning (with applications in R)». Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
«Deep Learning». Ian Goodfellow and Yoshua Bengio and Aaron Courville
«Bayesian methods for hackers». Cam Davidson-Pilon
«Understanding Machine Learning: From Theory to Algorithms». Shai Shalev-Shwartz and Shai Ben-David
«Deep Learning Tutorial». LISA lab, University of Montreal
Scikit-Learn Tutorial: Statistical-Learning for Scientific Data Processing Andreas Mueller
Machine Learning (An Algorithmic Perspective) Stephen Marsland
Building Machine Learning Systems with Python Willi Richert and Luis Pedro Coelho
Другие статьи по теме
Introduction to Information Retrieval
Foundations of Statistical Natural Language Processing
Speech and Language Processing
Автоматическая обработка текстов на естественном языке и анализ данных.
Natural Language Processing. Workbook for NLP Course
Статистика и котики. Владимир Савельев
Наука о данных. Брендан Тирни
Книги
Нестареющая классика
Пара современных и интересных талмудов от MIT Press
Простые и легко читаемые книги с примерами
Нестареющая классика посложнее
Пара недооценённых, но неплохих книг
Python и анализ данных. Уэс Маккинни
Говори на языке диаграмм. Пособие по визуальным коммуникациям. Джин Желязны
«Машинное обучение доступным языком» Елены Капаца
Курсы
Как лгать при помощи статистики. Дарелл Хафф
Игра в цифры. Как аналитика позволяет видеоиграм жить лучше. Василий Сабиров
Теоретический минимум по Big Data. Всё что нужно знать о больших данных. Су Кеннет
SQL. Сборник рецептов. Энтони Молинаро
Как вытащить из данных максимум. Навыки аналитики для неспециалистов. Джордан Морроу
Роман с Data Science. Как монетизировать большие данные. Роман Зыков
«Python. Большая книга примеров» Антона Марченко
Data Science. Наука о данных с нуля. Джоэл Грасс
«Машинное обучение без лишних слов» Андрея Буркова
Python и машинное обучение. Себастьян Рашка
«Python и Машинное обучение» Себастьяна Рашка
Заключение

The Elements of Statistical Learning: Data Mining, Inference, and Prediction

Inductive Logic Programming: Theory and Methods

Reinforcement Learning: An Introduction

Information Theory, Inference, and Learning Algorithms

Gaussian Processes for Machine Learning

Bayesian Reasoning and Machine Learning

A Course in Machine Learning

Machine Learning, Neural and Statistical Classification

Introduction To Machine Learning

Введение в информационный поиск

Будем рады, если вы расскажете нам в комментариях о других хороших книгах о машинном обучении, которые мы могли бы добавить в эту подборку.

В этой статье перечислены лучшие из книг по машинному обучению, которые стоят вашего внимания. Они находятся в свободном доступе.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА

Если Вы давно искали хорошие книги по машинному обучению, то эта подборка именно для Вас.

«Mining of Massive Datasets». Jure Leskovec, Anand Rajaraman, Jeff Ullman

Основанная на курсе CS246 и CS35A в Стэнфордском университете, эта книга предназначена для студентов, изучающих информатику, и не требует предварительной подготовки. Эта книга была опубликована издательством Cambridge University Press.

«An Introduction to Statistical Learning (with applications in R)».
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani

Эта книга содержит пролог к статистическим методам обучения наряду с несколькими лабораториями R.

«Deep Learning».
Ian Goodfellow and Yoshua Bengio and Aaron Courville

Это учебное пособие по глубокому обучению предназначено для тех, кто находится на ранних этапах машинного обучения и глубинного обучения в частности. Онлайн-версия книги доступна уже сейчас бесплатно.

«Bayesian methods for hackers».
Cam Davidson-Pilon

Эта книга знакомит вас с байесовскими методами и вероятностным программированием с вычислительной точки зрения. Книга в основном является находкой для тех, кто свободно владеет математикой.

«Understanding Machine Learning: From Theory to Algorithms». Shai Shalev-Shwartz and Shai Ben-David

Для тех, кто разбирается в математике, это одна из самых рекомендуемых книг для понимания магии, которая стоит за машинным обучением.

«Deep Learning Tutorial». LISA lab, University of Montreal

Scikit-Learn Tutorial: Statistical-Learning for Scientific Data Processing
Andreas Mueller

Объясняя статистическое обучение, этот учебник объясняет использование методов машинного обучения с целью статистического вывода. Учебник доступен в Интернете бесплатно.

Machine Learning (An Algorithmic Perspective) Stephen Marsland

Эта книга может многое предложить студентам инженерных и информатики, изучающим машинное обучение и искусственный интеллект. Пособие опубликовано и написано Стивеном Марслэндом, к сожалению не бесплатно. Весь код Python доступен в Интернете. Они являются отличным справочным источником для изучения Python.

Building Machine Learning Systems with Python
Willi Richert and Luis Pedro Coelho

Эта книга также недоступна бесплатно, но ради справедливости она в нашем списке. Это совершенное практическое руководство, чтобы максимально использовать возможности машинного обучения с помощью Python.

Другие статьи по теме

Хотите знать, как работает Deep Learning? Вот быстрый гайд

Время на прочтение

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

Introduction to Information Retrieval

В России книга вышла под названием «Введение в информационный поиск». Как принято писать в таких случаях, «книга сразу стала библиографической редкостью». По крайней мере я ее одалживал у знакомого яндексоида. При этом в книге больше информации про информационный поиск (information retrieval) и меньше про NLP, но в наше время эти две области уже (или все еще) очень близки.

Кстати, я с удивлением узнал, что недавно (в 2020) вышло уже третье переиздание на русском языке. Правда, его тоже уже не достать, хотя PDF версия ищется без проблем. Не уверен, что PDF выложен на законных основаниях, поэтому предлагаю поискать книгу самостоятельно.

Foundations of Statistical Natural Language Processing

Насколько мне известно, эта книга не переводилась на русский язык. Тем не менее у нее есть два больших плюса. Первый заключается в том, в книге изложены максимально подробно все базовые вещи.

А второй — это собственно коллектив авторов. Кстати, нужно было это рассказ вставить в описание предыдущей книги, но так как авторы общие, то и здесь это будет уместно. Кристофер Мэннинг — это легенда нашей области, бессменный лидер группы обработки естественного языка (а именно так переводится NLP) в одном из лучших американских университетов, Стэнфордском. Хинрих Шютце — несколько менее известен, но тем не менее тоже один из столпов области, главный по вычислительной лингвистике в одном из лучших уже европейских университетов, университете Людвига-Максимилиана в Мюнхене.

Минус книги в том, что некоторые вещи в ней устарели, да и читать ее достаточно сложно.

Dan Jurafsky and James H. Martin. Speech and Langauge Processing. 2nd ed.

Speech and Language Processing

Лично я эту книгу никогда не видел в печатном виде, только в виде PDF-черновиков, в этом виде она пребывает уже много лет. Но это нисколько не делает ее хуже. Она, можно сказать, небольшая (по сравнению с предыдущей), охватывает еще темы обработки речи, которые не напрямую относятся к NLP (хотя это давний спор внутри области). В любом случае, могу ее порекомендовать без колебаний, написана она хорошо, освещает основные темы. Я правда не видел ее в переводе, но может быть я плохо искал. Текущий черновик третьего издания можно найти на странице автора
.

Автоматическая обработка текстов на естественном языке и анализ данных.

Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. Автоматическая обработка текстов на естественном языке и анализ данных. М.: ВШЭ, 2017. К сожалению, у этой книги нет красивой обложки.

Это пожалуй лучшая на сегодняшний день книга на русском языке по нашей области. Книга охватывает основные темы и достаточно понятно написана. Плюс выложена в открытом доступе
на сайте ВШЭ. Авторы — звездный состав старшего поколения исследователей, отдельно хочу выделить Константина Вячеславовича Воронцова (главного автора системы тематического моделирования BigARTM) и Наталью Валентиновну Лукашевич (главного автора тезауруса РуТез).

Natural Language Processing. Workbook for NLP Course

Наконец книжка, которую не совсем этично рекомендовать в целом, так она моего авторства, но для студентов моего курса она будет полезна. Это сборник всяких заметок и дополнительных материалов по курсу, который я читаю. Книга находится в глубоко черновом варианте и распространяется между студентами моего курса. Она следует логике курса и дополняет его. Если вы хотите получить доступ к текущему варианту книги, то записывайтесь на мой курс.

Кстати, он стартует уже 14 сентября 2023 года. Курс бесплатный и открытый для всех. Подробности можно посмотреть по ссылке

.

Вот такой список получился у меня, само собой неполный и субъективный. Рекомендуйте книги по своему выбору в комментариях, мне тоже будет полезно расширить кругозор.

Интересуетесь нейросетями и машинным обучением? Собрали подборку из 15 книг по глубинному обучению, которые помогут освоить эти технологии.

Ловите свежую подборку книг Deep Learning, которая поможет свернуть горы!

Гудфеллоу Я., Бенджио И., Курвилль А. − Глубокое обучение, 2017 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга считается «Библией», одной из лучших книг по глубинному обучению. Несмотря на то, что она написана техническим языком, её сможет осилить и технологический новичок.

Внутри рассказывается о математических и концептуальных основах, линейной алгебре, теории вероятностей и теории информации, численных вычислениях и машинном обучении. Она описывает методы глубокого обучения, используемые практиками в отрасли. Сюда входят сети с прямой связью, регуляризация, алгоритмы оптимизации, сверточные сети, моделирование последовательностей и практическая методология. Кроме того, вы узнаете об обработке естественного языка, распознавании речи, компьютерном зрении, системе онлайн-рекомендаций, биоинформатике и видеоиграх.

Франсуа Шолле − Глубокое обучение на Python, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Это учебник по моделям глубокого обучения с использованием языка Python и мощной библиотеки Keras. Написанная создателем Keras и исследователем Google AI Франсуа Шолле, эта книга укрепит понимание технологии через объяснения и практические примеры. Вы исследуете сложные концепции и попрактикуетесь с приложениями в области компьютерного зрения, обработки естественного языка и генеративных моделей. К тому времени, как вы закончите, у вас будут знания и практические навыки для применения глубокого обучения в ваших собственных проектах.

Орельен Жерон − Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга предполагает, что вы почти ничего не знаете о машинном обучении. Её цель − дать вам концепции, знания и инструменты для реализации программ, способных учиться на данных. Здесь рассматривается большое количество методов. Например, линейная регрессия или олимпиадные способы решения задач.

Вместо того, чтобы реализовывать собственные игрушечные версии каждого алгоритма, авторы используют существующие готовые к работе платформы Python вроде Scikit-Learn и TensorFlow.

Ричард Саттон, Эндрю Барто − Обучение с подкреплением, 2017 г.

Deep Learning: 15 лучших книг по глубинному обучению

Ричард Саттон и Эндрю Барто дают ясное и простое описание ключевых идей и алгоритмов обучения с подкреплением. Оно основано на том, что агент пытается максимизировать получаемый выигрыш, действуя в сложной среде с высоким уровнем неопределенности. Предназначена для специалистов в области искусственного интеллекта, нейросетевого моделирования и управления, а также студентов и аспирантов.

Ясер Абу-Мостафа, Малик Магдон-Исмаил, Сюань-Тянь Линь − Learning From Data, 2012 г.

Deep Learning: 15 лучших книг по глубинному обучению

Следующий материал в подборке книг по глубинному обучению распространяется вместе со специально подготовленными онлайн-материалами. Здесь вы найдете введение в машинное обучение, что позволяет вычислительным системам улучшать свою производительность с помощью накопленного опыта. Это короткий курс, поэтому ждите качественно структурированной информации Здесь основные темы, которые должен знать каждый. Важно, что читателям также доступны электронные, регулярно обновляемые главы книги.

Адриан Роузброк − Deep Learning for Computer Vision with Python, 2017 г.

Deep Learning: 15 лучших книг по глубинному обучению
Эта книга не только для начинающих. Специалисты разного уровня с помощью этой книги смогут создавать обычное программное обеспечение, обрабатывать естественные языки, рисовать графики, производить сложные математические вычисления, составлять фото-роботы, а также создавать программы компьютерного зрения с помощью глубокого обучения.

Это руководство познакомит вас с основами компьютерного зрения, библиотеками и лучшими практиками.

Эндрю Траск − Grokking Deep Learning

Deep Learning: 15 лучших книг по глубинному обучению
Книга научит вас строить нейронные сети глубокого обучения с нуля. Эндрю Траск расскажет об устройстве технологии изнутри. Особенно полезна тем, кто уже знаком с математикой и программированием на среднем уровне. В процессе изучения вы узнаете о том, как учатся нейронные сети, построите сети, которые смогут распознавать и анализировать изображения, играть в видеоигры, переводить текст между языками и даже писать, как Шекспир.

Андрей Бурков − The Hundred-Page Machine Learning Book, 2019 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга является введением в машинное обучение от специалиста мирового уровня и суперзвезды LinkedIn Андрея Буркова. Она позволит начать работу с ML в течение нескольких дней. Достаточно первых пяти глав, а остальные понравятся практикующим инженерам, желающим использовать ML в своей повседневной работе, не тратя огромное количество времени на прохождение длинных курсов.

Максим Лапань − Deep Reinforcement Learning Hands-On, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Это ещё одна из популярных книг по глубинному обучению. Использование алгоритмов Google в играх, победы роботов над человеком заставили технических специалистов по всему миру начать следить за технологиями машинного обучения ещё пристальнее.

Книга является исчерпывающим руководство по самым последним инструментам deep learning. Вы будете оценивать методы, включая перекрестную энтропию, учиться применять их в реальных условиях.

А ещё вы познаете основы обучения с подкреплением, сделаете робота для торговли акциями и научитесь применять естественный язык для развития чат-ботов.

Сергей Николенко, А. Кадурин, Екатерина Архангельская − Глубокое обучение. Погружение в мир нейронных сетей, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению
Одна из немногих книг по глубинному обучению на русском. Внутри много математики, теории, основ и рассуждений, охватывающих большую часть того, что касается машинного обучения. По сути, это всеобъемлющее руководство для новичков, которые желают разобраться в вопросах работы с нейронными сетями.

Джуда Перл − The Book of Why, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Книга от всемирно известного ученого-компьютерщика Джуды Перл. Совместно с коллегами, он развеял стереотипы о причинно-следственной связи и объяснил, как мышление позволяет исследовать существующий и возможные миры, разобрал сущность человеческого и искусственного интеллекта. Как говорят авторы, книга нужна для того, чтобы показать ширину мышления.

Сандро Сканси − Introduction to Deep Learning, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Краткое, лёгкое и доступное введение в машинное обучение. Преимущество этой книги перед другими в простых примерах для новичков. В ней вы найдёте популярные алгоритмы и архитектурные решения, интуитивно понятные любому начинающему разработчику. Книга охватывает важные темы: от обучения нейронных сетей, обработки языка, нейронных сетей с обратной связью, до математических предпосылок и истории искусственного интеллекта. Все примеры на языке программирования Python.

Эндрю Ын − Machine Learning Yearning, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга посвящена не алгоритмам машинного обучения, а тому, как заставить работать эти алгоритмы.

Чему она научит? Например, расстановке приоритетов, диагностике ошибок в системе машинного обучения
, обучению систем в тестовом режиме. А ещё настройке проектов и сравнению их результатов с подобными, которые выполнены вручную человеком. Читатели узнают, когда и как применять сквозное, трансферное и многозадачное обучение.

Кристоф Молнар − Interpretable Machine Learning, 2019 г.

Deep Learning: 15 лучших книг по глубинному обучению

Книга о том, как сделать модели машинного обучения и их решения понятными.

Вы узнаете о простых, интерпретируемых моделях. Например, о деревьях решений, правилах принятия решений и линейной регрессии. Все методы интерпретации подробно объясняются: сильные и слабые стороны, техническое устройство, варианты интерпретации результатов.

Кому подходит эта книга? В первую очередь, она ориентирована на практиков машинного обучения − учёных статистиков. Но будет полезна всем, кто заинтересован в том, чтобы сделать модели машинного обучения понятными.

Майкл Нильсен − Neural Networks and Deep Learning, 2015 г.

Нейронные сети − одна из самых крутых парадигм программирования. В традиционном подходе к программированию мы разбиваем большие задачи на множество мелких и понятных. Это помогает компьютеру быстрее их выполнять. Нейронные сети учатся сами решать поступающие проблемы. По этой причине, сегодня всё больше крупных технологических компаний начинают применять технологии машинного обучения

Цель книги − помочь вам освоить основные понятия нейронных сетей, включая современные методы глубокого обучения. В процессе изучения книги, вы будете писать код, использующий нейронные сети и глубокое обучение для решения сложных задач. Таким образом, авторы рассчитывают сформировать у читателей фундаментальные навыки работы с технологией.

Статистика и котики. Владимир Савельев

Из этой книги вы узнаете, что такое дисперсия и стандартное отклонение, как найти t-критерий Стьюдента и U-критерий Манна-Уитни, для чего используются регрессионный и факторный анализы, а также многое и многое другое. И все это – на простых и понятных примерах из жизни милых и пушистых котиков, которые дарят нам множество приятных эмоций.

Наука о данных. Брендан Тирни

Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.

Книги

Нестареющая классика

Первая книга чуть проще в освоении, вторая уже для любителей окунуться в тему с головой. Обе очень требовательны к знаниям по математике и представляют собой классические университетские учебники.

Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition;
Pattern Recognition and Machine Learning.

Пара современных и интересных талмудов от MIT Press

Да-да, издательства того самого Массачусетского Технологического. Первая книга тоже даст понять, что математика в университете зачем-то всё же была нужна, но в ней также есть напоминание основ теории вероятностей. Вторая книга — одна из самых современных по глубокому обучению, той части машинного обучения, которая касается глубоких нейросетей. Но область так быстро развивается, что в ней уже нет ни одного последнего достижения Deep Learning.

Machine Learning: a Probabilistic Perspective;
Deep Learning (также известная как Deep Learning Book).

Простые и легко читаемые книги с примерами

Эти книги не сделают вас специалистом в машинном обучении, но «человеческим языком» познакомят с основами и покажут примеры использования. Очень подходят для первого знакомства с темой, особенно когда у вас есть бэкграунд программиста.

Machine Learning in Action;
Building Machine Learning Systems with Python.

Нестареющая классика посложнее

Эти книги сложно назвать «мастхэвом» в списке для чтения: большинство специалистов знакомится с их содержанием на практике. Однако эти книги могут сэкономить вам время на изобретение каких-то велосипедов и познакомить с классическими методами распознавания речи, обработки текстов и информационного поиска. Нужно ли это в эпоху господства нейросетей — решать вам.

Speech and Language Processing;
Foundations of Statistical Natural Language Processing;
Introduction to Information Retrieval (у нее есть перевод: «Введение в информационный поиск», 2011).

Пара недооценённых, но неплохих книг

Первая книга написана в 1976 году. И только подумайте: её содержание в значительной степени пересекается с лекциями К. В. Воронцова. Многое было известно уже тогда. Кроме того, эта книга была одной из первых переведённых на русский язык книг по машинному обучению, многие понятия на русском языке были введены именно здесь. Тем, кто уже увлекся машинным обучением, будет определённо интересно с ней познакомиться. Но начинать с неё, конечно, не стоит.

Вторая книга — это рассказ о нейросетях непосредственно перед «бумом» глубокого обучения. Тоже очень отрезвляющая вещь — позволяет понять, что многое, что сейчас кажется современным и придуманным только что, имеет более долгую историю.

«Распознавание образов и анализ сцен»;
«Нейронные сети: полный курс», 2-е издание.

Python и анализ данных. Уэс Маккинни

Книгу можно рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Описаны те части языка Python и библиотеки для него, которые необходимы для эффективного решения широкого круга аналитических задач: интерактивная оболочка IPython, библиотеки NumPy и pandas, библиотека для визуализации данных matplotlib и др.
Издание идеально подойдет как аналитикам, только начинающим осваивать обработку данных, так и опытным программистам на Python, еще не знакомым с научными приложениями.

Говори на языке диаграмм. Пособие по визуальным коммуникациям. Джин Желязны

Как наилучшим образом представить ваши идеи с помощью диаграмм? Как привлечь и удержать внимание аудитории?
На страницах этой книги вы найдете все необходимое для этого: практические рекомендации по выбору типа диаграммы (круговая, линейчатая, точечная и т. д.), правила подготовки и использования каждого из них, а также мастер-класс по исправлению неудачных диаграмм.
На протяжении многих лет книга «Говори на языке диаграмм» является настольным пособием для руководителей, консультантов, аналитиков – всех тех, кто хочет научиться четко и лаконично выражать свои мысли и доносить идеи с помощью диаграмм.

«Машинное обучение доступным языком» Елены Капаца

Краткое руководство для новичков в машинном и глубоком обучении. Здесь вы найдете основные концепции и инструменты, примеры кода, подробно разъяснённые.

Главы — это последовательный рассказ о том, как подготовить данные клиентов банка и загрузить их в модель и понять, кого стоит «дожимать» средствами маркетинга, а кого нет.

Практиковаться во время чтения — это прекрасный способ учиться, так что я взяла реальный проект и перенесла его в книгу, перевела с «программистского» на русский. Выбрала банковскую сферу, потому что она всегда была богатой и проектов достаточно, чтобы разжевать самый тонкий нюанс в данных и в коде.

Поясняющих комментариев воистину много, вы сможете наглядно сравнить, как глубокое обучение «обгоняет» классическое машинное по эффективности. Например, в первой части я показываю работу Дерева решений. После предварительного преобразования датасета мы обучаем модель всего за пару строк и получаем исчерпывающий ответ: какого клиента прозванивать, а какого лучше не трогать:

  			  tr = tree.DecisionTreeClassifier(max_depth=3, random_state=25)
tr.fit(X_train, y_train)

На верхних уровнях видны названия параметров (доходность, длительность звонка и проч.). В целом становится понятно, как выглядит процесс отбора целей рекламной кампании

Курсы

Преподавание машинного обучения в России как правило связывают с курсом К. В. Воронцова, т. к. курс существует очень давно и на нём было воспитано не одно поколение специалистов по машинному обучению. Материалы оригинального курса можно найти по ссылке
. Высшая Школа Экономики выпустила также краткую онлайн-версию этого курса на Курсере.

Если вы не обладаете хорошей математической базой или успели её забыть, изложение в предыдущем курсе будет даваться непросто. В этом случае вам, возможно, больше подойдёт специализация « Машинное обучение и анализ данных
» от МФТИ. Её особенность в том, что в первом курсе слушателю напоминают основные моменты из линейной алгебры, математического анализа и теории вероятностей и немного знакомят с библиотеками для анализа данных на Python. Предполагается, что техническое образование у вас уже когда-то было или получается вами сейчас.

Лекции на Coursera, как обычно, можно послушать бесплатно, но полный набор заданий доступен только при подписке. Если вы хотите полностью бесплатный курс, в офлайне есть курс Data Mining in Action, а в онлайне есть курс машинного обучения от сообщества Open Data Science
.

Как лгать при помощи статистики. Дарелл Хафф

Игра в цифры. Как аналитика позволяет видеоиграм жить лучше. Василий Сабиров

В чем формула успешной игры? У вас есть идея, команда разработчиков, готовых вкладывать в проект все свои силы, талантливые дизайнеры, но проект не приносит прибыли, а пользователи не спешат в него возвращаться? А вы точно не забыли про аналитику? Василий Сабиров, сооснователь аналитической платформы devtodev, знает, как сделать так, чтобы ваша игра чувствовала себя лучше. Вы познакомитесь с основными инструментами, метриками и показателями, которые необходимо учитывать, чтобы запустить успешный и долгоиграющий проект. Узнаете, почему неграмотное оформление отчета может повредить игре и как не допускать типичных ошибок. Автор на конкретных примерах покажет, как с помощью правильной «настройки» игровой аналитики игры становятся успешнее, сбалансированнее и прибыльнее. Аналитика – это не только поиск узких мест, но и точек роста.

Теоретический минимум по Big Data. Всё что нужно знать о больших данных. Су Кеннет

Cегодня Big Data – это большой бизнес.
Нашей жизнью управляет информация, и извлечение выгоды из нее становится центральным моментом в работе современных организаций. Неважно, кто вы – деловой человек, работающий с аналитикой, начинающий программист или разработчик, «Теоретический минимум по Big Data» позволит не утонуть в бушующем океане современных технологий и разобраться в основах новой и стремительно развивающейся отрасли обработки больших данных.

SQL. Сборник рецептов. Энтони Молинаро

Рассмотрены готовые рецепты для решения практических задач при работе с СУБД Oracle, DB2, SQL Server, MySQL и PostgreSQL. Описаны извлечение записей из таблиц, сортировка результатов запросов, принципы работы с несколькими таблицами, обработка запросов с метаданными. Рассказывается о способах поиска данных средствами SQL, о составлении отчетов и форматировании результирующих множеств, работе с иерархическими запросами. Рассматривается использование оконных функций, обобщенных табличных выражений (ОТВ), сбор данных в блоки, формирование гистограмм, текущих сумм и подсумм, агрегация скользящего диапазона значений. Описан обход строки и ее синтаксический разбор на символы, приведены способы упрощения вычислений внутри строки. Во втором издании учтены все изменения в синтаксисе и архитектуре актуальных реализаций SQL.

Как вытащить из данных максимум. Навыки аналитики для неспециалистов. Джордан Морроу

Дата-грамотность, то есть способность ориентироваться в мире данных, – ключевой навык сегодняшнего дня. Ежедневно в соцсетях публикуются миллиарды сообщений, электронные почтовые ящики по всей планете гудят от писем, а каждый подключенный к интернету автомобиль производит терабайты данных, не говоря уже об онлайн-магазинах, платежных системах и государственных цифровых сервисах. Однако работать с данными, анализировать их и использовать их для бизнеса по-прежнему умеет меньшинство, а специалистов катастрофически не хватает.
Для тех, кто хочет научиться говорить на языке данных уверенно, признанный эксперт в области дата-грамотности Джордан Морроу и написал свою книгу. Это практическое руководство позволит даже неспециалисту освоить четыре базовых уровня аналитики и узнать, как принимать эффективные решения на основе данных, чтобы извлекать максимум из информации и быть успешным в быстро меняющемся цифровом мире.

Роман с Data Science. Как монетизировать большие данные. Роман Зыков

Как выжать все из своих данных? Как принимать решения на основе данных? Как организовать анализ данных (data science) внутри компании? Кого нанять аналитиком? Как довести проекты машинного обучения (machine learning) и искусственного интеллекта до топового уровня? На эти и многие другие вопросы Роман Зыков знает ответ, потому что занимается анализом данных почти двадцать лет. В послужном списке Романа – создание с нуля собственной компании с офисами в Европе и Южной Америке, ставшей лидером по применению искусственного интеллекта (AI) на российском рынке. Кроме того, автор книги создал с нуля аналитику в Ozon.ru.

Также в своем телеграм канале привожу список бесплатных курсов по аналитике данных
от лучших университетов и компаний мира.

Книги о машинном обучении для новичков 1

Книги о машинном обучении для новичков 6

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА

The Elements of Statistical Learning: Data Mining, Inference, and Prediction

Inductive Logic Programming: Theory and Methods

Reinforcement Learning: An Introduction

Information Theory, Inference, and Learning Algorithms

Gaussian Processes for Machine Learning

Bayesian Reasoning and Machine Learning

A Course in Machine Learning

Machine Learning, Neural and Statistical Classification

Introduction To Machine Learning

Введение в информационный поиск

«Mining of Massive Datasets». Jure Leskovec, Anand Rajaraman, Jeff Ullman

«An Introduction to Statistical Learning (with applications in R)».Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani

«Deep Learning».Ian Goodfellow and Yoshua Bengio and Aaron Courville

«Bayesian methods for hackers».Cam Davidson-Pilon

«Understanding Machine Learning: From Theory to Algorithms». Shai Shalev-Shwartz and Shai Ben-David

«Deep Learning Tutorial». LISA lab, University of Montreal

Scikit-Learn Tutorial: Statistical-Learning for Scientific Data ProcessingAndreas Mueller

Machine Learning (An Algorithmic Perspective) Stephen Marsland

Building Machine Learning Systems with PythonWilli Richert and Luis Pedro Coelho

Другие статьи по теме

Introduction to Information Retrieval

Foundations of Statistical Natural Language Processing

Speech and Language Processing

Автоматическая обработка текстов на естественном языке и анализ данных.

Natural Language Processing. Workbook for NLP Course

Это руководство познакомит вас с основами компьютерного зрения, библиотеками и лучшими практиками.

А ещё вы познаете основы обучения с подкреплением, сделаете робота для торговли акциями и научитесь применять естественный язык для развития чат-ботов.

Эта книга посвящена не алгоритмам машинного обучения, а тому, как заставить работать эти алгоритмы.

Статистика и котики. Владимир Савельев

Наука о данных. Брендан Тирни

Книги

Нестареющая классика

Пара современных и интересных талмудов от MIT Press

Простые и легко читаемые книги с примерами

Нестареющая классика посложнее

Пара недооценённых, но неплохих книг

Python и анализ данных. Уэс Маккинни

Говори на языке диаграмм. Пособие по визуальным коммуникациям. Джин Желязны

«Машинное обучение доступным языком» Елены Капаца

Курсы

Как лгать при помощи статистики. Дарелл Хафф

Игра в цифры. Как аналитика позволяет видеоиграм жить лучше. Василий Сабиров

Теоретический минимум по Big Data. Всё что нужно знать о больших данных. Су Кеннет

SQL. Сборник рецептов. Энтони Молинаро

Как вытащить из данных максимум. Навыки аналитики для неспециалистов. Джордан Морроу

Роман с Data Science. Как монетизировать большие данные. Роман Зыков

«Python. Большая книга примеров» Антона Марченко

Data Science. Наука о данных с нуля. Джоэл Грасс

«Машинное обучение без лишних слов» Андрея Буркова

Python и машинное обучение. Себастьян Рашка

«Python и Машинное обучение» Себастьяна Рашка

Заключение

«An Introduction to Statistical Learning (with applications in R)».
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani

«Deep Learning».
Ian Goodfellow and Yoshua Bengio and Aaron Courville

«Bayesian methods for hackers».
Cam Davidson-Pilon

Scikit-Learn Tutorial: Statistical-Learning for Scientific Data Processing
Andreas Mueller

Building Machine Learning Systems with Python
Willi Richert and Luis Pedro Coelho