МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА Edu.Vsu.Ru

Машинное обучение — популярное направление, по которому написано множество книг и курсов. Какие из них полезны и заслуживают внимания? Делимся в статье.

Машинное обучение — это часть Data Science, посвящённая решению задач прогнозирования или поиска структуры в данных. Зачастую, когда говорят про Data Science или про Artificial Intelligence, имеют ввиду именно Machine Learning.

В этой подборке мы приводим книги и курсы, которые позволят погрузиться в мир машинного обучения.

Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.

Учебная воронка на курсах по машинному обучению жестока: несмотря на лояльность онлайн-университетов, больше половины студентов уходят (так было у меня), потому что не выдерживают нагрузку или теряют интерес. Частично справиться с этим: повторить материал, узнать что-то за рамками программы — помогают книги. Здесь я собрала небольшой список тех, которые погрузят в тему и разрушат популярные мифы.

Машинное обучение — обширная тема, ставшая в последнее время весьма важной. Для тех, кто хочет с ней познакомиться, эта подборка станет приятным подспорьем.


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

The Elements of Statistical Learning: Data Mining, Inference, and Prediction

Содержание
  1. The Elements of Statistical Learning: Data Mining, Inference, and Prediction
  2. Inductive Logic Programming: Theory and Methods
  3. Reinforcement Learning: An Introduction
  4. Information Theory, Inference, and Learning Algorithms
  5. Gaussian Processes for Machine Learning
  6. Bayesian Reasoning and Machine Learning
  7. A Course in Machine Learning
  8. Machine Learning, Neural and Statistical Classification
  9. Introduction To Machine Learning
  10. Введение в информационный поиск
  11. «Mining of Massive Datasets». Jure Leskovec, Anand Rajaraman, Jeff Ullman
  12. «An Introduction to Statistical Learning (with applications in R)». Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
  13. «Deep Learning». Ian Goodfellow and Yoshua Bengio and Aaron Courville
  14. «Bayesian methods for hackers». Cam Davidson-Pilon
  15. «Understanding Machine Learning: From Theory to Algorithms». Shai Shalev-Shwartz and Shai Ben-David
  16. «Deep Learning Tutorial». LISA lab, University of Montreal
  17. Scikit-Learn Tutorial: Statistical-Learning for Scientific Data Processing Andreas Mueller
  18. Machine Learning (An Algorithmic Perspective) Stephen Marsland
  19. Building Machine Learning Systems with Python Willi Richert and Luis Pedro Coelho
  20. Другие статьи по теме
  21. Introduction to Information Retrieval
  22. Foundations of Statistical Natural Language Processing
  23. Speech and Language Processing
  24. Автоматическая обработка текстов на естественном языке и анализ данных.
  25. Natural Language Processing. Workbook for NLP Course
  26. Статистика и котики. Владимир Савельев
  27. Наука о данных. Брендан Тирни
  28. Книги
  29. Нестареющая классика
  30. Пара современных и интересных талмудов от MIT Press
  31. Простые и легко читаемые книги с примерами
  32. Нестареющая классика посложнее
  33. Пара недооценённых, но неплохих книг
  34. Python и анализ данных. Уэс Маккинни
  35. Говори на языке диаграмм. Пособие по визуальным коммуникациям. Джин Желязны
  36. «Машинное обучение доступным языком» Елены Капаца
  37. Курсы
  38. Как лгать при помощи статистики. Дарелл Хафф
  39. Игра в цифры. Как аналитика позволяет видеоиграм жить лучше. Василий Сабиров
  40. Теоретический минимум по Big Data. Всё что нужно знать о больших данных. Су Кеннет
  41. SQL. Сборник рецептов. Энтони Молинаро
  42. Как вытащить из данных максимум. Навыки аналитики для неспециалистов. Джордан Морроу
  43. Роман с Data Science. Как монетизировать большие данные. Роман Зыков
  44. «Python. Большая книга примеров» Антона Марченко
  45. Data Science. Наука о данных с нуля. Джоэл Грасс
  46. «Машинное обучение без лишних слов» Андрея Буркова
  47. Python и машинное обучение. Себастьян Рашка
  48. «Python и Машинное обучение» Себастьяна Рашка
  49. Заключение

The Elements of Statistical Learning: Data Mining, Inference, and Prediction


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Inductive Logic Programming: Theory and Methods

Inductive Logic Programming: Theory and Methods


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Reinforcement Learning: An Introduction

Reinforcement Learning: An Introduction


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Information Theory, Inference, and Learning Algorithms

Information Theory, Inference, and Learning Algorithms


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Gaussian Processes for Machine Learning

Gaussian Processes for Machine Learning


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Bayesian Reasoning and Machine Learning

Bayesian Reasoning and Machine Learning


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

A Course in Machine Learning

A Course in Machine Learning


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Machine Learning, Neural and Statistical Classification

Machine Learning, Neural and Statistical Classification


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Introduction To Machine Learning

Introduction To Machine Learning


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Введение в информационный поиск

Введение в информационный поиск


На данный момент этот блок не поддерживается, но мы не забыли о нём!
Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Будем рады, если вы расскажете нам в комментариях о других хороших книгах о машинном обучении, которые мы могли бы добавить в эту подборку.

В этой статье перечислены лучшие из книг по машинному обучению, которые стоят вашего внимания. Они находятся в свободном доступе.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА

Если Вы давно искали хорошие книги по машинному обучению, то эта подборка именно для Вас.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
«Mining of Massive Datasets». Jure Leskovec, Anand Rajaraman, Jeff Ullman

Основанная на курсе CS246 и CS35A в Стэнфордском университете, эта книга предназначена для студентов, изучающих информатику, и не требует предварительной подготовки. Эта книга была опубликована издательством Cambridge University Press.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
«An Introduction to Statistical Learning (with applications in R)».

Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani

Эта книга содержит пролог к статистическим методам обучения наряду с несколькими лабораториями R.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
«Deep Learning».

Ian Goodfellow and Yoshua Bengio and Aaron Courville

Это учебное пособие по глубокому обучению предназначено для тех, кто находится на ранних этапах машинного обучения и глубинного обучения в частности. Онлайн-версия книги доступна уже сейчас бесплатно.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
«Bayesian methods for hackers».

Cam Davidson-Pilon

Эта книга знакомит вас с байесовскими методами и вероятностным программированием с вычислительной точки зрения. Книга в основном является находкой для тех, кто свободно владеет математикой.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
«Understanding Machine Learning: From Theory to Algorithms». Shai Shalev-Shwartz and Shai Ben-David

Для тех, кто разбирается в математике, это одна из самых рекомендуемых книг для понимания магии, которая стоит за машинным обучением.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
«Deep Learning Tutorial». LISA lab, University of Montreal

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
Scikit-Learn Tutorial: Statistical-Learning for Scientific Data Processing

Andreas Mueller

Объясняя статистическое обучение, этот учебник объясняет использование методов машинного обучения с целью статистического вывода. Учебник доступен в Интернете бесплатно.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
Machine Learning (An Algorithmic Perspective) Stephen Marsland

Эта книга может многое предложить студентам инженерных и информатики, изучающим машинное обучение и искусственный интеллект. Пособие опубликовано и написано Стивеном Марслэндом, к сожалению не бесплатно. Весь код Python доступен в Интернете. Они являются отличным справочным источником для изучения Python.

МАШИННОЕ ОБУЧЕНИЕ КОНСТРУИРОВАНИЕ ПРИЗНАКОВ КНИГА
Building Machine Learning Systems with Python

Willi Richert and Luis Pedro Coelho

Эта книга также недоступна бесплатно, но ради справедливости она в нашем списке. Это совершенное практическое руководство, чтобы максимально использовать возможности машинного обучения с помощью Python.

Другие статьи по теме

Хотите знать, как работает Deep Learning? Вот быстрый гайд

Время на прочтение

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их. 

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.

Introduction to Information Retrieval

В России книга вышла под названием «Введение в информационный поиск». Как принято писать в таких случаях, «книга сразу стала библиографической редкостью». По крайней мере я ее одалживал у знакомого яндексоида. При этом в книге больше информации про информационный поиск (information retrieval) и меньше про NLP, но в наше время эти две области уже (или все еще) очень близки.

Кстати, я с удивлением узнал, что недавно (в 2020) вышло уже третье переиздание на русском языке. Правда, его тоже уже не достать, хотя PDF версия ищется без проблем. Не уверен, что PDF выложен на законных основаниях, поэтому предлагаю поискать книгу самостоятельно.

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Foundations of Statistical Natural Language Processing

Насколько мне известно, эта книга не переводилась на русский язык. Тем не менее у нее есть два больших плюса. Первый заключается в том, в книге изложены максимально подробно все базовые вещи.

А второй — это собственно коллектив авторов. Кстати, нужно было это рассказ вставить в описание предыдущей книги, но так как авторы общие, то и здесь это будет уместно. Кристофер Мэннинг — это легенда нашей области, бессменный лидер группы обработки естественного языка (а именно так переводится NLP) в одном из лучших американских университетов, Стэнфордском. Хинрих Шютце — несколько менее известен, но тем не менее тоже один из столпов области, главный по вычислительной лингвистике в одном из лучших уже европейских университетов, университете Людвига-Максимилиана в Мюнхене.

Минус книги в том, что некоторые вещи в ней устарели, да и читать ее достаточно сложно.

Dan Jurafsky and James H. Martin. Speech and Langauge Processing. 2nd ed.
Dan Jurafsky and James H. Martin. Speech and Langauge Processing. 2nd ed.

Speech and Language Processing

Лично я эту книгу никогда не видел в печатном виде, только в виде PDF-черновиков, в этом виде она пребывает уже много лет. Но это нисколько не делает ее хуже. Она, можно сказать, небольшая (по сравнению с предыдущей), охватывает еще темы обработки речи, которые не напрямую относятся к NLP (хотя это давний спор внутри области). В любом случае, могу ее порекомендовать без колебаний, написана она хорошо, освещает основные темы. Я правда не видел ее в переводе, но может быть я плохо искал. Текущий черновик третьего издания можно найти на странице автора
.

Автоматическая обработка текстов на естественном языке и анализ данных.

Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. Автоматическая обработка текстов на естественном языке и анализ данных. М.: ВШЭ, 2017. К сожалению, у этой книги нет красивой обложки.

Это пожалуй лучшая на сегодняшний день книга на русском языке по нашей области. Книга охватывает основные темы и достаточно понятно написана. Плюс выложена в открытом доступе
на сайте ВШЭ.  Авторы — звездный состав старшего поколения исследователей, отдельно хочу выделить Константина Вячеславовича Воронцова (главного автора системы тематического моделирования BigARTM) и Наталью Валентиновну Лукашевич (главного автора тезауруса РуТез).

Natural Language Processing. Workbook for NLP Course

Наконец книжка, которую не совсем этично рекомендовать в целом, так она моего авторства, но для студентов моего курса она будет полезна. Это сборник всяких заметок и дополнительных материалов по курсу, который я читаю. Книга находится в глубоко черновом варианте и распространяется между студентами моего курса. Она следует логике курса и дополняет его. Если вы хотите получить доступ к текущему варианту книги, то записывайтесь на мой курс. 

Кстати, он стартует уже 14 сентября 2023 года. Курс бесплатный и открытый для всех. Подробности можно посмотреть по ссылке

.

Вот такой список получился у меня, само собой неполный и субъективный. Рекомендуйте книги по своему выбору в комментариях, мне тоже будет полезно расширить кругозор.

Интересуетесь нейросетями и машинным обучением? Собрали подборку из 15 книг по глубинному обучению, которые помогут освоить эти технологии.

Ловите свежую подборку книг Deep Learning, которая поможет свернуть горы!

Гудфеллоу Я., Бенджио И., Курвилль А. − Глубокое обучение, 2017 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга считается «Библией», одной из лучших книг по глубинному обучению. Несмотря на то, что она написана техническим языком, её сможет осилить и технологический новичок.

Внутри рассказывается о математических и концептуальных основах, линейной алгебре, теории вероятностей и теории информации, численных вычислениях и машинном обучении. Она описывает методы глубокого обучения, используемые практиками в отрасли. Сюда входят сети с прямой связью, регуляризация, алгоритмы оптимизации, сверточные сети, моделирование последовательностей и практическая методология. Кроме того, вы узнаете об обработке естественного языка, распознавании речи, компьютерном зрении, системе онлайн-рекомендаций, биоинформатике и видеоиграх.

Франсуа Шолле − Глубокое обучение на Python, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Это учебник по моделям глубокого обучения с использованием языка Python и мощной библиотеки Keras. Написанная создателем Keras и исследователем Google AI Франсуа Шолле, эта книга укрепит понимание технологии через объяснения и практические примеры. Вы исследуете сложные концепции и попрактикуетесь с приложениями в области компьютерного зрения, обработки естественного языка и генеративных моделей. К тому времени, как вы закончите, у вас будут знания и практические навыки для применения глубокого обучения в ваших собственных проектах.

Орельен Жерон − Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга предполагает, что вы почти ничего не знаете о машинном обучении. Её цель − дать вам концепции, знания и инструменты для реализации программ, способных учиться на данных. Здесь рассматривается большое количество методов. Например, линейная регрессия или олимпиадные способы решения задач.

Вместо того, чтобы реализовывать собственные игрушечные версии каждого алгоритма, авторы используют существующие готовые к работе платформы Python вроде Scikit-Learn и TensorFlow.

Ричард Саттон, Эндрю Барто − Обучение с подкреплением, 2017 г.

Deep Learning: 15 лучших книг по глубинному обучению

Ричард Саттон и Эндрю Барто дают ясное и простое описание ключевых идей и алгоритмов обучения с подкреплением. Оно основано на том, что агент пытается максимизировать получаемый выигрыш, действуя в сложной среде с высоким уровнем неопределенности. Предназначена для специалистов в области искусственного интеллекта, нейросетевого моделирования и управления, а также студентов и аспирантов.

Ясер Абу-Мостафа, Малик Магдон-Исмаил, Сюань-Тянь Линь − Learning From Data, 2012 г.

Deep Learning: 15 лучших книг по глубинному обучению

Следующий материал в подборке книг по глубинному обучению распространяется вместе со специально подготовленными онлайн-материалами. Здесь вы найдете введение в машинное обучение, что позволяет вычислительным системам улучшать свою производительность с помощью накопленного опыта. Это короткий курс, поэтому ждите качественно структурированной информации Здесь основные темы, которые должен знать каждый. Важно, что читателям также доступны электронные, регулярно обновляемые главы книги.

Адриан Роузброк − Deep Learning for Computer Vision with Python, 2017 г.

Deep Learning: 15 лучших книг по глубинному обучению
Эта книга не только для начинающих. Специалисты разного уровня с помощью этой книги смогут создавать обычное программное обеспечение, обрабатывать естественные языки, рисовать графики, производить сложные математические вычисления, составлять фото-роботы, а также создавать программы компьютерного зрения с помощью глубокого обучения.

Это руководство познакомит вас с основами компьютерного зрения, библиотеками и лучшими практиками.

Эндрю Траск − Grokking Deep Learning

Deep Learning: 15 лучших книг по глубинному обучению
Книга научит вас строить нейронные сети глубокого обучения с нуля. Эндрю Траск расскажет об устройстве технологии изнутри. Особенно полезна тем, кто уже знаком с математикой и программированием на среднем уровне. В процессе изучения вы узнаете о том, как учатся нейронные сети, построите сети, которые смогут распознавать и анализировать изображения, играть в видеоигры, переводить текст между языками и даже писать, как Шекспир.

Андрей Бурков − The Hundred-Page Machine Learning Book, 2019 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга является введением в машинное обучение от специалиста мирового уровня и суперзвезды LinkedIn Андрея Буркова. Она позволит начать работу с ML в течение нескольких дней. Достаточно первых пяти глав, а остальные понравятся практикующим инженерам, желающим использовать ML в своей повседневной работе, не тратя огромное количество времени на прохождение длинных курсов.

Максим Лапань − Deep Reinforcement Learning Hands-On, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Это ещё одна из популярных книг по глубинному обучению. Использование алгоритмов Google в играх, победы роботов над человеком заставили технических специалистов по всему миру начать следить за технологиями машинного обучения ещё пристальнее.

Книга является исчерпывающим руководство по самым последним инструментам deep learning. Вы будете оценивать методы, включая перекрестную энтропию, учиться применять их в реальных условиях.

А ещё вы познаете основы обучения с подкреплением, сделаете робота для торговли акциями и научитесь применять естественный язык для развития чат-ботов.

Сергей Николенко, А. Кадурин, Екатерина Архангельская − Глубокое обучение. Погружение в мир нейронных сетей, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению
Одна из немногих книг по глубинному обучению на русском. Внутри много математики, теории, основ и рассуждений, охватывающих большую часть того, что касается машинного обучения. По сути, это всеобъемлющее руководство для новичков, которые желают разобраться в вопросах работы с нейронными сетями.

Джуда Перл − The Book of Why, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Книга от всемирно известного ученого-компьютерщика Джуды Перл. Совместно с коллегами, он развеял стереотипы о причинно-следственной связи и объяснил, как мышление позволяет исследовать существующий и возможные миры, разобрал сущность человеческого и искусственного интеллекта. Как говорят авторы, книга нужна для того, чтобы показать ширину мышления.

Сандро Сканси − ​​Introduction to Deep Learning, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Краткое, лёгкое и доступное введение в машинное обучение. Преимущество этой книги перед другими в простых примерах для новичков. В ней вы найдёте популярные алгоритмы и архитектурные решения, интуитивно понятные любому начинающему разработчику. Книга охватывает важные темы: от обучения нейронных сетей, обработки языка, нейронных сетей с обратной связью, до математических предпосылок и истории искусственного интеллекта. Все примеры на языке программирования Python.

Эндрю Ын − Machine Learning Yearning, 2018 г.

Deep Learning: 15 лучших книг по глубинному обучению

Эта книга посвящена не алгоритмам машинного обучения, а тому, как заставить работать эти алгоритмы.

Чему она научит? Например, расстановке приоритетов, диагностике ошибок в системе машинного обучения
, обучению систем в тестовом режиме. А ещё настройке проектов и сравнению их результатов с подобными, которые выполнены вручную человеком. Читатели узнают, когда и как применять сквозное, трансферное и многозадачное обучение.

Кристоф Молнар − Interpretable Machine Learning, 2019 г.

Deep Learning: 15 лучших книг по глубинному обучению

Книга о том, как сделать модели машинного обучения и их решения понятными.

Вы узнаете о простых, интерпретируемых моделях. Например, о деревьях решений, правилах принятия решений и линейной регрессии. Все методы интерпретации подробно объясняются: сильные и слабые стороны, техническое устройство, варианты интерпретации результатов.

Кому подходит эта книга? В первую очередь, она ориентирована на практиков машинного обучения − учёных статистиков. Но будет полезна всем, кто заинтересован в том, чтобы сделать модели машинного обучения понятными.

Майкл Нильсен − Neural Networks and Deep Learning, 2015 г.

Нейронные сети − одна из самых крутых парадигм программирования. В традиционном подходе к программированию мы разбиваем большие задачи на множество мелких и понятных. Это помогает компьютеру быстрее их выполнять. Нейронные сети учатся сами решать поступающие проблемы. По этой причине, сегодня всё больше крупных технологических компаний начинают применять технологии машинного обучения

Цель книги − помочь вам освоить основные понятия нейронных сетей, включая современные методы глубокого обучения. В процессе изучения книги, вы будете писать код, использующий нейронные сети и глубокое обучение для решения сложных задач. Таким образом, авторы рассчитывают сформировать у читателей фундаментальные навыки работы с технологией.

Статистика и котики. Владимир Савельев

Из этой книги вы узнаете, что такое дисперсия и стандартное отклонение, как найти t-критерий Стьюдента и U-критерий Манна-Уитни, для чего используются регрессионный и факторный анализы, а также многое и многое другое. И все это – на простых и понятных примерах из жизни милых и пушистых котиков, которые дарят нам множество приятных эмоций.

Наука о данных. Брендан Тирни

Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.

Книги

Нестареющая классика

Первая книга чуть проще в освоении, вторая уже для любителей окунуться в тему с головой. Обе очень требовательны к знаниям по математике и представляют собой классические университетские учебники.

  • Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition;
  • Pattern Recognition and Machine Learning.

Пара современных и интересных талмудов от MIT Press

Да-да, издательства того самого Массачусетского Технологического. Первая книга тоже даст понять, что математика в университете зачем-то всё же была нужна, но в ней также есть напоминание основ теории вероятностей. Вторая книга — одна из самых современных по глубокому обучению, той части машинного обучения, которая касается глубоких нейросетей. Но область так быстро развивается, что в ней уже нет ни одного последнего достижения Deep Learning.

  • Machine Learning: a Probabilistic Perspective;
  • Deep Learning (также известная как Deep Learning Book).

Простые и легко читаемые книги с примерами

Эти книги не сделают вас специалистом в машинном обучении, но «человеческим языком» познакомят с основами и покажут примеры использования. Очень подходят для первого знакомства с темой, особенно когда у вас есть бэкграунд программиста.

  • Machine Learning in Action;
  • Building Machine Learning Systems with Python.

Нестареющая классика посложнее

Эти книги сложно назвать «мастхэвом» в списке для чтения: большинство специалистов знакомится с их содержанием на практике. Однако эти книги могут сэкономить вам время на изобретение каких-то велосипедов и познакомить с классическими методами распознавания речи, обработки текстов и информационного поиска. Нужно ли это в эпоху господства нейросетей — решать вам.

  • Speech and Language Processing;
  • Foundations of Statistical Natural Language Processing;
  • Introduction to Information Retrieval (у нее есть перевод: «Введение в информационный поиск», 2011).

Пара недооценённых, но неплохих книг

Первая книга написана в 1976 году. И только подумайте: её содержание в значительной степени пересекается с лекциями К. В. Воронцова. Многое было известно уже тогда. Кроме того, эта книга была одной из первых переведённых на русский язык книг по машинному обучению, многие понятия на русском языке были введены именно здесь. Тем, кто уже увлекся машинным обучением, будет определённо интересно с ней познакомиться. Но начинать с неё, конечно, не стоит.

Вторая книга — это рассказ о нейросетях непосредственно перед «бумом» глубокого обучения. Тоже очень отрезвляющая вещь — позволяет понять, что многое, что сейчас кажется современным и придуманным только что, имеет более долгую историю.

  • «Распознавание образов и анализ сцен»;
  • «Нейронные сети: полный курс», 2-е издание.

Python и анализ данных. Уэс Маккинни

Книгу можно рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Описаны те части языка Python и библиотеки для него, которые необходимы для эффективного решения широкого круга аналитических задач: интерактивная оболочка IPython, библиотеки NumPy и pandas, библиотека для визуализации данных matplotlib и др.

Издание идеально подойдет как аналитикам, только начинающим осваивать обработку данных, так и опытным программистам на Python, еще не знакомым с научными приложениями.

Говори на языке диаграмм. Пособие по визуальным коммуникациям. Джин Желязны

Как наилучшим образом представить ваши идеи с помощью диаграмм? Как привлечь и удержать внимание аудитории?

На страницах этой книги вы найдете все необходимое для этого: практические рекомендации по выбору типа диаграммы (круговая, линейчатая, точечная и т. д.), правила подготовки и использования каждого из них, а также мастер-класс по исправлению неудачных диаграмм.

На протяжении многих лет книга «Говори на языке диаграмм» является настольным пособием для руководителей, консультантов, аналитиков – всех тех, кто хочет научиться четко и лаконично выражать свои мысли и доносить идеи с помощью диаграмм.

«Машинное обучение доступным языком» Елены Капаца

Книги о машинном обучении для новичков 9

Краткое руководство для новичков в машинном и глубоком обучении. Здесь вы найдете основные концепции и инструменты, примеры кода, подробно разъяснённые.

Главы — это последовательный рассказ о том, как подготовить данные клиентов банка и загрузить их в модель и понять, кого стоит «дожимать» средствами маркетинга, а кого нет.

Практиковаться во время чтения — это прекрасный способ учиться, так что я взяла реальный проект и перенесла его в книгу, перевела с «программистского» на русский. Выбрала банковскую сферу, потому что она всегда была богатой и проектов достаточно, чтобы разжевать самый тонкий нюанс в данных и в коде.

Поясняющих комментариев воистину много, вы сможете наглядно сравнить, как глубокое обучение «обгоняет» классическое машинное по эффективности. Например, в первой части я показываю работу Дерева решений. После предварительного преобразования датасета мы обучаем модель всего за пару строк и получаем исчерпывающий ответ: какого клиента прозванивать, а какого лучше не трогать:

  			  tr = tree.DecisionTreeClassifier(max_depth=3, random_state=25)
tr.fit(X_train, y_train)  

		  

Книги о машинном обучении для новичков 10

На верхних уровнях видны названия параметров (доходность, длительность звонка и проч.). В целом становится понятно, как выглядит процесс отбора целей рекламной кампании

Курсы

Преподавание машинного обучения в России как правило связывают с курсом К. В. Воронцова, т. к. курс существует очень давно и на нём было воспитано не одно поколение специалистов по машинному обучению. Материалы оригинального курса можно найти по ссылке
. Высшая Школа Экономики выпустила также краткую онлайн-версию этого курса на Курсере.

Если вы не обладаете хорошей математической базой или успели её забыть, изложение в предыдущем курсе будет даваться непросто. В этом случае вам, возможно, больше подойдёт специализация « Машинное обучение и анализ данных
» от МФТИ. Её особенность в том, что в первом курсе слушателю напоминают основные моменты из линейной алгебры, математического анализа и теории вероятностей и немного знакомят с библиотеками для анализа данных на Python. Предполагается, что техническое образование у вас уже когда-то было или получается вами сейчас.

Лекции на Coursera, как обычно, можно послушать бесплатно, но полный набор заданий доступен только при подписке. Если вы хотите полностью бесплатный курс, в офлайне есть курс Data Mining in Action, а в онлайне есть курс машинного обучения от сообщества Open Data Science
.

Как лгать при помощи статистики. Дарелл Хафф

Игра в цифры. Как аналитика позволяет видеоиграм жить лучше. Василий Сабиров

В чем формула успешной игры? У вас есть идея, команда разработчиков, готовых вкладывать в проект все свои силы, талантливые дизайнеры, но проект не приносит прибыли, а пользователи не спешат в него возвращаться? А вы точно не забыли про аналитику? Василий Сабиров, сооснователь аналитической платформы devtodev, знает, как сделать так, чтобы ваша игра чувствовала себя лучше. Вы познакомитесь с основными инструментами, метриками и показателями, которые необходимо учитывать, чтобы запустить успешный и долгоиграющий проект. Узнаете, почему неграмотное оформление отчета может повредить игре и как не допускать типичных ошибок. Автор на конкретных примерах покажет, как с помощью правильной «настройки» игровой аналитики игры становятся успешнее, сбалансированнее и прибыльнее. Аналитика – это не только поиск узких мест, но и точек роста.

Теоретический минимум по Big Data. Всё что нужно знать о больших данных. Су Кеннет

Cегодня Big Data – это большой бизнес.

Нашей жизнью управляет информация, и извлечение выгоды из нее становится центральным моментом в работе современных организаций. Неважно, кто вы – деловой человек, работающий с аналитикой, начинающий программист или разработчик, «Теоретический минимум по Big Data» позволит не утонуть в бушующем океане современных технологий и разобраться в основах новой и стремительно развивающейся отрасли обработки больших данных.

SQL. Сборник рецептов. Энтони Молинаро

Рассмотрены готовые рецепты для решения практических задач при работе с СУБД Oracle, DB2, SQL Server, MySQL и PostgreSQL. Описаны извлечение записей из таблиц, сортировка результатов запросов, принципы работы с несколькими таблицами, обработка запросов с метаданными. Рассказывается о способах поиска данных средствами SQL, о составлении отчетов и форматировании результирующих множеств, работе с иерархическими запросами. Рассматривается использование оконных функций, обобщенных табличных выражений (ОТВ), сбор данных в блоки, формирование гистограмм, текущих сумм и подсумм, агрегация скользящего диапазона значений. Описан обход строки и ее синтаксический разбор на символы, приведены способы упрощения вычислений внутри строки. Во втором издании учтены все изменения в синтаксисе и архитектуре актуальных реализаций SQL.

Как вытащить из данных максимум. Навыки аналитики для неспециалистов. Джордан Морроу

Дата-грамотность, то есть способность ориентироваться в мире данных, – ключевой навык сегодняшнего дня. Ежедневно в соцсетях публикуются миллиарды сообщений, электронные почтовые ящики по всей планете гудят от писем, а каждый подключенный к интернету автомобиль производит терабайты данных, не говоря уже об онлайн-магазинах, платежных системах и государственных цифровых сервисах. Однако работать с данными, анализировать их и использовать их для бизнеса по-прежнему умеет меньшинство, а специалистов катастрофически не хватает.

Для тех, кто хочет научиться говорить на языке данных уверенно, признанный эксперт в области дата-грамотности Джордан Морроу и написал свою книгу. Это практическое руководство позволит даже неспециалисту освоить четыре базовых уровня аналитики и узнать, как принимать эффективные решения на основе данных, чтобы извлекать максимум из информации и быть успешным в быстро меняющемся цифровом мире.

Роман с Data Science. Как монетизировать большие данные. Роман Зыков

Как выжать все из своих данных? Как принимать решения на основе данных? Как организовать анализ данных (data science) внутри компании? Кого нанять аналитиком? Как довести проекты машинного обучения (machine learning) и искусственного интеллекта до топового уровня? На эти и многие другие вопросы Роман Зыков знает ответ, потому что занимается анализом данных почти двадцать лет. В послужном списке Романа – создание с нуля собственной компании с офисами в Европе и Южной Америке, ставшей лидером по применению искусственного интеллекта (AI) на российском рынке. Кроме того, автор книги создал с нуля аналитику в Ozon.ru.

Также в своем телеграм канале привожу список бесплатных курсов по аналитике данных
от лучших университетов и компаний мира.

10+ бесплатных курсов по аналитике данных от Harvard University, Google, IBM и других
Сейчас много платных курсов по аналитике данных, качество которых очень низкое. Но в то же время есть бесплатные курсы от лучших университетов и зарекомендовавших себя международных платформ, о которых никто не знает.

HARVARD UNIVERSITY
Data Science: Wrangling
. На курсе научитесь обрабатывать и преобразовывать необработанные данные в форматы, необходимые для анализа.

Data Science: Visualization
. Изучите основные принципы визуализации данных.

Data Science: Machine Learning
. На курсе изучите машинное обучение. Создатите систему рекомендаций фильмов и изучите научные основы одного из самых популярных и успешных методов обработки данных.

И другие

курсы от университета

GOOGLE DATA ANALYTICS Professional Certificate

В

этой программе
вы освоите востребованные навыки, которые помогут вам подготовиться к работе менее чем за 6 месяцев. Никакой степени или опыта не требуется. Курс состоит из 8 подкурсов, посвященных конкретной теме в аналитике данных.
IBM

IBM — это один из крупнейших в мире поставщиков программного обеспечения.

Курс состоит из нескольких частей: введение

,

визуализация данных
, основы Python
, SQL
, анализ данных с помощью Python
, визуализация с помощью Python,
итоговый проект.
OPENLEARN
Бесплатный восьминедельный курс OpenLearn по кодированию «Учитесь кодировать для анализа данных»
дает четкое представление об основных концепциях программирования и анализа данных, и вы даже сможете писать простые аналитические алгоритмы в среде программирования.

UDEMY
Udemy предлагает тысячи курсов
по анализу данных и науке о данных от различных загрузчиков. Это не курсы от Harvard, Google и IBM, однако можно найти что-то полезное для себя.

CAREER FOUNDRY
Бесплатный краткий курс по аналитике данных
CareerFoundy, состоящий из 6 частей, идеально подходит, если вам нужно легкое введение в аналитику данных.

«Python. Большая книга примеров» Антона Марченко

Книги о машинном обучении для новичков 1

Гайд от преподавателя МГУ, в котором есть часть основ для подготовки к собеседованию на позицию Junior Python Developer. Книга знакомит с основной терминологией языка на доступных примерах. В ней много иллюстраций и примеров. А код будет понятен новичкам.

Вот роскошно раскомментированный пример создания анимированной диаграммы на Matplotlib:

  			  import matplotlib.pyplot as plt
from matplotlib.animation import ArtistAnimation
import numpy

def gaussian(x, delay, sigma):
  # Функция, график которой будет отображаться в процессе анимации
  return numpy.exp(-((x - delay) / sigma) ** 2)


if __name__ == '__main__':
  # Параметры отображаемой функции
  maxSize = 200
  sigma = 10.0
  # Диапазон точек для расчета графика функции
  x = numpy.arange(maxSize)
  # Значения графика функции
  y = numpy.zeros(maxSize)
  # Создание окна для графика
  fig, ax = plt.subplots()
  ax.grid()
  # Установка отображаемых интервалов по осям
  ax.set_xlim(0, maxSize)
  ax.set_ylim(-1.1, 1.1)

  # Создание списка линий, которые будут последовательно
  # переключаться и предъявляться при изменении номера кадра
  frames = []
  for delay in numpy.arange(-50.0, 200.0, 1.0):
    y = gaussian(x, delay, sigma)
  # список рисунков линий 
  # голубой цвет линии задаётся параметром '-b'
    line, = ax.plot(x, y, '-b')
  # Поскольку на каждом кадре может меняться несколько объектов, 
  # каждый элемент списка - это список изменяемых объектов
    frames.append([line])
  
  # Задержка между кадрами в мс
  interval = 30
  # Использовать ли буферизацию для устранения мерцания 
  blit = True
  # Будет ли анимация циклической 
  repeat = True
  # Создание анимации 
  animation = ArtistAnimation(
    fig, # Figure (это ссылка на глобальную fig)
    # Объект рисунка, используемый для получения
    # необходимых событий, таких как
    # рисование или изменение размера. 
    frames, # Источник данных - список линий, которые
    # будут последовательно переключаться и
    # предъявляться при изменении номера кадра interval=interval, 
    # Временной интервал между кадрами
    blit = blit, # Использовать буферизацию для устранения мерцания
    repeat = repeat)
  plt.show()  

		  

Если честно, не ожидала от Matplotlib возможности анимироваться!

Если посмотреть требования к Junior Python Developer в вакансии
, то окажется, что книга хорошо знакомит со следующими компетенциями:

  • Алгоритмы и анализ сложности;
  • Архитектура вычислительных систем;
  • Компьютерные сети;
  • Математическая логика и теория алгоритмов;
  • Математический анализ;
  • Методы реализации СУБД;
  • Моделирование информационных процессов;
  • Операционные системы;
  • Основы программирования;
  • Программная инженерия;
  • Тестирование программного обеспечения;
  • Технологии Интернет и веб-программирования

Кафедра автора Антона Леонардовича — сейсмология, так что опытным разработчикам материал тоже может быть интересен — как взгляд необычного для сферы профессионала.

Data Science. Наука о данных с нуля. Джоэл Грасс

Книга позволяет изучить науку о данных (Data Science) и применить полученные знания на практике. Она содержит краткий курс языка Python, элементы линейной алгебры, статистики, теории вероятностей, методов обработки данных. Приведены основы машинного обучения. Описаны алгоритмы k means, наивной байесовой классификации, линейной и логистической регрессии, а также модели на основе деревьев принятия решений, нейронных сетей и кластеризации. Рассмотрены приемы обработки естественного языка, методы анализа социальных сетей, основы баз данных, SQL и MapReduce.

«Машинное обучение без лишних слов» Андрея Буркова

Книги о машинном обучении для новичков 6

Издание описывает основные алгоритмы машинного обучения и обещает познакомить с основами всего за 100 страниц. Прекрасно ещё и то, что репозиторий с кодом можно клонировать с GitHub (

ссылка
) — а скрипты внутри запустить. От других изданий эту книгу отличает то, что она доступно и дозировано объясняет высшую математику.

С “Машинным обучением без лишних слов” вы вспомните операции над матрицами и производные с минимальным количеством боли.

Прилагать многоэтажный сниппет не буду, но покажу, какие концепции автор решил раскрыть: здесь и градиентный спуск (Gradient Descent), и ядерный трюк (Kernel Trick), и недо-/переобучение (Under/Overfitting):

Книги о машинном обучении для новичков 7

И, например, в четвертой главе эксперт рассказывает о видах регрессии. И на графике ниже показывает, как для нее подбирается лучшая функция с помощью градиентного спуска:

Книги о машинном обучении для новичков 8

“Книга Андрея, фантастическим образом устраняя всё лишнее, идёт на полной скорости прямо к цели с самой первой страницы”.

Книга известна за рубежом, ведь Андрей Бурков релоцировался в Канаду и работает в Gartner. Кроме того, у неё есть сайт ( themlbook.com
) с кучей положительных отзывов и рекомендациями профессионалов.

Из любопытного: в первой главе представлен интересный философский раздел, который не встретить в других учебниках — «Когда следует применять Машинное обучение»:

  • когда задача является слишком сложной для учета всех условий;
  • когда условия постоянно меняются;
  • когда речь идет о задаче восприятия;
  • когда это неизученное явление;
  • когда задача имеет простую целевую функцию;
  • когда это выгодно.

Это помогает плавно вникнуть в вопрос людям, которые только начали программировать.

В завершение хочу похвастаться своей книгой, тем более что она бесплатная.

Python и машинное обучение. Себастьян Рашка

Книга предоставит доступ в мир прогнозной аналитики и продемонстрирует, почему Python является одним из лидирующих языков науки о данных. Охватывая широкий круг мощных библиотек Python, в том числе scikit-learn, Theano и Keras, предлагая руководство и советы по всем вопросам, начиная с анализа мнений и заканчивая нейронными сетями, книга ответит на большинство ваших вопросов по машинному обучению.

Издание предназначено для специалистов по анализу данных, находящихся в поисках более широкого и практического понимания принципов машинного обучения.

«Python и Машинное обучение» Себастьяна Рашка

Книги о машинном обучении для новичков 2

В книге раскрыты методологии, которые используются при решении популярных задач, будь то распознавание лиц на изображениях или предсказания цен. Вы познакомитесь с науками, которые позволили создать гибридную дисциплину — машинное обучение. И увидите, как строится типовой конвейер от данных до готовой модели.

Книги о машинном обучении для новичков 3

Авторы освещают базис нейронных сетей (перцептроны, веса, оптимизация), и знакомят со «швейцарским ножом» ML-библиотекой scikit-learn. В следующих главах уже решаются классические проблемы Data Science: понижение размерности, подбор гиперпараметров и проч.

Особый интерес, на мой взгляд, представляет глава про встраивание модели в веб-приложение. Ведь когда-нибудь модель должна выйти в мир!

Книги о машинном обучении для новичков 4

Читатели пишут, что это необходимый минимум по предмету, без излишеств и чрезмерных усложнений, материалы даже используются на курсах колледжей. Однако без предварительной подготовки во вторую часть про Глубокое обучение лучше не заходить. В целом этот раздел читать проще тем, кто уже практикует.

Не все может быть понятно, но она позволит свыкнуться с основной терминологией с помощью всевозможных кейсов.

Книги о машинном обучении для новичков 5

Заключение

Книги — хороший способ дополнить образование. Но практика всё равно остаётся в приоритете. В случае с наукой о данных, когда необходимый объём знаний изначально большой и постоянно обновляется, печатными изданиями хочется скорее развлекаться время от времени.

Но всё же магия «толстого и умного справочника», стоящего на полке в силе: всегда приятно осознавать, какую сложную вещь можешь осилить.

Если вы любите читать, напишите в комментариях, какие книги по программированию оказали на вас наибольшее влияние и почему.

Оцените статью