Как зарегистрироваться на kaggle

Время на прочтение

Время от времени здесь публикуются статьи с упоминанием Kaggle. Это крупнейшая международная платформа соревнований по Data Science. В организации соревнований участвуют крупные и не очень компании, а многие задачи решают реальные проблемы медицины, ИИ, разработки и т. п.

Если вы слышали что-то о Kaggle, но ещё не пробовали платформу в работе, то эта статья для вас. В ней относительно коротко рассказывается о том, как всё это работает, в каких соревнованиях можно участвовать и какие вообще возможности предоставляет платформа участникам.

Содержание

Как начать работать с платформой
Посетите kaggle. com и зарегистрируйтесь со своими учетными данными
После входа в систему вас встретит домашняя страница
Время копать
Скрипт
Ноутбук
Что отличает Kaggle
3 P
Дискуссионная панель
Что дальше?
Ваш путь к гроссмейстеру
Утомительная установка, которую я должен упомянуть
Сначала станьте частью сообщества.
Поймите, как работает система популярности Kaggle и ее система развития.
Выберите соревнование
Окончательный 4-недельный рабочий процесс, чтобы добиться успеха в соревновании
Шаг 5. Начните публиковать блокноты — основа вашего успеха (необязательно)
Заключение
Свяжитесь со мной в LinkedIn или Twitter для дружеской беседы обо всем, что связано с данными. Или вы можете просто прочитать другую историю от меня. Как на счет этих
Что насчёт соревнований?
Подробнее о Kaggle

Как начать работать с платформой

Kaggle предлагает несколько статусов для участников. Первый из них — «новичок», его получает любой пользователь, зарегистрировавшийся на ресурсе. Для этого нужно перейти по ссылке и нажать кнопку Register. Всё стандартно, можно использовать учётку Google или же адрес электронной почты.

Следующий уровень — Contributor — пользователь получает за несколько относительно простых действий:

Ну а последующие статусы пользователь получает уже за участие в соревнованиях и вообще активную жизнь на платформе.

Kaggle был довольно популярной платформой для демонстрации ваших навыков и представления ваших алгоритмов в виде ядер. Этого было более чем достаточно для Google, чтобы понять его дальнейший потенциал и приобрести его в 2017 году с целью наградить ученых или аналитиков данных денежными призами и медалями, чтобы побудить других участвовать и кодировать. Для многих это был глоток свежего воздуха, а для других — возможность оптимизировать свои ядра, поскольку была разрешена повторная отправка. Многие компании организуют хакатоны на Kaggle, чтобы найти идеального кандидата на различные вакансии в области науки о данных.

Что ж, если вы новичок в Kaggle, то это идеальное руководство для вас, чтобы начать работу с его ядрами и другими аспектами. Давайте разбираться с этим шаг за шагом.

Посетите kaggle. com и зарегистрируйтесь со своими учетными данными

После входа в систему вас встретит домашняя страница

Время копать

После краткого знакомства с Kaggle и его функциями давайте углубимся в параметры ядра и посмотрим, что у нас есть. Здесь происходит все волшебство! Он покажет пользователю все соответствующие ядра на основе алгоритма Kaggle, который отсортирован на основе их актуальности. Мы можем сортировать ядра по параметрам фильтра, которые включают в себя наибольшее количество голосов, наибольшее количество комментариев, недавно созданные, недавно запущенные и релевантность. Существует множество ядер для науки о данных, от XGBoost до прогнозирования цен на жилье с использованием линейной регрессии, Pytorch, TensorFlow и многих других. Они могут включать в себя набор инструкций, которые помогут вам реализовать эти ядра, а другие содержат только код для получения вывода.

После выбора любого из соревнований мы можем добавить новое ядро, выбрав опцию нового ядра в правом углу сразу под названием.

Это спросит вас, хотите ли вы создать сценарий или блокнот.

Скрипт

Сценарий похож на платформу кодирования, где вы можете напрямую начать кодирование на R или Python. Он идеально подходит для подгонки моделей машинного обучения и прямых конкурсных заявок. Похоже на это.

Преимущество покупки вашей компании крупным ИТ-гигантом — дополнительная вычислительная мощность! Это ядро предоставляет вам 16 ГБ ОЗУ вместе с возможностями графического процессора, если это необходимо. Он также предоставляет вам базовые и обязательные пакеты, необходимые для Python, такие как numpy и pandas! Это не только помогает существующему пользователю, но и предоставляет новым пользователям подходящую платформу для демонстрации своих навыков.

Ноутбук

Блокнот напоминает платформу Jupyter, где пользователь может делиться своими знаниями и выводами вместе с кодом. Это можно сделать либо в R, либо в Python.

Интерфейс NoteBook выглядит следующим образом. Это чем-то похоже на сценарий. Все те же функции и возможности доступны и в этом. Ядра также имеют возможность создавать великолепные информационные панели в RMarkdown.

У нас также есть свобода устанавливать ядра частными или общедоступными. Публичное ядро легкодоступно и заметно для всех. Принимая во внимание, что частное ядро видно только владельцу ядра и тем, кому оно было предоставлено. Это особенно полезно, когда владелец ядра хочет опубликовать свой код XGBoost на Python, но не хочет, чтобы другие, конкурирующие с ним, увидели этот код.

Ядра были разработаны с учетом гибкости и удобства использования текущими пользователями в области машинного обучения, глубокого обучения и нейронных сетей. Им требуются тонны библиотек для выполнения предпочтительного алгоритма, а для этого нам нужна достаточная вычислительная мощность. Эта платформа кодирования не только помогает пользователю с обработкой, но также предлагает любую новую библиотеку функций, которую необходимо создать или объявить.

Что отличает Kaggle

Тот факт, что соревнование не приносит дорогого вознаграждения, не означает, что его нужно игнорировать. Цель Kaggling — узнавать что-то новое каждый день и внедрять их где-то, что может оказать положительное влияние, и это сообщение, которое пытается донести это сообщество.

3 P

Практика, терпение, совершенство: это основная мантра Kaggle. Наука о данных — это область, в которой практика гораздо важнее удачи. Больше ядер означает больше практики, а значит, у вас больше шансов пройти интервью мечты! В сочетании с терпением это может помочь вам уловить и понять основную работу алгоритма, не нарушая его!

Дискуссионная панель

На каждом конкурсе есть своя дискуссионная панель, в которую входят практики, работающие в этой области 5–10 лет. Они делятся своим опытом и мнениями, которые могут просветить наши любопытные умы и заставить нас следить за вещами, которые могут иметь решающее значение для нашего дальнейшего понимания этой области.

Kaggle достаточно постепенно помог многим осознать важность науки о данных в современном быстрорастущем ИТ-секторе. От аналитика данных, который работает с SQL и Excel, до специалиста по данным, который ежедневно занимается моделями машинного обучения и рассказыванием историй, Kaggle определенно может помочь тем, кто амбициозен и хочет добиться успеха в этой области. науки о данных. Просто найдите простое ядро, которое включает в себя тонны исследовательского анализа данных, а также подбор и проверку модели машинного обучения. Это поможет вам начать свое путешествие и выполнить описанные выше шаги, чтобы продолжить и попытаться понять логику каждого алгоритма. Все самое лучшее!

Что дальше?

посетите https://blog.eduonix.com, чтобы прочитать больше интересного контента на Kaggle и другие актуальные темы, читайте и будьте в курсе!

Доброго времени суток, уважаемые хабровчане! Сегодня я хотел бы поговорить о том, как не имея особого опыта в машинном обучении, можно попробовать свои силы в соревнованиях, проводимых Kaggle.

Как вам уже, наверное, известно, Kaggle – это платформа для исследователей разных уровней, где они могут опробовать свои модели анализа данных на серьезных и актуальных задачах. Суть такого ресурса – не только в возможности получить неплохой денежный приз в случае, если именно ваша модель окажется лучшей, но и в том (а, это, пожалуй, гораздо важнее), чтобы набраться опыта и стать специалистом в области анализа данных и машинного обучения. Ведь самый важный вопрос, зачастую стоящий перед такого рода специалистами – где найти реальные задачи? Здесь их достаточно.

Мы попробуем поучаствовать в обучающем соревновании, не предусматривающем каких-либо поощрений, кроме опыта.

Для этого мною была выбрана задача распознавания рукописных цифр из выборки MNIST. Немного сведений из вики. M NIST (Mixed National Institute of Standards and Technology database) является основной базой при тестировании систем распознавания образов, а также широко используемой для обучения и тестирования алгоритмов машинного обучения. Она была создана перегруппировкой образов из оригинальной базы NIST, которая являлась достаточно сложной для распознавания. Кроме этого, были выполнены определенные преобразования (образы были нормализованы и сглажены для получения градаций серого цвета).

База MNIST состоит из 60000 образов для обучения и 10000 образов для тестирования. Написано большое количество статей, посвященных задаче распознавания MNIST, например (в данном случае авторы использовали иерархическую систему из сверточных нейронных сетей).

Оригинальная выборка представлена на сайте.

На Kaggle представлена полная выборка MNIST, организованная немного по-другому. Здесь обучающая выборка включает в себя 42000 образов, а выборка тестирования – 28000. Тем не менее, по содержанию они эквивалентны. Каждый образ MNIST представлен картинкой 28Х28 пикселей с 256 градациями серого цвета. Пример нескольких неоднозначных в идентификации цифр представлен на картинке ниже.

Для создания своей модели нейронной сети для распознавания цифр воспользуемся интерпретатором Рython c установленным пакетом nolearn 0.4, а также numpy и scipy (для удовлетворения всех зависимостей).

Здесь мне очень помогла вводная статья, написанная Adrian Rosebrock в своем блоге. В ней даются вводные сведения о нейронных сетях глубокого доверия и их обучении, хотя сам автор при тестировании использует обычный многослойный персептрон архитектуры 784-300-10 без какого-либо предобучения. Так поступим и мы. Кстати, весьма подробно и на примере разных классических выборок рассматривается процесс использования пакета на страничке nolearn.

Итак, следуя указаниям, которые даются в названных выше статьях, создадим свой многослойный персептрон, обучим его на загруженных и обработанных данных, а затем проведем тестирование.

Для начала создадим свой двухслойный персептрон архитектуры 784-300-10:

Здесь требуются некоторые пояснения. Первый параметр конструктора нейронной сети – список, содержащий количество входов и нейронов в каждом слое, learn_rates – скорость обучения, learn_rate_decays – множитель, задающий изменение скорости обучения после каждой эпохи, epochs – количество эпох обучения, verbose – флаг вывода подробного отчета процесса обучения.

После выполнения этой инструкции, необходимая модель будет создана и нам останется только загрузить данные. Kaggle предоставляет нам два файла: train.csv и test.csv, содержащие соответственно выборки для обучения и тестирования. Структура файлов простая – в первой строке содержится заголовок, далее следуют данные. Для train.csv каждая строка с данными предваряется соответствующей меткой – цифрой от 0 до 9, определяющей образ. В test.csv метка отсутствует.

Следующим этапом загрузим данные в массивы, воспользовавшись пакетом для работы с csv-файлами. Не забываем произвести нормировку:

После этого обучаем нашу нейронную сеть на подготовленных данных:

Сам процесс занимает некоторое время, определяемое количеством эпох обучения, заданным при конструировании нейронной сети. На каждой эпохе обучения на экран будут выводиться (при заданном параметре verbose) значения loss и err (значение функции потерь и ошибка).

После обучения все, что нам остается сделать – загрузить данные тестирования и сохранить предсказания для каждого образа из выборки тестирования в файл с расширением csv:

Дальше загружаем полученный файл в систему тестирования (см. рисунок) и ждем.

Готово! 176 место из более чем 500 участников. Для начала вполне неплохо. Теперь полученный результат можно попытаться улучшить, например, применив собственные разработки или модифицируя и подбирая параметры в nolearn. Благо времени достаточно: соревнование по MNIST’у неоднократно продлевали и теперь оно будет проходить до 31.12.2015. Удачи и спасибо, что прочитали эту статью.

Ваш путь к гроссмейстеру

Вау, это фантастическое место. Посмотрите на всех этих Кагглеров. Так многому нужно научиться. Соревнования звучат очень весело, и даже Google, кажется, проводит их здесь. Клянусь, я раздавлю его.

Позвольте мне проверить некоторые из этих золотых тетрадей. Ого, это написано гроссмейстером. ЭТО звучит роскошно. Кажется, этот парень знает так чертовски много. Я никогда не видел такого крутого специалиста по данным. Давайте посмотрим на его профиль — да, он ученый-ракетчик.

Что я думаю? Я не могу конкурировать с этим. Наверное, мне следует уйти, пока я не опозорился. Да, это верно. Я проучусь еще пару лет на Coursera, а потом вернусь и покажу им.

Это в значительной степени подводит итог тому, что я чувствовал, когда впервые установил свою клавиатуру на Kaggle, и я уверен, что это относится ко многим другим. Чувство того ужасного чувства тяжести в животе, когда вы понимаете, что вы достаточно хороши, чтобы играть с большими парнями, и задаетесь вопросом, станете ли вы когда-нибудь такими, как они.

Я, конечно, не получил бы ранга Мастера, если бы продолжал сидеть на спине, несчастно размышляя. Мне просто нужно было сделать первый шаг, а остальное выяснить по ходу дела.

Этот первый шаг является самым важным для начинающих. Сделаете это неправильно, и вы вернетесь к тому синдрому самозванца, который говорит вам, что вы ни за что не сможете конкурировать с этими профессионалами.

Сегодня я покажу вам, как именно вы должны сделать этот начальный шаг поэтапно, который быстро настроит вас на успех на Kaggle.

Получите лучшие и последние статьи по машинному обучению и искусственному интеллекту, выбранные и обобщенные с помощью мощного искусственного интеллекта — альфа-сигнала:

Утомительная установка, которую я должен упомянуть

Как только вы создаете свою учетную запись и становитесь новичком (самый низкий ранг на Kaggle), вы всего в нескольких дюймах от того, чтобы стать официальным Kaggler.

Все, что вам нужно сделать, это принять участие в конкурсе и заработать значок участника. Почти 40% всех пользователей Kaggle являются участниками, и еще большая часть — новички.

Конечно, если вы новичок, нет ничего постыдного в том, чтобы пройти несколько официальных бесплатных курсов Kaggle, чтобы улучшить свои навыки. Я рекомендую сначала пройти курс Введение в машинное обучение, так как он объяснит основы машинного обучения и будет держать вас за руки, пока вы впервые участвуете в конкурсе.

Сначала станьте частью сообщества.

Многие люди неправильно присоединяются к Kaggle. Поскольку все называют Kaggle платформой для соревнований, большинство чувствует растущее давление, чтобы сразу же присоединиться к ним, чтобы стать «Kaggler».

Нет ничего более далекого от правды.

Чувство, что вы должны немедленно присоединиться к соревнованию, является серьезной ловушкой, и вы просто окажетесь несчастным, если еще не развили нужные навыки, потому что Kaggle жестоко конкурентоспособен. Даже самые маленькие задачи привлекают множество квалифицированных специалистов.

Итак, каково решение?

Станьте частью сообщества в первую очередь. Почувствуйте себя членом этой группы, чтобы избавиться от синдрома самозванца и сказать себе: «Я Кагглер».

Ну, как ты это делаешь?

Вы начинаете читать тетради. Много. Всем. Я предлагаю выбрать интересующий вас конкурс (предложения см. в следующих разделах) и упорядочить список блокнотов по количеству голосов.

Вы прокручиваете вниз и открываете блокноты с наименьшим количеством голосов. Часто они написаны новичками и нуждаются в такой же поддержке и отзывах, как и вы.

Теперь в каждом блокноте есть несколько дел.

Вы также можете предложить улучшения здесь и там. Если автор знает больше вас, скажите об этом и скажите, что узнали что-то новое.

Если вы мало что знаете о том, о чем говорит автор, разветвите блокнот и начните возиться с каждой ячейкой кода. Читайте документы и руководства по неизвестным функциям, пока не поймете, что делает каждая строка.

Как только вы повторите этот процесс для 10–20 тетрадей, вы поймете, что узнаете гораздо больше, чем когда-либо на курсе за тот же промежуток времени.

И самое приятное то, что теперь вы не просто никто — вы знаете и подписаны на многих Kagglers, и они, вероятно, помнят вас, если вы оставите достаточно хороший отзыв и признательность за их работу.

Поймите, как работает система популярности Kaggle и ее система развития.

Вы должны посмотреть эту страницу в документах Kaggle, чтобы понять, как достичь каждого ранга:

Есть четыре категории, и каждая из них требует разного уровня усилий и навыков для достижения звания гроссмейстера. Гроссмейстерам в соревнованиях и наборах данных сложнее всего.

Возможно, вы не находитесь в Kaggle для рангов, что совершенно нормально. Но если вы хотите наладить хорошие связи и расширить свою сеть, получение звания — верный способ завоевать доверие.

Самые почетные звания — это мастера и гроссмейстеры либо в соревнованиях, либо в записных книжках (по крайней мере, на мой взгляд). Тем не менее, любого титула GM всегда достаточно, чтобы заслужить уважение и восхищение многих.

Система привлекательности Kaggle похожа на систему LinkedIn (но без сложностей, связанных со связями второй и третьей степени).

Если вы создаете контент, он часто будет отображаться в ленте ваших подписчиков в соответствии с их предпочтениями. Если они взаимодействуют с вашей работой, это также будет отображаться в лентах их подписчиков. Таким образом, чем больше подписчиков, тем шире охват.

Рейтинг блокнотов в конкурсе также меняется не в зависимости от количества голосов, а в зависимости от количества комментариев.

Выберите соревнование

Теперь вы готовы. К этому шло все — выбор и участие в конкурсе.

Даже если вы новичок, я НЕ РЕКОМЕНДУЮ эти соревнования Начало работы:

Почти любой новичок начинает с Kaggle именно с них, так что они очень насыщены. Кроме того, существует много плагиата, потому что люди просто копируют лучшие решения предыдущих победителей, чтобы подняться в таблице лидеров.

Не удивляйтесь, если вы найдете записные книжки с тысячами голосов «за» — эти соревнования проводились с момента зарождения Kaggle, и у людей было время исследовать свои наборы данных всеми мыслимыми способами.

Вместо этого начните с ежемесячных соревнований Tabular Playground Series (TPS), как это сделал я. Они немного сложнее, чем начальные, но гораздо веселее и могут научить вас чему-то новому.

Из-за того, что они начального уровня, они привлекают очень мало гроссмейстеров, но их все еще трудно победить (мне еще предстоит это сделать).

Окончательный 4-недельный рабочий процесс, чтобы добиться успеха в соревновании

Во-первых, давайте определим успех в соревновании.

Что касается меня, я очень рад, если мой результат находится в пределах 1% от заявки на первое место. Например, в сентябрьском TPS, в котором я был очень активен, я набрал 0,81708 ROC AUC, а первое место набрало 0,81775. Я занял 332 место даже с разницей в 0,0067.

В большинстве случаев вы можете достичь максимального результата даже с простыми моделями и небольшой настройкой гиперпараметров. Но чтобы достичь вершины, вам предстоит проделать много кропотливой работы и экспериментов.

Это то, что требуется для победы, по крайней мере, в соревнованиях TPS.

Конкурсы Featured и Code (с призовым фондом) различаются. У них есть ограничения по времени выполнения и ресурсам. Например, некоторые не принимают решения, которые обучаются более 8 часов, чтобы сохранить их практичность на тот случай, если хост захочет внедрить некоторые из них в будущем.

Независимо от типа композиции, есть несколько шагов, которые вы можете предпринять, чтобы гарантировать успех. Я опишу их в случае соревнований TPS, но вы всегда можете расширить идеи в зависимости от продолжительности соревнований.

Итак, чтобы получить хорошие результаты в TPS или любом соревновании Kaggle, вот как вы должны распределять свое время:

Неделя 1: Исследовательский анализ данных (EDA). Его важность неоспорима, и он будет неотъемлемой частью того, как вы будете придумывать решения позже.

Вы должны обратить особое внимание на особенности в данных и на то, как вы можете их нормализовать (для этого разные дистрибутивы требуют разных алгоритмов). EDA также дает вам идеи для возможных инженерных идей, что является еще одной важной частью вашего успеха.

На первой неделе вы также должны разработать стратегию проверки. Настройте базовую оценку с помощью модели (XGBoost популярен) и посмотрите, сможете ли вы улучшить ее, используя другие методы.

Неделя 2. Выбор модели. Теперь вы попробуете разные модели с гиперпараметрами по умолчанию, чтобы увидеть, какая из них имеет наивысший балл по сравнению с вашим базовым уровнем. Это могут быть древовидные модели, такие как XGBoost, или линейные модели, такие как логистическая или линейная регрессия.

Я также рекомендую просмотреть некоторые более редкие модели в Sklearn, основываясь на вашей интуиции и знаниях, полученных из EDA. Вы можете найти один или два сюрприза, которые могут дать вам даже более высокие оценки, чем древовидные модели.

Вы должны оценивать эти модели на основе их результатов обучения и тестов посредством перекрестной проверки (ключевые слова связаны с соответствующими учебными пособиями).

Неделя 3. Разработка функций. Теперь мы подошли к секретному соусу, который используют все гроссмейстеры на своем пути к вершине. Инжиниринг признаков — это не то, чему вы научитесь на курсах, и об этом можно многое сказать, но вкратце:

Разработка признаков — это формирование и преобразование наборов данных, чтобы модели могли извлечь из них как можно больше информации.

FE особенно важен в табличных и соревнованиях временных рядов.

Каждый раз, когда вы меняете данные (добавляете новый столбец, модифицируете существующий и т. д.), вы должны запускать свои лучшие модели, которые вы нашли на неделе 2, чтобы увидеть, улучшит ли это изменение вашу оценку.

Неделя 4. Настройка гиперпараметров. Теперь, когда вы добавили новые полезные функции, пришло время выжать максимум из ваших потенциальных моделей.

Вам понадобится хороший тюнинговый фреймворк. Особенно мне нравится Оптуна, как и многим другим Кагглерам.

После того, как вы настроите свои лучшие модели, вы можете создавать прогнозы и упаковывать их для отправки. Или вы можете объединить несколько моделей в ансамбль, чтобы еще больше повысить свой счет.

Ансамблевые решения в большинстве случаев бесполезны в реальном мире, поскольку они очень дороги, но вы увидите, что в Kaggle их полно. Выше 50-го процентиля в таблице лидеров люди часто используют ансамбли. Подробнее о них можно узнать здесь.

И, наконец, все эти шаги повторяются и могут меняться в зависимости от ваших потребностей. Вы можете вернуться к любому из них в любое время и увеличить или сократить время, необходимое для выполнения каждого шага.

Шаг 5. Начните публиковать блокноты — основа вашего успеха (необязательно)

Если одна вещь гарантированно сделает ваше имя известным, так это публикация высококачественных учебных пособий.

Несмотря на то, что есть много высококвалифицированных ученых, которые побеждают в соревнованиях, вы обнаружите, что не так много людей, которые могут кристально ясно объяснить свою работу другим.

Вот почему мне было так легко получить звание Мастера в тетрадях:

Мне нужно было создать всего 22 блокнота, чтобы получить 11 золотых медалей (4 меньше, чем у GrandMaster), что намного выше, чем у большинства. Перед публикацией я довольно долго писал учебные пособия по науке о данных, поэтому у меня было много практики в написании технического контента.

На самом деле ничто, кроме лени и других обязательств, не дает мне получить мой первый в жизни титул гроссмейстера:

Вы также обнаружите, что лучшие и самые популярные гроссмейстеры — это те, кто выигрывает соревнования и излагает свои решения профессионально и в то же время понятно для масс.

Написание блокнотов заставляет вас писать чистый код и проводить исследования по темам, которые вы хотите объяснить другим:

Сообщество поглощает хорошие блокноты — за любой из моих типичных золотых блокнотов я получаю 20–40 комментариев с благодарностью и отзывами, в отличие от всего нескольких на мои статьи на Medium, хотя обычно их читают тысячи.

Заключение

Титулы гроссмейстера Kaggle, безусловно, престижны. Они ярко смотрятся на вашем заголовке в LinkedIn и оживляют ваше резюме.

Но что лучше всего в Kaggle, так это его сообщество. Мало того, что это самая известная онлайн-платформа данных, программистам из других отраслей еще предстоит сформировать такое удивительное сообщество с таким количеством квалифицированных специалистов. Независимо от вашего ранга, участие в нем расширяет ваши знания и сеть гораздо больше, чем курсы и книги.

Свяжитесь со мной в LinkedIn или Twitter для дружеской беседы обо всем, что связано с данными. Или вы можете просто прочитать другую историю от меня. Как на счет этих

Этот раздел, как, собственно, и вся статья — для новичков. Если вы профессионал, вероятно, и так найдёте, чем заняться. Но, как и говорилось выше, эта статья для начинающих дата-сайентистов, которые хотят присоединиться к комьюнити Kaggle.

Так вот, начать стоит с выбора языка программирования, с которым вы планируете работать. Kaggle Learn даёт возможность закрепить свои знания по выбранному направлению и совершенствоваться дальше.

Например, это можно сделать, выбрав для начала относительно несложный конкурс. Kaggle предлагает пользователям собственную онлайн-среду, где можно писать Python/R-скрипты и работать в Jupyter Notebooks. Работа ведётся в браузере, причём без необходимости устанавливать библиотеки и зависимости. Наработками можно поделиться с сообществом, существует и возможность оценки работ других пользователей. Участники платформы выкладывают самый разнообразный контент — от EDA-задач (Exploratory Data Analysis, он же подробный разбор) с соревнований до простых методов, которые дают возможность оптимизировать собственный код.

Изучение проектов коллег позволяет обнаружить «белые пятна» в собственных знаниях, а также понять, какие хард-скилы нужно подтянуть. Kaggle, таким образом, помогает относительно быстро совершенствоваться.

Но, конечно, основная задача проекта — это всё же проведение соревнований. Участие в них предоставляет как новичку, так и профессионалу много возможностей, включая как профессиональный рост, так и возможность проверить собственные силы.

Что насчёт соревнований?

На Kaggle их большое количество. Для начала нужно выбрать понравившееся, а затем нажать Join Competition. Для каждого соревнования указано несколько разделов:

Что касается соревнований, то в качестве примера укажем два, которые привлекают обычно больше всего новичков. Они входят в категории Getting Started и Playground, не предлагая денежного вознаграждения:

Более продвинутые соревнования предполагают денежное вознаграждение. Например:

Google Universal Image Embedding. Это конкурс для профи, в нём предлагались денежные призы, причём немаленькие:

SIIM-ISIC Melanoma Classification (соревнование проводилось 3 года назад). Определение рака кожи по форме родинок. Речь идёт о меланоме — одном из наиболее распространённых видов рака. Здесь тоже предлагались немаленькие призы:

Есть и соревнования с гораздо большим денежным призом. Например, Hacking the Kidney, где за лучшее решение предлагалось $60 000.

Соревнование KAGGLE по определению риска дефолта заёмщика (проводилось 2 года назад). Оно подробно описывалось на Хабре, так что читатель может получить полное представление о механизме проведения и требованиях к участникам.

В целом Kaggle — отличная платформа, которая может дать многое как начинающему специалисту, так и профессионалу. А уж как и зачем там регистрироваться, решать вам. Возможно, вы сможете найти отличную работу, возможно, получить солидный денежный приз. А может быть, захотите поучиться чему-то новому. Если у вас уже есть собственный опыт работы с Kaggle, расскажите о нём в комментариях.

Подробнее о Kaggle

Изначально эта платформа задумывалась чисто как соревновательная, её разрабатывали для проведения соревнований по Data Science. Но с течением времени Kaggle «обросла» новыми возможностями и разделами.

Сейчас это, скорее, своеобразная социальная сеть для дата-сайентистов с возможностью профессионального развития благодаря наличию как мини-курсов по основам машинного обучения, так и соревнований, которые дают возможность проверить результаты этого обучения. Мини-курсы, предлагаемые платформой, обучают самым разным направлениям, включая, например, введение в SQL, введение в машинное обучение, Python, визуализацию данных и другие.

За годы своего существования проект взрастил большое комьюнити, которое позволяет прокачивать скилы, получать новые знания, решать практические задачи. При желании можно смотреть, что и как делают сильные участники комьюнити (в плане профессионализма, конечно, а не физической силы), и проверять собственные знания и навыки.

Платформа помогает и найти работу. Так, на Kaggle есть и рекрутеры, которым нужны сильные дата-сайентисты. Кроме того, специалисты добавляют свои профили в резюме, что считается работодателем дополнительным плюсом при, например, прочих равных возможностях двух кандидатов.

КАК ЗАРЕГИСТРИРОВАТЬСЯ НА KAGGLE