CONFUSION MATRIX ЧТО ЭТО

В машинном обучении различают оценки качества для задачи классификации и регрессии. Причем оценка задачи классификации часто значительно сложнее, чем оценка регрессии.

From Wikipedia, the free encyclopedia

It is a special kind of contingency table
, with two dimensions («actual» and «predicted»), and identical sets of «classes» in both dimensions (each combination of dimension and class is a variable in the contingency table).

Хороший способ оценки модели предусматривает применение кросс-валидации
(cкользящего контроля или перекрестной проверки).

В этом случае фиксируется некоторое множество разбиений исходной выборки на две подвыборки: обучающую и контрольную. Для каждого разбиения выполняется настройка алгоритма по обучающей подвыборке, затем оценивается его средняя ошибка на объектах контрольной подвыборки. Оценкой скользящего контроля называется средняя по всем разбиениям величина ошибки на контрольных подвыборках.

Assume that we have a classifier that distinguishes between individuals with and without cancer in some way, we can take the 12 individuals and run them through the classifier. The classifier then makes 9 accurate predictions and misses 3: 2 individuals with cancer wrongly predicted as being cancer-free (sample 1 and 2), and 1 person without cancer that is wrongly predicted to have cancer (sample 9).

Notice, that if we compare the actual classification set to the predicted classification set, there are 4 different outcomes that could result in any particular column. One, if the actual classification is positive and the predicted classification is positive (1,1), this is called a true positive result because the positive sample was correctly identified by the classifier. Two, if the actual classification is positive and the predicted classification is negative (1,0), this is called a false negative result because the positive sample is incorrectly identified by the classifier as being negative. Third, if the actual classification is negative and the predicted classification is positive (0,1), this is called a false positive result because the negative sample is incorrectly identified by the classifier as being positive. Fourth, if the actual classification is negative and the predicted classification is negative (0,0), this is called a true negative result because the negative sample gets correctly identified by the classifier.

We can then perform the comparison between actual and predicted classifications and add this information to the table, making correct results appear in green so they are more easily identifiable.

The color convention of the three data tables above were picked to match this confusion matrix, in order to easily differentiate the data.

Now, we can simply total up each type of result, substitute into the template, and create a confusion matrix that will concisely summarize the results of testing the classifier:

In this confusion matrix, of the 8 samples with cancer, the system judged that 2 were cancer-free, and of the 4 samples without cancer, it predicted that 1 did have cancer. All correct predictions are located in the diagonal of the table (highlighted in green), so it is easy to visually inspect the table for prediction errors, as values outside the diagonal will represent them. By summing up the 2 rows of the confusion matrix, one can also deduce the total number of positive (P) and negative (N) samples in the original dataset, i.e.



and



.

Мы уже рассказывали, как машинное обучение
применяется для прогнозирования будущих событий в финансовом секторе
, нефтегазовой промышленности
, логистике
, HR-менеджменте
, девелопменте
, страховании
, муниципальном управлении
, маркетинге
, ритейле
и других отраслях экономики. Сегодня рассмотрим еще несколько практических примеров такого приложения Machine Learning
и в этом контексте разберем одно из ключевых понятий Data Science
по оценке моделей. Читайте в нашей статье, что такое матрица ошибок (confusion matrix) и как она помогает измерить эффективность используемых ML-алгоритмов и других инструментов бизнес-аналитики, оценив потенциальные убытки и выгоды от возможных сценариев будущего в задаче прогнозирования спроса.

Содержание
  1. От ритейла до банка: 5 примеров применения Big Data и Machine Learning в задачах прогнозирования спроса и предложения
  2. Машинное обучение на Python
  3. Что такое матрица ошибок и зачем она нужна: пример расчета стоимости ошибки прогнозирования
  4. Аналитика больших данных для руководителей
  5. Table of confusion
  6. Подытожим
  7. Метрики в задачах машинного обучения
  8. Полезные ссылки
  9. Оценки качества регрессии
  10. Средняя квадратичная ошибка (англ. Mean Squared Error, MSE)
  11. Cредняя абсолютная ошибка (англ. Mean Absolute Error, MAE)
  12. Средняя абсолютная процентная ошибка (англ. Mean Absolute Percentage Error, MAPE)
  13. Корень из средней квадратичной ошибки (англ. Root Mean Squared Error, RMSE)
  14. Cимметричная MAPE (англ. Symmetric MAPE, SMAPE)
  15. Средняя абсолютная масштабированная ошибка (англ. Mean absolute scaled error, MASE)
  16. Оценки качества классификации
  17. Матрица ошибок (англ. Сonfusion matrix)
  18. Аккуратность (англ. Accuracy)
  19. Точность (англ. Precision)
  20. Полнота (англ. Recall)
  21. F-мера (англ. F-score)
  22. Accuracy, precision и recall
  23. Accuracy
  24. Precision, recall и F-мера
  25. AUC-ROC и AUC-PR
  26. Logistic Loss

От ритейла до банка: 5 примеров применения Big Data и Machine Learning в задачах прогнозирования спроса и предложения

Машинное обучение на Python

Код курса
PYML
Ближайшая дата курса

26 февраля, 2024

Продолжительность
24 ак.часов
Стоимость обучения
49 500 руб.

Что такое матрица ошибок и зачем она нужна: пример расчета стоимости ошибки прогнозирования

Матрица ошибок (confusion matrix), оценка точности прогноза
Матрица ошибок (confusion matrix)
  • Точность
    – сколько всего результатов было предсказано верно;
  • Доля ошибок
    ;
  • Полнота
    – сколько истинных результатов было предсказано верно;
  • F-мера
    , которая позволяет сравнить 2 модели, одновременно оценив полноту и точность. Здесь используется среднее гармоническое вместо среднего арифметического, сглаживая расчеты за счет исключения экстремальных значений.

В количественном выражении это будет выглядеть так:

  • P

    – число истинных результатов, P = TP + FN

    ;
  • N

    – число ложных результатов, N = TN + FP

    .
оценка качества, предиктивная аналитика, машинное обучение, Machine Learning
Метрики оценки качества прогноза: полнота, точность, F-мера

Рассмотрим матрицу ошибок на практическом примере для задачи прогнозирования спроса на скоропортящуюся продукцию, которая должна быть продана конечному пользователю в течение суток. Например, букеты цветов, продающиеся по цене k

рублей при закупочной стоимости в p

рублей. Предположим, с помощью Machine Learning было предложена 2 варианта:

  • Положительный прогноз (+)
    , что по цене k

    будут полностью раскуплены все цветы в количестве n

    букетов.
  • Отрицательный прогноз (+)
    , что по цене k

    будут полностью раскуплены не все цветы, останется m

    не проданных букетов.

Соответственно, матрица ошибок для этого случая будет выглядеть следующим образом:

Аналитика больших данных для руководителей

Код курса
BDAM
Ближайшая дата курса

22 января, 2024

Продолжительность
24 ак.часов
Стоимость обучения
66 000 руб.

Таким образом, с помощью confusion matrix можно измерить эффективность прогноза в денежном выражении, что весьма актуально для практического бизнес-приложения Machine Learning. Впрочем, отметим еще раз, что данный метод предварительной оценки будущих сценариев можно использовать и вне сферы Data Science, оценивая риски и перспективы в рамках классического бизнес-анализа.

Спрос и предложение
Точный прогноз спроса на скоропортящиеся товары позволит избежать убытков

Другие практические вопросы системного и бизнес-анализа рассматриваются в рамках нашей Школы прикладного бизнес-анализа
. А особенности практического применения больших данных и машинного обучения разбираются на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков  Big Data
) в Москве:

Table of confusion

In predictive analytics
, a table of confusion
(sometimes also called a confusion matrix
) is a table with two rows and two columns that reports the number of true positives
, false negatives
, false positives
, and true negatives
. This allows more detailed analysis than simply observing the proportion of correct classifications (accuracy). Accuracy will yield misleading results if the data set is unbalanced; that is, when the numbers of observations in different classes vary greatly.

For example, if there were 95 cancer samples and only 5 non-cancer samples in the data, a particular classifier might classify all the observations as having cancer. The overall accuracy would be 95%, but in more detail the classifier would have a 100% recognition rate ( sensitivity
) for the cancer class but a 0% recognition rate for the non-cancer class. F1 score
is even more unreliable in such cases, and here would yield over 97.4%, whereas informedness
removes such bias and yields 0 as the probability of an informed decision for any form of guessing (here always guessing cancer).

Other metrics can be included in a confusion matrix, each of them having their significance and use.

Подытожим

  • В случае многоклассовой классификации нужно внимательно следить за метриками каждого из классов и следовать логике решения задачи
    , а не оптимизации метрики
  • В случае неравных классов нужно подбирать баланс классов для обучения и метрику, которая будет корректно отражать качество классификации
  • Выбор метрики нужно делать с фокусом на предметную область, предварительно обрабатывая данные и, возможно, сегментируя (как в случае с делением на богатых и бедных клиентов)

Метрики в задачах машинного обучения

Время на прочтение

CONFUSION MATRIX ЧТО ЭТО

В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.

В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.

Полезные ссылки

  1. Курс Евгения Соколова: Семинар по выбору моделей
    (там есть информация по метрикам задач регрессии)
  2. Задачки
    на AUC-ROC от А. Г. Дьяконова
  3. Дополнительно о других метриках можно почитать на kaggle
    . К описанию каждой метрики добавлена ссылка на соревнования, где она использовалась
  4. Презентация
    Богдана Мельника aka ld86
    про обучение на несбалансированных выборках

Оценки качества регрессии

Наиболее типичными мерами качества в задачах регрессии являются

Средняя квадратичная ошибка (англ. Mean Squared Error, MSE)

MSE
применяется в ситуациях, когда нам надо подчеркнуть большие ошибки и выбрать модель, которая дает меньше больших ошибок прогноза. Грубые ошибки становятся заметнее за счет того, что ошибку прогноза мы возводим в квадрат. И модель, которая дает нам меньшее значение среднеквадратической ошибки, можно сказать, что что у этой модели меньше грубых ошибок.

и

Cредняя абсолютная ошибка (англ. Mean Absolute Error, MAE)

Среднеквадратичный функционал сильнее штрафует за большие отклонения по сравнению со среднеабсолютным, и поэтому более чувствителен к выбросам. При использовании любого из этих двух функционалов может быть полезно проанализировать, какие объекты вносят наибольший вклад в общую ошибку — не исключено, что на этих объектах была допущена ошибка при вычислении признаков или целевой величины.

Среднеквадратичная ошибка подходит для сравнения двух моделей или для контроля качества во время обучения, но не позволяет сделать выводов о том, на сколько хорошо данная модель решает задачу. Например, MSE = 10 является очень плохим показателем, если целевая переменная принимает значения от 0 до 1, и очень хорошим, если целевая переменная лежит в интервале (10000, 100000). В таких ситуациях вместо среднеквадратичной ошибки полезно использовать коэффициент детерминации —

Коэффициент детерминации измеряет долю дисперсии, объясненную моделью, в общей дисперсии целевой переменной. Фактически, данная мера качества — это нормированная среднеквадратичная ошибка. Если она близка к единице, то модель хорошо объясняет данные, если же она близка к нулю, то прогнозы сопоставимы по качеству с константным предсказанием.

Средняя абсолютная процентная ошибка (англ. Mean Absolute Percentage Error, MAPE)

Это коэффициент, не имеющий размерности, с очень простой интерпретацией. Его можно измерять в долях или процентах. Если у вас получилось, например, что MAPE=11.4%, то это говорит о том, что ошибка составила 11,4% от фактических значений.
Основная проблема данной ошибки — нестабильность.

Корень из средней квадратичной ошибки (англ. Root Mean Squared Error, RMSE)

Примерно такая же проблема, как и в MAPE: так как каждое отклонение возводится в квадрат, любое небольшое отклонение может значительно повлиять на показатель ошибки. Стоит отметить, что существует также ошибка MSE, из которой RMSE как раз и получается путем извлечения корня.

Cимметричная MAPE (англ. Symmetric MAPE, SMAPE)

Средняя абсолютная масштабированная ошибка (англ. Mean absolute scaled error, MASE)

MASE
является очень хорошим вариантом для расчета точности, так как сама ошибка не зависит от масштабов данных и является симметричной: то есть положительные и отрицательные отклонения от факта рассматриваются в равной степени.
Обратите внимание, что в MASE
мы имеем дело с двумя суммами: та, что в числителе, соответствует тестовой выборке, та, что в знаменателе — обучающей. Вторая фактически представляет собой среднюю абсолютную ошибку прогноза. Она же соответствует среднему абсолютному отклонению ряда в первых разностях. Эта величина, по сути, показывает, насколько обучающая выборка предсказуема. Она может быть равна нулю только в том случае, когда все значения в обучающей выборке равны друг другу, что соответствует отсутствию каких-либо изменений в ряде данных, ситуации на практике почти невозможной. Кроме того, если ряд имеет тенденцию к росту либо снижению, его первые разности будут колебаться около некоторого фиксированного уровня. В результате этого по разным рядам с разной структурой, знаменатели будут более-менее сопоставимыми. Всё это, конечно же, является очевидными плюсами MASE
, так как позволяет складывать разные значения по разным рядам и получать несмещённые оценки.

Недостаток MASE
в том, что её тяжело интерпретировать. Например, MASE
=1.21 ни о чём, по сути, не говорит. Это просто означает, что ошибка прогноза оказалась в 1.21 раза выше среднего абсолютного отклонения ряда в первых разностях, и ничего более.

Оценки качества классификации

Матрица ошибок (англ. Сonfusion matrix)

Перед переходом к самим метрикам необходимо ввести важную концепцию для описания этих метрик в терминах ошибок классификации — confusion matrix (матрица ошибок).
Допустим, что у нас есть два класса и алгоритм, предсказывающий принадлежность каждого объекта одному из классов.
Рассмотрим пример. Пусть банк использует систему классификации заёмщиков на кредитоспособных и некредитоспособных. При этом первым кредит выдаётся, а вторые получат отказ. Таким образом, обнаружение некредитоспособного заёмщика () можно рассматривать как «сигнал тревоги», сообщающий о возможных рисках.

Любой реальный классификатор совершает ошибки. В нашем случае таких ошибок может быть две:

  • Кредитоспособный заёмщик распознается моделью как некредитоспособный и ему отказывается в кредите. Данный случай можно трактовать как «ложную тревогу».
  • Некредитоспособный заёмщик распознаётся как кредитоспособный и ему ошибочно выдаётся кредит. Данный случай можно рассматривать как «пропуск цели».

Несложно увидеть, что эти ошибки неравноценны по связанным с ними проблемам. В случае «ложной тревоги» потери банка составят только проценты по невыданному кредиту (только упущенная выгода). В случае «пропуска цели» можно потерять всю сумму выданного кредита. Поэтому системе важнее не допустить «пропуск цели», чем «ложную тревогу».

Поскольку с точки зрения логики задачи нам важнее правильно распознать некредитоспособного заёмщика с меткой , чем ошибиться в распознавании кредитоспособного, будем называть соответствующий исход классификации положительным (заёмщик некредитоспособен), а противоположный — отрицательным (заемщик кредитоспособен ). Тогда возможны следующие исходы классификации:

  • Некредитоспособный заёмщик классифицирован как некредитоспособный, т.е. положительный класс распознан как положительный. Наблюдения, для которых это имеет место называются истинно-положительными
    ( True Positive
    TP
    ).
  • Кредитоспособный заёмщик классифицирован как кредитоспособный, т.е. отрицательный класс распознан как отрицательный. Наблюдения, которых это имеет место, называются истинно отрицательными
    ( True Negative
    TN
    ).
  • Кредитоспособный заёмщик классифицирован как некредитоспособный, т.е. имела место ошибка, в результате которой отрицательный класс был распознан как положительный. Наблюдения, для которых был получен такой исход классификации, называются ложно-положительными
    ( False Positive
    FP
    ), а ошибка классификации называется ошибкой I рода
    .
  • Некредитоспособный заёмщик распознан как кредитоспособный, т.е. имела место ошибка, в результате которой положительный класс был распознан как отрицательный. Наблюдения, для которых был получен такой исход классификации, называются ложно-отрицательными
    ( False Negative
    FN
    ), а ошибка классификации называется ошибкой II рода
    .

Таким образом, ошибка I рода, или ложно-положительный исход классификации, имеет место, когда отрицательное наблюдение распознано моделью как положительное. Ошибкой II рода, или ложно-отрицательным исходом классификации, называют случай, когда положительное наблюдение распознано как отрицательное. Поясним это с помощью матрицы ошибок классификации:

Здесь — это ответ алгоритма на объекте, а — истинная метка класса на этом объекте.
Таким образом, ошибки классификации бывают двух видов: False Negative
( FN
) и False Positive
( FP
).
P
означает что классификатор определяет класс объекта как положительный ( N
— отрицательный). T
значит что класс предсказан правильно (соответственно F
— неправильно). Каждая строка в матрице ошибок представляет спрогнозированный класс, а каждый столбец — фактический класс.

     # код для матрицы ошибок    

       # Пример классификатора, способного проводить различие между всего лишь двумя    
    

       # классами, "пятерка" и "не пятерка" из набора рукописных цифр MNIST    
    

    import    
 numpy    as    
 np
    from    
 sklearn.datasets    import    
 fetch_openml
    from    
 sklearn.model_selection    import    
 cross_val_predict
    from    
 sklearn.metrics    import    
 confusion_matrix
    from    
 sklearn.linear_model    import    
 SGDClassifier
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)    # True для всех пятерок, False для в сех остальных цифр.  Задача опознать пятерки    

 y_test_5 = (y_test == 5)
 sgd_clf = SGDClassifier(random_state=42)    # классификатор на основе метода стохастического градиентного спуска (англ.  Stochastic Gradient Descent SGD)    

 sgd_clf.fit(X_train, y_train_5)    # обучаем классификатор распозновать пятерки на целом обучающем наборе    

    # Для расчета матрицы ошибок сначала понадобится иметь набор прогнозов, чтобы их можно было сравнивать с фактическими целями    

 y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
 print(confusion_matrix(y_train_5, y_train_pred))
 
  

Безупречный классификатор имел бы только истинно-поло­жительные и истинно отрицательные классификации, так что его матрица ошибок содержала бы ненулевые значения только на своей главной диа­гонали (от левого верхнего до правого нижнего угла):

     import    
 numpy    as    
 np
    from    
 sklearn.datasets    import    
 fetch_openml
    from    
 sklearn.metrics    import    
 confusion_matrix
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)    # True для всех пятерок, False для в сех остальных цифр.  Задача опознать пятерки    

 y_test_5 = (y_test == 5)
 y_train_perfect_predictions = y_train_5    # притворись, что мы достигли совершенства    

 print(confusion_matrix(y_train_5, y_train_perfect_predictions))
 
  

Аккуратность (англ. Accuracy)

Интуитивно понятной, очевидной и почти неиспользуемой метрикой является accuracy
— доля правильных ответов алгоритма:

Эта метрика бесполезна в задачах с неравными классами, что как вариант можно исправить с помощью алгоритмов сэмплирования
и это легко показать на примере.

Допустим, мы хотим оценить работу спам-фильтра почты. У нас есть 100 не-спам писем, 90 из которых наш классификатор определил верно (True Negative = 90, False Positive = 10), и 10 спам-писем, 5 из которых классификатор также определил верно (True Positive = 5, False Negative = 5).
Тогда accuracy:

Однако если мы просто будем предсказывать все письма как не-спам, то получим более высокую аккуратность
:

При этом, наша модель совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это нам поможет переход с общей для всех классов метрики к отдельным показателям качества классов.

     # код для для подсчета аккуратности:    

       # Пример классификатора, способного проводить различие между всего лишь двумя    

    # классами, "пятерка" и "не пятерка" из набора рукописных цифр MNIST    
    

    import    
 numpy    as    
 np
    from    
 sklearn.datasets    import    
 fetch_openml
    from    
 sklearn.model_selection    import    
 cross_val_predict
    from    
 sklearn.metrics    import    
 accuracy_score
    from    
 sklearn.linear_model    import    
 SGDClassifier
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)    # True для всех пятерок, False для в сех остальных цифр.  Задача опознать пятерки    

 y_test_5 = (y_test == 5)
 sgd_clf = SGDClassifier(random_state=42)    # классификатор на основе метода стохастического градиентного спуска (Stochastic Gradient Descent SGD)    

 sgd_clf.fit(X_train, y_train_5)    # обучаем классификатор распозновать пятерки на целом обучающем наборе    

 y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
 
 print(accuracy_score(y_train_5, y_train_pred))    # == (53892 + 3530) / (53892 + 3530 + 1891 +687)    

 
 
  

Точность (англ. Precision)

Точностью ( precision
) называется доля правильных ответов модели в пределах класса — это доля объектов действительно принадлежащих данному классу относительно всех объектов которые система отнесла к этому классу.

Именно введение precision
не позволяет нам записывать все объекты в один класс, так как в этом случае мы получаем рост уровня False Positive
.

Полнота (англ. Recall)

Полнота — это доля истинно положительных классификаций. Полнота показывает, какую долю объектов, реально относящихся к положительному классу, мы предсказали верно.

Полнота ( recall
) демонстрирует способность алгоритма обнаруживать данный класс вообще.

Имея матрицу ошибок, очень просто можно вычислить точность и полноту для каждого класса. Точность ( precision
) равняется отношению соответствующего диагонального элемента матрицы и суммы всей строки класса. Полнота ( recall
) — отношению диагонального элемента матрицы и суммы всего столбца класса. Формально:

Результирующая точность классификатора рассчитывается как арифметическое среднее его точности по всем классам. То же самое с полнотой. Технически этот подход называется macro-averaging
.

     # код для для подсчета точности и полноты:
    # Пример классификатора, способного проводить различие между всего лишь двумя    

    # классами, "пятерка" и "не пятерка" из набора рукописных цифр MNIST    
    

    import    
 numpy    as    
 np
    from    
 sklearn.datasets    import    
 fetch_openml
    from    
 sklearn.model_selection    import    
 cross_val_predict
    from    
 sklearn.metrics    import    
 precision_score, recall_score
    from    
 sklearn.linear_model    import    
 SGDClassifier
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)    # True для всех пятерок, False для в сех остальных цифр.  Задача опознать пятерки    

 y_test_5 = (y_test == 5)
 sgd_clf = SGDClassifier(random_state=42)    # классификатор на основе метода стохастического градиентного спуска (Stochastic Gradient Descent SGD)    

 sgd_clf.fit(X_train, y_train_5)    # обучаем классификатор распозновать пятерки на целом обучающем наборе    

 y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
 
 print(precision_score(y_train_5, y_train_pred))    # == 3530 / (3530 + 687)    

 print(recall_score(y_train_5, y_train_pred))    # == 3530 / (3530 + 1891)    

 
    # 0.8370879772350012
 # 0.6511713705958311    

  

F-мера (англ. F-score)

Precision
и recall
не зависят, в отличие от accuracy
, от соотношения классов и потому применимы в условиях несбалансированных выборок.
Часто в реальной практике стоит задача найти оптимальный (для заказчика) баланс между этими двумя метриками. Понятно что чем выше точность и полнота, тем лучше. Но в реальной жизни максимальная точность и полнота не достижимы одновременно и приходится искать некий баланс. Поэтому, хотелось бы иметь некую метрику которая объединяла бы в себе информацию о точности и полноте нашего алгоритма. В этом случае нам будет проще принимать решение о том какую реализацию запускать в производство (у кого больше тот и круче). Именно такой метрикой является F-мера
.

F-мера представляет собой гармоническое среднее
между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю.

Данная формула придает одинаковый вес точности и полноте, поэтому F-мера будет падать одинаково при уменьшении и точности и полноты. Возможно рассчитать F-меру
придав различный вес точности и полноте, если вы осознанно отдаете приоритет одной из этих метрик при разработке алгоритма:

где принимает значения в диапазоне если вы хотите отдать приоритет точности, а при приоритет отдается полноте. При формула сводится к предыдущей и вы получаете сбалансированную F-меру (также ее называют ).

F-мера
достигает максимума при максимальной полноте и точности, и близка к нулю, если один из аргументов близок к нулю.

F-мера
является хорошим кандидатом на формальную метрику оценки качества классификатора. Она сводит к одному числу две других основополагающих метрики: точность и полноту. Имея «F-меру» гораздо проще ответить на вопрос: «поменялся алгоритм в лучшую сторону или нет?»

     # код для подсчета метрики F-mera:
    # Пример классификатора, способного проводить различие между всего лишь двумя    

    # классами, "пятерка" и "не пятерка" из набора рукописных цифр MNIST    
    

    import    
 numpy    as    
 np
    from    
 sklearn.datasets    import    
 fetch_openml
    from    
 sklearn.model_selection    import    
 cross_val_predict
    from    
 sklearn.linear_model    import    
 SGDClassifier
    from    
 sklearn.metrics    import    
 f1_score
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)    # True для всех пятерок, False для в сех остальных цифр.  Задача опознать пятерки    

 y_test_5 = (y_test == 5)
 sgd_clf = SGDClassifier(random_state=42)    # классификатор на основе метода стохастического градиентного спуска (Stochastic Gradient Descent SGD)    

 sgd_clf.fit(X_train, y_train_5)    # обучаем классификатор распознавать пятерки на целом обучающем наборе    

 y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
 print(f1_score(y_train_5, y_train_pred))
 
 
  

Кривая рабочих характеристик
(англ. Receiver Operating Characteristics curve
).
Используется для анализа поведения классификаторов при различных пороговых значениях.
Позволяет рассмотреть все пороговые значения для данного классификатора.
Показывает долю ложно положительных примеров (англ. false positive rate, FPR
) в сравнении с долей истинно положительных примеров (англ. true positive rate, TPR
).

ROC 2.png

Доля FPR
— это пропорция отрицательных образцов, которые были некорректно классифицированы как положительные.

,

где TNR
— доля истинно отрицательных классификаций (англ. Тrие Negative Rate
), пред­ставляющая собой пропорцию отрицательных образцов, которые были кор­ректно классифицированы как отрицательные.

Доля TNR
также называется специфичностью
(англ. specificity
). Следовательно, ROC-кривая изображает чувствительность
(англ. seпsitivity
), т.е. полноту, в срав­нении с разностью 1 — specificity
.

Прямая линия по диагонали представляет ROC-кривую чисто случайного классификатора. Хороший классификатор держится от указанной линии настолько далеко, насколько это
возможно (стремясь к левому верхнему углу).

Один из способов сравнения классификаторов предусматривает измере­ние площади под кривой
(англ. Area Under the Curve — AUC
). Безупречный клас­сификатор будет иметь площадь под ROC-кривой ( ROC-AUC
), равную 1, тогда как чисто случайный классификатор — площадь 0.5.

     # Код отрисовки ROC-кривой
    # На примере классификатора, способного проводить различие между всего лишь двумя классами    

    # "пятерка" и "не пятерка" из набора рукописных цифр MNIST    
    

    from    
 sklearn.metrics    import    
 roc_curve
    import    
 matplotlib.pyplot    as    
 plt
    import    
 numpy    as    
 np
    from    
 sklearn.datasets    import    
 fetch_openml
    from    
 sklearn.model_selection    import    
 cross_val_predict
    from    
 sklearn.linear_model    import    
 SGDClassifier
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)    # True для всех пятерок, False для в сех остальных цифр.  Задача опознать пятерки    

 y_test_5 = (y_test == 5)
 sgd_clf = SGDClassifier(random_state=42)    # классификатор на основе метода стохастического градиентного спуска (Stochastic Gradient Descent SGD)    

 sgd_clf.fit(X_train, y_train_5)    # обучаем классификатор распозновать пятерки на целом обучающем наборе    

 y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
 y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method="decision_function")
 fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)
 def plot_roc_curve(fpr, tpr, label=None):
 plt.plot(fpr, tpr, linewidth=2, label=label)
 plt.plot([0, 1], [0, 1], 'k--') # dashed diagonal
 plt.xlabel('False Positive Rate, FPR (1 - specificity)')
 plt.ylabel('True Positive Rate, TPR (Recall)')
 plt.title('ROC curve')
 plt.savefig("ROC.png")
 plot_roc_curve(fpr, tpr)
 plt.show()
  

Чувствительность к соотношению классов.

Рассмотрим задачу выделения математических статей из множества научных статей. Допустим, что всего имеется 1.000.100 статей, из которых лишь 100 относятся к математике. Если нам удастся построить алгоритм , идеально решающий задачу, то его TPR будет равен единице, а FPR — нулю. Рассмотрим теперь плохой алгоритм, дающий положительный ответ на 95 математических и 50.000 нематематических статьях. Такой алгоритм совершенно бесполезен, но при этом имеет TPR = 0.95 и FPR = 0.05, что крайне близко к показателям идеального алгоритма.
Таким образом, если положительный класс существенно меньше по размеру, то AUC-ROC может давать неадекватную оценку качества работы алгоритма, поскольку измеряет долю неверно принятых объектов относительно общего числа отрицательных. Так, алгоритм , помещающий 100 релевантных документов на позиции с 50.001-й по 50.101-ю, будет иметь AUC-ROC 0.95.

Precison-recall (PR) кривая.
Избавиться от указанной проблемы с несбалансированными классами можно, перейдя от ROC-кривой к PR-кривой. Она определяется аналогично ROC-кривой, только по осям откладываются не FPR и TPR, а полнота (по оси абсцисс) и точность (по оси ординат). Критерием качества семейства алгоритмов выступает площадь под PR-кривой
(англ. Area Under the Curve — AUC-PR
)

PR curve.png

     # Код отрисовки Precison-recall кривой
    # На примере классификатора, способного проводить различие между всего лишь двумя классами    

    # "пятерка" и "не пятерка" из набора рукописных цифр MNIST    
    

    from    
 sklearn.metrics    import    
 precision_recall_curve
    import    
 matplotlib.pyplot    as    
 plt
    import    
 numpy    as    
 np
    from    
 sklearn.datasets    import    
 fetch_openml
    from    
 sklearn.model_selection    import    
 cross_val_predict
    from    
 sklearn.linear_model    import    
 SGDClassifier
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)    # True для всех пятерок, False для в сех остальных цифр.  Задача опознать пятерки    

 y_test_5 = (y_test == 5)
 sgd_clf = SGDClassifier(random_state=42)    # классификатор на основе метода стохастического градиентного спуска (Stochastic Gradient Descent SGD)    

 sgd_clf.fit(X_train, y_train_5)    # обучаем классификатор распозновать пятерки на целом обучающем наборе    

 y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
 y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method="decision_function")
 precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)
 def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
 plt.plot(recalls, precisions, linewidth=2)
 plt.xlabel('Recall')
 plt.ylabel('Precision')
 plt.title('Precision-Recall curve')
 plt.savefig("Precision_Recall_curve.png")
 plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
 plt.show()
  

Accuracy, precision и recall

Перед переходом к самим метрикам необходимо ввести важную концепцию для описания этих метрик в терминах ошибок классификации — confusion matrix
(матрица ошибок).

Допустим, что у нас есть два класса и алгоритм, предсказывающий принадлежность каждого объекта одному из классов, тогда матрица ошибок классификации будет выглядеть следующим образом:

Здесь $\hat y$
— это ответ алгоритма на объекте, а $y$
— истинная метка класса на этом объекте.

Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP).

Обучение алгоритма и построение матрицы ошибок

   X = df.drop('Churn', axis=1)
y = df['Churn']

# Делим выборку на train и test, все метрики будем оценивать на тестовом датасете

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,  test_size=0.33, random_state=42)

# Обучаем ставшую родной логистическую регрессию

lr = LogisticRegression(random_state=42)
lr.fit(X_train, y_train)

# Воспользуемся функцией построения матрицы ошибок из документации sklearn

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j],
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

font = {'size' : 15}

plt.rc('font', **font)

cnf_matrix = confusion_matrix(y_test, lr.predict(X_test))
plt.figure(figsize=(10, 8))
plot_confusion_matrix(cnf_matrix, classes=['Non-churned', 'Churned'],
                      title='Confusion matrix')
plt.savefig("conf_matrix.png")
plt.show()
  
  

CONFUSION MATRIX ЧТО ЭТО

Accuracy

Интуитивно понятной, очевидной и почти неиспользуемой метрикой является accuracy — доля правильных ответов алгоритма:

$\large accuracy = \frac{TP + TN}{TP + TN + FP + FN}$

Эта метрика бесполезна в задачах с неравными классами, и это легко показать на примере.

Допустим, мы хотим оценить работу спам-фильтра почты. У нас есть 100 не-спам писем, 90 из которых наш классификатор определил верно (True Negative = 90, False Positive = 10), и 10 спам-писем, 5 из которых классификатор также определил верно (True Positive = 5, False Negative = 5).

Тогда accuracy:

$\ accuracy = \frac{5 + 90}{5 + 90 + 10 + 5} = 86,4% $

Однако если мы просто будем предсказывать все письма как не-спам, то получим более высокую accuracy:

$\ accuracy = \frac{0 + 100}{0 + 100 + 0 + 10} = 90,9% $

При этом, наша модель совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это нам поможет переход с общей для всех классов метрики к отдельным показателям качества классов.

Precision, recall и F-мера

Для оценки качества работы алгоритма на каждом из классов по отдельности введем метрики precision (точность) и recall (полнота).

$\large precision = \frac{TP}{TP + FP}$

$\large recall = \frac{TP}{TP + FN}$

Precision можно интерпретировать как долю объектов, названных классификатором положительными и при этом действительно являющимися положительными, а recall показывает, какую долю объектов положительного класса из всех объектов положительного класса нашел алгоритм.



Именно введение precision не позволяет нам записывать все объекты в один класс, так как в этом случае мы получаем рост уровня False Positive. Recall демонстрирует способность алгоритма обнаруживать данный класс вообще, а precision — способность отличать этот класс от других классов.

Как мы отмечали ранее, ошибки классификации бывают двух видов: False Positive и False Negative. В статистике первый вид ошибок называют ошибкой I-го рода, а второй — ошибкой II-го рода. В нашей задаче по определению оттока абонентов, ошибкой первого рода будет принятие лояльного абонента за уходящего, так как наша нулевая гипотеза
состоит в том, что никто из абонентов не уходит, а мы эту гипотезу отвергаем. Соответственно, ошибкой второго рода будет являться «пропуск» уходящего абонента и ошибочное принятие нулевой гипотезы.

Precision и recall не зависят, в отличие от accuracy, от соотношения классов и потому применимы в условиях несбалансированных выборок.

Часто в реальной практике стоит задача найти оптимальный (для заказчика) баланс между этими двумя метриками. Классическим примером является задача определения оттока клиентов.

Очевидно, что мы не можем находить всех
уходящих в отток клиентов и только
их. Но, определив стратегию и ресурс для удержания клиентов, мы можем подобрать нужные пороги по precision и recall. Например, можно сосредоточиться на удержании только высокодоходных клиентов или тех, кто уйдет с большей вероятностью, так как мы ограничены в ресурсах колл-центра.

Обычно при оптимизации гиперпараметров алгоритма (например, в случае перебора по сетке GridSearchCV

) используется одна метрика, улучшение которой мы и ожидаем увидеть на тестовой выборке.

Существует несколько различных способов объединить precision и recall в агрегированный критерий качества. F-мера (в общем случае $\ F_\beta$
) — среднее гармоническое precision и recall :

$\large \ F_\beta = (1 + \beta^2) \cdot \frac{precision \cdot recall}{(\beta^2 \cdot precision) + recall}$

$\beta$
в данном случае определяет вес точности в метрике, и при $\beta = 1$
это среднее гармоническое (с множителем 2, чтобы в случае precision = 1 и recall = 1 иметь $\ F_1 = 1$
)

F-мера достигает максимума при полноте и точности, равными единице, и близка к нулю, если один из аргументов близок к нулю.

В sklearn есть удобная функция _metrics.classification report
, возвращающая recall, precision и F-меру для каждого из классов, а также количество экземпляров каждого класса.

   report = classification_report(y_test, lr.predict(X_test), target_names=['Non-churned', 'Churned'])
print(report)
  
  

Здесь необходимо отметить, что в случае задач с несбалансированными классами, которые превалируют в реальной практике, часто приходится прибегать к техникам искусственной модификации датасета для выравнивания соотношения классов. Их существует много, и мы не будем их касаться, здесь
можно посмотреть некоторые методы и выбрать подходящий для вашей задачи.

AUC-ROC и AUC-PR

При конвертации вещественного ответа алгоритма (как правило, вероятности принадлежности к классу, отдельно см. SVM
) в бинарную метку, мы должны выбрать какой-либо порог, при котором 0 становится 1. Естественным и близким кажется порог, равный 0.5, но он не всегда оказывается оптимальным, например, при вышеупомянутом отсутствии баланса классов.

Одним из способов оценить модель в целом, не привязываясь к конкретному порогу, является AUC-ROC (или ROC AUC) — площадь ( A
rea U
nder C
urve) под кривой ошибок ( R
eceiver O
perating C
haracteristic curve ). Данная кривая представляет из себя линию от (0,0) до (1,1) в координатах True Positive Rate (TPR) и False Positive Rate (FPR):

$\large TPR = \frac{TP}{TP + FN}$

$\large FPR = \frac{FP}{FP + TN}$

TPR нам уже известна, это полнота, а FPR показывает, какую долю из объектов negative класса алгоритм предсказал неверно. В идеальном случае, когда классификатор не делает ошибок (FPR = 0, TPR = 1) мы получим площадь под кривой, равную единице; в противном случае, когда классификатор случайно выдает вероятности классов, AUC-ROC будет стремиться к 0.5, так как классификатор будет выдавать одинаковое количество TP и FP.

Каждая точка на графике соответствует выбору некоторого порога. Площадь под кривой в данном случае показывает качество алгоритма (больше — лучше), кроме этого, важной является крутизна самой кривой — мы хотим максимизировать TPR, минимизируя FPR, а значит, наша кривая в идеале должна стремиться к точке (0,1).

Код отрисовки ROC-кривой

   sns.set(font_scale=1.5)
sns.set_color_codes("muted")

plt.figure(figsize=(10, 8))
fpr, tpr, thresholds = roc_curve(y_test, lr.predict_proba(X_test)[:,1], pos_label=1)
lw = 2
plt.plot(fpr, tpr, lw=lw, label='ROC curve ')
plt.plot([0, 1], [0, 1])
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curve')
plt.savefig("ROC.png")
plt.show()
  
  

CONFUSION MATRIX ЧТО ЭТО

Критерий AUC-ROC устойчив к несбалансированным классам (спойлер: увы, не всё так однозначно) и может быть интерпретирован как вероятность того, что случайно выбранный positive объект будет проранжирован классификатором выше (будет иметь более высокую вероятность быть positive), чем случайно выбранный negative объект.

Рассмотрим следующую задачу: нам необходимо выбрать 100 релевантных документов из 1 миллиона документов. Мы намашинлернили два алгоритма:

  • Алгоритм 1
    возвращает 100 документов, 90 из которых релевантны. Таким образом,

$ TPR = \frac{TP}{TP + FN} = \frac{90}{90 + 10} = 0.9$

$ FPR = \frac{FP}{FP + TN} = \frac{10}{10 + 999890} = 0.00001$

  • Алгоритм 2
    возвращает 2000 документов, 90 из которых релевантны. Таким образом,

$ TPR = \frac{TP}{TP + FN} = \frac{90}{90 + 10} = 0.9$

$ FPR = \frac{FP}{FP + TN} = \frac{1910}{1910 + 997990} = 0.00191$

Скорее всего, мы бы выбрали первый алгоритм, который выдает очень мало False Positive на фоне своего конкурента. Но разница в False Positive Rate между этими двумя алгоритмами крайне
мала — всего 0.0019. Это является следствием того, что AUC-ROC измеряет долю False Positive относительно True Negative и в задачах, где нам не так важен второй (больший) класс, может давать не совсем адекватную картину при сравнении алгоритмов.

Для того чтобы поправить положение, вернемся к полноте и точности :

  • Алгоритм 1

$\ precision = \frac{TP}{TP + FP} = 90/(90 + 10) = 0.9 $

$\ recall = \frac{TP}{TP + FN} = 90/(90 + 10) = 0.9 $

  • Алгоритм 2

$\ precision = \frac{TP}{TP + FP} = \frac{90}{90 + 1910} = 0.045 $

$\ recall = \frac{TP}{TP + FN} = \frac{90}{90 + 10} = 0.9 $

Здесь уже заметна существенная разница между двумя алгоритмами — 0.855 в точности!

Precision и recall также используют для построения кривой и, аналогично AUC-ROC, находят площадь под ней.

CONFUSION MATRIX ЧТО ЭТО

Здесь можно отметить, что на маленьких датасетах площадь под PR-кривой может быть чересчур оптимистична, потому как вычисляется по методу трапеций, но обычно в таких задачах данных достаточно. За подробностями о взаимоотношениях AUC-ROC и AUC-PR можно обратиться сюда
.

Logistic Loss

Особняком стоит логистическая функция потерь, определяемая как:

$\large logloss = - \frac{1}{l} \cdot \sum_{i=1}^l (y_i \cdot log(\hat y_i) + (1 - y_i) \cdot log(1 - \hat y_i))$

здесь $\hat y$
— это ответ алгоритма на $i$
-ом объекте, $y$
— истинная метка класса на $i$
-ом объекте, а $l$
размер выборки.

Подробно про математическую интерпретацию логистической функции потерь уже написано в рамках поста
про линейные модели.

Данная метрика нечасто выступает в бизнес-требованиях, но часто — в задачах на kaggle
.

Интуитивно можно представить минимизацию logloss как задачу максимизации accuracy путем штрафа за неверные предсказания. Однако необходимо отметить, что logloss крайне сильно штрафует за уверенность классификатора в неверном ответе.

   def logloss_crutch(y_true, y_pred, eps=1e-15):

    return - (y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))

print('Logloss при неуверенной классификации %f' % logloss_crutch(1, 0.5))
>> Logloss при неуверенной классификации 0.693147

print('Logloss при уверенной классификации и верном ответе %f' % logloss_crutch(1, 0.9))
>> Logloss при уверенной классификации и верном ответе 0.105361

print('Logloss при уверенной классификации и НЕверном ответе %f' % logloss_crutch(1, 0.1))
>> Logloss при уверенной классификации и НЕверном ответе 2.302585  
  

Отметим, как драматически выросла logloss при неверном ответе и уверенной классификации!

Следовательно, ошибка на одном объекте может дать существенное ухудшение общей ошибки на выборке. Такие объекты часто бывают выбросами, которые нужно не забывать фильтровать или рассматривать отдельно.

Всё становится на свои места, если нарисовать график logloss:

CONFUSION MATRIX ЧТО ЭТО

Видно, что чем ближе к нулю ответ алгоритма при ground truth = 1, тем выше значение ошибки и круче растёт кривая.

Метрики в задачах классификации
Для демонстрации полезных функций sklearn
и наглядного представления метрик мы будем использовать
датасет
по оттоку клиентов телеком-оператора.

Загрузим необходимые библиотеки и посмотрим на данные

                                                                          
                         





Благодарности
Спасибо mephistopheies
и
madrugado
за помощь в подготовке статьи.

Оцените статью