Другие статьи

Цель нашей работы - изучение аминокислотного и минерального состава травы чертополоха поникшего
2010

Слово «этика» произошло от греческого «ethos», что в переводе означает обычай, нрав. Нравы и обычаи наших предков и составляли их нравственность, общепринятые нормы поведения.
2010

Артериальная гипертензия (АГ) является важнейшей медико-социальной проблемой. У 30% взрослого населения развитых стран мира определяется повышенный уровень артериального давления (АД) и у 12-15 % - наблюдается стойкая артериальная гипертензия
2010

Целью нашего исследования явилось определение эффективности применения препарата «Гинолакт» для лечения ВД у беременных.
2010

Целью нашего исследования явилось изучение эффективности и безопасности препарата лазолван 30мг у амбулаторных больных с ХОБЛ.
2010

Деформирующий остеоартроз (ДОА) в настоящее время является наиболее распространенным дегенеративно-дистрофическим заболеванием суставов, которым страдают не менее 20% населения земного шара.
2010

Целью работы явилась оценка анальгетической эффективности препарата Кетанов (кеторолак трометамин), у хирургических больных в послеоперационном периоде и возможности уменьшения использования наркотических анальгетиков.
2010

Для более объективного подтверждения мембранно-стабилизирующего влияния карбамезапина и ламиктала нами оценивались перекисная и механическая стойкости эритроцитов у больных эпилепсией
2010

Нами было проведено клинико-нейропсихологическое обследование 250 больных с ХИСФ (работающих в фосфорном производстве Каратау-Жамбылской биогеохимической провинции)
2010


C использованием разработанных алгоритмов и моделей был произведен анализ ситуации в системе здравоохранения биогеохимической провинции. Рассчитаны интегрированные показатели здоровья
2010

Специфические особенности Каратау-Жамбылской биогеохимической провинции связаны с производством фосфорных минеральных удобрений.
2010

Применение модели бинарного выбора для скоринга в банковской деятельности

Данная статья посвящена описанию модели бинарного выбора и обоснованию ее выбора для построения скоринговой модели в банках. Из множества моделей, которые способны определить влияние факторов на одну переменную, здесь рассматривалась именно логистическая регрессия. Именно она является традиционным статистическим инструментом для расчета коэффициентов скоринговой карты, а ROC-анализ обеспечивает управление рисками в зависимости от кредитной политики и стратегии организации. Логистическая регрессия предназначена для обширного спектра функций, в том числе анализа связи между определенным количеством независимых переменных и зависимой переменной. Данная логистическая регрессия является бинарной, что обозначает то, что зависимая переменная может принимать только два значения. Иными словами логистическая регрессия помогает оценить вероятность того, что некое событие наступит или не наступит для конкретного случая, в нашем варианте это возврат кредита или же дефолт. По данным результатам можно построить зависимость между поведением клиента и его платежеспособностью, и в последующем применять данную модель в банках при выдаче займа.

Логистическая регрессия является одним из важных инструментов для решения задач регрессии и классификации. Данный метод является неотъемлемым атрибутом в медицине и с относительно недавнего времени начал применяться в скоринге для оценки заемщиков. Логистическая регрессия предназначена для обширного спектра функций, в том числе анализ связи между определенным количеством независимых переменных и зависимой переменной. Данная логистическая регрессия является бинарной, что обозначает то, что зависимая переменная может принимать только два значения. Иными словами логистическая регрессия помогает оценить вероятность того, что некое событие наступит или не наступит для конкретного случая, в нашем варианте это возврат кредита или же дефолт.

Пусть рассматривается исход по займу, тогда задается переменная У с двумя значениями 1 или 0, где 1 – клиент расплатился по кредиту, 0 – дефолт.

Но здесь возникает некая неопределенность из-за бинарной природы переменной и модель будет иметь предсказанные значения превышающие 1 или меньше нуля. Однако значения превышающие данные пределы недопустимы для первоначальной задачи. Чтобы разрешить сложившуюся ситуацию, необходимо иначе сформулировать задачу регрессии. Вместо предыдущего предсказания зададим непрерывную переменную со значениями на отрезке от 0 до 1 при любых значениях независимых переменных [1]. Данное преобразование осуществляется при помощи уравнения логитпреобразования:

 

                                 (1)

где P – вероятность того, что произойдет интересующее событие;  е-экспонента  –  основание  натурального  логарифма

≈2,71; у – стандартное уравнение регрессии.

График зависимости между вероятностью события и величины объясняемой переменной показан на рисунке 1.

 

 

 

 

Рисунок 1 – Логистическая кривая (составлено автором c использованием источника [1])

 

 

 

Преобразуем вероятность P следующим образом:

 

                     (2)

Данное преобразование имеет название – логистическое или же логит-преобразование. Теоретически Pζ может принимать любое значение.

Есть несколько способов, с помощью которых представляется возможным найти коэффициенты логистической регрессии. Один из них метод максимального правдоподобия.

С помощью данного метода возможно получить оценки параметров генеральной совокупности по некоторым данным выборки. Функция правдоподобия, или как ее еще называют likehood function – L, выражает плотность вероятности совместного появления результатов выборки.

Исходя из логики данного метода, в качестве оценки   независимого   параметра  принимается

 

такое значение, которое обеспечивает реализацию следующего условия L → ∞.

Оценку независимого параметра можно произвести значительно удобнее, если максимизировать не саму функцию L, а натуральный логарифм от нее. Это представляется логичным, поскольку максимальное значение обеих функций достигается при одинаковом значении θ:

 

         (3)

В том случае, если используется бинарная независимая переменная, то Pi – вероятность появления единицы Prob(Yi = 1) зависящая от XiW, где Xi – строка матрицы регрессоров, W – вектор коэффициентов регрессии:

 

            (4)

Из вышесказанного очевидно, что логарифмическая функция правдоподобия тождественна:

 

 

 

 

(5)

 

 

 

где I0, I1 – множества наблюдений, для которых

Yi=0 и Yi = 1 соответственно.

Логистическая регрессия не может моделировать нелинейные зависимости , однако чтобы оценить качество данной модели, можно применить ROC – анализ – эффективный инструмент для   оценки   качества   моделей  логистической

 

регрессии, а чтобы рассчитать коэффициенты логистической регрессии можно применить любой из градиентных методов, такие как: метод сопряженных градиентов, методы переменной метрики и другие.

ROC-кривая      или       Receiver      Operator Characteristic – название которое произошло   из

 

 

 

систем обработки сигналов – кривая, которую часто используют, чтобы представить результаты бинарной классификации.

Из вышесказанного очевидно,  что классов для объясняемой переменной два, один из них называется классом с положительным исходом, другой соответственно с отрицательным. ROC – кривая дает понять зависимость количества положительных примеров, которые были верно классифицированы от количества отрицательных примеров, которые были неверно классифицированы. Те положительные примеры, которые были классифицированы верно, называются истинно положительными, исходя из терминов ROC-анализа, а те отрицательные примеры, которые были классифицированы неверно – ложно отрицательные. Пусть у классификатора имеется некоторый параметр,  называемый  точкой отделения, с помощью которого осуществимо то или иное разбиение на два класса, всего лишь варьируя данный показатель. В зависимости от этого параметра будут получаться различные величины ошибок первого и второго рода [2].

В логистической регрессии порог отсечения находится в пределах 0 – 1 – еще это   называют

 

расчетным значением уравнения регрессии или рейтингом.

В таблице 1 приведена расшифровка результатов классификации модели:

  • TP (True Positives) – положительные примеры, верно классифицированные или истинно положительные случаи;
  • TN (True Negatives) – отрицательные примеры, верно классифицированные или истинно отрицательные случаи;
  • FN (False Negatives) – положительные примеры, ложно классифицированные, т.е. те положительные, которые классифицированы как отрицательные – ошибка первого рода. Еще этот случай называют «ложный пропуск» – когда интересующее событие не  обнаруживается по ошибке (ложно отрицательные примеры)
  • FP (False Positives) – отрицательные примеры, ложно классифицированные, т.е. отрицательные примеры, которые классифицировались как положительные – это называется

«ложное обнаружение», т.е.  когда  события нет, но решается, что оно имеет место быть из-за допуска ошибки, или ложно положительные случаи.

 

 

 

Таблица 1 – Взаимосвязь критериев классификации модели [1]

 

 

Фактически

Модель

Положительно

Отрицательно

Положительно

TP

FP

Отрицательно

FN

TN

       

 

 

 

Присвоение событию отрицательный или положительный характер зависит от той задачи, которую предстоит решить. Например, если прогнозируется, что есть вероятность того, что клиент не отдаст кредит, то положительным исходом события будет класс «дефолт клиента», отрицательным «надежный клиент». И наоборот, если прогнозируется что клиент добросовестный, то положительным исходом будет возврат клиентом кредита, а отрицательным – дефолт клиента.

При анализе данных чаще всего используются относительные, но не абсолютные показатели

– доли, выраженные в процентах. Так, % доля истинно положительных примеров, или True Positives Rate, выглядит следующим образом:

 

             (6)

Доля  ложно  положительных  примеров или

False Posotives Rate:

 

           (7)

Специфичность и чувствительность модели так же являются важными определениями. С помощью данных показателей можно определить объективную ценность любого бинарного классификатора.

Чувствительность или Sensitivity – доля верно классифицированных – истинно положительных примеров:

 

 

 

     (8)

Специфичность (Specificity) – доля отрицательных примеров верно классифицированных или доля истинно отрицательных случаев, которые были правильно идентифицированы моделью:

 

             (9)

Необходимо заметить, что FPR = 100-SP.

Модель, которая обладает высокой чувствительностью, часто дает истинной результат, если имеется положительный исход (обнаружены положительный случаи). Модель же с высокой специфичностью чаще дает истинный результат, если имеется отрицательный исход (обнаружены отрицательные примеры).

Для любого значения порога отсечения, которое изменяется от 0 до 1 с шагом dx (например, 0,01) в ROC-кривой рассчитываются значения чувствительности Se и специфичности Sp. Каждое последующее значение примера в выборке может являться порогом в качестве альтернативы. Далее строится график зависимости, где чувствительность Se откладывается по оси Y, а по оси Х откладывается 100% – Sp (сто процентов минус специфичность) или тождественное оному выражение FRP – доля ложно положительных случаев [3]. Данный график часто дополняется прямой y = x.

Необходимо так же иметь в виду, что допустим и имеется способ расчета точек ROC-кривой, который является более экономичным, чем пример, приведенный выше. Его экономичность обуславливается тем, что его сложность вычисления является нелинейной и для каждого порога следует каждый раз в каждой записи рассчитывать TP и FP. Двигаясь по набору данных в обратном направлении, которое отсортировано по убыванию выходного поля классификатора (рейтингу), таким образом можно за один проход вычислить значения всех точек ROC-кривой, последовательно подвергая обновлению значения TP и FP.

Для идеального классификатора график ROC-кривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 100%, или 1,0, что характеризует идеальную чувствительность, а доля ложно положительных примеров, напротив, равна   нулю.

 

Посему чем кривая находится ближе к верхнему левому углу, тем больше вероятности предсказания моделью. И напротив, чем кривая является менее изогнутой и чем более ближе она расположена к диагональной прямой, тем модель является менее эффективной. По сути диагональная прямая х = у является моделью бесполезности и соответствует абсолютно нефункционирующему классификатору, иными словами модель не может различить два класса друг от друга.

Если провести некую визуальную оценку ROC-кривой, то расположения ее комбинаций относительно между собой говорит о их сравнительной эффективности. Кривая, что расположена выше и левее, говорит о большей предсказательной способности модели. Однако стоит отметить тот факт, что не смотря на кажущуюся простоту, визуальная оценка не всегда позволяет с точностью определить модель, чьи предсказательные способности являются наиболее эффективными. Существует более точный способ оценить данный показатель. Он представляет собой геометрический смысл и заключается в оценках площади под ROC-кривыми в процессе их сравнения [4].

Теоретически модель изменяется от 0 до 1, но так как модель логичнее оценивать и характеризовать кривой, которая расположена выше положительной диагностики, то обычно следует обращать внимание только лишь на изменения от 0,5 до 1 – идеальная модель. Эта оценка может быть получена различными способами  в том числе и непосредственно вычисляя площади под многогранником, что ограничен осями координат справа и снизу, и точками, полученными в результате эксперимента слава вверху. Численный показатель площади носит название AUC (Area Under Curve).

Очень грубо можно считать, что показатель AUC прямо пропорционален прогностической силой, присущей модели, но так же следует иметь в виду, что данный показатель нужен, когда сравнивают несколько моделей, а так же AUC не содержит информации о таких важных показателях, как чувствительность и спецификация модели.

В таблице 2 приведена шкала значений AUC, которая призвана оценить качество модели. Идеальная модель будет обладать стопроцентной чувствительностью и специфичностью, но, конечно же, в реальности добиться таких показателей не представляется возможным.  Мож-

 

 

 

но сказать даже, что невозможно одновременно повысить такие показатели, как чувствительность и специфичность модели. Порог отсечения дает нам возможность достижения   некоего

 

компромисса. Пороговое отсечение влияет на соотношение показателей Se и Sp, и в данном случае необходимо найти некий оптимальный порог отсечения.

 

 

 

Таблица 2 – Шкала значений AUC [1]

 

Интервал AUC

Качество модели

0,9 – 1,0

Отличное

0,8 – 0,9

Очень хорошее

0,7 – 0,8

Хорошее

0,6 – 0,7

Среднее

0,5 – 0,6

Неудовлетворительное

 

 

 

Данная процедура с определением оптимального порога отсечения необходима для того, чтобы применить модель на практике, т.е. относить новые параметры к одному из двух классов. Очевидно, что для того, чтобы определить оптимальный порог (optimal cut of value), необходимо задать некий критерий, по которому он будет определяться. Это является очень важным, каждая задача диктует свою оптимальную стратегию;

  • требование минимальной величины чувствительности или специфичности модели;
  • требования максимальной суммарной чувствительности и специфичности модели:

 

            (10)

  • требования баланса между чувствительностью и специфичностью, иными словами тот случай, когда Se приблизительно равно Sp:

 

            (11)

Приведенные выше требования могут выступать критериями выбора порогового отсечения. Следующее значение порога предлагается по   умолчанию,   а   в   третьем   случае     порог

 

является точкой пересечения двух кривых. По оси Х откладывается порог отсечения, а по У – чувствительность или специфичность модели. Таким образом, достигается точка баланса между чувствительностью и специфичностью.

Логистическая регрессия является традиционным статистическим инструментом для расчета коэффициентов скоринговой карты. А ROC-анализ обеспечивает управление  рисками в зависимости от кредитной политики и стратегии организации.

В рамках политики банка модели ставится задача выявления неблагонадежных потенциальных заемщиков. Но поскольку в скоринге общепринято, что чем выше рейтинг клиента, тем выше его кредитоспособность, то считается положительным исходом успешное погашение займа, а отрицательным – дефолт по кредиту.

Исходя из этого, можно заключить, что скоринговая модель с высокой специфичностью соответствует консервативной кредитной политике (чаще происходит отказ в выдаче кредита), а с высокой чувствительностью – политике рискованных кредитов. В первом случае минимизируется кредитный риск, связанный с потерями ссуды и процентов и дополнительными расходами на возвращение кредита, а во втором – коммерческий риск, связанный с упущенной выгодой.

 

Литература 

  1. 1      Цыплаков A.A. Некоторые эконометрические методы Метод максимального правдоподобия в экономике. – M: 2011. – 100 с.
  2. 2      Fawcett T. ROC Graphs: Notes and Practical Considerations for Researchers. Kluwer Academic Publishers: 2004. – 85 c.
  3. 3      Zweig M.H., Campbell G. ROC Plots: A Fundamental Evaluation Tool in Clinical Medicine // Clinical Chemistry. – 1993. – Vol. 39. – No. 4. – P. 22-27.
  4. 4      Davis  J.,  Goadrich  M.  The  Relationship  Between  Precision-Recall  and  ROC  Curves  //  Proc.  of  23    International Conference on Machine Learning. – Pittsburgh, PA, 2006. – P. 14-18.

Разделы знаний

Архитектура

Научные статьи по Архитектуре

Биология

Научные статьи по биологии 

Военное дело

Научные статьи по военному делу

Востоковедение

Научные статьи по востоковедению

География

Научные статьи по географии

Журналистика

Научные статьи по журналистике

Инженерное дело

Научные статьи по инженерному делу

Информатика

Научные статьи по информатике

История

Научные статьи по истории, историографии, источниковедению, международным отношениям и пр.

Культурология

Научные статьи по культурологии

Литература

Литература. Литературоведение. Анализ произведений русской, казахской и зарубежной литературы. В данном разделе вы можете найти анализ рассказов Мухтара Ауэзова, описание творческой деятельности Уильяма Шекспира, анализ взглядов исследователей детского фольклора.  

Математика

Научные статьи о математике

Медицина

Научные статьи о медицине Казахстана

Международные отношения

Научные статьи посвященные международным отношениям

Педагогика

Научные статьи по педагогике, воспитанию, образованию

Политика

Научные статьи посвященные политике

Политология

Научные статьи по дисциплине Политология опубликованные в Казахстанских научных журналах

Психология

В разделе "Психология" вы найдете публикации, статьи и доклады по научной и практической психологии, опубликованные в научных журналах и сборниках статей Казахстана. В своих работах авторы делают обзоры теорий различных психологических направлений и школ, описывают результаты исследований, приводят примеры методик и техник диагностики, а также дают свои рекомендации в различных вопросах психологии человека. Этот раздел подойдет для тех, кто интересуется последними исследованиями в области научной психологии. Здесь вы найдете материалы по психологии личности, психологии разивития, социальной и возрастной психологии и другим отраслям психологии.  

Религиоведение

Научные статьи по дисциплине Религиоведение опубликованные в Казахстанских научных журналах

Сельское хозяйство

Научные статьи по дисциплине Сельское хозяйство опубликованные в Казахстанских научных журналах

Социология

Научные статьи по дисциплине Социология опубликованные в Казахстанских научных журналах

Технические науки

Научные статьи по техническим наукам опубликованные в Казахстанских научных журналах

Физика

Научные статьи по дисциплине Физика опубликованные в Казахстанских научных журналах

Физическая культура

Научные статьи по дисциплине Физическая культура опубликованные в Казахстанских научных журналах

Филология

Научные статьи по дисциплине Филология опубликованные в Казахстанских научных журналах

Философия

Научные статьи по дисциплине Философия опубликованные в Казахстанских научных журналах

Химия

Научные статьи по дисциплине Химия опубликованные в Казахстанских научных журналах

Экология

Данный раздел посвящен экологии человека. Здесь вы найдете статьи и доклады об экологических проблемах в Казахстане, охране природы и защите окружающей среды, опубликованные в научных журналах и сборниках статей Казахстана. Авторы рассматривают такие вопросы экологии, как последствия испытаний на Чернобыльском и Семипалатинском полигонах, "зеленая экономика", экологическая безопасность продуктов питания, питьевая вода и природные ресурсы Казахстана. Раздел будет полезен тем, кто интересуется современным состоянием экологии Казахстана, а также последними разработками ученых в данном направлении науки.  

Экономика

Научные статьи по экономике, менеджменту, маркетингу, бухгалтерскому учету, аудиту, оценке недвижимости и пр.

Этнология

Научные статьи по Этнологии опубликованные в Казахстане

Юриспруденция

Раздел посвящен государству и праву, юридической науке, современным проблемам международного права, обзору действующих законов Республики Казахстан Здесь опубликованы статьи из научных журналов и сборников по следующим темам: международное право, государственное право, уголовное право, гражданское право, а также основные тенденции развития национальной правовой системы.