Кредитний скоринг — процес розробки системи показників _ Сенді Лю Мето…
페이지 정보
본문
Кредитний скоринг означає застосування статистичної моделі для присвоєння оцінки ризику кредитній заявці, і це форма штучного інтелекту, заснована на прогнозному моделюванні, яка оцінює ймовірність невиконання клієнтом кредитних зобов'язань, прострочення або неплатоспроможності.
Протягом багатьох років еволюціонував ряд різних методів моделювання для впровадження кредитного скорингу. Незважаючи на різноманітність, модель Credit Scorecard вирізняється з-поміж інших і використовується майже 90% розробників систем показників. Як гібрид статистики та машинного навчання, його оцінки можуть бути безпосередньо використані як оцінки ймовірності і, отже, для забезпечення прямого внеску для ціноутворення на основі ризику.
Далі детальна інформація про те, як використовувати кредитний скоринг для створення картки споживчого кредитного рейтингу, буде перерахована нижче. Аналіз включатиме розвідувальний аналіз даних, вибір змінних, побудову моделі та оцінювання.
Розвідувальний аналіз даних
Набір даних кредитного скорингу, який використовується в цьому проекті, взятий з Kaggle. На початку кожної процедури моделювання перше питання, яке слід задати, це те, що ми намагаємося передбачити за допомогою моделі. У кредитному скорингу це змінна предиктора/залежності. Він має двійкове значення 1 або 0. Значення 1 означає, що позичальник прострочив і прострочив свої кредити протягом останніх 2 років, тоді як значення 0 означає, що позичальник є хорошим клієнтом і вчасно погашає свої борги протягом останніх двох років. Залежною змінною тут є 'Serious Diqin2yrs', як показано у другому стовпці таблиці нижче.
Малюнок 1. Досліджуйте дані — відсутні значення та викидиЗазвичай більшість даних фінансової галузі містять відсутні значення або значення, які не мають сенсу для певної характеристики. Як видно з таблиці, цей набір даних також має відсутні значення та викиди. Оскільки ми маємо справу з оцінкою кредитоспроможності клієнта за допомогою логістичної регресійної моделі, ми приписуємо відсутні значення за допомогою медіани і відкидаємо нелогічні значення.
Наприклад, змінна 'age' є неперервною змінною від 0 до 100. Існували певні записи, які мали нульове значення, що не мало сенсу і щоб кваліфікуватися як позичальник, особа повинна бути повнолітньою особою 18 років. Тому ми вважаємо ці значення відсутніми і вирішуємо їх відкинути. Крім того, функція «RevolvingUtilizationOfUnsecuredLines» — це відношення загальної суми незабезпеченого боргу до загального незабезпеченого кредитного ліміту, і ця функція повинна мати значення від 0 до 1, але деякі записи мають значення більше 1. У цьому випадку у функції 'RevolvingUtilizationOfUnsecuredLines' є викиди, і ми вибираємо попередню обробку викидів за допомогою методу верхнього кодування, що означає, що всі значення, які знаходяться вище верхньої смуги, будуть довільно встановлені у верхній смугі.
Дискретизація предикторів/біннінгів
Біннінг - процес перетворення числової ознаки в категоріальну, а також перегрупування і закріплення категорійних ознак. Чому в процесі розробки системи показників потрібна бінація? Причина полягає в тому, що деякі характерні значення можуть зустрічатися рідко, і призведуть до нестабільності, якщо їх не згрупувати разом. Таким чином, групування схожих атрибутів зі схожими сильними сторонами прогнозування підвищить точність системи показників. Приклад групування функції «вік» наведено нижче.
Малюнок 2. Приклад групування 'вік' featureScorecard — Побудова моделі
Перш ніж побудувати модель системи показників, необхідно зробити два додаткові кроки. Один крок полягає в обчисленні ваги доказів, інший крок - у розрахунку інформаційної цінності (IV) на основі значення WoE,.
Для перевірки результатів бінінгу ми використовуємо значення WOE. Після розбиття безперервної змінної на кілька категорій або для групи дискретної змінної на кілька категорій для кожної ознаки, ми можемо обчислити значення Weight of Evidence (WoE), а потім категоріальні значення замінюються значеннями WoE, які можуть бути використані пізніше для побудови моделі. Детально про роВіртуальна картка з кредитним лімітомрахунок WoE є в наступному розділі.
Вага доказів (WoE)
WoE вимірює силу ознаки характеристики в розрізненні хороших і поганих рахунків і базується на співвідношенні хороших претендентів і поганих претендентів на рівні кожної групи. Негативні значення вказують на те, що певна група виділяє більшу частку поганих претендентів, ніж хороших претендентів. Це міра різниці між часткою товарів і недоліків за кожним атрибутом. Наприклад, шанси на те, що людина з цією ознакою є хорошими або поганими, а негативні значення WoE гірші в тому сенсі, що заявники в цій групі представляють більший кредитний ризик. Для кожної групи i характерна ВОЕ розраховується наступним чином:
Малюнок 3. Приклад результату WoE ознаки «вік»Після обчислення WoE в кожній групі всіх характеристик, необхідно підтвердити, що загальна тенденція є логічною, і немає ніяких дивацтв даних. Логічні відносини гарантують, що кінцеві вагові коефіцієнти після регресії мають сенс, і це також гарантує, що коли атрибутам призначаються бали для створення системи показників, ці бали є логічними.
Малюнок 4. Логічна тенденція WoE для вікуЯк тільки ми закінчимо групувати змінні та обчислити WoE, ми проводимо ранг, який упорядковує змінні за значенням інформації (IV) для відсіювання та вибору змінних. Подробиці про розрахунок IV - в наступному розділі.
Інформаційна цінність (IV)
Інформаційна цінність виходить з теорії інформації і вимірюється за допомогою наступної формули. Інформаційне значення використовується для оцінки характеристики загальної прогностичної сили.
IV – зручне емпіричне правило для вибору змінних.
Зверніть увагу, що інформаційне значення для NumberRealEstateLoansOrLines становить 0,116, що ледве потрапляє в діапазон середніх предикторів і є непередбачуваним. Як правило, для розробки моделі вибирають змінні із середніми і сильними прогнозними можливостями. Тому ми виконуємо вибір функцій і вибираємо 8 функцій з 9 ознак відповідно до значень IV, як показано в червоному полі підсвічування нижче.
Малюнок 5. Інформаційна цінність функційРозробка системи показників
Ми займаємося моделюванням скорингової функції та оцінкою кредитоспроможності клієнта за допомогою логістичної регресійної моделі. Коефіцієнти регресії використовуються для шкали системи показників. Шкалювання оціночної картки означає приведення картки показників у відповідність до певного діапазону оцінок. Загальна картина розвитку системи показників показана наступним чином.
Малюнок 6. Загальна картина розвитку системи показниківШкала балів
Шкалювання системи показників означає приведення картки показників у відповідність до певного діапазону оцінок, а коефіцієнти регресії використовуються для шкали системи показників. Логістичні регресійні моделі є лінійними моделями, в яких ймовірність передбачення, перетворена на логіт, є лінійною функцією значень змінної предиктора. Таким чином, отримана таким чином кінцева модель системи показників має ту бажану якість, що кінцевий кредитний рейтинг (кредитний ризик) є лінійною функцією предикторів, а з деякими додатковими перетвореннями, застосованими до параметра моделі, проста лінійна функція оцінок, яка може бути пов'язана з кожним значенням класу предиктора після грубого кодування. Таким чином, остаточний кредитний бал є простою сумою значень індивідуальних балів, які можна взяти з картки показників.
Для кожного атрибута його вагу доказів (WoE) і коефіцієнт регресії його характеристики тепер можна помножити, щоб отримати бали оцінки атрибута. Тоді загальний бал заявника буде пропорційний логарифму прогнозованих поганих/хороших шансів цього заявника.
Малюнок 7. Коефіцієнти логістичної регресіїМеханізм і калькулятор шкалювання балів
Ми вибираємо шкалу балів таким чином, щоб загальна оцінка в 600 балів відповідала хорошому/поганому коефіцієнту 50 до 1, а збільшення оцінки на 20 балів відповідало подвоєнню коефіцієнтів хорошого/поганого.
Масштабування — вибір шкали не впливає на прогнозну силу картки показників' Бали для подвоєння шансів' (pdo = 20)Factor = pdo / ln(2)Offset = Score — Factor * ln(Odds)Рішення з Scorecard
Нижче наведено один з результатів розрахунку балів за допомогою формули балів.
Взагалі кажучи, граничний бал буде відрізнятися від одного типу кредиту до іншого, а також між кредиторами. Деякі кредити вимагають мінімального балу 620, тоді як інші можуть приймати бали менше 620. Тому, отримавши граничний бал, ми можемо вирішити, схвалювати кредит чи ні. Наведений нижче приклад оціночної картки з Інтернету дає краще розуміння того, як це працює.
Висновок
Загалом, прогнозна модель навчається на основі історичних даних клієнта разом із даними групи аналогів та іншими даними для прогнозування ймовірності того, що цей клієнт продемонструє певну поведінку в майбутньому. Вони не тільки визначають «хороші» та «погані» заявки на індивідуальній основі, але й прогнозують ймовірність того, що заявка з будь-яким заданим балом буде «хорошою» або «поганою». Ці ймовірності або оцінки, разом з іншими бізнес-міркуваннями, такими як очікувані показники схвалення, прибуток, відтік і збитки, потім використовуються як основа для прийняття рішень.
На цьому поки що все про проєкт машинного навчання. Якщо у вас виникли запитання чи коментарі, не соромтеся звертатися до мене або залишати коментарі нижче. Якщо у вас є інтереси до науки про дані, не соромтеся перевіряти це посилання (WeCloudData). Велике спасибі, що знайшли час прочитати цей блог.
Машинне навчанняPythonКредитні карткиЛогістична регресіяІнженерія функцій--
--
8
FollowWritten by Sandy Liu124 FollowHelp
Статус
Про
Кар'єра
Прес
Укр-Прокат
Приватність
Умови
Озвучування тексту
Команди
Протягом багатьох років еволюціонував ряд різних методів моделювання для впровадження кредитного скорингу. Незважаючи на різноманітність, модель Credit Scorecard вирізняється з-поміж інших і використовується майже 90% розробників систем показників. Як гібрид статистики та машинного навчання, його оцінки можуть бути безпосередньо використані як оцінки ймовірності і, отже, для забезпечення прямого внеску для ціноутворення на основі ризику.
Далі детальна інформація про те, як використовувати кредитний скоринг для створення картки споживчого кредитного рейтингу, буде перерахована нижче. Аналіз включатиме розвідувальний аналіз даних, вибір змінних, побудову моделі та оцінювання.
Розвідувальний аналіз даних
Набір даних кредитного скорингу, який використовується в цьому проекті, взятий з Kaggle. На початку кожної процедури моделювання перше питання, яке слід задати, це те, що ми намагаємося передбачити за допомогою моделі. У кредитному скорингу це змінна предиктора/залежності. Він має двійкове значення 1 або 0. Значення 1 означає, що позичальник прострочив і прострочив свої кредити протягом останніх 2 років, тоді як значення 0 означає, що позичальник є хорошим клієнтом і вчасно погашає свої борги протягом останніх двох років. Залежною змінною тут є 'Serious Diqin2yrs', як показано у другому стовпці таблиці нижче.
Малюнок 1. Досліджуйте дані — відсутні значення та викидиЗазвичай більшість даних фінансової галузі містять відсутні значення або значення, які не мають сенсу для певної характеристики. Як видно з таблиці, цей набір даних також має відсутні значення та викиди. Оскільки ми маємо справу з оцінкою кредитоспроможності клієнта за допомогою логістичної регресійної моделі, ми приписуємо відсутні значення за допомогою медіани і відкидаємо нелогічні значення.
Наприклад, змінна 'age' є неперервною змінною від 0 до 100. Існували певні записи, які мали нульове значення, що не мало сенсу і щоб кваліфікуватися як позичальник, особа повинна бути повнолітньою особою 18 років. Тому ми вважаємо ці значення відсутніми і вирішуємо їх відкинути. Крім того, функція «RevolvingUtilizationOfUnsecuredLines» — це відношення загальної суми незабезпеченого боргу до загального незабезпеченого кредитного ліміту, і ця функція повинна мати значення від 0 до 1, але деякі записи мають значення більше 1. У цьому випадку у функції 'RevolvingUtilizationOfUnsecuredLines' є викиди, і ми вибираємо попередню обробку викидів за допомогою методу верхнього кодування, що означає, що всі значення, які знаходяться вище верхньої смуги, будуть довільно встановлені у верхній смугі.
Дискретизація предикторів/біннінгів
Біннінг - процес перетворення числової ознаки в категоріальну, а також перегрупування і закріплення категорійних ознак. Чому в процесі розробки системи показників потрібна бінація? Причина полягає в тому, що деякі характерні значення можуть зустрічатися рідко, і призведуть до нестабільності, якщо їх не згрупувати разом. Таким чином, групування схожих атрибутів зі схожими сильними сторонами прогнозування підвищить точність системи показників. Приклад групування функції «вік» наведено нижче.
Малюнок 2. Приклад групування 'вік' featureScorecard — Побудова моделі
Перш ніж побудувати модель системи показників, необхідно зробити два додаткові кроки. Один крок полягає в обчисленні ваги доказів, інший крок - у розрахунку інформаційної цінності (IV) на основі значення WoE,.
Для перевірки результатів бінінгу ми використовуємо значення WOE. Після розбиття безперервної змінної на кілька категорій або для групи дискретної змінної на кілька категорій для кожної ознаки, ми можемо обчислити значення Weight of Evidence (WoE), а потім категоріальні значення замінюються значеннями WoE, які можуть бути використані пізніше для побудови моделі. Детально про роВіртуальна картка з кредитним лімітомрахунок WoE є в наступному розділі.
Вага доказів (WoE)
WoE вимірює силу ознаки характеристики в розрізненні хороших і поганих рахунків і базується на співвідношенні хороших претендентів і поганих претендентів на рівні кожної групи. Негативні значення вказують на те, що певна група виділяє більшу частку поганих претендентів, ніж хороших претендентів. Це міра різниці між часткою товарів і недоліків за кожним атрибутом. Наприклад, шанси на те, що людина з цією ознакою є хорошими або поганими, а негативні значення WoE гірші в тому сенсі, що заявники в цій групі представляють більший кредитний ризик. Для кожної групи i характерна ВОЕ розраховується наступним чином:
Малюнок 3. Приклад результату WoE ознаки «вік»Після обчислення WoE в кожній групі всіх характеристик, необхідно підтвердити, що загальна тенденція є логічною, і немає ніяких дивацтв даних. Логічні відносини гарантують, що кінцеві вагові коефіцієнти після регресії мають сенс, і це також гарантує, що коли атрибутам призначаються бали для створення системи показників, ці бали є логічними.
Малюнок 4. Логічна тенденція WoE для вікуЯк тільки ми закінчимо групувати змінні та обчислити WoE, ми проводимо ранг, який упорядковує змінні за значенням інформації (IV) для відсіювання та вибору змінних. Подробиці про розрахунок IV - в наступному розділі.
Інформаційна цінність (IV)
Інформаційна цінність виходить з теорії інформації і вимірюється за допомогою наступної формули. Інформаційне значення використовується для оцінки характеристики загальної прогностичної сили.
IV – зручне емпіричне правило для вибору змінних.
Зверніть увагу, що інформаційне значення для NumberRealEstateLoansOrLines становить 0,116, що ледве потрапляє в діапазон середніх предикторів і є непередбачуваним. Як правило, для розробки моделі вибирають змінні із середніми і сильними прогнозними можливостями. Тому ми виконуємо вибір функцій і вибираємо 8 функцій з 9 ознак відповідно до значень IV, як показано в червоному полі підсвічування нижче.
Малюнок 5. Інформаційна цінність функційРозробка системи показників
Ми займаємося моделюванням скорингової функції та оцінкою кредитоспроможності клієнта за допомогою логістичної регресійної моделі. Коефіцієнти регресії використовуються для шкали системи показників. Шкалювання оціночної картки означає приведення картки показників у відповідність до певного діапазону оцінок. Загальна картина розвитку системи показників показана наступним чином.
Малюнок 6. Загальна картина розвитку системи показниківШкала балів
Шкалювання системи показників означає приведення картки показників у відповідність до певного діапазону оцінок, а коефіцієнти регресії використовуються для шкали системи показників. Логістичні регресійні моделі є лінійними моделями, в яких ймовірність передбачення, перетворена на логіт, є лінійною функцією значень змінної предиктора. Таким чином, отримана таким чином кінцева модель системи показників має ту бажану якість, що кінцевий кредитний рейтинг (кредитний ризик) є лінійною функцією предикторів, а з деякими додатковими перетвореннями, застосованими до параметра моделі, проста лінійна функція оцінок, яка може бути пов'язана з кожним значенням класу предиктора після грубого кодування. Таким чином, остаточний кредитний бал є простою сумою значень індивідуальних балів, які можна взяти з картки показників.
Для кожного атрибута його вагу доказів (WoE) і коефіцієнт регресії його характеристики тепер можна помножити, щоб отримати бали оцінки атрибута. Тоді загальний бал заявника буде пропорційний логарифму прогнозованих поганих/хороших шансів цього заявника.
Малюнок 7. Коефіцієнти логістичної регресіїМеханізм і калькулятор шкалювання балів
Ми вибираємо шкалу балів таким чином, щоб загальна оцінка в 600 балів відповідала хорошому/поганому коефіцієнту 50 до 1, а збільшення оцінки на 20 балів відповідало подвоєнню коефіцієнтів хорошого/поганого.
Масштабування — вибір шкали не впливає на прогнозну силу картки показників' Бали для подвоєння шансів' (pdo = 20)Factor = pdo / ln(2)Offset = Score — Factor * ln(Odds)Рішення з Scorecard
Нижче наведено один з результатів розрахунку балів за допомогою формули балів.
Взагалі кажучи, граничний бал буде відрізнятися від одного типу кредиту до іншого, а також між кредиторами. Деякі кредити вимагають мінімального балу 620, тоді як інші можуть приймати бали менше 620. Тому, отримавши граничний бал, ми можемо вирішити, схвалювати кредит чи ні. Наведений нижче приклад оціночної картки з Інтернету дає краще розуміння того, як це працює.
Висновок
Загалом, прогнозна модель навчається на основі історичних даних клієнта разом із даними групи аналогів та іншими даними для прогнозування ймовірності того, що цей клієнт продемонструє певну поведінку в майбутньому. Вони не тільки визначають «хороші» та «погані» заявки на індивідуальній основі, але й прогнозують ймовірність того, що заявка з будь-яким заданим балом буде «хорошою» або «поганою». Ці ймовірності або оцінки, разом з іншими бізнес-міркуваннями, такими як очікувані показники схвалення, прибуток, відтік і збитки, потім використовуються як основа для прийняття рішень.
На цьому поки що все про проєкт машинного навчання. Якщо у вас виникли запитання чи коментарі, не соромтеся звертатися до мене або залишати коментарі нижче. Якщо у вас є інтереси до науки про дані, не соромтеся перевіряти це посилання (WeCloudData). Велике спасибі, що знайшли час прочитати цей блог.
Машинне навчанняPythonКредитні карткиЛогістична регресіяІнженерія функцій--
--
8
FollowWritten by Sandy Liu124 FollowHelp
Статус
Про
Кар'єра
Прес
Укр-Прокат
Приватність
Умови
Озвучування тексту
Команди
- 이전글10 Things You Learned In Kindergarden They'll Help You Understand Tilt And Turn Window Repairs 24.10.20
- 다음글시알리스c100복용법, 비아그라시알리스, 24.10.20
댓글목록
등록된 댓글이 없습니다.