PRECISION AND RECALL LÀ GÌ

     
1. Đánh giá bán mô hình

Trong quá trình xây dựng một mô hình machine learning, 1 phần không thể thiếu để biết được quality của mô trong khi thế nào đó chính là đánh giá chỉ mô hình.

Bạn đang xem: Precision and recall là gì

Đánh giá mô hình giúp họ lựa chọn được mô hình cân xứng nhất đối với bài toán của mình. Tuy vậy để tìm được thước đo nhận xét mô hình cân xứng thì chúng ta cần cần hiểu về ý nghĩa, bản chất và ngôi trường hợp áp dụng của từng thước đo.

Chính bởi vì vậy bài viết này sẽ cung ứng cho chúng ta kiến thức về các thước đo cơ bản nhất, thường xuyên được áp dụng trong các quy mô phân các loại trong machine learning nhưng bọn họ đôi khi còn chưa nắm vững hoặc chưa biết cách áp dụng những thước đo này sao cho tương xứng với từng bộ dữ liệu cụ thể.

Hãy thuộc phân tích và khám phá các thước đo này qua những ví dụ bên dưới.

2. Bộ dữ liệu

Giả định rằng chúng ta đang sản xuất một quy mô phân một số loại nợ xấu. Nhãn của các quan cạnh bên sẽ bao hàm GOOD (thông thường) và BAD (nợ xấu). Kích thước của các tập tài liệu như sau:

Tập train: 1000 hồ sơ bao hàm 900 hồ sơ GOOD cùng 100 làm hồ sơ BAD. Tập test: 100 hồ nước sơ bao gồm 85 làm hồ sơ GOOD cùng 15 làm hồ sơ BAD.

Để dễ dãi cho diễn giải và nhất quán với gần như tài liệu tìm hiểu thêm khác về ký kết hiệu thì biến kim chỉ nam $y$ nhãn BAD có mức giá trị 1 và GOOD quý hiếm 0. Đồng thời trong số công thức diễn giải với bảng thống kê, nhãn BAD là positive với GOOD là negative. Positive và Negative ở chỗ này chỉ là qui ước tương xứng với quý giá 1 và 0 chứ tránh việc hiểu theo nghĩa black là lành mạnh và tích cực và tiêu cực.

Một quy mô phân nhiều loại $f$ gửi ra kết quả dự báo bên trên tập train được những thống kê trên bảng chéo như sau:

*

Các chỉ số TP, FP, TN, FN theo lần lượt có chân thành và ý nghĩa là :

TP (True Positive): tổng số trường hợp dự báo khớp Positive. TN (True Negative): toàn bô trường hợp dự báo khớp Negative. FP (False Positive): tổng cộng trường hòa hợp dự báo những quan giáp thuộc nhãn Negative thành Positive. FN (False Negative): toàn bô trường hòa hợp dự báo các quan ngay cạnh thuộc nhãn Positive thành Negative.

Những chỉ số trên vẫn là cơ sở để giám sát và đo lường những metric như accuracy, precision, recall, f1 score mà lại ta sẽ khám phá bên dưới.

3. Độ đúng đắn (accuracy)

Khi xây dựng quy mô phân loại chúng ta sẽ ước ao biết một cách khái quát xác suất các trường vừa lòng được đoán trước đúng bên trên tổng số những trường vừa lòng là bao nhiêu. Xác suất đó được hotline là độ bao gồm xác. Độ đúng đắn giúp ta tấn công giá hiệu quả dự báo của quy mô trên một bộ dữ liệu. Độ bao gồm xác càng cao thì mô hình của bọn họ càng chuẩn xác. Lúc 1 ai kia nói mô hình của bọn họ dự báo đúng mực 90.5% thì họ hiểu rằng họ đã đề cập tới độ đúng chuẩn được tính theo bí quyết :

< extAccuracy = fracTP+TN exttotal sample = frac55+8501000 = 90.5 \%>

Tính toán accuracy bên trên sklearn :


Trong đó y_label là nhãn của tài liệu và y_pred là nhãn dự báo.

Trong các metrics review mô hình phân các loại thì độ và đúng là metric khá được ưa chuộng vì nó tất cả công thức tường minh với dễ diễn giải ý nghĩa. Tuy nhiên hạn chế của nó là thống kê giám sát trên tất cả những nhãn nhưng mà không quan tâm đến độ chính xác trên từng nhãn. Cho nên nó không phù hợp để đánh giá những tác vụ mà tầm quan trọng của câu hỏi dự báo các nhãn không còn như nhau. Tuyệt nói giải pháp khác, như trong lấy một ví dụ phân các loại nợ xấu, việc họ phát hiện tại đúng một làm hồ sơ nợ xấu đặc biệt quan trọng hơn việc bọn họ phát hiện đúng một làm hồ sơ thông thường.

Khi đó bọn họ sẽ đon đả hơn tới độ chính xác được đo lường và thống kê chỉ trên nhãn BAD hơn cùng sẽ có nhu cầu các metrics như precision, recall đánh giá chuyên biệt trên nhóm này. Cùng mày mò về các metrics này mặt dưới.

4. Precision

Precision vấn đáp cho câu hỏi trong các trường hợp được dự báo là positive thì gồm bao nhiêu trường phù hợp là đúng ? Và tất yếu precision càng cao thì quy mô của họ càng xuất sắc trong bài toán phân một số loại hồ sơ BAD (BAD đó là nhóm positive). Công thức của precision như sau:

< extPrecision = fracTP exttotal predicted positive = fracTPTP+FP = frac5555+50 = 52.4 \%>

Precision vẫn cho họ biết nấc độ chuẩn xác của mô hình đối với các làm hồ sơ được dự đoán là BAD. Ví dụ khi precision = 52.4%, họ tin rằng trong những hồ sơ được đoán trước là BAD thì gồm 52.4% phần trăm các hồ sơ được phân các loại đúng.

Cũng có ý nghĩa sâu sắc gần giống như như precision, bao gồm cùng tử số nhưng có một chút khác hoàn toàn về mẫu số trong cách làm tính toán, với cũng là một trong những chỉ số giúp đo lường và thống kê hiệu suất dự đoán trên nhóm positive, đó là recall.

5. Recall

Recall đo lường và thống kê tỷ lệ dự báo đúng mực các trường thích hợp positive trên toàn cục các mẫu thuộc nhóm positive. Cách làm của recall như sau:

< extRecall = fracTP exttotal actual positive = fracTPTP+FN = frac5555+45=55 \%>

Để tính được recall thì bọn họ phải biết trước nhãn của dữ liệu. Do đó recall hoàn toàn có thể được dùng để đánh gía trên tập train cùng validation vì họ đã biết trước nhãn. Trên tập test khi dữ liệu được xem như mới hoàn toàn và chưa biết nhãn thì chúng ta sẽ sử dụng precision.

Tính toán precision và recall bên trên sklearn chúng ta sẽ dựa trên ground truth y_label và phần trăm dự báoy_prob:


12from sklearn.metrics import precision_recall_curveprec, rec, thres = precision_recall_curve(y_label, y_prob)

6. Trade off giữa precision với recallThông hay các mã sản phẩm sẽ lựa chọn một ngưỡng mặc định là 0.5 để đưa ra quyết định nhãn. Tức là nếu ta bao gồm một hàm phân loại $f_ heta()$ thì nhãn dự đoán sẽ dựa trên độ lớn của phần trăm dự báo như sau:

<eginequation left{ eginarrayl l f_ heta(x) geq 0.5, extlabel = 1\ f_ heta(x) home credit kaggle kernel - vachngannamlong.com.

*

Thậm chí bằng một ít suy luận logic, ta còn tồn tại thể chứng tỏ được quan hệ giữa precision và recall khi chuyển đổi theo threshold là mối quan hệ đánh thay đổi (trade off). Khi precision cao thì recall thấp cùng ngược lại. Quả thật như vậy :

Giả sử trong ví dụ như về phân các loại nợ xấu, họ muốn khi mô hình dự báo một hồ sơ là BAD thật chắc chắn là nên lựa chọn 1 ngưỡng threshold cao hơn, ví dụ như 0.9. Lúc đó một hồ sơ rơi vào cảnh BAD thì năng lực rất rất lớn là hồ nước sơ kia sẽ và đúng là BAD bởi phần trăm 90% là 1 trong những mức tin yêu khá cao. Ngoài ra xin đề cập lại precision bởi số lượng được dự đoán là BAD đúng phân tách cho toàn bô được đoán trước là BAD nên nó có xu hướng cao khi threshold được tùy chỉnh cấu hình cao. Đồng thời do con số các quan gần kề được đoán trước là BAD sẽ giảm đi khi threshold cao hơn nữa và số lượng hồ sơ BAD ko đổi đề xuất recall phải chăng hơn.

Trong ngôi trường hợp họ muốn nới lỏng hiệu quả phân nhiều loại hồ sơ BAD một chút bằng phương pháp giảm threshold và gật đầu một số hợp đồng bị dự đoán sai trường đoản cú GOOD sang BAD. Khi đó con số hồ sơ được dự đoán là BAD tăng lên trong khi con số hồ sơ BAD được dự báo đúng tăng không đáng kể. Điều đó mang đến precision giảm và recall tăng.

Sự tấn công đổi giữa precision và recall khiến cho hiệu quả của mô hình thường l : precision cao, recall rẻ hoặc precision thấp, recall cao. Lúc ấy rất khó để chọn lựa đâu là một trong mô hình tốt vì do dự rằng review trên precision tuyệt recall sẽ tương xứng hơn. Cũng chính vì vậy bọn họ sẽ kiếm tìm cách phối hợp cả precision và recall trong một chỉ số mới, đó chính là f1 score.

7. F1 Score

$F_1$ Score là trung bình cân bằng giữa precision và recall. Cho nên vì thế nó đại diện hơn trong bài toán đánh gía độ chính xác trên bên cạnh đó precision cùng recall.

< extF_1 = frac2 extprecision^-1+ extrecall^-1 = frac20.524^-1 + 0.55^-1 = 53.7 \%>

Trong trường thích hợp $ extprecision=0$ hoặc $ extrecall=0$ ta qui cầu $ extF_1 = 0$.

Ta chứng minh được rằng cực hiếm của $F_1$ score luôn nằm trong tầm của precision với recall. đúng vậy :

<egineqnarray extF_1 & = & frac2~ extprecision imes extrecall extprecision+ extrecall \& leq và frac2~ extprecision imes extrecall2~min( extprecision, extrecall) = max( extprecision, extrecall)endeqnarray>

Tương tự:

<egineqnarray extF_1 và = và frac2~ extprecision imes extrecall extprecision+ extrecall \& geq và frac2~ extprecision imes extrecall2~max( extprecision, extrecall) = min( extprecision, extrecall)endeqnarray>

Do đó so với những trường hợp mà lại precision với recall quá chênh lệch thì $F_1$ score sẽ cân bằng được cả nhị độ lớn này và giúp ta đưa ra một reviews khách quan lại hơn. Lấy một ví dụ như công dụng bảng dưới :

*

Nếu dựa trên precision thì quý hiếm precision=91.6% cho thấy đây là một model khá tốt. Tuy vậy trong 100 trường đúng theo positive thì mô hình chỉ thừa nhận diện được đúng 55 ngôi trường hợp cần xét theo recall=55% thì đây chưa phải là một mô hình tốt. Vào trường hòa hợp này $F_1$ sẽ được sử dụng như một chỉ số đại diện cho tất cả precision và recall. Điểm $F_1$ bởi 69% cho biết thêm đây là một mô hình có sức mạnh ở mức mức độ vừa phải và đánh giá của họ sẽ chuẩn xác hơn so với bài toán quá sáng sủa vào quy mô khi chỉ nhìn vào precision và quá bi thiết nếu chỉ dựa vào recall.

Trên sklearn, f1 score được tính như sau :


Trong kia y_label là nhãn của dữ liệu và y_pred là nhãn dự báo.

8. Lý do F1 score ko là trung bình cộng precision và recall

Có một học viên vướng mắc mình rằng tại sao $F_1$ score không được lấy bằng trung bình cùng giữa precision và recall? rước ví dụ trực quan liêu trong trường phù hợp mô hình của doanh nghiệp có precision quá thấp và recall thừa cao, ví dụ điển hình precision=0.01 cùng recall=1.0.

Nhìn vào biểu đồ vật trade off giữa precision cùng recall thì đây rất có thể được xem như một mô hình tùy chỉnh thiết lập threshold thấp. Nó tương tự với việc dự đoán ngẫu nhiên tổng thể là positive. Do đó không thể xem chính là một quy mô tốt.

Xem thêm: Cách Cắt Gỗ Bằng Máy Cầm Tay Mini Cơ Bản, Cách Sử Dụng Máy Cưa Gỗ Cầm Tay Mini Cơ Bản

Nếu sử dụng công thức vừa phải thì

< extF_1 = frac extprecision+recall2 = 0.5005>

giá trị này cho biết đây là một mô hình ở nút trung bình. Trong khi sử dụng phương pháp trung bình điều hòa thì

< extF_1 = frac2~ extprecision imes extrecall extprecision+ extrecall approx 0>

giá trị này giúp nhấn diện được mô hình không tốt.

Tóm lại sử dụng trung bình cân bằng sẽ phạt nặng nề hơn các trường hợp mô hình có precision thấp, recall cao hoặc precision cao, recall thấp. Đây là những trường hợp tương tự với đoán trước thiên về một nhóm là positive hoặc negative nên không hẳn là quy mô tốt. Điểm số từ mức độ vừa phải điều hòa sẽ giúp ta nhận ra được phần nhiều trường đúng theo không xuất sắc như vậy.

9. Accuracy và F1 score

Accuracy và F1 score đầy đủ được áp dụng để reviews hiệu suất của mô hình phân loại. Vậy trong tình huống nào chúng ta nên thực hiện chỉ số nào là tương xứng ? Điều đó phụ thuộc vào cỗ dữ liệu của chúng ta có xẩy ra hiện tượng mất cân nặng bằng hay là không ? Hãy cùng trở lại phân tích bảng công dụng đầu tiên. Ta call trường vừa lòng này là dự đoán theo mô hình :

*

Khi đoán trước theo mô hình dễ dãi tính được accuracy=90.5%, đó là một tác dụng cũng không hề nhỏ và bọn họ nhận định rằng mô hình phân các loại tốt.

Tuy nhiên xét tình huống bọn họ dự báo ngẫu nhiên toàn cục mẫu là các hồ sơ GOOD. Vì thế độ đúng mực đạt được thậm chí đã lên tới 90%. Lúc này chúng ta ngờ vực sự cân xứng của accuracy trong việc reviews mô hình vì không yêu cầu tới mô hình cũng tạo ra một công dụng gần như tương đương với bao gồm mô hình.

Mặt khác, khi áp dụng $F_1$ score có tác dụng chỉ số đánh giá ta thu được điểm số khi đoán trước ngẫu nhiên là 0% cùng khi đoán trước theo mô hình là 69% (bạn gọi hãy tự tính). Chúng ta đã thấy sự chênh lệch điểm số $F_1$ score thân hai mô hình chưa ? Đồng thời $F_1$ score cũng không khiến họ lạc quan tiền vào những mô hình có quality thấp cơ mà do sử dụng accuracy đề xuất chúng bao gồm kết qủa review cao. Bên cạnh đó $F_1$ score chỉ đo lường và tính toán độ chính xác trên nhóm mẫu mã thiểu (positive) là đội mà bọn họ mong muốn đánh giá hơn vào trường đúng theo mất cân bằng nên nó sẽ tương xứng hơn accuracy được đo lường trên cả mẫu positive với negative.

10. AUC

ROC là con đường cong biểu diễn khả năng phân nhiều loại của một quy mô phân nhiều loại tại các ngưỡng threshold. Đường cong này dựa vào hai chỉ số :

TPR (true positive rate): Hay có cách gọi khác là recall hoặc sensitivity. Là tỷ lệ các trường phù hợp phân các loại đúng positive trên tổng số những trường hợp thực tế là positive. Chỉ số này sẽ review mức độ dự báo đúng mực của mô hình trên positive. Khi giá bán trị của nó càng cao, mô hình dự báo càng xuất sắc trên team positive. Nếu như $ extTPR=0.9$, chúng ta tin rằng 90% các mẫu thuộc đội positive sẽ được quy mô phân các loại đúng.< extTPR ext/recall ext/sensitivity = fracTP exttotal positive> FPR (false positive rate): phần trăm dự báo sai những trường hợp thực tiễn là negative thành thành positive bên trên tổng số các trường hợp thực tế là negative. Nếu quý giá của $ extFPR=0.1$, mô hình đã đoán trước sai 10% bên trên tổng số các trường hợp là negative. Một mô hình có FPR càng rẻ thì quy mô càng chuẩn xác bởi vì sai số của nó trên team negative càng thấp. Phần bù của FPR là specificity tính toán tỷ lệ dự báo đúng những trường thích hợp negative trên tổng số những trường hợp thực tế là negative.< extFPR = 1- extspecificity= fracFP exttotal negative>

Đồ thị ROC là 1 đường cong mong lồi dựa vào TPR với FPR có bề ngoài như bên dưới:

*

AUC là chỉ số được đo lường dựa trên phố cong ROC (receiving operating curve) nhằm mục đích đánh giá kỹ năng phân loại của mô hình tốt như nuốm nào ? Phần diện tích gạch chéo nằm dưới đường cong ROC với trên trục hoành là AUC (area under curve) có giá trị nằm trong tầm <0, 1>. Khi ăn mặc tích này càng mập thì con đường cong ROC có xu thế tiệm cận mặt đường thẳng $y=1$ và khả năng phân nhiều loại của quy mô càng tốt. Khi mặt đường cong ROC nằm gần kề với đường chéo đi qua nhị điểm (0, 0) và (1, 1), mô hình sẽ tương đương với một phân loại ngẫu nhiên.

AUC được đo lường như sau:


1234from sklearn.metrics import auc, roc_curvefpr, tpr, thres = metrics.roc_curve(y_label, y_pred)# đo lường và thống kê aucauc(fpr, tpr)

12345678910def _plot_roc_curve(fpr, tpr, thres): roc = plt.figure(figsize = (10, 8)) plt.plot(fpr, tpr, "b-", label = "ROC") plt.plot(<0, 1>, <0, 1>, "--") plt.axis(<0, 1, 0, 1>) plt.xlabel("False Positive Rate") plt.ylabel("True Positive Rate") plt.title("ROC Curve")_plot_roc_curve(fpr, tpr, thres)

11. Mối quan hệ giữa TPR và FPRTPR với FPR sẽ có mối quan lại hệ thuộc chiều. Thiệt vậy, họ sẽ thuộc diễn giải vấn đề này qua hình vẽ bên dưới.

*

Hình 1: Đồ thị trưng bày của tỷ lệ xác suất (probability densitiy function - pdf) của điểm số team negative bên trái và đội positive bên phải. Quy mô sẽ địa thế căn cứ vào mặt đường thẳng threshold vuông góc với trục hoành ($y$) để mang ra đoán trước là positive xuất xắc negative. Trường hợp điểm số nằm cạnh sát trái threshold thì sẽ được dự báo là negative và nằm sát phải được dự đoán là positive. Vì vậy trên hình vẽ, phần diện tích $FP$ đang là false positive rate phần diện tích s $TP$ vẫn là true positive rate. Lúc ta dịch rời ngưỡng threshold trường đoản cú trái sang nên thì những phần diện tích s $FP$ và $TP$ sẽ thuộc tăng dần. Điều này tương xứng với mối quan hệ giữa TPR (true positive rate) với FPR (false positive rate) là đồng phát triển thành theo sự chuyển đổi của threshold.

Bây giờ chúng ta đã hiểu tại sao đường cong ROC lại là một trong những đường đồng đổi mới rồi chứ ?

Ngoài ra mô hình dự báo tỷ lệ của họ sẽ càng tốt nếu vật thị phân phối phần trăm của negative cùng positive có sự bóc biệt càng lớn. Khi đó phần diện tích ông xã lấn giữa hai phân phối càng bé dại và quy mô giảm thiểu tỷ lệ dự báo nhầm. Đồng thời các phân phối phần trăm giữa negative cùng positive càng giải pháp xa nhau thì vật dụng thị ROC càng lồi. Tính chất lồi của ROC được mô tả qua độ lớn của phần diện tích AUC.

12. Gini cùng CAP

Trong lĩnh vực credit risk, các mô hình scorecard sử dụng thông số gini làm thước đo review sức mạnh mẽ phân loại của những mô hình. Hệ số này cho thấy thêm khả năng một hồ sơ đang vỡ nợ sau này được nhận ra từ mô hình là bao nhiêu phần trăm. Một quy mô scorecard càng bạo gan thì thông số gini càng tốt và phân phối điểm số của hai nhóm GOOD cùng BAD đang càng không giống biệt. Cực hiếm của gini nằm xấp xỉ trong khoảng chừng <0, 1>.

Một thông số khác tương tự như gini chính là CAP (Cumulative Accuracy Profile). Hệ số này được tính toán dựa trên tuyến đường cong CAP có biểu diễn như hình bên dưới:

*

Hình 2 hệ số CAP và đường cong CAP của quy mô scorecard. Trên đồ gia dụng thị, trục hoành màn trình diễn tỷ lệ xác suất tích lũy của số lượng hồ sơ vay với trục tung biểu diễn phần trăm tích lũy của số lượng hồ sơ vay của tập thể nhóm BAD được những thống kê từ tỷ lệ mẫu được rút ra tương xứng trên trục hoành. Các hồ sơ sẽ tiến hành sắp xếp theo điểm số bớt dần. Đầu tiên chúng ta sẽ mang ra một tỷ lệ $x$% hồ sơ gồm điểm số tối đa tương ứng với điểm $x$ trên trục hoành. Từ mẫu $x$% này, họ thống kê được $y$% xác suất các hồ sơ BAD được phát hiện. Sau đó ngày càng tăng dần form size mẫu tích lũy ta vẫn thu được con đường CAP như mặt đường curent model bên trên hình vẽ.

Trên hình vẽ bọn họ có 3 đường cong CAP đó là perfect model, current model, random model lần lượt tương xứng với những model tuyệt vời (perfect model), model hiện trên và model ngẫu nhiên. Model hoàn hảo và tuyệt vời nhất là quy mô phân loại một cách hoàn hảo các làm hồ sơ nợ xấu. Đường CAP của tế bào hình tuyệt vời sẽ tiệm cận với đường thẳng $y=1$ cho thấy thêm rằng bạn có thể lựa chọn một ngưỡng điểm làm sao đó nằm giữa (0, 1) sao cho mô hình phân các loại được 100% các trường hợp đổ vỡ nợ. Tế bào hình tuyệt đối hoàn hảo rất ít khi đạt được trên thực tế và nếu bao gồm một mô hình gần tiệm cận với mặt đường thẳng $y=1$ thì chính là một quy mô rất khôn xiết tốt.

Đối lập với đường CAP tuyệt vời nhất là con đường CAP ngẫu nhiên. Đường CAP này biểu diễn hiệu quả của một sự phân một số loại ngẫu nhiên những nhãn BAD nên xác suất hồ sơ BAD bày bán đều bên trên toàn miền điểm số. Vì vậy hình dạng của con đường CAP thốt nhiên sẽ tiệm cận cùng với đường chéo chính đi qua (0, 0) và (1, 1).

Tại sao phân phối phần trăm tích lũy của BAD lại là 1 trong những đường cong lồi ?

Giả sử bọn họ lựa chọn tập mẫu $S$ có $x$% quan sát gồm điểm cao nhất (lưu ý là những quan gần kề đã được bố trí theo điểm số bớt dần). Vày BAD có phân phối công ty yếu triệu tập vào nhóm tất cả điểm số cao nên phần trăm các làm hồ sơ được đoán trước BAD bên trên tổng số làm hồ sơ nhãn BAD vào $S$ sẽ to hơn tỷ lệ tích lũy những quan liền kề $x$%. Tỷ lệ này mặt khác cũng chính là TPR (true positive rate) trên $S$.

Ở mọi $x$% cao thì các quan ngay cạnh được thêm vào tất cả điểm số bé dại dần và bởi vì đó tốc độ tăng của $TPR$ giảm dần. Vì thế đường CAP của mô hình hiện tại gồm hình dạng là 1 trong đường cong lồi.

Công thức CAP:

Hầu không còn các quy mô có dạng hình của mặt đường cong CAP tựa như như mặt đường current model. Có nghĩa là nằm giữa con đường CAP hoàn hảo và CAP ngẫu nhiên. Một mô hình càng giỏi nếu mặt đường CAP của chính nó càng ngay gần đường tuyệt vời và khi đường CAP càng ngay sát đường bất chợt thì hiệu quả dự báo của quy mô càng kém. Chỉ số CAP sẽ được giám sát và đo lường dựa trên phần diện tích s A, B ở giữa các đường CAP trả hảo, lúc này và thốt nhiên như trên mẫu vẽ theo công thức:

< extCAP=fracAA+B>

Visualize mặt đường cong CAP như thế nào ?

Để vẽ con đường cong CAP họ lần lượt thực hiện các bước sau:

B1: sắp tới xếp tỷ lệ vỡ nợ được dự báo theo đồ vật tự giảm dần và phân chia nó thành 10 phần (decile) với con số quan sát đều nhau. Bạn có thể lựa chọn tạo thành 15, đôi mươi phần, tùy theo kích thước tập đào tạo lớn xuất xắc nhỏ. Cách phân loại này vẫn xếp hạng những người vay rủi ro nhất gồm nhóm xếp hạng (rating grade) thấp độc nhất và những người dân vay bình an nhất nên tất cả nhóm xếp thứ hạng cao nhất.

B2: Tính số fan vay trong mỗi nhóm (cột number of borrowers).

B3: Tính số lượng quý khách hàng nợ xấu trong mỗi nhóm (cột number of bads).

B4: Tính số lượng người tiêu dùng nợ xấu tích lũy trong mỗi nhóm (cột cumulative bads). Nợ xấu tích trữ của một đội nhóm xếp hạng sản phẩm $i$ sẽ bằng tổng nợ xấu của những nhóm xếp hạng trước kia từ $1,2, dots$ cho tới $i$.

B5: Tính xác suất phần trăm quý khách hàng nợ xấu trong mỗi nhóm (cột % of bads) có mức giá trị bởi cột number of bads chia cho tổng số lượng hồ sơ BAD.

B6: Tính tỷ lệ phần trăm tích lũy của doanh nghiệp nợ xấu trong những phần (cột cumulative % of bads) được tính dựa vào tổng tích điểm của cột % of bads.

Xem thêm: Những Thứ Không Nên Mua Cho Trẻ Sơ Sinh Không Cần Thiết Cho Bé

*

Khi đó họ sẽ nhận được cột sau cùng tương ứng với cái giá trị trục tung của đường cong CAP tại những điểm cực hiếm 10% tiếp tục của trục hoành.