Confusion matrix là gì

Trong những bài bác toán thù phân loại, confusion matrix là một bảng đặc biệt được sử dụng để minch họa hiệu quả của các thuật toán thù. Bài viết này sẽ cố gắng hiểu hơn về confusion matrix.

Bạn đang xem: Confusion matrix là gì


millionarthur.mobi ưu tiên giữ lại thuật ngữ vào tiếng Anh để bạn đọc dễ dàng tìm kiếm kiếm tài liệu tsi mê khảo nhưng ko dịch ra tiếng Việt.

Confusion matrix (CM) là gì?

Để dễ dàng vào việc hiểu hơn về CM, bọn họ hãy cẩn thận một ví dụ đơn giản. Giả sử ta cần dự đoán thù kết quả xét nghiệm của 1005 bệnh nhân xem họ tất cả bị ung thư hay không. Dưới đây là những gì mô hình của bọn họ dự đoán:

90 bệnh nhân bị ung thư và tất cả dự đoán này của họ đều đúng.915 bệnh nhân ko bị ung thư nhưng thật ra gồm tới 910 người lại bị vào thực tế.

Để dễ dàng minc họa các kết quả ở trên, chúng ta sử dụng confusion matrix như dưới đây (Câu hỏi: Bệnh nhân này còn có bị bệnh ung thư không?):

Thực tế (có)Thực tế (không)
Dự đoán (có)90 (True Positive)0 (False Positive)
Dự đoán (không)910 (False Negative)5 (True Negative)

Có lẽ nó mang tên gọi là “confusion matrix” vì khi đọc đọc tin cùng hiểu thông báo mà nó truyền tải, họ có hơi bối rối (confused) một chut, tôi đùa đấy!

Trong bảng bên trên, tất cả 4 thuật ngữ ta cần để ý đến:

True Positive (TP): những bệnh nhân ta đoán thù là có bệnh đúng là đang với bệnh.True Negative (TN): những bệnh nhân ta đoán thù là không gồm bệnh đúng là đang khỏe mạnh.False Positive (FP): những bệnh nhân ta đoán thù là có bệnh thật ra đang khỏe mạnh.False Negative (FN): những bệnh nhân ta đoán là không bao gồm bệnh thật ra đang mang bệnh.
FP. với FN đôi lúc còn được gọi dưới những cái brand name khác vào thống kê là Sai lầm loại I (Type I error) cùng Sai lầm loại II (Type II error).

Bên dưới là một hình minc họa vui đến bọn họ thêm một ví dụ nữa của CM trong việc dự đoán thù có tnhị tuyệt không (nguồn).


*
Câu hỏi: Người này còn có đang với tnhì không?
Giải ưa thích hình ví dụ vui ở trên
True Postive: Rõ ràng vào hình là một phụ nữ gồm tnhị vá chưng sĩ nói cho cô ấy biết là cô ấy đang gồm thai. Điều này chứng tỏ dự đoán thù của bác bỏ sĩ là đúng chuẩn so với thực tế. Nói bí quyết khác: dự đoán thù “có” của bác sĩ (Positive) là “đúng” (True).False Negative: Bác sĩ dự đoán chị kia không có tnhì nhưng thực tế lại gồm. Đây là một ví dụ của Sai lầm loại II. Nói giải pháp khác: dự đân oán “không” của chưng sĩ (Negative) là “sai” (False).False Positive: Đàn ông ko thể có tnhì được trong những lúc bác sĩ lại bảo anh ta tất cả. Đây là Sai lầm loại I. Nói cách khác: dự đân oán “có” của bác bỏ sĩ (Positive) là “sai” (False).True Negative: Bác sĩ bảo anh tê không tồn tại tnhị, điều này hiển nhiên đúng. Nói phương pháp khác: dự đoán “không” của bác sĩ (False) là “đúng” (True).

Xem thêm: Easy Driver 7, Xp, Wandriver, Wandriver 7 (Easy Driverpacks) Tiếng Anh


Cách nhớ confusion matrix

Trong bảng trên, cơ hội thì True, dịp thì False, thời điểm thì Positive, lúc thì Negative. Vậy làm thế nào chúng ta tất cả thể nhớ được đúng đắn chiếc nào là mẫu làm sao cùng ở vị trí nào vào ma trân trên? Dưới đây là một mánh nhỏ để nhớ dựa vào tên gọi của các thuật ngữ.

True/False ý chỉ những gì chúng ta dự đân oán đã đúng giỏi chưa (true or false).Positive/Negative sầu ý chỉ những gì họ dự đoán (gồm hoặc không).

Nói khác đi, nếu họ thấy chữ “True”, điều đó nghĩa là tất cả những gì bọn họ dự đoán đều đúng hết cả. Nếu chúng ta dự đân oán 90 bệnh nhân bao gồm bệnh (TP) thì đúng là trong thực tế 90 bệnh nhân đó đang có bệnh. Còn nếu bọn họ dự đoán gồm 5 bệnh nhân không với bệnh (TN) thì trong thực tế đúng là họ đang rất khỏe mạnh.

Ngược lại, nếu ta thấy chữ “False” tất cả nghĩa là những gì bọn họ dự đoán thù trật hết. Những bệnh nhân ta đoán là bao gồm bệnh thì lại ko vào thực tế với ngược lại.

Precision / Recall

Với CM, bọn họ sẽ tính được nhì đại lượng quan trọng là Precision với Recall.

Precision: đây là tỷ lệ giữa những người thật sự bao gồm bệnh so với tất cả các ca được dự đoán thù là gồm bệnh. Nói bí quyết không giống, có bao nhiêu dự đân oán “positive” là thật sự “true” trong thực tế?

$$eginalignmathrm precision = dfracmathrmTPmathrmTP + mathrmFP = dfrac9090+0 = 100\%.endalign$$

Rõ ràng, ta chỉ dự đân oán 90 người gồm bệnh cùng trong thực tế những người này đúng là đang bị bệnh thât. Vậy ra, 100% số người ta dự đoán có bệnh là thiết yếu xác!

Recall (đôi lúc còn được gọi là Sensitivity): trong những người thực sự tất cả bệnh, bao nhiêu trong số họ được dự đân oán đúng bởi mô hình của chúng ta? Nói cách không giống, gồm bao nhiêu dự đoán “positive” đúng là do mô hình của họ đưa ra?

$$eginalignmathrm recall = dfracmathrmTPmathrmTP + mathrmFN = dfrac9090+910 = 9\%.endalign$$

Rõ ràng, ta chỉ dự đoán thù 90 người bao gồm bệnh trong những lúc gồm tới 1000 người trong thực tế mắc bệnh. Vậy ra, quy mô của chúng ta chỉ tất cả thể dự đoán thù được 9% số lượng người có bệnh vào thực tế.

Bên dưới là confusion matrix sau khi đã cung ứng precision và rehotline.

Thực tế (có) Thực tế (không)
Dự đoán (có)900Precision = 100%
Dự đoán (không)9105
Recall = 9%

Chúng ta bao gồm thể hiểu gì về Precision cùng Recall? Nếu một trong hai loại này có giá trị cao còn loại cơ có mức giá trị thấp (hoặc ngược lại) thì sao? Ý nghĩa của chúng như thế nào?

Precision cao / Recall thấp

Nhìn lại ví dụ ở bảng bên trên, nếu chúng ta chỉ dựa vào Precision, quy mô của chúng ta thật sự rất tốt (Precision = 100%). Tất cả các ca gồm bệnh mà chúng ta dự đoán thù đều đúng đắn.

Tuy nhiên ngó lại Rehotline (9%), tất cả tới 910 bệnh nhân bị dự đân oán không đúng với họ ko được điều trị. 91% số ca bị nhiễm bệnh sẽ cầm chắc chiếc chết. Mô hình của bọn họ trọn vẹn rất tệ trong trường hợp này!

Precision thấp / Rehotline cao

Nếu ngược lại thì sao? Giả sử confusion matrix là bảng dưới đây (câu hỏi: Bệnh nhân bao gồm mắc ung thư không?).

Thực tế (có)Thực tế (không)
Dự đoán (có)90910Precision = 9%
Dự đoán (không)105
Recall = 90%

Trong trường hợp này Precision rất nhỏ nếu đem so với ReHotline (9% so với 90%). Chúng ta đã dự đoán không nên quá nhiều người lành thành người bệnh. Tuy nhiên có vẻ như dự đân oán không đúng này “ít tác hại” hơn là trường hợp trước đó. 90% trường hợp này có thể “bị” hóa trị nhầm nhưng ít ra là gồm thể họ vẫn sống, trong những lúc ở trường hợp precision cao/reCall thấp, số lượng người không được điều trị tương đối cao cùng cầm chắc cái chết sớm!

Tại sao cả Precision và Rehotline đều quan trọng?

Precision cho họ biết những “dự đoán có” của họ đúng mực từng nào (Liệu trong 1000 người ta dự đoán thù mắc bệnh thì bao gồm mấy người thật sự bị?). Tuy nhiên sẽ tất cả một câu hỏi nảy ra trong đầu họ là “Liệu họ tất cả dự đân oán thiếu kết quả nào không?” (Ta tất cả bỏ sót bệnh nhân nào đang mắc bệnh nhưng mà không dự đoán thù không?). Recall sẽ cung cấp câu trả lời cho câu hỏi này!

Nếu bạn muốn sửa đổi thuật toán để tăng một vào nhị precison cùng rehotline, loại còn lại sẽ bị giảm đi.

Một ví dụ không giống. Bạn muốn xây dựng một hệ thống gợi ý sản phẩm trực tuyến. Dự đoán “Positive” vào trường hợp này đó là “Những sản phẩm thật sự thu hút khách hàng“. Mô hình của bạn sẽ hiển thị những sản phẩm tương quan đến sản phẩm mà lại họ đang coi để họ tất cả thể sở hữu thêm nhiều sản phẩm khác trên trang web bán sản phẩm của bạn (Amazon, Tiki, Lazadomain authority,… chẳng hạn).

Nếu precision thừa cao trong lúc recall lại thấp, những gợi ý của bạn đúng là ham mê được người sử dụng nhưng bạn lại bỏ qua quá nhiều sản phẩm tiềm năng khác cũng tất cả khả năng say mê họ không thua kém.Ngược lại, nếu precision thấp trong những lúc reCall cao thì bạn sẽ chắc chắn tất cả những sản phẩm tiềm năng sẽ được giới thiệu đến người sử dụng. Tuy nhiên, những sản phẩm thừa mứa cùng vô vị không giống cũng sẽ chen chân vào đây và khiến mang đến người tiêu dùng của bạn ko mấy mặn mà lại, họ có thể đổi sang trang khác để mua!