Đường cong ROC - receiver operating characteristic


Trong lý thuyết phát hiện tín hiệu, một receiver operating characteristic (ROC), còn gọi là receiver operating curve (đường cong đặc trưng hoạt động của bộ thu nhận - để xác định là có tín hiệu hay chỉ là do nhiễu), là một đồ thị một trục là Độ nhạy, trục còn lại là (1 - Đặc trưng) cho một hệ thống phân loại nhị phân khi mà ngưỡng phân loại của nó bị thay đổi (giá trị của ngưỡng -cutpoint- là nằm trên trục hoành, đường thẳng đứng cho thấy sự phân tách: phần bên trái được xem là không có thuộc tính cần kiểm tra, phần bên phải được xem là có thuộc tính cần kiểm tra) (xem hình).
Giá trị của ngưỡng sẽ quyết định số lượng: true positivestrue negativesfalse positivesfalse negatives (xem trong phân loại nhị phân).
Đường cong ROC cũng có thể được biểu diễn bằng một dạng tương đương bằng cách vẽ phần true positive (TP) theo phần false positive (FP).
  • Hiệu của (1 - Đặc trưng) bằng false positive (FP), ví dụ: đặc trưng=0,9 thì FP=0,1.
  • Ứng mỗi ngưỡng, sẽ cho ta một điểm (true positive, false positive).
  • Như vậy với nhiều lựa chọn ngưỡng khác nhau, sẽ cho ta một tập hợp các điểm trên đồ thị TP-FP.
  • Tập các điểm này sẽ tạo thành đường cong ROC.

Đường cong ROC dùng để đánh giá các kết quả của một dự đoán và ứng dụng đầu tiên của nó là cho việc nghiên cứu các hệ thống nhận diện trong việc phát hiện các tín hiệu radio khi có sự hiện diện của nhiễu vào thập niên 1940, sau sự kiến cuộc tấn công Trân Châu Cảng. Công trình nghiên cứu đầu tiên nhằm mục đích xác định lí do vì sao mà các "bộ hoạt động thu nhận" (receiver operators) của rađa của quân đội Mỹ lại bỏ qua tín hiệu của các máy bay Nhật.
Vào thập niên 1960 chúng bắt đầu được sử dụng trong lĩnh vực tâm vật lí (tiếng Anh:psychophysics), để ước định khả năng phát hiện của con người (và thường là của động vật) đối với các tín hiệu yếu. Chúng còn chứng tỏ cho thấy tính hữu hiệu trong việc đánh giá các kết quả của máy học, như việc đánh giá các động cơ tìm kiếm trên Internet. Chúng còn được sử dụng mạnh mẽ trong dịch tễ học (epidemiology) và nghiên cứu y khoa và thường được sử dụng trong điều trị bệnh dựa trên triệu chứng (dựa vào một loạt các triệu chứng để quyết định là một người có bệnh hay không).
Phương pháp dự đoán tốt nhất có thể sẽ cho ra đồ thị là một điểm ở góc trên bên trái của không gian ROC, ví dụ: 100% Độ nhạy (mọi true positives đều được tìm thấy) và 100%Đặc trưng (không có false positives nào cả). Bộ dự đoán ngẫu nhiên sẽ cho kết quả là một đường thẳng tạo một góc 45 độ với trục hoành, tính từ phía dưới bên trái đến phía trên bên phái: điều này là vì, khi ngưỡng tăng, sẽ có cùng số lượng true positives và false positives giảm đi.

Tính chất:
  1. Đường cong càng đi dọc theo biên trái và rồi đi dọc theo biên phía trên của không gian ROC, thì chứng tỏ kết quả kiểm tra càng chính xác.
  2. Đường cong càng tiến tới thành đường chéo 45 độ trong không gian ROC, thì độ chính xác của kiểm tra càng kém.
  3. Hệ số góc của đường thẳng tiếp tuyến tại một điểm cutpoint cho ta tỉ lệ likelihood ratio (LR) của giá trị cutpoint đó của bài kiểm tra.
  4. Diện tích phía dưới đường cong, giới hạn trong không gian ROC, là thước đo cho độ chính xác của bài kiểm tra, chẳng hạn: 1 là tối ưu, 0.5 là kém. Phần diện tích này có ý nghĩa là thước đo cho khả năng phận biệt (discrimination) tốt hay xấu.
Để có thể tính được phần diện tích này, có 2 phương pháp thường dùng (không dùng tham số -non-parametric và có dùng tham số -parametric) và chúng thường được hiện thực thành các chương trình máy tính. Kết quả cho ra là diện tích và sai số chuẩn (standard error) dùng để có thể so sánh giữa các phép kiểm tra khác nhau, hay trong cùng một phép kiểm tra nhưng với số cá thể khác nhau.

Ứng dụng:
Đôi khi, đường cong ROC dùng để khởi tạo thống kê tóm tắt. Ba dạng chính hay dùng:
  • giao của đường cong ROC với đường thẳng vuông góc 90 độ với đường chéo (no-discrimination line)
  • diện tích của vùng tạo bởi đường cong ROC và đường chéo (no-discrimination line)
  • diện tích phía dưới đường cong ROC, thường gọi AUC
  • d ' (tiếng Anh phát âm là "d-prime"), được tình bằng khoảng cách giữa giá trị trung bình của phân bố của hoạt động trong hệ thống dưới điều kiện chỉ có nhiễu và phân bố của nó dưới điều kiện tín hiệu kèm nhiễu, chia cho độ lệch chuẩn của chúng, với giả thiết là cả hai phân bố này là chuẩn với cùng độ lệch chuẩn.
Đường cong ROC của ba hệ thống dự đoán epitope
Tuy nhiên, nếu cố gắng qui đường cong ROC thành một giá trị số đơn thì sẽ mất đi thông tin về the pattern of tradeoffs of the particular discriminator algorithm.
Trong kĩ thuật, diện tích giữa đường cong ROC và đường thẳng trục hoành là thống kê thường hay dùng nhất, vì những tính chất toán học hữu ích của nó trong thống kê không tham số (non-parametric statistic.) Diện tích này thường được gọi đơn giản là phần khác biệt (discrimination.) Trong ngành psychophysicsd ' là thước đo hay dùng nhất.
Hình minh họa bên cho thấy việc sử dụng đồ thị ROC để biểu diễn phần khác biệt giữa mức độ khác biệt của các giải thuật dự đoánepitope khác nhau. Bạn muốn phát hiện ít nhất 60% lượng epitopes trong protein của một virus, bạn có thể đọc từ đồ thị để biết rằng khoảng 1/3 dữ liệu ra được đánh dấu nhầm chúng là một epitope. Thông tin không hiển thị ở đây là người dùng giải thuật biết giá trị ngưỡng nào thì sẽ cho một điểm cụ thể trên đồ thị ROC.