Bài giảng Tìm kiếm và trình diễn thông tin - Bài 7: Đánh giá kết quả tìm kiếm - Nguyễn Bá Ngọc

pdf 38 trang huongle 2300
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tìm kiếm và trình diễn thông tin - Bài 7: Đánh giá kết quả tìm kiếm - Nguyễn Bá Ngọc", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tim_kiem_va_trinh_dien_thong_tin_bai_7_danh_gia_ke.pdf

Nội dung text: Bài giảng Tìm kiếm và trình diễn thông tin - Bài 7: Đánh giá kết quả tìm kiếm - Nguyễn Bá Ngọc

  1. (IT4853) Tìm kiếm và trình diễn thông tin Đánh giá kết quả tìm kiếm
  2. Giảng viên  Nguyễn Bá Ngọc, TS.,  ĐHBKHN/Viện CNTT & TT/BM HTTT/B1-603,  ngocnb@soict.hust.edu.vn,  2
  3. Nội dung chính  Vấn đề đánh giá kết quả tìm kiếm  Độ chính xác, độ đầy đủ  Độ đo F  Đồ thị P/R  Các giá trị trung bình 3
  4. Mục đích đánh giá kết quả tìm kiếm  Vai trò cơ bản của công cụ tìm kiếm là đáp ứng nhu cầu thông tin của người dùng.  Khả năng đáp ứng nhu cầu thông tin là nhân tố quyết định trải nghiệm người dùng.  Yếu tố cơ bản đảm bảo khả năng đáp ứng nhu cầu thông tin là phương pháp mô hình hóa khái niệm phù hợp. 4
  5. Các tiêu chí phụ thuộc hệ thống  Trong thực tế có nhiều tiêu chí giúp đánh giá khả năng đáp ứng nhu cầu thông tin của người dùng, ví dụ:  Công cụ tìm kiếm trên Web  Người tìm thông tin. Hài lòng nếu tìm thấy thông tin cần thiết. Đo: Tỉ lệ quay trở lại công cụ tìm kiếm.  Nhà quảng cáo. Hài lòng nếu người tìm kiếm mở quảng cáo. Đo: Tỉ lệ mở quảng cáo  Thương mại điện tử  Khách hàng. Được cho là hài lòng nếu mua một thứ gì đó. Đo: Tỉ lệ người mua hàng  Người bán. Hài lòng nếu bán được sản phẩm. Đo: Lợi nhuận trên sản phẩm bán được  Công ty  CEO. Hài lòng nếu nhân viên làm việc năng suất hơn nhờ áp dụng công cụ tìm kiếm. Đo: Mức tăng lợi nhuận của công ty 5
  6. Truy vấn vs. nhu cầu thông tin  Phù hợp với truy vấn chưa chắc đã đáp ứng được nhu cầu thông tin.  Ví dụ, nhu cầu thông tin i : “Liệu rượu vang có tác dụng làm giảm nguy cơ mắc bệnh tim hay không? Nếu có thì vang đỏ có hiệu quả hơn vang trắng không?”  Truy vấn q: [vang đỏ vang trắng tim]  Xét văn bản d: Bài diễn thuyết từ trái tim của anh ấy là một đòn tấn công trực diện hướng vào những công ty sản xuất rượu vang nhằm làm giảm ảnh hưởng của vang trắng và đỏ đến vấn nạn lái xe trong tình trạng say xỉn.  d rất khớp với truy vấn q . . . nhưng không phù hợp với nhu cầu thông tin i . 6
  7. Nhu cầu thông tin vs. truy vấn  Con người đánh giá sự phù hợp với nhu cầu thông tin. . Giải thuật tìm kiếm đánh giá sự phù hợp với truy vấn. Có thể sử dụng đánh giá của con người làm chuẩn mực để đánh giá giải thuật tìm kiếm. 7
  8. Dữ liệu kiểm thử  Dữ liệu để đánh giá kết quả tìm kiếm gồm:  Bộ văn bản được lựa chọn kỹ lưỡng,  Tập truy vấn mẫu,  Đánh giá phù hợp cho mỗi cặp truy vấn – văn bản. 8
  9. Nội dung chính  Vấn đề đánh giá kết quả tìm kiếm  Độ chính xác, độ đầy đủ  Độ đo F  Đồ thị P/R  Các giá trị trung bình 9
  10. Độ chính xác và độ đầy đủ  Độ chính xác là tỉ lệ văn bản phù hợp trong số văn bản được trả về Precision = #(văn bản phù hợp trả về)/#(văn bản trả về)  Độ đầy đủ là tỉ lệ văn bản phù hợp được trả về trong tổng số văn bản phù hợp Recall = #(văn bản phù hợp trả về)/#(văn bản phù hợp) Ký hiệu P: độ chính xác, R: độ đầy đủ. 10
  11. Bảng phân bố sự kiện Phù hợp Không phù hợp Trả về A (TP) B (FP) Không trả về C (FN) D (TN)  Dựa trên truy vấn đã cho, bộ dữ liệu văn bản có thể được chia thành bốn tập con  (Phù hợp, không phù hợp) x (Trả về, không trả về)  Người dùng quyết định phù hợp/không phù hợp,  Hệ thống quyết định trả về/không trả về 11
  12. Độ chính xác và độ đầy đủ Phù hợp Không phù hợp Trả về A (TP) B (FP) Không trả về C (FN) D (TN) | A | TP P | A  B | TP FP | A | TP R | A  C | TP FN 12
  13. Ví dụ P/R Phù hợp Không phù hợp Trả về A (TP) B (FP) Không trả về C (FN) D (TN)  Rel = {3, 9, 10, 11, 14, 15, 20, 35}  P = ?  R = ? 13
  14. Kết hợp độ chính xác và độ đầy đủ  Có thể tăng độ đầy đủ bằng cách trả về nhiều văn bản hơn, độ đầy đủ luôn đạt 100% nếu trả về tất cả văn bản.  Ngược lại, thường dễ đạt được độ chính xác cao khi chấp nhận độ đầy đủ thấp.  Xét đến những đối tượng người dùng khác nhau  Một người tìm kiếm trên Web thường chỉ xem khoảng 20 văn bản đầu tiền => tính chính xác quan trọng hơn.  Một nhà nghiên cứu lại muốn nhận được tất cả văn bản liên quan đến chủ để được quan tâm => tính đầy đủ quan trọng hơn. Cần sử dụng đồng thời độ chính xác và độ đầy đủ để đánh giá kết quả tìm kiếm. 14
  15. Nội dung chính  Vấn đề đánh giá kết quả tìm kiếm  Độ chính xác, độ đầy đủ  Độ đo F  Đồ thị P/R  Các giá trị trung bình 15
  16. Độ đo F  Độ đo F kết hợp độ chính xác và độ đầy đủ thành một tiêu chí duy nhất: 1 ( 2 1)PR 1  2 F F F 1 1  2 P R  2 1 (1 ) P R R P 1 Trong đó  2 2  α ϵ [0, 1], β ϵ [0,∞]  Miền giá trị nào của β đề cao độ đầy đủ hơn độ chính xác? 16
  17. Độ đo F  Nếu β = 1 hoặc α = 0.5, thì F là trung bình điều hòa của P và R,  Nếu β = 0, F là độ chính xác,  Nếu β = Inf, F là độ đầy đủ. Ký hiệu độ đo F với β = 1 là F1 17
  18. Trung bình điều hòa  Công thức tính F là trung bình điều hòa của P và R  Vì sao Không tổng hợp P và R theo cách khác?  Ví dụ, trung bình đại số?  Mong muốn: Phạt những kết quả có độ chính xác hoặc độ đầy đủ thấp.  Lấy giá trị cực tiểu giúp ta đạt được mục đích này.  Vì sao không sử dụng giá trị cực tiểu? 18
  19. Lấy trung bình F là trung bình điều hòa của P và R. 19
  20. Nội dung chính  Vấn đề đánh giá kết quả tìm kiếm  Độ chính xác, độ đầy đủ  Độ đo F  Đồ thị P/R  Các giá trị trung bình 20
  21. Đường cong độ chính xác/độ đầy đủ . Độ chính xác/đầy đủ/F là những độ đo được thiết kế cho tìm kiếm không xếp hạng. . Tuy nhiên chúng ta có thể mở rộng những độ đo này cho danh sách xếp hạng. . Đo P@i và R@i tại mỗi vị trí i tăng dần của danh sách kết quả. . Nối các điểm (R@i, P@i) trên mặt phẳng để thu được đồ thị độ chính xác/độ đầy đủ. Đồ thị P/R thể hiện mối liên hệ phụ thuộc giữa độ chính xác và độ đầy đủ. 21
  22. Ví dụ vẽ đồ thị P/R Tập kết quả phù hợp: 10 văn bản Tập kết quả 22
  23. . Mỗi điểm trên đồ thị ứng với độ chính xác/đầy đủ cho k văn bản đầu tiên (k = 1, 2, 3, 4, . . .). 23
  24. Độ chính xác nội suy/độ đầy đủ . Lý do sử dụng nội suy: Hầu hết người dùng đều sẵn sàng xem thêm kết quả nếu văn bản tiếp theo là phù hợp. 24
  25. Những giá trị chuẩn của độ đầy đủ Độ đầy Độ chính xác đủ nội suy 0.0 1.00 0.1 0.67 0.2 0.63 0.3 0.55 0.4 0.45 0.5 0.41 0.6 0.36 0.7 0.29 0.8 0.13 0.9 0.10 1.0 0.08 trung bình ≈ 0.425 25
  26. Đường cong ROC và P/R  ROC: TPR/FPR  PR: Precision/Recall  TPR = Recall = TP/(TP+FN) = p(trả về|phù hợp)  FPR = Fall-out = FP/(FP+TN) = p(trả về|không phù hợp)  Precision = TP/(TP+FP) = p(phù hợp|trả về)  Fall-out = FP/(FP+TN) = p(trả về|không phù hợp)  Specificity = TN/(FP+TN) = p(không trả về|không phù hợp)  Sensitivity = TP/(TP+FN) = p(trả về|phù hợp)  FPR = Fall-out = 1 – specificity  TPR = Recall = Sensitivity 26
  27. Đường cong ROC  Tương đương đồ thị độ chính xác/độ đầy đủ trong so sánh các thuật toán  Thường chỉ quan tâm tới một khoảng nhỏ ở góc thấp bên trái ứng với độ nhạy (sensitivity) < 0.4. 27
  28. Đường cong P/R và ROC 28
  29. Nội dung chính  Vấn đề đánh giá kết quả tìm kiếm  Độ chính xác, độ đầy đủ  Độ đo F  Đồ thị P/R  Các giá trị trung bình 29
  30. Độ chính xác trung bình  AP – Average Precision  Ký hiệu vị trí của các văn bản phù hợp trong danh sách kết quả là:  K1, K2, KR  Độ chính xác trung bình: 1 푃 = 푃@퐾 푅 푖  Ví dụ: d1*, d2, d3*, d4, d5* và R= 3 1 1 2 3 AP  0.76 3 1 3 5 30
  31. Precision@K  Thiết lập ngưỡng K  Tính tỉ lệ văn bản phù hợp trong K kết quả đầu tiên  Bỏ qua những văn bản xếp hạng thấp hơn K  Ví dụ: d1*, d2, d3*, d4, d5*  Precision@3 = 2/3  Precision@4 = 2/4  Precision@5 = 3/5  Một cách tương tự chúng ta có Recall@K 31
  32. Bình quân độ chính xác trung bình  Mean Average Precision (MAP) 1 1 푃 = ∙ ∙ 푃@퐾푖 푄 푅푖 Trong đó Ri là số văn bản trong bộ dữ liệu phù hợp với truy vấn qi. 32
  33. Ví dụ MAP Văn bản phù hợp với truy vấn 1 Xếp hạng # 1 * – * – – * – – * * Độ đầy đủ 0,2 0,2 0,4 0,4 0,4 0,6 0,6 0,6 0,8 1,0 Độ chính xác 1,0 0,5 0,67 0,5 0,4 0,5 0,43 0,38 0,44 0,5 Văn bản phù hợp với truy vấn 2 Xếp hạng # 2 – * – – * – * – – – Độ đầy đủ 0,0 0,33 0,33 0,33 0,67 0,67 1,0 1,0 1,0 1,0 Độ chính xác 0,0 0,5 0,33 0,25 0,4 0,33 0,43 0,38 0,33 0,3 AP1 = (1,0 + 0,67 + 0,5 + 0,44 + 0,5)/5 = 0,62 AP2 = (0,5 + 0,4 + 0,43)/3 = 0,44 MAP = (0,62 + 0,44)/2 = 0,53 33
  34. Tính ổn định của độ đo  Trên một bộ dữ liệu kiểm thử hệ thống có thể trả về kết quả kém chất lượng với một số truy vấn nhưng lại trả về kết quả rất tốt với những truy vấn khác.  Biên độ giao động của độ đo đối với một hệ thống trên những truy vấn khác nhau có thể lớn hơn nhiều so với những hệ thống khác nhau trên cùng truy vấn.  Truy vấn có độ khó khác nhau. 34
  35. Tính ổn định của độ đo  Lấy trung bình trên tất cả truy vấn làm tăng tính ổn định của độ đo  Cần nhiều truy vấn hơn cho các độ đo kém ổn định  AP: 25 (đủ), 50 (tốt)  P@10: 150 – 200 (tốt) [Modern Information Retrieval] 35
  36. Bài tập 1  Tính độ chính xác, độ đầy đủ và F1 cho tập kết quả sau: phù không phù hợp hợp trả về 10 20 không trả về 80 1,000,000,000 36
  37. Bài tập 2  Công cụ tìm kiếm Snoogle luôn trả lời “tìm thấy 0 kết quả thỏa mãn”, cho truy vấn bất kỳ. Vì sao Snoogle thể hiện rằng độ chính xác khái quát không hữu ích trong đánh giá kết quả tìm kiếm? AC = (TP+TN)/(TP+TN+FP+FN) 37