Bài giảng Tìm kiếm và trình diễn thông tin - Bài 16: Phân lớp và ứng dụng trong tìm kiếm - Nguyễn Bá Ngọc

pdf 20 trang huongle 2390
Bạn đang xem tài liệu "Bài giảng Tìm kiếm và trình diễn thông tin - Bài 16: Phân lớp và ứng dụng trong tìm kiếm - Nguyễn Bá Ngọc", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tim_kiem_va_trinh_dien_thong_tin_bai_16_phan_lop_v.pdf

Nội dung text: Bài giảng Tìm kiếm và trình diễn thông tin - Bài 16: Phân lớp và ứng dụng trong tìm kiếm - Nguyễn Bá Ngọc

  1. (IT4853) Tìm kiếm và trình diễn thơng tin Phân lớp và ứng dụng trong tìm kiếm
  2. Giảng viên  TS. Nguyễn Bá Ngọc  Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603  Email: ngocnb@soict.hust.edu.vn  Website: 2
  3. Nội dung chính  Các giải thuật Nạve Bayes;  Trích chọn đặc trưng. 3
  4. Multinomial Nạve Bayes: Huấn luyện 4
  5. Multinomial Nạve Bayes: Phân lớp 5
  6. Bernoulli Nạve Bayes: Huấn luyện 6
  7. Bernoulli Nạve Bayes: Phân lớp 7
  8. Nội dung chính  Các giải thuật Nạve Bayes;  Trích chọn đặc trưng. 8
  9. Trích chọn đặc trưng  Trong phân lớp, văn bản thường được biểu diễn trong khơng gian đa chiều;  chiều ~ trục;  từ ~ đặc trưng.  Các từ hiếm cĩ thể gây lỗi phân lớp;  Từ gây lỗi phân lợp được gọi là đặc trưng nhiễu.  Loại các đặc trưng nhiễu làm tăng hiệu quả và hiệu năng phân lớp;  Quá trình loại bỏ các đặc trưng nhiễu gọi là trích chọn đặc trưng; 9
  10. Đặc trưng nhiễu  Giả sử một từ hiếm t khơng chứa thơng tin liên quan đến lớp c nhưng chỉ xuất hiện trong các văn bản của lớp c.  Vì t là từ hiếm nên bộ phân lớp sau huấn luyện cĩ thể coi t như một tín hiệu mạnh thuộc lớp c.  Hiện tượng này được gọi là overfitting  Trích chọn đặc trưng làm giảm overfitting và cải thiện tính chính xác của bộ phân lớp. 10
  11. Giải thuật trích chọn đặc trưng 11
  12. Các phương pháp cơ bản  Phương pháp trích chọn đặc trưng được xác định chủ yếu bởi cách đo độ hữu ích của đặc trưng  Độ hữu ích của đặc trưng:  Tần suất – lựa chọn những từ xuất hiện thường xuyên nhất.  Mutual information – lựa chọn từ với mutual information cao nhất;  Cịn được gọi là Information Gain  Chi-square 12
  13. Các phương pháp cơ bản  Phương pháp trích chọn đặc trưng được xác định chủ yếu bởi cách đo độ hữu ích của đặc trưng  Độ hữu ích của đặc trưng:  Tần suất – lựa chọn những từ xuất hiện thường xuyên nhất.  Hàm lượng thơng tin – lựa chọn từ với Hàm lượng thơng tin cao nhất;  Chi-square 13
  14. Hàm lượng thơng tin  Mutual information hoặc Information Gain. N11 số văn bản thuộc lớp c chứa t; N10 số văn bản thuộc lớp c khơng chứa t; N01 khơng thuộc lớp c, chứa t; N00 khơng thuộc lớp c khơng chứa t. N = N11 + N10 + N01 + N00 là tổng số văn bản. 14
  15. Ví dụ tính MI, poultry/EXPORT 15
  16. Kết quả trích chọn đặc trưng trên Reuters 16
  17. (multinomial = multinomial Naive Bayes, binomial = Bernoulli Naive Bayes) 17
  18. Nạve Bayes  Trong trường hợp tổng quát, trích chọn đặc trưng là cần thiết để đạt kết quả cao Cần trích chọn đặc trưng để đạt hiệu quả tối đa! 18
  19. Bài tập  Tính ma trận nhầm lẫn tương tự poultry/EXPORT cho cặp “Kyoto/JAPAN”.  Hãy thiết lập ma trận nhầm lẫn mà MI = 0 19