Bài giảng Tìm kiếm và trình diễn thông tin - Bài 2: Bộ từ vựng và bộ thẻ định vị - Nguyễn Bá Ngọc
Bạn đang xem tài liệu "Bài giảng Tìm kiếm và trình diễn thông tin - Bài 2: Bộ từ vựng và bộ thẻ định vị - Nguyễn Bá Ngọc", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_tim_kiem_va_trinh_dien_thong_tin_bai_2_bo_tu_vung.pdf
Nội dung text: Bài giảng Tìm kiếm và trình diễn thông tin - Bài 2: Bộ từ vựng và bộ thẻ định vị - Nguyễn Bá Ngọc
- (IT4853) Tìm kiếm và trình diễn thông tin Bộ từ vựng và bộ thẻ định vị
- Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website:
- Biểu diễn văn bản
- Chuẩn hóa từ tiếng Việt Các bảng mã Dấu ngữ âm
- Tiếng Việt Unicode Tổ hợp (composite) Dựng sẵn (precomposed) TCVN 6909:2001
- Truy vấn AND Các bước thực diện truy vấn kiểu: a AND b 1. Tìm a và lấy danh sách thẻ định vị tương ứng 2. Tìm b và lấy danh sách thẻ định vị tương ứng 3. Chọn các phần tử chung của La và Lb
- Chọn phần tử chung Duyệt đồng thời cả hai danh sách Nếu độ dài các danh sách tương ứng là x và y, thì cần thực hiện không quá x + y so sánh. Với điều kiện: các danh sách được sắp xếp theo mã văn bản
- Thuật toán 2.1
- La Lb answer 2 1 2 2 2 4 3 2, 4, 8, 16, 32, 64, 128 La 4 5 8 5 1, 2, 3, 5, 8, 13, 21, 34 Lb 8 8 2, 8 answer = {2, 8} 16 13 16 21 32 21 32 34 64 34 128 34 128 NIL
- Bổ xung bước nhảy vào danh sách thẻ định vị 41 128 2 4 8 41 48 64 128 11 31 1 2 3 8 11 17 21 31 Sử dụng bước nhảy để bỏ qua những thẻ định vị không thỏa mãn điều kiện. 12
- Xử lý truy vấn với bước nhảy 41 128 2 4 8 41 48 64 128 11 31 1 2 3 8 11 17 21 31 Giả sử trong quá trình duyệt danh sách, các con trỏ đang ở vị trí số 8 ở mỗi danh sách. Tiếp theo: Chúng ta lưu giá trị đó và Dịch chuyển con trỏ sang phải, ở các vị trí 41 và 11 Tại vị trí 11, có thể thực hiện bước nhảy, vì 31 < 41, như vậy chúng ta có thể bỏ qua một phần danh sách 13
- Độ dài của bước nhảy Nếu nhiều bước nhảy khoảng cách nhỏ xác suất di chuyển theo bước nhảy cao. Nhưng phải so sánh bước nhảy nhiều lần. Ít bước nhảy ít so sánh hơn, nhưng khoảng cách lớn hơn xác suất di chuyển theo bước nhảy thấp hơn. 14
- Tối ưu hóa truy vấn AND Số kết quả không lớn hơn độ dài danh sách thẻ định vị ngắn nhất
- Tối ưu hóa truy vấn AND 1. Với mỗi thuật ngữ truy vấn t • Tìm t trong bộ từ vựng 2. Sắp xếp thuật ngữ tăng dần theo df(t) 3. Khởi tạo tập kết quả answer là danh sách ngắn nhất 4. Tiếp tục thực hiện truy vấn theo thứ tự đã sắp xếp
- Ví dụ Cho truy vấn a AND b AND c với các danh sách thẻ định vị như trong hình vẽ Thứ tự tối ưu với truy vấn a AND b AND c là (c AND a) AND b
- AND of OR’s Ví dụ truy vấn dạng AND of OR’s: (văn bản OR dữ liệu OR hình ảnh) AND (nén OR gom nhóm) AND (tìm kiếm OR đánh chỉ mục OR lưu trữ) Tối ưu hóa truy vấn • Lấy độ dài danh sách thẻ vị trí cho mỗi từ • Ước lượng số kết quả cho mỗi truy vấn OR • Sắp xếp các truy vấn OR theo thứ tự tăng dần số lượng kết quả
- Bài tập 1 Đối với truy vấn AND, thứ tự tăng dần theo độ dài danh sách thẻ định vị có luôn là thứ tự tối ưu hay không? Chứng minh?
- Bài 2 Tương tự thuật toán 2.1, hãy viết thuật toán thực hiện các truy vấn dạng a OR b và a AND NOT b với độ phức tạp tuyến tính.
- Bài 3 Những phát biểu sau đây đúng hay sai? a. Trong mô hình tìm kiếm Boolean, loại bỏ dấu không bao giờ làm giảm tính chính xác. b. Trong mô hình tìm kiếm Boolean, loại bỏ dấu không bao giờ làm giảm tính đầy đủ. c. Loại bỏ dấu làm tăng kích thước bộ từ vựng. d. Nên thực hiện các thao tác chuẩn hóa trong quá trình xây dựng chỉ mục thay vì khi thực hiện truy vấn.