Bài giảng Tích hợp hệ thống - Bài 4: Data warehouse - Thái Kim Phụng

ppt 38 trang huongle 4770
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tích hợp hệ thống - Bài 4: Data warehouse - Thái Kim Phụng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptbai_giang_tich_hop_he_thong_bai_4_data_warehouse_thai_kim_ph.ppt

Nội dung text: Bài giảng Tích hợp hệ thống - Bài 4: Data warehouse - Thái Kim Phụng

  1. TRƯỜNG ĐH KINH TẾ TP HỒ CHÍ MINH KHOA TIN HỌC QUẢN LÝ Bài giảng môn TÍCH HỢP HỆ THỐNG BÀI 4: DATA WAREHOUSE 1
  2. Mục tiêu ◼ Sau khi học xong bài này sinh viên có thể: ◼ Hiểu rõ khái niệm kho dữ liệu (Data Warehouse) và các đặc trưng của mô hình kho dữ liệu ◼ Biết được các mô hình tích hợp dữ liệu đa chiều ◼ Nắm được kiến trúc kho dữ liệu ◼ Nắm được các phương pháp phân tích, khai phá trên kho dữ liệu 2
  3. Tham khảo ◼ Paulraj Ponniah, Data Warehousing, 2001 ◼ W. H. Inmon, Building the Data Warehouse (Third Edition), 2002 3
  4. Nội dung ◼ Khái niệm kho dữ liệu ◼ Mô hình dữ liệu đa chiều ◼ Kiến trúc kho dữ liệu 4
  5. Khái niệm kho dữ liệu ◼ Kho dữ liệu (Data Warehouse) được định nghĩa là: ◼ CSDL hỗ trợ quyết định được duy trì tách biệt với CSDL tác nghiệp của tổ chức. ◼ Hỗ trợ xử lý thông tin nhờ cung cấp một dữ liệu hợp nhất để phân tích. ◼ “KDL là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời gian và không thay đổi để hỗ trợ quá trình tạo quyết định quản trị.” ◼ Bốn “đặc trưng”: hướng chủ đề, tích hợp, có tính thời gian và không thay đổi 5
  6. Kho dữ liệu: khái niệm ◼ Kho dữ liệu: ◼ Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp ◼ Tạo sự sẵn có thông tin hiện tại và lịch sử của doanh nghiệp để thuận lợi ra quyết định ◼ Tạo khả năng giao dịch hỗ trợ quyết định mà không cản trở hệ thống tác nghiệp ◼ Cung cấp tính nhất quán thông tin doanh nghiệp 6
  7. Kiến trúc kho dữ liệu 7
  8. Tạo kho dữ liệu – Data warehousing Quá trình xây dựng và sử dụng KDL 8
  9. KDL — đặc trưng hướng chủ đề ◼ Được tổ chức xung quanh các chủ đề chính, chẳng hạn như khách hàng, sản phẩm, bán hàng. ◼ Tập trung vào xây dựng mô hình và phân tích dữ liệu để tạo quyết định ◼ Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề tài thuộc chủ đề cụ thể trong quá trình ra quyết định. 9
  10. KDL — đặc trưng hướng chủ đề Ứng dụng tác nghiệp chủ đề KDL 10
  11. KDL - đặc trưng tích hợp ◼ KDL đươc xây dựng từ việc tích hợp các nguồn dữ liệu phức, không đồng nhất ◼ CSDL quan hệ, CSDL file phẳng (flat files: mã hóa CSDL sang dạng đặc biệt như .txt hoặc .ini), các mẩu tin giao dịch trực tuyến ◼ Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu. ◼ Đảm bảo tính nhất quán quy ước đặt tên, cấu trúc mã hóa, đo lường thuộc tính, giữa các nguồn dữ liệu khác nhau ◼ VD, giá khách sạn: tiền tệ, thuế, bao gói ăn sáng ◼ Dữ liệu chuyển tới KDL thì nó được chuyển đổi. 11
  12. KDL - đặc trưng tích hợp 12
  13. KDL - đặc trưng thời gian ◼ Chiều thời gian đối với KDL là đáng kể dài hơn so với hệ thống CSDL tác nghiệp. ◼ CSDL tác nghiệp: dữ liệu giá trị hiện thời. ◼ Dữ liệu KDL: cung cấp thông tin theo “quan điểm” lịch sử (chẳng hạn, 5-10 năm quá khứ) ◼ Mọi cấu trúc cốt lõi trong KDL ◼ Chứa yếu tố thời gian ◼ Nhưng cốt lõi của dữ liệu tác nghiệp có thể chứa hoặc không chứa “yếu tố thời gian”. June 12, 2021 13
  14. KDL - đặc trưng thời gian Chiều thời gian hiện thời tới 60-90 ngày Chiều thời gian 5=10 năm Cập nhật hồ sơ Cấu trúc chính chứa yếu tố thời gian Cấu trúc chính chứa/không chứa yếu tố thời gian 14
  15. KDL - đặc trưng không thay đổi ◼ Lưu trữ vật lý riêng biệt các dữ liệu được chuyển từ môi trường tác nghiệp sang. ◼ Cập nhật tác nghiệp dữ liệu không xuất hiện trong môi trường KDL. ◼ Không có xử lý giao dịch, phục hồi và cơ chế điều khiển đồng thời. ◼ Chí có hai thao tác truy nhập dữ liệu: ◼ Nạp dữ liệu và truy cập dữ liệu. Dữ liệu nguồn không biến đổi trong KDL. 15
  16. KDL - đặc trưng không thay đổi 16
  17. KDL và Hệ QTCSDL tác nghiệp ◼ OLTP (xử lý giao dịch trực tuyến / on-line transaction processing) ◼ Bài toán chính của Hệ QT CSDL quan hệ truyền thống ◼ Tác nghiệp hàng ngày: thu mua, lưu kho, ngân hàng, sản xuất, tiền lương, đăng ký, kế toán, vv ◼ OLAP (xử lý phân tích trực tuyến/ on-line analytical processing) ◼ Bài toán chính của hệ thống KDL ◼ Phân tích dữ liệu và tạo quyết định ◼ Đặc trưng phân biệt (OLTP thị trường ◼ Nội dung dữ liệu: hiện thời, cụ thể hình sao + chủ đề ◼ Khung nhìn: hiện thời, cục bộ chỉ đọc với câu hỏi phức 17
  18. OLTP <> OLAP OLTP OLAP Người dùng Thư lý, chuyên viên CNTT Chuyên viên tri thức Chức năng Tác nghiệp hàng ngày Hỗ trợ quyết định Thiết kế CSDL Hướng ứng dụng Hướng chủ đề Dữ liệu Hiện thời, cập nhật Lịch sử, tóm tắt, tích hợp đa chiều, chi tiết, quan hệ phẳng biệt hợp nhất lập Sử dụng Lặp Dò tìm (ad-hoc) Truy cập Đọc/ghi Nhiều duyệt Chỉ mục/băm theo khóa chính Đơn vị thao tác Giao dịch ngắn,đơn giản Câu hỏi phức tạp # bản ghi truy cập Chục Triệu #người dùng Nghìn Trăm Kích thước CSDL 100MB-GB 100GB-TB Đơn vị đo Thông lượng giao dịch Thông lượng truy vấn, đáp ứng 18
  19. Kho dữ liệu riêng biệt ◼ Hiệu năng cao cho cả hai hệ thống ◼ DBMS— phân bổ cho OLTP: phương pháp truy cập, lập chỉ mục, điều khiển đồng thời, khôi phục ◼ Warehouse—phân bổ cho OLAP: truy vấn OLAP phức, khung nhìn đa chiều, hợp nhất ◼ Chức năng khác nhau và dữ liệu khác nhau: ◼ Thiếu dữ liệu: Hỗ trợ quyết định cần dữ liệu lịch sử mà CSDL tác nghiệp thường không duy trì ◼ Hợp nhất dữ liệu: Hỗ trợ quyết định đòi hỏi hợp nhất (tổng hợp, tóm tắt) của dữ liệu từ các nguồn không đồng nhất ◼ Chất lượng dữ liệu: nguồn khác nhau sử dụng trình diễn, mã hóa và khuôn dạng dữ liệu không nhất quán (cần phải hòa hợp) 19
  20. ◼ Khái niệm kho dữ liệu ◼ Mô hình dữ liệu đa chiều ◼ Kiến trúc kho dữ liệu 20
  21. Mô hình khái niệm của KDL ◼ Mô hình KDL: chiều và giá trị đo ◼ Sơ đồ hình sao (star schema): Một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều ◼ Sơ đồi bông tuyết (Snowflake schema): Một mở rộng của sơ đồ hình sao trong đó một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức tương tự như bông tuyết. ◼ Sơ đồ chòm sao sự kiện (Fact constellations schema): Bảng sự kiện phức chia sẻ các bảng chiều, tạo khung nhìn một tập các “ngôi sao”, nên còn được gọi sơ đồ ngân hà (galaxy schema) hoặc chòm sao sự kiện 21
  22. Ví dụ về sơ đồ hình sao time time_key item day item_key day_of_the_week Sales Fact Table item_name month brand quarter time_key type year item_key supplier_type branch_key branch location location_key branch_key location_key branch_name units_sold street branch_type city dollars_sold state_or_province country avg_sales Measures 22
  23. Ví dụ về sơ đồ bông tuyết time time_key item day item_key Sales Fact Table supplier day_of_the_week item_name supplier_key month brand supplier_type quarter time_key type year item_key supplier_key branch_key location branch location_key location_key branch_key street branch_name units_sold city_key branch_type dollars_sold city city_key avg_sales city state_or_province Measures country 23
  24. Example of Fact Constellation time time_key item Shipping Fact Table day item_key day_of_the_week Sales Fact Table item_name time_key month brand quarter time_key type item_key year supplier_type shipper_key item_key branch_key from_location branch location_key location to_location branch_key units_sold location_key dollars_cost branch_name street branch_type dollars_sold city units_shipped province_or_state avg_sales country shipper Measures shipper_key shipper_name location_key shipper_type 24
  25. Giá trị đo: Ba loại ◼ Phân biệt: Nếu kết quả nhận được từ áp dụng hàm tới n giá trị kết hợp giống như kết quả nhận được bởi áp dụng chính hàm đó trên mọi giá trị không phân hoạch. ◼ Chẳng hạn, count(), sum(), min(), max(). ◼ Đại số (algebraic): nếu nó được tính toán bởi một hàm đại số với M đối số (M là một số nguyên hữu hạn), mỗi đối số thu được bởi một hàm tích hợp phân bố. ◼ Chẳng hạn, avg(), min_N(), standard_deviation(). ◼ Lập luận (holistic): Nếu cần tới một hằng số hạn chế theo kích thước lưu trữ để mô tả một tập hợp con. ◼ Chẳng hạn, median(), mode(), rank(). 25
  26. Dữ liệu đa chiều ◼ Khối lượng bán hàng là một hàm của sản phẩm, tháng, và quận Các chiều: SP, Địa danh, Thời gian Các đường tóm tắt phân cấp Industry Region Year Category Country Quarter Product City Month Week Product Office Day Month Kho dữ liệu và khai phá dữ liệu 26
  27. Một khối dữ liệu ví dụ Total annual sales Date of TV in U.S.A. 1Qtr 2Qtr 3Qtr sum TV 4Qtr PC U.S.A VCR sum Canada Mexico Country sum 27
  28. Sử dụng kho dữ liệu ◼ Ba kiểu ứng dụng KDL ◼ Xử lý thông tin (Information processing) ◼ Hỗ trợ truy vấn, phân tích thống kê cơ bản, và lập báo cáo sử dụng xuyên âm, bảng, sơ đồ cột và đồ thị ◼ Xử lý phân tích ◼ Phân tích đa chiều dữ liệu trong kho dữ liệu ◼ Hỗ trợ thao tác OLAP cơ bản, cuộn lên, khoan xuống, xoay ◼ Khai phá dữ liệu ◼ Phát hiện tri thức từ mẫu ẩn ◼ Hỗ trợ mô hình phân tích kết hợp, xây dựng, thi hành phân lớp và dự báo, và trình diễn kết quả khai phá bằng tiện ích trực quan hóa. 28
  29. ◼ Khái niệm kho dữ liệu ◼ Mô hình dữ liệu đa chiều ◼ Kiến trúc kho dữ liệu 29
  30. Thiết kế KDL: Một khung phân tích kinh doanh ◼ 4 khung nhìn đối với thiết kế một KDL ◼ Khung trên-xuống (Top-down view) ◼ Cho phép lựa chọn thông tin liên quan cần thiết cho KDL ◼ Khung nguồn DL (Data source view) ◼ Trình bày thông tin được nắm giữ, lưu trữ và quản lý bới hệ thống tác nghiệp ◼ Khung KDL (Data warehouse view) ◼ Chứa các bảng sự kiện và các bảng chiều ◼ Khung truy vấn kinh doanh (Business query view) ◼ Thấy phối cảnh của dữ liệu trong kho từ khung nhìn của người sử dụng 30
  31. Quá trình thiết kế KDL ◼ Tiếp cận Top-down, bottom-up hoặc kết hợp cả hai ◼ Top-down: Khởi đầu với thiết kế và lên kế hoạch khái quát (hoàn thành) ◼ Bottom-up: Khởi đầu từ kinh nghiệm và mẫu (nhanh) ◼ Theo quan điểm của kỹ nghệ phần mềm ◼ Thác nước (Waterfall): Phân tích cấu trúc và hệ thống tại mỗi bước trước khi tiến hành bước tiếp theo ◼ Xoắn ốc (Spiral): Phát sinh nhanh hệ thống chức năng tăng trưởng, chu kỳ ngắn và nhanh ◼ Quá trình thiết kế KDL điển hình ◼ Chọn quá trình kinh doanh để mô hình hóa, như đặt hàng, gửi danh đơn hàng, ◼ Chọn dữ liệu của quá trình kinh doanh ◼ Chọn các chiều sẽ áp dụng tới mỗi bản ghi bảng sự kiện ◼ Chọn độ đo mỗi bản ghi bảng sự kiện 31
  32. Kiến trúc đa tầng Monitor OLAP Server other Metadata & sources Integrator Analysis Operational Extract Query Serve DBs Transform Data Reports Load Refresh Warehouse Data mining Data Marts Data Sources Data Storage OLAP Engine Front-End Tools 32
  33. Kiến trúc ba tầng 33
  34. Ba mô hình KDL ◼ Kho doanh nghiệp (Enterprise warehouse) ◼ Tập hợp tất cả các thông tin về các chủ đề trải trên toàn bộ doanh nghiệp ◼ KDL chuyên đề (Data Mart) ◼ Một tập con dữ liệu toàn doanh nghiệp có giá trị đối với một nhóm người dùng chuyên biệt. Phạm vi của KDL chuyên đề được giới hạn trong các nhóm chuyên biệt, được chọn lọc, ví dụ như KDL chuyên đề tiếp thị. ◼ KDL chuyên đề Độc lập <> Phụ thuộc (trực tiếp từ KDL) ◼ Kho ảo (Virtual warehouse) ◼ Một tập khung nhìn trên CSDL tác nghiệp 34
  35. Mô hình dữ liệu đa chiều ◼ Khuynh hướng suy nghĩ của người quản lý kinh doanh: “nhiều chiều” (multidimensionally). Ví dụ, khuynh hướng mô tả những gì mà công ty làm: ◼ “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”. ◼ Người thiết kế DWH thường lắng nghe cẩn thận và thêm vào các nhấn mạnh đặc biệt: ◼ “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.
  36. Mô hình dữ liệu đa chiều (2) Mô phỏng các chiều trong kinh doanh ❖ Trực giác: việc kinh doanh như một khối (cube) dữ liệu: ❖ Mỗi nhãn trên mỗi cạnh của khối. ❖ Điểm trong khối là các giao điểm của các cạnh. ❖ Với mô tả kinh doanh ở trên ❖Cạnh là Sản phẩm, Thị trường, và Thời gian. ❖ “hiểu” và “tưởng tượng” rằng: điểm trong khối là các độ đo hiệu quả kinh doanh, kết hợp các giá trị Sản phẩm, Thị trường và Thời gian.
  37. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN ◼ Hệ thống OLAP (On_Line Analysis Processing - Xử lý phân tích trực tuyến) ◼ HT quản lý cho phép phân tích dữ liệu: ◼ Cắt lát (slice) dữ liệu theo nhiều cạnh khác nhau, ◼ Khoan xuống (drill down) mức chi tiết hơn ◼ Cuộn lên (roll up) mức tổng hợp hơn. ◼ Bản chất cốt lõi của OLAP ◼ dữ liệu được lấy ra từ KDL hoặc từ Datamart (kho dữ liệu chủ đề) ◼ dữ liệu được chuyển thành mô hình đa chiều ◼ dữ liệu được lưu trữ trong một kho dữ liệu đa chiều.
  38. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN ◼ Đối tượng chính của OLAP là khối (cube): một sự biểu diễn đa chiều của dữ liệu chi tiết và tổng thể. ◼ Nhắc lại: Khối bao gồm một bảng sự kiện (Fact), một/nhiều bảng chiều (Dimensions), các đơn vị đo (Measures) và các phân hoạch (Partitions). ◼ Khối (Cube) : Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con (subset) dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều ◼ Chiều (Dimension): Chiều là cách mô tả chủng loại, theo đó các dữ liệu số trong khối được phân bố để phân tích. ◼ Đơn vị đo lường (Measures): Đơn vị đo của khối là cột trong bảng Fact. Các đơn vị đo xác định những giá trị số từ bảng Fact, được tổng hợp phân tích như định giá, trị giá, hoặc số lượng bán. ◼ Các phân hoạch (Partitions) : Tất cả các khối đều có tối thiểu một phân hoạch để chứa dữ liệu của nó; một phân hoạch đơn được tự động tạo ra khi khối được định nghĩa.