Giáo trình Mô tả thông tin trong HTTTĐL

pdf 28 trang huongle 3360
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Mô tả thông tin trong HTTTĐL", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfgiao_trinh_mo_ta_thong_tin_trong_htttdl.pdf

Nội dung text: Giáo trình Mô tả thông tin trong HTTTĐL

  1. Chương 5 MÔ TẢ THÔNG TIN TRONG HTTTĐL
  2. Mức độ mô tả thông tin H5.1 Mức độ mô tả thông tin Những MHDL HTTTĐL Một CSDL HTTTĐL thể hiện một khía cạnh thế giới thực. Mỗi CSDL HTTTĐL là một tập hợp của dữ liệu có liên quan tới không gian, những sự kiện phản ánh thực tế. Ta có khái niệm: “Mô hình (Model) là một tập hợp các nguyên tắc để mô tả những dữ liệu được tổ chức hợp lý trong CSDL, đôi khi nó ngụ ý cả những chú thích, chú giải mô tả dữ liệu và tập hợp những thao tác vận hành dữ liệu này”
  3. Trong HTTTĐL, chúng ta sử dụng “MHDL” để xây dựng mô hình máy tính trình bày những một khía cạnh của thế giới thực mà chúng ta quan tâm. MHDL sử dụng trong HTTTĐL Quá trình tổ chức thông tin liên quan với quá trình tổ chức dữ liệu (miêu tả, biểu diễn thế giới thực bằng cách sử dụng dữ liệu). Mức thấp nhất của mô tả thông tin được sử dụng thuật ngữ mô hình dữ liệu-MHDL (Peuquet, 1991). Có nhiều MHDL được sử dụng trong HTTTĐL, gồm: Mô hình tổng quát Ê Mô hình mì ống – (Spaghetti model) MHDL cơ bản – (Basic data models) Ê Vector Ê Raster Mô hình không gian – (Spatial models) Ê Mô hình hình học phẳng. Ê Mô hình topology phẳng Mô hình bề mặt - (Surface models) Ê Mô hình số độ cao-(Digital Elevation Models -DEMs) Ê Mô hình mạng tam giác –(Triangular Irregular Network -TIN) Mô hình toán học-(Mathematical models) Mô hình khái niệm-(Conceptual models) Ê Mô hình Thực thể - mối quan hệ (Entity-Relationship (ER))
  4. Ê Mô hình Thực thể - mối quan hệ nâng cao (Enhanced Entity- Relationship (EER)) Ê Mô hình thực thi – (An implementation model) Ê Mô hình quan hệ-(Relational model) Mô hình ngữ nghĩa – (Semantic models) Ê Mô hình hướng đối tượng (Object-oriented model) Ê Mô hình chức năng (Functional model) Những mô hình có thứ bậc-(Hierarchical models) Ê quadtrees, strip trees Mô hình độc quyền (Proprietary models) Ê Arc/Info Ê ERDAS Ê Geovision Ê Grass Ê Caris Ê DBMS based Ê Ingres Ê Oracle Ê Postgres Một số mô hình sẽ được nói tới trong sách này, phần lớn chúng là những MHDL mô tả.
  5. HTTTĐL gồm những mô hình mô tả những khía cạnh lựa chọn của thế giới thực. Thực tế không có giới hạn những khía cạnh này, vì vậy không có giới hạn về những MHDL . Do vậy, ý nghĩa MHDL là sự hữu ích của nó. Cấu trúc dữ liệu Mức cao hơn MHDL là cấu trúc dữ liệu, liên quan với thiết kế và quá trình tổ chức thông tin. Thể hiện định hướng tổ chức dữ liệu thường liên quan tới phần mềm không xem xét phần cứng. Cấu trúc file Thể hiện định hướng phần cứng của dữ liệu, lưu trữ vật lý dữ liệu trong một số loại như ổ cứng, băng từ hay liên quan tới phần cứng độc lập nào đó. Cấu trúc dữ liệu mô tả Cấu trúc dữ liệu mô tả thể hiện thiết kế và thực hiện của quá trình tổ chức thông tin phi thuộc tính không gian (non-spatial data). Như phần lớn các hệ thống thông tin thực hiện ngày nay dựa trên mô hình CSDL Quan hệ- relational và hướng đối tượng object-oriented. Cấu trúc dữ liệu quan hệ
  6. 5. 3 Cấu trúc dữ liệu quan hệ Đặc điểm cấu trúc dữ liệu quan hệ (Hình 5.3) Ì Mối quan hệ là một tập hợp (ký hiệu, biểu tượng, đặc điểm của một yếu tố) tương ứng như những hàng trong bảng. Ì Số lượng của tập hợp của yếu tố trong mối quan hệ được gọi là phần tử. Ì Các phần tử tạo nên thuộc tính của đối tượng tương ứng với cột trong bảng Ì Số lượng thuộc tính gọi là mức độ Ì Mỗi mối quan hệ xác định duy nhất gọi là khóa gốc. Khóa gốc là cột hay phối hợp cột sao cho giá trị một hàng có cùng PK là duy nhất, điều này cho phép sử dụng PK liên kết dữ liệu trong những bảng khác nhau.
  7. Ì Những bảng dữ liệu khác có cùng khóa gốc nhưng được gọi là khóa ngoài foreign keys . Ì Để đảm bảo tính toàn vẹn dữ liệu, mối quan hệ phải chuẩn hóa và dựa trên dạng chuẩn hóa. Cấu trúc dữ liệu hướng đối tượng (Object-oriented data structure) Hình 5.4 Cấu trúc dữ liệu hướng đối tượng Không giống mô hình quan hệ, there is not a formalized object-oriented data structure Cấu trúc dựa trên sự thực hiện các hướng đối tượng khác nhau sẽ có cấu trúc khác nhau, có thể giải thích trong thuật ngữ tổng quát khái niệm tính xác định-
  8. object identify, Cấu trúc-object structure và type constructors (Elmasri and Navathe, 1994) Một đối tượng phức tạp được cấu trúc từ những đối tượng đơn giản. Mỗi đối tượng được xem như 3 phần (i, c, v) trong đó: i = Xác định duy nhất (he object's unique identifier (OID)) c = Cấu trúc (chỉ ra cơ chế tạo ra giá trị đối tượng) v = giá trị đối tượng (object value) MHDL không gian Có hai mô hình cơ bản để biểu diễn thành phần không gian của thông tin địa lý đó là raster và vector.
  9. Hình 4.8 Mô hình raster và vector biểu diễn Thế giới thực Mô hình Raster (Raster model) Mô hình raster dựa trên hệ thống hiển thị, định vị và lưu trữ dữ liệu địa lý bằng cách sử dụng ma trận lưới ô (cell). Những biểu diễn tọa độ của mỗi pixcel là trung tâm (centroid) của nó. Lần lượt mỗi cell hay pixel có những thuộc tính dữ liệu riêng biệt được gán cho chúng. Độ phân dải dữ liệu raster tùy thuộc vào kích cỡ pixel hay kích cỡ lưới, có thể từ vài milimet tới nhiều kilomet. Mô hình raster là những dữ liệu mảng hai chiều (two-dimensional), các thông tin khác nhau được lưu trữ như lớp phủ rừng (forest cover), kiểu đất (soil type), sử dụng đất (land use), môi trường đất ướt (wetland habitat), hay những kiểu dữ liệu khác.
  10. Với mô hình raster, diện tích nghiên cứu được chia thành lưới đều đặn của những ô, gồm các hàng và cột, toạ độ pixel t ính từ góc trái trên. Mô hình Vector (Vector model) Mô hình vector là mô hình "điểm-đường-vùng" biểu diễn các đối tượng dạng điểm, đường và vùng. Hệ tọa độ Đềcac (Cartesian coordinates) (ví dụ x, y) và những thuật toán máy tính về tọa độ xác định những điểm được sử dụng trong hệ thống vector. Những đường hay cung là một chuỗi các điểm. Diện hay vùng (polygon) là cũng lưu trữ như thứ tự các điểm, nhưng điểm đầu và cuối có cùng vị trí, diện được đóng kín và xác định. Cấu trúc dữ liệu đồ họa (Graphical data structures) Cấu trúc dữ liệu Raster (Raster data structure)
  11. Cấu trúc dữ liệu Raster Trong Cấu trúc dữ liệu Raster không gian được chia nhỏ thành những lưới ô (vuông) đều đặn hay lưới biết như những yếu tố ảnh-picture elements (pixels). Ì Vị trí mỗi ô xác định số hàng và số cột của nó. Ì Diện tích đại diện mỗi ô xác định độ phân dải không gian của dữ liệu. Ì Vị trí yếu tố địa lý chỉ xác định bởi pixel gần nhất. Ì Giá trị lưu trong mỗi ô lưới chỉ thị những kiểu đối tượng, hiện tượng hay điều kiện tìm thấy trong chúng ở vị trí riêng biệt. Ì Những kiểu giá trị khác nhau có thể mã hóa: số nguyên (integers), số thực (real numbers) và thứ tự.
  12. Ì Giá trị nguyên thường là mã số đối tượng, tham chiếu tới tên trong bảng liện kết (gọi là look-up table) hay chỉ dẫn. Ì Những thuộc tính khác nhau ở cùng một vị trí ô được lưu trữ trong những chủ đề khác nhau hay những lớp for example, raster data pertaining to the soil type, forest cover and slope covering the same area are stored separately in a soil type theme, a forest cover theme and a slope theme there are several variants to the regular grid raster data structure, including: irregular tessellation (e.g. triangulated irregular network (TIN)), hierarchical tessellation (e.g. quad tree) and scan-line (Peuquet, 1991) Một cách tổng quát, dữ liệu raster đòi hỏi ít xử lý hơn dữ liệu vector, nhưng nó sử dụng nhiều không gian lưu trữ trong máy tính hơn. Trong kỹ thuật viễn thám, quá trình quét của bộ cảm nhận (sensor) trên vệ tinh lưu trữ dữ liệu ở dạng raster. Mô hình địa hình - Digital terrain models (DTM) và mô hình số độ cao-digital elevation models (DEM) là những ví dụ dữ liệu raster (Koeln et al 1994 and Huxhold 1991).
  13. Hình 4.5 Raster biểu diễn thế giới Cấu trúc dữ liệu Vector (Vector data structure) Hệ thống vector có khả năng phân giải rất cao (» 0.001 inch) và in ấn xuất bản tương tự như bản đồ làm bằng tay. Hệ thống này làm việc tốt với phương vị, khoảng cách và những điểm, nhưng nó đòi hỏi những cấu trúc phức tạp và ít tương thích với dữ liệu vệ tinh (remote sensing data). Dữ liệu vector cần ít không gian lưu trữ và duy trì mối quan hệ hình học dễ dàng.
  14. Hình 4.6 Vector biểu diễn thế giới (Koeln et al 1994; and Huxhold 1991) Có nhiều cấu trúc dữ liệu vector, bao gồm: Spaghetti Spaghetti Có lẽ đơn giản nhất trong các mô hình HTTTĐL là mô hình spaghetti model, Về bản chất là mô hình vẽ bản đồ, với chúng những điểm, đường và những chuỗi ký tự được biểu diễn đơn thuần là vị trí. Hầu như không có mô tả rõ ràng cấu trúc Topology. Ranh giới chung giữa 2 polygon kề nhau được ghi 2 lần.
  15. Mô hình này không hữu hiệu trong phân tích không gian, tuy nhiên nó rất hữu hiệu trong việc tái sản xuất bản đồ số mà không cần lưu trữ quan hệ không gian. Hình 4.9 MHDL Spaghetti Mô hình (line-for-line) tương tự như bản đồ giấy thường là dữ liệu tạm thời trong số hóa.
  16. Spaghetti Hierarchical (cấu trúc phân cấp)
  17. hierarchical
  18. Hình 4.3 MHDL phân cấp Topological (cấu trúc hình học) Cấu trúc dữ liệu vector trợ giúp mục đích duy trì mối quan hệ không gian bằng cách lưu giữ thông tin liền kế nhau.
  19. topological Mô hình topology được sử dụng rộng rãi trong việc mã hóa các mối quan hệ không gian. Topology là phương pháp toán học được dùng để định nghĩa các quan hệ không gian. Một số khái niệm trong mô hình topology trong phần mềm ArcInfo: Arc (cung): chuỗi các điểm bắt đầu và kết thú tại node. Node (điểm nút): - Là điểm giao nhau của 2 hay nhiều arc. - Điểm kết thức 1 arc
  20. - Điểm riêng biệt Polygon (vùng): là chuỗi khép kín của các arc thể hiện ranh giới của vùng. Topology được ghi trong 3 bảng dữ liệu cho 3 loại yếu tố không gian: polygon, node và arc. Dữ liệu về tọa độ được ghi trong bảng thứ tư. Dữ liệu thuộc tính thường được lưu trữ trong các bảng quan hệ, trong đó 1 trường chứa ID của đối tượng không gian. Ưu điểm: Phân tích không gian được thực hiện không sử dụng dữ liệu tọa độ, giảm thời gian phân tích. Nhược: Cập nhật hóa mô hình topology mất nhiều thời gian. Hình 4.10 node topology
  21. Hình 4.11 arc topology
  22. Hình 4.12 polygon topology 4.3. So sánh hệ thống Raster và Vector (Vector hay Raster?) PP Thuận tiện Không thuận tiện Cấu trúc đơn giản Yêu cầu lưu trữ nhiều trên máy tính Tương thích với dữ liệu vệ tinh và Tùy thuộc vào kích cỡ pixel, sản phẩn in ấn không đẹp Raster dữ liệu ảnh quét. Chuyển đổi hệ thống tọa độ khó khăn Qui trình phân tích không gian đơn Rất khó mô tả mối quan hệ hình học giản. Cấu trúc phức tạp Không thích hợp dữ liệu viễn thám Yêu cầu lưu trữ ít Phần cứng và phần mềm rất đắt tiền Vector Mối quan hệ hình học được duy trì Một số phân tích không gian rất khó khăn. Tạo những bản in đẹp phân tích chồng lớp các bản đồ vector (Overlaying) mất nhiều thời gian
  23. So sánh hai mô hình, câu hỏi được đặt ra không phải là “mô hình nào là tốt?” mà là dưới điều kiện nào thì cái này tốt hơn cái kia?. Trả lời câu hỏi thứ hai, chúng ta xem xét bốn vấn đề: Ê Độ chính xác tọa độ. coordinate precision Ê Tốc độ xử lý. speed of processing Ê Những yêu cầu lưu trữ. storage requirements Ê Kiểu của dữ liệu đại diện. type of data being represented 5.4 Cấu trúc dữ liệu quan hệ địa lý (The georelational data structure) CTDLQHĐL được phát triển để điều khiển, xử lý dữ liệu địa lý: Nó cho phép liên kết, kết hợp giữa không gian (graphical) và dữ liệu phi không gian (non-spatial) (mô tả). Nó là cấu trúc sử dụng các phần mềm vector HTTTĐL. Cả dữ liệu không gian và phi không gian lưu trữ trong những bảng quan hệ. Ê Dữ liệu điểm, đường, vùng lưu trữ trong những bảng thuộc tính riêng biệt (separate feature attribute tables (FAT) (Hình )
  24. Những yếu tố đồ họa cơ bản
  25. Cấu trúc dữ liệu quan hệ địa lý Trong FAT, mỗi thực thể gán duy nhất feature identifier (FID) Thông tin hình lưu trữ dùng phương pháp tương tự cấu trúc dữ liệu hình học mô tả bên trên. Dữ liệu phi không gian lưu trữ trong những bảng quan hệ o Những thực thể không gian và những bảng quan hệ phi không gian liên kết bằng FID cchung (hình)
  26. 4.1. Tổ chức dữ liệu thuộc tính HTTTĐL sử dụng mô hình raster và vector để mô tả vị trí, nhưng những bản ghi về những hiện tượng thế giới thực theo từng vị trí và những thuộc tính về chúng được biểu diễn như thế nào ?. HTTTĐL dđã cung cấp mối liên kết giữa dữ liệu không gian và phi không gian. Những mối liên kết này làm cho HTTTĐL thông minh "intelligent", hơn nữa người sử dụng có thể lưu trữ và kiểm tra thông tin về “Cái đó ở đâu ?- where things are?” và “Chúng là cái gì-what they are”. Dữ liệu không gian-Spatial Data >> Phi không gian (Non-Spatial Data )
  27. Yếu tố địa lý-Geographic Features >> Thuộc tính-Attributes Có thể khái quát đây là mối quan hệ giữa: Vị trí biểu tượng >> Ý nghĩa chúng Trong hệ thống raster, những ký hiệu là vị trí ô lưới trong ma trận. Trong hệ thống vector, những ký hiệu định vị có thể là điểm, đường (line), curve, boundary, or vector; hay vùng: area, region, hay polygon. Mối liên kết biểu tượng và ý nghĩa của chúng là việc gán cho bất kỳ một yếu tố địa lý ít nhất một nghĩa xác định, tên hay chỉ số gọi là ID của nó, dữ liệu phi không gian của yếu tố thường lưu trữ trong một hay nhiều file riêng biệt theo số ID này. Thông tin vị trí được liên kết tới những thông tin xác định trong CSDL.
  28. Hình 4.1 Nối kết dữ liệu không gian và thuộc tính