Đồ án Nghiên cứu và đề xuất giải pháp tích hợp các CSDL phân tán trên môi trường Internet - Mai Quang Huy

pdf 46 trang huongle 2700
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Nghiên cứu và đề xuất giải pháp tích hợp các CSDL phân tán trên môi trường Internet - Mai Quang Huy", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfdo_an_nghien_cuu_va_de_xuat_giai_phap_tich_hop_cac_csdl_phan.pdf

Nội dung text: Đồ án Nghiên cứu và đề xuất giải pháp tích hợp các CSDL phân tán trên môi trường Internet - Mai Quang Huy

  1. Đồ án tốt nghiệp MỤC LỤC LỜI CẢM ƠN 3 MỞ ĐẦU 4 CHƢƠNG 1: GIỚI THIỆU CHUNG 5 1.1. ĐẶT VẤN ĐỀ 5 1.1.1 Bài toán tích hợp dữ liệu: 5 1.1.2. Vấn đề tích hợp 6 1.2. TỔNG QUAN VỀ TÍCH HỢP DỮ LIỆU 6 1.2.1. Khái niệm về tích hợp dữ liệu 6 1.2.2. Các mức độ tích hợp dữ liệu 7 1.2.2. Các phƣơng pháp tích hợp dữ liệu 8 CHƢƠNG 2: GIẢI PHÁP TÍCH HỢP CÁC CSDL 11 2.1. MỘT SỐ CÔNG NGHỆ XỬ LÝ CSDL TRÊN MÔI TRƢỜNG MẠNG 11 2.1.1 Một số phƣơng pháp truyền thống khai thác dữ liệu dựa trên Web 11 2.1.1.1. Phƣơng pháp Java Socket 11 2.1.1.2. Phƣơng pháp Servlets Java 12 2.1.1.3. Phƣơng pháp RMI 13 2.1.1.4. Phƣơng pháp CORBA 14 2.1.2. Phƣơng pháp khai thác dữ liệu dựa trên Web service 16 2.1.2.1 HTTP (Hypertext Transfer Protocol) 20 2.1.2.2. SOAP (Simple Object Access Protocol) 21 2.1.2.3. XML (eXtensible Markup Language) 21 2.1.2.4. Khai thác các Web Service 23 2.2. XÂY DỰNG KHO DỮ LIỆU 25 2.2.1. Khái niệm: 25 2.2.2. Các kiến trúc dữ liệu nghiệp vụ 28 Mai Quang Huy CT1002 Trang 1
  2. Đồ án tốt nghiệp 2.2.3. Tiêu chuẩn cho phân loại dữ liệu nghiệp vụ 30 2.2.3.1 Khả năng sử dụng dữ liệu trong nghiệp vụ: 31 2.2.3.2. Phạm vi dữ liệu: 31 2.2.3.3. Dữ liệu đọc - ghi và dữ liệu chỉ đọc: 31 2.2.3.4. Thời gian hiện hành của dữ liệu: 31 2.2.4. Kỹ thuật thiết kế 32 2.2.4.1. Lập mô hình tổ chức: 32 2.2.4.2. Biểu diễn thời gian trong dữ liệu nghiệp vụ: 32 2.2.4.3. Dữ liệu lịch sử: 33 2.2.4.4. Nhân bản dữ liệu: 33 CHƢƠNG 3: THỬ NGHIỆM TÍCH HỢP DỮ LIỆU VỀ CÁC CẦU TRÊN QUỐC LỘ 35 3.1. MÔ TẢ BÀI TOÁN 35 3.2. TRUY CẬP CƠ SỞ DỮ LIỆU TẠI CÁC KHU QUẢN LÝ ĐƢỜNG BỘ 35 3.3. XÂY DỰNG WEB SERVICE 39 3.4. TIÊU THỤ WEB SERVICE 39 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 Mai Quang Huy CT1002 Trang 2
  3. Đồ án tốt nghiệp LỜI CẢM ƠN Lời đầu tiên em xin gửi lời cảm ơn chân thành nhất tới TS. Phùng Văn Ổn đã dành rất nhiều thời gian quí báu để tận tình trực tiếp hƣớng dẫn, chỉ bảo và định hƣớng cho em trong suốt thời gian hoàn thành đồ án này. Em xin bày tỏ lòng biết ơn tới các thầy cô giáo Khoa Công Nghệ Thông Tin – Trƣờng Đại học Dân Lập Hải Phòng đã truyền đạt cho em những kiến thức, kinh nghiệm quý báu trong suốt thời gian học tập tại trƣờng. Em xin chân thành cảm ơn bạn bè và gia đình, những ngƣời thân yêu luôn luôn ở bên khuyến khích, động viên và ủng hộ em trong học tập cũng nhƣ trong cuộc sống. Do thời gian và trình độ có hạn nên đồ án này không thể tránh khỏi những thiếu sót. Rất mong nhận đƣợc sự đóng góp ý kiến của các thầy cô giáo, bạn bè, các quý vị quan tâm tới vấn đề này để đồ án đƣợc hoàn thiện hơn. Trân trọng cảm ơn! Hải Phòng, tháng 7 năm 2010 Mai Quang Huy Mai Quang Huy CT1002 Trang 3
  4. Đồ án tốt nghiệp MỞ ĐẦU Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lƣợng dữ liệu đã đƣợc các cơ quan thu thập và lƣu trữ ngày một tích lũy nhiều lên. Trong khi khối lƣợng dữ liệu ngày càng phát triển với tốc độ chóng mặt và phân tán khắp nơi thì mỗi hệ thống chỉ cần một số thông tin, dữ liệu nhất định phù hợp với yêu cầu riêng của hệ thống đó và trong nhiều trƣờng hợp để xây dựng một hệ thống cần đến thông tin, dữ liệu từ nhiều nguồn khác nhau. Xuất phát từ thực tế đó dẫn đến yêu cầu phải có phƣơng pháp tích hợp thông tin, dữ liệu từ các nguồn khác nhau để có thể sử dụng tối ƣu thông tin, dữ liệu cần thiết và quan trọng là có thể sử dụng thông tin, dữ liệu giữa các hệ thống khác nhau. Xuất phát từ vấn đề nêu trên em chọn đề tài: “ Nghiên cứu và đề xuất giải pháp tích hợp các CSDL phân tán trên môi trƣờng Internet.” với mục đích là xây dựng giải pháp tích hợp dữ liệu giúp ích trong công tác quản lý dữ liệu phục vụ các lĩnh vực quản lý. Đồ án đƣợc chia thành ba chƣơng chính: Chƣơng 1: Trình bày về các khía cạnh của tích hợp dữ liệu một cách tồng quan nhất, các phƣơng pháp tích hợp dữ liệu Chƣơng 2: Trình bày các giải pháp tích hợp dữ liệu. Chƣơng 3: Thử nghiệm tích hợp dữ liệu về các cầu trên quốc lộ. Cuối cùng, phần kết luận trình bày một số kết quả đạt đƣợc và những hạn chế của đồ án. Mai Quang Huy CT1002 Trang 4
  5. Đồ án tốt nghiệp CHƢƠNG 1: GIỚI THIỆU CHUNG 1.1. ĐẶT VẤN ĐỀ 1.1.1 Bài toán tích hợp dữ liệu: Vấn đề tổng hợp thông tin, đồng bộ dữ liệu từ các nguồn dữ liệu có sẵn là nhu cầu không thể thiếu của bất kỳ hệ thống thông tin nào. Xuất phát từ yêu cầu đó em nghiên cứu các công nghệ để thực hiện yêu cầu của đồ án. Với bối cảnh chung về sự phát triển công nghệ thông tin trong nƣớc, mỗi cơ quan thƣờng đầu tƣ phát triển hạ tầng cơ sở viễn thông và các phần mềm ứng dụng theo nhu cầu của từng cơ quan đó, giai đoạn đầu đáp ứng đƣợc yêu cầu đặt ra nhƣng đến một lúc cần có sự kết hợp và chia sẻ thông tin thì các hệ thống này không đáp ứng đƣợc yêu cầu đó hoặc không đáp ứng đẩy đủ. Nếu đầu tƣ mới từ đầu thì vừa lãng phí, vừa khó có thể khai thác các thông tin tích lũy trong nhiều năm qua. Vậy phải có cách nào đó cho phép các hệ thống hiện có vẫn hoạt động bình thƣờng mà vẫn có thể trao đổi thông tin với các hệ thống cũ và mới khác. Trên thực tế bài toán này đã đƣợc giải quyết theo nhiều mức độ khác nhau tùy vào mô hình bài toán và sự hỗ trợ của công nghệ hiện thời. Mỗi công nghệ tại một thời điểm chỉ hỗ trợ giải quyết một lớp bài toán nào đó, sau một thời gian lại trở lên lạc hậu, không đáp ứng đƣợc yêu cầu công việc. Thế thì, tiêu chí nào cần bổ sung để từ đó ta có thể lựa chọn giải pháp giải quyết đƣợc yêu cầu và ít thay đổi theo thời gian hay cụ thể hơn là ít phụ thuộc vào sự thay đổi của hạ tầng viễn thông. Qua tổng hợp các công nghệ hiện có, ta cần dựa vào một số tiêu chí chính nhƣ sau: Yêu cầu thực tế của tổ chức. Các công nghệ hiện thời có thể dùng để giải quyết bài toán. Tài chính của tổ chức. Các chuẩn trao đổi thông tin đƣợc chuẩn hóa thành chuẩn quốc tế, đƣợc nhiều hãng hỗ trợ. Mai Quang Huy CT1002 Trang 5
  6. Đồ án tốt nghiệp Chọn lựa giao thức truyền thông không phụ thuộc vào nền tảng cơ sở viễn thông và các phần mềm nền. 1.1.2. Vấn đề tích hợp Khi nói đến tích hợp dữ liệu chúng ta hình dung ngay đến việc tổng hợp thông tin từ các nguồn dữ liệu có sẵn của các hệ thống khác nhau hay trên cùng một hệ thống thành một nguồn dữ liệu mới có thể dùng cho một hệ thống mới nào đó hay chỉ là để lƣu trữ Vậy, các công việc đƣợc thực hiện thế nào? Trình tự ra sao? Đối với nội dung của đồ án này em đƣa ra một số vấn đề nghiên cứu chính nhƣ: Cách khai thác và vận chuyển thông tin từ các cơ sở dữ liệu của các cơ quan quản lý chuyên ngành chuyển về Trung tâm tích hợp dữ liệu. Xây dựng kho lƣu trữ thông tin. 1.2 Tổng quan về tích hợp dữ liệu 1.2.1 Khái niệm về tích hợp dữ liệu Tích hợp dữ liệu là một khái niệm khá trừu tƣợng thậm chí là hơi mơ hồ khiến nhiều ngƣời không thể định nghĩa đƣợc chính xác và cụ thể, thông thƣờng tích hợp dữ liệu có thể đƣợc hiểu là quá trình kết hợp dữ liệu từ các nguồn thông tin khác nhau nhằm cung cấp cho ngƣời dùng một cái nhìn tổng quan và duy nhất về các dữ liệu này. Các đặc điểm của hệ thống tích hợp dữ liệu bao gồm: Các nguồn dữ liệu là phân tán. Các nguồn dữ liệu này có thể các CSDL trong các hệ thống khác nhau, cũng có thể là các trang Web ở các địa chỉ khác nhau, hoặc cũng có thể là những con ngƣời với các quan điểm khác nhau về một vấn đề nào đó. Các nguồn dữ liệu là không đồng nhất. Sự không đồng nhất này thể hiện ở các ngôn ngữ biểu diễn và từ vựng biểu diễn dữ liệu. Các nguồn dữ liệu có thể có ngôn ngữ biểu diễn khác nhau, ví dụ CSDL của một nguồn đƣợc biểu diễn theo dạng XML Mai Quang Huy CT1002 Trang 6
  7. Đồ án tốt nghiệp nhƣng một nguồn dữ liệu khác lại đƣợc biểu diễn theo CSDL quan hệ. Các nguồn dữ liệu cũng có thể sử dụng các từ vựng khác nhau để cùng biểu diễn một dữ liệu. Một hệ tích hợp dữ liệu thƣờng không cần toàn bộ thông tin dữ liệu trong các nguồn cần tích hợp. Với mỗi nhiệm vụ cụ thể, hệ thống chỉ cần những dữ liệu liên quan đến việc thực hiện nhiệm vụ đó. Nhƣ vậy nếu tập hợp toàn bộ các nguồn dữ liệu vào hệ thống trƣớc khi tích hợp thì sẽ rất lãng phí và nhiều khi không thể thực hiện đƣợc. Với các đặc điểm nhƣ trên, việc xây dựng các hệ tích hợp dữ liệu yêu cầu kiến thức về nhiều lĩnh vực khác nhau nhƣ lý thuyết về CSDL, các phƣơng pháp ƣớc lƣợng, lý thuyết về ngôn ngữ và biểu diễn thông tin, 1.2.2 Các mức độ tích hợp dữ liệu Theo Khaled Bashir Shaban, tích hợp dữ liệu đƣợc chia thành ba mức dựa trên đặc điểm đầu vào và đầu ra của quá trình tích hợp nhƣ sau: Mức 1: Tích hợp dữ liệu (Data Fusion). Đây là mức thấp nhất. Trong mức này, đầu vào là các bản ghi dữ liệu. Đầu ra cũng có dạng các bản ghi hoặc một dạng cao hơn nhƣng vẫn đóng vai trò là dữ liệu cung cấp cho một ứng dụng nào đó. Mức 2: Tích hợp thông tin (Information Fusion). Trong mức này, cả đầu vào và đầu ra của quá trình tích hợp đều là thông tin, tức là một cấu trúc đầy đủ, tập hợp từ các bản ghi dữ liệu. Mức này xảy ra với các hệ thống nhiều nguồn dữ liệu mà cấu trúc của các nguồn dữ liệu này là khác nhau và mỗi nguồn thông tin không thể tách ra từ một nguồn khác. Mức 3: Tích hợp quyết định (Decision Fusion). Đây là mức tích hợp thông tin dữ liệu cao nhất. Đầu vào của một hệ thống này có thể là thông tin, dữ liệu, hoặc các quyết định (đƣợc biểu diễn theo một dạng cụ thể nào đó) từ các hệ thống khác nhau. Nhiệm vụ của hệ tích hợp dữ liệu ở mức này là phải đƣa ra tập quyết định phục vụ yêu cầu đặt ra của hệ thống. Có thể nói tích hợp quyết định phục vụ yêu cầu đặt ra của hệ thống, tích hợp quyết định ở mức trừu tƣợng cao hơn hai mức trƣớc, do đó nó bao hàm cả hai mức trên. Một điểm khác nhau nữa, nếu nhƣ ở mức 1 và mức 2 vẫn có những Mai Quang Huy CT1002 Trang 7
  8. Đồ án tốt nghiệp trƣờng hợp quá trình tích hợp thông tin dữ liệu không thực hiện đƣợc (do không thỏa mãn các điều kiện nào đó) thì mức 3 sẽ luôn đƣợc thực hiện vì nó không phụ thuộc vào bản chất và đặc điểm của các nguồn dữ liệu. Tuy chia làm ba mức nhƣ trên nhƣng trên thực tế một hệ tích hợp dữ liệu thƣờng có đủ ba mức. Các mức thấp, do đó, sẽ làm cơ sở cho các mức cao hơn. 1.2.3 Các phƣơng pháp tích hợp dữ liệu Nhu cầu tích hợp dữ liệu trong các hệ thống, nhất là trên môi trƣờng Internet rất lớn. Nhiều nghiên cứu về tích hợp dữ liệu đã đƣợc tiến hành. Các nghiên cứu này đƣa ra một loạt các phƣơng pháp tích hợp dữ liệu, mỗi phƣơng pháp lại phù hợp với một dạng hệ thống (và các nguồn dữ liệu) cụ thể nào đó. Trong phần này sẽ trình bày một số phƣơng pháp tích hợp dữ liệu theo cách phân loại dựa trên kỹ thuật tích hợp. 1.2.3.1 Tích hợp dữ liệu dựa trên ƣớc lƣợng không chắc chắn Hiểu một cách đơn giản, tích hợp dữ liệu dựa trên ƣớc lƣợng không chắc chắn là phƣơng pháp tính toán độ phù hợp của các dữ liệu thu thập đƣợc với yêu cầu của ngƣời dùng hoặc ứng dụng cụ thể, sau đó chọn ra dữ liệu có độ phù hợp cao nhất. Để tính toán độ phù hợp, các phƣơng pháp thuộc dạng này sử dụng các ƣớng lƣợng không chắc chắn. Trong các ứng dụng tìm kiếm truy xuất thông tin dữ liệu trên Web quen thuộc nhƣ Yahoo, Google, Alta Vista độ phù hợp của một thông tin dữ liệu đƣợc tính qua hai tham số là độ chính xác (precision) và khả năng thu hồi (recall). Từ yêu cầu tìm kiếm thông tin của ngƣời dùng, hai tham số trên sẽ đƣợc tính toán. Độ chính xác thay thế cho các văn bản phù hợp nhất với ngƣời dùng trong các tập văn bản ban đầu. Khả năng thu hồi thay thế cho phần phù hợp nhất bên trong các văn bản tìm đƣợc đó. Kết quả trả về sẽ dựa trên cả hai tham số này. Một phƣơng pháp tích hợp dữ liệu khác sử dụng hệ đa agent. Với mục đích tích hợp và truy xuất các nguồn thông tin dữ liệu trên Internet nhằm tìm ra thông tin dữ liệu phù hợp nhất với ngƣời dùng, hệ tích hợp dữ liệu sẽ đƣợc tổ chức thành một nhóm các agent khác nhau, mỗi agent có chức năng thu thập thông tin tại một nguồn nhất định. Mai Quang Huy CT1002 Trang 8
  9. Đồ án tốt nghiệp Phƣơng pháp tích hợp dữ liệu đƣợc đƣa ra là tổ chức các agent thành các nhóm đồng hƣớng (team consensus) bao gồm các agent cùng thu thập dữ liệu cho một yêu cầu của ngƣời dùng. Các agent trong mỗi nhóm này sẽ thu thập dữ liệu từ các nguồn của mình sau đó dữ liệu sẽ đƣợc ƣớc lƣợng giá trị theo một phƣơng pháp ƣớc lƣợng không chắc chắn (ƣớc lƣợng mờ) dựa trên các điều kiện không chắc chắn của agent đó. Cuối cùng, các giá trị dữ liệu sẽ đƣợc tính toán, so sánh và lựu chọn theo một thuật toán tích hợp và hệ thống sẽ đƣa ra quyết định lựu chọn dữ liệu phù hợp nhất với ngƣời dùng. Nói chung, các phƣơng pháp tích hợp dữ liệu sử dụng ƣớc lƣợng không chắc chắn đều cần thuật toán tích hợp dữ liệu phức tạp. Mặt khác, việc tính toán độ phù hợp của dữ liệu chƣa tính đến sự không đồng nhất về ngữ nghĩa thông tin dữ liệu. Theo nhận định của Morgan Benton và Benjamin K.Ngugi thì phƣơng pháp tính toán độ phù hợp dựa trên hai độ đo: độ phù hợp và khả năng thu hồi có bản chất là so sánh từng bit, do đó không so sánh đƣợc ngữ nghĩa thông tin dữ liệu. 1.2.3.2 Tích hợp dữ liệu dựa trên các ràng buộc dữ liệu Một dạng phƣơng pháp tích hợp dữ liệu khác là dựa trên các ràng buộc dữ liệu. Các phƣơng pháp thuộc về dạng này đƣợc áp dụng cho hệ thống bao gồm các nguồn dữ liệu biểu diễn dƣới dạng các hệ CSDL và cấu trúc, ràng buộc trong các hệ CSDL này là có thể biết đƣợc. Mục đích của các hệ thống này là trả lời các truy vấn của ngƣời dùng về thông tin dữ liệu trong nhiều nguồn khác nhau mà không cấn truy nhập trực tiếp vào tất cả các nguồn thông tin này. Tiêu biểu cho phƣơng pháp tích hợp dữ liệu thuộc loại này là phƣơng pháp dùng cho hệ thống IBIS (Internet_base Information System). Phƣơng pháp tích hợp dữ liệu đƣợc đƣa ra dựa trên bộ ba lƣợc đồ (G, S, M) đƣợc xây dựng từ các nguồn thông tin dữ liệu cần tích hợp: Lƣợc đồ toàn cục (global schema) G: giống nhƣ lƣợc đồ quan hệ trong lý thuyết về CSDL, mô tả các ràng buộc nhất quán, các ràng buộc khóa và các yêu cầu về tính độc lập giữa các nguồn thông tin dữ liệu. Mai Quang Huy CT1002 Trang 9
  10. Đồ án tốt nghiệp Lƣợc đồ dữ liệu (source schema) S: Mô tả cấu trúc của tập các nguồn dữ liệu cần tích hợp trong hệ thống. Các ánh xạ M: bao gồm các ánh xạ đƣợc thiết lập giữa lƣợc đồ toàn cục và các lƣợc đồ nguồn dữ liệu. Trên cơ sở xem xét các ràng buộc đƣợc định nghĩa trong G và cấu trúc biểu diễn trong S, ngƣời thiết kế hệ thống sẽ xác định các ánh xạ tƣơng ứng giữa các thực thể dữ liệu trong các nguồn dữ liệu (ở đây là các CSDL). Phƣơng pháp này có ƣu điểm là biểu diễn đƣợc các ngữ nghĩa thông tin dữ liệu thông qua bộ ba (G, S, M) nhƣng nhƣợc điểm là cần biết cấu trúc và ràng buộc của các CSDL trong hệ thống. Điều này không phải lúc nào cũng thực hiện đƣợc. 1.2.3.3 Tích hợp dữ liệu tự động dựa trên ontology Nhiều nghiên cứu khác nhau đã khẳng định phƣơng pháp tích hợp dữ liệu dựa trên ontology có một số ƣu điểm so với hai dạng phƣơng pháp đã trình bày ở trên. Thay vì sử dụng các ƣớc lƣợng không chắc chắn hoặc các lƣợc đồ CSDL, các phƣơng pháp dựa trên ontology sử dụng một cấu trúc phân lớp các khái niệm, thuật ngữ và các quan hệ giữa các khái niệm đó gọi là ontology để biểu diễn các nguồn dữ liệu cần tích hợp (cả nội dung và ngữ nghĩa thông tin dữ liệu). Thông qua tƣơng tác giữa các thành phần dựa trên ontology, dữ liệu từ các nguồn đƣợc tích hợp. Vì ontology biểu diễn ngữ nghĩa thông tin dữ liệu thông qua các khái niệm và câc mối quan hệ giữa các khái niệm nên phƣơng pháp tích hợp dữ liệu dựa trên ontology giải quyết đƣợc vấn đề không đồng nhất về ngữ nghĩa thông tin dữ liệu. Quá trình tích hợp dữ liệu sẽ diễn ra một cách tự động thông qua việc xác định các ánh xạ tƣơng đƣơng hoặc không tƣơng đƣơng giữa các khái niệm trong các ontology khác nhau. Có nhiều nghiên cứu khác nhau về tích hợp dữ liệu dựa trên ontology trong hệ đa agent. Trong các nghiên cứu này, Agustina Buccella và H.Stuckenschmidt xây dựng phƣơng pháp tích hợp dữ liệu sử dụng bộ từ vựng chung (shared vocalbulary) còn Soe-Tsyr Yuan xây dựng phƣơng pháp tích hợp dữ liệu sử dụng agent trung gian. Mai Quang Huy CT1002 Trang 10
  11. Đồ án tốt nghiệp CHƢƠNG 2: GIẢI PHÁP TÍCH HỢP CÁC CSDL 2.1. MỘT SỐ CÔNG NGHỆ XỬ LÝ CSDL TRÊN MÔI TRƢỜNG MẠNG Hiện nay việc trao đổi thông tin không còn giới hạn về không gian và thời gian, sự phát triển đó là nhờ sự phát triển của khoa học và chính sách chính sách của các quốc gia nói chung và của các tổ chức nói riêng. Xây dựng các hệ thống mạng là không thể thiếu đối với bất kỳ quốc gia hay tổ chức nào trên thế giới, điển hình là mạng Internet. Đồng thời việc xử lý cơ sở dữ liệu trên môi trƣờng mạng là một thách thức cũng là mục tiêu của ngành công nghệ thông tin. 2.1.1 Một số phƣơng pháp truyền thống khai thác dữ liệu dựa trên Web 2.1.1.1 Phƣơng pháp Java Socket Ngôn ngữ lập trình Java hỗ trợ hai dạng chƣơng trình ứng dụng chính là ứng dụng độc lập (Java application) và ứng dụng nhúng (Java applet). Các Java applet có thể đƣợc máy khách tải xuống từ một máy ở xa thông qua trình duyệt Web và thực thi tại máy khách, do tính bảo mật của ngôn ngữ Java nên máy ảo Java sẽ không cho phép các Java applet đƣợc quyền truy nhập tài nguyên cục bộ nhƣ cơ sở dữ liệu Web đặt trên máy server, vì vậy để bảo đảm đƣợc hai yếu tố của phƣơng pháp Java socket là truy nhập cơ sở dữ liệu từ xa thông qua trình duyệt Web và nhận đƣợc kết quả trả về cần có thêm thành phần trung gian đứng giữa máy khách và cơ sở dữ liệu do Web trả về. Thành phần trung gian trong phƣơng pháp Java socket là một chƣơng trình ứng dụng độc lập. Hình 1: Mô hình truy nhập cơ sở dữ liệu Web bằng Java Socket Mai Quang Huy CT1002 Trang 11
  12. Đồ án tốt nghiệp Hoạt động của mô hình truy nhập cơ sở dữ liệu thông qua Web bằng phƣơng pháp Java socket thực hiện qua những bƣớc sau : Máy khách truy nhập vào máy chủ Web thông qua trình duyệt Web, trang Web và ứng dụng Java applet có chức năng truy nhập cơ sở dữ liệu từ máy chủ Web đƣợc tải về máy khách. Ứng dụng Java applet truy cập cơ sở dữ liệu đƣợc khởi động tại máy khách bởi ngƣời dùng và kết nối tới thành phần trung gian trên máy chủ Web, khi kết nối thành công thì máy khách gửi yêu cầu truy cập dữ liệu cho thành phần trung gian trên máy chủ Web. Kết nối đƣợc chấp nhận thì chƣơng trình trung gian sẽ truy cập vào cơ sở dữ liệu đặt trên máy chủ Web lấy dữ liệu theo yêu cầu của máy khách. Thành phần trung gian trả dữ liệu kết quả về cho ứng dụng Java applet ở phía máy khách, sau đó applet chuyển dữ liệu kết quả cho trình duyệt Web để nó hiển thị dữ liệu kết quả lên cho ngƣời dùng. 2.1.1.2 Phƣơng pháp Servlets Java Phƣơng pháp Servlets thƣờng đƣợc dùng để tạo ra các trang Web động, mọi thao tác xử lý theo yêu cầu của máy khách đƣợc thực hiện tại server nhƣ viết mã lệnh để tạo ra trang Web, truy nhập cơ sở dữ liệu điều này rất có ý nghĩa trong trƣờng hợp các máy khách có năng lực xử lý hạn chế. Một ƣu điểm nổi bật của phƣơng pháp Servlet là giúp giảm tải mạng, do không cần phải duy trì một kết nối mạng thƣờng xuyên giữa máy khách và máy chủ trong quá trình máy khách truy cập cơ sở dữ liệu. Hình 2: Mô hình truy nhập cơ sở dữ liệu bằng Servlet Mai Quang Huy CT1002 Trang 12
  13. Đồ án tốt nghiệp Thành phần trung gian trong phƣơng pháp này là một Servlet, nó là một chƣơng trình Java đƣợc thực hiện nhƣ là một tiến trình con trong môi trƣờng của một trình chủ Web có hỗ trợ Java. Trình chủ Web có nhiệm vụ định tuyến cho các yêu cầu từ phía máy khách đến đƣợc servlet có nhiệm vụ thực thi yêu cầu đó, ngoài ra trình chủ Web còn đảm nhiệm các công việc: nạp, khởi động, chạy và kết thúc các servlet. Hoạt động của mô hình truy nhập cơ sở dữ liệu bằng Servlet thực hiện theo các bƣớc nhƣ sau Máy khách truy nhập Web trên máy chủ bằng trình duyệt Web. Máy chủ Web gọi servlet tƣơng ứng thực thi yêu cầu từ phía máy khách. Chƣơng trình servlet truy nhập vào cơ sở dữ liệu cục bộ lấy dữ liệu theo yêu cầu của máy khách. Chƣơng trình servlet chuyển dữ liệu kết quả cho trình chủ Web Trình chủ Web trả dữ liệu kết quả cho máy khách. Trình duyệt Web tại máy khách sẽ hiển thị dữ liệu đã yêu cầu lên cho ngƣời dùng. 2.1.1.3 Phƣơng pháp RMI RMI là một giao diện ứng dụng cho phép thực thi các lời gọi phƣơng thức từ xa giữa các đối tƣợng Java phân tán. Hình 3: Mô hình truy nhập cơ sở dữ liệu Web bằng RMI Thành phần trung gian trong phƣơng pháp RMI bao gồm hai đối tƣợng : Chƣơng trình ứng dụng độc lập Java, làm nhiệm vụ cài đặt và thực hiện các phƣơng thức đƣợc máy khách triệu gọi từ xa. Mai Quang Huy CT1002 Trang 13
  14. Đồ án tốt nghiệp Ứng dụng nền Rmiregistry.exe đi kèm trong bộ JDK từ phiên bản 1.3 trở lên làm hai nhiệm vụ: Khởi động ứng dụng của máy chủ và đăng ký tên duy nhất cho ứng dụng máy chủ với máy ảo Java chạy trên trình chủ Web. Hoạt động của mô hình truy nhập cơ sở dữ liệu Web bằng phƣơng pháp RMI thực hiện qua những bƣớc sau : Máy khách truy nhập vào máy chủ Web thông quan trình duyệt Web. Java applet có nhiệm vụ truy nhập cơ sở dữ liệu Web bằng lời gọi phƣơng thức từ xa đƣợc tải từ máy chủ về máy khách cùng với trang Web của máy chủ Web. Applet truy nhập cơ sở dữ liệu Web đƣợc ngƣời dùng kích hoạt sẽ thực hiện tìm kiếm đối tƣợng từ xa trên máy chủ Web dựa vào trình đăng ký tên dịch vụ duy nhất Rmiregistry.exe chạy trên máy chủ Web, nếu tìm thấy applet thực hiện lời gọi phƣơng thức từ xa để lấy dữ liệu. Ứng dụng của máy chủ đáp ứng yêu cầu đƣợc trình đăng ký tên dịch vụ duy nhất chạy trên máy chủ Web khởi động và thực hiện truy nhập cơ sở dữ liệu để lấy dữ liệu theo yêu cầu của máy khách. Ứng dụng server trả dữ liệu kết quả về cho máy khách bằng phƣơng thức đƣợc gọi từ xa của nó. 2.1.1.4 Phƣơng pháp CORBA CORBA là một chuẩn đối tƣợng phân tán, định nghĩa các mối quan hệ khách/chủ (client/server) giữa các đối tƣợng trong một ngôn ngữ giao diện chung (common interface language). Chƣơng trình RMI chỉ cài đặt có thể thực thi bằng ngôn ngữ lập trình Java nhƣng chƣơng trình CORBA có thể đƣợc cài đặt và thực thi bằng một ngôn ngữ lập trình bất kỳ. Mai Quang Huy CT1002 Trang 14
  15. Đồ án tốt nghiệp Hình 4: Mô hình truy nhập cơ sở dữ Web bằng Java CORBA Đối tƣợng ứng dụng máy khách CORBA muốn gọi đúng đƣợc đối tƣợng ứng dụng máy chủ CORBA cần có một đối tƣợng thứ ba có thể cung cấp phƣơng tiện giao tiếp giữa các ứng dụng, dịch vụ và các tiện ích mạng gọi là ORB (Object Request Broker). ORB đƣợc quan niệm nhƣ là một loại bus mềm hay đƣờng trục sống, cung cấp các giao diện chung giữa nhiều loại đối tƣợng khác nhau để có thể giao tiếp đƣợc với nhau theo mô hình bình đẳng. Đối tƣợng máy khách gửi yêu cầu đến ORB, nhiệm vụ của ORB là tìm đối tƣợng máy chủ hay tìm đối tƣợng có thể biết các máy chủ, sau đó thiết lập quá trình truyền thông giữa máy khách và máy chủ này. Đối tƣợng máy chủ gửi đáp ứng cho ORB, nó định dạng lại và chuyển tiếp đáp ứng về cho nơi phát ra yêu cầu. ORB phải đƣợc nạp trên cả máy chủ và máy khách. Về vấn đề bảo mật, CORBA chỉ cho phép một applet kết nối trực tiếp từ xa vào đối tƣợng máy chủ CORBA qua tƣờng lửa gọi là IIOP (Internet Inter ORB Protocol). IIOP là một phần của CORBA, nó cung cấp phƣơng tiện để các đối tƣợng CORBA có thể tƣơng tác với mạng TCP/IP, bao gồm cả mạng Internet. IIOP kết hợp hoặc thay thế cho HTTP, một giao thức cơ bản trên Internet. Ngoại trừ giao thức IIOP, thành phần trung gian trong cách tiếp cận CORBA giống nhƣ thành phần trung gian trong cách tiếp cận RMI. Hoạt động của mô hình truy cập cơ sở dữ liệu Web bằng cách tiếp cận CORBA thực hiện theo các bƣớc sau : Máy khách truy nhập vào máy chủ Web, applet có chức năng truy nhập cơ sở dữ liệu Web đƣợc tải về máy khách từ máy chủ. Mai Quang Huy CT1002 Trang 15
  16. Đồ án tốt nghiệp Applet đƣợc khởi động từ phía máy khách. Sau khi nạp xong ORB, nó kết nối với ứng dụng của máy chủ CORBA thông qua Gatekeeper bằng cách gọi một phƣơng thức đặc biệt và chuyển tên dịch vụ duy nhất của ứng dụng máy chủ đi giống nhƣ tham số của phƣơng thức. Ứng dụng CORBA Server thực hiện truy nhập cơ sở dữ liệu Web cục bộ, lấy dữ liệu theo yêu cầu của phía máy khách. Ứng dụng máy chủ CORBA gửi dữ liệu kết quả về cho phía máy khách giống nhƣ giá trị trả về của lời gọi phƣơng thức. 2.1.2 Phƣơng pháp khai thác dữ liệu dựa trên Web service Web service là phƣơng pháp cho phép trao đổi thông tin giữa các hệ thống dựa trên giao thức HTTP và SOAP, hoàn toàn độc lập với hệ điều hành hoặc ngôn ngữ lập trình đƣợc sử dụng trên máy chủ và máy khách. Không nhƣ các công nghệ trƣớc kia, Web service không nhất thiết bắt buộc hai đầu kết nối phải cùng hệ điều hành hoặc cùng ngôn ngữ lập trình. Thí dụ, chƣơng trình phía máy chủ có thể viết bằng ngôn ngữ VB.NET cài đặt trên hệ điều hành Window 2000 trong khi chƣơng trình phía máy khách viết bằng ngôn ngữ lập trình khác chạy trên hệ điều hành Unix, hay ngƣợc lại. Nói cách khác, công nghệ cũ yêu cầu các kết nối là kết nối chặt chẽ, thì Web service cho phép máy khách và máy chủ kết nối lỏng lẻo. Máy khách và máy chủ đều nhận đƣợc sự hỗ trợ của giao thức chuẩn HTTP, SOAP và XML. HTTP là giao thức đƣợc dùng bởi Web, còn SOAP là giao thức hƣớng đối tƣợng dựa trên XML lại trở thành chuẩn cho việc định dạng và tổ chức thông tin. Web service cho phép một đối tƣợng nằm trên máy chủ có thể đƣa ra phần logic chƣơng trình cho các máy khách trên Internet. Các máy khách gọi các phƣơng thức đã trƣng ra trên Web service thông qua việc sử dụng các giao thức chuẩn của Internet. Nền tảng Web service có một số đặc trƣng nhƣ sau: Cả Web service lẫn ứng dụng khách đƣợc kết nối trên Internet. Dạng dữ liệu mà hai phía liên lạc với nhau cùng tuân theo một chuẩn mở. Chuẩn này thƣờng là giao thức SOAP, các thông điệp SOAP gồm Mai Quang Huy CT1002 Trang 16
  17. Đồ án tốt nghiệp các tài liệu XML dạng văn bản và tự mô tả. Tuy nhiên nó là kỹ thuật có khả năng liên lạc theo các yêu cầu HTTP-GET và HTTP-POST. Hệ thống hai đầu kết nối sẽ đƣợc gắn kết một cách lỏng lẻo. Hay nói cách khác là Web service không cần quan tâm mô hình đối tƣợng, ngôn ngữ lập trình đƣợc dùng đến ở hai đầu kết nối là gì, miễn là Web service và ứng dụng tiêu thụ (Consummer Application) có khả năng nhận và gửi các thông điệp tuân thủ theo giao thức chuẩn thích ứng. Hình 5: Web service nhìn từ trong Trên hình 5, vị trí , một chƣơng trình khai thác Web service (Web service consumer) đƣa ra một lời gọi (vị trí ), phía khai thác tƣởng rằng mình nói chuyện trực tiếp với Web service thông qua Internet. Thực ra, đây là một lời gọi phƣơng thức từ Proxy (vị trí ) nằm ngay trên máy khách, Proxy điều khiển ngay tất cả các cấu trúc phức tạp của việc chuyển các yêu cầu về máy chủ qua Internet, cũng nhƣ nhận kết quả từ máy chủ trả về cho máy tiêu thụ. Tất cả việc này có thể thực hiện đƣợc là nhờ Proxy trƣớc đó đã đăng ký với ứng dụng tiêu thụ (vị trí ), đƣợc thực hiện bởi lập trình viên viết ứng dụng tiêu thụ. Ngoài việc tạo các Web service cũng nhƣ ứng dụng tiêu thụ Web service, còn một số vấn đề cần quan tâm: Mai Quang Huy CT1002 Trang 17
  18. Đồ án tốt nghiệp Protocol Web service phải liên lạc với máy khách và ngƣợc lại theo một giao thức nào đó mà cả hai phía đều hiểu nhau. Directories Các Web service đƣợc phát triển bởi hàng ngàn các công ty khác nhau trên thế giới. Directories đƣợc tạo ra để liệt kê các dịch vụ này và hiện sẵn dành cho lập trình viên triển khai. Tuy nhiên, muốn cho các thƣ mục này hữu ích phải có những quy ƣớc liên quan đến khám phá (discovery) và mô tả (description). Discovery Các máy khách cần sẽ biết tìm ở đâu những tài liệu mô tả Web service. Nhƣ vậy, Web service thƣờng sẽ cung cấp những tài liệu khám phá những tập tin XML chứa thông tin cho phép những khách hàng tiềm năng tìm ra các tập tin khác mô tả Web service. Description Một khi Web service đƣợc nhận diện, thông qua khám phá hay những phƣơng tiện nào đó, nó phải làm sẵn một tài liệu mô tả những giao thức hỗ trợ và giao diện lập trình cho việc sử dụng Web service. WSDL (Web service Description Language) sẽ đƣợc dùng để mô tả Web service, tất cả các phƣơng thức và thuộc tính đƣợc trƣng ra, bao gồm các kiểu và tham số của phƣơng thức đó. Security Phần lớn các máy chủ đƣợc kết nối Internet thì sự quan tâm về mặt an toàn lúc nào cũng đƣợc đề cập nhƣ một phần quan trọng trong hệ thống. Web service phải đƣợc đảm bảo về mặt an toàn. Web service không phải là các cổng thông tin cho mọi loại phần mềm và ngƣời dùng hỗn độn. Nó chỉ cho phép một số ngƣời dùng có quyền truy cập để gọi các phƣơng thức. State Mai Quang Huy CT1002 Trang 18
  19. Đồ án tốt nghiệp Giống nhƣ trang Web, Web service sử dụng HTTP, là một giao thức không trạng thái. Do vậy, .NET framework cung cấp các công cụ cho phép duy trì tình trạng nếu các ứng dụng này yêu cầu. Proxy Trƣớc khi ứng dụng máy khách có thể dùng đƣợc Web service, Proxy phải đƣợc tạo. Proxy đóng vai trò thay thế cho các phƣơng thức đƣợc gọi. Nó chịu trách nhiệm sắp xếp, dẫn dắt các lời gọi phƣơng thức vƣợt qua ranh giới các máy tính. Các yêu cầu gọi tới Web service trên máy chủ phải phù hợp với giao thức và định dạng tƣơng ứng, thƣờng là SOAP kết hợp với HTTP. Proxy phải đƣợc đăng ký với ứng dụng máy khách, ứng dụng máy khách tạo các phƣơng thức gọi nhƣ gọi các phƣơng thức đó là đối tƣợng nội bộ. Proxy làm tất cả công việc khi máy khách có lời gọi, gói chúng trong định dạng thích hợp và gửi đi nhƣ một yêu cầu SOAP tới máy chủ. Khi máy chủ trả về máy khách gói tin SOAP, Proxy giải mã tất cả và hiển thị chúng trong ứng dụng máy khách nhƣ nó đƣợc lấy từ đối tƣợng cục bộ. Tiến trình này đƣợc mô tả trong hình sau: Hình 6: Hoạt động của Proxy Mai Quang Huy CT1002 Trang 19
  20. Đồ án tốt nghiệp 2.1.2.1 HTTP (Hypertext Transfer Protocol) HTTP là giao thức nằm ở tầng trên cùng của TCP/IP, đƣợc dùng để các máy chủ Web và trình duyệt Internet khả năng liên lạc đƣợc với nhau. Trình duyệt của máy khách gửi một HTTP request cho máy chủ Web, yêu cầu này đƣợc xử lý, sau đó gửi kết quả đã xử lý về cho trình duyệt của máy khách. Trong trƣờng hợp Web service, dữ liệu đƣợc trả về là một thông điệp SOAP chứa thông tin kết quả của việc thực thi một lời gọi hàm Web service. HTTP request sẽ trao cặp Name/Value gửi đi một yêu cầu tới máy chủ. Yêu cầu có thể là HTTP-GET hoặc HTTP-POST. a. HTTP-GET Trên các GET request, các cặp Name/Value sẽ đƣợc ghi nối đuôi trực tiếp trên URL. Dữ liệu không đƣợc mã hóa (để nguyên dạng ASCII) đƣợc ghi nối đuôi vào URL, phân tách bởi dấu ”?”. Thí dụ: Dấu hỏi cho biết là một HTTP-GET request Tên phƣơng thức GetName Tên biến là StockSymbol với giá trị là msft. GET request chỉ thích hợp khi tất cả các dữ liệu nhỏ chỉ toàn các cặp Name/Value và GET request thích hợp khi an toàn không phải là một vấn đề. .Net framework cung cấp một lớp HttpGetClientProtocol để dùng giao thức HTTP-GET trên các ứng dụng máy khách. b. HTTP-POST Trên các POST request các cặp Name/Value cũng không đƣợc mã hóa, nhƣng thay vì nối đuôi sau URL thì chúng đƣợc gửi đi nhƣ là thành phần của thông điệp yêu cầu. POST request thích hợp với lƣợng thông tin khá nhiều. Ngoài ra vấn đề an toàn là quan trọng thì một POST request sẽ an toàn hơn một GET request vì POST request có thể đƣợc mã hóa. Mai Quang Huy CT1002 Trang 20
  21. Đồ án tốt nghiệp .NET framework cung cấp lớp HttpPostClientProtocol để dùng trong giao thức HTTP-POST trong các ứng dụng máy khách. 2.1.2.2. SOAP (Simple Object Access Protocol) Giao thức SOAP là một đặc tả thông điệp XML để mô tả một khuôn dạng thông báo cùng với một tập các quy tắc cho kiểu dữ liệu cùng với các kiểu cấu trúc và kiểu mảng. Ngoài ra, nó mô tả làm cách nào để sử dụng giao thức HTTP nhƣ một sự chuyên trở cho những thông báo nhƣ vậy. Thông điệp SOAP có hiệu quả là gửi các yêu cầu dịch vụ cho kết nối đầu cuối trên mạng. Thiết bị cuối đó có thể thực hiện bất kỳ cách nào trong các cách sau đây Remote Protocol Call (RPC) server, Component Object Model (COM) object, Java servlet, Perl script và có thể chạy trên bất kỳ nền tảng nào (any platform). Nhƣ vậy, SOAP sẽ là thao tác trung gian giữa các ứng dụng chạy trên các nền tảng sử dụng nhiều công nghệ, thi hành trong nhiều ngôn ngữ lập trình khác nhau. 2.1.2.3. XML (eXtensible Markup Language) a. Giới thiệu XML (eXtensible Markup Language) đƣợc ra đời từ việc giảm thiểu độ phức tạp của SGML (Standard Generalized Markup Language), là ngôn ngữ có kiến trúc gần giống với HTML nhƣng XML nhanh chóng trở thành một chuẩn phổ biến trong việc chuyển đổi thông tin qua các trang Web sử dụng giao thức HTTP. Trong khi HTML là ngôn ngữ chủ yếu về hiển thị dữ liệu thì XML lại là ngôn ngữ trung gian trong việc trao đổi dữ liệu giữa các hệ thống khác nhau, trao đổi và thao tác dữ liệu bằng XML. XML đƣa ra một định dạng chuẩn cho cấu trúc của dữ liệu hoặc thông tin bằng việc tự định nghĩa định dạng của tài liệu. Bằng cách này, dữ liệu đƣợc lƣu trữ bằng XML sẽ độc lập với việc xử lý. Vì vậy XML ra đời sẽ đáp ứng đƣợc yêu cầu ngày càng cao của các nhà lập trình trong vấn đề trao đổi và xử lý thông tin. b. Cấu trúc chung của XML Chúng ta có thể sử dụng trình soạn thảo bất kỳ để soạn thảo tài liệu XML, nhƣng phải tuân thủ theo nguyên tắc sau: Mai Quang Huy CT1002 Trang 21
  22. Đồ án tốt nghiệp Theo định dạng trên, chúng ta thấy tuy tài liệu XML rất đơn giản nhƣng quy định cũng rất chặt chẽ, tức là các tài liệu XML đều xuất phát từ nút gốc (root), và mỗi phần tử phải có thẻ mở và thẻ đóng “ ”. c. Lược đồ XML (XML Schema) Cấu trúc lược đồ (Schema structure) Một lƣợc đồ là một tập những quy tắc đƣợc định nghĩa để mô tả nội dung dữ liệu của một tài liệu XML, nó quy định thành phần nào của XML thuộc kiểu dữ liệu gì. Mai Quang Huy CT1002 Trang 22
  23. Đồ án tốt nghiệp Các kiểu dữ liệu trong lược đồ XML Khi tập tin XML hoạt động nhƣ một cơ sở dữ liệu, và XSL, XPath đƣợc sử dụng để truy vấn trên tập tin XML giống nhƣ một số ngôn ngữ truy vấn trong SQL, thì lúc này chúng ta cần biết đƣợc vị trí của từng phần tử trong tập tin XML đƣợc khai báo ở đâu và với kiểu dữ liệu nhƣ thế nào. Có hai loại kiểu dữ liệu trong lƣợc đồ XML đó là kiểu dữ liệu cơ bản và kiểu dữ liệu mở rộng. Kiểu dữ liệu cơ bản là kiểu dữ liệu không bắt nguồn từ kiểu dữ liệu nào ví dụ nhƣ kiểu dữ liệu float. Kiểu dữ liệu mở rộng dựa trên những kiểu dữ liệu khác. d. DOM XML Document Object Model (DOM) dùng để phân cấp dữ liệu XML thành cấu trúc cây, điều này tạo ra cách thức truy cập vào tài liệu XML, có nghĩa là chỉ xử lý phần văn bản bị thay đổi chúng ta dùng Xpath để truy cập vào cây do DOM tạo ra. Chúng ta dùng các phƣơng thức Xmlreader, Xmlwriter, e. XPath Để xử lý một tài liệu XML, chƣơng trình ứng dụng phải có cách di chuyển bên trong tài liệu để lấy ra giá trị của các phần tử (Elements) hay thuộc tính (Attributes). Do đó ngôn ngữ XML Path đƣợc ra đời, mà chúng ta gọi tắt là XPath. XPath đóng một vai trò quan trọng trong việc truy vấn dữ liệu cho các chƣơng trình ứng dụng vì nó cho phép ta lựa chọn hay sàng lọc ra những phần tử nào mình muốn để xử lý hay hiển thị. 2.1.2.4. Khai thác các Web Service a. Discovery Discovery là quá trình tìm ra các Web service đang sẵn có, các thuộc tính và phƣơng thức đƣợc trƣng ra bởi một Web service đã xác định. Các tham số đầu vào của các thuộc tính và phƣơng thức đƣợc truyền, kiểu dữ liệu mà phƣơng thức Web hay thuộc tính trả về. Tất cả các thông tin này đƣợc chứa trong văn bản WSDL (Web Services Description Language). Nếu nhà phát triển ứng dụng tiêu thụ Web service biết URL của tệp tin Web service (*.asmx) thì không cần phải khám phá (discovery). Tuy nhiên, nhà phát triển ứng dụng tiêu thụ Web service thƣờng không biết địa chỉ của Mai Quang Huy CT1002 Trang 23
  24. Đồ án tốt nghiệp Web service file hoặc văn bản WSDL trên máy chủ đã cho. Trong những trƣờng hợp này, Visual Studio.net cung cấp tiện ích Discovery theo chế độ dòng lệnh là Disco.exe mà coi URL của một Web service là một đối số và tạo ra văn bản Discovery trên máy khách, từ đó nhà phát triển ứng dụng có thể tạo ứng dụng tiêu thụ các Web service. Lệnh này sẽ tìm kiếm trên URL xác định bất kỳ văn bản Discovery và ghi chúng và thƣ mục hiện thời của máy cục bộ. Một .wsdl đƣợc sinh ra và đƣợc ghi lại. Để chỉ định thƣ mục khác với thƣ mục hiện thời dùng tham số /out:, hoặc dùng /o: để rút gọn. disco /out: Tiện ích Disco thi hành dòng lệnh trên sau đó ghi 3 tệp tin vào thƣ mục đầu ra. Tên tệp tin Mô tả service.disco Tài liệu discovery tạo ra Tệp này giống như WSDL đối với Web service được kết service.wsdl sinh khi URL có tệp .asmx cho thêm ?wsdl vào sau. results.discomap Văn bản discovery chuyển đổi Muốn biết toàn bộ thông số của tiện ích Disco.exe ta dùng câu lệnh tại của sổ lệnh: Disco /? b. Tạo Proxy Proxy là phần trung gian xử lý các yêu cầu của ứng dụng máy khách khi muốn gọi các phƣơng thức của Web service, nó đƣợc đặt ngay tại máy khách và giữ vai trò đại diện cho Web service trên máy khách. Khi Proxy đƣợc tạo ra và đƣợc đăng ký cùng với ứng dụng trên máy khách, thì ứng dụng có thể gọi các phƣơng thức hoặc hàm của Web service. Có hai cách tạo Proxy: Cách 1: Dùng Visual Studio.Net để tạo Mai Quang Huy CT1002 Trang 24
  25. Đồ án tốt nghiệp Cách 2: muốn tạo Proxy chúng ta dùng tiện ích wsdl.exe chạy ở chế độ dòng lệnh, trình tiện ích này nhận tệp tin .wsdl làm đầu vào, tệp tin .wsdl có thể đƣợc tạo ra từ trƣớc nhờ disco.exe hoặc đƣợc kết sinh “on-the-fly” từ bản thân tệp tin Web service. Hai câu lệnh sau cho ra cùng kết quả. 1. wsdl csStockTicker.wsdl 2. wsdl ?wsdl Phần đầu ra của wsdl.exe là tập tin mã nguồn chứa lớp proxy, chúng ta có thể đem biên dịch thành tập tin .dll. Ngôn ngữ mặc định là C#. Muốn thay đổi ngôn ngữ chúng ta dùng khóa chuyển /laguage: (hoặc /l: cho gọn với giá trị là CS, VB, JS). 2.2. XÂY DỰNG KHO DỮ LIỆU 2.2.1 Khái niệm: Dựa trên lịch sử tính toán của ngƣời dùng cuối, ngƣời ta đã đƣa ra định nghĩa về những thành phần hợp nên kho dữ liệu. Kho dữ liệu là nơi lƣu trữ duy nhất, đầy đủ và nhất quán dữ liệu đƣợc lấy từ nhiều nguồn khác nhau và đƣợc ngƣời dùng cuối sử dụng trong phạm vi nghiệp vụ của mình Hình 7: Kho dữ liệu Mai Quang Huy CT1002 Trang 25
  26. Đồ án tốt nghiệp Đạt đƣợc sự đầy đủ và nhất quán của dữ liệu trong môi trƣờng hệ thống thông tin ngày nay không đơn giản. Trong phạm vi nghiệp vụ, cần phải hiểu chiến lƣợc nghiệp vụ và những dữ liệu cần thiết để hỗ trợ và kiểm soát quá trình thực hiện. Quá trình này đƣợc gọi lập mô hình công ty, đòi hỏi sự tham gia tích cực của của ngƣời dùng nghiệp vụ và diễn ra trong thời gian dài. Trong các dự án kho dữ liệu, lập mô hình công ty là bƣớc khởi đầu quan trọng cho việc thiết kế. Xác định đƣợc dữ liệu cần thiết chỉ là bƣớc khởi đầu. Dữ liệu có trong nhiều nguồn khác nhau, tồn tại dƣới nhiều dạng khác nhau. Dữ liệu phải đƣợc kết hợp theo mô hình tổ chức. Để hiểu và sử dụng trong nghiệp vụ, phải chuyển dữ liệu thành thông tin. Các phân tích cần thiết để hoàn thành việc này đƣợc thực hiện ở bƣớc mô hình hóa. Yêu cầu của ngƣời sử dụng là lập tập chỉ mục và chú giải (catalog) trong phạm vi nghiệp vụ và điều này trợ giúp quá trình tìm kiếm và sử dụng thông tin. Cuối cùng ngƣời dùng cần một bộ công cụ để phân tích và sử dụng các thông tin có sẵn. Công cụ này cung cấp giao diện giữa ngƣời dùng với thông tin và đây là bƣớc cuối cùng trong việc chuyển dữ liệu thô thành thông tin hữu ích. Một số định hƣớng quản lý dựa trên thông tin: Nguồn thông tin duy nhất Các thông tin thô đƣợc lấy từ nhiều nguồn khác nhau (có thể cả ở ngoài tổ chức) dƣới nhiều hình thức khác nhau từ các dữ liệu có cấu trúc đến các dữ liệu phi cấu trúc. Các dữ liệu này trƣớc khi đƣa đến ngƣời dùng phải loại bỏ lỗi và và làm tƣơng thích để đảm bảo tính tích hợp của dữ liệu. Các thông tin này sau khi đƣợc xử lý trở thành nguồn duy nhất cho hệ quản lý dựa trên thông tin. Khả năng phân tán thông tin Hệ quản lý dựa trên thông tin không những đƣợc sử dụng tại trụ sở chính mà đƣợc phân tán theo tổ chức và theo khu vực. Ngƣời ta thƣờng đòi hỏi nơi lƣu trữ thông tin phải độc lập nhƣng đƣợc kết nối với nhau về mặt logic để tăng cƣờng khả năng lƣu động, tính hiệu quả và sự bí mật. Không nhất thiết các nơi lƣu trữ này phải gắn với nguồn dữ liệu thô. Thông tin trong phạm vi nghiệp vụ Mai Quang Huy CT1002 Trang 26
  27. Đồ án tốt nghiệp Ngƣời dùng có thể hiểu rõ và sử dụng thông tin nếu nó đƣợc đặt trong phạm vi nghiệp vụ mà họ thực hiện. Định nghĩa dữ liệu do các chuyên gia cung cấp phải trở thành chuẩn cũng nhƣ các chỉ mục thông tin chứa những định nghĩa này, hƣớng về ngƣời dùng trở thành nguồn cho định nghĩa dữ liệu thậm chí đối với cả bộ phận hệ thống thông tin. Tự động hóa truyền dữ liệu Khi dữ liệu chuyển thành thông tin đƣợc truyền giữa các tổ chức theo các cách thức ngày càng phức tạp thì rõ ràng cần một cơ chế tự động chuyển. Yêu cầu tự động không chỉ với quá trình chuyển tin thật sự mà còn với việc định nghĩa các phƣơng thức chuyển và biến đổi dữ liệu. Đặc biệt là phải đảm bảo khả năng sử dụng cơ chế tự động hóa với các hệ thống thông tin phân tán. Chất lượng và sở hữu thông tin Thông tin là tài sản quan trọng của công ty nên cần đƣợc quản lý và bảo vệ nhƣ bất kỳ tải sản nào khác. Quyền sở hữu của thông tin là điều tiên quyết để hiểu rõ các giá trị của thông tin. Các dạng dữ liệu Dữ liệu thƣờng đƣợc định nghĩa là sự biểu diễn thông tin nghiệp vụ trên máy tính. Ở mức cao nhất, dữ liệu đƣợc phân chia theo nhiều cách. Ba điểm cần lƣu ý khi xác định phạm vi của kho dữ liệu: Ý nghĩa (meaning) Dữ liệu có thể có nghĩa hay đại diện cho thứ gì có nghĩa. Sự phân biệt này là nguyên tắc cơ bản và cũng là điều khó hiểu nhất. Dữ liệu có ý nghĩa riêng nó và giá trị này nằm trong nội dung hơn là những gì chúng thể hiện. Do đó, chúng đƣợc gọi tên là dữ liệu thành phẩm bởi vì chúng đƣợc tạo ra và trao đổi giống nhƣ sản phẩm. Ví dụ phim, ảnh, sách dƣới dạng số hóa, Dạng cuối cùng là các siêu dữ liệu, chúng mô tả ý nghĩa của dữ liệu. Siêu dữ liệu chỉ định nghĩa hoặc mô tả dữ liệu nghiệp vụ hoặc dữ liệu thành phẩm. Cấu trúc (structure) Mai Quang Huy CT1002 Trang 27
  28. Đồ án tốt nghiệp Dữ liệu có thể có cấu trúc ở mức độ cao (trƣờng và các bản ghi) hoặc phi cấu trúc. Phạm vi (scope) Dữ liệu có thể mang tính cá nhân nghĩa là chủ sở hữu có thể thay đổi tùy thích hoặc mang tính công cộng – khi đó nó đƣợc chia sẻ giữa một nhóm ngƣời và bất kỳ thay đổi nào cũng đòi hỏi giám sát chặt chẽ. Hình 8: Các kiểu dữ liệu và phạm vi kho dữ liệu 2.2.2 Các kiến trúc dữ liệu nghiệp vụ Ba mô hình kiến trúc dữ liệu mô tả dƣới đây có một điểm chung: Chúng hoàn toàn dựa trên kinh nghiệm thực tế, do phát triển từ thực tế, chúng không rõ ràng nhƣ kiến trúc trên lý thuyết. Ba kiến trúc đƣợc đặt tên theo số lƣợng tầng dữ liệu của chúng. Các tầng dữ liệu này ở mức khái niệm hơn là mức vật lý. Do đó trong bất kỳ sự thực hiện nào, tầng đƣợc xác định bởi kiểu dữ liệu chứ không phải bởi vị trí vật lý của nó a. Kiến trúc dữ liệu một tầng: Quan điểm chủ đạo trong kiến trúc một tầng là phần tử dữ liệu bất kỳ đƣợc lƣu trữ một lần duy nhất, không có sự phân biệt giữa các kiểu dữ liệu, tất cả dữ liệu đƣợc đối xử giống nhau. Mai Quang Huy CT1002 Trang 28
  29. Đồ án tốt nghiệp Hình 9: Kiến trúc dữ liệu một tầng b. Kiến trúc dữ liệu hai tầng: Việc cải tiến kiến trúc một tầng dựa trên sự ghi nhận hai nhu cầu sử dụng dữ liệu khác nhau - tác nghiệp và thông tin. Dữ liệu đƣợc chi thanh hai tầng, tầng thấp đƣợc các ứng dụng tác nghiệp sử dụng trong chế độ đọc/ghi là dữ liệu thời gian thực. Tầng cao đƣợc các ứng dụng thông tin sử dụng là dữ liệu dẫn xuất. Dữ liệu dẫn xuất đơn giản có thể là bản sao trực tiếp của dữ liệu thời gian thực hoặc đƣợc dẫn xuất từ dữ liệu thời gian thực qua một vài phép tính toán. Hình 10: Kiến trúc dữ liệu hai tầng c. Kiến trúc dữ liệu ba tầng: Mai Quang Huy CT1002 Trang 29
  30. Đồ án tốt nghiệp Điều chủ yếu trong kiến trúc dữ liệu ba tầng là sự ghi nhận quá trình chuyển dữ liệu thời gian thực thành dữ liệu dẫn xuất thực sự đòi hỏi hai bƣớc chứ không phải một bƣớc nhƣ trong kiến trúc hai tầng là: - Tƣơng thích dữ liệu từ nhiều cơ sở dữ liệu trong tầng thời gian thực. - Dẫn xuất dữ liệu do ngƣời sử dụng yêu cầu từ dữ liệu vừa đƣợc làm tƣơng thích. Trong kiến trúc này tầng dƣới cùng là dữ liệu thời gian thực, tầng trên cùng là dữ liệu dẫn xuất và tầng giữa là tầng dữ liệu tƣơng thích. Hình 11: Kiến trúc dữ liệu 3 tầng Ngƣời dùng cuối hiếm khi truy cập trực tiếp vào tầng dữ liệu tƣơng thích vì cấu trúc đã đƣợc lập và chuẩn hóa của tầng này nói chung không phù hợp với ngƣời dùng cuối. Những lý do nghiệp vụ này hạn chế việc sử dụng trực tiếp tầng dữ liệu tƣơng thích cho các chức năng thông tin quản lý. Hầu hết những ngƣời dùng cuối có thể thỏa mãn yêu cầu nghiệp vụ của mình qua tầng dữ liệu dẫn xuất. 2.2.3 Tiêu chuẩn cho phân loại dữ liệu nghiệp vụ Có bốn tiêu chuẩn để phân loại dữ liệu nghiệp vụ đó là khả năng sử dụng của dữ liệu trong nghiệp vụ, phậm vi dữ liệu, dữ liệu là loại đọc - ghi hay chỉ đọc, và thời gian hiện hành của dữ liệu. Mai Quang Huy CT1002 Trang 30
  31. Đồ án tốt nghiệp 2.2.3.1 Khả năng sử dụng dữ liệu trong nghiệp vụ: Dữ liệu sử dụng trong nghiệp vụ để thực hiện hai mục tiêu sau: . Dữ liệu tác nghiệp: Dùng để thực hiện nghiệp vụ liên quan đến các hoạt động hoặc quyết định trong tƣơng lai gần. . Dữ liệu thông tin: Dùng để quản lý nghiệp vụ trong thời gian dài hạn hơn. Dữ liệu tác nghiệp là dữ liệu nghiệp vụ chủ yếu trong tổ chức và là nguồn cho dữ liệu thông tin. Cấu trúc của hai loại dữ liệu này đều phụ thuộc vào cách thức truy cập và nhu cầu sử dụng. 2.2.3.2 Phạm vi dữ liệu: Dữ liệu có thể biểu thị một khoản mục hay giao dịch, nó có thể tổng hợp nhiều khoản mục hoặc nhiều giao dịch: Dữ liệu chi tiết hay dữ liệu nguyên tử: là yếu tố căn bản để thực hiện nghiệp vụ, đƣợc sử dụng trong một số tác vụ quản lý nghiệp vụ đơn giản, thƣờng tập trung vào những đối tƣợng giao dịch nhƣ hợp đồng, khách hàng, sản phẩm. Dữ liệu tổng hợp: Đƣợc sử dụng trong quản lý nghiệp vụ, thể hiện một tầm nhìn bao quát về hoạt động của nghiệp vụ. 2.2.3.3 Dữ liệu đọc - ghi và dữ liệu chỉ đọc: Dữ liệu đọc – ghi và dữ liệu chỉ đọc có những điểm khác biệt cơ bản. Dữ liệu đọc – ghi yêu cầu thiết kế quá trình cập nhật một cách cẩn trọng, bảo đảm các quy tắc nghiệp vụ toàn vẹn. Cấu trúc của nó đƣợc tối ƣu cho việc ghi vào cở sở dữ liệu hoặc tệp dữ liệu. Dữ liệu chỉ đọc: Thƣờng đƣợc thiết kế cho các truy vấn ngẫu nhiên và cung cấp một cơ sở ổn định cho việc đọc. 2.2.3.4 Thời gian hiện hành của dữ liệu: Thời gian hiện hành của dữ liệu phản ánh vị trí của dữ liệu theo thời gian vận hành nghiệp vụ. Mai Quang Huy CT1002 Trang 31
  32. Đồ án tốt nghiệp Dữ liệu hiện hành thể hiện tình trạng hiện tại của nghiệp vụ, thƣờng tồn tại trong thời gian ngắn và thay đổi theo thời gian, theo hoạt động của nghiệp vụ. Nó biểu diễn chính xác tình trạng hiện thời của nghiệp vụ. Dữ liệu tại một thời điểm là hình ảnh ổn định của của dữ liệu nghiệp vụ tại một thời điểm cụ thể, phản ảnh trạng thái của nghiệp vụ tại thời điểm đó. Dữ liệu định kỳ: Xác định hình ảnh chính xác nhất của nghiệp vụ khi thay đổi trong một khoảng thời gian. 2.2.4 Kỹ thuật thiết kế Thiết kế kho dữ liệu đòi hỏi nhiều kỹ thuật, sự cần thiết của các kỹ thuật này xuất phát từ ba đặc điểm của kho dữ liệu: Phạm vi kho dữ liệu bao gồm toàn bộ tổ chức. Kho dữ liệu lƣu trữ dữ liệu nghiệp vụ có tính chất lịch sử. Nguồn của tất cả dữ liệu trong kho là dữ liệu đã có, nó có khả năng phân tán, thay đổi về cấu trúc, nội dung và chất lƣợng biến đổi. Các đặc điểm trên trực tiếp dẫn tới các kỹ thuật thiết kế và đƣợc mô tả dƣới đây: 2.2.4.1 Lập mô hình tổ chức: Mục đích của phần này là cung cấp hình ảnh chính xác các khía cạnh của thế giới thực trong phạm vi nào đấy. Nó giúp ngƣời sử dụng mô hình hiểu rõ các đối tƣợng đƣợc lập mô hình hoạt động nhƣ thế nào và khả năng dự đoán kết quả của bất kỳ hoạt động bên trong môi trƣờng này cũng nhƣ ảnh hƣởng của bất kỳ sự thay đổi nào tới nó. 2.2.4.2 Biểu diễn thời gian trong dữ liệu nghiệp vụ: Do nghiệp vụ thay đổi theo thời gian nên dữ liệu nghiệp vụ cũng phải thể hiện sự thay đổi đó. Tauzovich (1991) đề nghị đƣa vào các bản số snapshot và lifetime để biểu diễn cách nhìn tĩnh và cách nhìn theo thời gian. Lý do khác biệt giữa Snapshot và lifetime là sự kiện xảy ra ảnh hƣởng đến mối quan hệ của các thực thể. Trong mô hình dữ liệu truyền thống không có vị trí rõ ràng nào thể hiện sự kiện này. Một phƣơng pháp nữa là gắn nhãn thời gian (timestamp), trong thực tế phƣơng pháp này đƣợc sử dụng rộng rãi. Thƣờng dữ liệu thay đổi ở mức trƣờng (field), nên có thể biểu diễn thời Mai Quang Huy CT1002 Trang 32
  33. Đồ án tốt nghiệp gian ở mức đó hay bất kỳ ở mức nào cao hơn trong cấu trúc nhƣ bản ghi tùy theo yêu cầu chi tiết. Cách nhìn dữ liệu thời gian dựa rên trạng thái, hay cơ sở dữ liệu trạng thái bao gồm chuỗi các bản ghi đƣợc gắn nhãn thời gian, mỗi bản ghi thể hiện trạng thái của thực thể tại một thời điểm. Thông thƣờng trong các hệ tác nghiệp thời điểm đƣợc chọn là thời điểm ngay sau khi xảy ra sự kiện dẫn tới việc cập nhật cơ sở dữ liệu. Thí dụ: Quản lý tài khoản ngân hàng, 2.2.4.3 Dữ liệu lịch sử: Yêu cầu truy cập dữ liệu lịch sử là một trong những động cơ chính khi xây dựng kho dữ liệu. Cụ thể hơn, dữ liệu lịch sử đóng vai trò quan trọng trong kho dữ liệu và đƣợc dùng để phân tích xu hƣớng nghiệp vụ hay phân tích các mẫu, thƣờng tập trung vào những phần dữ liệu đặc biệt của tổ chức. Dữ liệu lịch sử ngày càng quan trọng trong kho sữ liệu của tổ chức và nó cung cấp hồ sơ rõ ràng của nghiệp vụ. Có hai vấn đề đòi hỏi việc duy trì hồ sơ lịch sử của nghiệp vụ: Xem xét nghiệp vụ tại thời điểm bất kỳ: Ngƣời sử dụng cuối cần xem xét nghiệp vụ tại các thời điểm khác nhau, một thời điểm có vai trò quan trọng đối với nghiệp vụ. Ví dụ: Thời điểm đóng thuế, một giao dịch trong ngân hàng, Phân tích xu hướng nghiệp vụ: Phân tích xu hƣớng nghiệp vụ là quá trình nghiên cứu sự khác biệt giữa các chuỗi thời điểm xem xét. Ví dụ: Kết quả kinh doanh hàng tháng đƣợc lƣu trữ để phân tích xu hƣớng kinh doanh của công ty. 2.2.4.4 Nhân bản dữ liệu: Việc nhân bản dữ liệu có các đặc điểm chính sau: Kiểm soát: Nhân bản dữ liệu phải đảm bảo tính nhất quán của kết quả, bất luận dữ liệu đƣợc sao chép hay sử dụng vào mục đích nào. Quản lý: Cung cấp khả năng xây dựng và sử dụng lại các chức năng. Mềm dẻo: Cho phép kết hợp các chức năng và kỹ thuật khi cần thiết. Bảo trì dễ dàng: Cho phép đáp ứng nhanh chóng và có hiệu quả khi có thay đổi trong cấu trúc hoặc vị trí của tập dữ liệu nguồn hoặc đích. Mai Quang Huy CT1002 Trang 33
  34. Đồ án tốt nghiệp Tích hợp siêu dữ liệu: Cung cấp các kết nối với siêu dữ liệu của cả dữ liệu nguồn và dữ liệu đích, sử dụng hoặc tạo ra những siêu dữ liệu này khi cần thiết. Hiệu quả: Cung cấp cách thức hỗ trợ nguồn dữ liệu lớn tại nhiều mức đồng bộ. Các nguồn đa dạng: Hỗ trợ nhiều nguồn dữ liệu, đây là một đặc điểm của hệ thống thông tin ngày nay. Dễ dàng sử dụng: Ngƣời sử dụng với các kỹ năng kỹ thuật khác nhau từ ngƣời sử dụng cuối thông thƣờng tới ngƣời quản trị cơ sở dữ liệu đều có thể sử dụng công cụ này. Phạm vi nghiệp vụ: Lƣu giữ các mối quan hệ đƣợc các tiến trình nghiệp vụ tạo lên khi nhân bản dữ liệu. Các đặc điểm nêu trên là những yếu tố cơ bản để xây dựng kho dữ liệu. Mỗi kỹ thuật xác định nhu cầu quan trọng trong toàn bộ thiết kế. Mô hình dữ liệu tổ chức hỗ trợ cách nhìn chung nhất về dữ liệu để hiểu, thực hiện và quản lý nghiệp vụ cả hiện tại và tƣơng lai. Kỹ thuật biểu diễn dữ liệu theo chiều thời gian dẫn đến khả năng lƣu trữ dữ liệu lịch sử, do đó có nhiều tiến trình nghiệp vụ trong tổ chức có thể sử dụng Mai Quang Huy CT1002 Trang 34
  35. Đồ án tốt nghiệp CHƢƠNG 3 : THỬ NGHIỆM TÍCH HỢP DỮ LIỆU VỀ CÁC CẦU TRÊN QUỐC LỘ 3.1 Mô tả bài toán Bộ giao thông vận tải là cơ quan đã áp dụng nhiều giải pháp công nghệ thông tin trong quản lý. Với đặc thù của ngành, các hệ thống đƣợc phân bố trên nhiều địa phƣơng khác nhau, đƣợc xây dựng để phục vụ nhiều mục đích khác nhau. Vấn đề tích hợp dữ liệu, đồng bộ dữ liệu từ các nguồn dữ liệu có sẵn là nhu cầu không thể thiếu của bất kỳ hệ thống thông tin nào. Đối với Bộ giao thông vận tải thì điều này rất quan trọng và cần triển khai càng sớm càng tốt. Bài toán tích hợp dữ liệu về các cầu trên quốc lộ từ các khu quản lý đƣờng bộ về Bộ giao thông vận tải đƣợc phát biểu tổng quát nhƣ sau: “Từ các thông tin có sẵn trong hệ thống máy chủ của các khu quản lý đường bộ, cần xây dựng giải pháp tích hợp được các cơ sở dữ liệu đó về trung tâm tích hợp dữ liệu của Bộ giao thông vận tải để phục vụ công tác quản lý”. Hiện nay có rất nhiều giải pháp cho bài toán nhƣ trên, tuy nhiên lựa chọn phƣơng pháp nào thì tùy thuộc vào hạ tầng kỹ thuật tin học hiện có, quy định về mặt pháp lý và định hƣớng của cơ quan đó. Trong đồ án này em xin trình bày hƣớng xây dựng các ứng dụng dùng Web service để trao đổi thông tin, tích hợp dữ liệu để phục vụ công tác quản lý. Để sử dụng Web service xây dựng các ứng dụng, chúng ta cần xem xét Web service dựa trên nền tảng công nghệ nào? Web service trao đổi thông tin dựa trên giao thức HTTP và SOAP, điều này cho phép chúng ta trao đổi thông tin giữa các trung tâm với nhau thông qua hệ thống Internet rất thuận lợi. Chúng không phụ thuộc vào hạ tầng kỹ thuật, tin học của các đơn vị và không phụ thuộc vào bất kỳ hệ quản trị cơ sở dữ liệu và hệ điều hành nào. 3.2 Truy cập cơ sở dữ liệu tại các khu quản lý đƣờng bộ Cơ sở dữ liệu Cầu tại các khu quản lý đƣờng bộ đƣợc biểu diễn nhƣ sau: Mai Quang Huy CT1002 Trang 35
  36. Đồ án tốt nghiệp Hình 12: CSDL cầu tại các khu quản lý đường bộ. Tại mỗi khu quản lý đƣờng bộ sẽ xây dựng một Web service truy cập vào cơ sở dữ liệu cục bộ để lấy thông tin. Việc trao đổi thông tin giữa các trung tâm với nhau thông qua HTTP và SOAP do vậy chỉ cần có một định danh cho Web service đó. Hình 13: Mô hình truy cập dữ liệu tại các khu quản lý đường bộ. Mai Quang Huy CT1002 Trang 36
  37. Đồ án tốt nghiệp Trên Web service xây dựng các phƣơng thức truy cập và lấy thông tin từ máy chủ cơ sở dữ liệu. Đối với mỗi loại hệ quản trị cơ sở dữ liệu có cách thức riêng để truy cập và mọi hoạt động này đƣợc thực hiện trong phạm vi của tổ chức (trong mạng LAN), dữ liệu Web service nhận đƣợc là kết quả của các truy vấn vào cơ sở dữ liệu nội bộ sau đó trả về nơi yêu cầu thông qua giao thức HTTP, SOAP. Phƣơng thức truy cập và lấy dữ liệu các cầu từ các khu quản lý đƣờng bộ: Tại Bộ giao thông vận tải, muốn khai thác các Web service này thì cần làm một số thao tác sau: - Dùng tiện ích Disco, Wsdl để lấy đƣợc các thông tin của các Web service. - Các ứng dụng sẽ tham chiếu thông tin một trong hai tệp này để kích hoạt các phƣơng thức của Web service. Một lời gọi đến phƣơng thức của Web service thực tế là một lời gọi đến Proxy, việc còn lại là do Proxy này thực hiện. Khi có yêu cầu lấy dữ liệu, một thông điệp đƣợc gửi đến Web service của trung tâm cơ sở, sau khi kiểm tra tính hợp lệ của thông điệp một phƣơng thức đƣợc chỉ định sẽ thực hiện việc truy nhập vào cơ sở dữ liệu cục bộ để lấy thông tin. Web service gửi thông tin đó dƣới định dạng XML về Bộ. Tại đây dữ liệu có thể đƣợc xử lý thêm một lần nữa rồi lƣu vào cơ sở dữ liệu của Bộ. Toàn bộ thông tin lấy đƣợc tích hợp thành cơ sở dữ liệu Cầu đặt tại Trung tâm tích hợp dữ liệu. Mai Quang Huy CT1002 Trang 37
  38. Đồ án tốt nghiệp Hình 14: Mô hình trao đổi thông tin từ Web service với CSDL cục bộ Vậy, ta thấy có một số ƣu nhƣợc điểm sau: Ƣu điểm: o Bên yêu cầu lấy thông tin thông qua giao thức chung HTTP, SOAP nên không phụ thuộc vào hạ tầng hệ thống thông tin của các trung tâm cơ sở (bao gồm hệ quản trị cơ sở dữ liệu và hệ điều hành). o Bên yêu cầu chỉ nhận đƣợc thông tin do Web service trả về nên ta có thể tinh giản đƣợc lƣợng dữ liệu trƣớc khi truyền trên Internet. o Sự an toàn của máy chủ cơ sở dữ liệu đƣợc đảm bảo do bên yêu cầu không phải kết nối trực tiếp vào máy chủ cơ sở dữ liệu, dữ liệu đi qua tầng trung gian là Web service và có thêm chế độ bảo mật của chính Web service. o Web service đƣợc xây dựng dễ dàng bằng nhiều ngôn ngữ lập trình nhƣ: PHP, ASP.NET, C#, VB.NET, Hạn chế: o Phụ thuộc vào tốc độ đƣờng truyền Internet. o Nếu thay đổi yêu cầu nghiệp vụ thì phải thay đổi các phƣơng thức của Web service. Mai Quang Huy CT1002 Trang 38
  39. Đồ án tốt nghiệp 3.3 Xây dựng Web Service Ở đây, ngôn ngữ lập trình đƣợc sử dụng là ASP.NET và C# trong bộ Visual Studio.NET của Microsoft. Tạo Web service: 1. Khởi động VS.Net 2. Vào Menu File chọn New Web Site, máy tính xuất hiện hộp thoại: Hình 15: Hộp thoại tạo web service. Sau khi hoàn thành việc xây dựng các phƣơng thức để truy vấn dữ liệu. Bƣớc tiếp theo ta cấu hình Web service để nó hoạt động. Việc cấu hình Web service tƣơng tự nhƣ việc cấu hình một Web site bình thƣờng. 3.4 Tiêu thụ Web Service Muốn sử dụng các phƣơng thức của Web service, ta phải lấy đƣợc toàn bộ thông tin về Web service này. Mai Quang Huy CT1002 Trang 39
  40. Đồ án tốt nghiệp Có hai cách để đƣa thông tin của Web service vào ứng dụng tiêu thụ (Consumer Application). Cách 1: Trong môi trƣờng lập trình DotNet, MicroSoft cung cấp các tiện ích nhƣ Disco và Wsdl để lấy thông tin của Web service. Disco www.bridge.com/Service.asmx /out: c:\ Trong trƣờng hợp Web service cần khai báo quyền truy nhập thì ta dùng thêm hai tham số /username: tên truy cập và /password: mật khẩu. tham số /out để chỉ nơi lƣu trữ tệp kết quả đƣợc trả về, trong trƣờng hợp trên có hai tệp kết quả đƣợc trả về là Service.diso và Service.wsdl. Tiếp theo ta dùng lệnh Wsdl để tạo ra tệp Service.* phần mở rộng của tệp này tùy thuộc vào việc chỉ định tham số ngôn ngữ trong lệnh Wsdl. Wsdl /o:c:\dataintegrated /language:CS /protocol:SOAP12 Kết quả của việc thực hiện câu lệnh trên là tạo ra đƣợc tệp Service.cs tên của tệp kết quả này trùng với tên của lớp đƣợc xây dựng bên trong Web service. Tham số /language: có thể nhận một số giá trị nhƣ JS, CS, VB, Tham số /protocol: chỉ giao thức truyền dữ liệu nhƣ SOAP, SOAP12, HttpGet, HttpPost. Biên dịch tệp Service.cs thành Service.dll Csc c:\Service.cs Cách 2: Khi tạo một ứng dụng tiêu thụ Web service, ta có thể dùng ngay chức năng Add web reference của Visual Studio.net Mai Quang Huy CT1002 Trang 40
  41. Đồ án tốt nghiệp Hình 16: Thêm tham chiếu Web vào chương trình ứng dụng Máy tính xuất hiện hộp thoại: Hình 17: Giao diện hộp thoại Add web reference URL: Nhập địa chỉ của Web service Web reference name: Tên tham chiếu của Web service trong chƣơng trình tiêu thụ Chọn Add Reference. Trong chƣơng trình này tên tham chiếu của Web service là: ConsumerWS và xuất hiện trong chƣơng trình Mai Quang Huy CT1002 Trang 41
  42. Đồ án tốt nghiệp Hình 18: Tham chiếu của Web service Trong các lớp muốn gọi các phƣơng thức của Web service phải khai báo dòng lệnh sau: using DatabaseFusion.ConsumerWS; DatabaseFusion: Đây là namespace của ứng dụng có dùng Web service. ConsumerWS: Tên tham chiếu của Web service Sau khi thực hiện phần trên chúng ta đã có toàn bộ thông tin về Web service cần sử dụng. Trong chƣơng trình tiêu thụ tạo đối tƣợng thuộc Web service đó: Service service = new Service(); Truy vấn dữ liệu thành công tại các khu quản lý đƣờng bộ, ta lƣu CSDL vừa thu đƣợc từ các khu quản lý đƣờng bộ dƣới dạng file XML: DataSet ds = service.getTable( servername, uid, pass, databasename); ds.WriteXml( filename+ ".xml"); Có đƣợc file XML, ta trích chọn những thông tin cơ bản, đặc trƣng về cầu trên quốc lộ để tạo CSDL tích hợp có cấu trúc nhƣ sau: Mai Quang Huy CT1002 Trang 42
  43. Đồ án tốt nghiệp DataSet dsRead = new DataSet(); dsRead.ReadXml( filename + ".xml"); DataView dw = new DataView(dsRead.Tables[0]); DataTable table = dw.ToTable(true, "Bridge Number", "Bridge Ref Code", "Bridge Name", "Structure Type", "Road Classification", "Road Number", "Main Obstacle Crossed", "Road Cross Reference", "Number of Spans", "Maintenance Authority", "Maintenance Unit", "Owner", "Bridge Length", "Province_Town", "Year Built", "Load Standard", "Load Assesment", "Huyen", "Tong chieu rong", "Chieu rong xe chay"); Tiếp đó là tạo CSLD tích hợp tại Bộ giao thông đặt tên là CauQL.xml: table.WriteXml("CauQL.xml"); File đƣợc tạo ra có dạng nhƣ sau: Mai Quang Huy CT1002 Trang 43
  44. Đồ án tốt nghiệp Trong chƣơng trình ta cho hiển thị thông tin CSLD lên đối tƣợng DataGridView: this.dataGridView.DataSource = table Kết quả sau khi thực hiện các bƣớc trên: Hình 19: Hiển thị kết quả nhận từ Web service Mai Quang Huy CT1002 Trang 44
  45. Đồ án tốt nghiệp KẾT LUẬN Trong đồ án em đã trình bày nghiên cứu và đề xuất giải pháp tích hợp các cơ sở dữ liệu phân tán trên môi trƣờng Internet. Sau một thời gian nghiên cứu và tìm hiểu tài liệu, các kết quả chính đã đạt đƣợc là: Tìm hiểu những kiến thức về tích hợp dữ liệu. Các phƣơng pháp tích hợp dữ liệu. Xây dựng giải pháp tích hợp dữ liệu. Trình bày một số công nghệ hiện có dùng trong việc tích hợp dữ liệu từ các hệ thống phân tán. Trình bày thử nghiệm tích hợp dữ liệu về các cầu trên quốc lộ dựa trên Web service. Giải pháp tích hợp dữ liệu dựa trên Web service hƣớng đi mới trong việc trao đổi thông tin trên Internet hiện nay. Đồ án vẫn còn một số hạn chế là chƣa xây dựng đƣợc một mô hình tích hợp tối ƣu và hoàn thiện nhất, phần thực nghiệm mới chỉ xây dựng đƣợc chƣơng trình nhỏ mang tính chất minh họa cho quá trình tích hợp dữ liệu từ các nguồn cơ sở dữ liệu phân tán, thu thập những thông tin đơn giản, trên thực tế các nguồn thông tin đa dạng và phức tạp hơn nhiều, cần thực hiện các giải pháp trích chọn thông tin phù hợp rồi mới tiến hành thu thập và tích hợp. Mai Quang Huy CT1002 Trang 45
  46. Đồ án tốt nghiệp TÀI LIỆU THAM KHẢO Tiếng Việt Dƣơng Quang Thiện, .NET Toàn Tập - Tập 5: Lập Trình Web Dùng ASP.NET Và C# - Lập Trình Visual C# Thế Nào?, 2005, 738. Dƣơng Quang Thiện, .NET Toàn Tập - Tập 4: Lập Trình Căn Cứ Dữ Liệu dùng ADO.NET Và C# - Lập Trình Visual C# Thế Nào?, 2005, 692. Tiếng Anh Donald K. Burleson, Joseph Hudicka,William H. Inmon, Craig Mullins, Fabian Pascal, The Data Warehouse eBusiness DBA Handbook, BMC Software and DBAzine, 2003, 220. Dan Hurwitz, Jesse Liberty, Programming ASP.NET, Third Edition, O'Reilly, 2005, 956. Aaron Skonnard, Martin Gudgin, Essential XML Quick Reference A Programmer’s Reference to XML, XPath, XSLT, XML Schema, SOAP, and More, Addison Wesley, 2007, 429. Michael A. Kittel, Geoffrey T. LeBlond, ASP.NET Cookbook, 2nd Edition, O'Reilly, 2005, 1014. Microsoft, Developing XML Web Services Using Microsoft® ASP.NET, 2002, 498. Microsoft, Msdn, 2005. Stavros Papastavrou, Panos Chrysanthis, George Samaras, Evaggelia Pitoura, An Evaluation of the Java-based Approaches to Web Database Access, 2005, 15p. Mai Quang Huy CT1002 Trang 46