Đồ án Tìm hiểu phương pháp trích chọn dấu hiệu của ảnh dựa vào đặc trưng hình dạng - Phùng Thị Lệ

pdf 42 trang huongle 1740
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Tìm hiểu phương pháp trích chọn dấu hiệu của ảnh dựa vào đặc trưng hình dạng - Phùng Thị Lệ", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfdo_an_tim_hieu_phuong_phap_trich_chon_dau_hieu_cua_anh_dua_v.pdf

Nội dung text: Đồ án Tìm hiểu phương pháp trích chọn dấu hiệu của ảnh dựa vào đặc trưng hình dạng - Phùng Thị Lệ

  1. 1 LỜI CẢM ƠN Trong lời đầu tiên của báo cáo Đồ án Tốt Nghiệp “Tìm hiểu phƣơng pháp trích chọn dấu hiệu của ảnh dựa vào đặc trƣng hình dạng” này, em muốn gửi những lời cám ơn và biết ơn chân thành nhất của mình tới tất cả những ngƣời đã hỗ trợ, giúp đỡ em về kiến thức, và tinh thần trong quá trình thực hiện Đồ án. Trƣớc hết, em chân thành cám ơn Thầy Giáo. Ths. Ngô Trƣờng Giang, Giảng viên Khoa Công Nghệ Thông Tin, Trƣờng ĐHDL Hải Phòng, ngƣời đã trực tiếp hƣớng dẫn, nhận xét, giúp đỡ em trong suốt quá trình thực hiện Đồ án. Em chân thành cảm ơn các Thầy Cô trong Khoa Công Nghệ Thông Tin và toàn Thầy Cô trong Trƣờng Đại Học Dân Lập Hải Phòng đã giúp đỡ em trong suốt quá trình học tập. Em cũng xin bày tỏ lòng biết ơn đến gia đình và những ngƣời bạn đã luôn giúp đỡ động viên em rất nhiều trong quá trình học tập và làm Đồ án Tốt Nghiệp. Do thời gian thực hiện có hạn, kiến thức còn nhiều hạn chế nên Đồ án thực hiện chắc chắn không tránh khỏi những thiếu sót nhất định. Em rất mong nhận đƣợc ý kiến đóng góp của Thầy Cô giáo và các bạn để em có thêm kinh nghiệm và tiếp tục hoàn thiện bài báo cáo của mình. Em xin chân thành Cám ơn! Hải Phòng, tháng 11/2011 Sinh viên Phùng Thị Lệ ___ Sinh viên: Phùng Thị Lệ – CT1102
  2. 2 MỤC LỤC MỤC LỤC 2 MỞ ĐẦU 4 DANH MỤC HÌNH VẼ 5 CHƢƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA TRÊN NỘI DUNG. 6 1.1 Tra cứu thông tin trực quan 6 1.2 Các thành phần chính của một hệ thống CBIR. 7 1.3 Các chức năng cơ bản của hệ thống CBIR. 8 1.4 Một số phƣơng pháp tra cứu ảnh dựa trên nội dung. 9 1.5 Một số hệ thống tra cứu ảnh dựa trên nội dung. 10 1.5.1 Hệ thống QBIC (Query By Image Content). 11 1.5.2 Hệ thống Photobook. 11 1.5.3 Hệ thống VisualSEEK và WebSEEK. 11 1.5.4 Hệ thống RetrievalWare. 12 1.5.5 Hệ thống Imatch. 12 CHƢƠNG 2: CÁC PHƢƠNG PHÁP BIỂU DIỄN HÌNH DẠNG. 13 2.1 Giới thiệu. 13 2.2 Kỹ thuật biểu diễn hình dạng dựa trên biên. 14 2.2.1 Phƣơng pháp toàn cục. 14 2.2.2 Phƣơng pháp cấu trúc. 16 2.3 Kỹ thuật biểu diễn hình dạng dựa trên vùng. 18 2.3.1 Phƣơng pháp toàn cục. 19 2.3.2 Phƣơng pháp cấu trúc. 20 CHƢƠNG 3: MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN DẤU HIỆU CỦA ẢNH DỰA VÀO ĐẶC TRƢNG HÌNH DẠNG. 22 3.1 Giới thiệu. 22 3.2 Phƣơng pháp trích chọn đặc trƣng dựa trên đƣờng biên. 22 3.2.1 Mã xích (chain code). 22 3.2.2 Shape number. 24 3.2.3 Đối sánh các shape number. 25 ___ Sinh viên: Phùng Thị Lệ – CT1102
  3. 3 3.3 Phƣơng pháp trích chọn đặc trƣng dựa trên vùng. 27 3.3.1 Đồ thị xƣơng. 29 3.3.2 Đối sánh đồ thị xƣơng. 29 3.3.3 Nhận xét 36 CHƢƠNG 4: THỰC NGHIỆM. 37 4.1 Môi trƣờng thử nghiệm. 37 4.2 Một số kết quả thu đƣợc. 37 4.2.1 Giao diện chƣơng trình: 37 4.2.2 Kết quả trên một số đối tƣợng khác nhau. 38 4.2.3 Một số nhận xét về chƣơng trình. 40 KẾT LUẬN 41 TÀI LIỆU THAM KHẢO 42 ___ Sinh viên: Phùng Thị Lệ – CT1102
  4. 4 MỞ ĐẦU Trong thực tế, bài toán tra cứu ảnh có rất nhiều ứng dụng quan trọng, ví dụ nhƣ so sánh mẫu vân tay, tìm kiếm ảnh tội phạm đƣợc áp dụng trong ngành khoa học hình sự, cơ sở dữ liệu ảnh về địa lý, y học làm cho lĩnh vực nghiên cứu này phát triển nhanh trong công nghệ thông tin. Tuy nhiên khi số lƣợng ảnh đƣợc lƣu trữ trở nên rất lớn thì vấn đề là phải có những phƣơng pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt. Việc tìm kiếm đƣợc một bức ảnh mong muốn trong hàng triệu bức ảnh là rất khó khăn, đòi hỏi phải có những phƣơng pháp hiệu quả và chính xác. Một trong những phƣơng pháp đƣợc nhiều ngƣời quan tâm nghiên cứu hiện nay là phƣơng pháp “Tra cứu ảnh dựa theo nội dung” (Content-Based Image Retrieval). Ý tƣởng phƣơng pháp này là trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh nhƣ màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh. Tra cứu ảnh dựa trên hình dạng sử dụng các đặc trƣng hình dạng của các ảnh mục tiêu để tìm kiếm, nó là một khía cạnh rất quan trọng của tra cứu ảnh dựa trên nội dung. Một phần quan trọng của tra cứu ảnh dựa trên hình dạng là nghiên cứu trích chọn dấu hiệu đặc trƣng. Cho đến nay vẫn chƣa có, định nghĩa toán học chính xác, bao gồm cả hình học, thống kê, hình thái học đo lƣờng về hình dạng, do đó việc mô tả hình dạng là vấn đề hết sức phức tạp. Đề tài này sẽ tìm hiểu một số phƣơng pháp mô tả và trích chọn dấu hiệu của ảnh dựa vào đặc trƣng hình dạng ứng dụng trong tra cứu ảnh dựa trên nội dung. Đồ án bao gồm 4 chƣơng: Chƣơng 1: Trình bày tổng quan về tra cứu ảnh dựa trên nội dung và giới thiệu một số hệ thống tra cứu ảnh dựa trên nội dung. Chƣơng 2: Trình bày một số phƣơng pháp biểu diễn hình dạng và cách phân loại các phƣơng pháp biểu diễn hình dạng. Chƣơng 3: Tìm hiểu hai phƣơng pháp trích chọn dấu hiệu của ảnh dựa vào đặc trƣng hình dạng: Mã xích và xƣơng. Chƣơng 4: Trình bày thực nghiệm và một số kết quả đạt đƣợc. ___ Sinh viên: Phùng Thị Lệ – CT1102
  5. 5 DANH MỤC HÌNH VẼ Hình 1.1: Các thông tin sử dụng để mô tả hình ảnh. 7 Hình 1.2: Mô hình hệ thống tra cứu ảnh dựa trên nội dung. 9 Hình 2.1: Phân loại các kỹ thuật mô tả hình dạng. 14 Hình 2.2: Minh họa độ lệch tâm và tuần hoàn của hình dạng. 15 Hình 2.3: Minh họa phƣơng pháp bề mặt lồi: (a) Bề mặt lồi và các thiếu hụt lồi của nó; (b) Cây lõm biểu diễn bề mặt lồi. 20 Hình 2.4: Trục trung vị (xƣơng) của hình chữ nhật. 20 Hình3.1: Các hƣớng của đoạn thẳng đơn vị: (a): 4 hƣớng, (b): 8 hƣớng. 23 Hình 3.2: Biểu diễn của một chuỗi mã ( theo 4 hƣớng và 8 hƣớng) 23 Hình 3.3: Biểu diễn hình dạng sử dụng shape number. 24 Hình 3.4: Các bƣớc tính toán shape number. 25 Hình 3.5: Minh họa tìm kiếm hình dạng tƣơng tự sử dụng shape number: (a) hình dạng; (b) cây tƣơng tự; (c) ma trận tƣơng tự. 26 Hình 3.6: Hình dạng (a) và (b) tƣơng tự nhau nhƣng đồ thị khác nhau. 28 Hình 3.7: Hình dạng (a) và ( b) khác nhau nhƣng có đồ thị xƣơng (c) giống nhau. . 28 Hình 3.8: Minh họa đƣờng dẫn xƣơng: (a) xƣơng của hình con ngựa, (b) đƣờng dẫn ngắn nhất giữa các cặp node cuối. 30 Hình 3.9: Sự tƣơng ứng giữa các node cuối của hai đồ thị xƣơng 32 Hình 3.10: Minh họa xƣơng đƣợc cắt tỉa bởi DCE. 33 Hình 3.11: Sự tƣơng ứng giữa các yếu tố. 35 Hình 4.1: Giao diện của chƣơng trình. 37 Hình 4.2: Kết quả thu đƣợc với hình con ngựa 38 Hình 4.3: Kết quả thu đƣợc với hình con ngựa kéo xe. 38 Hình 4.4: Kết quả thu đƣợc với hình cá heo. 39 Hình 4.5: Kết quả thu đƣợc với hình chữ nhật. 39 ___ Sinh viên: Phùng Thị Lệ – CT1102
  6. 6 CHƢƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA TRÊN NỘI DUNG. 1.1 Tra cứu thông tin trực quan. Nội dung của một bức ảnh gồm nội dung trực quan và nội dung ngữ nghĩa. Nội dung trực quan gồm có nội dung tổng quan và nội dung đặc tả. Nội dung ngữ nghĩa đƣợc phát hiện thông qua chú thích hoặc suy luận từ nội dung trực quan. Có hai phƣơng pháp chung để giải bài toán tra cứu thông tin trực quan dựa trên những thông tin trực quan: Phƣơng pháp dựa trên những thuộc tính (tổng quan) và phƣơng pháp dựa trên những đặc điểm (đặc tả). Phƣơng pháp dựa trên thuộc tính dựa vào tra cứu thông tin kết cấu truyền thống và những phƣơng pháp quản lý cơ sở dữ liệu dựa trên sự can thiệp của con ngƣời để trích chọn metadata về đối tƣợng trực quan và sự chú thích kết cấu. Nhƣng việc phân tích kết cấu mất nhiều thời gian và tốn nhiều công sức. Hơn nữa lời chú thích phụ thuộc rất nhiều vào cảm nhận chủ quan của con ngƣời, mà sự cảm nhận chủ quan và sự giải thích mơ hồ chính là nguyên nhân của sự ghép đôi không cân xứng trong quá trình xử lý. Vấn đề truy cập ảnh và video dựa trên từ khóa đã thúc đẩy quan tâm đến sự phát triển những giải pháp dựa trên đặc điểm. Đó là thay sự giải thích thủ công bằng những từ khoá dựa trên văn bản, ảnh có thể đƣợc trích chọn ra bằng cách sử dụng một số đặc điểm thị giác nhƣ là màu sắc, kết cấu, hình dạng và đƣợc đánh chỉ số dựa trên những đặc điểm trực quan này. Thuật ngữ tra cứu ảnh dựa trên nội dung (Content Based Image Retrieval - CBIR) đã đƣợc Kato sử dụng đầu tiên để mô tả những thí nghiệm của ông về lĩnh vực tra cứu tự động những hình ảnh từ một cơ sở dữ liệu dựa trên đặc điểm hình dạng và màu sắc. Từ đó nó đƣợc sử dụng rộng rãi để mô tả quá trình tra cứu những hình ảnh mong muốn từ một tập hợp lớn hình ảnh dựa trên những đặc điểm về màu sắc, kết cấu và hình dạng và những đặc điểm đó đƣợc trích rút một cách tự động từ chính các hình ảnh. Những đặc điểm sử dụng cho việc tra cứu có thể là những đặc điểm nguyên thủy hoặc là những đặc điểm ngữ nghĩa, tuy nhiên quá trình trích chọn chủ yếu phải đƣợc tự động [5]. Tra cứu ảnh dựa trên việc gán từ khóa (manually assigned keywords) không phải là tra cứu ảnh dựa trên nội dung bởi vì thuật ngữ đƣợc hiểu một cách chung chung ngay cả khi những từ khóa mô tả nội dung ảnh. ___ Sinh viên: Phùng Thị Lệ – CT1102
  7. 7 Hình ảnh Văn bản Nội dung Kết hợp Hình Từ khóa Thể loại Màu sắc Kết cấu các đặc dạng trƣng Hình 1.1: Các thông tin sử dụng để mô tả hình ảnh. 1.2 Các thành phần chính của một hệ thống CBIR. Hiện nay, trọng tâm chính của CBIR là nghiên cứu chủ yếu trên 3 chủ đề chính: Trích chọn đặc trƣng, đánh chỉ số hiệu quả, giao diện ngƣời dùng. Trích chọn đặc trưng: Các đặc trƣng của hình ảnh bao gồm các đặc trƣng nguyên thủy và các đặc trƣng ngữ nghĩa /đặc trƣng logic. Đặc trƣng nguyên thủy nhƣ màu sắc, hình dạng, kết cấu và các mối quan hệ không gian đƣợc định lƣợng trong tự nhiên, chúng có thể đƣợc trích xuất tự động hoặc bán tự động. Đặc trƣng logic cung cấp mô tả trừu tƣợng của dữ liệu hình ảnh ở các cấp độ khác nhau.Thông thƣờng, các đặc trƣng logic đƣợc chiết xuất bằng tay hoặc bán tự động. Một hoặc nhiều đặc trƣng có thể đƣợc sử dụng trong một ứng dụng cụ thể. Ví dụ, trong một hệ thống thông tin vệ tinh, các đặc trƣng kết cấu là quan trọng, trong khi hình dạng và màu sắc là các đặc trƣng quan trọng hơn trong các hệ thống đăng ký nhãn hiệu hàng hoá.Một hoặc nhiềucác đặc trƣng đã đƣợc chiết xuất, tra cứu trở thành một nhiệm vụ đo độ giống nhau giữa các đặc trƣng hình ảnh. Lập chỉ số hiệu quả: Để tạo điều kiện truy vấn hiệu quả và xử lý tìm kiếm, các chỉ số hình ảnh cần thiết đƣợc tổ chức thành các cấu trúc dữ liệu hiệu quả. Đặc trƣng hình ảnh là sự hình dung miêu tả, chúng không thể nhúng chỉ thị và chúng có thể có các thuộc tính liên quan đến nhau. Vì vậy, cấu trúc dữ liệu linh hoạt nên đƣợc ___ Sinh viên: Phùng Thị Lệ – CT1102
  8. 8 sử dụng để tạo điều kiện thuận lợi cho lƣu trữ và truy xuất trong hệ thống phục hồi hình ảnh. Các cấu trúc nhƣ k-d-tree, R-tree family, R *- tree, quad-tree, và grid file (tập lƣới) thƣờng đƣợc sử dụng. Các cấu trúc trên có các ƣu điểm và nhƣợc điểm riêng vì vậy một số cấu trúc dữ liệu chỉ có thể sử dụng trong những lĩnh vực nhất định nhƣng một số cấu trúc dữ liệu có đƣợc sử dụng đồng thời trong nhiều lĩnh vực khác nhau. Giao diện người dùng: Trong các hệ thống thông tin trực quan, tƣơng tác ngƣời dùng đóng một vai trò quan trọng trong hầu nhƣ tất cả các chức năng. Giao diện ngƣời dùng bao gồm một bộ xử lý truy vấn và trình duyệt để cung cấp các công cụ đồ họa tƣơng tác, cơ chế truy vấn và truy cập cơ sở dữ liệu, theo thứ tự định sẵn. Các cơ chế truy vấn thông thƣờng đƣợc cung cấp bởi giao diện ngƣời dùng là: truy vấn bằng từ khóa, truy vấn bằng cách phác thảo, truy vấn bằng các ví dụ, duyệt theo thể loại, chọn lọc đặc trƣng và trọng số thu hồi, tinh chỉnh và phù hợp thông tin phản hồi. Ba tác vụ trên là ba thành phần chính của một hệ thống CBIR. Trong số ba tác vụ trên,trích chọn đặc trƣng (bao gồm cả đo độ giống nhau) là nhiệm vụ quan trọng và khó khăn nhất. Phần lớn các nghiên cứu CBIR đi vào nhiệm vụ đầy thách thức này. Nghiên cứu này tập trung vào khai thác các đặc trƣng hình dạng. 1.3 Các chức năng cơ bản của hệ thống CBIR. Một hệ thống tra cứu ảnh dựa trên nội dung không chỉ xử lý các nguồn thông tin trong những định dạng khác nhau (ví dụ nhƣ văn bản, ảnh, video) mà còn xử lý các nhu cầu của ngƣời sử dụng. Về cơ bản, hệ thống phân tích các nội dung của nguồn thông tin cũng nhƣ truy vấn của ngƣời sử dụng, rồi sau đó đối sánh chúng để tìm ra những tiêu chí có liên quan [5]. Những chức năng chính của một hệ thống bao gồm các nội dung sau: Phân tích nội dung của nguồn thông tin và biểu diễn nội dung của các nguồn thông tin sao cho phân tích phù hợp với sự so sánh các truy vấn của ngƣời sử dụng (không gian của thông tin nguồn đƣợc chuyển đổi thành không gian đặc điểm với mục đích đối sánh nhanh trong bƣớc tiếp theo). Bƣớc này thƣờng là mất nhiều thời gian cho việc xử lý tuần tự các thông tin nguồn (hình ảnh) trong cơ sở dữ liệu. Tuy nhiên, bƣớc này chỉ phải làm một lần và có thể làm độc lập. Phân tích các truy vấn của ngƣời dùng và biểu diễn chúng thành các dạng phù hợp với việc đối sánh với cơ sở sữ liệu nguồn. Nhiệm vụ của bƣớc này giống với bƣớc trƣớc nhƣng chỉ đƣợc áp dụng với những ảnh truy vấn. ___ Sinh viên: Phùng Thị Lệ – CT1102
  9. 9 Xác định chiến lƣợc để đối sánh tìm kiếm truy vấn với thông tin đƣợc lƣu trữ trong cơ sở dữ liệu. Bƣớc này có thể thực hiện trực tuyến và thực hiện rất nhanh. Công nghệ đánh chỉ số hiện đại có thể đƣợc sử dụng để tổ chức lại không gian đặc điểm để tăng tốc độ xử lý đối sánh. Thực hiện các điều chỉnh cần thiết trong hệ thống (thƣờng là bằng cách đối chiếu các tham số trong công nghệ đối sánh) dựa trên phản hồi từ ngƣời sử dụng hoặc những hình ảnh đƣợc tra cứu. Từ sự trình bày ở trên ta thấy rằng một mặt hệ thống tra cứu ảnh dựa trên nội dung có các nguồn thông tin trực quan ở các dạng khác nhau, bên cạnh đó lại có cả các yêu cầu của ngƣời sử dụng. Mô hình một hệ thống tra cứu ảnh dựa trên nội dung [2] nhƣ hình 1.2: Hình 1.2: Mô hình hệ thống tra cứu ảnh dựa trên nội dung. 1.4 Một số phƣơng pháp tra cứu ảnh dựa trên nội dung. Một số phƣơng pháp của tra cứu ảnh dựa trên nội dung đƣợc đƣa ra từ lĩnh vực xử lý ảnh và đồ họa máy tính. Các phƣơng pháp này chủ yếu thông qua việc nhấn mạnh vào tra cứu ảnh với những đặc điểm mong muốn từ một tập hình ảnh lớn. Việc lựa chọn các đặc trƣng và độ đo thích hợp sẽ giúp tăng tốc độ thực hiện và ___ Sinh viên: Phùng Thị Lệ – CT1102
  10. 10 mức độ chính xác của hệ thống tra cứu ảnh. Vì vậy phải lựa chọn đƣợc một tập các đặc trƣng tốt nhất cho đầu vào của các hệ thống tìm kiếm ảnh. Nếu số lƣợng các đặc trƣng quá nhiều sẽ che khuất các tín hiệu, mặt khác, nếu số lƣợng các đặc trƣng quá ít sẽ khó nhận dạng đƣợc ảnh [1]. Sau đây, một số phƣơng pháp tra cứu ảnh dựa trên nội dung đƣợc giới thiệu: Tra cứu ảnh dựa trên màu sắc: màu sắc là một đặc trƣng nổi bật và đƣợc sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc) có thể đƣợc biểu diễn nhƣ một điểm trong không gian màu sắc ba chiều. Các không gian màu thƣờng dùng là: RGB, Munsell, CIE, HSV. Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh chứa các giá trị đặc biệt (màu sắc). Các nghiên cứu gần đây đang tập trung vào phân vùng ảnh theo các màu khác nhau và tìm mối quan hệ giữa các vùng này. Tra cứu ảnh dựa trên kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô hình trực quan của ảnh và cách thức chúng đƣợc xác định trong không gian. Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cƣờng độ của ảnh. Kết cấu đƣợc biểu diễn bởi các texel mà sau đó đƣợc đặt vào một số các tập phụ thuộc vào số kết cấu đƣợc phát hiện trong ảnh. Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh. Việc xác định các kết cấu đặc biệt trong ảnh đạt đƣợc chủ yếu bằng cách mô hình các kết cấu nhƣ những biến thế xám hai chiều. Tra cứu ảnh dựa trên hình dạng: hình dạng của một ảnh hay một vùng là một đặc trƣng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tƣợng đƣợc dùng trong phân lớp, so sánh và nhận dạng đối tƣợng. Hình dạng là đặc trƣng hình ảnh quan trọng và nó là một trong những đặc trƣng nguyên thủy để mô tả nội dung hình ảnh. Tuy nhiên, mô tả nội dung hình dạng là một nhiệm vụ rất khó khăn. Bởi vì, rất khó để định nghĩa các nhận thức về đặc trƣng hình dạng và đo lƣờng sự giống nhau giữa các hình dạng. 1.5 Một số hệ thống tra cứu ảnh dựa trên nội dung. Những năm gần đây, có nhiều hệ thống tra cứu ảnh đã đƣợc xây dựng và phát triển rất nhanh. Một số hệ thống của CBIR đƣợc biết tới: ___ Sinh viên: Phùng Thị Lệ – CT1102
  11. 11 1.5.1 Hệ thống QBIC (Query By Image Content). Hệ thống QBIC của hãng IBM là một hệ thống tra cứu ảnh thƣơng mại đầu tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa trên nội dung. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và kết cấu. QBIC cung cấp một số phƣơng pháp: Simple, Multi-feature, và Multi-pass. Trong phƣơng pháp truy vấn Simple chỉ sử dụng một đặc điểm. Truy vấn Multi-feature bao gồm nhiều hơn một đặc điểm và mọi đặc điểm đều có trọng số nhƣ nhau trong suốt quá trình tìm kiếm. Truy vấn Multi-pass sử dụng đầu ra của các truy vấn trƣớc làm cơ sở cho bƣớc tiếp theo. Ngƣời sử dụng có thể vẽ ra và chỉ định màu, kết cấu mẫu của hình ảnh yêu cầu. Trong hệ thống QBIC màu tƣơng tự đƣợc tính toán bằng thƣớc đo bình phƣơng sử dụng biểu đồ màu k phần tử (k-element) và màu trung bình đƣợc sử dụng nhƣ là bộ lọc để cải tiến hiệu quả của truy vấn. Bản demo của QBIC tại địa chỉ wwwqbic.almaden.ibm.com. 1.5.2 Hệ thống Photobook. Hệ thống này đƣợc phát triển ở Massachusetts Institute of Technology cho phép ngƣời sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu. Hệ thống này cung cấp một tập các thuật toán đối sánh gồm: Euclidean, mahalanobis, vector space angle, histogram, Fourier peak, và wavelet tree distance nhƣ là những đơn vị đo khoảng cách. Trong hầu hết các phiên bản đã có thể định nghĩa những thuật toán đối sánh của họ. Hệ thống nhƣ là một công cụ bán tự động và có thể sinh ra một mẫu truy vấn dựa vào những ảnh mãu đƣợc cung cấp bởi ngƣời sử dụng. Điều này cho phép ngƣời sử dụng trực tiếp đƣa những yêu cầu truy vấn của họ với những lĩnh vực khác nhau, và mỗi lĩnh vực họ có thể thu đƣợc những mẫu truy vấn tối ƣu. 1.5.3 Hệ thống VisualSEEK và WebSEEK. Cả hai hệ thống này đều đƣợc phát triển tại Trƣờng Đại học Colombia. VisualSEEK là hệ thống cơ sở dữ liệu ảnh. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa trên màu sắc, không gian miền và đặc điểm kết cấu. Tập màu và chuyển đổi wavelet dựa trên kết cấu đƣợc sử dụng để thực hiện những đặc điểm này. Thêm vào đó VisualSEEK còn cho phép ngƣời sử dụng tạo truy vấn bằng việc chỉ định vùng màu và những không gian vị trí của chúng. WebSEEK là một catalog ảnh và là công cụ tìm kiếm cho web. Hệ thống này cung cấp mẫu cho danh sách ảnh và video trên trang web sử dụng kết hợp xử lý dựa trên text và phân tích dựa trên nội dung. ___ Sinh viên: Phùng Thị Lệ – CT1102
  12. 12 1.5.4 Hệ thống RetrievalWare. Hệ thống này đƣợc phát triển bởi tập đoàn công nghệ Excalibur cho phép ngƣời sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, kết cấu, độ sáng, kết cấu màu và hệ số co. Ngƣời sử dụng có thể điều chỉnh tỷ trọng của những đặc điểm này trong suốt quá trình tìm kiếm. 1.5.5 Hệ thống Imatch. Hệ thống này cho phép ngƣời sử dụng tra cứu ảnh bởi nội dung màu, hình dạng,và kết cấu. Nó cung cấp một số phƣơng pháp để tra cứu ảnh tƣơng tự: Màu tƣơng tự, màu và hình dạng (Quick), màu và hình dạng (Fuzzy) và sự phân bố màu. Màu tƣơng tự truy vấn những ảnh tƣơng tự với ảnh mẫu dựa trên sự phân bố màu toàn cục. Màu và hình dạng (Quick) tìm hình ảnh tƣơng tự bởi việc kết hợp cả hình dạng, kết cấu và màu. Màu và hình dạng (Fuzzy) thực hiện thêm những bƣớc xác định đối tƣợng trong ảnh mẫu. Phân bố màu cho phép ngƣời sử dụng vẽ ra sự phân bố màu hoặc xác định tỷ lệ phần trăm của một màu trong hình ảnh mong muốn. Imatch cũng cung cấp những đặc điểm khác nội dung để xác định ảnh: ảnh nhị phân, ảnh co kích thƣớc, lƣu trữ trong những định dạng khác và những ảnh có tên tƣơng tự. ___ Sinh viên: Phùng Thị Lệ – CT1102
  13. 13 CHƢƠNG 2: CÁC PHƢƠNG PHÁP BIỂU DIỄN HÌNH DẠNG. 2.1 Giới thiệu. Nghiên cứu về hình dạng đã hoạt động trong hơn 30 năm. Trƣớc đây, nghiên cứu hình dạng đƣợc thúc đẩy chủ yếu bởi sự nhận dạng đối tƣợng, các kỹ thuật mô tả và biểu diễn hình dạng này chủ yếu dựa vào các ứng dụng cụ thể. Trong đó, sự hiệu quả và chính xác là mối quan tâm chính của những kỹ thuật này. Khi các ứng dụng đa phƣơng tiện mới nổi lên, vấn đề quan trọng đặt ra là tra cứu trực tuyến. Trong sự phát triển của MPEG-7, sáu yêu cầu chính đƣợc thiết lập để đánh giá một mô tả hình dạng, đó là: trích chọn hiệu quả và chính xác, đặc trƣng cô đọng, ứng dụng rộng rãi, độ phức tạp thấp, hiệu suất cao và phân cấp mô tả tốt [5]. Việc phân loại các phƣơng pháp biểu diễn hình dạng phổ biến nhất là dựa trên việc sử dụng các điểm biên hình dạng và điểm vùng. Biểu diễn hình dạng cũng có thể đƣợc phân biệt giữa miền không gian và miền đặc trƣng. Phƣơng pháp trong miền không gian so sánh các hình dạng dựa trên điểm (hoặc điểm đặc trƣng) cơ sở, còn phƣơng pháp miền đặc trƣng so sánh các hình dạng dựa trên đặc trƣng (vector) cơ sở. Một cách phân loại các kỹ thuật biểu diễn hình dạng khác là dựa trên cơ sở bảo quản thông tin. Phƣơng pháp cho phép xây dựng lại chính xác một hình dạng từ mô tả của nó đƣợc gọi là lƣu trữ thông tin (Information preserving - IP), còn phƣơng pháp chỉ có khả năng xây dựng lại một phần hoặc mô tả không rõ ràng đƣợc gọi là sự không lƣu trữ thông tin (Non Information preserving - NIP). Các phƣơng pháp biểu diễn hình dạng đƣợc phân loại theo các cấp bậc, đầu tiên phƣơng pháp phân loại dựa trên đƣờng biên và phƣơng pháp phân loại dựa trên vùng căn cứ vào đặc trƣng hình dạng đƣợc trích chọn từ đƣờng biên hay toàn bộ các phân vùng hình dạng. Trong mỗi lớp, các phƣơng pháp khác nhau đƣợc tiếp tục phân biệt thành cấu trúc và toàn cục dựa vào việc hình dạng đƣợc biểu diễn theo toàn bộ hay theo các thành phần con [5]. Sau đó, tiếp tục phân ra các phƣơng pháp cụ thể nhƣ mô tả trong sơ đồ (2.1). ___ Sinh viên: Phùng Thị Lệ – CT1102
  14. 14 Hình dạng Dựa trên biên Dựa trên vùng Cấu trúc Toàn cục Toàn cục Cấu trúc Mã chuỗi. Mô tả đơn Bất biến Bề mặt lồi. Phân tích đa giản. momen hình Trục trung vị. giác. Dấu hiệu hình học Phƣơng pháp dạng. Bất biến tỉ lệ. Momen biên. momen đại số Phƣơng pháp lƣới Hình 2.1: Phân loại các kỹ thuật mô tả hình dạng. 2.2 Kỹ thuật biểu diễn hình dạng dựa trên biên. Kỹ thuật mô tả hình dạng dựa trên biên chỉ khai thác thông tin trên biên. Có hai loại phƣơng pháp tiếp cận rất khác nhau cho kỹ thuật dựa trên biên: phƣơng pháp tiếp cận liên tục (toàn cục) và phƣơng pháp tiếp cận rời rạc (cấu trúc). Phƣơng pháp tiếp cận liên tục không phân chia hình dạng thành các phần và một vector đặc trƣng có gốc từ đƣờng biên đƣợc sử dụng để mô tả hình dạng. Thƣớc đo sự giống nhau về hình dạng là dựa trên sự đối sánh các điểm đặc biệt hoặc dựa trên đặc trƣng. Phƣơng pháp tiếp cận rời rạc chia đƣờng biên thành các phân đoạn bằng cách sử dụng một tiêu chuẩn cụ thể. Biểu diễn cuối cùng thƣờng là một chuỗi hoặc một đồ thị (hoặc cây), các biện pháp tƣơng tự đƣợc thực hiện bằng cách kết hợp chuỗi hoặc đồ thị một cách phù hợp. 2.2.1 Phương pháp toàn cục. Kỹ thuật mô tả hình dạng dựa trên đƣờng biên toàn cục thƣờng tính toán vecto đặc trƣng từ thông tin đƣờng biên. Khi đối sánh giữa các hình dạng sử dụng ___ Sinh viên: Phùng Thị Lệ – CT1102
  15. 15 một khoảng cách theo quy tắc, chẳng hạn nhƣ khoảng cách Euclide hoặc khoảng cách City block. Phƣơng pháp mô tả biễu diễn hình dạng bằng đƣờng biên toàn cục là mô tả biểu diễn toàn bộ hình dạng có hệ thống cho một mô tả mẫu. Đối sánh giữa các hình dạng có thể thực hiện đƣợc trong miền không gian hoặc trong miền đặc trƣng. Đối với một mô tả hình dạng thì luôn cần sự cân bằng giữa độ chính xác và hiệu quả. Một mặt, hình dạng cần đƣợc mô tả chính xác, mặt khác, hình dạng mô tả nên càng nhỏ gọn càng tốt để đơn giản hóa quá trình đánh chỉ số và tra cứu. Bởi vậy chúng ta cần phải trích chọn đặc trƣng một cách hiệu quả. Mô tả hình dạng toàn cục đơn giản nhỏ gọn, tuy nhiên mô tả hình dạng không chính xác, nó chỉ có thể đƣợc kết hợp với mô tả hình dạng khác để tạo ra các mô tả hình dạng chính xác. 2.2.1.1 Mô tả hình dạng đơn giản. Mô tả toàn cục đơn giản có thể đƣợc biểu diễn thông qua: vùng, tuần hoàn (chu vi2/diện tích), độ lệch tâm (độ dài trục chính/độ dài trục nhỏ), hƣớng trục chính và khả năng uốn. Những mô tả đơn giản toàn cục thƣờng chỉ có thể phân biệt hình dạng với khác biệt lớn, do đó sẽ thƣờng sử dụng các bộ lọc để loại bỏ các truy cập sai hoặc kết hợp với mô tả hình dạng khác để phân biệt hình dạng. Phƣơng pháp không phù hợp với mô tả hình dạng độc lập. Ví dụ, lệch tâm của hình dạng trong hình 2.2(a) là gần tới 1 (a=b), nó không chính xác để mô tả hình dạng. Trong trƣờng hợp này, tuần hoàn là một mô tả tốt hơn. Hai hình dạng trong hình 2.2(b) và 2.2(c) có cùng tuần hoàn (a=2b), tuy nhiên, chúng là những hình dạng rất khác nhau.Trong trƣờng hợp này, độ lệch tâm là mô tả tốt hơn. (a) (b) (c) Hình 2.2: Minh họa độ lệch tâm và tuần hoàn của hình dạng. 2.2.1.2 Dấu hiệu hình dạng (Shape Signature). Dấu hiệu hình dạng (SS) mô tả hình dạng bởi hàm một chiều thu đƣợc từ điểm biên. SS bao gồm: tọa độ phức hợp, tọa độ cực, khoảng cách tâm, góc tiếp tuyến, góc quỹ tích, độ cong, diện tích và chiều dài dây cung. ___ Sinh viên: Phùng Thị Lệ – CT1102
  16. 16 SS không bị tác động bởi dịch chuyển và co dãn hình dạng. Bên cạnh đó, SS có thể đƣợc lƣợng tử hóa thành một biểu đồ dấu hiệu, biểu đồ này bất biến với phép quay và có thể sử dụng cho đối sánh. SS thƣờng nhạy cảm với nhiễu, những thay đổi nhỏ trên biên có thể gây ra những lỗi lớn trong đối sánh. Vì vậy, SS không thực tế và không hiệu quả trong tra cứu hình dạng. 2.2.1.3 Momen biên (Boundary Moment). Momen biên (BM) có thể đƣợc dùng để giảm kích thƣớc của các biểu diễn biên. Giả sử biên đã đƣợc biểu diễn nhƣ một SS Z(i), momen thứ r là mr và momen tâm là µr, có công thức ƣớc tính: Và Trong đó, N là số các điểm biên. Chuẩn hóa các momen: Và Để mô tả bất biến với các phép dịch chuyển, phép quay và co dãn. 2.2.2 Phương pháp cấu trúc. Một phƣơng pháp khác trong phân tích hình dạng là biểu diễn hình dạng cấu trúc. Với cách tiếp cận cấu trúc, hình dạng đƣợc chia thành các phân đoạn biên đƣợc gọi là đối tƣợng ban đầu. Phƣơng pháp cấu trúc khác nhau trong việc lựa chọn đối tƣợng ban đầu và tổ chức các đối tƣợng này cho việc biểu diễn hình dạng. Phân tích biên thƣờng dựa trên xấp xỉ đa giác, phân tích đƣờng cong và đối sánh các đƣờng cong. Điều đạt đƣợc của tiếp cận cấu trúc đó là có khả năng giải quyết sự bế tắc trong chuỗi hoạt động liên tục và cho phép đối sánh từng phần, tuy nhiên, nó vẫn còn một vài điều hạn chế. ___ Sinh viên: Phùng Thị Lệ – CT1102
  17. 17 2.2.2.1 Biểu diễn bằng mã xích (chain code). Mã xích mô tả đƣờng biên đối tƣợng bằng một chuỗi các đoạn thẳng đơn vị với các hƣớng đã đƣợc xác định. Nền tảng này đã đƣợc giới thiệu vào năm 1961 bởi Freeman, ông đã mô tả một phƣơng pháp cho phép mã hóa các cấu hình hình học theo ý muốn. Trong phƣơng pháp này, một đƣờng cong bất kỳ đƣợc biểu diễn bởi một chuỗi các vector đơn vị chiều dài và thiết lập một giới hạn các hƣớng cho phép, do đó gọi là phƣơng pháp vector đơn vị. Trong thực hiện, một hình ảnh đƣợc đặt chồng lên một lƣới, từ đó các điểm biên lấy xấp xỉ với điểm lƣới gần nhất, sau đó lấy mẫu của hình ảnh thu đƣợc. Từ một điểm khởi đầu đƣợc lựa chọn trên biên, một mã xích có thể đƣợc tạo ra bằng cách mã hóa các đoạn thẳng biểu diễn biên. Các đoạn thẳng đơn vị có thể định hƣớng theo 4 hƣớng, 8 hƣớng hoặc N hƣớng (với N> 8 và N = 2k), mã xích sử dụng đoạn thẳng đơn vị định hƣớng theo N hƣớng đƣợc gọi là mã xích tổng quát. Mã xích dùng để biểu diễn hình dạng phải không phụ thuộc vào sự lựa chọn điểm ảnh biên bắt đầu trong chuỗi. Một khả năng để chuẩn hóa chuỗi mã xích là tìm các điểm ảnh trong trình tự biên mà kết quả mô tả là các số nguyên tối thiểu, sau đó chúng đƣợc sử dụng nhƣ là các điểm ảnh bắt đầu. Ngoài ra, biên có thể đƣợc biểu diễn bởi sự khác biệt về các chỉ thị tiếp theo trong chuỗi mã thay vì biểu diễn cho biên theo chỉ số tƣơng đối. Sự chuẩn hóa sự khác biệt chuỗi mã đƣợc gọi là shape numbe, shape number sẽ đƣợc sử dụng để biểu diễn hình dạng đối tƣợng (phần này sẽ đƣợc trình bày cụ thể trong mục 3.2.2). Dùng mã xích biểu diễn hình dạng và đối sánh có nhiều hạn chế, mã xích bị ảnh hƣởng nhiễu đƣờng biên và biến dạng, thêm vào đó là kích thƣớc của chuỗi mã dài. Mã xích mà thƣờng đƣợc sử dụng là đầu vào của những phân tích ở mức độ cao, ví dụ nhƣ xấp xỉ đa giác và tìm điểm uốn. 2.2.2.2 Phân tích đa giác (Polygon Decompositon). Trong phƣơng pháp này, đƣờng biên đƣợc chia nhỏ thành các đoạn bởi xấp xỉ đa giác. Các đỉnh đa giác đƣợc sử dụng nhƣ một đối tƣợng ban đầu. Đặc trƣng của mỗi đối tƣợng ban đầu đƣợc mô tả nhƣ một chuỗi bao gồm 4 yếu tố: góc nội tiếp, khoảng cách đến đỉnh tiếp theo, các tọa độ x và y. Các đặc trƣng này đƣợc tổ chức thành một cây nhị phân hoặc m-arytree. Đối sánh hình dạng có hai bƣớc: Bƣớc đầu tiên đối sánh đặc trƣng với đặc trƣng, bƣớc thứ hai, đối sánh hình dạng với hình dạng. Trong bƣớc đầu tiên, chúng ta thu đƣợc dữ liệu đặc trƣng của các hình dạng truy vấn. Các đặc trƣng này đƣợc tìm kiếm thông qua chỉ số cây, nếu một mẫu đặc ___ Sinh viên: Phùng Thị Lệ – CT1102
  18. 18 trƣng cụ thể trong cơ sở dữ liệu đƣợc tìm thấy tƣơng tự nhƣ dữ liệu đặc trƣng thì danh sách các hình dạng liên quan đến mô hình đặc trƣng đƣợc lấy ra. Trong bƣớc thứ hai, đối sánh giữa hình dạng truy vấn và mẫu thu đƣợc, việc đối sánh đƣợc thực hiện dựa vàokhoảng cách biến đổi giữa hai chuỗi các đối tƣợng ban đầu. 2.2.2.3 Phương pháp không gian tỉ lệ (Scale Space method). Dudek và Tsotsos phân tích hình dạng trong không gian tỉ lệ và sử dụng sơ đồ đối sánh mô hình với mô hình. Trong phƣơng pháp này, trƣớc tiên hình dạng gốc (nguyên thủy) thu đƣợc từ kỹ thuật làm mịn đƣờng cong. Sau đó, thiết lập một mô tả đoạn bao gồm chiều dài phân đoạn, thứ tự vị trí và giá trị điều chỉnh độ cong đƣợc trích chọn từ mỗi hình dạng nguyên thủy. Cuối cùng, một chuỗi các mô tả đoạn đƣợc tạo ra để mô tả hình dạng. Ví dụ với hai hình dạng A và B đƣợc mô tả bởi hai chuỗi: A= ( và B= ), đối sánh mô hình với mô hình sử dụng lập trình động để thu đƣợc số điểm tƣơng đồng của hai hình dạng. Để làm tăng hiệu quả trong quá trình tính toán đối sánh, chúng ta đƣa các đặc trƣng hình dạng vào không gian có độ cong tỉ lệ để hình dạng có thể đƣợc đối sánh ở các tỉ lệ khác nhau. Tuy nhiên, do trong mô tả đoạn có bao gồm chiều dài phân đoạn nên mô tả này bất biến với co giãn. 2.3 Kỹ thuật biểu diễn hình dạng dựa trên vùng. Trong phƣơng pháp biểu diễn dựa trên vùng phải kể đến tất cả những pixel trong vùng hình dạng thu đƣợc trong biểu diễn hình dạng. Phƣơng pháp biểu diễn vùng thƣờng sử dụng các momen để mô tả hình dạng. Và một số phƣơng pháp khác thƣờng sử dụng gồm có: phƣơng pháp lƣới, bề mặt lồi và trục trung vị. Biểu diễn hình dạng dựa trên vùng xem xét đến toàn bộ vùng hình dạng và sử dụng hiệu quả thông tin của toàn bộ pixel chứa trong vùng. Những phƣơng pháp này đo sự phân phối pixel của vùng hình dạng, chúng ít có khả năng giả tạo bởi nhiễu và biến dạng. Phƣơng pháp vùng phổ biến là những phƣơng pháp moment. Ở mức thấp thứ tự moment hay bất biến momnet mang theo những ý nghĩa vật lý kết hợp với sự phân phối pixel. Tuy nhiên nó rất khó khăn để kết hợp thứ tự moment cao hơn với sự giải thích vật lý. Phƣơng pháp lƣới là dựa trên khả năng trực quan quan sát hình dạng, nó không phản ánh sự thống kê phân bổ của vùng hình dạng và bị ảnh hƣởng bởi nhiễu và không cô đọng nhƣ bất biến moment. ___ Sinh viên: Phùng Thị Lệ – CT1102
  19. 19 2.3.1 Phương pháp toàn cục. Phƣơng pháp toàn cục xem xét đến toàn bộ hình dạng, kết quả của mô tả là vector số đặc trƣng (numeric feature vector), nó đƣợc sử dụng để biểu diễn hình dạng. 2.3.1.1 Bất biến momen hình học (Geometric Moment Invariant). Hu đã công bố bài nghiên cứu đầu tiên về việc sử dụng các momen bất biến cho ứng dụng nhận dạng mẫu hai chiều. Phƣơng pháp tiếp cận của ông dựa trên các nghiên cứu của các nhà toán học thế kỷ 19 và lý thuyết đại số: mpq = p, q = 0, 1, 2 Sử dụng kết hợp phi tuyến các momen có thứ tự thấp, một tổ hợp các bất biến momen (thƣờng đƣợc gọi là momen hình học), trong đó các thuộc tính bất biến với co giãn và phép quay đƣợc rút ra. Việc sử dụng các momen có thứ tự cao cho phân tích mẫu không đƣợc áp dụng. Vấn đề chính với momen hình học là chỉ có một số bất biến đƣợc rút ra từ thứ tự thấp của momen, nhƣ vậy không đủ để mô tả chính xác hình dạng, nhƣng cũng rất khó để lấy đƣợc những bất biến thứ tự cao hơn. 2.3.1.2 Bất biến moment đại số (Algebraic Moment Invariant). Bất biến momen đại số (AMI) đƣợc Taubin và Cooper giới thiệu và sử dụng trong QBIC. Các AMI đƣợc tính toán cho từ m momen trung tâm đầu tiên và đƣợc đặt ra nhƣ là giá trị riêng của ma trận định trƣớc M[j,k], trong đó các phần tử tỉ lệ với các yếu tố của các momen trung tâm. Khác với phƣơng pháp bất biến momen hình học của Hu, các bất biến momen đại số có thể đƣợc xây dựng từ các thứ tự bất kỳ. AMI có xu hƣớng làm việc tốt trên các đối tƣợng có điểm ảnh đƣợc phân bổ và không phải là hình dạng phác thảo. 2.3.1.3 Phương pháp dựa trên lưới (Grid Based Method). Lƣới mô tả hình dạng đƣợc đề xuất bởi Lu và Sajjanhar, nó đã đƣợc sử dụng trong Mars và một số ứng dụng khác. Về cơ bản, hình dạng sẽ đƣợc chiếu lên một lƣới có kích thƣớc cố định, một chuỗi nhị phân mô tả hình dạng sẽ đƣợc tạo ra bằng cách quét lƣới này từ trái sang phải và từ trên xuống và cho kết quả là một bitmap. Các ô bao phủ hình dạng đƣợc chỉ định giá trị 1, và những ô không bao phủ hình dạng đƣợc chỉ định giá trị 0. Khoảng cách Hamming hoặc khoảng cách cityblock đƣợc sử dụng để đo lƣờng sự giống nhau giữa hai hình. ___ Sinh viên: Phùng Thị Lệ – CT1102
  20. 20 2.3.2 Phương pháp cấu trúc. Cũng giống nhƣ phƣơng pháp cấu trúc biên, cấu trúc vùng phân tích hình dạng vùng theo từng phần rồi sử dụng chúng cho mô tả và biểu diễn hình dạng. 2.3.2.1 Bề mặt lồi (Convex Hull). Một vùng R là lồi khi và chỉ khi với 2 điểm bất kỳ x1, x2 R thì toàn bộ đoạn x1x2 nằm bên trong vùng. Bề mặt lồi của một vùng là vùng lồi H nhỏ nhất đáp ứng điều kiện R H. Sự khác biệt của R-H đƣợc gọi là thiếu hụt lồi của vùng R (convex deficiency). Đầu tiên, bề mặt lồi của một đối tƣợng thu đƣợc với các thiếu hụt lồi của nó, sau đó lại tìm bề mặt lồi và thiếu hụt lồi của các thiếu hụt lồi đã tìm thấy ở bƣớc trƣớc, quá trình tiếp tục cho đến khi các thiếu hụt lồi đều là các vùng lồi. Hình 2.3(a) minh họa quá trình này, và hình dạng đƣợc mô tả nhƣ một cây lõm trong hình 2.3(b). Hình 2.3: Minh họa phƣơng pháp bề mặt lồi: (a) Bề mặt lồi và các thiếu hụt lồi của nó; (b) Cây lõm biểu diễn bề mặt lồi. 2.3.2.2 Trục trung vị (Media Axis) (hay còn gọi là xương). Cũng giống nhƣ bề mặt lồi, xƣơng cũng có thể đƣợc sử dụng để mô tả và biểu diễn hình dạng. Xƣơng (trục trung vị) là quỹ tích tâm của các đĩa cực đại của hình dạng nhƣ trong hình 2.4, đƣờng in đậm là xƣơng của hình chữ nhật. Hình 2.4: Trục trung vị (xƣơng) của hình chữ nhật. ___ Sinh viên: Phùng Thị Lệ – CT1102
  21. 21 Ý tƣởng cơ bản của việc sử dụng xƣơng là loại bỏ các thông tin dƣ thừa trong khi vẫn giữ đƣợc các thông tin topo có liên quan đến cấu trúc của đối tƣợng để có thể nhận dạng đối tƣợng. Xƣơng có thể đƣợc phân tách thành các đoạn và đƣợc biểu diễn dƣới dạng các đồ thị theo một tiêu chí nhất định. Nhƣ vậy, việc đối sánh giữa các hình dạng sẽ trở thành việc đối sánh giữa các đồ thị. Tuy nhiên việc tính toán đối với xƣơng khá phức tạp, hơn nữa xƣơng rất nhạy cảm với nhiễu và các biến dạng. ___ Sinh viên: Phùng Thị Lệ – CT1102
  22. 22 CHƢƠNG 3: MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN DẤU HIỆU CỦA ẢNH DỰA VÀO ĐẶC TRƢNG HÌNH DẠNG. 3.1 Giới thiệu. Về cơ bản, tra cứu hình ảnh dựa trên hình dạng là đo đạc sự tƣơng tự giữa các biểu diễn hình dạng. Vì vậy, hai bƣớc cần thiết trong tra cứu ảnh dựa trên hình dạng là trích chọn đặc trƣng và đo sự giống nhau giữa các đặc trƣng đó. Trong tìm kiếm ảnh theo nội dung, hình dạng là một cấp cao hơn so với màu sắc và kết cấu. Các hệ thống tìm kiếm ảnh theo nội dung thƣờng khai thác hai nhóm biểu diễn hình dạng sau: Biểu diễn hình dạng theo đƣờng biên: biểu diễn các đƣờng biên bao ngoài. Biểu diễn theo vùng: biểu diễn trên từng vùng. 3.2 Phƣơng pháp trích chọn đặc trƣng dựa trên đƣờng biên. Nhƣ đã giới thiệu trong mục 2.2.2.1, một phƣơng pháp điển hình trong biểu diễn hình dạng dựa trên đƣờng biên là sử dụng mã xích. Trong phần này, chúng ta sẽ xem xét cụ thể phƣơng pháp sử dụng mã xích cùng với shape number để biểu diễn và nhận dạng đối tƣợng. 3.2.1 Mã xích (chain code). Mã xích biểu diễn đƣờng biên đối tƣợng bằng một chuỗi kết nối của các phân đoạn đƣờng thẳng có độ dài quy định và định hƣớng [8]. Thông thƣờng, biểu diễn này dựa trên 4 hoặc 8 hƣớng kết nối của các phân đoạn đƣờng thẳng. Hƣớng của mỗi phân đoạn đƣợc mã hóa bằng cách sử dụng một lƣợc đồ số nhƣ đƣợc hiển thị trong hình 3.1. Những hình ảnh kỹ thuật số thƣờng đƣợc xử lý với định dạng lƣới với khoảng cách bình đẳng với các hƣớng x và y. Một chuỗi mã có thể tạo ra bằng cách định hƣớng các phân đoạn đƣờng thẳng dọc theo biên theo chiều kim đồng hồ nhƣ minh họa trong hình 3.2. Vấn đề đặt ra là một chuỗi mã phụ thuộc vào điểm bắt đầu và giải pháp đƣợc đƣa ra là coi chuỗi mã nhƣ một chuỗi kín và xác định điểm bắt đầu để chuỗi kết quả không phụ thuộc vào sự lựa chọn điểm bắt đầu đó. Chúng ta có thể chuẩn hóa mã xích với phép quay bằng cách sử dụng sự khác biệt đầu tiên (first difference) của mã xích thay vì bản thân mã. Sự khác biệt này thu đƣợc bằng cách đếm số lƣợng các hƣớng thay đổi (theo hƣớng ngƣợc chiều kim đồng hồ) giữa 2 yếu tố liền kề. ___ Sinh viên: Phùng Thị Lệ – CT1102
  23. 23 (a) (b) Hình3.1: Các hƣớng của đoạn thẳng đơn vị: (a): 4 hƣớng, (b): 8 hƣớng. Hình 3.2: Biểu diễn của một chuỗi mã ( theo 4 hƣớng và 8 hƣớng) ___ Sinh viên: Phùng Thị Lệ – CT1102
  24. 24 3.2.2 Shape number. Shap number của một biểu diễn đƣờng biên đƣợc định nghĩa là sự khác biệt đầu tiên của cƣờng độ nhỏ nhất [8]. Trình tự n của một shape number là số lƣợng các chữ số đƣợc biểu diễn. Hình 3.3 minh họa hình dạng của trình tự 4,6,8. Hình 3.3: Biểu diễn hình dạng sử dụng shape number. Chúng ta xét một ví dụ cụ thể, giả sử n=18 đƣợc quy định cụ thể cho biên nhƣ hình 3.4(a). Để có đƣợc một shape number của trật tự này đòi hỏi phải làm theo các bƣớc sau: Bƣớc đầu tiên là tìm các hình chữ nhật cơ bản nhƣ trong hình 3.4(b). Hình chữ nhật gần nhất của trật tự 18 là hình chữ nhật 3x6, yêu cầu phải chia nhỏ hình chữ nhật cơ bản nhƣ trong hình 3.4(c). Cuối cùng có đƣợc chuỗi mã và sử dụng điểm khác biệt đầu tiên (first difference) để tính toán shape number. ___ Sinh viên: Phùng Thị Lệ – CT1102
  25. 25 Hình 3.4: Các bƣớc tính toán shape number. 3.2.3 Đối sánh các shape number. Mức độ tƣơng tự k giữa 2 hình dạng đƣợc định nghĩa là thứ tự lớn nhất mà shape number vẫn còn trùng khớp. Ví dụ, cho hai hình dạng a và b đƣợc biểu diễn bởi một chuỗi mã 4 hƣớng, hai hình dạng có độ tƣơng tự k nếu: với j=4, 6, 8, k với j=k+2, k+4, Trong đó S cho biết shape number và chỉ số dƣới là trình tự. Khoảng cách giữa hai hình a và b đƣợc định nghĩa là nghịch đảo của mức độ tƣơng tự: Khoảng cách này có các thuộc tính sau: ___ Sinh viên: Phùng Thị Lệ – CT1102
  26. 26 1. D(a,b)>=0 2. D(a,b)=0 nếu a=b 3. D(a,b)<= max[D(a,b),D(b,c)] Giả sử, chúng ta có một hình dạng f và muốn tìm tập thích hợp của nó trong tập các hình dạng khác (a, b, c, d, e) nhƣ hiển thị trong hình 3.5(a). Việc tìm kiếm có thể đƣợc hình dung nhƣ cây tƣơng tự trong hình 3.5(b.) Gốc của cây tƣơng ứng với mức độ tƣơng tự thấp nhất có thể thực hiện đƣợc, ở trong ví dụ này là bằng 4. Giả sử các hình dạng giống nhau lên tới cấp 8, ngoại trừ hình dạng a, có mức độ tƣơng tự đối với tất cả các hình dạng khác là 6. Thực hiện từ trên xuống, tìm thấy hình dạng d có mức độ tƣơng tự 8 đối với các hình dạng khác. Hai hình dạng f và c có mức độ tƣơng tự cao hơn so với các hình khác. Ngƣợc lại, nếu có một hình dạng chƣa biết, sử dụng phƣơng pháp này là tƣơng tự nhƣ 5 hình dạng với mức độ tƣơng tự là 6. Thông tin tƣơng tự có thể đƣợc tóm lƣợc trong ma trận tƣơng tự nhƣ trong hình 3.5(c). Hình 3.5: Minh họa tìm kiếm hình dạng tƣơng tự sử dụng shape number: (a) hình dạng; (b) cây tƣơng tự; (c) ma trận tƣơng tự. ___ Sinh viên: Phùng Thị Lệ – CT1102
  27. 27 3.3 Phƣơng pháp trích chọn đặc trƣng dựa trên vùng. Xƣơng (hay còn gọi là trục trung vị) tích hợp các tính năng hình học và topo của đối tƣợng, là một mô tả hình dạng quan trọng đối với nhận dạng đối tƣợng [3]. Sự tƣơng đồng về hình dạng dựa trên đồ thị xƣơng thƣờng thực hiện tốt hơn so với dựa trên đƣờng biên hoặc các mô tả hình dạng khác với sự có mặt của chồng lấp từng phần và khớp nối nhiều phần. Tuy nhiên đó là nhiệm vụ đầy thách thức để sử dụng xƣơng cho việc nhận dạng tự động do độ nhạy cảm của xƣơng đối với biến dạng biên.Hơn nữa, một hạn chế chính của phƣơng pháp nhận dạng dựa trên xƣơng là cấu trúc phức tạp của cây hoặc đồ thị biểu diễn của xƣơng. Phƣơng pháp đối sánh sự tƣơng đồng của đồ thị xƣơng đƣợc đề xuất bởi X.Bai và L.Jan Latecki là một phƣơng pháp thực hiện khá hiệu quả trong việc nhận dạng đối tƣợng dựa trên xƣơng [4]. Ý tƣởng chính của phƣơng pháp là đối sánh đồ thị xƣơng bằng cách so sánh các đƣờng dẫn tới điểm cuối xƣơng. Phƣơng pháp đối sánh này không dựa trên cấu cấu trúc topo hình học, bởi một thực tế trực quan là những bộ xƣơng tƣơng tự có thể có cấu trúc topo hình học khác nhau. Việc so sánh các đƣờng dẫn giữa các điểm cuối của đồ thị xƣơng mang lại kết quả chính xác phù hợp với mọi trƣờng hợp.Thông thƣờng dùng cho nhận dạng là các nhánh xƣơng đã đƣợc cắt tỉa. Các xƣơng đƣợc cắt tỉa bởi phân chia đƣờng biên với DCE (Discrete Curve Evolution) có điểm cuối của nhánh xƣơng tƣơng ứng với phần trực quan của đối tƣợng. Kết quả thực nghiệm cho thấy rằng phƣơng pháp này có thể tạo ra kết quả chính xác với sự có mặt của sự khớp xƣơng, sự kéo dài xƣơng và biến dạng đƣờng biên. Chúng ta sử dụng sự tƣơng tự của các đƣơng đi ngắn nhất giữa mỗi cặp điểm cuối xƣơng để thiết lập mối quan hệ tƣơng ứng với điểm cuối trong đồ thị khác. Ví dụ, đỉnh 1 trong hình 3.6(a) tƣơng ứng với đỉnh 1 trong hình 3.6(b) kể từ đƣờng đi ngắn nhất tới các đỉnh 2,3,4,5,6 là tƣơng tự. Cuối cùng giá trị không giống nhau giữa các đồ thị là tính ƣớc lƣợng khoảng cách giữa các điểm cuối tƣơng ứng. Vì vậy ý tƣởng cơ bản của phƣơng pháp này là xác định sự giống nhau của các cấu trúc phức tạp (complex structures) của đồ thị hoặc cây bằng cách kiểm tra đƣờng đi ngắn nhất giữa các điểm cuối của chúng. Phƣơng pháp đề xuất đạt đƣợc kết quả chính xác và nhanh hơn so với các phƣơng pháp đối sánh đồ thị và cây hiện có. Có lẽ thách thức quan trọng nhất cho đo độ tƣơng tự xƣơng là cấu trúc topo của cây xƣơng hoặc đồ thị của các đối tƣợng tƣơng tự nhau lại có thể hoàn toàn khác nhau. Thực tế này đƣợc minh họa trong hình 3.6, mặc dù bộ xƣơng của 2 con ___ Sinh viên: Phùng Thị Lệ – CT1102
  28. 28 ngựa (hình 3.6a và hình 3.6b) là tƣơng tự, nhƣng đồ thị xƣơng (hình 3.6c và hình 3.6d ) lại rất khác nhau. Ví dụ này minh họa những khó khăn phải đối mặt bởi cách tiếp cận dựa trên hoạt động chỉnh sửa đồ thị trong đối sánh xƣơng. Để có một đồ thị xƣơng hay cây xƣơng đƣợc hiển thị nhƣ trong hình 3.6 phải sử dụng một số hoạt động chỉnh sửa (cắt, trộn ). Hình 3.6: Hình dạng (a) và (b) tƣơng tự nhau nhƣng đồ thị khác nhau. Mặt khác, đồ thị xƣơng của các đối tƣợng khác nhau có thể có cấu trúc topo giống nhau, nhƣ trong hình 3.7. Các xƣơng của bàn chải trong hình 3.7(a) và kìm trong hình 3.7(b) có cùng topo nhƣ thể hiện trong hình 3.7(c). Hình 3.7: Hình dạng (a) và ( b) khác nhau nhƣng có đồ thị xƣơng (c) giống nhau. ___ Sinh viên: Phùng Thị Lệ – CT1102
  29. 29 Đề xuất đối sánh đồ thị xƣơng dựa trên giả định rằng sự tƣơng tự xƣơng có sự tƣơng tự cấu trúc của node cuối (sự giống nhau của đƣờng đi ngắn nhất đến các node cuối khác). Và việc đo đƣờng dẫn xƣơng đƣợc mô tả nhƣ một chuỗi bán kính của đĩa cực đại. Mặc dù không xem xét tƣờng minh cấu trúc topo của đồ thị xƣơng nhƣng cũng không hoàn toàn bỏ qua cấu trúc này, nó đƣợc ngầm hiểu biểu diễn một thực tế là chồng chéo các phần của đƣờng xƣơng tƣơng tự, khi chồng các phần có các chuỗi con có cùng bán kính. Ví dụ trong hình 3.6(a), 3.6(b) đƣờng đi từ 6 1 và từ 5 2 là chồng chéo lên nhau. Thực tế là những phân đoạn chồng chéo nhau này hơi khác nhau trong hình 3.6(a), 3.6(b) không ảnh hƣởng đến sự giống nhau của chuỗi bán kính. Vì vậy cách tiếp cận của trên đủ linh hoạt để thực hiện tốt trên những hình dạng khớp nhau nhƣng cũng không gây nhầm lẫn với hình dạng khác nhau. 3.3.1 Đồ thị xương. Các định nghĩa sau áp dụng cho xƣơng liên tục (continuous skeletons) và xƣơng trong ảnh số (digital images). Định nghĩa 1: Điểm xƣơng chỉ có một điểm lân cận (adjacent point) đƣợc gọi là điểm cuối xƣơng (endpoint). Điểm xƣơng có từ 3 lân cận trở lên đƣợc gọi là điểm giao nhau (junction point). Điểm xƣơng không phải điểm cuối và không phải điểm giao nhau đƣợc gọi là điểm kết nối (connection point). Định nghĩa 2: Chuỗi các điểm kết nối giữa 2 điểm xƣơng kết nối trực tiếp gọi là một nhánh xƣơng (skeleton branch). Một tiêu chuẩn để xây dựng đồ thị xƣơng đó là: điểm cuối và điểm giao nhau đều đƣợc chọn là các node cho đồ thị, và các nhánh xƣơng giữa các node là các cạnh giữa các node. Ví dụ, hình 3.6(c) và 3.6(d) là đồ thị xƣơng trong hình 3.6(a) và 3.6(b) tƣơng ứng. Định nghĩa 3: Điểm cuối trong đồ thị xƣơng gọi là node cuối và điểm giao nhau trong đồ thị xƣơng gọi là node giao nhau. 3.3.2 Đối sánh đồ thị xương. Đối sánh đồ thị xƣơng bằng cách thiết lập sự tƣơng ứng của các node cuối, các node này là các điểm nổi bật trên đƣờng biên, và tất cả các nhánh xƣơng cuối trên đƣờng biên có thể đƣợc xem nhƣ một phần trực quan của hình dạng ban đầu. Vì vậy sự đối sánh không liên quan đến node giao nhau. ___ Sinh viên: Phùng Thị Lệ – CT1102
  30. 30 3.3.2.1 Mô tả đường dẫn Định nghĩa 4: Đƣờng đi ngắn nhất giữa 1 cặp node cuối trên đồ thị xƣơng đƣợc gọi là đƣờng dẫn xƣơng (skeleton path), ví dụ xem hình 3.8b. Hình 3.8: Minh họa đƣờng dẫn xƣơng: (a) xƣơng của hình con ngựa, (b) đƣờng dẫn ngắn nhất giữa các cặp node cuối. Giả sử có N node cuối trên đồ thị xƣơng G và cho vi (i=1,2, N) với i là node cuối dọc theo biên theo chiều kim đồng hồ. Cho p(vm,vn) là đƣờng dẫn xƣơng từ vm đến vn. Lấy mẫu p(vm,vn) với những điểm M cách đều đó là tất cả những điểm xƣơng. Cho Rm,n(t) là bán kính đĩa cực đại của điểm xƣơng với chỉ số t trong p(vm,vn). Vecto của bán kính đĩa cực đại có tâm tại điểm M trên p(vm,vn) đƣợc ký hiệu là: Rm,n = (Rm,n(t))t=1,2, M = (r1, r2, rM) (3.1) Trong bài viết này, bán kính Rm,n(t) là xấp xỉ với khoảng cách biến đổi DT(t) (Distance Transfrom) tại mỗi điểm xƣơng có chỉ số t. Giả sử có N0 pixel trong hình dạng S ban đầu, để phƣơng pháp thực hiện bất biến với co dãn, chúng ta chuẩn hóa Rm,n(t) nhƣ sau: Rm,n = (3.2) Trong đó Si (i=1,2, N) biến đổi trên tất cả N0 pixel trong hình dạng. Định nghĩa 5: Sự khác nhau về hình dạng giữa hai đƣờng xƣơng đƣợc gọi là khoảng đƣờng dẫn (path distance). Nếu R và R’ là các vecto của bán kính của 2 đƣờng dẫn p(u,v) và p(u’,v’) tƣơng ứng, khoảng đƣờng dẫn đƣợc định nghĩa là: pd(p(u,v),p(u’,v’) = (3.3) ___ Sinh viên: Phùng Thị Lệ – CT1102
  31. 31 Trong đó l và l’ là độ dài của p(u,v) và p(u’,v’) và α là trọng số (weight facter). Để biểu diễn bất biến với co giãn, chiều dài của đƣờng dẫn là đƣợc chuẩn hóa. Bằng cách này, đƣờng dẫn và khoảng cách đƣờng dẫn là bất biến với co giãn. Để giải quyết sự giống nhau của hình dạng khớp nhau, khoảng đƣờng trong (3.3) không xét đến biến dạng đƣờng đi, không thay đổi các vecto bán kính và độ dài đƣờng đi. 3.3.2.2 Đối sánh node cuối sử dụng đường xương. Trong đồ thị xƣơng, mỗi node cuối có đƣờng xƣơng cho tất cả các node khác trong đồ thị. Cho G và G’ là hai đồ thị đƣợc đối sánh, và vi vjlà các node cuối của G và G’. Cho số lƣợng các node trong G và G là K+1 và N+1 (K<=N). Chi phí đối sánh c(vi, vj) giữa vi và vj là ƣớc tính dựa trên đƣờng dẫn từ các đỉnh khác trong G và G’, chúng bắt nguồn từ vi và vj. Đầu tiên, chúng ta để tất cả các node cuốitrong G theo chiều kim đồng hồ với node khởi đầu là vi gọi là vi0 (tất cả các điểm cuối xƣơng đều nằm trên biên). Chúng ta có 1 chuỗi các node cuối vi0, vi1 viK trong G và tƣơng tự trong G’ là vi0’, vi1’, viN’. Sau đó, chúng ta tính toán khoảng đƣờng đi giữa 2 chuỗi. Chúng ta thu đƣợc ma trận của khoảng đƣờng đi với (3.3) : (3.4) Để tính toán giá trị không giống nhau giữa 2 node cuối vi và vj’ sử dụng phƣơng pháp mở rộng của tƣơng tự từng phần của chuỗi, phƣơng pháp mở rộng đƣợc giới thiệu là OSB (Optimal Subsequence Bijection). Các thuộc tính chính của OSB là nó có thể bỏ qua yếu tố outlier (yếu tố nằm ngoài) trong trƣờng hợp có thể bỏ qua 1 số điểm cuối xƣơng. Bằng cách áp dụng OSB cho ma trận (3.4) chúng ta có đƣợc sự khác nhau của 2 node cuối vi và vj’: c(vi ,vj’) = OSB(pd(vi , vj’)) (3.5) ___ Sinh viên: Phùng Thị Lệ – CT1102
  32. 32 Hình 3.9: Sự tƣơng ứng giữa các node cuối của hai đồ thị xƣơng. Đối với 2 đồ thị G và G’ với các node cuối vi và vj’, chúng ta tính toán tất cả các giá trị không giống nhau giữa các node cuối của chúng và thu đƣợc 1 ma trận mới : C(G,G’) = (3.6) Cuối cùng chúng ta tính tổng các giá trị không giống nhau c(G,G’) giữa G và G’ với thuật toán Hungary trên C(G,G’). Đối với mỗi node cuối vi trong G, thuật toán Hungary có thể tìm thấy vj ’tƣơng ứng trong G’. Từ G và G’ có thể có các số khác nhau của node cuối, tổng giá trị khác nhau nên bao gồm penalty cho các node cuối mà không tìm thấy bất kỳ đối tác nào. Để đạt đƣợc điều này, chỉ cần bổ sung thêm các hàng với giá trị không đổi cho (3.6) để C(G,G’) trở thành ma trận vuông, hằng giá trị không đổi là trung bình của các giá trị trong C(G,G’). Sử dụng thuật toán Hungary để có sự phù hợp một - một (one to one) trong chuyển đổi của các node cuối, với một số node cuối có thể gán giá trị const biểu diễn một node giả. Trong cách tiếp cận này không yêu cầu bất kỳ sự tƣơng ứng nào của các node giao nhau. Điều này rất quan trọng bởi trong nhiều trƣờng hợp sự tƣơng ứng của các node giao nhau là không thể thiết lập trực tiếp, và do đó cách tiếp cận chỉnh sửa đồ thị hoặc cây là cần thiết nếu có yêu cầu sự tƣơng ứng của các node giao nhau. Một điều quan trọng cần phải tuân thủ là không thể thay đổi cấu trúc của các node giao nhau với việc cắt tỉa xƣơng mà không cần loại bỏmột số node quan trọng. ___ Sinh viên: Phùng Thị Lệ – CT1102
  33. 33 Mặt khác cắt tỉa xƣơng có thể làm giảm tập hợp các node cuối liên quan đến cấu trúc bằng cách loại bỏ các node cuối giả. Phƣơng pháp giới thiệu ở trên đo độ tƣơng tự dựa trên hình dạng xƣơng. Đó là đối sánh đồ thị xƣơng dựa trên tƣơng tự của đƣờng đi ngắn nhất, đƣờng đi ngắn nhất giữa mỗi cặp điểm cuối xƣơng đƣợc biểu diễn bằng chuỗi bán kính của đĩa cực đại (radiiof the maximal disks) của điểm xƣơng tƣơng ứng. Chúng ta có lợi từ thực tế các điểm cuối của xƣơng kế thừa một trật tự tuần tự từ đƣờng biên, điều này là có thể khi xƣơng đƣợc cắt tỉa dựa trên phân vùng biên với DCE đảm bảo tất cả các điểm cuối của xƣơng đều nằm trên biên. Ví dụ trong hình 3.10, tất cả các điểm cuối (1,2, 6) của bộ xƣơng ngựa đều là đỉnh của đa giác đƣợc đơn giản hóa bởi DCE[6] là sự ổn định của nó ở chỗ có thể loại bỏ các nhánh giả trong khi vẫn giữ đƣợc cấu trúc của nhánh có liên quan. Hình 3.10: Minh họa xƣơng đƣợc cắt tỉa bởi DCE. Nhƣ vậy, đồ thị xƣơng đề xuất đối sánh dựa trên giả định rằng những đƣờng xƣơng tƣơng đồng có cấu trúc các node cuối tƣơng đồng và đƣợc đo bằng sự giống nhau của những đƣờng đi ngắn nhất đến các node cuối khác. 3.3.2.3 Phương pháp OSB (Optimal Subsequence Bijection). Thuật toán đối sánh 2 chuỗi có độ dài khác nhau m và n đã đƣợc đề xuất trong [7], cụ thể hơn chúng ta xét hai chuỗi hữu hạn của các node cuối xƣơng ___ Sinh viên: Phùng Thị Lệ – CT1102
  34. 34 a=(a1, an) và b=(b1, bn). Mục đích để tìm dãy con a’ của a và b’ của b sao cho a’ đối sánh tốt nhất với b’. Bỏ qua không đối sánh 1 số yếu tố của a và b là cần thiết, bởi vì cả hai chuỗi có thể chứa 1 số yếu tố outlier.Tuy nhiên nếu bỏ qua quá nhiều yếu tố của chuỗi làm nguy cơ cho những kết quả không phù hợp. Để ngăn chặn điều này xảy ra, sử dụng 1 penalty bỏ qua yếu tố. Cách thức biễu diễn dƣới dạng đối sánh thêm 1 yếu tố b∞. Do đó chúng ta mở rộng chuỗi b thêm 1 yếu tố b∞. Mục tiêu là tìm thấy sự tƣơng ứng tôt nhất có thể có của chuỗi a với chuỗi con b’ của b. Định nghĩa sự tƣơng ứng f: {1, m} {1, n,∞} nhƣ một ánh xạ đơn điệu đối với phạm vi giới hạn của hàm f: (1, m) (1, n), có nghĩa là 1 hàm f có f(i)<f(i+1)<∞ trong đó ai là ánh xạ bởi bf(i) cho tất cả i {1, m}, và cho phép ánh xạ nhiều - một đến ∞. Việc gán f(i)=∞ có nghĩa là bỏ qua yếu tố i trong chuỗi a. Tập hợp các chỉ số ik và f(ik) với f(ik)<∞ cho ik {1, m} xác định dãy con a’ của a và b’ của b chẳng hạn f bị giới hạn bởi (ik) là một bjection. Chúng ta giả định rằng các hàm khoảng cách d (distance function d) có thể tính toán giá trị không giống nhaugiữa các yếu tố của a và b, đó là, d(ai, bj) đƣợc đƣa ra cho (i,j) {1, m} {1, n,∞}. Do không hạn chế hàm tính khoảng cách d nên bất kỳ hàm khoảng cách nào cũng có thể thực hiện đƣợc. Trong bài viết này, sử dụng khoảng đƣờng đi pd trong định nghĩa (3.3) là khoảng cách d. Trong hầu hết các ứng dụng, d(ai, bj) đƣợc đƣa ra cho (i,j) {1, m} {1, n}, việc bổ sung yếu tố khoảng cách d(ai, b∞) đƣợc lựa chọn cẩn thận. Thông thƣờng d(ai, b∞) là hằng số cho tất cả các i {1, m}. Xác định chi phí bỏ qua (cost of skipping) cho yếu tố bất kỳ trong a, gọi hằng số này là jumpcost. Trong bài viết này d(ai, b∞) = jumpcost đƣợc tính toán nhƣ sau: (3.7) Nhƣ vậy mỗi yếu tố ai tìm đƣơc một yếu tố gần nhất bj ( closest element bj) và sau đó chúng ta đem mean cộng với độ lệch chuẩn (standard deviation) của khoảng cách đối với yếu tố gần nhất. Ví dụ, nếu chuỗi a và b là tƣơng tự với trƣờng hợp ngoại lệ của yếu tố outlier, gọi nó là ak, sau đó với mọi ai với i ≠ k tìm 1 yếu tố bj với khoảng cách d(ai, bj) nhỏ. Do đó jumpcost sẽ nhỏ, vì vậy mà khoảng cách đến các yếu tố gần nhất trong b từ ak lớn hơn jumpcost và yếu tố ak đƣợc loại trừ với một ___ Sinh viên: Phùng Thị Lệ – CT1102
  35. 35 penalty tƣơng đối nhỏ, đó là chúng ta nhảy qua nó. Với bất kỳ tƣơng ứng nào, chúng ta cần xác định khoảng cách giữa hai trình tự nhƣ sau: (3.8) Mục tiêu là tìm thấy sự tƣơng ứng f để d(a’,b’,f) là tối thiểu. Chính xác hơn, 1 tƣơng ứng f tối ƣu của yếu tố trong chuỗi a đến các yếu tố tronng chuỗi b đƣợc định nghĩa là giá trị nhỏ nhất của d(a,b,f) trên tất cả các tƣơng ứng có thể: (3.9) Cuối cùng, khoảng cách tối ƣu cho bởi công thức (3.8) cho f = . Sự tƣơng ứng tối ƣu có thể tìm thấy với thuật toán tìm đƣờng di ngắn nhất trên DAG (Directed Acyclic Graph). Chúng ta biểu thị khoảng cách tối ƣu d(a,b) trong (3.10) với OSB(a,b) cho khoảng cách OSB. Node của DAG là tất cả các cặp chỉ số (i,j) {1, m} {1, n} và trọng số cạnh w đƣợc định nghĩa: w((i,j))= (3.10) Không có penalty rõ ràng để bỏ qua một yếu tố của chuỗi b. Dựa vào khả năng trực giác là chúng ta kỳ vọng tất cả các yếu tố của chuỗi a để tìm ra một tƣơng ứng trong chuỗi b có khả năng bỏ qua một số yếu tố của b. Minh họa một ví dụ đơn giản nhƣ trong hình 3.11 cho thấy sự tƣơng ứng đƣợc tìm thấy bởi OSB nhƣ một đƣờng dẫn ngắn nhất cho 2 chuỗi a={1, 2, 8, 6, 8} và b={1, 2, 9, 15, 3, 5, 9} với khoảng cách giữa hai yếu tố là bình phƣơng khác biệt. Trình tự các chỉ số đƣợc tính toán bởi OSB (không phải các giá trị): (1,1) (2,2) (3,3) (4,6) (5,7). Quan sát thấy rằng yếu tố b4=15 và b5=3 đƣợc bỏ qua, jumcost đƣợc tính là c=1.15. Hình 3.11: Sự tƣơng ứng giữa các yếu tố. ___ Sinh viên: Phùng Thị Lệ – CT1102
  36. 36 3.3.3 Nhận xét Phƣơng pháp đối sánh đồ thị xƣơng đƣợc mô tả trong phần 3.3.2 khác với phƣơng pháp tiếp cận hiện có, phƣơng pháp này không xem xét tƣờng minh cấu trúc topo của cây hoặc đồ thị xƣơng. Thay vào đó, tập trung vào sự giống nhau của các đƣờng dẫn kết nối tới điểm cuối xƣơng. Việc sử dụng đo đạc đƣờng đi ngắn nhất không phải là mới, tuy nhiên có sự khác biệt đáng kể trong cách cách tiếp cận trên. Chúng ta không xem xét đƣờng đi ngắn nhất giữa tất cả các node xƣơng và đƣờng đi ngắn nhất giữa các điểm biên, mà chỉ xem xét tới đƣờng đi ngắn nhất giữa các điểm cuối xƣơng, điều này cho phép chúng ta tránh đƣợc những bất ổn của điểm xƣơng giao nhau. Phƣơng pháp này sử dụng cấu trúc hai lớp. Trong lớp đầu, đƣờng xƣơng ngắn nhất xuất phát từ điểm cuối xƣơng đã định sẵn. Trong lớp thứ hai, chúng ta tính toán sự giống nhau của hai hình dạng bằng cách đối sánh các mô tả hình dạng của điểm cuối xƣơng. Khi xƣơng tƣơng tự có số lƣợng điểm cuối khác nhau, chúng ta phải sử dụng sự tƣơng ứng từng phần của các điểm cuối (mục 3.3.2.3). Bằng cách sử dụng phƣơng pháp này chúng ta có thể đối sánh từng phần xƣơng của đối tƣợng hoàn chỉnh. Và đối sánh từng phần với từng phần là một yêu cầu cần thiết để nhận dạng đối tƣợng. ___ Sinh viên: Phùng Thị Lệ – CT1102
  37. 37 CHƢƠNG 4: THỰC NGHIỆM. 4.1 Môi trƣờng thử nghiệm. Chƣơng trình đƣợc cài đặt trên Môi trƣờng Windows 7, sử dụng ngôn ngữ Matlap với máy tính có cấu hình nhƣ sau: CPU : Dual core 2.16GHz. Ram: 2G. HDD: 140G. Tập dữ liệu đƣợc sử dụng trong thử nghiệm là tập dữ liệu thuộc: MPEG-7 4.2 Một số kết quả thu đƣợc. 4.2.1 Giao diện chương trình: Hình 4.1: Giao diện của chƣơng trình. ___ Sinh viên: Phùng Thị Lệ – CT1102
  38. 38 4.2.2 Kết quả trên một số đối tượng khác nhau. Hình 4.2: Kết quả thu đƣợc với hình con ngựa (a): Hình con ngựa, (b): xƣơng, (c): đồ thị. Hình 4.3: Kết quả thu đƣợc với hình con ngựa kéo xe. (a): hình con ngựa kéo xe, (b): xƣơng, (c): đồ thị. ___ Sinh viên: Phùng Thị Lệ – CT1102
  39. 39 Hình 4.4: Kết quả thu đƣợc với hình cá heo. (a): hình cá heo, (b): xƣơng, (c): đồ thị. Hình 4.5: Kết quả thu đƣợc với hình chữ nhật. (a): hình chữ nhật, (b): xƣơng, (c): đồ thị. ___ Sinh viên: Phùng Thị Lệ – CT1102
  40. 40 4.2.3 Một số nhận xét về chương trình. Chƣơng trình mô tả cho quá trình chuyển đổi từ xƣơng sang đồ thị dựa trên ma trận kề. Sau đây là danh sách một số tập tin và chức năng của nó trong chƣơng trình: cListaNodos: mảng của lớp node. LimpiarNodosFd.m: hàm tinh chỉnh danh sách node ban đầu. Nodo.m: lớp node đồ thị. Skel2Graph.m: hàm xây dựng đồ thị. vCracV1: hàm xây dựng ma trận kề. Skeleton2Graph: hàm chính để chạy chƣơng trình. Chƣơng trình vẫn còn một số hạn chế, trên lý thuyết, biểu diễn đồ thị từ xƣơng chỉ sử dụng các điểm đặc trƣng (điểm cuối và điểm giao nhau) và các liên kết giữa chúng, nhƣng việc thực hiện chƣơng trình trên thực tế có một số điểm thuộc nhánh xƣơng bị thêm vào. Bên cạnh đó, chƣơng trình chƣa tính toán đƣợc trọng số của đồ thị để phục vụ cho việc so sánh và tìm kiếm ảnh. ___ Sinh viên: Phùng Thị Lệ – CT1102
  41. 41 KẾT LUẬN Sau một thời gian tìm hiểu và nghiên cứu đồ án đã trình bày đƣợc một số vấn đề sau: Về lý thuyết: Trình bày tổng quan tra cứu ảnh dựa trên nội dung; một số phƣơng pháp trích chọn đặc trƣng ảnh dựa trên hình dạng và đặc biệt trình bày cụ thể phƣơng pháp trích chọn đặc trƣng ảnh dựa trên xƣơng. Về thực nghiệm, em đã cài đặt thử nghiệm chƣơng trình chuyển đổi từ xƣơng của ảnh sang biểu diễn bằng đồ thị nhằm mục đích phục vụ cho việc đối sánh và tra cứu ảnh. Tuy nhiên trong quá trình thực hiện, thời gian không có nhiều, năng lực chuyên môn còn nhiều hạn chế, nên đề tài mới chỉ dừng lại ở mức đọc, dịch hiểu và tìm hiểu tóm lƣợc về phƣơng pháp mà chƣa thể cài đặt hoàn thiện chƣơng trình. Nếu có điều kiện, em sẽ tìm đọc tài liệu để nghiên cứu nhằm tổng hợp nhiều phƣơng pháp và đƣa ra đƣợc những đánh giá kết luận dựa trên những gì đã tìm hiểu đƣợc và hoàn thiện chƣơng trình hơn nữa. Em rất mong nhận đƣợc sự đóng góp ý kiến của các Thầy Cô và các bạn để em có thêm kiến thức và kinh nghiệm tiếp tục hoàn thiện nội dung nghiên cứu trong đề tài. Em xin chân thành Cám ơn! ___ Sinh viên: Phùng Thị Lệ – CT1102
  42. 42 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt: [1] Nguyễn Thị Hoàn, “Phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản phẩm.” Khóa luận tốt nghiệp, Đại học Công nghệ, 2010. [2] Bùi Thị Thúy Nga, “Tìm hiểu một số phương pháp trích chọn đặc trưng và ứng dụng cho tra cứu ảnh theo nội dung.” Đồ án tốt nghiệp, Đại học Dân lập Hải Phòng, 2011. Tài liệu tiếng anh: [3] H.Blum, “Biological Shape and Visual Science,” J. Theoretical Bilogy, vol. 38, pp. 205-287, 1973. [4] X.Bai and Longin Jan Latecki, “Path Simalarity Skeleton Graph Matching,” IEEE Transaction on Pattern Analysis and Machine Intelligence, 2008. [5] Dengsheng Zhang, “Image Retrieval Based on Shape,” Monash University, 2002. [6] L.J Latecki and R.Lakamper, “Convexity Rule for Shape Decomposition Based on Discrete Contour Evolution,”Computer Vision and Image Understanding, vol.73, no.3, pp. 441-454, 1999. [7] L.J Latecki, Qiang Wang, Suzan Koknar-Tezel, and Vasileios Megalooikonomou “Optimal Subsequence Bijection,”Temple University. [8] Rafael C.GonzalezandRichardE.Woods “Digital Image Processing,” Prentice Hall, 2002. ___ Sinh viên: Phùng Thị Lệ – CT1102