Đồ án Tìm hiểu kỹ thuật phân đoạn ảnh bán giám sát - Hoàng Thanh Tùng

pdf 55 trang huongle 2840
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Tìm hiểu kỹ thuật phân đoạn ảnh bán giám sát - Hoàng Thanh Tùng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfdo_an_tim_hieu_ky_thuat_phan_doan_anh_ban_giam_sat_hoang_tha.pdf

Nội dung text: Đồ án Tìm hiểu kỹ thuật phân đoạn ảnh bán giám sát - Hoàng Thanh Tùng

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG o0o ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN HẢI PHÒNG 2015
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG o0o TÌM HIỂU KỸ THUẬT PHÂN ĐOẠN ẢNH BÁN GIÁM SÁT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin HẢI PHÒNG 2015
  3. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG o0o TÌM HIỂU KỸ THUẬT PHÂN ĐOẠN ẢNH BÁN GIÁM SÁT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Sinh viên thực hiện: Hoàng Thanh Tùng Giáo viên hướng dẫn: Th.S Ngô Trường Giang Mã số sinh viên: 1112101002 HẢI PHÒNG 2015
  4. – . t . 4 năm qua. X . !
  5. M 1 1 CHƢƠNG 1: 4 1.1 4 1.1.1 4 1.1.2 11 1.2 12 1.2.1 Khái niệm phân đoạn ảnh 13 1.2.2 Các hướng tiếp cận trong phận đoạn ảnh 13 CHƢƠNG 2: 28 2.1 28 2.2 Phân đoạn ảnh sử dụng Random Walks with Restart(RWR) 30 2.2.1 30 2.2.2 33 2.2.3 34 2.2.4 36 2.3 36 2.3.1 39 2.3.2 Ước lượng likelihood 40 2.3.3 44 CHƢƠNG 3: Cài đặt thử nghiệm 46 3.1 Môi trường cài đặt 46 3.2 Một số kết quả thử nghiệm 46 TÀI LIỆU THAM KHẢO 50 – CT1501 1
  6. Cùng với sự phát triển ngày càng mạnh mẽ của khoa học kĩ thuật trong một vài thập kỷ gần đây, xử lý ảnh tuy là một ngành khoa học còn tương đối mới mẻ so với nhiều ngành khoa học khác nhưng hiện nay nó đang là một trong những lĩnh vực phát triển rất nhanh và thu hút sự quan tâm đặc biệt từ các nhà khoa học, thúc đẩy các trung tâm nghiên cứu, ứng dụng về lĩnh vực hấp dẫn này. Xử lý ảnh đóng vai trò quan trọng trong nhiều ứng dụng thực tế về khoa học kĩ thuật cũng như trong cuộc sống thường ngày như: sản xuất và kiểm tra chất lượng, sự di chuyển của Robot, các phương tiện đi lại tự trị, công cụ hướng dẫn cho người mù, an ninh và giám sát, nhận dạng đối tượng, nhận dạng mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video, Để xử lý được một bức ảnh thì phải trải qua nhiều khâu khác nhau tùy theo mục đích của việc xử lý, nhưng khâu quan trọng và khó khăn nhất đó là phân đoạn ảnh. Trong một số lượng lớn các ứng dụng về xử lý ảnh và hiển thị máy tính, phân đoạn đóng vai trò chính yếu như là bước đầu tiên trước khi áp dụng các thao tác xử lý ảnh mức cao hơn như: nhận dạng, giải thích ngữ nghĩa và biểu diễn ảnh. Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ quá trình xử lý ảnh. Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh đó. Các vùng ảnh đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối tượng thật sự bên trong ảnh. Vì thế, trong hầu hết các ứng dụng của lĩnh vực xử lý ảnh, phân đoạn ảnh luôn đóng một vai trò cơ bản và thường là bước tiền xử lý đầu tiên trong toàn bộ quá trình trước khi thực hiện các thao tác khác ở mức cao hơn như nhận dạng đối tượng, biểu diễn đối tượng, nén ảnh dựa trên đối tượng, hay truy vấn ảnh dựa vào nội dung Trước đây, các phương pháp phân vùng ảnh được đưa ra chủ yếu làm việc – CT1501 2
  7. trên các ảnh mức xám do các hạn chế về phương tiện thu thập và lưu trữ. Ngày nay, cùng với sự phát tri ển về các phương tiện thu nhận và biểu diễn ảnh, các ảnh màu đã hầu như thay thế hoàn toàn các ảnh mức xám trong việc biểu diễn và lưu trữ thông tin do các ưu thế vượt trội hơn hẳn so với ảnh mức xám. Do đó, các kỹ thuật, thuật giải mới thực hiện việc phân vùng ảnh trên các loại ảnh màu liên tục được phát triển để đáp ứng các nhu cầu mới. : xử lý ảnh và – CT1501 3
  8. CHƢƠNG 1: xử lý ảnh và 1.1 1.1.1 1.1.1.1 Điểm ảnh Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử lý bằng máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y). Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một phần tử ảnh. 1.1.1.2 Độ phân giải của ảnh Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gian hai chiều. Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200). Rõ ràng, cùng màn hình CGA 12 nhận thấy mịn hơn màn hình CGA 17 độ phân giải 320*200. Lý do: cùng một mật độ (độ phân – CT1501 4
  9. giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn. 1.1.1.3 Mức xám của ảnh Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x, y) của điểm ảnh và độ xám của nó. Dưới đây xem xét một số khái niệm và thuật ngữ thường dùng trong xử lý ảnh. Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại điểm đó. Các thang giá trị mức xám thông thường:16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng 1 byte biểu diễn: 28 = 256 mức, tức là từ 0 đến 255). Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức xám ở các điểm ảnh có thể khác nhau. Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả 21 mức khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1. Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu: 28*3 = 224 ≈ 16,7 triệu màu. 1.1.1.4 Định nghĩa ảnh số Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật. 1.1.1.5 Quan hệ giữa các điểm ảnh Một ảnh số giả sử được biểu diễn bằng hàm f(x, y). Tập con các điểm ảnh là S, cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q. Có một số các khái niệm sau. – CT1501 5
  10. Các lân cận của điểm ảnh (Image Neighbors) Giả sử có điểm ảnh p tại toạ độ (x, y). p có 4 điểm lân cận gần nhất theo chiều đứng và ngang (có thể coi như lân cận 4 hướng chính: Đông, Tây, Nam, Bắc). {(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N4(p) trong đó: số 1 là giá trị logic; N4 (p) tập 4 điểm lân cận của p. 1-1: Lân cận các điểm ảnh của tọa độ (x,y Các lân cận chéo: Các điểm lân cận chéo NP(p) (Có thể coi lân cận chéo là 4 hướng: Đông-Nam, Đông-Bắc, Tây-Nam, Tây-Bắc) Np(p) = { (x+1, y+1); (x+1, y-1); (x-1, y+1); (x-1, y-1)} Tập kết hợp: N8(p) = N4(p) + NP(p) là tập hợp 8 lân cận của điểm ảnh p. Chú ý: Nếu (x, y) nằm ở biên (mép) ảnh; một số điểm sẽ nằm ngoài ảnh. Các mối liên kết điểm ảnh. Các mối liên kết được sử dụng để xác định giới hạn (Boundaries) của đối tượng vật thể hoặc xác định vùng trong một ảnh. Một liên kết được đặc trưng bởi tính liền kề giữa các điểm và mức xám của chúng. Giả sử V là tập các giá trị mức xám. Một ảnh có các giá trị cường độ sáng từ thang mức xám từ 32 đến 64 được mô tả như sau: V={32, 33, , 63, 64}. – CT1501 6
  11. Có 3 loại liên kết. * Liên kết 4: Hai điểm ảnh p và q được nói là liên kết 4 với các giá trị cường độ sáng V nếu q nằm trong một các lân cận của p, tức q thuộc N4(p) * Liên kết 8: Hai điểm ảnh p và q nằm trong một các lân cận 8 của p, tức q thuộc N8(p) * Liên kết m (liên kết hỗn hợp): Hai điểm ảnh p và q với các giá trị cường độ sáng V được nói là liên kết m nếu. 1. q thuộc N4(p) hoặc 2. q thuộc NP(p) c) Đo khoảng cách giữa các điểm ảnh. Định nghĩa: Khoảng cách D(p, q) giữa hai điểm ảnh p toạ độ (x, y), q toạ độ (s, t) là hàm khoảng cách (Distance) hoặc Metric nếu: 1. D(p,q) ≥0 (Với D(p,q)=0 nếu và chỉ nếu p=q) 2. D(p,q) = D(q,p) 3. D(p,z) ≤D(p,q) + D(q,z); z là một điểm ảnh khác. Khoảng cách Euclide: Khoảng cách Euclide giữa hai điểm ảnh p(x, y)và q(s, t) được định nghĩa như sau: De(p, q) = [(x - s)2 + (y - t)2]1/2 Khoảng cách khối: Khoảng cách D4(p, q) được gọi là khoảng cách khối đồ thị (City-Block Distance) và được xác định như sau: D4(p,q) = | x - s | + | y - t | Giá trị khoảng cách giữa các điểm ảnh r: giá trị bán kính r giữa điểm ảnh từ tâm điểm ảnh đến tâm điểm ảnh q khác. Ví dụ: Màn hình CGA 12” (12”*2,54cm = 30,48cm = 304,8mm) độ phân giải 320*200, tỷ lệ 4/3 (Chiều dài/Chiều rộng). Theo định lý Pitago về tam giác vuông, đường chéo sẽ lấy tỷ – CT1501 7
  12. lệ 5 phần (5/4/3: đường chéo/chiều dài/chiều rộng màn hình), khi đó độ dài thật là (305/244/183) chiều rộng màn hình 183mm ứng với màn hình CGA 200 điểm ảnh theo chiều dọc. Như vậy, khoảng cách điểm ảnh lân cận của CGA 12” là ≈ 1mm. Khoảng cách D8(p, q) còn gọi là khoảng cách bàn cờ (Chess-Board Distance) giữa điểm ảnh p, q được xác định như sau: D8(p,q) = max (| x-s |, | y-t |) 1.1.1.6 Các thành phần cơ bản trong hệ thống xử lí ảnh 1-2: Các thành phần chính trong hệ thống xử lí ảnh Theo quan điểm của hệ thống xử lý trên máy tính số, hệ thống gồm các đầu đo (thu nhận ảnh); bộ số hóa, máy tính số, bộ hiển thị, bộ nhớ. Một hệ thống xử lý ảnh cơ bản có thể gồm: máy tính cá nhân kèm theo vỉ mạch chuyển đổi đồ hoạ VGA hoặc SVGA, đĩa chứa các ảnh dùng để kiểm tra các thuật toán và một màn hình có hỗ trợ VGA hoặc SVGA. Nếu điều kiện cho phép, nên có một hệ thống như Hình 1-3 bao gồm một máy tính PC kèm theo thiết bị xử lý ảnh. Nối với cổng vào của thiết bị thu nhận ảnh là một video camera, và cổng ra nối với một màn hình. Thực tế, phần lớn các nghiên cứu được đưa ra trên ảnh mức xám (ảnh đen trắng). Bởi vậy, hệ thống sẽ bao gồm một thiết bị xử lý ảnh đen trắng và một màn hình đen trắng. Ảnh mức xám được áp dụng trong nhiều lĩnh vực như sinh vật học hoặc trong công nghiệp. Thực tế chỉ ra rằng bất kỳ ứng dụng nào trên ảnh, mức xám – CT1501 8
  13. cũng ứng dụng được trên ảnh màu. Với lý do đó, hệ thống ban đầu nên chỉ bao gồm cấc thiết bị thu nhận và hiển thị ảnh đen trắng. Với ảnh màu, nên sử dụng một hệ thống mới như Hình 1-2, trừ trường hợp cần một camera TV màu và một màn hình đa tần số (ví dụ như NEC MultiSync, Sony Multiscan, hoặc Mitsubishi Diamond Scan) để hiển thị ảnh màu. Nếu khả năng hạn chế, có thể dùng PC kèm theo vỉ mạch VGA và màn hình VGA, để dựng ảnh được. 1-3: Một hệ thống xử lí ảnh : Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó. Xử lý ảnh được đưa vào giảng dạy ở bậc đại học ở nước ta khoảng chục năm nay. Nó là môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở khác. Đầu tiên phải kể đến Xử lý tín hiệu số là một môn học hết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tích chập, các biến đổi Fourier, biến đổi Laplace, các bộ lọc hữu hạn Thứ hai, các công cụ toán như Đại số tuyến tính, Sác xuất, thống kê. Một số kiến thức cần thiết như Trí tuệ nhân – CT1501 9
  14. tạo, Mạng nơron nhân tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh. Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: nâng cao chất lượng ảnh và phân tích ảnh. Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được truyền qua cáp từ Luân đôn đến New York từ những năm 1920. Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giải của ảnh. Việc nâng cao chất lượng ảnh được phát triển vào khoảng những năm 1955. Điều này có thể giải thích được vì sau thế chiến thứ hai, máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi. Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh. Từ năm 1964 đến nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển không ngừng. Các phương pháp tri thức nhân tạo như mạng nơron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan. Để dễ tưởng tượng, xét các bước cần thiết trong xử lý ảnh. Đầu tiên, ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh). Trước đây, ảnh thu qua Camera là các ảnh tương tự (loại Camera ống kiểu CCIR). Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ Camera, sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo. (Máy ảnh số hiện nay là một thí dụ gần gũi). Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh, có thể quét từ ảnh chụp bằng máy quét ảnh. – CT1501 10
  15. 1-4 1.1.2 1.1.2.1 Phần thu nhận ảnh (Image Acquisition) Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hoá (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh. Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai chiều. Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh). 1.1.2.2 Tiền xử lý (Image Processing) Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn. 1.1.2.3 Phân đoạn (Segmentation) hay phân vùng ảnh Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng. Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này. – CT1501 11
  16. 1.1.2.4 Biểu diễn ảnh (Image Representation) Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được. Ví dụ: trong nhận dạng ký tự trên phong bì thư, có thể miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác. 1.1.2.5 Nhận dạng và nội suy ảnh (Image Recognition and Interpretation) Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thường thu được bằng cách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước. Nội suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội suy thành mã điện thoại. Có nhiều cách phân loại ảnh khác nhau về ảnh. Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh cơ bản: Nhận dạng theo tham số. Nhận dạng theo cấu trúc. Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt người 1.2 Để phân tích các đối tượng trong ảnh, cần phải phân biệt được các đối tượng cần quan tâm với phần còn lại của ảnh, hay còn gọi là nền ảnh. Những đối tượng này có thể tìm ra được nhờ các kỹ thuật phân đoạn ảnh, theo nghĩa tách phần tiền cảnh ra khỏi hậu cảnh trong ảnh. Mỗi một đối tượng trong ảnh – CT1501 12
  17. được gọi là một vùng hay miền, đường bao quanh đối tượng gọi là đường biên. Mỗi một vùng ảnh phải có các đặc tính đồng nhất (ví dụ: màu sắc, kết cấu, mức xám vv ). Các đặc tính này tạo nên một véc tơ đặc trưng riêng của vùng (feature vectors) giúp phân biệt được các vùng khác nhau. Như vậy, hình dáng của một đối tượng có thể được miêu tả hoặc bởi các tham số của đường biên hoặc các tham số của vùng mà nó chiếm giữ. Sự miêu tả hình dáng dựa trên thông tin đường biên yêu cầu việc phát hiện biên. Sự mô tả hình dáng dựa vào vùng đòi hỏi việc phân đoạn ảnh thành một số vùng đồng nhất. Có thể thấy kỹ thuật phát hiện biên và phân vùng ảnh là hai bài toán đối ngẫu của nhau. Thực vậy, dò biên để thực hiện phân lớp đối tượng và một khi đã phân lớp xong cũng có nghĩa là đã phân vùng được ảnh. Ngược lại, khi đã phân vùng, ảnh được phân lập thành các đối tượng, có thể phát hiện được biên. 1.2.1 Khái niệm phân đoạn ảnh Phân đoạn (segmentation) là một quá trình chia ảnh ra các vùng con khác nhau mà trong mỗi vùng chứa các thực thể có ý nghĩa cho việc phân lớp, mỗi thực thể được xem là một đối tượng mang những thông tin đặc trưng riêng. Có rất nhiều kỹ thuật phân đoạn ảnh, chương này giới thiệu một số kỹ thuật tiêu biểu như: Phân đoạn dựa vào ngưỡng, phân đoạn dựa vào biên, phân đoạn theo miền đồng nhất. Cũng có thể thấy rằng không có một kỹ thuật phân đoạn nào là vạn năng – theo nghĩa là có thể áp dụng cho mọi loại ảnh và cũng không có một kỹ thuật phân đoạn ảnh nào là hoàn hảo. 1.2.2 Các hƣớng tiếp cận trong phận đoạn ảnh Phân đoạn ảnh là chia ảnh thành các vùng không trùng lặp. Mỗi vùng gồm 1 nhóm pixel liên thông và đồng nhất theo 1 tiêu chí nào đó. Tiêu chí này phụ thuộc vào mục tiêu của quá trình phân đoạn. Ví dụ như đồng nhất về màu sắc, mức xám, kết cấu, độ sau của các layer Sau khi phân đoạn mỗi pixel chỉ thuộc về 1 vùng duy nhất. Để đánh giá chất lượng của quá trình phân đoạn là rất khó. Vì vậy trước khi phân đoạn ảnh cần xác định rõ mục tiêu của quá – CT1501 13
  18. trình phân đoạn là gì. Xét một cách tổng quát, có thể chia các hướng tiếp cận phân đoạn ảnh thành 3 nhóm chính như sau: Phân đoạn dựa vào ngưỡng Phân đoạn dựa vào đường biên Phân đoạn dựa theo miền đồng nhất 1.2.2.1 Phân đoạn dựa vào ngƣỡng 1.2.2.1.1 Giới thiệu chung Biên độ của các tính chất vật lí của ảnh (như là độ phản xạ, độ truyền sáng, màu sắc ) là một đặc tính đơn giản và rất hữu ích. Nếu biên độ đủ lớn đặc trưng cho ảnh thì có thể dùng ngưỡng biên độ để phân đoạn ảnh. Thí dụ, biên độ trong bộ cảm biến hồng ngoại có thể phản ảnh vùng có nhiệt độ thấp hay vùng có nhiệt độ cao. Đặc biệt, kĩ thuật phân ngưỡng theo biên độ rất có ích đối với ảnh nhị phân như văn bản in, đồ họa, ảnh màu hay ảnh X-quang. Việc chọn ngưỡng trong kĩ thuật này là một bước vô cùng quan trọng, thông thường được tiến hành theo các bước chung sau: Xem xét lược đồ xám của ảnh để xác định đỉnh và khe. Nếu ảnh có nhiều đỉnh và khe thì các khe có thể sử dụng để chọn ngưỡng. Chọn ngưỡng T sao cho một phần xác định trước ɳ của toàn bộ số mẫu là thấp hơn T. Điều chỉnh ngưỡng dựa trên lược đồ xám của các điểm lân cận. Chọn ngưỡng bằng cách xem xét lược đồ x mãn tiêu chuẩn đã chọn. Một thuật toán đơn giản trong kĩ thuật này là: giả sử rằng đang quan tâm đến các đối tượng sáng (object) trên nền tối (background ) một tham số T – gọi là ngưỡng độ sáng, sẽ được chọn cho 1 ảnh f[x,y] theo cách: If f[x,y] >= T f[x,y] = object =1 – CT1501 14
  19. Else f[x,y] = Background = 0 Ngược lại, đối với các đối tượng tối trên nền sáng thì thuật toán như sau: If f[x,y] < T f[x,y] = object =1 Else f[x,y] = Background = 0 Vấn đề chính là nên chọn ngưỡng T như thế nào để phân vùng đạt được kết quả cao nhất. Có rất nhiều thuật toán chọn ngưỡng: ngưỡng cố định, dựa trên lược đồ, sử dụng Entropy, sử dụng mập mờ, chọn ngưỡng thông qua sự không ổn định của lớp và tính thuần nhất của vùng v.v Ở đây đề cập đến hai thuật toán chọn ngưỡng đó là chọn ngưỡng cố định và chọn ngưỡng dựa trên lược đồ. 1.2.2.1.2 Chọn ngƣỡng cố định Đây là phương pháp chọn ngưỡng độc lập với dữ liệu ảnh. Nếu biết trước là chương trình ứng dụng sẽ làm việc với các ảnh có độ tương phản rất cao, trong đó các đối tượng quan tâm rất tối còn nền gần như đồng nhất và rất sáng thì việc chọn ngưỡng T=128 (xét trên thang độ sáng từ 0 tới 255) là một giá trị chọn khá chính xác. Chính xác ở đây hiểu theo nghĩa là số các điểm ảnh bị phân lớp sai là cực tiểu. 1.2.2.1.3 Chọn ngƣỡng dựa trên lƣợc đồ Trong hầu hết các trường hợp, ngưỡng được chọn từ lược đồ độ sáng của vùng hay ảnh cần phân đoạn. Có rất nhiều kĩ thuật chọn ngưỡng tự động xuất phát từ lược đồ xám {h[b] | b =0, 1, , 2B-1} đã được đưa ra. Những kĩ thuật phổ biến sẽ được trình bày dưới đây. Những kĩ thuật này có thể tận dụng những lợi thế do sự làm trơ dữ liệu lược đồ ban đầu mang lại nhằm loại bỏ những dao động nhỏ về độ sáng. Tuy nhiên các thuật toán làm trơn cần phải cẩn thận, không được làm dịch chuyển các vị trí đỉnh của lược đồ. Nhận xét này dẫn đến thuật toán làm trơn dưới đây: – CT1501 15
  20. W lẻ (1.1) Trong đó, W thường được chọn là 3 hoặc 5. Chọn ngưỡng dựa theo lược đồ có các thuật toán như sau: Thuật toán đẳng liệu. Đây là kỹ thuật chọn ngưỡng theo kiểu lặp do Ridler và CalVar đưa ra. Thuật toán được mô tả như sau: B1: Chọn giá trị ngưỡng khởi động B2: Tính các trung bình mẫu (mf,0) của những điểm ảnh thuộc đối tượng và (mb,0) của những điểm ảnh nền B3: Tính các ngưỡng trung gian theo công thức: với k = 1, 2, (1.2) B4: Nếu : Kết thúc, dừng thuật toán. Ngược lại, lặp lại bước 2. Thuật toán đối xứng nền. Kỹ thuật này dựa trên sự giả định là tồn tại hai đỉnh phân biệt trong lược đồ nằm đối xứng nhau qua đỉnh có giá trị lớn nhất trong phần lược đồ thuộc về các điểm ảnh nền. Kỹ thuật này có thể tận dụng ưu điểm của việc làm trơn được mô tả trong phương trình (1.1). Điểm cực đại Maxp tìm được nhờ tiến hành tìm giá trị cực đại trong lược đồ. Sau đó thuật toán sẽ được áp dụng ở phía không phải là điểm ảnh thuộc đối tượng ứng với giá trị cực đại đó nhằm tìm ra giá trị độ sáng a tương ứng với giá trị phần trăm p% mà: P(a) = p%, trong đó P(a) là hàm phân phối xác suất về độ sáng được định nghĩa như sau: – CT1501 16
  21. Hàm phân phối xác suất P(a) thể hiện xác suất chọn 1 giá trị độ sáng từ 1 vùng ảnh cho trước sao cho giá trịu này không vượt quá 1 giá trị sáng cho trước a. Khi a biến thiên từ đến , P(a) sẽ nhận các giá trị từ 0 đến 1. P(a) là hàm đơn điệu không giảm theo a, do vậy . 1-5: Minh họa thuật toán đối xứng nền Giả thiết rằng ảnh có các đối tượng tối trên nền sáng. Giả sử mức là 5% thì có nghĩa là phải ở bên phải đỉnh maxp 1 giá trị a sao cho P(a) = 95%. Do tính đối xứng đã giả định ở trên, có thể sử dụng độ dịch chuyển về phái trái của điểm cực đại tìm giá trị ngưỡng T: T = maxp - (a - maxp) (1.3) Kỹ thuật này dễ dàng điều chỉnh được cho phù hợp với tình huống ảnh có các đối tượng sáng trên 1 nền tối. Thuật toán tam giác. B1: Xây dựng đường thẳng là đường nối hai điểm (Hmax, bmax) và (Hmin, bmin), trong đó Hmax là điểm có Histogram ứng với độ sáng nhỏ nhất bmin. B2: Tính khoảng cách d từ Hb của lược đồ(ứng với điểm sáng b) đến . Trong đó, . – CT1501 17
  22. B3: Chọn ngưỡng T = Max{Hb} 1-6: Minh họa thuật toán tam giác 1.2.2.2 Phân đoạn dựa theo đƣờng biên 1.2.2.2.1 Giới thiệu chung Như đã biết, biên là một đặc tính rất quan trọng để phân vùng các đối tượng. Có thể hình dung tầm quan trọng của biên thông qua ví dụ sau: Khi một người họa sĩ vẽ 1 cái bàn gỗ, chỉ cần phác thảo vài nét về hình dáng như cái mặt bàn, các chân bàn mà không cần thêm các chi tiết khác, người xem đã có thể đường biên bao quanh đối tượng. Nếu ứng dụng là phân lớp nhận diện các đối tượng thì coi như nhiệm vụ đã hoàn thành. Tuy nhiên, nếu đòi hỏi thêm các chi tiết khác như vân gỗ, màu sắc, kích thước v.v thì chừng ấy thông tin là chưa đủ. Trong toán học, thường đưa ra khái niệm đường biên lí tưởng là sự thay đổi giá trị cấp xám tại 1 vị trí xác định. Vị trí của đường biên chính là vị trí thay đổi cấp xám. Thể hiện của định nghĩa là hình 2.1 – CT1501 18
  23. 1-7: Đường biên lí tưởng Một loại đường biên nữa – được gọi là đường biên bậc thang: đường biên bậc thang xuất hiện khi sự thay đổi cấp xám trải rộng qua nhiều điểm ảnh. Vị trí của đường biên được xem như vị trí chính giữa của đường nối giữa cấp xám thấp và cấp xám cao. 1-8: Đường biên bậc thang Trong thực tế đường biên thường có dạng như sau: 1-9: Đường biên thực – CT1501 19
  24. Như đã nói ở trên, biên là một trong những đặc trưng quan trọng của ảnh, chính vì vậy mà trong nhiều ứng dụng sử dụng cách phân đoạn dựa theo biên. Việc phân đoạn ảnh dựa vào biên được tiến hành qua các bước: Phát hiện biên và làm nổi biên Làm mảnh biên Nhị phân hóa đường biên Mô tả biên 1.2.2.2.2 Phát hiện biên Phát hiện biên là một cách lý tưởng là xác định được tất cả các đường bao trong các đối tượng. Có nhiều phương pháp phát hiện biên, thông thường các phương pháp phát hiện biên trực tiếp được sử dụng. Phương pháp này nhằm làm nổi biên dựa vào sự biến thiên về giá trị độ sáng của điểm ảnh. Kĩ thuật chủ yếu dùng ở đây là kĩ thuật đạo hàm. Nếu lấy đạo hàm bậc nhất của ảnh thì có phương pháp Gradient, nếu lấy đạo hàm bậc hai thì có kĩ thuật Laplace. Phương pháp này có ưu điểm là ít chịu ảnh hưởng của nhiễu, song nếu sự biến thiên của độ sáng không đột ngột thì kết quả đạt được là rất kém. Một số kĩ thuật sử dụng trong phát hiện biên: Kĩ thuật Gradient Kĩ thuật Laplace Kĩ thuật la bàn 1.2.2.2.3 Làm mảnh biên Làm mảnh biên thực chất là làm nổi biên với độ rộng chỉ 1 pixel. Như đã biết rằng chỉ có kĩ thuật Laplace mới cho biên có độ rộng 1 pixel trong khi các kĩ thuật khác thì không hoàn toàn như thế. Vấn đề đặt ra là sau khi thu được bản đồ biên của ảnh cần phải làm mảnh biên Một số kĩ thuật làm mảnh biên: – CT1501 20
  25. Kĩ thuật loại bỏ các điểm không cực đại Kĩ thuật do Sherman đề xuất 1.2.2.2.4 Nhị phân hóa đƣờng biên Nhị phân hóa đường biên là giai đoạn then chốt trong quá trình trích chọn vì nó xác định đường bao nào thực sự cần và đường bao nào có thể loại bỏ. Nói chung thường nhị phân hóa đường biên theo cách thức làm giả nhiễu hoặc tránh hiện tượng kéo sợi trên ảnh. Điều này cũng giải thích tại sao phân đoạn dựa theo biên có hiệu quả khi ảnh có độ tương phản tốt. Trong trường hợp ngược lại, có thể sẽ bị mất một phần đường bao hay đường bao có chân, không khép kín, v.v do đó sẽ bất lợi cho biểu diễn sau này. Một phương pháp hay được dùng là chọn ngưỡng thích nghi. Với cách chọn này ngưỡng sẽ phụ thuộc vào hướng của gradient nhằm làm giảm sự xoắn của biên. Đầu tiên, định ra 1 ngưỡng nào đó và sau đó sử dụng 1 hệ số sinh thích nghi. 1.2.2.2.5 Mô tả biên Khi đã có bản đồ liên ảnh, cần phải biểu diễn nó dưới dạng thích hợp phục vụ cho việc phân tích và làm giảm lượng thông tin dùng để miêu tả, lưu trữ đối tượng. Thường thực hiện theo nguyên tắc: tách riêng từng biên và gán riêng cho mỗi biên một mã. Có rất nhiều phương pháp miêu tả biên, mỗi phương pháp thích hợp với một loại ứng dụng riêng. Tuy nhiên, nhìn chung các biên sẽ được làm rõ hơn thông qua các thao tác: loại bỏ đường biên hở, khép kín đường biên, loại bỏ các chân rết bám theo đường biên. v.v Thông thường các cấu trúc cơ sở mã hóa đường biên bao gồm 4 loại: điểm, đoạn thẳng, cung và đường cong. Tuy nhiên, nếu biểu diễn đường biên bằng các điểm thì rất đơn giản về mặt tính toán nhưng lại nghèo nàn về mặt cấu trúc và không cô đọng. Ngược lại, nếu biểu diễn biên bằng đường cong đa thức bậc cao thì cấu trúc dữ liệu rất cô đọng nhưng độ phức tạp tính toán lại – CT1501 21
  26. khá lớn. Do đó, tùy từng loại ứng dụng cụ thể và từng bài toán cụ thể mà có thể chọn cách mã hóa đường biên theo kiểu nào. Một số phương pháp mã hóa đường biên hay dùng: Mã hóa theo tọa độ Đề-các. Mã hóa Freeman. Xấp xỉ bởi đoạn thẳng. 1.2.2.3 Phân đoạn theo miền đồng nhất 1.2.2.3.1 Giới thiệu Giả sử rằng một miền ảnh X phải được phân thành N vùng khác nhau: R1, , RN và nguyên tắc phân đoạn là 1 vị từ của công thức P(R). Việc phân đoạn ảnh chia tập X thành các tập con Ri, i=1 N phải thỏa mãn: - Các vùng Ri, i=1 N phải lấp kín toàn ảnh: N X = U i=1 Ri (1.4) - Hai vùng khác nhau phải là những tập rời nhau: Ri ∩ Rj = 0 với i ≠ j (1.5) - Mỗi vùng Ri phải có tính đồng nhất: P(Ri) = TRUE với i=1 N (1.6) - Nếu Ri và Rj là hai vùng rời nhau thì (Ri ∪ Rj) phải là vùng ảnh không đồng nhất: P(Ri ∪ Rj) = FALSE với i ≠ j (1.7) Kết quả của việc phân vùng ảnh phụ thuộc vào dạng của vị từ P và các đặc trưng được biểu diễn bằng vec-tơ đặc trưng. Thường thì vị từ P có dạng P(R,X,t) trong đó X là vec-tơ đặc trưng gắn với 1 điểm ảnh và t là 1 tập hợp các tham số (thường là các ngưỡng). Trong trường hợp đơn giản nhất, vec-tơ – CT1501 22
  27. đặc trưng X chỉ chứa giá trị mức xám của ảnh I(k,l) và vec-tơ ngưỡng chỉ gồm 1 ngưỡng T. Một nguyên tắc phân đoạn đơn giản có công thức: P(R):f(k,l) < T (1.8) Trong trường hợp các ảnh màu, vec-tơ đặc trưng X có thể là 3 thành phần ảnh RGB[fR(k,l), fG(k,l), fB(k,l)]T. Lúc đó luật phân ngưỡng có dạng: P(R,X,t):( (fR(k,l)<TR) && fG(k,l)<TR) && fB(k,l)<TR) ) (1.9) 1.2.2.3.2 Một số phƣơng pháp phân đoạn ảnh theo miền đồng nhất Kỹ thuật phân đoạn sẽ xác định tiêu yếu xác định tính a việc phân đoạn. Các tiêu chuẩn hay được dùng là sự , kết cấu sợi và chuyển động. Các phương pháp phân đoạn ảnh theo miền đồng nhất thường áp dụng là: Phương pháp tách cây tứ phân Phương pháp cục bộ Phương pháp tổng hợp a) Phương pháp tách cây tứ phân Về nguyên tắc, đề ra một cách tổng thể . Nếu tiêu chuẩn được thỏa mãn, việc phân đoạn coi như kết thúc. Trong trường hợp ngược lại, chia miền đang xét thành 4 miền nhỏ miền nhỏ, áp dụng một cách đệ quy phương pháp trên cho đến khi tất cả các miền đều thỏa mãn điều kiện. Phương pháp này có thể mô tả như sau: Procedure PhanDoan(Mien) – CT1501 23
  28. Begin If miền đang xét không thỏa Then Begin Chia miền đang xét thành 4 miền: Z1, Z2, Z3, Z4 For i=1 to 4 do PhanDoan (Zi) End Else exit End Tiêu chuẩn xét miền đồng nhất ở đây có thể dựa vào mức xám. Ngoài ra, có và giá trị mức xám nhỏ nhất. Giả sử Max và Min là giá trị và nhỏ nhất trong miền đang xét. Nếu: |Max – Min| < T (ngưỡng) coi miền đang xét là đồng nhất. Trường hợp ngược lại, miền đang xét không là miền đồng nhất và sẽ được chia làm 4 ph . Thuật toán kiểm tra tiêu chuẩn dựa vào độ chênh lệch max, min được viết: Function Examin_Criteria(I, N1, M1, N2, M2, T) Giả thiết ảnh có tối đa 255 mức xám. (N1, M1), (N2, M2) là tọa độ , T là ngưỡng. Begin 1. Max=0 ; Min=255 2. For i = N1 to N2 do If I[i,j] < Min Then Min=I[i,j] ; If I[i,j] < Max Then Max=I[i,j] ; 3. If ABS(Max–Min)<T Then Examin_Criteria=0 – CT1501 24
  29. Else Examin_Criteria=1 ; End Nếu hàm trả về giá trị 0, có nghĩa vùng đang xét là đồng nhất, nếu không thì không đồng nhất. Trong giải thuật trên, khi m tính lại giá trị . Giá trị trung bình được tính bởi: Tổng giá trị mức xám/tổng số điểm ảnh trong vùng Thuật toán này tạo nên một cây mà mỗi nút cha có 4 nút con ở mọi mức trừ mức ngoài cùng. Vì thế, cây này có tên là cây tứ phân. Cây cho hình ảnh rõ nét về . Một vùng thỏa mãn điều kiện sẽ tạo nên một nút lá, nếu không nó sẽ tạo nên một nút trong và có 4 nút con tương ứng. Tiếp tục như vậy cho đến khi phân chia xong để đạt các vùng đồng nhất. b) Phân vùng ảnh dựa vào phát triển vùng cục bộ. Ý nhất rồi nối chúng lại nếu thỏa mãn tiêu chuẩn để . Số miền còn lại cho kết quả phân đoạn. Như vậy, miền nhỏ điểm ách. Song điều quan trọng ở đây là nguyên lý nối 2 vùng. Việc nối 2 vùng được thực hiện theo nguyên tắc sau: - Hai vùng phải đáp ứng tiêu chuẩn, thí dụ như cùng màu hay cùng mức xám. - Hai vùng phải kế cận nhau. Khái niệm kế cận: trong xử lý ảnh, dùng khái niệm liên thông để xác định tính chất kế cận. Có hai khái niệm về liên thông là 4 liên thông và 8 liên – CT1501 25
  30. thô 4 liên thông một điểm ảnh I(x,y) sẽ có y, i 8 liên thông, điểm I(x,y) sẽ có 4 liên thông theo 450. (a) 4 liên thông (b) 8 liên thông 1-10: Khái niệm 4 liên thông và 8 liên thông Dựa theo ngu , có 2 thuật toán: Thuật toán tô màu (Blob Coloring): sử dụng khái niệm . Thuật toán đệ quy cực bộ: sử dụng phương pháp tìm kiếm trong một . c) Phương pháp phân vùng dựa trên hợp và tách vùng. Hai phương pháp nối (hợp) và tách đều có nhược điểm. Phương pháp tách sẽ tạo nên một cấu trúc phân cấp và thiết lập mối quan hệ . Tuy nhiên, nó thực hiện việc chia quá chi tiết. Phương pháp hợp cho phép làm giảm số miền liên thông xuống tối thiểu, nhưng cấu trúc hàng ngang dàn trải, không cho thấy rõ mối liên hệ iền. Vì nhược điểm này, có thể nghĩ đến phối hợp cả , dùng phương pháp tách để tạo nên cây tứ phân, phân đoạn theo h gốc đến lá. Tiếp theo, tiến hành duyệt cây theo chiều ngược lại và hợp các vùng có cùng tiê phương pháp này thu . Giải thuật tách hợp gồm một số : Kiểm tra tiêu chuẩn đồng nhất. – CT1501 26
  31. Nếu không thỏa mãn tiêu chuẩn đồng nhất và số , phải, trái) bằng cách đệ quy. Nếu kết quả . Nếu tiêu chuẩn đồng nhất thỏa m . Hợp vùng Kiểm tra 4 lân cận như đã nêu trên. Có thể có nhiều vùng thỏa mãn. Khi đó, chọn vùng tối ưu nhất rồi tiến hành hợp. – CT1501 27
  32. CHƢƠNG 2: 2.1 Học máy là một lĩnh vực nhỏ trong ngành khoa học máy tính, được tiến hóa từ những nghiên cứu về nhận dạng mẫu và lý thuyết học tập tính toán trong trí tuệ nhân tạo. Học máy tìm hiểu và xây dựng các thuật toán để có thể học tập và đưa ra quyết định trên tập dữ liệu. Các thuật toán này hoạt động bằng cách xây dựng một mô hình từ ví dụ đầu vào để đưa ra các dự đoán và quyết định, chứ không phải là làm theo chỉ dẫn của một chương trình tĩnh. Máy học tập có liên quan chặt chẽ và thường trùng với số liệu thống kê tính toán; một lĩnh vực chuyên về dự đoán. Nó có mối quan hệ mạnh mẽ để tối ưu hóa, trong đó cung cấp các phương pháp, lý thuyết và ứng dụng lĩnh vực với lĩnh vực này. Máy học được sử dụng trong một loạt các nhiệm vụ tính toán thiết kế và lập trình mà rõ ràng, các thuật toán dựa trên nguyên tắc là không khả thi. Ví dụ bao gồm các ứng dụng lọc thư rác, nhận dạng ký tự quang học (OCR), công cụ tìm kiếm và thị giác máy tính. Học máy đôi khi được lồng việc khai thác dữ liệu, mặc dù nó tập trung nhiều hơn vào phân tích dữ liệu. Học máy và nhận dạng mẫu "có thể được xem như là hai mặt của cùng một lĩnh vực." Nhiệm vụ học máy thường được chia làm 3 loại chính tùy vào bản chất của “tín hiệu” học và “phản hồi” có sẵn cho hệ thống: Học có giám sát: H . – CT1501 28
  33. Học không giám sát: . Giữa học có giám sát và học không giám sát có học bán giám sát, là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn. Học nửa giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn). Một cách phân loại nhiệm vụ của học máy khác phát sinh khi xem xét kết quả đầu ra mong muốn của một hệ thống học máy: Trong phân loại, đầu vào được chia thành hai hoặc nhiều nhóm, người học phải tạo ra một mô hình để gán dữ liệu đầu vào chưa biết vào một hoặc nhiều nhóm đó. Điều này thường giải quyết bằng việc có giám sát. Lọc thư rác là một ví dụ phân loại, trong đó đầu vào là các thông điệp email và đầu ra là “spam” hoặc “không spam”. Trong hồi quy cũng là một vấn đề giám sát, kết quả đầu ra thường là liên tục hơn là rời rạc. Trong phân cụm, một tập hợp đầu vào được chia nhóm. Khác với phân loại, các nhóm này là chưa được biết trước. Đây thường là nhiệm vụ của học không giám sát. Ước tính mật độ tìm phân phối của đầu vào trên một không gian. Giảm thiểu số chiều đơn giản hóa dữ liệu đầu vào bằng cách ánh xạ chúng đến một không gian ít chiều hơn. Mô hình hóa chủ đề là một vấn đề liên quan, khi chương trình được đưa một danh sách các tài liệu bằng ngôn ngữ con người và nhiệm vụ là tìm ra các tài liệu có cùng một chủ đề. – CT1501 29
  34. 2.2 Phân đoạn ảnh sử dụng Random Walks with Restart(RWR) 2.2.1 nhất. Phân đoạ . Vấn đề thứ hai là để phân tách các kết cấu phức tạp trong ảnh. Trong thực sinh trong . , một số phương pháp xuất. Có ba loại người sử dụng: Loại thứ nhất là phân đoạn thu được . muốn. điểm . Graph Cuts (GC) dựa trên hàm năng lượng được giảm thiểu thông qua kỹ thuật nhỏ nhất thu được thông qua dòng tối đa (maxflow) /cắt giảm năng lượng tối thiếu (min- cut). Kể từ khi GC xử lý tiêu chí cắt giảm tối thiểu này, nó thường gây ra vấn đề cắt nhỏ khi tươn . – CT1501 30
  35. Khoảng cách đo đạc từ seed được sử dụng cho phân đoạn ảnh. Bằng cách gán cho mỗi điểm , ta thu được phân đoạn. rời nhỏ trên tất cả 2 điểm ảnh. Một cách khác là thuật toán phân đoạn ảnh Random Walker (RW) đề xuất bởi Grady . Như vậy RW có hiệu suất tốt hơn GC trong điều kiện khó khăn. Tuy nhiên, xác suất tiền nghiệm có một số , RW chỉ xem xét mối quan hệ . Do đó tương tác cao hơn. Ngoài ra, xác suất này phụ thuộc vào số c tăng lên mà không có liên quan đến toàn bộ mối quan hệ này giải thích lý do tại sao RW vẫn bị hai vấn đề: vấn đề biên ảnh yếu và vấn đề kết cấu yếu. Để khắc phục vấn đề này, [11] đã đề xuất một thuât toán RWR cải tiến. , 2- 2- – CT1501 31
  36. 2-1( . (b) likelihood 2-1 . xi X = {x1, ,xn} lk L = {l1, ,lk}. quan điểm quyết định p(lk|xi i , các tác giả đã kết hợp p(lk|xi (lk (xk|li : (2.1) – CT1501 32
  37. k k (xi | lk : (2.2) i 1 seed 1/Mk k . : . 1 seed i . (2.2). (2. . 2.2.2 =(V,E) V, cạnh e E. Mỗi nút vi trong V xác định duy nhất một điểm ảnh xi – CT1501 33
  38. a hai nút được xác định bởi hệ thống láng giềng. Trọng số wi,j W được gán cho cạnh ei,j E nối , v V. Nó tính khả năng các nút lân cận vi, vj có cùng nhãn. Ở đây, trọng số wi,j được định nghĩa là hàm trọng số Gaussian: Wij = exp (2.3) Trong đó, gi và gj là giá trị màu của ảnh ở hai nút vi và vj trong dải màu thí nghiệm. 2.2.3 Mô hình h Giả sử một RW bắt đầu từ hạt giống thứ m điểm ảnh của nhãn lk trong đồ thị G. trọng số . , có một xác suất khởi động lại c để trở về hạt giống . Sau khi hội tụ, thu được xác suất khả năng mà RW sẽ ở lại cuối cùng tại điểm ảnh xi. Ở đây, thuật toán sử dụng xác suất trạng thái như phân phối p( ) ở công thức (2.2): p( ) (2.4) Bằng việc ký hiệu , i = 1, ., N là 1véc-tơ N chiều = [ ]Nx1 và định nghĩa 1 ma trận kề W = [wij] N x N sử dụng công thức (2.3), RWR có thể được xây dựng như sau: = (1-c) + = c(I - (1 - c)P)-1 = Q (2.5) Trong đó, = [bi]N x 1 là véc-tơ N chiều với bi = 1 nếu Xi = và bi = 0 và chuyển đổi ma trận P = [pij]N x N là ma trận kề W chuẩn hóa: P = D-1 x W, (2.6) – CT1501 34
  39. Trong đó D = diag(D1, ,DN), Di = Nếu những xác suất trạng thái này được chèn vào (2.2) theo định nghĩa, những khả năng p(xi | lk) (i = 1, .,N) được tính bằng. Q (2.7) Trong đó = [ ] N x 1 là vec-tơ N chiều với b=1, if xi và =0 nếu ngược lại. Trong quan điểm của RWR, Q = [qij . Nói cách khác, qij là khả năng qi có cùng một nhãn được gán cho qj. Tính theo công thức sau: Q = c(I - (1 - c)P)-1 = c (2.8) Q được định nghĩa là tổng trọng số của tất cả ma trận Pt, t=0, , . Lưu ý rằng Pt là ma trận chuyển đổi thứ t, mà các thành phần có thể được hiểu là tổng vi kết thúc tại vj , đã xem xét tất cả các đường đi có thể t, có thể thấy rõ ràng mối quan hệ ở các quy mô khác nhau trong ảnh và khi tăng t có hy vọng tìm ra cấu trúc thô (coarser). Vì vậy, ảnh ở tất cả các quy mô (bất kỳ số vòng lặp (t = 0, , ∞)) trong hình ảnh. Vì điểm ảnh kề có giá trị tương đồng cao, nếu tăng t, Pt có trọng số thấp hơn, (1-c)t i (0 <c <1). Có thể được tính ma trận kết quả Q bằng cách sử dụng phương pháp tuyến tính ma trận đảo. Mặc dù ma trận đòi , có thể tính nhanh nếu ma trận thưa. Vì hệ thống láng giềng các điểm ảnh nhỏ được sử dụng trong bài này, ma trận chuẩn hóa P là rất – CT1501 35
  40. thưa. Do đó, Q có thể được tính nhanh. Tuy nhiên, nếu số , sự là rất cao. Trong trường hợp này, một số phương pháp tính xấp xỉ như phương pháp RWR được sử dụng. 2.2.4 Giả sử rằng xác suất trước p(lk) ở (2.1) là thống nhất. Sử dụng khả năng p(xi|lk) ở (2.7), các quy tắc quyết định của mỗi điểm ảnh xi cho phân đoạn ảnh như sau: Ri = arg max lk p(lk | xi) = arg max lk p(xi | lk) (2.9) Gán nhãn Ri cho mỗi điểm ảnh xi, thu được phân đoạn. 2.3 Nhìn chung, phân đoạn ảnh có thể phân thành các phương thức không giám sát, bán giám sát và có giám sát. Gần đây, phương thức phân đoạn ảnh bán giám sát lấy cảm hứng bởi thông tin đầu vào của người dùng giống như là các phần phác họa cái mà cung cấp một nhãn riêng của bức ảnh. Lợi ích phổ biến từ phương thức này đem lại cho người dùng khả năng tác động phân đoạn một cách hiệu quả cho 1 ứng dụng thực tế. Một phương pháp phân đoạn ảnh bán giám sát hiệu quả đã được giới thiệu bởi Tae Hoon Kim và các cộng sư [10]. Trong phương pháp này, các tác giả đã giải quyết mô hình lan truyền cho nhiều nhãn trong phân đoạn ảnh tương tác. Để ước lượng likelihoods pixel cho mỗi nhãn, Kim đề xuất 1 phát biểu bậc cao để bổ sung ràng buộc cho nhãn mềm nhờ đó các pixel trong các vùng được tạo ra bởi thuật toán phân đoạn ảnh không giám sát, hướng đến các nhãn tương tự. Trái ngược với công việc trước, trọng tâm trong mô hình tham số bậc cao là việc thêm liên kết mềm, giải quyết kĩ thuật học không tham số để ước lượng vùng likelihoods bậc cao một cách đệ quy gợi lấy kết quả từ likelihoods của số pixel chứa trong vùng. Do đó, ý tưởng chính của thuật toán là phác thảo hai hàm bậc hai của likelihoods pixel và likelihoods vùng, đó là 1 sự bổ sung cho – CT1501 36
  41. nhau, trong 1 đồ thị đa tầng được đề xuất và để ước lượng chúng đồng thời bởi một công nghệ tối ưu đơn giản. Trong cách thức này, xét đến việc kết nối trong vùng rộng hơn giữa các vùng, cái mà tạo ra lan truyền thuận lợi trong các vùng ảnh lớn hơn. Những Kim như sau: Thuật toán giới thiệu một mô hình lan truyền cho phân đoạn ảnh tương tác, giông như [11]. Trong khuôn khổ này Kim đề xuất 1 thuật toán ước lượng điểm ảnh likelihoods cho mỗi nhãn. Thiết kế 1 hàm giá trị bậc cao hơn cho pixel likelihoods với các nhãn trong vùng đồng nhất phát sinh bởi thuật toán phân đoạn ảnh không giám sát như là thuật toán mean shift. Không giống với các mô hình trước tham số bậc cao trong mô hình Robust Pn [7] thuật toán xem xét có hiệu quả quan hệ từng cặp giữa pixel và các vùng tương ứng trong đồ thị đa tầng. Trong công việc này vùng biểu diễn likelihoods được xác định như vùng bậc cao hơn trong việc ước lượng số pixel likelihoods. Thuật toán giải quyết 1 công nghệ học không tham số để ước lượng đệ quy vùng bậc cao từ kết quả likelihoods của mỗi pixel chứa trong mỗi vùng. Ngoài ra, thuật toán xét các sự liên kết rộng hơn giữa các vùng tạo điều kiện lan truyền nhóm vùng cục bộ thông qua các vùng ảnh lớn hơn, không giống với công việc trước là chỉ sử dụng thuộc tính nội bộ trong vùng likelihoods được định nghĩa như là số pixel trong vùng không bị chi phối bởi nhãn gián. Những liên kết này cho ra kết quả giống với mô hình trước không có tham số. 1 – CT1501 37
  42. 2-2: Sử dụng các tín hiệu bậc cao cho phân đoạn ảnh tương tác. Hàng đầu tiên trình bày 1 ảnh với 1 điểm ảnh gieo được chọn cho mỗi nhãn. Hàng 2 tới hàng 4 trình bày kết quả của sự phân đoạn bởi Random Walker [5], mô hình Robus Pn [7] với tham số bậc cao và phương thức của Kim với các dấu hiệt bậc cao không tham số. Đưa ra 1 bức ảnh, mỗi điểm ảnh xi ∈ X được gán bởi 1 nhãn l∈{1, , L} trong 1 vấn đề phân đoạn. Trong mô hình lan truyền, cần tìm xác suất hậu nghiệm p(l|xi) đạt được bởi luật sử dụng luật Bayes: p(l|xi) = = (2.10) Nơi mà 1 likelihood p(xi|l) được biểu thị như πil và giả sử rằng 1 xác suất tiền nhiệm p(l) đồng nhất. Biết được các hậu nghiệm, thì không phức tạp để gán nhãn xi với xác suất cực đại. Cũng có thể định nghĩa sự phân đoạn như là sự tạo nhóm của vùng Y = {yk}n=1, ,Ny tạo qua các phân đoạn như là thuật toán mean shift [3], để thay thế cho các điểm ảnh X = {xi}i=1, ,Nx. Trong trường hợp này, sác xuất hậu nghiệm p(l|yk) được đưa vào 1 công thức, tương tự như (2.10): p(l|yk) = = (2.11) – CT1501 38
  43. 1 likelihood p(yk|l) được biểu thị như zkl. Thuật toán đề xuất ước lượng 1 cách đồng thời tất cả các điểm ảnh và vùng likelihoods Πl ={πil}i=1, ,Nx và Zl ={zkl}k=1, ,Ny cho mỗi nhãn trong (2.10) và (2.11), từ các điểm ảnh và các vùng tương ứng với chúng phải có likelihoods nhất quán. Do đó vùng likelihood được xác định như vùng bậc cao để học các điểm ảnh likelihoods. Để xác định tất cả các likelihood này đầu tiên dự kiến 1 đồ thị đa tầng với các điểm ảnh và các vùng như là các nút. Sau đó xây dựng hai hàm có giá trị bậc hai cho các điểm ảnh và vùng likelihoods, chúng có liên quan tới nhau trong đồ thị này và đồng thời tối ưu hóa chúng 1 cách đơn giản. 2.3.1 Dựng lên 1 đồ thị vô hướng G = (V,E) với các điểm ảnh và các vùng như là các nút V={X,Y}. Các cạnh E {EX,EY,EXY} là các liên kết giữa các cặp nút. Tồn tại 1 cạnh vô hướng, nếu 1 trong các điều kiện sau được thỏa mãn. x, Trong E 2 điểm ảnh kề cận được nối với nhau. Do khó khăn để xét các kết nối cỡ lớn bởi vì có 1 sự tính toán lớn, 1 hệ thống láng giềng nhỏ thì x thường được sử dụng. Một cạnh E giữa 2 điểm ảnh xi và xi’ có trọng số . Đặt là vùng lân cận của xi. = (2.12) ci chứng tỏ rằng giá trị màu ở mỗi điểm ảnh xi trong không gian màu Lab và θc là 1 hằng số kiểm soát cường đọ trọng số. Nó cung cấp 1 giá trị đo lường cho nhãn tương tự giữa 2 điểm ảnh láng giềng. – CT1501 39
  44. Y Trong E , 2 vùng được kết nối đầy đủ. Có thể, số vùng hầu hết là nhỏ. Khả năng kết nối đầy đủ thì có ích cho việc sinh nhãn cho vùng tới tất cả khu vực ảnh không có mô hình tiền nhiệm có tham số. Y Một cạnh E giữa 2 vùng yk và yk’ có trọng số , giống (2.12). = exp(- ) (2.13) là giá trị trung bình màu sắc của các điểm ảnh trong vùng yk: = , là số điểm ảnh nằm trong yk. XY Trong E , kết nối liên tầng được thêm vào sử dụng dữ liệu phù hợp cho mỗi điểm ảnh chỉ trong 1 vùng trong 1 phân đoạn chồng nhau. 1 XY cạnh E giữa 1 điểm ảnh xy và 1 vùng yk có 1 trọng số (= ) = (2.14) Với những sự kết nối này, nó có thể dùng để truyền kết quả bậc cao dựa trên cơ sở tín hiệu 1 điểm ảnh. Một cách đồng thời, mỗi vùng có thể có được thông tin bổ sung của dựa trên tín hiệu điểm ảnh. 2.3.2 Ƣớc lƣợng likelihood Phân đoạn ảnh tương tác, đầu vào của người dùng là đánh dấu một vài điểm ảnh X*, có thể xác định các vùng gieo Y* chứa các điểm gieo với nhãn tương tự. Ý tưởng chính của thuật toán là ước lượng đồng thời tất cả điểm ảnh và vùng likelihoods cho mỗi nhãn l trong (2.10) và (2.11) từ các điểm gieo – CT1501 40
  45. ban đầu X* và Y*. Bây giờ định nghĩa 2 hàm giá trị bậc 2 cho điểm ảnh likelihoods và vùng likelihoods, chúng bổ sung cho nhau. 2.3.2.1 Học likelihoods điểm ảnh Tính toán các đểm ảnh likelihoods Πl bằng cách định nghĩa vùng likelihoods Zl như là thông tin bậc cao trong 1 cách thức có nguyên tắc. Định nghĩa mối quan hệ giữa tất cả các nút V trong đồ thị G, hàm giá trị bậc 2 của điểm ảnh likelihoods Πl với nhãn l như sau: = + + = ( - )2 + ( - )2 + 2 (2.15) = trong (2.12). Tham số cho các điểm ảnh gieo X* * được gọi là nếu xi X và bằng 0 nếu ngược lại. Các pixel-seed likelihood bằng 1 nếu xi được gieo với nhãn là 1 và bằng 0 nếu ngược lại. Likelihood được ước lượng của pixel xi từ vùng likelihoods Zl thì được định nghĩa là trọng số trung bình của các vùng likelihood tương ứng, với = / trong (2.14). Giá trị hàm được định nghĩa từng đôi và 1 toán hạng là điều kiện thông thường được sử dụng cho việc phân đoạn [2][4]. Trong công việc này, thuật toán sử dụng 1 điều kiện bổ sung bậc cao được xác định trong các vùng phân đoạn chồng lấp. Ràng buộc từng đôi và một toán hạng. – CT1501 41
  46. Trong (2.15) ràng buộc đầu tiên là ràng buộc về liên kết nhãn 2 pixel láng giềng, trong 1 hệ thống láng giềng nhỏ, thường thì chọn 4 hoặc 8 láng giềng, nên có các nhãn tương tự nếu chúng có cùng màu. Ràng buộc thứ 2 là 1 liên kết đơn điều mà mỗi pixel gieo nhắm tới 1 nhãn bởi người dùng đưa vào. Đại lượng λ là đơn vị đo hệ số dương cách làm để gắn kết các điểm gieo ban đầu. Điển hình, λ=∞ áp đặt các liên kết vững chắc mỗi điểm gieo 1 cách dứt khoát có các nhãn ban đầu. Ràng buộc này làm tăng lên nhiều lần giá trị , sự cân bằng giữa 2 ràng buộc và là việc cần thiết. Ràng buộc bậc cao. Cuối cùng là ràng buộc thứ 3 trong (2.15) là sự nhất quán của vùng bậc cao, pixel likelihood đồng dạng tương ứng với các vùng likelihood. Hầu hết các vùng thường chứa các pixel thuộc về nhiều nhãn, do đó từng phần được ép buộc với với nhãn đồng nhất của vùng đó là trọng số μ. Điều kiện này cũng được mở rộng bởi giá trị cho sự cân bằng giữa 2 ràng buộc và , giống như ràng buộc thứ 2 . Trong mỗi ràng buộc thuật toán phân đoạn sử dụng các nhãn cứng trong vùng trên giả thuyết tất cả các pixel tạo thành 1 vùng riêng cùng với nhãn tương tự. Công việc sử dụng nhãn mềm này đồng nhất các ràng buộc, cũng giống như mô hình Robust Pn của Kohli et al [7]. Không giống như mô hình tham số này dựa trên số pixel không thu được các nhãn có ảnh hưởng lớn, có thể ước lượng vùng likelihood Z1 học không tham số từ ảnh đã cho. – CT1501 42
  47. 2.3.2.2 Học likelihood vùng Để giải quyết công thức trong (2.15), có thể ước lượng vùng likelihood x Zl bằng cách quy cho các pixel likelihood Πl trong đồ thị G. Giống như J l Y trong (2.15), giá trị J l của vùng likelihood Zl được mô tả như sau: = + + = ( )2 + ( )2 + 2 (2.16) * = trong (2.13). Tham số cho vùng được gieo Y là nếu yk * * Y và bằng 0 nếu ngược lại. Vùng likelihood được gieo z kl nếu yk là điểm gieo với nhãn l và khác 0. Sự ước lượng likelihood kl của vùng yk từ pixel likelihood Πl có trọng số trung bình chứa các pixel likelihood: = với = trong (2.14). Trong (2.16), điều kiện đầu tiên là nhãn liên tục liên kết cả vùng trong hệ thống láng giềng đầy đủ nên có các nhãn giống nhau nếu màu biểu diễn của chúng giống nhau. Ràng buộc thứ 2, là liên kết đơn , nghĩa là mỗi vùng gieo có chứa các nhãn do người sử dụng đưa vào bên trong các seed pixels, giống như trong (2.15). Cuối cùng, ràng buộc thứ 3 là liên kết đơn được ước tính dạng khác, likelihood vùng nêntương tự với trung bình trọng số của các likelihood pixel trong vùng. – CT1501 43
  48. 2.3.3 trong (2.15 trong (2.16), chúng = và từ các điểm gieo ban đầu và tương ứng như sau: = + = + với và . Các phần tử của ma trận và và là độ của X và WY. Các phần tử trên đường chéo của ma trận (hoặc ) là tham λ * *) 0 nếu ngược lại. các likelihood từ từ các giá trị thiết lập ban đầu của nhãn l có thể thu được bằng cách lấy đạo hàm và với và tương ứng. Nó có thể bieur diễn như sau: , (2.17) hoặc đơn giản là: , (2.18) với ma trận , , và – CT1501 44
  49. . Do B=I−(I−Ω)Π (2.18 s . (2.19) [8][9] (RWR) [6][8] . Sau khi (l|xi) trong (2.10 kelihood πil trong (2.19 i như sau: (2.20) i i . – CT1501 45
  50. CHƢƠNG 3: Cài đặt thử nghiệm 3.1 Môi trƣờng cài đặt Chương trình được chạy trên môi trường Windows 7 32 bit, sử dụng ngôn ngữ Matlab R2010b với máy tính có cấu hình như sau: - CPU: Intel(R) Core(TM) i5 CPU M 520 @(2,4 GHz) - HDD: 120 GB - RAM: 4GB 3.2 Một số kết quả thử nghiệm c = 4x10-1 μ=0.02, ϵ =0.2 c = 4x10-2 μ=0.002, ϵ =0.2 c = 4x 10-3 μ=0.0002, ϵ =0.2 c = 4x 10-4 μ=0.00002, ϵ =0.2 – CT1501 46
  51. c = 4x 10-5 μ=0.002, ϵ =0.5 c = 4x 10-6 μ=0.002, ϵ =0.02 c = 4x 10-7 μ=0.002, ϵ =0.0002 c = 4x 10-8 μ=0.002, ϵ =0.00002 (a) Ảnh gốc (b) RWR (c) Bán giám sát 3-1: Kết quả phân đoạn đối với sự biến đổi của xác suất khởi động lại c trong (b) RWR và với sự biến đổi của 2 tham số μ, ϵ trong (c) phân đoạn bán giám sát. Trên hình 3-1 thuật toán phân đoạn RWR với giá trị xác suất khởi động lại c=4x10-4 cho kết quả phân đoạn tối ưu hơn so với các kết quả chứa các giá trị c còn lại. Còn thuật toán phân đoạn bán giám sát cho kết quả tốt hơn cả với 2 tham số μ=0.002, ϵ =0.2. – CT1501 47
  52. (a) Ảnh Gốc (b) RWR (c) Bán giám sát 3-2 So sánh trực quan thuật toán phân đoạn RWR và thuật toán phân đoạn bán giám sát – CT1501 48
  53. , em đã trình bày một số thuật . pháp phân đoạn ảnh bán giám sát của nhóm tác giả trường đại học quốc gia Seoul (Tae Hoon Kim và các cộng sự). Trong quá trình nghiên cứu tài liệu và thực hiện đồ án dưới sự định hướng của thầy giáo hướng dẫn em thấy mình đã đạt được một số kết quả như sau: Tìm hiểu được tổng quan các vấn đề liên quan đến xử lí ảnh, phân đoạn ảnh và các hướng tiếp cận trong phân đoạn ảnh. Em đã tìm hiểu và cài đặt được phương pháp phân đoạn ảnh bán giám sát. Song song với kết quả mà em đạt được em nhận thấy rằng đồ án vẫn còn một số điểm hạn chế: Trong khuôn khổ của một đồ án tốt nghiệp em mới chỉ trình bày lại các kiến thức tìm hiểu được chứ chưa có ý tưởng nào mới để xây dựng đồ án. Đây là một đề tài còn mới mẻ nên em gặp rất nhiều khó khăn để có thể hoàn thành đồ án. Trong đồ án, có một số thuật toán chỉ được trình bày sơ lược, chưa đi vào chuyên sâu. – CT1501 49
  54. TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1] Rabinovich, S. Belongie, T. Lange, and J. M. Buhmann. Model order selection and cue combination for image segmentation. In CVPR, 2006. [2] C. Russell, A. A. Efros, J. Sivic, W. T. Freeman, and A. Zisserman. Using multiple segmentations to discover objects and their extent in image collections. In CVPR, 2006. [3] Couprie, L. Grady, L. Najman, and H. Talbot. Power watersheds: A new image segmentation framework extending graph cuts, random walker and optimal spanning forest. In ICCV, 2009. [4] Hoiem, A. A. Efros, and M. Hebert. Geometric context from a single image. In ICCV, 2005. [5] D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Scholkopf. Learning with local and global consistency. In NIPS, 2003. [6] J.-Y. Pan, H.-J. Yang, C. Faloutsos, and P. Duygulu. Automatic multimedia cross-modal correlation discovery. In KDD, 2004. [7] Jolly, Y. Boykov and M.-P. Interactive graph cuts for optimal boundary & region segmentation of objects in n-d images. In ICCV, 2001. [8] Meer, D. Comaniciu and P. Mean shift: a robust approach toward feature space analysis. PAMI, 24(5):603–619, 2002. [9] X. He, R. S. Zemel, and D. Ray. Learning and incorporating top-down cues in image segmentation. In ECCV, 2006. – CT1501 50
  55. [10] Tae Hoon Kim, Kyoung Mu Lee, Sang Uk Lee. Nonparametric Higher-Order Learning for Interactive Segmentation. In CVPR, 2010. [11] Tae Hoon Kim, Kyoung Mu Lee, Sang Uk Lee. Generative Image Segmentation Using Random Walks with Restart. In ECCV, 2008. Tài liệu tiếng Việt [12] Nguyễn Quang Hoan. Giáo trình xử lí ảnh. Học viện Công nghệ Bưu chính Viễn thông, 2008 [13] Lương Mạnh Bá, Nguyễn Thanh Thuỷ. Nhập môn xử lý ảnh số. Nhà xuất bản Khoa học và Kỹ thuật, 2003. – CT1501 51