Bài giảng Nhập môn đa phương tiện (Phần 2)
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Nhập môn đa phương tiện (Phần 2)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_nhap_mon_da_phuong_tien_p2_3564_369531.pdf
Nội dung text: Bài giảng Nhập môn đa phương tiện (Phần 2)
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Chƣơng 4: Dữ liệu ảnh 4.1. Một số khái niệm cơ bản Hình ảnh tĩnh cĩ thể được biểu diễn bởi hàm hai chiều f(x,y), trong đĩ, x và y là tọa độ khơng gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại một điểm được xác định bởi tọa độ (x,y) được gọi là độ chĩi (mức xám) của ảnh tại điểm này. Nếu x,y,và f là một số hiện hữu các giá trị rời rạc, chúng ta cĩ ảnh số. Xử lý ảnh số là quá trình biến đổi ảnh số trên máy tính (PC). Như vậy, ảnh số được tạo ra bởi một số hữu hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị trí nhất định và cĩ 1 giá trị nhất định. Một điểm ảnh trong một ảnh cịn được gọi là một pixel. Ảnh và điểm ảnh: Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong khơng gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh. Mức xám, màu: Là số các giá trị cĩ thể cĩ của các điểm ảnh của ảnh Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hồn hảo, cho phép con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng quan trọng nhất của xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về sự gia tăng chất lượng hình ảnh quang học trong hệ thống thị giác. Tuy nhiên, mắt người chỉ cảm nhận được sĩng điện từ cĩ bước sĩng hạn chế trong vùng nhìn thấy được, do đĩ ảnh theo quan niệm thơng thường gắn liền với hình ảnh quang học mà mắt người cĩ thể cảm nhận. Trong khi đĩ "ảnh" đưa vào xử lý cĩ thể được tạo ra bởi các nguồn bức xạ cĩ phổ rộng hơn, từ sĩng vơ tuyến tới tia gamma, ví dụ: ảnh do sĩng siêu âm hoặc tia X tạo ra. Nhiều hệ thống xử lý ảnh cĩ thể tương tác với những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực xử lý ảnh cĩ phạm vi tướng đối rộng, và liên quan tới nhiều lĩnh vực khoa học khác. Cĩ thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật tốn xử lý như sau: 66 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT 1- Xử lý ảnh mức thấp: đĩ là các quá trình biến đổi đơn giản như thực hiện các bộ lọc nhằm khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học. 2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để phân lớp, phân đọan ảnh, xác định và dự đĩan biên ảnh, nén anh để lưu trữ hoặc truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, cịn tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận được sau khi nén ảnh. 3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hính ảnh. Đây cũng là quá trình xử lý được thực hiện trong hệ thống thì giác của con người. 4.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh Như đã nĩi ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để nâng cao chất lượng hính ảnh, chình xác hơn là tạo cảm giác về sự gia tăng chất lượng ảnh quang học trong mắt người quan sát. Thời gian gần đây, phạm vi ứng dụng xử lý ảnh mở rộng khơng ngừng, cĩ thể nĩi hiện khơng cĩ lĩnh vực khoa học nào khơng sử dụng các thành tựu của cơng nghệ xử lý ảnh số. Trong y học các thuật tĩan xử lý ảnh cho phép biến đổi hính ảnh được tạo ra từ nguồn bức xạ X -ray hay nguồn bức xạ siêu âm thành hính ảnh quang học trên bề mặt film x-quang hoặc trực tiếp trên bề mặt màn hính hiển thị. Hính ảnh các cơ quan chức năng của con người sau đĩ cĩ thể được xử lý tiếp để nâng cao độ tương phản, lọc, tách các thành phần cần thiết (chụp cắt lớp) hoặc tạo ra hính ảnh trong khơng gian ba chiều (siêu âm 3 chiều). Trong lĩnh vực địa chất, hính ảnh nhận được từ vệ tinh cĩ thể được phân tìch để xác định cấu trúc bề mặt trái đất. Kỹ thuật làm nổi đường biên (image enhancement) và khơi phục hính ảnh (image restoration) cho phép nâng cao chất lượng ảnh vệ tinh và tạo ra các bản đồ địa hính 3-D với độ chình xác cao. 67 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Ảnh nhận được từ vệ tinh dùng trong khì tượng học Trong ngành khì tượng học, ảnh nhận được từ hệ thống vệ tinh theo dõi thời tiết cũng được xử lý, nâng cao chất lượng và ghép hính để tạo ra ảnh bề mặt trái đất trên một vùng rộng lớn, qua đĩ cĩ thể thực hiện việc dự báo thời tiết một cách chình xác hơn. Dựa trên các kết quả phân tìch ảnh vệ tinh tại các khu vục đơng dân cư cịn cĩ thể dự đĩan quá trính tăng trưởng dân số, tốc độ ơ nhiễm mơi trường cũng như các yếu tố ảnh hưởng tới mơi trường sinh thái. Ảnh chụp từ vệ tinh cĩ thể thu được thơng qua các thiết bị ghi hính cảm nhận được tia sáng quang học (λ = 450 − 520 nm) (hính 2a), hoặc tia hồng ngoại (λ = 760 − 900 nm) (hính2b). Trên hính 2a và 2b lần lượt là ảnh bề mặt trái đất nhận được từ 2 ống ghi hính nĩi trên, dễ dàng nhận thấy sự khác biệt rõ ràng giữa hai ảnh. Đặc biệt trên ảnh 2b, hính con sơng được tách biệt rất rõ ràng so với vùng ảnh hai bên bờ. Thiết bị thu hính nhạy cảm với vật thể bức xạ các tia trong miền hồng ngoại sẽ cho ra những bức ảnh trong đĩ vật thể cĩ nhiệt độ thấp sẽ được phân biệt rõ ràng so với vật thể cĩ nhiệt độ cao hơn. Như vậy việc lựa chọn các thiết bị ghi hính khác nhau sẽ tạo ra ảnh cĩ đặc tình khác nhau, tùy thuộc vào mục đìch sử dụng trong các lĩnh vực khoa học cụ thể . 2.2.1a 2.2.1b Hình 2.1.2 - Ảnh bề mặt trái đất thu được từ hai camera khác nhau 68 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Xử lý ảnh cịn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số lượng hàng hĩa trong các dây truyền tự động, vì dụ như hệ thống phân tìch ảnh để phát hiện bọt khì bên vật thể đúc bằng nhựa, phát hiện các linh kiện khơng đạt tiêu chuẩn (bị biến dạng) trong quá trính sản xuất hoặc hệ thống đếm sản phẩm thơng qua hính ảnh nhận được từ camera quan sát. Xử lý ảnh cịn được sử dụng rộng rãi trong lĩnh vực hính sự và các hệ thống bảo mật hoặc kiểm sốt truy cập: quá trính xử lý ảnh với mục đìch nhận dạng vân tay hay khuơn mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả hệ thống bảo mật cá nhân cũng như kiểm sốt ra vào. Ngồi ra, cĩ thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử lý ảnh tĩnh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng mục tiêu quân sự, máy nhín cơng nghiệp trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và truyền trong mạng viễn thơng v.v. 4.3. Các giai đoạn chính trong xử lý ảnh 1- Thu nhận hính ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong tịan bộ quá trính xử lý ảnh. Ảnh nhận được tại đây chình là ảnh gốc để đưa vào xử lý tại các giai đoạn sau, trường hợp ảnh gốc cĩ chất lượng kém hiệu quả của các bước xử lý tiếp theo sẽ bị giảm. Thiết bị thu nhận cĩ thể là các ơng ghi hính chân khơng (vidicon, plumbicon v.v.) hoặc thiết bị cảm biến quang điện bán dẫn CCD (Charge-Coupled Device). 2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để trợ giúp cho các quá trính xử lý nâng cao tiếp theo, vì dụ: tăng độ tương phản, làm nổi đường biên, khử nhiễu v.v. 3- Phân đoạn: là quá trính tách hính ảnh thành các phần hoặc vật thể riêng biệt. Đây là một trong nhưng vấn đề khĩ giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện tách quá chi tiết thí bài tốn nhận dạng các thành phần được tách ra trở nên phức tạp, cịn ngược lại nếu quá trính phân đoạn được thực hiện quá thơ hoặc phân đọan sai thí kết quả nhận được cuối cùng sẽ khơng chình xác. 4- Biểu diễn và mơ tả: là quá trính xử lý tiếp sau khâu phân đoạn hính ảnh. Các vật thể sau khi phân đọan cĩ thể được mơ tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới 69 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đĩ. Phương pháp mơ tả thơng qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hính dạng bên ngịai của chi tiết ảnh như độ cong, các gĩc cạnh v.v. Biểu diễn vùng thường được sử dụng khi chúng ta quan tâm tới đặc tình bên trong của vùng ảnh như đường vân (texture) hay hính dạng skeletal. 5- Nén ảnh - bao gồm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu trữ hính ảnh, hay giảm băng thơng kênh truyền, cần thiết để truyền tìn hiệu hính ảnh số. 6- Nhận dạng: là quá trính phân loại vật thể dựa trên cơ sở các chi tiết mơ tả vật thể đĩ (vì dụ các phương tiện giao thơng cĩ trong ảnh). Các quá trính xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều khiển dựa trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản cĩ thể đơn giản như vị trì vùng ảnh nơi cĩ những thơng tin cần quan tâm, như vậy cĩ thể thu nhỏ vùng tím kiếm. Trường hợp phức tạp hơn, cơ sở kiến thức cĩ thể chứa danh sách tất cả những hư hỏng cĩ thể gặp trong quá trính kiểm sĩat chất lượng thành phẩm hoặc các ảnh vệ tinh cĩ độ chi tiết cao trong các hệ thống theo dõi sự thay đổi mơi trường trong một vùng. Ngồi việc điều khiển họat động của từng modul xử lý ảnh (hính 2.1.3), cơ sở kiến thức cịn sử dụng để thực hiện việc điều khiển tương tác giữa các modules. Trong hính 2.1.3, quá trính điều khiển nĩi trên được biểu diễn bằng mũi tên hai chiều. Các giai đoạn xử lý ảnh số 4.4. Các phần tử cơ bản của hệ thống xử lý ảnh số 70 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Cấu trúc một hệ thống xử lý ảnh đa dụng dùng để thực hiện các giai đoạn xử lý ảnh đề cập ở trên được mơ tả trên hính 2.1.4. Các thành phần chình của hệ thống xử lý ảnh Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Cĩ nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại thiết bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và chip CCD (Charge Couple Device – linh kiện ghép điện tích). Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng tương đối rộng rãi trong camera màu cũng như đen trắng. Ống Vidicon cĩ kích thước nhỏ gọn (đường kính 18-25 mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử dụng. Đèn hình này sử dụng nguyên lý hiệu ứng quang điện trong và nguyên lý tìch lũy điện tích. Chip CCD là linh kiện bán dẫn cĩ khả năng biến đổi năng lượng quang phổ thành tín hiệu điện. Thành phần chính của chip CCD là 71 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT các tụ điện MOS (Metal-Oxide- Semiconductor). Tụ điện MOS được hình thành bởi ba lớp: một má tụ bằng kim loại, chất điện mơi nằm giữa là lớp SiO2 và một má tụ bằng lớp bán dẫn loại p hoặc n (hình 2.1.5). Hình 2.1.5 Cấu trúc tụ điện MOS Một chuỗi tụ điện MOS phân bố đều trên bề mặt chip CCD được biểu diễn trên hình 2.1.6a, mỗi tụ điện với bề mặt cảm quang là má bán dẫn sẽ tạo ra một điểm trên hình ảnh thu được.Theo phương pháp dịch chuyển điện tích, các chip CCD cĩ thể chia ra làm hai loại: CCD dạng chuỗi (một chiều) và dạng ma trận (hai chiều). Trên Hình 2.1.6a là cấu trúc chip CCD dạng chuỗi, quá trình ghi (tích điện) và đọc được thực hiện tại hai khu vực khác nhau, gọi là miền tích điện và miền nhớ. Hai khu vực trên được ngăn cách bởi cổng chuyển dịch. Sau khi kết thúc quá trình tích điện tại các phần tử cảm quang, điện tìch sẽ được truyền song song qua cổng chuyển dịch vào thanh dịch ngang (khơng nhạy cảm với ánh sáng) tức miền nhớ. Sau khi cổng chuyển dịch đĩng lại, quá trình ghi và đọc tại hai miền nĩi trên sẽ được tiến hành song song. Chip CCD sử dụng trong máy quay video thường cĩ cấu trúc ma trận (hình 2.16b). Các phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình “đọc” tín hiệu được thực hiện theo chiều ngang và chiều dọc. Cĩ nhiều cách tổ chức quá trình ghi và đọc tín hiệu trong CCD, nhưng phổ biến nhất là phương pháp dịch chuyển từng ảnh. Khi sử dụng phương pháp này, trong chip CCD được thiết kế một miền nhớ, khơng 72 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT tiếp xúc với ánh sáng và cĩ diện tìch bằng miền tìch lũy – là ma trận các phần tử cảm quang. Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đĩ, quá trình ghi ảnh tại miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ được tiến hành song song.Từng dịng ảnh được dịch chuyển xuống thanh dịch ngang, sau đĩ các gĩi điện tìch ứng với các điểm trong dịng ảnh sẽ được đẩy ra lần lượt khỏi thanh dịch. Sau khi tồn bộ ảnh trong miền nhớ được đọc ra hết, một ảnh mới từ miền tích lũy sẽ lại được chuyển về đây.Với những tính năng vượt trội trước ống ghi hình điện tử cổ điển, linh kiện biến đổi - quang điện CCD được sử dụng rất rộng rãi trong cơng nghệ truyền hình và ảnh số. Hầu hết các camera quay video dân dụng và bán chuyên nghiệp (semi- professional) được thiết kế trên cơ sở chip CCD. Bộ nhớ trong và ngồi trong các hệ thống xử lý ảnh số thường cĩ dung lượng rất lớn dùng để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước 1024x1024 điểm, mỗi điểm được mã hĩa bằng 8 bits cần bộ nhớ ~1MB. Để lưu một ảnh màu khơng nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh cĩ thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải cĩ khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- bộ nhớ ngồi cĩ tốc độ truy cập tương đối nhanh, dùng để lưu thơng tin thường dùng. Các bộ nhớ ngồi cĩ thể là ổ cứng, thẻ nhớ flash v.v 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường cĩ dung lượng lớn, tốc độ truy cập khơng cao. Thơng dụng nhất là đĩa quang ghi 1 lần (ROM) hoặc nhiều lần (ROM) như đĩa DVD cĩ dung lượng 4.7GB (một mặt). Ngồi ra trong hệ thống xử lý ảnh cịn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đĩ cĩ thể là máy in phun, in laser, in trên giấy ảnh đặc biệt bằng cơng nghệ nung nĩng v.v. Bộ xử lý ảnh chuyên dụng: Xử dụng chip xử lý ảnh chuyên dụng, cĩ khả năng thực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường bao, nén và giải nén video số v.v Trong bộ xử lý ảnh thường tìch hợp bộ nhớ đệm cĩ tốc độ cao. 73 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng như màu) cĩ nhiệm vụ biến đổi tín hiệu điện cĩ chứa thơng tin của ảnh (tìn hiệu video) thành hính ảnh trên màn hình. Cĩ hai dạng display được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường cĩ khả năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp. Máy tính: cĩ thể là máy tính để bàn cũng như siêu máy tính cĩ chức năng điều khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số. 4.5 Hệ màu 4.5.1. Màu sắc Màu sắc được sử dụng trong các ứng dụng đồ họa máy tính để giúp người dùng hiểu rõ về đối tượng hính học. Các màn hính đồ họa sử dụng các Màu sắc chromatic. Chúng dựa trê n lý thuy ết v ề bộ não người là Màu sắc ánh sáng được tiếp nhận như sự phối hợp từ 3 Màu là đỏ (red), xanh lá cây (green), và anh dương (blue). Nĩi chung, Màu được mơ tả bằng 3 thuộc tình là Màu sắc (hue), độ bão hịa (saturation), và độ sáng (brightness), chúng xác định vị trì trong quang phổ Màu, độ tinh khiết và cường độ sáng. Cĩ hàng loạt phương pháp được tạo các mơ hính Màu trong các ứng dụng đồ họa. Trong phần này chỉ đưa ra những mơ hính Màu tiêu biểu hơn cả, giúp tím hiểu các ứng dụng đã lựa chọn Màu sắc thìch h ợp như thế nào. 4.5.2. Mơ hình màu RGB Mơ hính màu RGB mơ tả màu sắc bằng 3 thành phần chình là Red - Green và Blue. Mơ hình này được xem như một khối lập phương 3 chiều với màu red là trục x, 74 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT màu Green là truc y, và màu Blue là trục z. Mỗi màu trong mơ hình này được xác định bởi 3 thành phần R, G, B. Ứng với các tổ hợp khác nhau của 3 màu này sẽ cho ta một màu mới . Trong hính lập phương trên, mỗi màu gốc (R,G,B) cĩ các gốc đối diện là các màu bù với nĩ. Hai màu được gọi là bù nhau khi kết hợp hai màu này lại với nhau ra Màu trắng. Vì dụ : Green -Magenta, Red - Cyan, Blue - Yellow. Hệ màu RGB (Red - Green - Blue) ra đời đầu tiên dựa trên sự pha trộn từ 3 nguồn ánh sáng cơ bản là Red (đỏ cờ), Green (màu lục, xanh lá), và Blue (màu lam, xanh dương) để tạo nên tất cả các màu cịn lại, ngoại trừ màu đen. Màu đen: màu đen là "khơng màu", lúc cả 3 nguồn sáng đều tắt (lúc màn hính tối thui) Màu trắng xuất hiện khi cả 3 nguồn sáng trên chiếu sáng ở cường độ tối đa Từ đây cĩ thể dễ dàng suy ra các màu xám là do pha trộn 3 nguồn cĩ cường độ chiếu sáng bằng nhau. Các màu khác là do sự hịa trộn 3 màu trên với tỉ lệ khác nhau theo qui tắc màu cộng (additive primaries) - cộng thêm màu từ màu đen ban đầu, là màu lúc màn hính "cúp điện", tối thui với thang màu từ 0 đến 255. Hính bên thí sự giao thoa 3 màu RGB tạo ra 3 màu thứ cấp, màu bậc 2 (pha trộn lần thứ nhất) là vàng (yellow), xanh da trời (cyan) và hồng cánh sen (Magagenta) RGB là hệ màu phổ biến cho các máy hiển thị hính bằng đèn phĩng như màn hính vi tình, tivi màu, máy chiếu phim 4.5.3. Mơ hình màu CMYK 75 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Tương tự như mơ hính màu RGB nhưng 3 thành phần chình là Cyan - Magenta - Yellow. Do đĩ, tọa độ các màu trong mơ hình CMY trái ngược với mơ hính RGB. Vì dụ : màu White cĩ các thành phần là (0,0,0), màu Black (1,1,1), màu Cyan (1,0,0), Trong in ấn thí "khơng màu" lại là màu trắng, đĩ là màu trang giấy hay mảnh vải lúc chưa in rắc rối phát sinh ví khơng thể sử dụng hệ màu RGB cho trường hợp này được. Vậy là một hệ màu mới được tạo riêng cho in ấn theo quy tắc màu trừ (subtractive primaries) - trừ bớt màu từ màu trắng ban đầu. 3 màu chình của hệ màu này là xanh cơ- ban (Cyan, turquoise: màu xanh lơ), hồng cách sen (Magenta) và màu Vàng (Yellow) . Ba màu này, theo lý thuyết, khi trộn vào nhau ở cường độ cao nhất, sẽ tạo ra màu đen (ngược lại với trường hợp RGB), Thực chất 3 màu này là 3 màu đối nghịch với 3 màu cơ bản RGB, được pha trộn theo qui tắc màu trừ, sự thêm vào các màu này giống như là quá trính trừ bớt màu RGB từ màu trắng ban đầu (là màu lúc tờ giấy chưa in, cịn mới, trắng tinh) thang màu từ 0 đến 100%. 4.5.4. Mơ hình màu HSV 76 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Thực chất của mơ hính này là sự biến đổi của mơ hính RGB. Mơ hình HSV được mơ tả bằng lệnh lập phương RGB quay trên đỉnh Black. H (Hue) là gĩc quay trục V (value) qua 2 đỉnh Black và White. Các giá trị biến thiën của H, S, V như sau: (Hue) chỉ sắc thái cĩ giá trị từ 00 - 3600 . S (Saturation) chỉ độ bão hô. V (Value) cĩ giá trị từ 0 - 1. Các Màu đạt giá trị bão hịa khi s = 1 và v = 1. 4.6 Thu nhận và các thiết bị thu nhận ảnh Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này cĩ thể cho ảnh đen trắng .Các thiết bị thu nhận ảnh cĩ 2 loại chình ứng với 2 loại ảnh thơng dụng Raster, Vector. Các thiết bị thu nhận ảnh thơng thường Raster là camera các thiết bị thu nhận ảnh thơng thường Vector là sensor hoặc bàn số hố Digitalizer hoặc được chuyển đổi từ ảnh Raster. Nhín chung các hệ thống thu nhận ảnh thực hiện 1 quá trính: - Cảm biến: biến đổi năng lượng quang học thành năng lượng điện - Tổng hợp năng lượng điện thành ảnh 4.7 Biểu diễn ảnh Ảnh trên máy tình là kết quả thu nhận theo các phương pháp số hố được nhúng trong các thiết bị kỹthuật khác nhau. Quá trính lưu trữ ảnh nhằm 2 mục đìch: - Tiết kiệm bộnhớ - Giảm thời gian xử lý Việc lưu trữ thơng tin trong bộ nhớ cĩ ảnh hưởng rất lớn đến việc hiển thị, in ấn và xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kìch thước nếu sử dụng càng nhiều điểm ảnh thí bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độphân giải. Việc lựa chọn độ phân giải thìch hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đĩ các ảnh thường được biểu diễn theo 2 mơ hính cơ bản 4.7.1. Mơ hình Raster 77 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Đây là cách biểu diễn ảnh thơng dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh). Thường thu nhận qua các thiết bị như camera, scanner. Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua 1 hay nhiều bìt. Mơ hính Raster thuận lợi cho hiển thị và in ấn. Ngày nay cơng nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra. Một thuận lợi cho việc hiển thị trong mơi trường Windows là Microsoft đưa ra khuơn dạng ảnh DIB (Device Independent Bitmap) làm trung gian. Hình dưới thể hính quy trính chung để hiển thị ảnh Raster thơng qua DIB. Một trong những hướng nghiên cứu cơ bản trên mơ hính biểu diễn này là kỹ thuật nén ảnh các kỹ thuật nén ảnh lại chia ra theo 2 khuynh hướng là nén bảo tồn và khơng bảo tồn thơng tin nén bảo tồn cĩ khảnăng phục hồi hồn tồn dữ liệu ban đầu cịn nếu khơng bảo tồn chỉ cĩ khả năng phục hồi độ sai số cho phép nào đĩ. Theo cách tiếp cận này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX Hiện nay trên thế giới cĩ trên 50 khuơn dạng ảnh thơng dụng bao gồm cả trong đĩ các kỹthuật nén cĩ khả năng phục hồi dữ liệu 100% và nén cĩ khảnăng phục hồi với độ sai số nhận được. Quá trính hiển thị và chỉnh sửa, lưu trữ ảnh thơng qua DIB 4.7.2. Mơ hình Vector Biểu diễn ảnh ngồi mục đìch tiết kiệm khơng gian lưu trữ dễ dàng cho hiển thị và in ấn cịn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tím kiếm Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ưu việt hơn. Trong mơ hính vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hố và tái tạo hính ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hố như Digital hoặc được chuyển đổi từ ảnh Raster thơng qua các chương trính số hố. 78 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Cơng nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster. Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster. Sự chuyển đổi giữa các mơ hính biểu diễn ảnh 4.8 Nén ảnh Nhằm giảm thiểu khơng gian lưu trữ. Thường được tiến hành theo cả hai cách khuynh hướng là nén cĩ bảo tồn và khơng bảo tồn thơng tin. Nén khơng bảo tồn thí thường cĩ khả năng nén cao hơn nhưng khả năng phục hồi thí kém hơn. Trên cơ sở hai khuynh hướng, cĩ 4 cách tiếp cận cơ bản trong nén ảnh: Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đĩ mà cĩ chiến lược mã hĩa thìch hợp. Một vì dụ điển hính cho kỹthuật mã hĩa này là *.TIF Nén ảnh khơng gian: Kỹ thuật này dựa vào vị trì khơng gian của các điểm ảnh để tiến hành mã hĩa. Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau. Vì dụ cho kỹthuật này là mã nén *.PCX Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén khơng bảo tồn và do vậy kỹ thuật thường hiệu quả hơn. *.JPG chình là tiếp cận theo kỹ thuật nén này. Nén ảnh Fractal: Sử dụng tình chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại của các chi tiết. Kỹ thuật nén sẽ tình tốn để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal. 4.8.1. Nén JPEG 4.8.1.1. Tổng quan Các phương pháp nén JPEG thường tổn hao, cĩ nghĩa là một số thơng tin hính ảnh ban đầu là bị mất và khơng thể phục hồi, cĩ thể ảnh hưởng đến chất lượng hính ảnh. 4.8.1.2. Mã hĩa JPEG 79 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Mặc dù một tập tin JPEG cĩ thể được mã hĩa trong nhiều cách khác nhau, phổ biến nhất được thực hiện với mã hĩa JFIF. Quá trính mã hĩa bao gồm các bước: . Các đại diện của các màu sắc trong hính ảnh được chuyển đổi từ RGB sang YCbCr, bao gồm một thành phần luma (Y), đại diện cho độ sáng, và hai thành phần sắc độ (Cb và Cr), đại diện cho màu. . Giảm độ phân giải của dữ liệu, thường là một hệ số 2. Điều này phản ánh thực tế là mắt ìt nhạy cảm với các chi tiết màu sắc tốt hơn các chi tiết độ sáng tốt. . Hính ảnh được chia thành các khối điểm ảnh 8 × 8, và với mỗi khối, mỗi dữ liệu Y, Cb, và Cr trải qua một biến đổi cosin rời rạc (DCT). . Biên độ của các thành phần tần số được lượng tử hĩa. . Các dữ liệu kết quả cho tất cả các khối 8 × 8 nén với một thuật tốn khơng mất dữ liệu, một biến thể của mã hĩa Huffman. Quá trính giải mã đảo ngược các bước này, ngoại trừ lượng tử bởi ví nĩ là khơng thể đảo ngược. . Mã hĩa Nhiều tùy chọn trong tiêu chuẩn JPEG khơng được sử dụng phổ biến, trong khi những thứ khác quy định cụ thể các phương pháp mã hĩa. Đây là một mơ tả ngắn gọn của một trong các phương pháp mã hĩa phổ biến khi áp dụng cho một đầu vào cĩ 24 bit cho mỗi pixel. . Khơng gian biến đối màu Thứ nhất, hính ảnh được chuyển đổi từ RGB thành một khơng gian màu khác nhau gọi là YCbCr. Nĩ cĩ ba thành phần Y, Cb và Cr: Y: thành phần đại diện cho độ sáng của điểm ảnh, và các thành phần Cb và Cr đại diện cho màu (chia thành các thành phần màu xanh và đỏ). . Lấy mẫu sắc độ Do đặc điểm về nhạy cảm trong mắt người đối với m ật độ của màu sắc và độ sáng, con người cĩ thể cảm nhận tốt hơn đáng kể đối với độ sáng của một hính ảnh (thành phần Y) so với màu sắc và độ bão hịa màu sắc của một hính ảnh (các thành phần CbCr). 80 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT . Phân tách khối Sau khi lấy mẫu, mỗi kênh được chia thành các khối 8 × 8. . Biến đổi Cosin rời rạc Tiếp theo, mỗi khối 8 × 8 của mỗi thành phần (Y, Cb, Cr) chuyển đổi sang một miền tần số đại diện, thơng thường là biến đổi cosin rời rạc (DCT) hai chiều. . Lượng tử hĩa Mắt người cĩ thể nhín thấy sự khác biệt về độ sáng trên một trên một tần số thấp, nhưng khơng phân biệt chình xác m ức độ của sự thay đổi độ sáng ở tần số cao. Điều này cho phép giảm đáng kể số lượng thơng tin trong các thành phần tần số cao. Điều này được thực hiện đơn giản là bằng cách chia mỗi thành phần trong các mức tần số với một hằng số, và sau đĩ làm trịn đến số nguyên gần nhất. . Mã hĩa Entropy Mã hĩa entropy là một hính thức đặc biệt của nén khơng mất dữ liệu. Nĩ liên quan đến việc sắp xếp các thành phần hính ảnh trong một trật tự "ngoằn ngoèo" sử dụng thuật tốn mã hĩa duyệt chiều dài (RLE) tình tốn tần số các nhĩm tương tự nhau, chèn mã đánh sốchiều dài, và sau đĩ sử dụng mã hĩa Huffman vào những gí cịn lại. Quá trính mã hĩa và giải mã JPEG tuần tự . Tỷ số nén JPEG Tỉ số nén cĩ thể được thay đổi theo nhu cầu chất lượng trong các ước lượng được sử dụng trong giai đoạn lượng tử hĩa. Tỉ số nén 10 :1 thường cho kết quả hính ảnh 81 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT mà khơng thể được phân biệt bằng mắt thường so với bản gốc. Tỉ số nén 100 : 1 thường cĩ thể phân biệt rõ ràng so với bản gốc. Mức độ thìch hợp của tỉ số nén phụ thuộc vào việc sử dụng hính ảnh. 4.8.1.3. Giải mã JPEG a. Các bước giải mã Giải mã để hiển thị hính ảnh bao gồm tất cả các mã hĩa theo chiều ngược lại. b. Yêu cầu về độ chính xác Quá trính mã hĩa trong chuẩn JPEG khơng giúp khắc phục được độ chình xác cần thiết cho việc nén hính ảnh đầu ra. Tuy nhiên, chuẩn JPEG lại bao gồm một số yêu cầu nhằm tăng tình chình xác cho việc giải mã, đầu ra từ các thuật tốn khơng được vượt quá: - Tối đa là 1 bit khác biệt cho mỗi Pixel - Chất lượng thấp cĩ nghĩa lỗi một ơ vuơng trên mỗi khối 8 × 8 Pixel - Chất lượng rất thấp cĩ nghĩa là lỗi trên mỗi khối 8 x 8 Pixel - Chất lượng rất thấp cĩ nghĩa là lỗi ơ vuơng trên tồn bộ hính ảnh - Chất lượng quá thấp cĩ nghĩa là lỗi trên tồn bộ hính ảnh 4.8.1.4. Hiệu ứng hình ảnh thu đƣợc khi nén JPEG Tỷ lệ nén cao ảnh hưởng nghiêm trọng đến chất lượng của hính ảnh, mặc dù màu sắc và hính thức tổng thể hính ảnh vẫn cịn nhận ra. 4.8.2. Nén Fractal 4.8.2.1 Tổng quan Lý thuyết hính học Fractal là một ngành tốn học hiện đại cịn rất non trẻ. Bài tốn trung tâm của lý thuyết là mơ tả các đối tượng tự nhiên một cách hiệu quả dựa vào các cơng cụ tốn học. Lý thuyết này do B.Mandelbrot đưa ra thơng qua tác phẩm “Hính học Fractal trong tự nhiên”. 4.8.2.2 Thuật tốn nén – giải nén a. Thuật tốn nén ảnh Fractal Quá trính bắt đầu bằng việc phân hoạch ảnh cần nén thành các khối khơng lấp lên nhau gọi là các khối range, sau đĩ xác định một tập các khối domain. 82 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Với mỗi khối range cần phải chọn được khối domain thìch hợp sao cho khi áp dụng một phép ánh xạ affirne co 3 chiều (về vị trì và độ xám), ảnh thu được cĩ thể đối sánh tốt với khối range đang xét. b. Thuật tốn giải nén Fractal Xuất phát từ dữ liệu nén chứa trong file ảnh Fractal, chúng ta xây dựng lại hệ hàm lặp tương ứng với ảnh khởi động bất kỳ và sau đĩ áp dụng liên tiếp hàm lặp này vào các ảnh thu được sau mỗi lần lặp cho đến khi thu được ảnh xấp xỉ tốt nhất với ảnh ban đầu. c. Các cách phân hoạch ảnh - Phân hoạch quadtree - Phân hoạch HV - Phân hoạch tam giác d. Phân loại Bước so sánh domain-range của nén ảnh Fractal cĩ cường độ tình tốn rất lớn. Để cĩ thể giảm thời gian nén ảnh, chúng ta tạo sẵn các domain và đưa chúng vào một thư viện domain gọi là domain pool. Trước khi mã hĩa, tất cả các domain trong thư viện domain được phân loại. Điều này tránh sự phân loại lại của các domain. e. Kết luận Dựa vào lý thuyết và các kiểm nhiệm thực tế, phương pháp nén ảnh này cho thấy: - Tỉ số nén cao: Điểm nổi bật nhất mà thuật tốn nén và giải nén bằng kỹ thuật Fractal cung cấp được là tỉ số nén cực cao với chất lượng ảnh nén khơng thay đổi. - Tốc độ giải nén ảnh nhanh: Thuật tốn được trính bày là một thuật tốn khơng đối xứng ví các tình tốn trong việc nén ảnh địi hỏi một lượng thời gian lớn hơn rất nhiều lần so với thời gian giải nén. - Tình độc lập về độ phân giải giữa ảnh nén và ảnh gốc: Thuật tốn nén ảnh và giải nén bằng kỹ thuật Fractal về thực chất đã cung cấp một bộ tạo sinh để vẽ lại ảnh gốc dựa trên một số cực nhỏ thơng tin cần thiết ban đầu. 83 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Chƣơng 5: Dữ liệu âm thanh 5.1. Một số khái niệm cơ bản - Âm thanh (audio): là dao động các sĩng âm gây ra áp lực làm dịch chuyển các hạt vật chất trong mơi trường đàn hồi làm tai người cảm nhận được các dao động này. Tai người cĩ thể nghe được các dao động trong khoảng tần số 20Hz đến 20kHz. - Âm thanh tự nhiên: là sự kết hợp giữa các sĩng âm mang tần số khác nhau. - Dải động của tai: giới hạn bởi ngưỡng nghe thấy (0dB) đến ngưỡng đau (120dB) của người. - Ngưỡng nghe tối thiểu: mức thấp nhất của biên độ mà tai người cĩ thể cảm nhận được âm thanh tùy thuộc vào từng người, mức áp lực và tần số của âm thanh. - Hiệu ứng che khuất âm thanh: hiện tượng âm thanh mà tại đĩ ngưỡng nghe của một âm tăng lên trong khi cĩ mặt của một âm khác (khĩ nghe hơn). Được sử dụng trong kỹ thuật nén. - Hướng âm thanh: tai và não cĩ thể giúp ta xác định hướng âm thanh, điều này cĩ thể ứng dụng để tạo các hiệu ứng âm thanh như stereo, surround. - Vang và trễ: vang là hiện tượng kéo dài âm thanh sau khi nguồn âm đã tắt. Trễ là thời gian d âm thanh phản xạ đến đìch so với âm thanh trực tiếp. Nếu d > 50ms thí trễ đĩ gọi là tiếng vọng. Biên độ của âm thanh cứ sau một lần phản xạ thí bị suy giảm. 5.2. Ứng dụng của âm thanh Âm thanh đĩng vai trị quan trọng trong các ứng dụng truyền thơng đa phương tiện. Các hiệu ứng đặc biệt của âm thanh như âm nhạc và tiếng nĩi cĩ thể được đưa vào các ứng dụng, đặc biệt là các ứng dụng trong hệ thống đào tạo và bán hàng tự động hoặc hệ thống điểm thơng tin. Một lời chú thìch bằng tiếng nĩi cĩ thể được dùng để diễn tả những gí đang diễn ra trên màn hính hoặc để làm nổi bật và nhấn mạnh những khái niệm then chốt. Âm thanh cĩ thể được sử dụng kết hợp với hính ảnh tĩnh hoặc động để giải thìch cho người sử dụng một ý tưởng hay một quy trính hiệu quả hơn theo cách giải thìch 84 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT chỉ đơn giản bằng văn bản hay đồ họa, âm nhạc cĩ thể được sử dụng để thu hút sự chú ý của khách hàng hoặc để tạo ra một phong cách riêng biệt. Trong một số lĩnh vực chuyên dụng tự âm thanh cĩ thể hính thành lên sự lơi cuốn của một số ứng dụng truyền thơng đa phương tiện, chẳng hạn như các hệ thống chỉ đường của người khiếm thị, Cơng nghệ xử lý âm thanh ngày càng được cải tiến, mối quan tâm của người dùng đến các hệ thống xử lý và nhận dạng tiếng nĩi trong các ứng dụng kinh doanh, an ninh, ngày càng tăng lên. 5.3. Kỹ thuật Audio số Để máy tình làm việc được với âm thanh, chúng phải được chuyển thành tìn hiệu số (digital) từ tìn hiệu tương tự. Quá trính này gọi là “lấy mẫu” (sampling), mỗi một phần của một thời gian lấy mẫu, tìn hiệu tương tự được ghi nhận lại thành những bit. Cĩ 2 yếu tố ảnh hưởng đến chất lượng âm thanh: 1. Tần số lấy mẫu: - Tần số lấy mẫu là số lần mẫu được lấy trong một đơn vị thời gian. - Tần số chung nhất là: 11.025 kHz, 22.05 kHz, và 44.1 kHz. - Nếu tần số lấy mẫu cao hơn thí chất lương sẽ tốt hơn. 2. Số bit mã hố (kích thước lấy mẫu): Quyết định tổng lượng thơng tin cĩ thể biểu diễn (mã hố). Minh họa: Tìn hiệu analog và digital. - Kìch thước lấy mẫu thơng thường là 8 bit và 16 bit. - Kìch thước lấy mẫu 8-bit cho 256 giá trị dùng để thể hiện âm thanh, nếu 16- bit thí cho 65. 536 giá trị. - Nếu kìch thước lấy mẫu cao hơn thí chất lượng sẽ tốt hơn. Kìch thước file của 10 giây ứng với giá trị tần số và số bit: 85 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Tần số Số Bit Kìch thước File 44.1 kHz 16 1.76 MB 44.1 kHz 8 882 KB 22.05 kHz 16 882 KB 22.05 kHz 8 440 KB 11.025 kHz 8 220 KB Sĩng âm và cảm giác âm Chuyển đổi Analog-Digital Xử lý, Lưu trữ, Truyền dẫn (Digital) Chuyển đổi Xuất âm hiển thị Nguồn tín hiệu (Analog) Analog-Digital Analog 5.4 Giới thiệu về âm thanh và hệ thống xử lý âm thanh 5.4.1. Âm thanh(Sound) Âm thanh về mặt cảm giác đĩ là sự cảm nhận của con người thơng qua thình giác và bộ não. Âm thanh về mặt khoa học đĩ là sự vận động vật lý trong mơi trường trung gian của các nguyên tử theo dạng sĩng, các sĩng này cĩ tần số thay đổi theo thời gian. Người ta cĩ thể mơ tả chuyển động của sĩng âm thanh bằng một đại lượng liên tục theo thời gian, nĩi cách khác cĩ thể mơ tả âm thanh bằng đại lượng analog theo cách sau: Sĩng âm thanh lan truyền trong khơng khì tác động lên vật chắn cĩ nối với nguồn điện, sĩng âm thanh tạo nên áp suất thay đổi lên vật chắn làm cho điện thế V của nguồn điện thay đổi liên tục - điện thế chình là biểu diễn sự thay đổi liên tục của sĩng âm thanh, người ta nĩi rằng đại lượng biểu diễn sự thay đổi của sĩng âm thanh theo thời gian là đại lượng analog (tương tự). 86 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Chu kỳ và tần số Như chúng ta đã biết, đối với sĩng âm cĩ một số thuộc tình quan trọng sau: Chu kỳ (period), tần số (frequence), tốc độ (speed), biên độ (amplitude), - Chu kỳ là khoảng thời gian xuất hiện liên tiếp của đỉnh sĩng tại một điểm; kí hiệu T - Tần số là là số chu kỳ diễn ra trong một đơn vị thời gian tình theo giây. Đơn vị của tần số tính bằng Hertz (Hz). Kí hiệu là f. Giữa chu kỳ và tần số cĩ mối liên hệ sau: T=1/f. Tai người nhạy cảm với một dải rộng các tần số , bính thường từ 22Hz đến 22000 Hz điều này phụ thuộc vào sức khỏe người nghe. Dải tần từ 22Hz đến 22000 Hz gọi là dải nghe được. Tiếng nĩi con người thường nằm trong giải tần 500Hz đến 22000 Hz. Tốc độ âm thanh phụ thuộc vào mơi trường nĩ lan truyền vì dụ nhiệt độ khơng khì, ở nhiệt độ 20c sĩng âm thanh lan truyền với tốc độ 343,8 met/s. - Độ rộng tần số (Banwithd ) : sự khác nhau giữa tần số cực đại và cực tiểu - Biên độ (amplitude): là giá trị lớn nhất của hàm trong mọi chu kỳ; Biên độ của sĩng âm thanh là tính chất quan trọng, nhờ nĩ người ta cảm nhận được độ to nhỏ (loudness) của âm thanh. - Độ ồn của âm thanh: Độ ồn của âm thanh con người cĩ thể cảm nhận được bằng tai Đơn vị đo tiếng ồn là decibel (db). Nĩ được xác định bởi Ở đây - P1,P2 là năng lượng được đo bằng watt, jul, gram.cm/s hay đại lượng vật lý nào đĩ mà đơn vị đo của nĩ là năng lượng trên thời gian (power per time) 87 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT - Level – là mức độ ồn 5.4.2. Đặc tính của âm thanh tƣơng tự Mục đìch của lời nĩi là dùng để truyền đạt thơng tin. Cĩ rất nhiều cách mơ tả đặc điểm của việc truyền đạt thơng tin. Dựa vào lý thuyết thơng tin, lời nĩi cĩ thể được đại diện bởi thuật ngữ là nội dung thơng điệp, hoặc là thơng tin. Một cách khác để biểu thị lời nĩi là tìn hiệu mang nội dung thơng điệp, như là dạng sĩng âm thanh. Hình dạng sĩng của tìn hiệu ghi nhận được từ âm thanh của người Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thơng số về cơ, điện cũng như trường cĩ thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất khơng khì khác nhau. Điện áp đến từ một microphone là tìn hiệu tương tự của áp suất khơng khì (hoặc đơi khi là vận tốc). Dù được phân tìch bằng cách thức nào, thí các phương pháp khi so sánh với nhau phải dùng một tỉ lệ thời gian. Trong khi các thiết bị tương tự hiện đại trơng cĩ vẻ xử lý âm thanh tốt hơn những thiết bị cổ điển, các tiêu chuẩn xử lý thí hầu như khơng cĩ gí thay đổi, mặc dù cơng nghệ cĩ vẻ xử lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thơng tin được truyền đạt bằng thơng số liên tục biến thiên vơ hạn. Hệ thống xử lý âm thanh số lý tưởng cĩ những tình năng tương tự như hệ thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sĩng ban đầu khơng lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tìn hiệu số sẽ truyền trong khoảng cách ngắn hơn tìn hiệu tương tự và với chi phì thấp hơn. Thơng tin dùng để truyền đạt của âm thoại về bản chất cĩ tình rời rạc, và nĩ cĩ thể 88 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu (symbol). Các ký hiệu từ mỗi âm thanh cĩ thể được phân loại thành các âm vị (phoneme). Mỗi ngơn ngữ cĩ các tập âm vị khác nhau, được đặc trưng bởi các con số cĩ giá trị từ 30 đến 50. Vì dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị. Tìn hiệu thoại được truyền với tốc độ như thế nào? Đối với tìn hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh thí tốc độ truyền ước lượng cĩ thể tình được bằng cách lưu ý giới hạn vật lý của việc nĩi lưu lốt của người nĩi tạo ra âm thanh thoại là khoảng 10 âm vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit cĩ thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bính 10 âm vị/giây, và khơng quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta cĩ thể ước lượng được tốc độ truyền trung bính của âm thoại khoảng 60bit/giây. Trong hệ thống truyền âm thoại, tìn hiệu thoại được truyền lưu trữ và xử lý theo nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thí cĩ hai điều cần quan tâm chung là: 1. Việc duy trí nội dung của thơng điệp trong tìn hiệu thoại 2. Việc biểu diễn tìn hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tìn hiệu thoại sao cho khơng làm giảm nghiêm trọng nội dung của thơng điệp thoại. Việc biểu diễn tìn hiệu thoại phải đảm bảo việc các nội dung thơng tin cĩ thể được dễ dàng trìch ra bởi người nghe, hoặc bởi các thiết bị phân tìch một cách tự động. 5.4.3. Khái niệm tín hiệu Là đại lượng vật lý biến thiên theo thời gian, theo khơng gian, theo một hoặc nhiều biến độc lập khác, vì dụ như: - Âm thanh, tiếng nĩi: dao động sĩng theo thời gian (t) - Hình ảnh: cường độ sáng theo khơng gian (x, y, z) - Địa chấn: chấn động địa lý theo thời gian - Biểu diễn tốn học của tín hiệu: hàm theo biến độc lập Vì dụ: 89 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT - u(t) = 2t2 − 5 - f (x, y) = x2 − 2xy − 6y2 Chú ý: Thơng thường các tìn hiệu tự nhiên khơng biểu diễn được bởi một hàm sơ cấp, cho nên trong tình tốn, người ta thường dùng hàm xấp xỉ cho các tìn hiệu tự nhiên. Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trính thực hiện các phép tốn trên tìn hiệu nhằm biến đổi tìn hiệu, rút trìch thơng tin, Việc thực hiện phép tốn cịn được gọi là xử lý tìn hiệu. 5.4.4. Phân loại tín hiệu Tìn hiệu đa kênh: gồm nhiều tìn hiệu thành phần, cùng chung mơ tả một đối tượng nào đĩ (thường được biểu diễn dưới dạng vector, vì dụ như tìn hiệu điện tim (ECG- ElectroCardioGram), tìn hiệu điện não (EEG – ElectroEncephaloGram), tìn hiệu ảnh màu RGB. Tìn hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, vì dụ như tìn hiệu hình ảnh, tìn hiệu tivi trắng đen. Tìn hiệu liên tục theo thời gian: là tìn hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a,b], ký hiệu x(t) . Hính 1.2 Tìn hiệu liên tục theo thời gian Tìn hiệu rời rạc thời gian: là tìn hiệu chỉ được định nghĩa tại những thời điểm rời rạc khác nhau, ký hiệu x(n) . 90 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Hính 1.3 Tìn hiệu rời rạc theo thời gian Tìn hiệu liên tục giá trị: là tìn hiệu cĩ thể nhận trị bất kỳ trong đoạn [ , ] min max Y Y , vì dụ tìn hiệu tương tự (analog). Hình 1.4 Tìn hiệu liên tục giá trị Tìn hiệu rời rạc giá trị: tìn hiệu chỉ nhận trị trong một tập trị rời rạc định trước (tìn hiệu số). Hính 1.5 Tìn hiệu rời rạc giá trị Tìn hiệu analog: là tìn hiệu liên tục về thời gian, liên tục về giá trị. 91 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Hính 1.6 Tìn hiệu analog Tìn hiệu số: là tìn hiệu rời rạc về thời gian, rời rạc về giá trị. Hính 1.7 Tìn hiệu số Tìn hiệu ngẫu nhiên: giá trị của tìn hiệu trong tương lai khơng thể biết trước được. Các tìn hiệu trong tự nhiên thường thuộc nhĩm này Tìn hiệu tất định: giá trị tìn hiệu ở quá khứ, hiện tại và tương lại đều được xác định rõ, thơng thường cĩ cơng thức xác định rõ ràng. 5.4.5 Phân loại hệ thống xử lý Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đĩ hệ thống xử lý số: là hệ thống cĩ thể lập trính được, dễ mơ phỏng, cấu hính, sản xuất hàng loạt với độ chình xác cao, giá thành hạ, tìn hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là khĩ thực hiện với các tìn hiệu cĩ tần số cao. 5.5. Nén âm thanh 5.5.1. Các phƣơng pháp nén âm thanh đơn giản 92 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Các phương pháp nén khảo sát ở khoảng hiệu quả trong việc nén âm thanh. Sau đây là các phương pháp nén cĩ tổn thất: - Nén “silence”: dị các khoảng “yên lặng”, giống như mã hĩa run – length. - LPC (Linear Predictive Coding) - CELP (Code Excited Linear Predictor) 5.5.2. Nén âm thanh dùng mơ hình âm – tâm lý a. Hệ thống nghe và phát âm của con người Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2 - 5kHz. Phạm vi phát âm bính thường từ 500 Hz đến 2 kHz. b. Che tần số (Frequency masking) “Ngưỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một tần số và mức to (dB) xác định sẽ cĩ một “ngưỡng che” (xem hính 4.3 và 4.4) c. Băng giới hạn Thước đo tần số đồng bộ khơng tương xứng với độ rộng của ngưỡng cong che. Băng giới hạn cĩ độ rộng là 100Hz đối với các tần số che 500Hz. Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen) 1 Bark = bề rộng của băng giới hạn: - Tần số 500Hz : 1 bark = 9 + 4log(freq/1000). Ngưỡng che trên thước đo băng giới hạn: 93 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT d. Che nhất thời (Temporal masking): che theo thời gian. Tai người cũng có đặc tính lưu âm. Nếu có một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được một âm lân cận nhỏ hơn (xem hình 4.5 và 4.6). 5.5.3. Nén âm thanh MPEG Vài thông số: MPEG-1 : 1.5Mbits/s cho âm thanh và hình ảnh. Khoảng 1.2 Mbits cho hình ảnh và 0.3Mbits/s cho âm thanh. Aâm thanh CD không nén dùng: (44,100 mẫu/s * 16bit/mẫu * 2 kênh) > 1.4 Mbits/s Aâm thanh MPEG cung cấp các tần số lấy mẫu là 32, 44.1 và 48 kHz. Giải thuật: 1. Dùng bộ lọc thơng để chia tìn hiệu âm thanh thành các sub-band theo tần số, tương ứng với 32 băng giới hạn lọc sub-band. 2. Xác định số lượng che của mỗi band gây bởi các band lân cận bằng các kết quả bước 1 mơ hình âm – tâm lý. 3. Nếu mức to của một băng mà nhỏ hơn ngưỡng che thí khơng mã hĩa nĩ. 4. Ngược lại, xác định số bit cần thiết để mã hĩa sao cho nhiễu sinh ra bởi việc lượng tử hĩa này thấp hơn đường cong che. 5. Định dạng dòng dữ liệu bit : 94 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Ví dụ: Sau khi phân tích, 16 band đầu tiên trong số 32 band như sau: ___ Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Level(dB) 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1 ___ Nếu mức to của âm thứ 8 là 60dB, nó sẽ che band thứ 7 ở mức 12dB và band thứ 9 ở mức 15dB. Mức to ở band 7 là 10dB ( 15dB) nên được tiếp tục xử lý. Layer I: bộ lọc loại DCT với 1 frame và độ rộng tần số như nhau trên mỗi sub- band. Mô hình âm-tâm lý chỉ sử dụng hiệu quả che tần số (Frequency masking). Layer II: sử dụng 3 frame trong bộ lọc (trước, hiện tại và kế tiếp, tổng cộng 1152 mẫu). Mô hình âm-tâm lý có sử dụng hiệu quả che nhất thời (Temporal masking). Layer III: dùng bộ lọc băng giới hạn tốt hơn, mô hình âm-tâm lý có sử dụng hiệu quả che nhất thời, và có dùng bộ mã hoá Huffman. 95 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Chƣơng 6: Dữ liệu video 6.1. Một số khái niệm cơ bản Trính tự video số bao gồm các frame hay ảnh sẽ trính chiếu theo tốc độ cố định. Tốc độ chuyển động của frame video được xác định bởi các yếu tố: - Tốc độ frame đủ cao để chuyển động trơn tru (trên 25 frame/sec). - Tốc độ frame càng cao địi hỏi băng thơng càng lớn để truyền tìn hiệu video. - Ảnh trên màn hính mất đi nếu khơng được làm tươi sau chu kỳ ngắn. Nếu khoảng cách làm tươi quá lớn sẽ làm màn hính nhấp nháy (cần trên 50 lần/sec). Với tần số này sẽ làm băng thơng tăng đáng kể, do vậy, kỹ thuật hiển thị interlace được sử dụng. TV sử dụng 2 lần quét dọc (gọi là field) /frame. Trên cơ sở các yếu tố trên, hai tốc độ frame được sử dụng cho TV là: 25 frame (50 field)/sec cho chuẩn PAL (châu Âu, China, Australia) và 30 frame/s cho chuẩn NTSC (Bắc Mỹ và Japan). Chọn 50 và 60 field để phù hợp với tần số điện nguồn của các nước tương ứng. Hai đặc trưng chình của video là cĩ chiều thời gian và cĩ lượng dữ liệu khổng lồ. Thì dụ, 10 phút video với ảnh 512x512 pixel, depth 24 bit/pixel, tốc độ frame là 30 frame/s địi hỏi 13.8 GB bộ nhớ. Do vậy, việc nén video là nhu cầu cần thiết. 6.2. Nén video Để truyền được các chương trính video trên các hệ thống thơng tin di động, một bài tốn đặt ra là phải nén hính ảnh để tiết kiệm băng tần truyền dẫn mà vẫn đảm bảo chất lượng hính ảnh. Đây là một yêu cầu đã và đang được nhiều nhà nghiên cứu quan tâm. Truyền dẫn số tìn hiệu ảnh động qua các hệ thống vệ tinh đã được nghiên cứu từ năm 1990, trong đĩ nén video bằng phương pháp mã hố đĩng vai trị rất quan trọng. Cho đến nay, khi các hệ thống thơng tin di động 3G và hệ thống NGN ra đời cho phép truyền các chương trính video trên đĩ thí việc nghiên cứu tím ra các giải pháp nén mới càng địi hỏi cấp thiết hơn bao giờ hết. Nhĩm chuyên gia về hính ảnh động (MPEG) đã hồn thiện hai bộ tiêu chuẩn về mã hố video là MPEG -1 và MPEG -2, xác định các phương pháp truyền thơng tin video số theo các định dạng truyền hính và đa mơi trường. Ngày nay MPEG -4 đang nhắm vào việc truyền video tốc độ bit rất thấp; cịn MPEG -7 đưa ra 96 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT chuẩn hố trong các dịch vụ lưu trữ và phục hồi video. Trong hồn cảnh mạng thế hệ mới NGN và di động thế hệ sau tiếp tục địi hỏi phải hồn thiện hơn các thuật tốn nén - giải tìn hiệu video số với mục đìch làm cho chất lượng hính ảnh tốt hơn, băng tần truyền dẫn thấp hơn. Nén video số là một quá trính trong đĩ người ta tím các giải pháp để giảm số lượng số liệu biểu thị hính ảnh video để đáp ứng tốc độ bit yêu cầu mà vẫn đáp ứng chất lượng video được khơi phục ở phìa thu phải thỏa mãn yêu cầu ứng dụng và độ phức tạp tình tốn. Nén video cĩ nhiệm vụ rất quan trọng ví lượng dư của số liệu trong các hính ảnh nguyên thủy thường lớn hơn nhiều dung lượng mà các thiết bị điện tử ngày nay cĩ thể xử lý. Ta cũng biết rằng thơng tin và số liệu là hai khái niệm khác nhau nhưng liên quan chặt chẽ với nhau. Số liệu biểu thị thơng tin và chất lượng số liệu cĩ thể đo được. Nội dung của số liệu video thường được đo bằng số đơn vị bit; cịn thơng tin được xác định bằng sự nhận biết. Như vậy tồn bộ số liệu biểu thị sự nhận biết, tuy vậy nĩ cũng cĩ đơn vị đo của nĩ. Nén video trong truyền video Tốc độ bit hay cịn gọi là tốc độ mã hĩa là một tham số quan trọng trong nén video và thường được biểu thị bằng đơn vị bit/giây. Trong mã hĩa nguồn tin, đơi lúc tốc độ bit được biểu thị bit trên ký hiệu. Chất lượng hính ảnh được cấu trúc lại ở phìa thu phụ thuộc vào ứng dụng ví vậy sẽ cĩ loại nén tổn thất và nén khơng tổn thất. Trong ứng dụng truyền các ảnh động, các chương trính truyền hính thí cho phép một lượng tổn thất nào đĩ. 6.3.1. Độ dƣ thừa trong tín hiệu video a. Độ dƣ thống kê của ảnh Độ dư thống kê cĩ thể được phân thành hai kiểu: độ dư giữa các pixel và độ dư mã hĩa. Độ dư giữa các pixel cĩ nghĩa là các pixel của một khung ảnh và các pixel của một 97 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT nhĩm các khung ảnh hoặc video liên tiếp khơng độc lập thống kê với nhau. Trái lại, chúng tương quan với nhau theo mức độ khác nhau. Kiểu tương quan giữa các pixel như vậy được coi là độ dư giữa các pixel. Độ dư giữa các pixel cĩ thể được chia thành hai loại: độ dư khơng gian và độ dư thời gian. Độ dư mã hố là độ dư thống kê liên quan đến các kỹ thuật mã hĩa Độ dƣ khơng gian Độ dư khơng gian thể hiện mối tương quan thống kê giữa các pixel trong một khung ảnh. Do đĩ nĩ cịn được gọi là độ dư ngồi khung. Ta biết rằng các giá trị cường độ của các pixel thuộc một hàng (hoặc một cột) cĩ hệ số tự tương quan rất cao (gần bằng độ tự tương quan cực đại là 1) với các giá trị cường độ của các pixel thuộc chình hàng đĩ (hoặc chình cột đĩ) nhưng bị dịch đi một pixel. Điều này khơng hề bất ngờ bởi ví hầu hết các giá trị cường độ thay đổi liên tục từ pixel này đến pixel khác trong một khung ảnh, ngoại trừ các miền ría. Độ dƣ thời gian Độ dư thời gian cĩ liên quan với tương quan thống kê giữa các pixel của các khung liên tiếp trong một dãy ảnh hoặc video theo thời gian. Ví vậy nĩ cịn được gọi là độ dư giữa các khung. Độ dƣ mã Như đã nĩi ở trên, độ dư giữa các pixel liên quan đến độ tương quan giữa các pixel. Điều đĩ cĩ nghĩa rằng một số thơng tin liên quan đến các pixel là thừa. Độ dư về khả năng nhín cĩ liên quan đến những thơng tin dư thừa về mặt nhín thấy được, tức là với nĩ hệ thống nhín của con người (HVS) khơng nhạy. Do vậy, rõ ràng cả hai độ dư là độ dư giữa các pixel và độ dư khả năng nhín ví một lý do nào đĩ gắn với một số thơng tin chứa trong hình ảnh và video. Loại bỏ các độ dư này hoặc sử dụng các mối tương quan này bằng cách sử dụng số bit ìt hơn để biểu diễn thơng tin sẽ cho ta kết quả nén dữ liệu hính ảnh và video. Với nghĩa đĩ thí độ dư mã là khác, nĩ khơng thực hiện việc gí đối với sự dư thừa thơng tin mà nĩ thực hiện với việc biểu diễn thơng tin, nghĩa là chình việc mã hố. Từ việc nghiên cứu độ dư mã, rõ ràng là chúng ta nên tím kiếm các kỹ thuật mã hiệu quả 98 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT hơn để nén dữ liệu hính ảnh và video. Mã Huffman và mã số học là hai kỹ thuật mã hĩa VLC thường được dùng trong xử lý ảnh và video. b. Độ dƣ khả năng nhìn thấy Trong khi độ dư giữa các pixel vốn đã cĩ trong số liệu hính ảnh và video, độ dư khả năng nhín thấy bắt nguồn từ các đặc trưng về hệ thống nhín của con người. Ta biết rằng HVS cảm nhận được thế giới bên ngồi theo một cách thức khá phức tạp. Đáp ứng của nĩ đối với các tác nhân nhín khơng phải là một hàm tuyến tình theo cường độ của một vài thuộc tình vật lý, như độ sáng và màu. Năng lực tri giác của HVS khác hẳn với độ nhạy của camera. Trong HVS, thơng tin nhín thấy khơng được cảm nhận như nhau, một số thơng tin cĩ thể quan trọng hơn một số thơng tin khác. Điều đĩ cĩ nghĩa rằng nếu chúng ta sử dụng ìt dữ liệu hơn để biểu diễn những thơng tin ìt quan trọng hơn về nhín thấy thí khả năng cảm nhận sẽ khơng bị ảnh hưởng. Theo nghĩa đĩ, chúng ta thấy rằng một số thơng tin cĩ liên quan đến thị giác là dư thừa về khả năng nhín thấy. Loại bỏ sự dư thừa khả năng nhín thấy này chình là nén dữ liệu. 6.3.2. Nhu cầu cần thiết nén video Những thành tựu đạt được trong cơng nghệ điện tử - viễn thơng - tin học đã tạo điều kiện phát triển các kỹ thuật truyền video đáp ứng nhu cầu ngày càng tăng trong các ứng dụng cuộc sống hàng ngày như điện thoại video, hội nghị video, truyền hính độ phân giải cao Video là một dãy các khung ảnh bao gồm một lượng khổng lồ các số liệu, vì dụ mỗi khung video cĩ độ phân giải 288 dịng và 352 pixel trên một giây. Mỗi một màu trong ba màu chình (đỏ, xanh, xanh da trời) được biểu thị bằng 1 pixel cĩ 8 bit và thơng thường tốc độ khung truyền là 30 khung trên một giây để tạo ra video chuyển động liên tục. Tốc độ bit yêu cầu là: 288×352×8×3×30 = 72.990.720 bit/s. Do đĩ tỷ số giữa tốc độ bit cần thiết và tốc độ bit cĩ thể lớn nhất khoảng 1289 lần. Điều này chứng tỏ rằng chúng ta cần phải nén số liệu video ìt nhất là 1289 lần để truyền được trên mạng viễn thơng. 6.3.3. Khái niệm về nén video 99 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT Các phương tiện liên lạc video qua kênh thơng tin số thế hệ mới yêu cầu rất lớn về việc truyền thơng tin. Nén video được xem xét ở đây bao hàm việc làm giảm tốc độ bit mã tìn hiệu video số mang thơng tin nhín được hoặc loại bỏ các phần tử dư thừa trong tìn hiệu. Mức độ mà bộ mã hố làm giảm tốc độ bit được gọi là hiệu suất mã và nghịch đảo của hiệu suất mã được gọi là tỷ số nén: Nén cĩ làm tổn thất hoặc khơng làm tổn thất thơng tin. Tổn thất thơng tin thường được tính bằng sai số trung bính bính phương (MSE), sai số tuyệt đối trung bình (MAE) hoặc tỷ số tìn hiệu đỉnh trên nhiễu (PSNR): 6.3.4. Một số kỹ thuật nén video Nĩi chung các hệ thống nén video bao gồm hai phương thức làm giảm độ dư thơng tin trong các miền khơng gian và thời gian. Nén khơng gian và lượng tử hố hoạt động trên một khối ảnh duy nhất bằng cách sử dụng các đặc tình ảnh cục bộ để giảm tốc độ bit. Bộ mã hố khơng gian cũng cĩ VLC được đặt sau tầng lượng tử hố. Tầng VLC tạo ra mã khơng tổn thất của khối ảnh đã được lượng tử. Bộ nén miền thời gian sử dụng các phương thức dịng quang (thường ở dạng phương pháp ước lượng chuyển động phối hợp khối) để nhận dạng và giảm độ dư thời gian. Các bộ mã hố entropy là các bộ mã hố khơng tổn thất được sử dụng trong tầng VLC của hệ thống nén video. Chúng được sử dụng tốt nhất cho các nguồn tin khơng nhớ và tối thiểu hố tốc độ bit bằng cách ấn định các mã với độ dài thay đổi cho các giá trị đầu vào tuỳ theo hàm mật độ xác suất đầu vào. Các bộ mã dự đốn thìch hợp cho các nguồn tin cĩ nhớ. Các bộ mã dự đốn cĩ thể tạo ra hàm mật độ xác suất mới của nguồn với phương sai thống kê và entropy nhỏ hơn một cách đáng kể so với nguồn. Sau đĩ nguồn đã biến đổi được đưa vào VLC để giảm tốc độ bit. Mã entropy và mã dự đốn là những phương pháp mã tốt trong kỹ thuật nén ảnh. Các phép biến đổi khối là kỹ thuật chủ yếu để biểu thị thơng tin khơng gian dưới dạng cĩ ìch cao cho việc lượng tử hố và mã hố VLC. Các bộ biến đổi khối cĩ thể tạo ra độ lợi mã bằng cách đĩng gĩi hầu hết năng lượng khối vào một số ìt hơn các hệ số. Lợi 100 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT dụng độ dư thơng tin lớn trong miền thời gian, phép bù chuyển động tạo ra các dự đốn khung hiện tại trên cơ sở ước lượng chuyển động phối hợp khối giữa các khung ảnh hiện tại và trước đĩ. Nĩi chung phép bù chuyển động làm tăng một cách đáng kể hiệu suất mã video so với mã khơng gian thuần tuý. Sau đây ta lần lượt xét các giải pháp mã. 1- Mã entropy và mã dự đốn Mã entropy sử dụng rất nhiều khái niệm cơ bản về lý thuyết thống kê và lý thuyết thơng tin. VLC và mã dự đốn sử dụng mơ hính nguồn thơng tin, trong đĩ coi nguồn thơng tin là một quá trính tạo ra một dãy các ký hiệu từ một tập chữ cái hữu hạn. Các nguồn video được tạo ra từ một dãy các khối ảnh, các khối ảnh được tạo ra từ các ký hiệu pixel. Số lượng các pixel cĩ thể được tạo ra là , với n là số bit trên một pixel. Bậc mà các ký hiệu ảnh được tạo ra phụ thuộc vào việc khối ảnh được sắp xếp hoặc được quét vào dãy ký hiệu. Các bộ mã hố khơng gian chuyển đổi các đặc trưng thống kê của ảnh gốc với mục đìch là ma trận hệ số cĩ thể được quét trong chừng mực nào đĩ sao cho nguồn hoặc dãy các ký hiệu được tạo ra chứa đựng lượng tin ìt nhất. 2- Mã chuyển đổi khối bằng biến đổi Cosine rời rạc 3- Lƣợng tử hĩa Mục đìch của tầng lượng tử trong bộ mã video là tạo ra hính ảnh nén đảm bảo chất lượng ảnh phù hợp. Lượng tử vơ hướng và lượng tử véctơ là hai loại chủ yếu, chúng tiếp tục được phân loại là lượng tử cĩ nhớ hoặc khơng nhớ; đối xứng hoặc khơng đối xứng. Bộ lượng tử vơ hướng đồng nhất là bộ lượng tử cơ bản nhất. Nĩ xử lý đặc tình vào - ra phi tuyến, chia khoảng vào thành các mức ra bằng nhau. Để bộ lượng tử làm giảm tốc độ bit một cách hiệu quả thí số lượng các giá trị đầu ra cần phải nhỏ hơn nhiều so với số lượng các giá trị đầu vào. Các giá trị tái cấu trúc được trọn tại điểm giữa của các mức đầu ra nhằm mục đìch làm giảm thiểu MSE tái cấu trúc khi sai số lượng tử hố cĩ phân bố đều. Các bộ lượng tử trong các bộ mã video theo chuẩn H.261, H.263, MPEG -1 và MPEG - 2 gần như là các bộ lượng tử đồng nhất. Chúng cĩ cỡ bước lượng tử cố định, ngoại trừ khu vực “vùng chết” (khoảng đầu vào mà đầu ra là khơng). Lượng tử hố khơng đồng nhất được sử dụng cho các phân bố đầu vào khơng đều, vì dụ như các nguồn ảnh tự nhiên. Bộ lượng tử mà tạo ra MSE nhỏ nhất đối với phân bố đầu 101 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng
- Bài giảng Nhập mơn Đa phương tiện – Ngành TTĐPT, CNTRT vào khơng đều thí sẽ cĩ các bước khơng đều. So với bộ lượng tử đồng nhất thí bộ lượng tử khơng đồng nhất cĩ hiệu năng MSE tốt hơn một cách đáng kể khi số bước lượng tử tăng lên. Điều này làm giảm đến mức tối thiểu tổng sai số tuyệt đối trong mỗi bước lượng tử dựa vào phân bố đầu vào. 4- Bù và ƣớc lƣợng chuyển động Kỹ thuật bù chuyển động được đề xuất từ những năm 1960 và được sử dụng để nâng cao hiệu suất của các bộ nén video. Các bộ mã video bù chuyển động được thực hiện theo ba giai đoạn: - Giai đoạn 1: Ước lượng chuyển động của mục tiêu (ước lượng chuyển động) giữa khung tái cấu trúc trước đĩ và khung hiện tại. - Giai đoạn 2: Tạo ra dự đốn khung hiện tại (bù chuyển động) bằng cách sử dụng các ước lượng chuyển động và khung tái cấu trúc trước đĩ. - Giai đoạn 3: Mã hố vi sai dự đốn và khung thực hiện tại như là sai số dự đốn Ước lượng và bù chuyển động là các kỹ thuật phổ biến được dùng để mã hố về mặt thời gian của tìn hiệu video. Các kỹ thuật bù chuyển động khối và ước lượng chuyển động được sử dụng trong các hệ thống nén video cĩ khả năng làm giảm rất lớn tốc độ bit của tìn hiệu. Độ dư giữa các khung chứa trong miền thời gian của dãy ảnh số là lý do cho khả năng nén tìn hiệu mà các bộ mã hố video cĩ thể đạt được. Thuật tốn này người ta thường dựa vào nền tĩnh và sự chuyển động của các ảnh gần. Trong khoảng thời gian ngắn, các dãy ảnh cĩ thể được miêu tả bằng một nền tĩnh cĩ các vật thể chuyển động trong ảnh gần. Nếu nền khơng thay đổi giữa hai khung thí hiệu của chúng bằng 0 và hai khung cĩ thể được mã hố thành một. Do đĩ tỷ lệ nén tăng gấp hai lần so với nén khơng gian trong khung thứ nhất. Nhín chung, các nền khơng thay đổi hoặc tĩnh cĩ thể cho thêm độ lợi mã hố. 102 Bộ mơn Truyền thơng Đa phương tiện – Đại học Cơng nghệ thơng tin và Truyền thơng