Bài giảng Kĩ thuật audio video

pdf 122 trang huongle 9570
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Kĩ thuật audio video", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_ki_thuat_audio_video.pdf

Nội dung text: Bài giảng Kĩ thuật audio video

  1. AUDIO-VIDEOAUDIO-VIDEO Jun, 2004 Audio-Video Engineering
  2. TÀITÀI LILIỆỆUU THAMTHAM KHKHẢẢOO • CMPT 365 Course Contents, Spring 2000, • “Principles of Digital Audio”, Ken C.Pohmanm Fourth Edition McGraw-Hill. • “Digital Video processing”, A. Murat Tekalp, University of Rochester, Prentice Hall PTR. • “Multimedia processing”, Andrew Calway, COMS72200. • “Fundamentals of Digital Image Processing”., Anil.K.Jan, Prentice Hall, 1996. • MPEG Home Page, Audio-Video Engineering
  3. NNỘỘII DUNGDUNG • TỔNG QUAN • KỸ THUẬT AUDIO • KỸ THUẬT VIDEO Audio-Video Engineering
  4. AUDIO-VIDEOAUDIO-VIDEO CHƯƠNG1 TTỔỔNGNG QUANQUAN Audio-Video Engineering
  5. TTỔỔNGNG QUANQUAN • TỔNG QUAN VỀ MULTIMEDIA • KHÁI NIỆM CHUNG VỀ AUDIO VÀ VIDEO • HỆ THỐNG AUDIO-VIDEO • MỘT SỐ VẤN ĐỀ VỀ TÍN HIỆU Audio-Video Engineering
  6. TTỔỔNGNG QUANQUAN VVỀỀ MULTIMEDIAMULTIMEDIA • Lịch sử phát triển của hệ thống đa môi trường ! Cuộc sống hiện đại, nhu cầu trao đổi thông tin ngày càng tăng. ! Hệ thống đa môi trường đầu tiên là báo, tạp chí với môi trường là văn bản, đồ hoạ và hình ảnh. ! Năm 1895, Guglemo Marconi phát minh ra máy radio ở Pontechio – Ý. Năm 1901, tín hiệu vô tuyến được ông truyền qua Đại Tây Dương và phát minh ra máy điện tín, radio là môi trường chuyển tải tín hiệu audio quảng bá hiện nay. ! Truyền hình, môi trường truyền thông của thế kỷ 20, truyền hình ảnh và âm thanh đến mọi nơi trên thế giới, mang thông tin cần thiết cho cuộc sống của con người. ! Các hệ thống máy tính tích hợp nhiều dạng môi trường số khác nhau với khả năng biểu diễn, tương tác với các dạng thông tin, là một tiềm năng lớn phục vụ nhu cầu trao đổi thông tin với chất lượng cao của xã hội. Audio-Video Engineering
  7. TTỔỔNGNG QUANQUAN VVỀỀ MULTIMEDIAMULTIMEDIA • Siêu phương tiện và đa phương tiện (hypermedia – multimedia) ! Siêu văn bản (hypertext) là văn bản có chứa các liên kết đến một văn bản khác. Thuật ngữ này được phát minh bởi Ted Nelson (1965). Siêu văn bản là một văn bản không tuyến tính. ! Siêu văn bản là một tài liệu không tuyến tính, bằng cách kích vào một điểm nóng nào đó trên văn bản, nó có thể chuyển đến một tài liệu hay một văn bản khác, rồi có thể quay về, thuận tiện cho người đọc trong việc duyệt văn bản hoặc muốn tổng quan một văn bản từ phần mục lục. ! Hypermedia: Siêu phương tiện không bị ràng buộc như hypertext. Nó có thể bao gồm nhiều phương tiện truyền thông khác nhau như đồ thị, hình ảnh, âm thanh, hoạt hình và ảnh động. Thuật ngữ này cũng được Ted Nelson phát minh. ! Multimedia: Đa phương tiện là thông tin máy tính có thể được mô tả bằng audio, viedo hay hoạt hình ngoài những phương tiện truyền thống. ! Siêu phương tiện có thể được xem là một trong những ứng dụng của đa phương tiện. Audio-Video Engineering
  8. TTỔỔNGNG QUANQUAN VVỀỀ MULTIMEDIAMULTIMEDIA Đồ hoạ Văn bản thường (tuyến tính) Âm Siêu văn bản thanh Video Siêu môi trường Hình 1-1 Hypertext, Hypermedia Audio-Video Engineering
  9. TTỔỔNGNG QUANQUAN VVỀỀ MULTIMEDIAMULTIMEDIA • Ví dụ một số ứng dụng multimedia: ! Hệ thống xây dựng và soạn thảo video số. ! Tạp chí điện tử. ! Trò chơi. ! Thương mại điện tử. ! Truyền hình tương tác iTV. ! Truyền hình hội nghị. ! Truyền hình theo yêu cầu. ! Thực tế ảo. ! Audio-Video Engineering
  10. TTỔỔNGNG QUANQUAN VVỀỀ MULTIMEDIAMULTIMEDIA • Các dạng môi trường và tín hiệu: ! Các dạng môi trường được phân loại thành môi trường liên tục, rời rạc. dạng môi trường audio video animation lên tục rời rạc images text graphic gốc tín hiệu thu nhận tổng hợp Hình 1-2 Dạng môi trường Audio-Video Engineering
  11. TTỔỔNGNG QUANQUAN VVỀỀ MULTIMEDIAMULTIMEDIA Hình 1-3 Thu nhận và tổng hợp Audio-Video Engineering
  12. KHÁIKHÁI NINIỆỆMM CHUNGCHUNG VVỀỀ AUDIOAUDIO VÀVÀ VIDEOVIDEO • Âm thanh (audio) ! Âm thanh: ! Là dao động sóng âm gây ra áp lực làm dịch chuyển các hạt vật chất trong môi trường đàn hồi làm tai người cảm nhận được các dao động này. ! Tai người có thể nghe được trong khoảng tần số từ 20Hz đến 20kHz. ! Âm thanh tự nhiên: ! Là sự kết hợp phức giữa các sóng âm có tần số và dạng sóng khác nhau. ! Dải động của tai: ! Giới hạn bởi ngường nghe thấy (0dB) đến ngưỡng đau (120dB) của người. ! Ngưỡng nghe tối thiểu: ! Là mức thấp nhất mà tai người có thể cảm nhận được âm thanh tuỳ thuộc vào từng người, mức áp lực và tần số của âm thanh. ! Hiệu ứng che khuất âm thanh: ! Là hiện tượng âm thanh mà tại đó ngưỡng nghe thấy của một âm thanh này được tăng lên trong khi có mặt của một âm thanh khác (khó nghe hơn). Được sử dụng trong kỹ thuật nén. Audio-Video Engineering
  13. KHÁIKHÁI NINIỆỆMM CHUNGCHUNG VVỀỀ AUDIOAUDIO VÀVÀ VIDEOVIDEO ! Hướng âm thanh: ! Tai và não có thể giúp ta xác định hướng âm thanh, điều này có thể ứng dụng để tạo các hiệu ứng âm thanh như stereo, surround. ! Vang và trễ: ! Vang là hiện tượng kép dài âm thanh sau khi nguồn âm đã tắt. ! Trễ là thời gian τ âm thanh phản xạ đến đích so với âm thanh trực tiếp. Nếu τ>50ms thì trễ đó gọi là tiếng vọng. Biên độ của âm thanh cứ sau 1 lần phản xạ thì bị suy giảm. ! Âm nhạc: ! Là âm thanh có chu kỳ ở những tần số mà tai người cảm nhận một cách dễ chịu, êm ái, được kết hợp một cách phù hợp. ! Âm nhạc gồm cao độ, âm sắc và nhịp điệu. ! Video ! Tín hiệu video: ! Là sự tái tạo ảnh tự nhiên với những khoảng cách về không gian, thời gian hoặc cả hai. Ảnh tự nhiên được tạo nên từ các nguồn sáng mặt trời hay ánh sáng nhân tạo phản xạ lên các vật thể mà ta có thể nhìn thấy được. Audio-Video Engineering
  14. KHÁIKHÁI NINIỆỆMM CHUNGCHUNG VVỀỀ AUDIOAUDIO VÀVÀ VIDEOVIDEO ! Ảnh: ! Là một ma trận các điểm ảnh mang thông tin về độ chói và màu sắc. ! Sự lưu ảnh: ! Khả năng lưu hình của mắt trong một giây. Mắt có thể lưu được 24 hình trong một giây. Dựa vào đặc tính này mà người ta chọn số hình trong một giây của ảnh động không quá lớn, mà cũng không được nhỏ hơn độ lưu ảnh của mắt để không thấy hình ảnh nhấp nháy hay không liên tục. ! Độ chói: ! Là biên độ của thành phần trong ảnh (pixel). ! Ví dụ tín hiệu chói Y được tổng hợp bởi các tín hiệu RGB theo công thức: EY=0,299ER+0,587EG+0,114EB (1-2) ! Thông tin màu được xác định: EB-EY=0,587EG+0,889EB+0,229ER ER-EY=0,587EG+0,114EB+0,701ER (1-3) ! Độ tương phản: ! Tỷ số của độ chói thành phần sáng nhất so với độ chói của thành phần tối nhất. Audio-Video Engineering
  15. HHỆỆ THTHỐỐNGNG AUDIO-VIDEOAUDIO-VIDEO • Hệ thống audio tương tự Tiền khuếch Nguồn âm Xử lý Khuếch đại đại Lưu trữ Xuất Hình 1-4 Hệ thống audio tương tự • Hệ thống video tương tự Cảnh tự nhiên Ảnh tái tạo Chuyển Xử lý tín Lưu trữ Xử lý tín Chuyển đổi ảnh- hiệu hoặc hiệu đổi tín Ống kính tín hiệu truyền dẫn hiệu- ảnh Mắt người Tạo Tách xung xung đồng bộ đồng bộ Hình 1-5 Hệ thống Video tương tự Audio-Video Engineering
  16. HHỆỆ THTHỐỐNGNG AUDIO-VIDEOAUDIO-VIDEO • Hệ thống audio-video số: Nguồn tín Xử lý Bộ hiển thị, hiệu analog ADC Lưu trữ DAC xuất tương tự Truyền dẫn Hình 1-6 Hệ thống audio-video số • Các thành phần của hệ thống: Bộ phận thu: Quá trình thu tín hiệu audio hoặc video từ âm thanh hay cảnh tự nhiên vào môi trường lưu trữ được gọi là quá trình thu. Điều này có thể thực hiện bởi micro thu âm hay camera thu hình. Micro và Camera là các thiết bị thu tín hiệu và chuyển tín hiệu (âm thanh hoặc ảnh) sang tín hiệu điện tương tự. Đối với các hệ thống số phải thực hiện việc chuyển đổi tương tự sang số. Lưu trữ: Thiết bị lưu trữ là băng từ hoặc đĩa từ. Có thể là các thiết bị riêng biệt sử dụng với muc đích thuận tiện và yêu cầu một chất lượng nào đó. Xử lý tín hiệu: Điều chỉnh đặc tuyến tần số, màu sắc, tạo hiệu ứng Truyền dẫn: Truyền tín hiệu từ vị trí này sang vị trí khác với một khoảng cách không gian nào đó qua một môi trường truyền dẫn nào đó. Audio-Video Engineering
  17. MMỘỘTT SSỐỐ VVẤẤNN ĐỀĐỀ VVỀỀ TÍNTÍN HIHIỆỆUU • Tín hiệu và hàm ! Tín hiệu tương tự là hàm theo thời gian. Biên độ ! Biên độ âm thanh được biểu diễn bằng mức độ âm thanh tại thời điểm đã cho. f(t0) ! Tín hiệu được biểu diễn bằng hàm f(t). • Tín hiệu có chu kỳ Thời t gian t ! Sự lặp lại trong một khoảng thời gian ngắn nhất 0 không đổi gọi là chu kỳ T. Hình 1-7 Biểu diễn biên độ-thời ! Tần số là nghịch đảo của chu kỳ: u=1/T. gian • Phân tích Fourier ! Trong thực tế, rất ít khi ta có được một tín hiệu đơn tần, mà thông thường là các tín hiệu phức tạp, kết hợp bởi nhiều tần số và các hài của nó. Tuy nhiên, ta có thể phân tích chúng thành tổng hợp của các tín hiệu đơn tần. Đó là phân tích Fourier. ! Việc phân tích Fourier cho kết quả là tổng của các hàm sin và cosin của các tần số khác nhau. Audio-Video Engineering
  18. MMỘỘTT SSỐỐ VVẤẤNN ĐỀĐỀ VVỀỀ TÍNTÍN HIHIỆỆUU • Phân tích Fourier một chiều: ∞ = − jut2π Fu()∫ fte () dt (1-4) −∞ ∞ π ft()= ∫ Fue ( ) jut2 du (1-5) −∞ • Biên độ và pha ∞ f (t) = 2∫ F(u) cos[2π +θ (u)]du • Trong thực tế, F(u) là một số phức: 0 F(u)=F -(u) + jF (u) RI (1-6) • Trong đó, FR-(u) và FI(u) là phần thực và phần phức. • Biên độ được xác định như sau: Fu()=+ F22 () u F () u RI (1-7) F (u) • Pha được xác định như sau: θ (u) = arctan( I ) FR (u) (1-8) • Khi đó với jt = + thì: = + = jθ (u) e cost j sin t F(u) FR (u) jFI (u) F(u) e (1-9) ∞ • Như vậy, với tín hiệu thực: f (t) = 2 F(u) cos[2π +θ (u)]du ∫ (1-10) 0 Audio-Video Engineering
  19. MMỘỘTT SSỐỐ VVẤẤNN ĐỀĐỀ VVỀỀ TÍNTÍN HIHIỆỆUU • Phổ tần số ! Sự phân bố của |F(u)| gọi là phổ tần của tín hiệu. ! Tín hiệu biến thiên chậm thì phổ tần tập trung ở tần số thấp và ngược lại. Từ đó hình thành tín hiệu tần số thấp và tần số cao. • Tín hiệu Audio và Video !Tín hiệu âm thanh thường là tín hiệu một chiều. !Tín hiệu ảnh là tín hiệu hai chiều. !Tín hiệu Video là tín hiệu 3 chiều. !Với các chiều khác nhau, ta sẽ có số biến khác nhau tương ứng. !Chuyển đổi Fourier 2 chiều ∞ ∞ − j2π (ux+vy) F(u,v) = ∫∫f (x, y)e dxdy (1-11) −∞−∞ !Với các biến u, v trong mền tần số. ∞ ∞ !Chuyển đổi ngược: f (x, y) = ∫∫F(u,v)e j2π (ux+vy) dudv −∞−∞ (1-12) !Với : − π + − π − π e j2 (ux vy) = e j 2 ux e j 2 vy (1-13) Audio-Video Engineering
  20. MMỘỘTT SSỐỐ VVẤẤNN ĐỀĐỀ VVỀỀ TÍNTÍN HIHIỆỆUU !Do đó, phân tích Fourier 2 chiều theo hai biến x, y là: ∞ = − j2πux Fx (u, y) ∫ f (x, y)e dx −∞ (1-14) ∞ = − j2πvy F(u,v) ∫ Fx (u, y)e dy −∞ !Đối với tín hiệu thực f(x,y): ∞∞ f (x, y) = 2∫∫| F(u,v) | cos[]2π ()ux + vy +θ (u,v) dudv (1-15) 00 • Màu sắc: Việc kết hợp các màu khác nhau tạo nên một màu mới. Thông thường, chọn các màu cơ bản để kết hợp, ví dụ RGB Hình 1-8 Lý thuyết 3 màu RGB Audio-Video Engineering
  21. MMỘỘTT SSỐỐ VVẤẤNN ĐỀĐỀ VVỀỀ TÍNTÍN HIHIỆỆUU •Không gian cảm quan màu 3 chiều: ! Con người cảm quan màu sắc ở các khía cạnh sau: brightness: độ sáng như thế nào. hue: màu nào. saturation: sự tinh khiết •Sự cảm quan này đối với mỗi người là mỗi khác biệt, do đó, không thể so được giữa người này với người kia. KẾT LUẬN Hình 1-9 C? m quan 3 •Chương này cung cấp cho chúng ta các khái chi? u niệm, các cơ sở cũng như ôn lại những kiến thức cơ bản về tín hiệu audio và video. Đây là nền tảng cho các chương tiếp theo. Audio-Video Engineering
  22. AUDIO-VIDEOAUDIO-VIDEO CHƯƠNG2 KKỸỸ THUTHUẬẬTT AUDIOAUDIO Audio-Video Engineering
  23. KKỸỸ THUTHUẬẬTT AUDIOAUDIO • GIỚI THIỆU • MÃ HOÁ AUDIO CẢM QUAN • PHÂN TÍCH TÂM LÝ ÂM HỌC • KỸ THUẬT NÉN AUDIO • MPEG-1 • MPEG-2 • AC-3 (DOLBY DIGITAL) • APT-X100 • MÃ HOÁ ÂM THANH NỔI Audio-Video Engineering
  24. GIGIỚỚII THITHIỆỆUU ! Âm thanh là một dạng lan truyền của sóng trong không gian, khi đến tai người nghe, đập vào màng nhĩ, làm cho người đó cảm nhận được sự rung động này và có khả năng phân biệt với các âm thanh khác dựa vào một số đặc tính như tần số, nhịp điệu, mức áp lực ! Mục đích của các hệ thống audio: xử lý, tạo hiệu ứng, nén tín hiệu audio từ tín hiệu thu nhận từ nguồn. ! Hệ thống audio tương tự, việc xử lý tín hiệu gặp phải một số vấn đề như khả năng của linh kiện (về mặt tần số), lưu trữ, phức tạp ! Đối với các hệ thống audio số, việc thu nhận, hiệu chỉnh, xử lý và phát lại trở nên dễ dàng hơn rất nhiều. Các kỹ thuật tổng hợp và nhận dạng phát triển một cách nhanh chóng, tương thích máy tính và con người trở nên phong phú hơn. ! Audio số là một chuỗi các giá trị số được biểu diễn bằng mức âm thanh theo thời gian. • Thu nhận và tổng hợp ! Thu nhận từ các nguồn bên ngoài qua các hệ thống như micro hoặc được tổng hợp. ! Từ tín hiệu đã được thu nhận, hệ thống xử lý audio phải thực hiện chuyển đổi sang tín hiệu audio số bằng việc mã hoá. Với các yêu cầu khác nhau, hệ thống sẽ mã hoá theo các tiêu chuẩn khác nhau với các tần số lấy mẫu khác nhau và các phương pháp mã hoá khác nhau để đạt được mục đích theo ý muốn. Audio-Video Engineering
  25. GIGIỚỚII THITHIỆỆUU • Các ứng dụng Các hệ thống thông tin không dây: - Truyền hình phân giải cao (HighDensity TV HDTV). - Âm thanh quảng bá số (Digital Broadcast Audio DBA) - Vệ tinh quảng bá trực tiếp (Digital Broadcast Satelite DBS). Các môi trường mạng: - Âm thanh theo yêu cầu (chuyển mạch gói, Internet) - Truyền hình cáp (CATV) các tuyến studio. Các ứng dụng đa môi trường: - CD-R - Đĩa đa năng số (DVD). Cinema: - Dolby AC-3 (5 kênh, @384kbps). - APT-x100. Lưu trữ khối: - MiniDisc - DCC. Audio-Video Engineering
  26. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN • Giới thiệu Đối tượng: Biểu diễn chuỗi số ngắn gọn. Tốc độ bit thấp. Chất lượng cao Động cơ: Giảm tốc độ dữ liệu. Giảm chi phí truyền dẫn (BW). Giảm các yêu cầu lưu trữ. Mạnh. Các yêu cầu: Cảm nhận trong suốt. Độc lập nguồn. Có khả năng đa kênh. Độ phức tạp bất đối xứng, thấp. Độ trễ hợp lý. Audio-Video Engineering
  27. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN Thoại Audio Băng thông 200-3400Hz 20Hz-20kHz Tốc độ lấy mẫu 8kHz 44.1kHz/48kHz Số bits trên mẫu 8bits 16+bits Tốc độ bit thô 64kbps 768kbps Số kênh 1 1-6+kênh Mô hình hiệu quả nguồn Có Không Sức chịu đựng nguồn Có thể yêu cầu Yêu cầu Chất lượng mong đợi Méo do bị giới hạn Chất lượng “CD” Tính đa dạng của phổ Harmonic, V/UV/TR Không thể phân loại Mã hoá nguồn không thực tế với tín hiệu audio, do đó, trong audio, người ta tiến hành - Khai thác các đặc tính thu được. - Loại bỏ các thành phần không thích hợp với cảm nhận. Giảm các dư thừa thống kê. Audio-Video Engineering
  28. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN • Lý do chuyển đổi audio tương tự sang số - Méo phi tuyến. - Tỷ số SNR bé. ! Ưu điểm của audio số: - Độ méo tín hiệu nhỏ (0,01%). - Dải động âm thanh lớn gần mức tự nhiên (>90dB). - Đáp tuyến tần số bằng phẳng. - Cho phép ghi âm nhiều lần mà không giảm chất lượng. - Thuận tiện lưu trữ, xử lý. Lấy mẫu  48kHz  128- 64- 20Hz-20kHz 44.1kHz Lượng 768kbps 384kbps  = tử Mã hoá fs  22.05kHz  11.025kHz  8kHz Hình 2-1 Chuyển đổi A/D tín hiệu audio Audio-Video Engineering
  29. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN Bảng 2-2 Các tiêu chuẩn lấy mẫu điển hình Tiêu chuẩn Tốc độ lẫy mẫu Số bits/mẫu Mono/stereo Tốc độ Băng tần Điện thoại 8 kHz 8 bits/mẫu Mono 8 kbytes/s 4Khz AM radio 11.025 kHz 8 bits/mẫu Mono 11.0 kbytes/s 5kHz FM radio 22.05 kHz 16 bits/mẫu Stereo 88.2 kbytes/s 10kHz CD 44.1 kHz 16 bits/mẫu Stereo 176.4 kbytes/s 20kHz DAT 48 kHz 16 bits/mẫu Stereo 192.0 kbytes/s 20Khz DVD audio 192 kHz 24 bits/mẫu Stereo 1152.0 kbytes/mẫu 20kHz • Các tiêu chuẩn lấy mẫu theo các yêu cầu cụ thể khác nhau -Chất lượng. - Độ trễ. -Băng thông. -Tốc độ Audio-Video Engineering
  30. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN • Kiến trúc mã hoá cảm quan: !Tổng quan Tham số s(n) Phân tích Tham số Lượng thời tử và lấy Mã hoá gian/tần số mẫu Entropy Ghép Các ngưỡng (không kênh che tổn hao) Phân tích Phân Thông tin PA phối bit thêm Đối tượng: Hình 2-2 Kiến trúc mã hoá cảm quan Tốc độ bit thấp, chất lượng cao, trễ và độ phức tạp thấp, sức chịu đựng cao và độc lập nguồn. Các kỹ thuật: Khai thác các tín hiệu không thích hợp với hệ thống thính giác của con người, phân tích tâm lý âm học, khai thác tín hiệu dư thừa thống kê Phân tích tâm lý âm học: Tai người có đặc trưng như một bộ lọc âm thông dải có tính động, không đồng nhất và không tuyến tính. Sử dụng hiện tượng tâm lý âm học để giảm số bit mã hoá tín hiệu. Audio-Video Engineering
  31. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN ! Kỹ thuật phân tích thời gian- tần số: Mục đích: thuận tiện trong quá trình xử lý. ! Biến đổi tần số lấy mẫu ! Bộ phân chia: ! Giảm tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=fs/M. ! Tín hiệu ngõ ra có biên độ ở những thời điểm có chu kỳ Ts’=1/fs’. s(n) y↓M(n) ↓M fs fs’=fs/M s(n) y↑L(n) ↑L fs fs’=Lfs ! Bộ nội suy: Hình 2-3 Bộ phân chia và bộ nội suy ! Tăng tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=Lfs. ! Tín hiệu ngõ ra có biên độ của tín hiệu ngõ vào, ngoài ra, nó còn chèn L-1 mẫu có giá trị bằng 0 giữa hai mẫu từ tín hiệu ngõ vào. Audio-Video Engineering
  32. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN ! Băng lọc số: • Khái niệm: Băng lọc số là một tập hợp các bộ lọc số có chung đầu vào nhiều đầu ra hoặc chung đầu ra nhiều đầu vào. • Băng lọc số phân tích: jω Băng lọc số phân tích là tập hợp các bộ lọc số có đáp ứng tần số Hk(e ) có chung đầu vào và nhiều đầu ra x0(n) jω jω H0(e ) X0(e ) x1(n) x(n) jω jω H1(e ) X1(e ) X(ejω) xM-1(n) jω jω HM-1(e ) XM-1(e ) Hình 2-4 Ba ng l? c phân tích Ngõ ra gồm M tín hiệu xk(n) chiếm dải tần liên tiếp nhau gọi là các tín hiệu băng con (subband). Các bộ lọc jω H0(e ): thông thấp. jω HM-1(e ): thông cao. jω Hi(e ): thông dải, với i từ 1 đến M-2 Audio-Video Engineering
  33. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN • Băng lọc số tổng hợp: jω Băng lọc số tổng hợp là tập hợp các bộ lọc số có đáp ứng tần số Gk(e ) có chung đầu ra x (n) jω 0 jω G0(e ) X0(e ) x (n) jω 1 jω G1(e ) + X1(e ) x(n) x (n) jω L-1 jω GL-1(e ) + XL-1(e ) X(ejω) Hình 2-5 Băng lọc tổng hợp jω jω jω Các bộ lọc : G0(e ): thông thấp, GM-1(e ): thông cao, Gi(e ): thông dải, với i từ 1 đến L-2 • Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu phương QMF (Quadrature Mirror Filter Bank): Băng lọc số nhiều nhịp là sự kết hợp của băng lọc số phân tích, băng lọc số tổng hợp với bộ phân chia và bộ nội suy. Với số bộ lọc của băng lọc phân tích và tổng hợp bằng 2 thì ta có băng lọc số nhiều nhịp hai kênh. Audio-Video Engineering
  34. =− xˆ()ncxnnxnˆ() (0 ) MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN y0(n) ’ x(n) x0(n) v0(n) y0 (n) jω ↓ ↑ jω H0(e ) 2 2 G0(e ) xnˆ() jω ↓ ↑ jω H1(e ) 2 2 G1(e ) + ’ x1(n) v (n) y (n) y1 (n) Phân tích Phân chia 1Nội suy Tổng1 hợp Hình 2-6 Băng lọc nhiều nhịp gương cầu phương jω jω jω jω H0(e ), G0(e ) :Lọc thông thấp. H1(e ), G1(e ) :Lọc thông cao. •Lý tưởng: xnˆ()= xn () jω jω π •Nếu |H0(e )|=|H1(e )| và nếu chọn tần số cắt cho 2 bộ lọc là /2 thì ta thấy jω jω π |H0(e )|là ảnh của |H1(e )| qua gương đặt ở vị trí /2. Băng lọc nhiều nhịp hai kênh với đặc tính như vậy gọi là băng lọc gương cầu phương. =− •Nếu xn ˆ () cxn ( n 0 ) giống dạng tín hiệu ngõ vào thì ta gọi là băng lọc gương cầu phương khôi phục hoàn hảo PRQMF (Perfect Reconstructure QMF) Audio-Video Engineering
  35. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN • Mã hoá băng con và cấu trúc bộ lọc QMF – Mã hoá băng con •Sử dụng bộ lọc số để mã hoá băng con y0(n) ’ x(n) x0(n) v0(n) v0(n) y0 (n) jω ↓ ↑ jω H0(e ) 2 Kênh 2 G0(e ) truyền xnˆ() jω ↓ dẫn ↑ jω H1(e ) 2 2 G1(e ) + ’ x1(n) v1(n) v1(n) y1(n) y1 (n) Mã hoá Giải mã Hình 2-7 Mã hoá băng con và giải mã băng con •Thuận lợi cho việc nén tín hiệu âm thanh vì phổ tập trung không đồng đều. Từ đó, ta có được sự phân bố hợp lý, vừa hiệu quả, vừa đạt chất lượng cao. Audio-Video Engineering
  36. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN •Cấu trúc dạng cây đơn phân giải (uniform resolution) 0 jω ↓ H02 (e ) 2 x(n) jω ↓ H01(e ) 2 0 jω ↓ H12 (e ) 2 1 jω ↓ H02 (e ) 2 jω ↓ H11(e ) 2 1 jω ↓ H12 (e ) 2 Hình 2-8 Cấu trúc dạng cây đơn phân giải Audio-Video Engineering
  37. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN •Cấu trúc dạng cây đa phân giải (multiresolution) 0 jω ↓ H02 (e ) 2 x(n) jω ↓ H01(e ) 2 0 jω ↓ H12 (e ) 2 jω ↓ H11(e ) 2 Hình 2-9 Cấu trúc dạng cây đa phân giải Cấu trúc này cho ta lượng bit ngõ ra tối ưu và phù thuộc vào sự phân bố phổ của tín hiệu. Audio-Video Engineering
  38. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN •Các phương pháp mã hoá chuyển đổi – FFT (Fast Fourier Transform) – DFT (Discrete Fourier Transform) – DCT (Discrete Cosine Transform) – MDCT (Modified DCT) – Wavelets. Audio-Video Engineering
  39. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN – DCT (Discrete Cosine Transform) DCT là phép biến đổi trực giao, một thuật toán hiệu quả, cho các đặc tính N nén mạnh và giảm−1 độ tương quan. 4 2  π N  N x(n) = ∑ p(n)X (k)cos (2n +1+ N −)(12k +1), n = 0, ,πN −1;+k = 0, , −1. Chuyển đổiN DCT= thuận:2N 2  (2n 1)k 2 k 0 X (k) = ∑ ∆(n)x(n)cos , k = 0, N −1  1 ,n = 0; n=0 2N  ∆(n) =  N  2 1  ,0 < n ≤ N −1  ,n = 0;  N  ∆(n) =  N 1 , n = 0;  2 N ,0 < n ≤ N −1  N Chuyển đổi DCT ngược N −1 π (2n +1)k x(n) = ∑ ∆(n)X (k)cos , n = 0, , N −1 k =0 2N  1 ,n = 0;  ∆(n) =  N 2  ,0 < n ≤ N −1  N Audio-Video Engineering
  40. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN – MDCT (Modified DCT): DCT được hiệu chỉnh. MDCT là phép biến đổi trực giao tuyến tính được hiệu chỉnh từ DCT. MDCT thuận: N −1 π NN Xk()=+++=−=−∑ pnxnc ()()os (2 n1 )(2 k1); n 0, , N1; k 0, , 1. n=0 2N 2 2 Và chuyển đổi MDCT ngược (IMDCT): N −1 4 2  π N  N x(n) = ∑ p(n)X (k)cos (2n +1+ )(2k +1), n = 0, , N −1;k = 0, , −1. N k=0 2N 2  2 π x px( )= sin( ) Với p(x) là hàm cửa sổ sin được xác định: N – Wavelets Wavelets có thể được xem như một bộ phân tích băng con, với cây không cân bằng, nghĩa là các tần số được chia một cách không đồng nhất. Vậy, băng lọc tương đồng với dải tới hạn. Audio-Video Engineering
  41. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN – DWT (Discrete Wavelet Transform) Mở rộng và dịch chuyển “hàm mẹ” h(t) bằng cách định nghĩa một cơ sở trực giao, wavelet cơ sở: =−−−mm/2 htnm. () 2 h() 2 tn Trong đó: n là tỷ lệ, m là độ dời và t là thời gian. Hệ số tỷ lệ n chỉ thị độ rộng của các wavelet và hệ số vị trí m xác định vị trí của nó. Với hàm mẹ h(t), ta được một tập hàm wavelet trực giao cơ sở. Trực giao: f(t), g(t) là hai vector thuộc không gian L2(a,b). t∈[a,b]. Hai vector gọi là trực giao khi tích vô hướng của chúng bằng 0. b = ∫ f (t)g * (t)dt = 0 a Audio-Video Engineering
  42. MÃMÃ HOÁHOÁ AUDIOAUDIO CCẢẢMM QUANQUAN •Cở sở trực giao: •Tập các vector {vk}={v1,v2, ,vn} được gọi là cơ sở trực giao nếu chúng trực giao từng đôi một và có độ dài bằng 1. b δ = δ = mn. Hay: ∫ h (t)h * (=t)dt = . * k X ω (n, ml ) cn,m ∑ xkl(t)hn,m a +∞ +∞ x(t) = c h (t) = ∑∑ n.m n,m 1, k l −∞ −∞ δ =  •Hàm delta: kl 0, k ≠ l Chuyển đổi Wavelet: = = * Xω (n,m) cn,m ∑ x(t)hn,m +∞ +∞ Chuyển đổi wavelet ngược: = x(t) ∑∑cn.mhn,m (t) −∞ −∞ Audio-Video Engineering
  43. PHÂNPHÂN TÍCHTÍCH TÂMTÂM LÝLÝ ÂMÂM HHỌỌCC •Hệ thống thính giác của con người – Được chú trọng khai thác trong mã hoá audio cảm quan. –Con người có thể nghe trong dải 20Hz đến 20kHz với khả năng nghe không đồng nhất với các tần số trong dải này. Việc cảm nhận còn phụ thuộc vào mức áp lực và tuỳ thuộc vào từng người. –Dải 20Hz÷20kHz được chia thành các dải con không đồng nhất và không tuyến tính. Cảm nhận tốt trong khoảng 2kHz đến 4kHz và ngưỡng nghe đến ngưỡng đau khoảng 96dB. –Phụ thuộc vào môi trường nghe, với môi trường nhiễu lớn thì hạn chế khả năng nghe và khả năng phân biệt các âm thanh khác nhau. –Vậy, phân tích tâm lý nghe là xét các vấn đề: • Độ nhạy của tai, khả năng đáp ứng của các cường độ khác nhau. • Đáp ứng của tai với các tần số khác nhau. • Nghe một âm khi có mặt một âm khác. Audio-Video Engineering
  44. PHÂNPHÂN TÍCHTÍCH TÂMTÂM LÝLÝ ÂMÂM HHỌỌCC •Ngưỡng nghe tuyệt đối ATH (Absolute Theshold of Hearing) – Thí nghiệm:Đặt một người trong phòng kín, im lặng, phát âm kiểm tra (test tone) với tần số xác định (1kHz), tăng mức âm thanh cho đến khi có thể nghe được, ghi lại các giá trị và lặp lại với tần số khác. –Vẽ đồ thị, ta được ngưỡng nghe tuyệt đối. Thử với người khác, ghi kết quả. Hình 2-10 Ngu ? ng nghe tuy? t d ? i Audio-Video Engineering
  45. PHÂNPHÂN TÍCHTÍCH TÂMTÂM LÝLÝ ÂMÂM HHỌỌCC •Dải tới hạn (critical bankwidth) – Fletcher tiến hành các thử nghiệm và cho thấy việc nghe của con người giống như sử dụng các bộ lọc tâm sinh lý có độ rộng gần bằng một giá trị tới hạn và Flecher gọi độ rộng của bộ lọc tới hạn là dải tới hạn. – Ở tần số thấp, dải tới hạn hẹp hơn tần số cao, thang tần số không tuyến tính " thang bark (Barkhausen) – 1 bark=1 độ rộng dải tới hạn, z=13arctg(0.76f)+3.5arctg(f/7500) [bark] Hình 2-11 D? i t? i h? n Audio-Video Engineering
  46. PHÂNPHÂN TÍCHTÍCH TÂMTÂM LÝLÝ ÂMÂM HHỌỌCC • Kỹ thuật che (masking) Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm nhận yếu đi khi âm này có tần số gần với âm cần nghe hoặc biên độ lớn. – Che tần số (frequency masking) Thí nghiệm: Đặt một người trong phòng kín, phát ra một âm che (masking tone) với tần số xác định (1kHz) ở một mức nào đó (60dB), sau đó, phát âm kiểm tra (test tone) (1,1kHz) , tăng mức đến khi có thể nghe được. Thay đổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che khác. Hình 2-12 Che t? n s? Audio-Video Engineering
  47. PHÂNPHÂN TÍCHTÍCH TÂMTÂM LÝLÝ ÂMÂM HHỌỌCC – Che thời gian (temporal masking) Thí nghiệm: Phát một âm che ở tần số 1kHz, biên độ 55dB, thêm một âm kiểm tra 1,1kHz, biên độ 20dB trước và sau âm che. Âm kiểm tra không thể nghe được (nó đang bị che). Lặp lại các mức khác của âm kiểm tra và vẽ. Với thí nghiệm trên, ta thấy âm 1,1kHz với 20dB bị che trước khoảng 15ms và che sau khoảng 50ms. Hình 2-13 Che th? i gian Audio-Video Engineering
  48. KKỸỸ THUTHUẬẬTT NÉNNÉN AUDIOAUDIO • Cơ sở Âm thanh trung thực và chất lượng dịch vụ thoả mãn thì tốc độ dòng dữ liệu phải lớn. Ví dụ : Hệ thống âm thanh đa kênh mã hoá 16 bits, tần số lấy mẫu 48kHz (6 kênh) sẽ có tốc độ: 48x16x6=4.5Mbps. Tốc độ cao " Khó khăn lưu trữ, truyền dẫn và giá thành thiết bị. " Nén. • Nén không tổn hao Khôi phục đúng thông tin ban đầu sau khi giải nén. Cơ sở: Loại bỏ dư thừa thống kê, các thông tin xuất hiện trong tín hiệu mà có thể dự báo trước. Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào độ phức tạp của tín hiệu nguồn. Thường sử dụng kỹ thuật mã hoá dự đoán trong miền thời gian. Audio-Video Engineering
  49. KKỸỸ THUTHUẬẬTT NÉNNÉN AUDIOAUDIO – Thuật toán vi sai: Tín hiệu âm thanh có đặc tính lặp đi lặp lại nên xuất hiện sự dư thừa số liệu. Thông tin lặp sẽ được loại bỏ trong quá trình mã hoá và được đưa vào lại trong quá trình giải mã sử dụng kỹ thuật DPCM. Các tín hiệu audio đầu tiên được phân tích thành tập hợp các dải băng con bao gồm một số lượng âm thanh rời rạc, sau đó, DPCM được sử dụng để dự báo các tín hiệu lặp lại theo chu kỳ. Nếu sử dụng ADPCM còn cho kết quả tốt hơn. – Mã hoá Entropy: Tận dụng độ dư thừa trong cách miêu tả các hệ số băng con đã lượng tử hoá nhằm cải thiện tính hiệu quả của quá trình mã hoá. Các hệ số lượng tử được gởi đi theo sự tăng dần của tần số. Kết quả nhận được là bảng mã tối ưu thống kê các giá trị miền tần số thấp và cao. Sử dụng mã hoá Hufman, Lempel-Zip để nén. Audio-Video Engineering
  50. KKỸỸ THUTHUẬẬTT NÉNNÉN AUDIOAUDIO • Nén tổn hao Hệ thống thính giác của con người không thể phân biệt các thành phần phổ có biên độ nhỏ giữa các thành phần phổ có biên độ lớn. Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá trình nén và giải nén và chất lượng audio yêu cầu. – Các kỹ thuật được sử dụng: - Kỹ thuật che (masking) đối với các thành phần tín hiệu trong miền thời gian và tần số. - Che mức tạp âm lượng tử cho từng âm độ của tín hiệu âm thanh bằng cách chỉ định số bit vừa đủ để chắc chắn rằng mức nhiễu lượng tử luôn nằm dưới mức giá trị cần che. - Mã hoá ghép: Khai thác độ dư thừa trong hệ thống audio đa kênh với các thành phần số liệu trong các kênh giống nhau. Mã hoá một phần số liệu chung trên một kênh và chỉ định cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại. Audio-Video Engineering
  51. MPEG-MPEG-11 • Giới thiệu MPEG-1 Mono và Stereo 32, 44.1, 48kHz Lớp I Lớp II Lớp III Hình 2-14 MPEG-1 Được phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172. Sử dụng tần số lấy mẫu của CD-DA, với fs=32;44.1;48kHz, mã hoá 16bits/mẫu tín hiệu. Tốc độ bít: 32 - 768 kbps/channel. Các kiểu: Mono, dual-mono, dual-stereo, joint-stereo. Xác định các tham số khác nhau về tốc độ, dòng số sau khi nén, số mẫu trong header cho một kênh, cấu trúc thời gian khung, phương pháp mã hoá dự đoán và các chế độ làm việc. Audio-Video Engineering
  52. MPEG-MPEG-11 • Đặc tính Lớp I Lớp II Lớp III Dùng cho thiết bị dân dụng Dùng cho thiết bị chuyên Dùng cho thiết bị chuyên dụng, đa môi trường dụng, đa môi trường Tốc độ dòng số liệu từ 32- Tốc độ dòng số liệu từ 32- Tốc độ dòng số liệu từ 32- 448kbps 384kbps 320kbps 384mẫu/khung/kênh 1152mẫu/khung/kênh 1152mẫu/khung/kênh 32 băng con đều nhau, mỗi 32 băng con đều nhau, mỗi 32 băng con tới hạnthành băng con gồm block 12 mẫu băng con gồm block 36 mẫu 18 MDCT Chu kỳ một khung 8ms cho Chu kỳ một khung 24ms Chu kỳ một khung 24ms kênh có fs=48kHz cho kênh có fs=48kHz cho kênh có fs=48kHz Hệ số tỷ lệ 6 bits/băng, phân Hệ số tỷ lệ 6 bits/băng, Hệ số tỷ lệ 6 bits/băng, phối bit theo phương thức ứng phân phối bit theo phương phân phối bit theo phương trước. thức ứng trước. thức ứng trước. Audio-Video Engineering
  53. MPEG-MPEG-11 • Khung lớp I : 12x32 =384. • Khung lớp II, III: 12x32x3=1152. Hình 2-15 Các m? u trong MPEG-1 Audio-Video Engineering
  54. MPEG-MPEG-11 – Kiến trúc Băng lọc Lượng tử 32 Dữ liệu phân tích đa 32 hoá pha 32 kênh Nén khối M UX kênh s(n) Lượng tử SMR: T? s? tín SMR FFT Phân tích Phân phối Thông hi? u/tín hi? u che LI: 512 tâm sinh lý bit động tin thêm LII: 1024 nghe Hình 2-16 Sơ đồ khối MPEG layer I, II Dữ liệu Băng lọc MDCT Vòng lặp chỉ định bit 32 ↓32 Phân đoạn Nén khối phân tích đa Lượng tử hoá tương hợp pha 32 kênh Mã hoá Huffman M kênh s(n) U X Phân tích SMR Mã thông FFT tâm sinh lý nghe tin thêm Hình 2-17 Sơ đồ khối MPEG layer III Audio-Video Engineering
  55. MPEG-MPEG-11 Với mỗi băng con, xác định mức biên độ và mức nhiễu bằng mô hình tâm sinh lý nghe. SMR (signal-mask rate) được sử dụng để xác định số bit cho quá trình lượng tử hoá đối với mỗi băng con với mục đích giảm thiểu dung lượng. Ví dụ: Sau khi phân tích, mức của 16 băng con đầu là: Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Level (db) 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1 Nếu mức của băng con thứ 8 là 60 thì nó che 12 dB ở băng con thứ 7 và 15 dB ở băng con thứ 9. Băng con 7 có mức 10dB 15dB: gởi đi. " Chỉ có các mức lớn hơn mức che là được gởi đi thay vì dùng 6 bits để mã hoá, ta chỉ dùng 4 bits. MPEG-Layer I: Bộ lọc DCT 1 khung và tần số bằng phẳng trong mỗi băng con. Mô hình tâm sinh lý nghe sử dụng che tần số. MPEG-Layer II: Có 3 khung trong bộ lọc (trước, hiện tại và kế), tổng là 1125 mẫu. Sử dụng vài bits để che thời gian. MPEG-Layer III: Sử dụng bộ lọc tới hạn để đáp ứng tốt hơn. Mô hình tâm sinh lý nghe sử dụng che thời gian, che tần số, tính toán độ dư thừa stereo và mã hoá Hufman. Audio-Video Engineering
  56. MPEG-2MPEG-2 •Mở rộng MPEG-1 cho các ứng dụng mới. • Có khả năng áp dụng nhiều tốc độ khác nhau, từ 32 đến 1066kbps. •Chất lượng âm thanh tuỳ thuộc ứng dụng. •Tần số lấy mẫu có thể giảm 1 nửa so với MPEG-1 (16; 22,05; 24kHz). •Khả năng đa kênh, tốc độ bits mở rộng có thể lên đến 1 Mbps cho các ứng dụng tốc độ cao. • Cho phép nén đồng thời nhiều kênh. •Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn ngữ trong phần bits mở rộng. •MPEG-2 sử dụng mã hoá cường độ cao, giảm xuyên âm, mã hoá dự đoán liên kênh và mã hoá ảo ảnh kênh trung tâm để nhận được tốc độ bit kết hợp 384 kbps. • Khung MPEG-2 được chia thành 2 phần, phần đầu là MPEG-1stereo tương hợp lớp I với tốc độ tối đa 448kbps, lớp II tốc độ tối đa 384kbps và lớp III tối đa 320kbps; phần mở rộng MPEG-2 chứa tất cả những dữ liệu surround khác. Audio-Video Engineering
  57. MPEG-2MPEG-2 MPEG-2 Mono-stereo Mono-stereo 5 channels MPEG-1 MPEG-2 MPEG-2 32;44.1;48kHz 16;22,05;24kHz multi channel 32;44.1;48kHz Layer I Layer I Layer I Layer II Layer II Layer II Layer III Layer III Layer III Hình 2-18 Chu? n MPEG-2 mã hoá mono/stereo t? c d ? bit th? pvà d a kênh Audio-Video Engineering
  58. MPEG-2MPEG-2 • Mã hoá và giải mã MPEG-2 L0 channel L L0’ L’ MPEG-1 + MPEG-1 R0 encoder decoder C R0’ C’ Inverse Matrix T3 ’ R T3’ Matrix R T4 LS MPEG-2 MPEG-2 T4’ LS’ Extension Extension T5 encoder decoder RS T5’ RS’ Hình 2-19 Mã hoá và gi? i mã MPEG-2 Audio-Video Engineering
  59. AC-3AC-3 (DOLBY(DOLBY DIGITAL)DIGITAL) • Chuyển tải âm thanh đa kênh trong các ứng dụng như DVD-Video, DTV và DBS. • Phát triển từ AC-1 và AC-2. • Mã hoá âm thanh từ 1 đến 6 kênh, thông thường cung cấp âm thanh 5.1 kênh: trái, phải, trung tâm, trái vòm, phải vòm và 1 kênh hiệu ứng tần số thấp. • 6 kênh yêu cầu 6x48kHzx18bits=5.184Mbps chưa nén có thể được mã hoá tối thiểu với tốc độ 384kbps (tỷ lệ 13:1). • Tuy nhiên, AC-3 hỗ trợ tốc độ từ 32 đến 640kbps. • Cung cấp khả năng tự chọn mức âm thanh cho thính giả. • Cho phép giảm dữ liệu bằng quá trình lượng tử biểu diễn trong miền tần số của tín hiệu âm thanh. •Bộ mã hoá sử dụng băng lọc phân tích chuyển các mẫu PCM thành các hệ số trong miền tần số. Mỗi hệ số biểu diễn ký hiệu mũ nhị phân gồm phần mũ nhị phân và phần định trị. Các tập mũ nhị phân được mã hoá thô qua phổ tín hiệu và được xem như đường bao phổ. Sử dụng phân phối bít xác định số bits cần mã hoá mỗi định trị. Đường bao phổ và các định trị được lượng tử cho 6 khối âm thanh (1536 mẫu âm thanh) được định dạng thành khung rồi chuyển đi. Audio-Video Engineering
  60. AC-3AC-3 (DOLBY(DOLBY DIGITAL)DIGITAL) Quá trình giải mã hoàn toàn ngược lại, ở đây chỉ xét quá trình mã hoá Số Băng lọc Mã hoá Các mẫu mũ Chỉ định bit PCM phân tích đường bao Phần định trị Lượng tử hoá Thông tin chỉ định bit phần định trị Phần định trị được Đường bao phổ lượng tử hoá được mã hoá Dòng bit Định dạng khung AC-3 AC-3 Hình 2-20 Bộ mã hoá AC-3 Audio-Video Engineering
  61. APT-XAPT-X110000 • APT-X100 cho tỷ lệ nén 4:1. • Sử dụng để truyền dẫn, lưu trữ các tín hiệu audio mono, stereo hay đa kênh chất lượng cao. • Không hẳn dựa vào mô hình tâm sinh lý nghe, cũng không trực tiếp loại các thành phần không thích hợp trong tín hiệu audio, mà nó ngầm hiểu một mô hình đáp ứng nghe bằng việc phân phối ít bit ở tần số cao. •Thuật toán hoàn toàn trong miền thời gian sử dụng mã hoá dự đoán tuyến tính trong các băng con. •Hoạt động với bất kỳ tần số lấy mẫu với ngõ ra 16 bits/từ mẫu. •Tín hiệu audio được chia thành 4 băng con với băng thông đều nhau sử dụng các bộ lọc QMF. •Tín hiệu được phân tích trong miền thời gian: sử dụng mã hoá dự đoán tuyến tính ADPCM để lượng tử mỗi băng theo nội dung và loại bỏ độ dư thừa trong các băng con. • Mã hoá sự khác biệt của mẫu hiện thời và mẫu trước. •Giải mã được tiến hành một cách ngược lại. Audio-Video Engineering
  62. MÃMÃ HOÁHOÁ ÂMÂM THANHTHANH NNỔỔII • Trái phải (LR) Không loại bỏ độ dư thừa. Các kênh riêng biệt được mã hoá độc lập. Ngưỡng che không liên quan. Hiệu quả với âm thanh rất khác biệt giữa kênh trái và kênh phải. N1 L≈R + L’ Nguồn ≈ R L + R’ N2 Hình 2-21 Mã hoá trái ph? i Audio-Video Engineering
  63. MÃMÃ HOÁHOÁ ÂMÂM THANHTHANH NNỔỔII • Joint Stereo Midle-Side Khuynh hướng của Joint Stereo không chỉ là kết hợp các định dạng của chuẩn nén mp3 (MPEG1 lớp III) mà còn kết hợp các dạng khác: MPEG và AAC. Middle-Side Stereo xét hai kênh dữ liệu theo hai phương diện khác nhau. Thay vì lưu trữ một dữ liệu âm thanh theo hai kênh Left và Right, ta có thể chỉ cần lưu trữ một chuỗi tương tự số trung bình Average (của Left và Right) và sự sai biệt Difference (giữa Left và Right). Ở dạng Middle-Side, ta có thể lưu trữ các giá trị Middle và Side như sau: Middle=(L+R)/2, Side=(L-R)/2. Dấu của Side là rất quan trọng, nếu Side >0 nghĩa là tín hiệu L lớn hơn tín hiệu R. Ta hoàn toàn có thể tái tạo hai kênh L, R như sau: L=Middle+Side, R=Middle-Side. Ưu điểm là sự khác biệt tương đối của các tín hiệu audio của các kênh L và R. Kết quả là kênh Middle lớn hơn nhiều so với kênh Side, Việc mã hoá kênh Side sử dụng ít bít hơn để giải phóng tài nguyên mà có thể được sử dụng để triển khai hữu hiệu hơn trên kênh Middle. Khi tái định dạng lại L, R thì kết quả sẽ thể hiện tín hiệu gốc ngõ vào thực hơn. Audio-Video Engineering
  64. MÃMÃ HOÁHOÁ ÂMÂM THANHTHANH NNỔỔII – Tính chất Kênh side sử dụng số bit rất ít. Loại bỏ độ dư thừa cho tín hiệu mono trong thực tế. Có thể được áp dụng trong miền thời gian lẫn tần số. Độ lợi mã hoá cao phụ thuộc tín hiệu. – Biến đổi ngược: tổng/hiệu chuẩn hoá. Hình 2-22 Midle-Side chu? n hoá Audio-Video Engineering
  65. MÃMÃ HOÁHOÁ ÂMÂM THANHTHANH NNỔỔII • Stereo ghép cường độ cao (Intensity Stereo): Mục đích: Tối thiểu hoá thông tin stereo để nhận được tốc độ bit thấp nhất nếu có thể. • Mã hoá tín hiệu tổng các kênh + các hướng của các kênh. Truyền đường bao, sau đó tỷ lệ theo các kênh. • Kiểm chứng dựa trên việc cảm nhận của con người kém đối với tần số trên 3kHz. • Không liên quan đến kỹ thuật suy giảm. • Biên độ và pha là không quan trọng. • Giảm gần 50% dữ liệu. • Không đảm bảo thông tin về pha của tín hiệu. • Một vài sự méo có thể nhận biết được. • Sử dụng trong các ứng dụng tốc độ bit thấp. Audio-Video Engineering
  66. MÃMÃ HOÁHOÁ ÂMÂM THANHTHANH NNỔỔII L Chỉnh pha L+R Σ R Chỉnh pha Đo biên độ Đo biên độ Hướng kênh L Đo biên độ ÷ Hướng kênh R Đo biên độ ÷ L+R L Hướng kênh L X R Hướng kênh R X Hình 2-22 Mã hoá và giải mã ghép stereo cường độ cao Audio-Video Engineering
  67. AUDIO-VIDEOAUDIO-VIDEO CHƯƠNG 3 KKỸỸ THUTHUẬẬTT VIDEOVIDEO Audio-Video Engineering
  68. CCƠƠ SSỞỞ VIDEOVIDEO •Các dạng của tín hiệu Video màu –Tín hiệu video thành phần: • Các tín hiệu video thành phần được xử lý riêng lẻ. - Tập các thành phần RGB: Là các tín hiệu cơ bản video màu được camera cung cấp. Ba tín hiệu màu có cùng độ rộng băng tần. - Tập các thành phần Y, R-Y, B-Y: Là tổ hợp của các giá trị màu cơ cản. Thông thường tín hiệu Y có băng tần rộng hơn hai tín hiệu R-Y và B-Y. "Tái tạo hình ảnh tốt nhất nhưng yêu cầu băng thông và đồng bộ tốt cho các thành phần. –Tín hiệu video tổng hợp: Là tín hiệu video mà trong đó thông tin độ chói (luminance), màu (chrominance) và đồng bộ (synchronization) được phối hợp với nhau (theo tần số, thời gian và biên độ) để tạo ra một tín hiệu duy nhất. Phổ năng lượng tập trung vào hài của tần số tín hiệu quét dòng. Cho phép quét cách dòng để nhận được cảm nhận tốt hơn. " Yêu cầu băng thông nhỏ, không đồng bộ nhưng xử lý khó khăn. Audio-Video Engineering
  69. CCƠƠ SSỞỞ VIDEOVIDEO • Video tương tự • Thông tin về cảnh vật truyền đi mang các tính chất về độ choi, màu sắc và sự thay đổi theo thời gian. •Một tín hiệu video bao gồm các ảnh theo trình tự thời gian, mỗi ảnh bao gồm điểm ảnh. Các điểm ảnh mang thông tin về độ chói và màu sắc của vật thể, cảnh quan. – Kỹ thuật quét Quét liên tục: Tần số quét lớn. Quét cách dòng: Giảm được tần số quét dòng nhưng vẫn đảm bảo được cảm nhận liên tục, không bị trôi, nhấp nháy Hình 3-1 Quét liên tục và quét cách dòng Audio-Video Engineering
  70. CCƠƠ SSỞỞ VIDEOVIDEO • Đặc điểm của video tương tự •Tín hiệu đơn cực, mức 1 chiều (DC=0V) biểu diễn mức đen và 0.7V biểu diễn mức trắng. –25mV biểu thị mức xoá. Hình 3-2 Tín hiệu video tương tự điều chế âm Audio-Video Engineering
  71. CCƠƠ SSỞỞ VIDEOVIDEO • Các tiêu chuẩn video màu – NTSC Video: 525 dòng trên một khung, 30 khung hình trong một giây. Quét cách dòng. Chia làm hai trường (mỗi trường 262.5 dòng). Có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường. Phù hợp vì độ phân giải của Laser Disk và S-VHS là 420 và TV thông thường có độ phân giải khoảng 320 dòng. Hình 3-3 Tín hiệu video với thông tin điều khiển Audio-Video Engineering
  72. CCƠƠ SSỞỞ VIDEOVIDEO Biểu diễn màu: NTSC sử dụng kiểu màu YIQ. Thành phần tổng hợp =Y+Icos(fsct)+Qsin(fsct). Trong đó, fsc là tần số của sóng mang phụ của màu. – PAL Video: 625 dòng trên một khung, 25 khung hình trong một giây. Quét cách dòng. Khung gồm hai trường chẵn lẻ, mỗi trường 312.5 dòng. Sử dụng kiểu màu YUV. Dải tần tín hiệu chói Y rộng 5MHz. Tín hiệu U và V được xác định theo công thức: V=0.877(R-Y)=0.615R-0.515G-0.100B U=0.493(B-Y)=-0.147R-0.293G+0.473B Audio-Video Engineering
  73. CCƠƠ SSỞỞ VIDEOVIDEO • Video số – Thuận lợi: • Truy cập ngẫu nhiên trực tiếp thuận tiện, •Việc tạo, lưu trữ và ghi đọc nhiều lần không ảnh hưởng đến chất lượng ảnh. • Không cần xung xoá và xung đồng bộ. •Xử lý thuận tiện, không gặp trở ngại về giới hạn tần số, băng thông. – Khó khăn • Tuy nhiên, tín hiệu số gặp một số trở ngại xoay quanh vấn đề về tính hiệu quả, chẳng hạn bộ lọc số có giá thành tương đối cao. – Tiêu chuẩn lấy mẫu màu: •Thuận lợi trong việc xử lý đối với tín hiệu video thành phần, nhưng băng thông yêu cầu lớn. • Điểm khác nhau chủ yếu của các tiêu chuẩn lấy mẫu là ở tỷ lệ giữa tần số lấy mẫu và phương pháp lấy mẫu tín hiệu chói và các tín hiệu màu. Tần số chuẩn là 3,375MHz. Mẫu tín hiệu được lấy chỉ đối với phần tử tích cực của tín hiệu video. Cấu trúc lấy mẫu là trực giao. Audio-Video Engineering
  74. CCƠƠ SSỞỞ VIDEOVIDEO 4:4:4: Tần số lấy mẫu màucho các thành phần Y, CR, CB là 13.5MHz. 4:4:4 4:2:2 4:2:2: Y: 13.5MHz, CR, CB là 6.75MHz. Khi giải mã, màu điểm ảnh sau được suy từ điểm ảnh trước. 4:1:1: Y:13.5MHz,CR, CB là 3.375MHz. 4:2:0: 4:1:1 4:2:0 Y:13.5MHz,CR, CB là 3.375MHz. Lấy mẫu màu xen kẻ. Lấy mẫu Y, CR, CB Lấy mẫu Y Lấy mẫu CR Lấy mẫu CB Hình 3-4 Các tiêu chuẩn lấy mẫu màu Audio-Video Engineering
  75. CCƠƠ SSỞỞ VIDEOVIDEO • Tín hiệu video số ?nh t Điểm ảnh Mang thông tin về độ chói, màu sắc Hình 3-5 Video s? Audio-Video Engineering
  76. CCƠƠ SSỞỞ VIDEOVIDEO • Các tiêu chuẩn video số của CCIR (Consultative Committee for International Radio) CCIR CCIR 601525/60 601625/50 CIF QCIF NTSC PAL/SECAM Độ phân giải chói 720x480 720x576 352x288 176x144 Độ phân giải sắc 360x480 360x576 176x144 88x72 Lấy mẫu màu 4:2:2 4:2:2 4:2:0 4:2:0 Số trường /s 60 50 30,15,10,7.5 30,15,10,7.5 Cách quét Cách dòng Cách dòng Liên tục Liên tục Audio-Video Engineering
  77. NÉNNÉN DDỮỮ LILIỆỆUU • Khái niệm •Nén ảnh là quá trình làm giảm thông tin dư thừa trong dữ liệu gốc và do đó, lượng thông tin thu được sau khi nén thường nhỏ hơn dữ liệu gốc rất nhiều. – Các loại dư thừa dữ liệu • Sự phân bố ký tự Mã hoá các ký tự có tần suất xuất hiện cao với số bits ít. • Sự lặp lại liên tiếp của các ký tự Mã hoá chuỗi lặp (dãy ký hiệu 0 hoặc 1 lặp liên tiếp) bằng một dãy mới gồm 2 thành phần: số lần lặp và ký hiệu. • Tần suất của mẫu Dãy ký hiệu xuất hiện với tần suất cao được mã hoá với số bit ít. • Độ dư thừa vị trí Khi nhận được một ký hiệu có thể đoán được ký hiệu tiếp theo do mối quan hệ giữa chúng. Mã hoá dự đoán. Audio-Video Engineering
  78. NÉNNÉN DDỮỮ LILIỆỆUU • Cơ sở lý thuyết thông tin Theo Shannon, entropy của ngu∞ ồn tin được định nghĩa: = 1 HS()∑ pi log2 i=−∞ pi ∈ Trong đó: pi:xác suất xuất hiện của ký hiệu Si S, log2 trong trường hợp mã hoá nhị phân. H(S)≥0, đối với mã hoá nhị phân, H(S) thể hiện mã hoá với số bít/ký hiệu tối thiểu. Ví dụ: Trong một ảnh phân bố đều ở thang xám (256 mức): pi=1/256, số bit mã hoá cho mức xám là log2256=8bits. "Entropy của ảnh này là Σ H(S)= pilog2(1/pi)=8bits/ký hiệu. Vậy, trong trường hợp phân bố đều, mã hoá sẽ đạt được số bit tối thiểu. Audio-Video Engineering
  79. NÉNNÉN DDỮỮ LILIỆỆUU • Thuật toán Shannon-Fano • Ví dụ mô tả thuật toán: Ký hiệu A B C D E Số lầ xuất hiện 15 7 6 5 6 • Mã hoá theo thuật toán Shannon-Fano: -Sắp xếp các ký tự theo thứ tự giảm dần của tần suất xuất hiện. - Tính xác suất. - Đệ quy làm hai phần, mỗi phần có tổng xác suất gần bằng nhau. Mã hoá phần trên băng bit 0 (hoặc bit 1), phần dưới bằng bit 1 (hoặc bit 0). -Vẽ sơ đồ cây. - Tính Entropy, số bits mã hoá trung bình và số bit mã hoá thông thường. -Nhận xét. Audio-Video Engineering
  80. NÉNNÉN DDỮỮ LILIỆỆUU Ký hiệu Đếm Pi Log2(1/pi) Mã Tổng bits A 15 15/39 1.38 00 30 B 7 7/39 2.48 01 14 C 6 6/39 2.7 10 12 E 6 6/39 2.7 110 18 D 5 5/39 2.96 111 15 • Entropy của nguồn: G? c E =11 =57 + +++ 665 HS()∑ pi log2 .1.38 .2.48 2.7 2.7 2.96 1 iA= pi 39 39 39 39 39 0 Hs()= 2.19. 1 •Số bits sử dụng trung bình: 0 1 0 30 ++++14 12 18 15 0 1 Rb= 2.28 its 39 ! ABC •Số bít mã hoá thông thường: log 5=3bits 2 ED • Nhận xét: Số bits sử dụng trung bình gần H(S) thì bộ mã càng hiệu quả. Audio-Video Engineering
  81. NÉNNÉN DDỮỮ LILIỆỆUU • Các phương pháp nén ảnh cơ sở – Mã hoá loạt dài RLC (Run Length Coding) • Nguyên tắc: Phát hiện loạt (run) ký hiệu lặp (loạt bit 0 giữa 2 bit 1 hoặc ngược lại). Thay loạt bằng 1 chuỗi mới gồm: chiều dài loạt (runlength), ký tự lặp. • Đặc điểm: Hiệu quả với chiều dài loạt lớn. Tỷ lệ nén chưa cao, " mã hoá loạt dài thích nghi hay biến đổi VLC. – Mã hoá Huffman • Nguyên tắc: Dựa vào mô hình thống kê của dữ liệu gốc, ký tự có xác suất càng cao thì mã hoá với từ mã càng ngắn. • Thuật toán: - Tính tần suất xuất hiện trong dữ liệu gốc, sắp xếp theo thú tự giảm dần. -Xét từ dưới lên trên,bắt đầu từ hai ký tự có xác suất bé nhất, quy đinh mỗi nhánh là 0 (hoặc 1) hợp lại với nhau thành nút có xác suất bằng tổng hai xác suất hợp thành. Nhánh trên có xác suất lớn hơn nhánh dưới. -Lặp lại cho đến hết. Audio-Video Engineering
  82. NÉNNÉN DDỮỮ LILIỆỆUU • Xét ví dụ trên Ký hiệu Xác suất Mã Tổng bit A 15/39 1 1 15 B 7/39 0 000 21 0 1 C 6/39 001 18 13/39 0 E 6/39 0 24/39 010 18 1 1 D 5/39 11/39 011 15 •Số bít trung bình: 87/39=2.23 (<2.28) •Hiệu quả hơn Shannon – Fano. Audio-Video Engineering
  83. NÉNNÉN DDỮỮ LILIỆỆUU – Mã hoá Lempel-Zip-Welch: 0 0 •Nén từ điển được Jacob Lampel và Abraham Ziv đề xuất năm 1977, phát triển thành họ LZ, LZ77, LZ78. 255 255 •Năm 1984, Terry Welch cải tiến 256 256 | Clear Code thành LZW. 257 257 | End of Information • Nguyên tắc: Dựa vào việc xây dựng một từ điển lưu các chuỗi ký tự có tần 258 Chuỗi mới suất cao và thay thế bằng một từ mã mới. 4095 Chuỗi mới •LZW tổ chức từ điển tốt hơn nên nâng cao tỷ lệ nén. 257: Mã xoá CC để khắc phục tình •Ví dụ: Xét từ điển có độ lớn bằng trạng mẫu lặp lớn hơn 4096, nếu 4096 giá trị từ mã, vậy độ dài lớn nhất mẫu lặp lớn hơn 4096 thì gởi CC của từ mã là 12 bits (212=4096). để xây dựng từ điển cho phần tiếp • Xét chuỗi vào ABCBCABCABCD. theo. EoI: Báo hiệu hết một phần nén. Audio-Video Engineering
  84. NÉNNÉN DDỮỮ LILIỆỆUU •Thuật toán: W K Output Index Symbol - w = NIL; Nil A - trong khi đọc được ký tự thứ k A B 65 258 AB trong chuối B C 66 259 BC - nếu wk đã tồn tại trong từ điển C B 67 260 CB thì w = wk B C - còn không thì thêm wk vào BC A 259 261 BCA trong từ điển, mã hoá ngõ ra cho w; w = k; A B - k=k+1; B C 258 262 ABC •Chuỗi ra: 65 66 67 259 258 67 C A 67 263 CA 262 68 A B • Đầu vào 12ktx8bits=96 bits. AB C • Đầu ra : 5ktx8+3ktx9=67bits. ABC D 262 264 ABCD •Tỷ lệ nén: 96/67=1.43 68 Audio-Video Engineering
  85. NÉNNÉN DDỮỮ LILIỆỆUU •Lưu đồ thuật toán Start w=nil count=0 k=str[count] Y k=nil? Output(w) N wk in dict? N End Y index++ Symbol=dict[index]= wk. w=wk Output(w). w=k count++ Audio-Video Engineering
  86. JPEGJPEG • Khái niệm •Chuẩn JPEG mô tả một họ kỹ thuật nén ảnh cho tone liên tục (mức xám hay màu) của ảnh. JPEG khai thác độ dư thừa sinh lý thị giác trong ảnh. JPEG được tiến hành vào tháng 3 năm 1986, đến tháng 1 năm 1988 thì JPEG được nhất trí với giải pháp DCT thích nghi để cải thiện và tăng cường ảnh. •DCT liên tục: Ảnh được mã hoá từ trái sang phải, từ trên xuống dưới dựa vào DCT. •DCT luỹ tiến: Ảnh mã hoá quét phức hợp theo chế độ phân giải không gian cho các ứng dụng băng hẹp • Không tổn hao: Khôi phục chính xác, tỷ lệ nén thấp, chỉ loại bỏ thông tin không Baseline cảm nhận được. Thứ bậc •Thứ bậc (phân cấp): Mã hoá quét phức hợp phân giải không gian, hiệu quả với DCT DCT Không những ảnh có độ phân giải cao. liên tục luỹ tiến tổn hao Tài liệu này chỉ xét DCT liên tục. Hình 3-6 Các kiểu hoạt động của JPEG Audio-Video Engineering
  87. JPEGJPEG • Mã hoá JPEG Hình 3-7 Mã hoá JPEG Audio-Video Engineering
  88. JPEGJPEG • Chuyển đổi Cosin rời rạc DCT (Discrete Cosine Transform) Hình 3-8 DCT • DCT thuận: • DCT ngược: Audio-Video Engineering
  89. JPEGJPEG •Ví dụ DC 98 92 95 80 75 82 68 50 591 106 -18 28 -34 14 18 3 97 91 94 79 74 81 67 49 35 0 0 0 0 0 0 0 95 89 92 77 72 79 65 47 -1 0 0 0 0 0 0 0 93 87 90 75 70 77 63 45 3 0 0 0 0 0 0 0 91 85 88 73 68 75 31 43 -1 0 0 0 0 0 0 0 89 83 88 71 66 73 59 41 0 0 0 0 0 0 0 0 87 81 84 69 64 71 57 39 -1 0 0 0 0 0 0 0 85 79 82 67 62 69 55 37 0 0 0 0 0 0 0 0 77 ==1 • Thành phần DC: Ffij(0,0)∑∑ ( , ) 591 8 ij==00 •Các giá trị còn lại là thành phần AC • Nhận xét: DCT làm giảm độ tương quan không gian của thông tin trong khối, " biểu diễn DCT có độ dư thừa thông tin ít hơn, đồng thời, DCT chứa thông tin về nội dung tần số không gian của thông tin trong khối, dựa vào đặc tính sinh lý thị giác, ta chỉ mã hoá những hệ số DCT quan trọng, " nén. Audio-Video Engineering
  90. JPEGJPEG • Lượng tử hoá • Lượng tử các hệ số F(u,v) để giảm số bits. •Các hệ số tương ứng với các tín hiệu tần số thấp là các giá trị lớn nên phải được lượng tử chính xác. •Các hệ số tương ứng với các tín hiệu tần số cao (AC) có giá trị bé nên cho phép sai số, ta có thể chia với một số lớn hơn. •Lượng tử hoá thay đổi theo khoảng cách để đạt được hiệu quả nén cao. quv(,)  Fuv(,)+ ==Fuv(,) 2 Fq (,) u v round  quv(,) quv (,)  • Trong đó, q(u,v) là giá trị trong bảng lượng tử hoá 8x8, tuỳ thuộc vào kênh chói hay kênh sắc. •Mắt người ít cảm nhận được các nội dung ở tần số cao và càng kém đối với các nội dung tần số caocủa kênh sắc Audio-Video Engineering
  91. JPEGJPEG •Ma trận lượng tử kênh chói và kênh sắc: tăng 16 11 10 16 24 40 51 61 17 18 24 47 99 99 99 99 12 12 14 19 26 58 60 55 18 21 26 66 99 99 99 99 14 14 16 24 40 57 69 56 24 26 56 99 99 99 99 99 14 17 22 29 51 57 69 56 47 66 99 99 99 99 99 99 18 12 37 56 68 109 103 77 99 99 99 99 99 99 99 99 24 35 55 64 81 104 113 92 99 99 99 99 99 99 99 99 49 64 78 87 103 121 120 101 99 99 99 99 99 99 99 99 72 92 95 98 112 100 103 99 99 99 99 99 99 99 99 99 Ma trận lượng tử kênh chói Ma trận lượng tử kênh sắc • Nhận xét: Hệ số lượng tử q(u,v) càng xa thì có giá trị càng lớn, " kết quả của các thành phần được lượng tử có tần số càng cao càng tiến về 0. Đây là quá trình tổn hao thông tin duy nhất trong nén ảnh không tổn hao. Audio-Video Engineering
  92. JPEGJPEG • Quét zigzag • Ánh xạ ma trận 8x8 thành vector 1x64, đáy của vector là giá trị EOB (End of Block). •Mục đích: Nhóm các thành phần tần số thấp vào đỉnh của vector. 0 40 •Ví dụ: Xét ví dụ trên, với các thành phần đã được lượng tử hoá 10 DC AC(0,7) 3 40 10 -2 2 1 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -2 Quét zigzag 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 AC(7,0) 0 0 0 0 0 0 0 0 AC(7,7) 64 EOB Hình 3-9 Quét zigzag Audio-Video Engineering
  93. JPEGJPEG • Điều chế xung mã sai biệt trên các thành phần DC • Thành phần DC là thành phần đầu sau quét zigzag. •Giá trị của thành phần DC là lớn, thay đổi 15 DPCM cho tp DC nhưng gần với giá trị của block trước đó. 0,10 Không có bước chạy 0 trước giá trị 10 • " Điều chế DPCM cho thành phần DC. 0,3 2,-2 Có 2 bước chạy 0 trước • Mã hoá loạt dài cho thành phần AC giá trị -2 •Trừ thành phần DC, các thành phần còn lại là 0,2 AC gồm nhiều giá trị 0 liên tiếp. 7,-1 • Mã hoá loạt dìa giá trị 0 sẽ mang lại hiệu quả EOB Kết thúc khối rất cao. •Ví dụ: Giả sử block trước có giá trị của thành phần DC là 25. Kết quả như hình bên. Hình 3-10 Mã hoá các thành phần DC và AC Audio-Video Engineering
  94. JPEGJPEG • Mã hoá Entropy • Mã hoá Entropy sử dụng kỹ thuật mã hoá Huffman với các bảng mã hoá gồm bảng phân loại và bảng Huffman dựa vào đặc tính thống kê của tín hiệu. • Mã hoá Entropy cho thành phần DC: Các hệ số DC sai lệch Phân loại Từ mã (chói) -255 -128; 128 255 8 1111 110 -127 -64; 64 127 7 1111 10 -63 -32; 32 63 6 1111 0 -31 -16; 16 31 5 1110 -15 -8; 8 15 4 110 -7 -4; 4 7 3 101 -3;-2; 2;3 2 01 -1;1 1 00 0 0 100 Hình 3-11 Bảng phân loại và bảng Huffman cho thành phần DC chói Audio-Video Engineering
  95. JPEGJPEG • Sơ đồ mã hoá ∆=40-25=15 15 ~ loại 4 40 Mã hoá DPCM Bảng phân loại Bảng Huffman Hệ số DC DC trước =25 sau quét loại 4 có mã 110 zigzag 15 Mã hoá nhị phân 110 1111 15 mã nhị phân là 1111 • Hình 3-12 Mã hoá entropy thành phần DC • Mã hoá các thành phần AC •Các từ mã với độ dài thay đổi có tần suất xuất hiện cao được mã hoá ngắn và ngược lại. Quá trình mã hoá như vậy gọi là mã hoá độ dài từ mã thay đổi VLC. •Bảng phân loại giống như bảng phân loại của thành phần DC nhưng khác bảng Huffman. Audio-Video Engineering
  96. JPEGJPEG Bước chạy Phân loại Độ dài mã Từ mã 0 1 2 00 0 2 2 01 0 3 3 100 0 4 4 1011 1 1 4 1100 1 2 6 111001 2 1 5 11011 2 2 8 11111 000 3 1 6 111 010 4 1 6 111 011 5 1 7 1111 010 6 1 7 1111 011 EOB 4 1010 Hình 3-13 Bảng Huffman các hệ số AC Audio-Video Engineering
  97. JPEGJPEG 10 ~ loại 4 Bước chạy 0,2 Bước chạy 0,10 Mức 10,-2 2 ~ loại 2 2,-2 Mã hoá RLC Bảng phân loại Bảng Huffman AC Hệ số AC loại sau quét bước chạy 0, loại 4 có mã 1011 10,2 zigzag bước chạy 2, loại 2 có mã 11111000 Mã hoá nhị phân 1011 1010 •Ví dụ trên: 10 mã nhị phân là 1010 11111 000| 01 2 ~’10’; -2~ ’01’ 0,10 1011 1010 0,3 01 11 2,-2 VLC 11111 000 01 0,2 01 10 7,-1 11111 001 0 EOB 1010 Hình 3-14 Mã hoá entropy thành phần AC Audio-Video Engineering
  98. CÁCCÁC CHUCHUẨẨNN NÉNNÉN VIDEOVIDEO • H.261 • H.263 • MPEG-1 • MPEG-2 • MPEG-4 • MPEG-7; MPEG21 Audio-Video Engineering
  99. H.26H.2611 • Khái niệm • ITU (CCITT) H.261 được phát triển cho dịch vụ truyền hình hội nghị và video phone qua ISDN ở tốc độ px64kbps (p=1 30). •Ví dụ: Tốc độ 64kbps truyền 48kbps video, 16kbps audio. •Truyền hình hội nghị yêu cầu chất lượng ảnh cao hơn, p≥6, tốc độ ≥ 384kbps. •Là cơ sở cho các chuẩn nén sau này như MPEG 1, 2. •Các đặc tính: - Trễ mã hoá <150ms, " truyền hình hội nghị song công, gây ấn tượng tốt cho khán giả. - Thực hiện trên linh kiện VLSI (giá thành thấp) " mở rộng thị trường ở các dịch vụ video phone, truyền hình hội nghị. – Các dạng ảnh ngõ vào •Khả năng phối hợp giữa các chuẩn 625 và 525 dòng của TV, H.261 sử dụng dạng thức trung gian chung CIF (Common Intermediate Format) với các tốc độ bit thấp hơn, H.261 sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF (Quadrature). •Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3Mbps, QCIF là 9.35 Mbps. Tốc độ càng thấp thì càng giảm số khung hình/s Audio-Video Engineering
  100. H.26H.2611 • Ghép tín hiệu video •Mục đích: Định nghĩa cấu trúc dữ liệu để bộ giải mã có thể hiểu được khi nhận dòng bit. •Tín hiệu video được phân thành các lớp. Mỗi lớp như vậy đều có header để định nghĩa các tham số được sử dụng bởi bộ mã hoá khi tạo ra dòng bits. •Lớp ảnh được phân thành các nhóm khối GOB (Group of Block). • Các GOB bao gồm các MB (Macro Block). •MB là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín hiệu Y và hai khối 8x8 của tín hiệu sắc. ¼ MB Y1 Y2 CR CB Y3 Y4 Hình 3-15 Macro block Audio-Video Engineering
  101. H.26H.2611 • Lớp GOB luôn được kết hợp của 33 macroblock, hợp thành ma trận 3x11. Chú ý rằng mỗi MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối. Kiểu Số GOB/khung Số MB/GOB Tổng MB/khung CIF 12 33 396 QCIF 3 33 99 •Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB. Một header chứa dữ liệu là dạng ảnh (CIF hay QCIF) và số khung. Chú ý rằng ảnh CIF có 12 GOB còn QCIF chỉ có 3 GOB. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 •Cấu trúc MB MBA MTYPE MQUANT MVD CBP Block Data Địa chỉ MB Dạng Intra, Inter Vector chuyển động Dữ liệu Hệ số lượng tử Mẫu khối đã mã hoá Audio-Video Engineering
  102. H.26H.2611 •Cấu trúc chuỗi bit H.261 PSC TR Ptype GOB GOB GOB GOB Start Grp# Gquant MB MB MB MBA Mtype Mquant MVD CBP B0 B5 DC Skip, val Skip,val EOB Hình 3-16 Cấu trúc chuỗi bits H.261 • PSC: Picture Start Code Bắt đầu một ảnh. • TR: Temporalo Reference Sử dụng để đồng bộ audio • Ptype: Kiểu ảnh (khung P hay khung I). • Grp# Số group. • GQuant: Lượng tử cả nhóm với cùng một hệ số lượng tử. Audio-Video Engineering
  103. H.26H.2611 • Các khung I P P P I P P P Hình 3-17 Chuỗi các khung H.261 • Intra Frame: Trong khung, khung I cho khả năng truy cập ngẫu nhiên, kiểu nén intra tương tự như JPEG dựa trên mã hoá DCT từng MB. • Inter Frame: Liên khung, liên hệ với các khung I và P trước, MB đầu có thể bù chuyển động MC (Motion Compensation) hoặc không. Mã hoá DCT sai biệt dự đoán. Cung cấp các tuỳ chọn cho từng MB như lượng tử với cùng hệ số lượng tử, sử dụng bộ lọc bù chuyển động. Audio-Video Engineering
  104. H.26H.2611 • Mã hoá trong khung Hình 3-18 Mã hoá trong khung H.261 Audio-Video Engineering
  105. H.26H.2611 • Sơ đồ mã hoá trong khung Hình 3-19 Mã hoá khung I “Control” điều khiển tốc độ bit và bộ đệm, nếu bộ đệm đầy thì giảm tốc độ bit. “Memory” dùng để lưu hình ảnh được khôi phục lại với mục đích tìm vector chuyển động cho Frame P tiếp theo. Audio-Video Engineering
  106. H.26H.2611 • Mã hoá liên khung Hình 3-20 Mã hoá liên khung H.261 Audio-Video Engineering
  107. H.26H.2611 • Sơ đồ mã hoá liên khung Hình 3-21 Sơ đồ mã hoá khung P Audio-Video Engineering
  108. H.263H.263 • Khái niệm • Tiêu chuẩn cải tiến H.261 cho video tốc độ thấp, có thể truyền trên mạng điện thoại công cộng PSTN, được công nhận năm 1996. •Giống như H.261, mã hoá DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong P Frame. •Tốc độ tối thiểu • Ưu điểm: • Chính xác sai biệt dự đoán với ½ pixels. • Không hạn chế vector chuyển động. • Mã hoá số học theo cú pháp. •Dự đoán thuận lợi với các khung P. • Ngoài CIF, QCIF, H.263 còn hỗ trợ SQCIF, 4 CIF và 16CIF với độ phân giải tín hiệu chói tuần tự là 128x96, 704x576, 1408x1152. Độ phân giải tín hiệu sắc bằng ¼ tín hiệu chói. Audio-Video Engineering
  109. MPEG-MPEG-11 • Khái niệm •MPEG-1 là một chuẩn được phát triển và thùa nhận năm 1992 để lưu trữ video dạng CIF và kết hợp với audio khoảng 1.5Mbps trên nhiều môi trường lưu trữ số khác nhau như CD-ROM, DAT, Winchester, đĩa quang với ứng dụng chính là các hệ thống đa môi trường trực tuyến. •Thuật toán MPEG-1 tương tự như H.261 nhưng với một vài đặc tính bổ sung. Chất lượng của MPEG-1 nén và giải nén tín hiệu CIF khoảng 1.2Mbps (tốc độ video) tương đương với chất lượng video tương tự VHS. • Đặc tính • Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán bù chuyển động, DCT, lượng tử và VLC. • Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hoá linh hoạt. •Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau. • Truy cập ngẫu nhiên dựa vào các điểm truy cập độc lập (khung I). • Tìm nhanh xem như quét dòng bit mã hoá, chỉ hiển thị các khung được chọn. •Trễ mã hoá và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video đơn công. Audio-Video Engineering
  110. MPEG-MPEG-11 • Dạng tín hiệu ngõ vào •MPEG-1 chỉ xét tín hiệu video luỹ tiến. Để đạt được tốc độ bit 1.5Mbps, video ngõ vào thường được chuyển đổi trước khi đưa vào dạng ngõ vào chuẩn MPEG SIF (Standard Input Format). • Không gian màu (Y, Cr, Cb) đã được thừa nhận theo khuyến nghị CCIR 601. Trong SIF MPEG, kênh chí là 352 pixel x 240 dòng và 30 khung/s. - Số pixel lớn nhất trên một dòng: 720. - Số dòng lớn nhất trên một ảnh: 576. - Số ảnh trong một giây: 30. - Số macroblock trên một ảnh: 396. - Số macroblock trên một giây: 9900. - Tốc độ bit tối đa: 1.86Mbps. - Kích thước bộ đệm giải mã tối đa: 376.832bits. Chú ý: Ràng buộc trên không có nghĩa là tín hiệu video được nén với tốc độ tối đa. Audio-Video Engineering
  111. MPEG-MPEG-11 •Cấu trúc dữ liệu và các kiểu nén •Cấu trúc dữ liệu gồm 6 lớp, cho phép bộ gải mã hiểu được những tín hiệu chưa xác định. 1) Các chuỗi được định dạng bởi một vài nhóm ảnh GOP. 2) Nhóm ảnh tạo nên ảnh. Nhóm ảnh được xác định bởi hai thông số m và n. Thông số m xác định số khung hình P và khung hình B xuất hiện giữa hai khung hiềnh I gần nhau nhất. Số n xác định số khung hình B giữa hai khung P. 3) Ảnh bao gồm các phần (slice). Có 4 dạng ảnh tương ứng với các kiểu nén, đó là ảnh I, ảnh P, ảnh B và ảnh D. Ảnh I là ảnh được mã hoá DCT trong khung sử dụng thuật toán giông như JPEG. Chúng cho phép các điểm truy cập ngẫu nhiên đến chuỗi. Có hai dạng ảnh được mã hoá liên khung là ảnh P và ảnh B. Các ảnh này mã hoá DCT bù chuyển động sai biệt dự đoán. Chỉ có việc dự đoán tới là được sử dụng trong kiểu ảnh P, là các ảnh được mã hoá liên quan đến ảnh I và P trước đó. Sự dự đoán trong ảnh B có thể là tới hoặc lùi hoặc liên hệ hai chiều tới các ảnh I hoặc P khác. Các ảnh D chỉ chứa các thành phần DC trong mỗi khối với mục đích cho các tốc độ bit rất thấp. Số khung I, P và B trong một GOP được áp dụng một cách phụ thuộc, ví dụ tuỳ thuộc vào thời gian truy cập và các tốc độ bit yêu cầu. Audio-Video Engineering
  112. MPEG-MPEG-11 • Ví dụ: • Một GOP như hình vẽ được kết hợp bởi 9 ảnh. Chú ý rằng khung đầu của mỗi GOP luôn là một ảnh I. Trong MPEG, trật tự trong các ảnh không cần thiết giống nhau theo thứ tự liên tiếp. Nghĩa là thứ tự truyền ảnh và thứ tự ảnh hiện lên màn hình là không giống nhau. Ảnh trong hình vẽ có có thể được mã hoá trong một trật tự như sau: 0, 4, 1, 2, 3, 8, 5, 6, 7 hay 0, 1, 4, 3, 8, 5, 6, 7 Khi dự đoán với các ảnh P và B nên dựa trên các ảnh đã được truyền I B B B P B B B P 0 1 2 3 4 5 6 7 8 9 10 Nhóm ảnh Hình 3-22 Nhóm ảnh trong MPEG-1 Audio-Video Engineering
  113. MPEG-MPEG-11 4) Các phần (slice) được tạo bởi các Ảnh I Ảnh P Ảnh B macroblock. Chúng được đưa ra với mục đích khôi phục lỗi. Intra Intra Intra Intra-A Intra-A Intra-A 5) Sự kết hợp các macroblock MB là tương tự như H.261. Một vài tham số nén có Inter-D Inter-F thể được mang trong MB cơ sở. Các dạng Inter-DA Inter-FD MB như bảng bên. Inter-F Inter-FDA I: Nội suy(hai hướng); B: Lùi Inter-FD Inter-B A: Thích ứng; F: Tới Inter-FDA Inter-BD D: Sai biệt dự đoán. Skipped Inter-BDA 6) Các khối là các mảng 8x8 pixels. Inter-I Chúng là một đơn vị DCT nhỏ nhất. Inter-ID Các tiêu đề được định nghĩa cho các chuỗi, Inter-IDA GOP, ảnh, phần và các MB để xác định độc Skipped nhất dữ liệu sau nó. Audio-Video Engineering
  114. MPEG-MPEG-11 • Kiểu nén trong khung •Các giá trị cường độ của điểm ảnh được mã hoá DCT theo cách tương tự như JPEG và kiểu intra của H.261. •Việc nén đạt được bằng sự kết hợp của lượng tử hoá và mã hoá chiều dài thay đổi của các hệ số 0. • MPEG cho phép lượng tử hoá không gian thích ứng bằng việc đưa ra tỷ lệ lượng tử MQUANT trong cú pháp. • Có hai kiểu MB trong các ảnh I: - MB “Intra” được mã hoá với ma trận lượng tử hoá hiện thời. - MB “Intra A” thì ma trận lượng tử hoá được tỷ lệ bởi hệ số MQUANT được truyền trong header. Chú ý rằng MQUANT có thể thay đổi trong MB cơ bản để điều khiển tốc độ bit hoặc với mục đích lượng tử. MPEG đã được chứng minh rằng kiểu nén Intra cung cấp 30% nén tốt hơn so với JPEG về tính lượng tử thích ứng. - Mã hoá các hệ số DCT sau lượng tử giống như JPEG. Audio-Video Engineering
  115. MPEG-MPEG-11 •Kiểu nén liên khung • Trong các kiểu nén liên khung, sự dự đoán thời gian được tiến hành và kết quả sai biệt dự đoán được mã hoá DCT. Có hai dạng kiểu dự đoán thời gian được cho phép trong MPEG-1, đó là dự đoán tới (khung P) và dự đoán hai hướng (khung B). • Khung P (dự đoán bù chuyển động) • Hình 3-23 Dự đoán bù chuyển động tới •Sử dụng các MB thích hợp nhất trong khung trước (tham chiếu) để dự đoán bù chuyển động trong khung hiện hành. Thích hợp nhất dựa vào trung bình bình phương tối thiểu hoặc trung bình tuyệt đối tối thiểu. • Sử dụng thuật toaán ước luượng chuyển động nửa pixel với hai bước thô và tinh. Audio-Video Engineering
  116. MPEG-MPEG-11 • Khung B (dự đoán hai hướng, nội suy) •Là đặc trưng của MPEG. Hình 3-24 Dự đoán hai hướng •Dự đoán MB cho khung hiện hành dựa vào: Khung trước; khung sau và trung bình MB của khung trước và khung sau. • Ưu điểm: Hiệu quả trong việc nén nếu dùng khung B để dự đoán chu khung sau, trung bình MC qua hai khung cho SNR tốt hơn. •Nhược: Cần ít nhất hai khug tham chiếu I, P; nếu sử dụng khung B quá nhiều thì khoảng cách giữa các khung tham chiếu I, P tăng " trễ mã hoá lớn. Audio-Video Engineering
  117. MPEG-MPEG-11 • Mã hoá MPEG-1 Hình 3-25 Mã hoá MPEG-1 Audio-Video Engineering
  118. MPEG-MPEG-11 • Giải mã MPEG-1 Hình 3-26 Giải mã MPEG-1 Tổng quan, bộ mã hoá MPEG-1 tiến hành các bước sau: - Quyết định nhãn của các khung I, P và B trong một GOP. - Đánh giá chuyển động cho mỗi MB trong các ảnh P, B. - Xác định kiểu nén MTYPE cho mỗi MB. - Đặt tỷ số lượng tử MQUANT nếu lượng tử thích ứng được chọn. Bộ giải mã MPEG-1 hoạt động theo hướng ngược lại. Audio-Video Engineering
  119. MPEG-2MPEG-2 • Khái niệm •Chất lượng MPEG-1 ở tốc độ 1.2Mbps cho thấy không thể chấp nhận được với các ứng dụng giải trí. • MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng của các ứng dụng với các tốc độ bit và các độ phân giải khác nhau (2-20Mbps). •Đặc trưng của MPEG-2: - Cho phép ngõ vào kết hợp (interlace), độ phân giải Dạng ảnh trong MPEG-2 cao, lấy mẫu phụ thay đổi của các kênh sắc. Video luỹ tiến Video kết hợp - Cung cấp dòng bit co dãn. Khung ảnh Khung ảnh Trường ảnh - Cung cấp các tuỳ chọn I, P hoặc B I, P hoặc B I, P hoặc B lượng tử hoá và mã hoá. Hình 3-27 Dạng ảnh trong MPEG-2 Audio-Video Engineering
  120. MPEG-2MPEG-2 • Các hình thái của MPEG-2 Hình thái đơn giản: Số bước nén thấp nhất, chỉ cho phép mã hoá các ảnh loại I hoặc P, không cho phép mã hoá các ảnh loại B. Tốc độ tối đa của hình thái này là 15Mbps. Hình thái chính: Cho phép sử dụng tất cả các loại ảnh nhưng không tạo ra các mức bất kỳ. Chất lượng ảnh tốt hơn hình thái đơn giản nhưng tốc độ bit không đổi. Hình thái phân cấp theo SNR: Tính phân cấp theo SNR có nghĩa là có sự thoả hiệp về chất lượng hình ảnh với tỷ số tín hiệu trên tạp âm. Hỗ trợ cho các tốc độ 4 và 15Mbps. Hình thái phân cấp theo không gian: Tính phân cấp theo không gian là có sự thoả hiệp về độ phân giải. Hỗ trợ tốc độ bit 60Mbps. Hình thái cao: Bao gồm các công cụ của các hình thái trước cộng với khả năng mã hoá các tín hiệu màu khác nhau cùng một lúc. Là hệ thống hoàn hảo được thiết kế cho toàn bộ các ứng dụng mà không bị giới hạn bởi tốc độ cao. Audio-Video Engineering
  121. MPEG-4MPEG-4 • Phiên bản 1: 8/1998. • Phiên bản 2: 12/1999. • Phát triển cho tốc độ bit rất thấp: 4.8 đến 64kbps, tuy nhiên, sau đó đã nâng tốc độ lên đáng kể. • Video: 5kbps đến 10Mbps. • Audio: 2kbps đến 64 kbps. •Hỗ trợ nội dung co dãn. •Hỗ trợ đối tượng tương tác lẫn nhau. • Kênh audio riêng có thể kết hợp với các đối tượng. Audio-Video Engineering
  122. MPEG-7,MPEG-7, MPEG2MPEG211 • MPEG-7 – Được thừa nhận thành tiêu chuẩn quốc tế vào tháng 7/2001. – Đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đa phương tiện. –Nội dung trực quan. –Sử dụng bộ mô tả và các sơ đồ mô tả các mối quan hệ giữa các đối tượng. –“Giao tiếp mô tả nội dung đa môi trường”. • MPEG-21 –“Cơ chế đa môi trường”. – Cho phép thương mại điện tử của nội dung đa môi trường số. Audio-Video Engineering