Bài giảng Xử lí audio và video
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xử lí audio và video", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_xu_li_audio_va_video.pdf
Nội dung text: Bài giảng Xử lí audio và video
- BÀI GIẢNG XỬ LÝ AUDIO & VIDEO
- LỜI MỞ ĐẦU Bài giảng Xử lý Audio và Video là tài liệu được biện soạn nhằm phục vụ cho đối tượng học viên thuộc chuyên ngành Kỹ thuật Điện tử - Viễn thông. Để giúp học viên tìm hiểu môn học một cách dễ dàng, tài liệu đã được chọn lọc biên soạn với những nội dung rất căn bản về lý thuyết theo một trình tự logic, được trình bày qua 5 chương. Chương 1, đại cương về tín hiệu audio và video, đây là bức tranh toàn cảnh về tín hiệu audio và video. Chương 2, số hóa tín hiệu audio và video, trình bày những đặc trưng về biến đổi của tín hiệu audio và video tương tự-số. Chương 3, truyền dẫn tín hiệu audio và video, trình bày những nguyên tắc truyền dẫn tín hiệu audio và video số. Chương 4, ghi phát tín hiệu audio và video số, trình bày những nguyên tắc ghi phát (lưu trữ) tín hiệu audio và video số. Chương 5, nén dữ liệu audio và video, trình bày những phương pháp xử lý nén audio và video. Biên soạn tài liệu này, tác giả đã tổng hợp và chọn lọc những nội dung dựa theo các tài liệu của các tác giả đã được xuất bản, qua đó cũng đã cập nhật những nội dung mới nhằm làm phong phú cho môn học. Tuy đã có nhiều cố gắng và thận trọng nhưng tài liệu không sao tránh khỏi những sai sót, mong sự thông cảm và đóng góp ý kiến của bạn đọc.
- Chương 1: Đại cương về tín hiệu audio và video Chương 1 ĐẠI CƯƠNG VỀ AUDIO VÀ VIDEO 1.1. QUÁ TRÌNH PHÁT TRIỂN Khoảng cuối thế kỷ 19 đầu thế kỷ 20, nhiều thiết bị xử lý âm thanh điện tử ra đời, đã mở ra một hướng phát triển mới trong chế tạo các thiết bị điện tử dân dụng. Trong giai đoạn này các nhà khoa học đã thành công trong chế tạo các thiết bị xử lý âm thanh như: hệ thống máy điện thoại, máy cassette, các máy quay đĩa và máy phát thanh Ngày nay âm thanh điện tử được ứng dụng rộng rãi trong các thiết bị dân dụng, nhiều thiết bị âm thanh số ra đời có tính năng kỹ thuật cao từng bước thay thế cho các thiết bị âm thanh tương tự trước đây. Cho đến nay, hầu như các gia đình đều sở hữu một vài thiết bị điện tử phục vụ đời sống tinh thần. Khi kỹ thuật truyền thanh ra đời thì truyền hình là tiêu điểm nghiên cứu quan trọng cho các nhàkhoa học. Đến khoảng giữa thế kỷ 20, thời kỳ thế chiến thứ II, kỹ thuật truyền hình ảnh động đấu tiên ra đời, nhưng chỉ nhằm để phục vụ cho mục đích quâ sự. Sau khi kết thúc chiến tranh, truyền hình ở các quốc gia mới thực sự nhằm vào mục đích dân dụng, từ đó kỹ thuật truyền hình không ngừng được cải tiến và phát triển. Cho đến nay, thế giới thực sự đổi thay từ khi mọi gia đình có thể thưởng thức thông tin bằng hình ảnh và âm thanh. Trong suốt hơn 50 năm qua, truyền hình đóng một vai trò quan trọng trong sự phát triển của nền kinh tế tri thức của thế giới. Cho đến nay cùng với sự phát triển mạnh mẽ của công nghệ điện tử, nhiều công nghệ truyền hình thế hệ mới ra đời với những tính năng kỹ thuật cao dần thay thế cho truyền hình tương tự trước đây, truyền hình số với những công nghệ khác nhau như: truyền hình mặt đất, truyền hình cáp, truyền hình vệ tinh đã thực sự làm cho thế giới truyền hình ngày càng sóng động hơn. 1.2. ẢNH TỰ NHIÊN Ảnh tự nhiên là những gì mà chúng ta có thể trông thấy xung quanh thế giới thực, chúng được tạo ra bởi các nguồn ánh sáng mặt trời hoặc ánh sáng nhân tạo phản xạ lên các vật thể mà ta có thể trông thấy. Truyền hình là một hệ thống tín hiệu hình ảnh và tín hiệu âm thanh analog được phát triển rất cao. Cơ sở của hệ thống truyền hình là dựa trên đặc tính của thị giác con người, đặc tính này cũng được áp dụng trong hệ thống truyền hình kỹ thuật số hiện nay. 1
- Chương 1: Đại cương về tín hiệu audio và video Mục đích hệ thống tái tạo ảnh điện tử (video) là thu ảnh tự nhiên và tái tạo lại với những khoảng cách về không gian, hoặc cả hai (hình 1.1). Ở đây chúng ta quan tâm đến hai thuộc tính nhìn thấy của cảnh quan là màu sắc và độ chói. Ảnh tự nhiên Ống kính Chuyển đổi Xử lý tín hiệu ảnh-tín hiệu Tạo xung đồng bộ Lưu trữ hoặc truyền dẫn Chuyển đổi Mắt người Xử lý tín hiệu tín hiệu-ảnh xem Ảnh tái tạo Tách xung đồng bộ Hình 1.1. Hệ thống tái tạo ảnh điện tử Nhưng cảnh tự nhiên ít khi được tạo nên từ một nguồn sáng đơn sắc. Ảnh tại mọi điểm trong cảnh quan là tổng của ánh sáng từ các nguồn đồng nhất với ánh sáng phản xạ từ các vật xung quanh. Sự chiếu sáng vừa nêu đã được sửa đổi bởi các thành phần phản chiếu từ các vật xung quanh môi trường tạo ra một sự chiếu sáng mà màu sắc và độ sáng của nó thay đổi theo từng cảnh. Đối với những cảnh phức tạp hơn, mắt người có thể thích nghi với sự thay đổi từng khu vực chiếu sáng cho đến lúc không còn cảm nhận được nữa khi quan sát trực tiếp. Hệ thống tái tạo hình ảnh cũng cần tạo ra một kết quả tương tự . Quá trình chuyển đổi tín hiệu-ảnh hoàn toàn đồng bộ và đồng pha với quá trình chuyển đổi ảnh-tín hiệu thì mới khôi phục được ảnh quang đã truyền đi. Để thực hiện sự đồng bộ và đồng pha, trong hệ thống truyền hình phải dùng một bộ tạo xung đồng bộ. Xung đồng bộ được đưa đến bộ xử lý tín hiệu để khống chế quá trình phân tích ảnh, đồng thời đưa đến bộ xử lý tín hiệu hình rồi truyền sang phía thu, tín hiệu hình được cộng thêm xung đồng bộ gọi là tín hiệu truyền hình. 1.3. ÂM THANH TỰ NHIÊN Âm thanh là những biến đổi áp suất nhanh xảy ra trong không khí do nhiều quá trình tự nhiên gây nên. Tiếng gió thổi trên cành cây, tiếng sóng biển vỗ bờ , tiếng chim kêu tất cả đều là âm thanh tự nhiên. Nhiều hệ thống do con người chế 2
- Chương 1: Đại cương về tín hiệu audio và video tạo cũng tạo ra những biến đổi áp suất tương tự, đôi khi còn có ý chủ định, hay đôi khi còn do khách quan. Một dàn nhạc tạo ra những âm thanh có chủ định với mục đích thưởng thức âm nhạc. Trong khi, âm thanh của một động cơ phản lực phát ra khi cất cánh lại được coi là do khách quan gây lên. Tai con người phản ứng lại những biến đổi áp suất không khí ở phạm vi tần số trong khoảng từ 30Hz đến 15000Hz sau đó đưa đến não và đó chính là âm thanh. Độ lớn hay biên độ dao động của những biến đổi áp suất này tạo nên cảm giác về tiếng ồn. Âm thanh chuyển động trong không khí theo quy tắc truyền sóng, vì vậy người ta có thể nghe thấy một âm thanh phát ra từ khoảng cách khá xa và những biến đổi áp suất âm thanh thường được gọi là sóng âm. Trong mọi trường hợp, sóng âm thanh là sóng tương tự. Sóng âm chuyển động trong không khí với vận tốc xắp xỉ bằng 345m/s ở nhiệt độ phòng và mực nước biển. Theo lý thuyết về sóng, mối liên hệ giữa tần số f và bước sóng λ là: λ = v/f (1.1) Ngoài ra, các tính chất khác của sóng âm thanh cũng có tầm quan trọng đối với việc thiết kế các thiết bị âm thanh. Sóng âm sẽ phản xạ với bề mặt cứng (những bề mặt không hấp thụ sóng âm) tạo nên hiệu ứng về tiếng vọng và vang âm. Sóng âm thanh bị nhiễu xạ, chúng có thể xuyên qua các lỗ hỏng, các khe hở và đến từng ngóc ngách. Sóng âm thanh cũng có thể bị khúc xạ, nó sẽ bị bẻ cong khi vận tốc truyền thay đổi ở những khu vực khác nhau với nhiệt độ và mật độ không khí khác nhau. Tầm quan trọng của những hệ quả này là hàm điều kiện môi trường và bước sóng. Về mặt toán học, việc tạo những đường truyền sóng âm thanh trong một môi trường thực tiễn khá phức tạp. Âm thanh tự nhiên không chỉ liên quan đến hai yếu tố là nguồn phát và người nghe, bởi vì sóng âm luôn phản xạ với các đồ vật xung quanh môi trường. Người nghe tiếp nhận âm thanh phản xạ ngay sau khi âm thanh đó được phát ra. Người ta gọi các yếu tố có liên quan đến âm thanh này là môi trường âm thanh. Môi trường này rất quan trọng đối với việc tái tạo lại âm thanh bằng hệ thống điện tử. Một trong những yếu tố chủ yếu của môi trường âm thanh được tạo ra do hiện tượng phản xạ, thường xảy ra ở những không gian kín (như phòng hoà nhạc). Do tốc độ giới hạn của âm thanh, song âm được truyền đi trong một phòng kín mất nhiều thời gian để đến được tai người hơn là âm thanh trực tiếp và được gọi là những âm bị trễ mà có thể nghe thấy sự lặp lại của âm thanh trước. Chúng ta có thể nhận thấy rõ tiếng vọng xẩy ra khi sự trễ âm phản xạ lớn hơn khoảng 50m/s, tương đương với khoảng cách là 17m. Tiếng vọng rõ nhất với những âm thanh có thời gian trễ lớn hơn, ví dụ như tiếng vọng xảy ra trong một thung lũng. 3
- Chương 1: Đại cương về tín hiệu audio và video Ở những khu vực không gian hẹp hơn, có thể có rất nhiều phản xạ mà không một phản xạ nào có thể bị trễ khác biệt hẳn tới mức là tiếng vọng. Tuy nhiên, âm thanh vẫn tiếp tục truyền đi trong phòng cho đến khi nó biến mất hoàn toàn do có hiện tượng hấp thụ âm, và gọi là hiện tượng tiếng vọng. Hiện tượng tiếng vang tạo ra cảm giác về không gian, nó rất quan trọng trong quá trình mô phỏng âm thanh. Ví dụ, nếu việc mô phỏng âm thanh không thu được tiếng vang (trường hợp máy thu đặt gần, hoặc thậm chí đặt máy thu ngay tại nguồn âm), âm thanh sẽ trở thành âm “chết”. Điều kiện này có thể khắc phục bằng cách đưa vào những tiếng vang nhân tạo (thường xử lý bằng kỹ thuật số). Các chương trình truyền hình gốc (chưa được biên tập) thường được thực hiện ở những điều kiện âm “chết” này với mục đích là tiếng vang nhân tạo sẽ được đưa vào trong quá trình biên tập, điều này giúp cho biên tập viên có thể kiểm soát được âm thanh. Tiếng vang được lượng tử hoá trong khoảng thời gian đủ để nó phá huỷ 1/1000 âm gốc. Đối với phòng thiết kế riêng cho phòng hội thảo, thời gian vang của âm thích hợp nhất là 1 giây. Với một phòng hòa nhạc, thời gian dài hơn một chút, lên đến khoảng 2 giây. Việc đo âm bằng các thiết bị như micro hay loa cần phải được thực hiện trong một môi trường hoàn toàn cách âm để tách các đặc tính của chúng ra khỏi các đặc tính của môi trường. Một loại phòng đặc biệt được gọi là phòng cách âm được thiết kế cho mục đích này. Loại phòng này hấp thụ tất cả các âm thanh nhập vào chu vi của nó, vì vậy hiện tượng phản xạ không xảy ra. Về cơ bản đây là một không gian “chết”. Khi nói trong căn phòng này, người ta hầu như không thể nghe được giọng nói của chính mình . 1.4. TÁI TẠO ÂM THANH ĐIỆN TỬ Âm thanh điện tử được gọi chung là audio. Hình 1.2 minh họa một hệ thống audio điển hình. Âm được thu từ nguồn nhờ một hoặc nhiều micro và những tín hiệu audio thu được truyền qua hệ thống cho đến khi tới loa phát (bộ phận chuyển các tín hiệu điện thành sóng âm). Lưu trữ hay Nguồn Thu audio Máy thu âm truyền dẫn Hình 1.2. Hệ thống tái tạo âm thanh điện tử Mục đích tái tạo âm thanh điện tử là để tải các sóng âm thanh đến những khoảng cách xa cả về không gian và thời gian, để người nghe có thể tiếp nhận như thể họ đang nghe âm trực tiếp từ nguồn. Một mục đích khác nữa là để chau chuốt 4
- Chương 1: Đại cương về tín hiệu audio và video âm thanh mới không có trong tự nhiên, làm cho âm thanh điện tử hay hơn âm gốc, hoặc tạo ra những âm thanh mới không có trong tự nhiên. 1.5. THỊ GIÁC CON NGƯỜI Mắt người là một thiết bị rất đặc biệt bao gồm trên 100.000.000 (108) phần tử cảm biến cùng một hệ thống điều khiển độ sáng cho phép nhìn rõ ở một phạm vi độ sáng hơn 10 triệu tới 1. Hai mắt kết hợp với não tạo ra khả năng nhận biết các vật trong không gian ba chiều. Mặc dù hầu hết các hệ thống tái tạo điện tử không có các tính năng này nhưng bằng cánh thiết kế như các đặc điểm của mắt trong bộ não điện tử, hệ thống có khả năng đáp ứng nhiều mục đích ứng dụng. 1.5.1. Độ phân giải Thị lực trung bình của mắt là 20/20, vùng trung tâm thị lực là một cung có góc khoảng 1/60 độ. Đây là độ phân giải của mắt, tất nhiên chỉ áp dụng đối với những ảnh của các vật thể trên thang xám. Còn đối với ảnh màu, độ phân giải của mắt sẽ giảm đi (xem phần 1.8.1). Độ phân giải ở đây có nghĩa là mắt người có thể nhìn rõ các vật thể có kích thước khoảng 1cm khi nhìn khoảng cách là 3m, trường nhìn của mắt gần bằng 1800, một người có thể phân biệt được tổng cộng 180×60 =10.800 vật thể ngang qua trường nhìn. Tuy nhiên, độ phân giải của mắt giảm dần từ trung tâm của thị giác, vì vậy tổng số vật thể trong thực tế là ít hơn nhiều . Hệ thống ảnh điện tử phân biệt được một số lượng lớn các vật thể trong ảnh đơn thực tế là rất hiếm. Vì vậy, nó thường được thiết kế sao cho màn hình hiển thị có kích thước nhỏ hơn tổng trường nhìn của mắt. Do đó, hầu hết hình ảnh đều được quan sát bởi phần có độ phân giải đầy đủ nhất của mắt, và độ phân giải đầy đủ cũng là yếu tố quan trọng cần được sử dụng trong các thao tác tính toán hình ảnh điện tử. Một đặc điểm khác cũng yêu cầu sử dụng độ phân giải đầy đủ nhất là khả năng chuyển động của mắt để mang vật thể cần nhìn vào trung tâm thị giác. Một màn hình hiển thị ở một góc rộng, khi nhìn gần sẽ gặp một số vấn đề đó là người xem sẽ nhìn trực tiếp vào bất cứ phần nào trên màn hình thu hút họ trước nhất. Ở một thời gian đặc biệt nào đó nó có thể là một điểm bất kỳ trên màn hình. Do vậy toàn bộ màn hình đều cần phải có độ phân giải cao. Ta biết rằng, ảnh trong các hệ thống số được miêu tả là một chuỗi các pixel. Hệ thống hiển thị cần phải thiết kế sao cho các pixel không bị lộ diện nếu như không có sẽ gây ảnh hưởng xấu tới chất lượng ảnh. Người ta thường hạn chế số lượng pixel trong ảnh để đủ cho người xem ở khoảng cách nhìn quy định hoặc lớn hơn, không thể phân tích được. Một thông số quan trọng cần tính đến ở đây là tỉ lệ nhìn, được xác định bằng tỉ lệ giữa khoảng cách người xem (tính từ màn hình) với độ cao nhất của ảnh. 5
- Chương 1: Đại cương về tín hiệu audio và video VR= d/PH (1.2) Trong đó: VR = tỉ lệ nhìn. d: khoảng cách từ mắt tới màn hình. PH: độ cao của ảnh (lấy theo cùng đơn vị d) Khi sử dụng hình ảnh theo độ phân giải trên đây, số lượng tối đa của các điểm ảnh có thể nhìn thấy được ở một tỉ lệ nhất định là: Số điểm ảnh = 3440/VR (1.3) Lưu ý, đối với một bức ảnh có số pixel xác định, nếu ở khoảng cách cho trước mà mắt chưa phân biệt được các điểm ảnh thì đây là kích cỡ lớn nhất của ảnh, điều đó tương đương với tỉ lệ nhìn là nhỏ nhất (bảng 1.1). Điều này đúng cho cả hệ thống video số và video tương tự. Hệ thống video tương tự quan tâm đến số dònd quét hơn là số pixel trên một ảnh. Trong khi đó, các dòng quét lại ngây nhiễu cho khả năng nhìn hơn pixel, đây chính là nhược điểm của hệ thống video analog. Các máy tính thường hoạt động với các thông số thấp hơn. Hệ thống Dòng hoặc pixel/ph Tỉ lệ nhìn Hệ NTSC 483 7.2 HDTV 1080 3.2 Màn hình máy tính 768 4.5* Bảng 1.1. Các tỉ lệ nhìn nhỏ nhất 1.5.2. Tạo mức xám Để tạo ra hình ảnh rõ nét, ánh sáng phát ra ở màn hình phải tỉ lệ với độ sáng phát ra từ cảnh ở một điểm. Điều này có nghĩa là các tín hiệu video phải là một hàm tuyến tính với độ chói của ảnh. Tuy nhiên, thiết bị hiển thị tiêu biểu (CRT) lại có cường độ hàm phi tuyến, ngược với hàm tín hiệu, rất nhiều các tiêu chuẩn của hệ thống đã đưa vào các phần sửa lỗi phi tuyến trong tín hiệu video, bởi vì nếu sửa lỗi phi tuyến tại các máy thu thì giá thành rất cao . Hầu hết các bộ cảm biến trong camera truyền hình có đặc tuyến ánh sáng tuyến tính, vì vậy camera thường được lắp đặt hệ thống sửa méo gamma để đưa vào tín hiệu có đặc tính biên độ phi tuyến cần thiết. Gamma là một đường đặc tuyến của hàm mũ xấp xỉ bằng biên độ phi tuyến chuyển giao. Ví dụ, gamma của một CRT điển hình là 2,2. Như vậy một camera phải đưa phần sửa lỗi với số mũ là 1/2,2 hoặc 0,45. Đặc tính này được thể hiện bằng đường cong trên hình 1.3. 6
- Chương 1: Đại cương về tín hiệu audio và video 1.0 Ү= 45 đố i ng 0.5 ươ Đầ u ra t 0.0 0.5 1.0 Hình 1.3. Đường cong sửa lỗi γ = 0.45 Tuy nhiên, đa phần máy tính áp dụng tiêu chuẩn sửa lỗi gamma chứ không phải truyền hình, vì vậy đôi khi việc gây lỗi là cần thiết khi chuyển đổi giữa các tín hiệu truyền hình và tín hiệu trong máy tính. 1.5.3. Rung hình và tỷ lệ phục hồi Người ta không nhận thấy sự nhấp nháy của màn hình bởi vì mắt có khả năng lưu hình. Có nghĩa là, hệ thống thị giác phản ứng rất chậm với sự thay đổi nhanh của ánh sáng trên màn hình. Tuy nhiên, sự chiếu sáng thay đổi theo chu kỳ với tần số thấp (khi được chiếu sáng bởi đèn điện có tần số thấp), gây ra hiệu ứng mà ta gọi là hiện tượng rung hình. Hiện tượng rung hình phụ thuộc vào số lượng của độ chiếu sáng (rung hình dễ nhận thấy hơn khi hình ảnh có độ chói cao) và cũng dễ nhìn hơn khi nhìn ở ngoại vi tầm nhìn. Hiệu ứng vừa rồi giúp chúng ta nhạy cảm hơn với những vật chuyển động nhanh (có thể là nguy hiểm) xuất hiện đầu tiên ở ngoại vi tầm nhìn. Vấn đề điều khiển rung hình khá quan trọng, bởi vì nếu ánh sáng ở màn hình bị rung kéo dài sẽ gây ra chứng mổi mắt người xem. Hệ thống Tỷ lệ phục hồi Môi trường VR NTSC 60 (59,94) Phòng khách 7 PAL 50 Phòng khách 7 Màn hình máy tính 72 Phòng sáng 1-2 Rạp chiếu phim 48 Phòng tối 5-10 Bảng 1.2. Các tỉ lệ phục hồi tiêu biểu 7
- Chương 1: Đại cương về tín hiệu audio và video Thiết bị điện tử lại có hiệu ứng lưu hình ngược lại, ánh sáng phát ra sẽ bị hủy sau một thời gian ngắn. Vì vậy, ảnh điện tử phải được phục hồi thường xuyên để duy trì hiệu ứng chiếu sáng ổn định. Tỉ lệ phục hồi phải đủ để tránh tình trạng rung hình ở các điều kiện xem mong muốn. Tỉ lệ phục hồi tiêu biểu được trình bày trong bảng 1.2. Ở điện ảnh, tỉ lệ phục hồi có thể thấp bởi vì các rạp chiếu phim thường phải tối và ảnh không được quá sáng. Riêng máy tính lại ở trong tình trạng ngược lại, thường hiển thị trong một phòng sáng, màn hình cũng phải sáng, và như vậy tỉ lệ nhìn thấp có nghĩa là những phần màn hình này xuất hiện ở ngoại vi tầm nhìn. Hiện tượng rung hình với một số lượng thích nghi nhất định, điều này xảy ra khi cùng một kiểu nhìn đều đặn diễn ra. Ví dụ, tỉ lệ phục hồi 50 Hz được sử dụng ở một số quốc gia được đánh giá là hoàn toàn hợp lí với người bản địa. Song, một số quốc gia khác tỉ lệ 60 Hz cũng được áp dụng. 1.5.4. Tái tạo ảnh chuyển động Sự chuyển động của ảnh được tạo ra trong hệ thống video nhờ vào cập nhật nội dung trên màn hình với tỉ lệ vừa đủ để người xem có thể nhận biết được một quá trình chuyển động liên tục. Trong một hệ thống truyền hình, nó được thực hiện ở camera và tỉ lệ quét của màn hình. Trong những trường hợp đơn giản nhất, camera video sẽ tạo ra mành riêng biệt cho mỗi chu kỳ phục hồi của màn hình. Đây chính là cách hoạt động thông thường của tryuền hình số, tỉ lệ mành của camera và màn hình như nhau. Thực chất, tỉ lệ ở hai bộ phận này đã được đồng bộ hoá. Trong phương thức vận hành này, tín hiệu phát ra từ camera không ngừng đi tới màn hình mà không cần sự can thiệp của quá trình xử lý hay lưu trữ nào. Khi đề ra các tiêu chuẩn màn hình, vấn đề xử lý hay lưu trữ vẫn chưa được bàn đến, do vậy hệ thống thiết kế cho màn hình được phục hồi bằng cách liên tục phát ra các tín hiệu mới từ camera, thậm chí ngay cả khi hình ảnh đã dừng. Hiện nay với công nghệ kỹ thuật số, lưu trữ và xử lý là hai quá trình tồn tại thường xuyên trong hệ thống, và camera cũng như màn hình không cần thiết phải có tỉ lệ mành như nhau thậm chí không cần phải đồng bộ. Camera có thể hoạt động ở một tỉ lệ mành vừa đủ để tạo lại chuyển động, còn màn hình có thể vận hành ở một tỉ lệ cao hơn, đáp ứng chỉ tiêu rung hình cần thiết. Thậm chí có thể ngừng hẳn việc truyền theo chu kỳ của những hình ảnh đã dùng, để giảm yêu cầu mà quá trình truyền dữ liệu đặt ra. Như đề cập ở trên, để giảm độ rung hình, tần số mành ở 50 Hz hoặc cao hơn nữa và màn hình cũng có thể quét ở tần số này. Nhưng quá trình tái tạo chuyển động thường tốt nhất với tần số mành 30Hz, hoặc thậm chí có thể thấp hơn. Do vậy quá trình quét ảnh của camera càng phải diễn ra nhanh, để đủ hỗ trợ quá trình tạo 8
- Chương 1: Đại cương về tín hiệu audio và video chuyển động. Các hệ thống số có thể đáp ứng cả những tiêu chí này. Khi theo dõi một vật chuyển động nhanh, người ta có cảm giác như sự chuyển động này rất rõ nét. Tuy nhiên, thực chất hình ảnh chuyển động lại rất mờ do hiệu ứng lưu hình của mắt đã nêu ở trên. Tuy nhiên, nếu mắt di chuyển theo chuyển động của vật, sự mờ ảo của chính vật đó sẽ giảm xuống nhưng phong hình lại trở lên mờ ảo. Một hệ thống mô phỏng không thể đồng thời giải quyết tình trạng này do camera thu ảnh điện tử đều có lưu hình như nhau. Đây được gọi là sự kéo vết của chuyển động xảy ra do camera có thời gian lộ sáng xác định. Vấn đề đặt ra không khó khăn lắm với hệ thống truyền hình bình thường hoạt động ở tỉ lệ nhìn thiết kế sẵn vì hình ảnh ở đó không rộng đến mức người xem có thể di chuyển theo chiều chuyển động của vật. Camera thường di chuyển theo chuyển động của vật, người xem không cần thiết phải làm việc này. Tuy nhiên, với màn hình có độ phân giải cao và rộng hơn, người xem có thể phải di chuyển mắt theo những phần khác nhau của cảnh để đáp ứng đầy đủ trường nhìn của mình. Sau nữa, camera cũng không nên di chuyển theo vật và phải có thời gian lộ sáng ngắn để vật chuyển động sắc nét hơn. 1.6. THÍNH GIÁC CỦA CON NGƯỜI Độ nhạy của tai con người không hề thua kém mắt. Kết hợp với não, tai có thể tiếp nhận sóng âm ở phạm vi biên độ lớn và trong chốc lát nó có thể xác định phương hướng tần số, đặc tính của âm nguồn thông tin (trong trường hợp đây là lời nói). Hiểu được khả năng và hạn chế của hệ thống sinh học tuyệt vời này là một điều quan trọng đối với công việc tái tạo hệ thống âm thanh diện tử. Nghiên cứu quá trình thích giác của con người được gọi là khoa học tâm lý âm thanh. 1.6.1. Tiếng ồn Tiếng ồn là phản ứng của con người với biên độ sóng âm thanh, nó nằm trong ngưõng có thể nghe được ở mức độ âm thanh thấp đến ngưỡng của sự chói tai của những âm cao nằm trong phạm vi từ 1012 (1000.000.000.000:1) hoặc nhiều hơn ở những âm thanh có cường độ cao. Âm thanh có cường độ cao được biểu thị bằng W/m×m. Do phạm vi rộng, thông thường âm thanh được tính theo dB. Ở mức độ âm chuẩn (0 dB) thường được sử dụng như là ngưỡng nghe và 120dB (ví dụ như mức độ âm ở khoảng cách 457,2m phát ra từ một động cơ máy bay phản lực khi cất cánh) gần như được coi là ngưỡng của âm chói, ở mức độ này tiếng ồn trở nên khó chịu. Nếu như ở mức độ cao hơn thính giác của con người có thể bị tổn thương. Con người cũng không thể nghe được nhiều âm thanh ở các mức độ khác nhau trên toàn bộ phạm vi ở bất kỳ thời điểm nào, bởi vì các âm thanh lớn có xu hướng lấn áp những âm thanh yếu. Tuy nhiên, khi những âm thanh hữu ích (như lời nói, 9
- Chương 1: Đại cương về tín hiệu audio và video âm nhạc) có xu hướng xuất hiện những khoảng lặng và tai con người nhanh chóng phản ứng với sự thay đổi mức độ âm thanh đó. Vì vậy, việc đưa ra tỉ lệ tín hiệu trên tạp âm S/N ở 80 hoặc 90dB, nếu như tiếng ồn hoàn toàn không thể nghe được, là rất quan trọng đối với quá trình tái tạo âm thanh điện tử chất lượng cao. Mặc khác, nếu chỉ tính đến khả năng nghe rõ, tai có thể hiểu được lời nói S/N bằng 30dB hoặc thậm chí còn thấp hơn. 1.6.2. Đặc tuyến tần số Đặc tuyến tần số của thính giác con người nằm trong phạm vi từ 30 đến 15000Hz. Tuy nhiên, con số này thay đổi một cách đáng kể tùy theo từng người và từng loại tiếng ồn. Các đường cong ở hình 1.4 biểu diễn một số cấp độ âm thanh tạo ra cảm giác tiếng ồn như nhau ở những tần số và các cấp độ âm thanh khác nhau. 120 100 80 ) dB ( ộ 60 đ 40 Biên 20 0 0 20 40 60 80 100 120 20 50 100 500 1000 5000 10000 Tần số (MHz ) Hình 1.4. Đường cong biên độ tín hiệu duy trì độ ổn định âm lượng Những đường cong này dựa trên cơ sở nghiên cứu tâm lý do Fletcher và Munson tiến hành. Đường cong thấp hơn biểu thị chệch khỏi phạm vi tần số khoảng 40dB, khi âm thanh lớn hơn có sự thay đổi cảm giác đối với tần số. Ở 120dB, mọi tần số âm thanh đều lớn như nhau. Do phụ thuộc vào mục đích của hệ thống nên không biết lúc nào phải tái tạo đủ phạm vi tần số. Ví dụ như điện thoại, loại máy được thiết kế dùng cho đàm thoại chỉ có độ rộng band tần từ 300 đến 3000Hz. Mặc khác, đối với các loại máy nghe nhạc HI-FI lại cần toàn bộ band tần từ 30 đến 15000Hz. Rất nhiều hệ thống audio lại yêu cầu độ rộng band tần ở mức cao hơn thế, từ 20 dến 20000Hz. 1.7. QUÉT ẢNH 10
- Chương 1: Đại cương về tín hiệu audio và video Một cảnh tự nhiên phản chiếu ánh sáng đồng thời từ tất cả các điểm, trong khi mắt người có thể cảm thụ được tất cả các điểm này tương đương 108 bộ cảm biến của mắt. Việc cảm nhận dòng dữ liệu này song song phụ thuộc vào não. Tuy nhiên cấu trúc song song như vậy không thông dụng trong điện tử, vì vậy hệ thống ảnh điện tử gặp phải những vấn đề khó khăn khác, nó phải chuyển dữ liệu song thành một hoặc vài tín hiệu điện tử thay đổi theo thời gian, phương tiện để thực hiện việc này chính là quá trình quét ảnh. Quét ảnh cũng giống như đọc một quyển sách, bắt đầu ở bên góc trái trên cùng của cuốn sách, mắt người đọc sẽ di chuyển theo chiều ngang từ trái sang phải bắt đầu dòng đầu tiên của văn bản, ở cuối dòng này mắt lại quay ngược trở lại bên trái và di chuyển xuống dòng tiếp theo, đây được coi là quá trình quét dòng. Hướng quét ngang c ọ ng quét d ng quét ướ H Xung quét dòng Xung quét mành Hình 1.5. Quét liên dòng: a) mành quét, b) dạng xung quét. Do vậy, quét ảnh là một quá trình di chuyển các phần tử cảm biến lên mọi điểm của một ảnh đến khi toàn bộ ảnh được quét hết, tất nhiên điều này có thể được thực hiện trong mô hình quét như rada, theo hình soắn ốc hoặc thậm chí là ngẫu nhiên. Trong truyền hình người ta đã lựa chọn kiểu quét hình chữ nhật (được gọi là mành) bao gồm các chuyển động theo hàng dọc hàng ngang tách rời nhau. Điều này đã được chứng tỏ ưu thế ở chỗ toàn bộ cảnh do một phần tử chuyển động đồng bộ với tốc độ đồng nhất quét và thiết bị lắp đặt phần cứng cũng đơn giản. 1.7.1. Quét ảnh điện tử 11
- Chương 1: Đại cương về tín hiệu audio và video Để có mô hình quét ảnh ổn định, tần số quét ảnh hàng dọc (quét mành) và hàng ngang (quét dòng) phải được đồng bộ hoá trong mối quan hệ thống nhất. Nếu một hệ thống có N dòng, tần số quét dòng phải ở mức cao nhất và tỉ lệ với tần số quét dọc theo công thức: fh = N × fv Tần số quét dòng cũng là tần số quét ảnh trong hệ thống. Ví dụ nếu tần số quét ảnh là 60Hz thì tần số quét dọc cũng là 60 Hz. Đối với hệ thống 525 dòng, tần số quét dòng là 525× 60 = 31500Hz. Các tín hiệu quét phải được thiết kế để tạo ra quá trình quét tuyến tính, có nghĩa là tốc độ quét phải đồng nhất trên mọi vị trí của ảnh. Điều này khá quan trọng đối với camera và máy thu nhằm đảm bảo sự đồng bộ của ảnh trên màn hình máy thu. Bất cứ độ phi tuyến trong quá trình quét ảnh cũng sẽ gây ra sự biến dạng vị trí trên một vài phần ảnh. Mặc dù, trên lí thuyết có thể sử dụng mô hình quét ảnh phi tuyến, nhưng mô hình này rất khó di trì, và tốc độ quét không đồng bộ nên sẽ gây ra một số vấn đề như: sự thay đổi độ phân giải, độ nhạy cảm và độ chói. Chính vì vậy các tiêu chuẩn quét ảnh của video đều sử dụng quét tuyến tính. 1.7.2. Xoá khoảng trống Vị trí của các phần tử quét phải chuyển động tuyến tính trên một đường thẳng theo thời gian. Điều này được áp dụng trong quá trình quét ảnh từ trái qua phải trên một dòng của màn hình (đây là thời gian quét tích cực), nhưng không cần thiết trong quá trình quét ngược lại. Giai đoạn này thời gian quét càng ngắn càng tốt. Trước đây, quét ngược trong các hệ thống truyền hình bị giới hạn bởi các mạch quét, do vậy thời gian quét ngược chiếm gần 18% tổng thời gian quét một dòng. Điều này gây ra lãng phí, bởi vì trong thời gian này không có một thông tin nào được tuyền. Thực tế trong thời gian này tín hiệu bị xoá do bị đẩy tới điện áp của mức đen. Do vậy, chu kỳ quét ngược thường được gọi là khoảng xoá dòng và quét ảnh tuyến tính phải có dạng hình răng cưa. Hình 1.5(b) quét mành cũng là một quá trình tuyến tính, khoảng xóa mành (VBI) là 8 % đối với truyền hình. 1.7.3. Độ phân giải theo chiều ngang và dải thông tín hiệu Như trong khi đọc một cuốn sách, mắt phải nhận biết từ kí tự này đến kí tự khác, quá trình quét ảnh ở một camera video di chuyển rất hiệu quả các phần tử cảm biến nên ảnh. Điện áp lấy tại đầu ra thay đổi tỉ lệ với cường độ ánh sáng ở mỗi điểm mà bộ cảm biến quét qua, (trong thực tế không có phần tử chuyển động nào, nhưng kết quả lại giống như chuyển động này vẫn tồn tại). Một phần tử cảm biến có kích cỡ xác định, bộ cảm biến lấy trung bình ánh sáng mà nó cảm nhận được thông qua góc mở. Lấy trung bình như vậy đã làm mất 12
- Chương 1: Đại cương về tín hiệu audio và video các chi tiết nhỏ hoặc gây ra độ dốc của tuyến tính ở tần số cao khi chúng ta quan sát tín hiệu điện này, hiệu ứng gây ra bởi góc mở, gọi là đặc tưyến góc mở, được minh họa trong hình 1.6. Hình này đưa ra một góc mở tròn, tuy nhiên góc mở có thể là bất cứ hình gì và độ nhạy không được phân bổ đồng đều. Điều này đã biến quá trình lấy trung bình thành một quá trình gộp toàn bộ diện tích góc mở. Kết quả như đã chỉ trong hình vẽ, là làm tròn các biên trên các quá trình chuyển tiếp và số biên độ bị mất khi khoảng cách giữa các hình nhỏ hơn kích thước của góc mở. Góc mở trong quá trình quét Đầu ra tín hiệu video Hình 1.6. Đặc tuyến góc mở trong quá trình quét Về hình thức bên ngoài các tần số video tạo bởi quá trình quét ảnh phụ thuộc vào những chi tiết nhỏ của cảnh và tốc độ quét. Việc quan sát các chi tiết nhỏ để biết hệ thống tạo ra mô hình có dòng đen và trắng cân bằng là rất hữu ích trong các hình theo chiều dọc kiểm tra độ phân giải theo chiều ngang của hệ thống và ngược lại, các hình theo chiều ngang kiểm tra độ phân giải theo chiều dọc. Đối với độ phân giải theo chiều ngang tần số video fv tạo bởi một hình của các dòng đen và trắng theo chiều đứng ở khoảng cách đồng nhất được cho tính bằng biểu thức: fV= (fH × Np × AR)/ 2(1-HB) (1.3) fH: tần số quét dòng Np: số dòng đen trắng ở khoảng cách cân bằng với độ cao của ảnh AR: cỡ ảnh là tỷ lệ của chiều rộng và chiều cao của màn hình (NTSC là 1,33). HB: thời gian xóa dòng (0,18 đối với hệ NTSC) 1.7.4. Quét cách dòng Phương pháp quét mô tả trong những phần trên được gọi là quá trình quét liên dòng bởi vì tất cả các dòng hoặc mỗi ảnh đều được quét liên tục. Công thức (1.5) chỉ rõ tần số video lớn nhất được tạo bởi quá trình quét ảnh tỉ lệ với tần số quét dòng, và tất nhiên sẽ bằng tần số quét dọc nhân với số dòng quét. Do tần số quét dọc phải đủ lớn để không gây ra hiện tượng rung hình, nên người ta có thể nhận 13
- Chương 1: Đại cương về tín hiệu audio và video thấy độ rộng band tần video cần thiết là một hàm số dòng trực tiếp trong ảnh và giá trị của tần số quét theo hàng dọc. Tuy nhiên, tần số video có thể hạ thấp mà không gây ra hiện tượng rung hình bằng phương pháp quét cách dòng. Quét cách dòng được thực hiện bằng cách chỉ quét từng phần của dòng quét trong mỗi lần quét dọc. Ví dụ, một lần quét dọc thứ nhất có thể quét tất cả các dòng lẻ, và lần quét dọc thứ hai quét tất cả các dòng chẵn. Đây chính là quét cách dòng tỉ lệ 2:1, và tần số video giảm theo hệ số 2:1 so với quá trình quét liên dòng ở cùng tần số quét dọc. Do tần số quét dọc không đổi, nên hiện tượng rung hình hầu như không xảy ra. Hướng quét ngang c ọ d ng quét ướ H Xung quét dòng Xung quét mành Hình 1.7. Quét cách dòng: a) mành quét b) dạng xung quét Quá trình quét dòng được hoàn thành khi tổng số dòng quét phải là số lẻ (525 hoặc 625) và tần số quét dòng bằng 1,5 lần tích của số dòng và tần số quét dọc. Từ mối quan hệ tần số này sẽ cho ra kết quả của quá trình quét cách dòng như trong hình 1.7. Trong hình này, điểm cuối của lượt quét dọc thứ nhất nằm ở trung tâm của dòng, vì vậy điểm xuất phát của dòng quét dọc thứ hai cũng nằm ở trung tâm của một dòng (chính xác là diểm giữa của dòng đầu tiên). Phải mất hai lượt quét mới quét hết một ảnh gồm hai mành: mành 1 bao gồm tất cả các dòng lẻ và mành 2 bao gồm tất cả các dòng chẵn. 1.7.5. Độ phân giải đứng 14
- Chương 1: Đại cương về tín hiệu audio và video Không giống như độ phân giải ngang thường bị giới hạn bởi độ rộng band tần của hệ thống, độ phân giải đứng lại bị giới hạn bởi số lượng các dòng quét trên hình. Các hình ngang hoặc gần kề, ở những chi tiết nhỏ được lấy mẫu bằng tần số không gian của số dòng quét thể hiện qua số dòng quét tích cực. Tiêu chuẩn Nyquist đã chỉ ra rằng các tần số vượt quá 1,5 chu kỳ lấy mẫu sẽ không lấy được mẫu chính xác nên người ta có thể kết luận giới hạn độ phân giải theo hàng dọc đo ở TVL là 1.5 số dòng tích cực. Tuy nhiên, trong thực tế giớn hạn này có thể cao hơn bởi vì hiện tượng méo do chồng phổ, không hoàn toàn che khuất tín hiệu. Trước đây, trong hệ thống truyền hình, người ta đã đặt tên cho tỷ lệ giữa độ phân giải giới hạn biểu kiến và số dòng tích cực là hệ số Kell. Nó nằm trong phạm vi từ 0.5 đến 0.9 và thường lấy ở 0.7. Kết hợp quét cách dòng và chồng phổ theo chiều dọc ở các biên ngang sẽ gây ra hiệu ứng giả trong quá trình tái tạo lại ảnh tự nhiên, đó chính là hiện tượng rung hình ở các biên ngang gần kề và hiện tượng rung hình theo hình chữ chi ở một phần của ảnh có hướng tập trung theo chiều ngang. Hiệu ứng lấy mẫu theo chiều dọc xảy ra ở bất cứ hệ thống nào có sử dụng quét dòng, vì vậy nó tồn tại trong các hệ thống video số cũng như truyền hình. Để loại trừ hoàn toàn hiện ứng này, tần số đầu vào trên giới hạn Nyquist phải được lọc ra trước quá trình lấy mẫu. Điều này có nghĩa là, quá trình lọc phải được thực hiện ở phần quang học của camera trước khi quá trình quét xảy ra ở bộ cảm biến ảnh. 1.8. BIỂU DIỄN MÀU SẮC 1.8.1. Đặc trưng màu sắc của ánh sáng Ánh sáng tự nhiên là một nguồn sáng tổng hợp các sóng điện từ nằm trong giải phổ có bước sóng từ 400 đến 700nm (10-9m) mà mắt người có thể quan sát được. Sự phân bố phổ biến của ánh sáng trắng tương đối đồng đều trên toàn bộ dải ánh sáng quan sát được mặc dù có rất nhiều loại ánh sáng trắng. Ngược lại, sự phân bố của ánh sáng màu không đồng đều, thường có từ hai vùng phổ trở lên. Quá trình phản chiếu ánh sáng trắng từ bề mặt của những vật tự nhiên có thể có sự chọn lọc bước sóng, điều này tạo ra đặc tính màu sắc của vật. Sóng của ánh sáng ở bước sóng của màu sắc được phản chiếu, bước sóng khác ít nhiều bị hấp thụ thay bằng bị phản chiếu Mắt người nhận biết được màu sắc bằng ba loại tế bào hình nón khác nhau trong bộ thụ cảm của võng mạc. Chúng phản ứng khác nhau với những màu sắc khác nhau và phát tín hiệu ba chiều tới não, tại đây màu sắc sẽ được nhận biết. Chính vì quá trình nhận biết này mà mắt người cảm nhận màu sắc không giống với màu sắc vật lý. Một hệ thống tái tạo màu sắc thường quan tâm tới các thông tin về 15
- Chương 1: Đại cương về tín hiệu audio và video màu sắc vật lý (phân bố phổ), tuy nhiên nó vẫn phải tái tạo lại được cảm giác màu sắc mà người xem cảm nhận được. Từ thế kỷ thứ 17, Isaac Newton đã chỉ ra rằng tất cả các màu sắc đều có thể cảm nhận chỉ bởi từ ba màu tương đương với ba thành phần cảm thụ màu sắc trong mắt và điều này được trình bày thông qua thuyết ba màu. Đây là cơ sở cho ảnh màu, in màu, sơn màu và các hệ thống truyền hình màu. 1.8.2. Các màu cơ bản Thuyết ba màu cho rằng bất kỳ màu sắc nào cũng được tạo ra bởi sự kết hợp của ba màu, được gọi là các màu cơ bản (hình 1.10). Ba màu cơ bản sử dụng trong hệ thống truyền hình này: đỏ, lục, lam. (gọi tắt là RGB). Khi trộn ba màu theo tỷ lệ bằng nhau thì sẽ thu được màu trắng . Mỗi màu cơ bản có một màu phụ tương ứng, mà khi trộn với màu cơ bản của nó sẽ tạo ra nàu trắng. Màu phụ của màu đỏ là màu lơ, của màu lục là màu mận chín và của màu lam là màu vàng như biễu diễn ở hình 1.8. Như vậy trong sử lý ảnh màu cũng như trong kỹ thuật truyền hình màu người ta chỉ dùng ba màu cơ bản để biểu diễn cho vô số các màu sắc của ảnh bằng cách pha trộn những màu sắc cơ bản này theo những tỷ lệ màu nhất định. Phụ của màu lục Đỏ tươi Đỏ Phụ của Lam Các màu cơ bản Vàng màu lam Phụ của Lơ Lục màu đỏ Hình 1.8. Các màu cộng và trừ cơ bản 1.8.3. Hệ thống truyền hình thành phần Trong hệ thống truyền hình màu, camera phải phát đi ba thành phần màu sắc điều khiển các nguồn ánh sáng đỏ, lục, lam của màn hình. Camera video chuyên nghiệp thực hiện việc này bằng cách sử dụng ba bộ thụ cảm hình ảnh được quét đồng thời và ba bộ này có bộ phận lọc màu sắc phù hợp để đạt được đặc tuyến phổ tương ứng. Đầu ra của bộ thụ cảm sẽ truyền tín hiệu để điều khiển ba súng điện tử 16
- Chương 1: Đại cương về tín hiệu audio và video của máy thu. Các camera giá thấp hơn chỉ sử dụng một bộ thụ cảm có bộ lọc màu sửa sai để thu ba màu từ khu vực lân cận trên bề mặt thụ cảm. Quá trình xử lý điện tử của các tín hiệu ở camera này cho phép lấy ra các thành phần màu sắc RGB. Khi hệ thống lớn, việc xử lý các tín hiệu thành phần màu sắc trên ba mạch song song trở nên phức tạp, có nhiều tín hiệu video mắc nối tiếp và không thể thực hiện được khi các tín hiệu màu analog được truyền hoặc phát quảng bá trên một kênh đơn. Vì vậy, cần thiết phải có một hệ thống màu tổng hợp kết hợp ba thành phần màu sắc thành một tín hiệu đơn . Chú ý rằng, trong hệ thống số mà các thành phần RGB được số hoá, việc kết hợp các kênh số cho một trong ba thành phần, một kênh đơn giản chỉ là quá trình chuyển đổi song song-nối tiếp. Tuy nhiên, tạo ra một tín hiệu tổng hợp ở một hệ thống analog không phải là một công việc đơn giản và thường có liên quan đến các quy ước về chỉ tiêu kỹ thuật. Do đó, bất cứ một hệ thống nào được thiết kế theo tiêu chuẩn kỹ thuật số đều không nên sử dụng các tín hiệu tổng hợp analog. Dù vậy, rất nhiều hệ thống sẽ đổi từ analog sang số và việc số hoá các tín hiệu tổng hợp analog được miêu tả dưới đây là rất có ích trong giai đoạn chuyển tiếp . Một số thao tác kĩ thuật giúp hệ thống màu tổng hợp analog có thể sử dụng vào hệ thống số cũng rất hữu ích với các hệ thống số. Phần bàn luận dưới đây sẽ chỉ ra điều đó. Tuy nhiên, phần bàn luận hệ thống tổng hợp này mới chỉ dừng lại ở việc khái quát. 1.8.4. Hệ thống màu tổng hợp Mắt người còn có một đặc tính nữa góp một phần khá quan trọng cho hệ thống truyền hình màu. Từ cách thu thập thông tin trong não, có thể nhận thấy là mắt có độ phân giải kém với các vật thể có màu sắc hơn là với các vật đen trắng. Vì vậy, một hệ thống video cũng phải giảm độ phân giải, để khai thác đặc tính này của mắt, các tín hiệu màu cơ bản của một hệ thống video tạo bởi camera cần phải được cấu trúc lại thành các màu sắc riêng biệt và đơn sắc giống như cách mà mắt thực hiện. Thuyết ba màu cho rằng, bất cứ một tín hiệu ba màu nào xuất hiện, đều có thể thực hiện phép chuyển đổi ma trận tuyến tính của các tín hiệu thành phần R,G,B thành một tín hiệu đơn sắc (độ chói) và hai tín hiệu hiệu màu. Các tín hiệu màu là các khác nhau về màu sắc, có nghĩa là khi không có màu ta có kết quả bằng 0. Đây là kết quả của phép trừ tín hiệu chói cho các tín hiệu màu thành phần. 1.8.4.1. Độ chói và các thành phần tín hiệu màu Tín hiệu chói có đặc tuyến phổ tương ứng với đường chói (hình 1.9), nó thể hiện độ chói tương đối mà mắt người thu được ở những phổ màu khác nhau. Tín hiệu chói Y được tổng hợp bằng cách kết hợp các tín hiệu R, G, B theo công thức: 17
- Chương 1: Đại cương về tín hiệu audio và video Y = 0,59G + 0.30R + 0,11B (1.6) Chú ý là trọng số của màu sắc ở công thức chói là thích hợp với sự cảm nhận của thị giác về độ chói của màu sắc. Màu lục xuất hiện chói nhất, màu đỏ tối hơn và màu lam là tối nhất. Các tín hiệu màu nhận được bằng cách trừ Y với R và B để tạo ra tín hiệu R-Y và B-Y. Những tín hiệu này có thể truyền đi với dải band tần có độ rộng một nữa do sự phân giải của mắt kém hơn. Độ chói các tín hiệu màu được sử dụng rộng rãi trong hệ thống tương tự và số. 1.0 0.5 400 440 480 520 560 600 640 680 Hình 1.9. Đường cong độ chói 1.8.4.2. Tần số quét cách dòng Một đặc tính khác của tín hiệu video là có thể kết hợp các thành phần tín hiệu chói và các thành phần tín hiệu màu thành một kênh đơn. Điều này được lý giải là các thành phần tần số tạo bởi tín hiệu video được quét hầu hết đều tập trung xung quanh hài của tần số quét dòng. 210 x fH 211 x fH ộ đ 212 x fH Biên 0 1.0 2.0 3.0 4.0 Tần số MHz Hình 1.10. Phổ của tín hiệu video đơn sắc 18
- Chương 1: Đại cương về tín hiệu audio và video Về mặt toán học, điều này có thể được chứng minh bằng phép phân tích Fourier các tín hiệu video tiêu biểu, song nó có thể được chứng minh theo trực giác bằng cách quan sát và thấy rằng, các thành phần có ý nghĩa nhất của sóng video là tín hiệu xoá dòng, đó là một chuỗi xung của tần số quét dòng. Tất nhiên, phổ của xung này có thể bao gồm tần số quét dòng và hài của nó, như hình 1.10. Bản chất này là phổ năng lượng tín hiệu tập trung vào gần hài của tần số dòng. Có nghĩa là, có thể quét các dòng với tín hiệu mà các thành phần tần số của nó hầu hết có thể bị giảm ở giữa các hài của dòng. Nếu điều này được thực hiện một cách chính xác sẽ giảm thiếu được nhiễu giữa hai tín hiệu. 1.8.4.3. Hệ thống truyền hình màu tổng hợp NTSC Hệ thống truyền dẫn màu tổng hợp đầu tiên là công nghệ truyền hình màu NTSC xuất hiện tại Mỹ vào những năm 50. Hệ thống này kết hợp các tín hiệu thành phần ba màu thành một tín hiệu tổng hợp phù hợp với kênh 6MHz, kênh này sử dụng cho truyền hình quảng bá đen trắng. Hơn nữa, tín hiệu này có thể đáp ứng được tính tương hợp giữa truyền hình màu và truyền hình đen trắng, tức là tín hiệu màu đen trắng có thể thu được tín hiệu màu và cả đen trắng nữa. Hệ NTSC hiện nay vẫn được sử dụng hơn 50 năm sau khi ra đời. Sóng mang màu Dải tín hiệu sắc Dải biên tín hiệu chói 210 x fH 211 x fH ộ đ 212 x fH Biên Phổ tín sắc Phổ tín được chèn hiệu chói 0 1.0 2.0 3.0 4.0 Tần số MHz Hình 1.11. Phổ của tín hiệu video màu tổng hợp minh họa quá trình chèn tần số Ở hệ truyền hình màu NTSC hoặc PAL, hai tín hiệu màu được điều biên nén vuông góc đặc điểm của phương pháp điều chế này là sóng mang phụ sẽ bằng 0 khi không có tín hiệu, nó xảy ra khi truyền ảnh đen trắng. Vì vậy, tín hiệu sóng mang màu sẽ biến mất ở ảnh đen trắng hoặc các vùng đơn sắc của ảnh màu. Bởi vì các tín 19
- Chương 1: Đại cương về tín hiệu audio và video Sóng mang màu được chọn ở miền tần số cao của phổ tín hiệu chói, bởi vì đặc tính của tín hiệu video là các thành phần tần số cao thường nhỏ và sự nhiễu tần số cao thì khó nhìn thấy hơn tần số thấp. Cả hai vấn đề này điều làm giảm khả năng nhìn các sự xuyên âm giữa các thành phần quét dòng. Một đặc điểm cuối cùng góp phần làm giảm thiểu sự xuyên âm giữa các thành phần của tín hiệu NTSC là độ phân giải của mắt tuỳ theo màu. Vì vậy, bằng cách chọn các thành phần màu phù hợp, nó sẽ giảm dải tần số tín hiệu màu R-Y và B-Y có thể đến hơn một nữa, điều này yêu cầu thay đổi tín hiệu màu R-Y và B-Y thành hai tín hiệu Y (cùng pha) và Q (cầu phương). Biểu thức ma trận của tín hiệu này là: I = 0.6R - 0.28G - 0.32B Q = 0.21R - 0.51R + 0.30B Trong tiêu chẩn NTSC, tín hiệu I được truyền với dải thông là 1,3MHz, tín hiệu Q có dải thông là 0,5MHz, và tín hiệu Y được sử dụng toàn bộ dải thông 4,2MHz. Bảng 1.3 đưa ra các thông số thực tế cho ba hệ truyền hình. Danh mục NTSC PAL SECAM Tần số quét dòng 525 625 625 Tỷ lệ quét cách dòng 2:1 2:1 2:1 Tần số quét mành (Hz) 59,94 50,0 50,0 fH (Hz) 15.734.26 15.625 15.625 Dải thông tín hiệu chói (Mhz) 4,2 5,0 hoặc 5,5 50 hặc 5,5 4.250.000 fSC (Hz) 3.579.545 4.433.619 4.406.250 Dải thông tín hiệu sắc (Mhz) I = 1,3 U = 1,3 DR = 1,3 Q=0,5 V = 1,3 DB = 1,3 Bảng 1.3. Các thông số hệ thống của các hệ thống màu tổng hợp Tần số mành 59,94 Hz của hệ NTSC có sự khác biệt rất nhỏ so với tần số 60Hz vì một lý do rất quan trọng. Nhằm giảm thiểu hiện tượng nhiễu điều biến xuyên có thể xảy ra giữa tần số mang âm thanh 4,5MHz và tần số mang này thì tần số quét 20
- Chương 1: Đại cương về tín hiệu audio và video dòng phải là ước số nguyên của 4,5MHz. Tần số gần nhất tần số dòng 15.725Hz của tiêu chuẩn màn hình trắng đen là ước số thứ 286 của 4,5MHz là 15.7345,26Hz con số này chia cho 525 và nhân với 2 sẽ cho tần số mành 59,94 Hz. 1.8.4.4. Hệ thống truyền hình màu tổng hợp PAL Vài năm khi hệ NTSC đưa vào sử dụng, hệ truyền hình màu PAL của châu Âu cũng được phát triển và đã thừa hưởng thành quả của hệ thống NTSC, nó có dải thông lớn hơn hệ NTSC và nó được dùng quảng bá châu Âu. Cũng giống như NTSC hệ PAL cũng đáp ứng được tính tương hợp đối với hệ thống truyền hình đen trắng ở châu lục này. Hầu hết các nước châu Âu có hệ thống đen trắng 625 dòng và có tầng số quét mành là 50Hz. Với độ rộng band tần là 5,5MHz, hệ PAL sử dụng tần số quét màu cao hơn hệ NTSC và có dải thông của 2 tín hiệu màu là như nhau cho mỗi kênh. Từ đó hệ PAL dùng trực tiếp các thành phần B-Y và G-Y. Các thành phần này được gọi là U và V. Các biểu thức của nó là: U = 0.493(B-Y) V = ± 0.877(R-Y) Tuy nhiên có sự khác biệt quan trọng ở hệ PAL chính là tên gọi của hệ này “đảo pha theo từng dòng” được đánh dấu bằng kí hiệu ± trong biểu thức. Pha của sóng mang màu tín hiệu V sẽ bị đảo ngược từ dòng này đến dòng khác. Mục đích của nó là sửa méo pha, méo này có thể gây nên sự méo sắc độ của màu, đây chính là nhược điểm của hệ NTSC, mặc dù nó có thể giảm bớt khi các hệ thống và thành phần được thiết kế một cách cẩn thận. Các thông số của hệ PAL cũng được cho trong bảng 1.3. 1.8.4.5 Hệ thống truyền hình màu SECAM Một hệ thống truyền hình màu khác được phát triển tại Pháp có tên là SECAM và nó được sử dụng hai sóng mang điều tần để mang hai tín hiệu hiệu màu B-Y và R-Y. Hệ thống này đã loại bỏ các thông số biên độ và pha bởi vì các thông số này không quan trọng với điều tần. Tuy nhiên nó chỉ được sử dụng ở Pháp và Liên Xô cũ. Các thông số của SECAM cũng được cho trong bảng 1.3 1.8.4.6 Các vấn đề nảy sinh với màu tổng hợp Mặc dù hiện nay có khoảng 10.000 trạm phát hình tới hàng trăm triệu máy thu trên toàn thế giới, tất cả đều sử dụng màu tổng hợp, song những hệ thống này vẫn còn rất nhiều vấn đề cần giải quyết. Kết quả của quá trình điều chế màu và quét cách dòng không hoàn hảo, độ phân giải tín hiệu đen trắng bị tiêu hao, độ phân giải màu bị giảm quá nhiều không thể tái tạo được truyền đi từ máy tính. Quét cách 21
- Chương 1: Đại cương về tín hiệu audio và video dòng tạo ra một hiệu ứng giả và các tín hiệu lại không chấp nhận hiện tượng nhiễu hoặc méo do việc truyền hay ghi hình gây nên. Nhìn chung, người xem truyền hình đều hài lòng với hệ thống hiện có, song đó là do chưa có hệ thống nào để họ chọn lựa. Tuy nhiên, cần nói thêm là các tiêu chuẩn truyền hình hiện nay còn nhiều hạn chế. Đây là mục tiêu của những người đang nghiên cứu phát triển tiêu chuẩn HDTV mới. Sử dụng kỹ thuật số, những hạn chế của truyền hình tổng hợp sẽ được loại bỏ và bằng cách áp dụng công nghệ nén hình số, các tín hiệu có độ phân giải cao hơn nhiều sẽ được truyền đi trên cùng các kênh có tần số 6MHz đang được sử dụng cho hệ thống NTSC. Tất nhiên, mỗi hệ thống đều có hạn chế riêng, song các tiêu chuẩn HDTV có sự cải thiện chất lượng đáng kể hơn cả so với các hệ thống khác. Tuy nhiên quá trình chuyển đổi từ tương tự sang số sẽ rất khó khăn đối với hệ thống này. Trong thế giới của kỹ thuật số không có không gian giành riêng cho màu tổng hợp 1.9. CÁC TÍN HIỆU VIDEO TƯƠNG TỰ Các tín hiệu do quá trình quét ảnh tạo nên được xử lý trong camera và định dạng theo tiêu chuẩn của camera. Cùng với việc xác định các tần số quát ảnh tiêu chuẩn video tương tự cũng xác định rõ dạng sóng của tín hiệu video. 1.9.1 Dạng sóng tín hiệu video Các dạng sóng video tương tự có thể nhìn thấy trên màn hiển thị dạng sóng hoặc trên OSC, nó được đồng bộ hoá với tín hiệu của cả ảnh, mành và tỉ lệ dòng. Ở bất cứ các tỉ lệ này thông tin video thường là ngẫu nhiên và tất nhiên nó sẽ thay đổi khi ảnh thay đổi. Tuy nhiên phần xoá dòng và đồng bộ hoá tín hiệu video không thay đổi và lặp đi lặp lại vì vậy chúng xuất hiện rất nét. Hình 1.12 biểu diễn các dạng sóng video của tiêu chuẩn truyển hình NTSC. Như biểu diễn ở hình 1.12a. là dạng tín hiệu video trong một chu kì quét dòng, nó minh họa chi tiết dữ liệu trong khoảng xoá dòng bao gồm xung đồng bộ dòng và burst đồng bộ màu. Burst đồng bộ màu bao gồm ít nhất 8 chu kì tần tần số sóng mang màu. Hìmh 1.12b minh hoạ chi tiết không xoá mành. Trong khoảng xoá mành có chứa một xung lớn để đồng bộ quá trình quét mành, tuy nhiên trong khoảng rộng xung này, các xung hẹp lại bị biến thành hình răng cưa để đồng bộ hoá quá trình quét dòng. Bởi vì mối quan hệ giữa sự dịch các xung dòng và xung mành giữa mành chẵn và mành lẻ do tỉ lệ tần số cần cần để quét các dòng nên các xung hình răng cưa trong khoảng đồng bộ mành và các xung cân bằng ở xung quanh có tần số gấp đôi. Nhờ đó xung mành và các xung quanh nó giống nhau cả ở mành chẵn và mành lẻ. 22
- Chương 1: Đại cương về tín hiệu audio và video Đỉnh mức trắng Mức đen Bust màu Xung đồng bộ dòng Tín hiệu hình Khoảng trên dòng xóa dòng VBI Xung đồng bộ mành Xung đồng bộ mành và cân bằng Hình 1.12. Dạng sóng tín hiệu video NTSC Hầu hết các hệ thống truyền hình đều có một vài bộ phận và tín hiệu video phải được truyền giữa các bộ phận đó, vì vậy phải đề ra các tiêu chuẩn kết nối video để xác định cáp, bộ kết nối, mức điện áp. Điều này giúp cho các bộ phận của các nhà sản xuất khác nhau có thể kết nối cùng một hệ thống. 1.9.2. Các đặc điểm của truyền hình tương tự Tín hiệu ở đầu vào và đầu ra của một hệ thống video luôn là tín hiệu tương tự ngay cả khi hệ thống đó đã được số hoá toàn bộ, người ta vẫn sử dụng các thông số video tương tự để đánh giá hệ thống số. 1.9.2.1. Thang xám Đặc tuyến thang xám được kiểm tra bằng một ảnh có dạng bậc thang hoặc bằng một tín hiệu có dạng bậc thang xám được biểu diễn trên hình 1.13. Hình (hoặc tín hiệu) bao gồm các bậc thang xám cân bằng các bậc này có thể được tạo lại tuyến tính bởi hệ thống. Bằng cách đưa ra 2 ảnh: 1đi lên và 1 đi xuống, chúng ta có thể so sánh đặc tuyến của điểm giữa. Với hệ thống tuyến tính thật sự, điểm giữa sẽ gặp nhau chính xác ở 50% thang xám. Nếu hệ thống kiểm tra có lỗi gamma thì các bậc này sẽ gặp nhau ở điểm khác nhau như hình đã miêu tả. 23
- Chương 1: Đại cương về tín hiệu audio và video Đồ thị thang xám Dạng sóng tuyến tính Dạng sóng phi tuyến Hình 1.13. Ảnh kiểm tra thang xám minh hoạ dạng sóng tuyến tính và phi tuyến 1.9.2.2. Tỉ lệ tín hiệu trên tạp nhiễu Tỉ lệ tín hiệu trên tạp nhiễu (SNR) được đo bằng cách đo tách riêng tín hiệu và tạp nhiễu. Tuy nhiên ở một hệ thống tương tự, tín hiệu đồng bộ và tín hiệu xoá phải cùng xuất hiện thì mới có tín hiệu. Phép đo SNR, vì vậy được thực hiện bằng cách cung cấp tín hiệu hiện mành dạng phẳng, tín hiệu này thường phải là 50% độ chói đồng đều của thang xám. Cổng do tạp nhiễu dùng để đo sự thay đổi (sự thay đổi này chính là tạp nhiễu) của mành xám. Đồng thời, mành phẳng có thể được quan sát trên bộ kiểm tra dạng sóng và chúng ta có thể đánh giá được độ dày của dòng thuộc mành phẳng. Công thức SNR là: SNR = (mức tín hiệu đen tới trắng)/(độ dày của dòng thuộc mành phẳng) Phương pháp này có thể được dùng khi đánh giá tạp nhiễu ở mỗi bậc thuộc thang xám để kiểm tra tạp nhiễu độ chói của hệ thống. Việc kiểm tra tạp nhiễu ở mành phẳng khó hơn khi dùng camera bởi vì camera có thể gây ra sự thay đổi về phông (gọi là bóng) trên mành phẳng khiến người ta nhầm với tạp nhiễu. 1.9.2.3. Các thông số màu sắc Việc kiểm tra màu sắc phụ thuộc vào bảng chất hệ thống đó là tổng hợp hay thành phần. Ở hệ thống thành phần, chỉ tiêu màu sắc được xác định bởi sự kết hợp các mức độ tín hiệu. Đối với việc kiểm tra các tín hiệu dạng này cần phải đưa vào hệ thống một tín hiệu màu RGB dạng thang. Một hệ thống được điều chỉnh đúng sẽ tạo ra các tín hiệu màu RGB dạng thanh ở đầu ra của nó. Hình 1.14 mô tả một ảnh màu dạng thanh và các dạng sóng RGB của nó. Một hệ thống tổng hợp sẽ tạo ra các dạng sóng đặc trưng với định dạng của nó. Ví dụ dạng sóng NTSC cho ảnh màu dạng thanh như mô tả trong hình thứ 3 của hình 1.14. Hình màu dạng thanh ở một hệ thống NTSC hay PAL cũng có thể được quan sát trên một màn hình đặc biệt là màn hình dao động tạo sóng hiển thị các 24
- Chương 1: Đại cương về tín hiệu audio và video thành phần chói, màn hình này chỉ rõ tọa độ cực màn hình của pha và biên độ sóng mang. B R Ảnh G Dạng sóng RGB Dạng sóng NTSC (75 biên độ) Hình 1.14. Các tín hiệu thanh màu RGB và ảnh 1.10. TÍN HIỆU AUDIO TƯƠNG TỰ Hầu hết các âm thanh tự nhiên là sự kết hợp phức tạp các sóng âm thanh có tần số và dạng sóng khác nhau. Vì vậy, phổ của tín hiệu âm tiêu biểu đều phức tạp như nhau, gồm một hoặc nhiều tần số cơ bản, song hài của những tần số đó và các sản phẩm của sự biến điệu xuyên. Vì đa số tần số cơ bản của âm thanh đều dưới 500Hz nên phổ trên mức tần số này chỉ bao gồm các sóng hài. Điều này có nghĩa là mật độ năng lượng của quang phổ âm thanh sẽ giảm ở tần số cao. Đây là một đặc tính cần được khai thác trong quá trình nén tín hiệu hoặc trong các hệ thống giảm tạp âm. Tín hiệu âm thanh là lưỡng cực, vì vậy chúng dao động trên hoặc dưới giá trị zero. Khi ở đặc tuyến tần số có hiện tượng bị cắt ở thành phần tần số thấp, sẽ không có thành phần một chiều trong bất kỳ một tín hiệu nào. Không giống như tín hiệu video vốn có cấu trúc dựa vào quá trình quét ảnh, tín hiệu audio tương tự hoàn toàn không có cấu trúc. Không có bất cứ khoảng cách nào trong tín hiệu audio mà ta có thể đoán được giá trị của nó, hoặc có thể chèn thêm thông tin vào được. Một khi tín hiệu audio được số hóa chúng ta có thể xây dựng cấu trúc của nó ở dạng số. Điều này là cần thiết như việc lấy lại thời gian chuẩn cho đồng hồ và chống lỗi trong hệ thống số. Kỹ thuật audio tương tự rất phát triển, các đặc tính của tín hiệu được hiểu rất cặn kẻ. Các phương pháp đo được sử dụng rông rãi. Phần bàn luận dưới đây là những đặc tính quan trọng nhất và ý nghĩa của chúng trong môi trường số. 25
- Chương 1: Đại cương về tín hiệu audio và video Nguyên lý cơ bản để xây dựng dạng phổ rất quan trọng trong việc nghiên cứu các đặc tính của tín hiệu audio. Đây là nhược điểm cố hữu của hệ thống tương tự, tuy nhiên sang hệ thống số nó đã được khắc phục. Sự suy yếu cơ bản của hệ thống số chỉ xảy ra ở bộ phận A/D và D/A. Theo đó, ứng dụng duy nhất của các đặc tính tương tự trong hệ thống số là ở bộ phận chuyển đổi A/D và D/A. Các thành phần còn lại của hệ thống số được đánh giá chỉ cần dựa vào các chỉ tiêu của lỗi. Tuy nhiên, hệ thống số có một vài quá trình có thể ảnh hưởng đến chỉ tiêu kỹ thuật của hệ thống tương tự. Một trong những quá trình đó là nén dữ liệu; nếu quá trình nén dữ liệu xảy ra trong hệ thống thì chúng ta phải đánh giá tác động của nó lên chỉ tiêu kỹ thuật của hệ thống. Hơn nữa, nếu quá trình nén và giải nén diễn ra liên tục trong hệ thống, sẽ gây ra nguy cơ méo tín hiệu trong tường hợp đó, quá trình nén và giải nén sẽ xảy ra ở bất cứ thời điểm nào mà tín hiệu truyền qua máy ghi âm. 1.10.1. Đặc tuyến tần số Khoảng tần số từ 20Hz đến 20kHz ±0.1dB nhằm dự phòng các tầng analog đã tạo nên đặc thù của đặc tuyến tần số. Trong khi điều này thể hiện độ trong suốt cho một đường truyền thì còn lâu nó mới đạt độ bền vững như toàn bộ hệ thống. Như đã đề cập ở trên, hầu hết con người không thể nghe được ngoài phạm vi 30 đến 15.000 Hz, và không ai có thể phát hiện được sự thay đổi đặc tuyến ở phạm vi 0,1dB. Tuy nhiên, một vài máy CD những đặc tính như vậy đơn giản chỉ là ưu thế của kỹ thuật số. Đặc tuyến tần số của hệ thống số tương ứng với đặc tuyến tần số của hệ thống tương tự được xác định trước tiên bằng việc chọn tần số lấy mẫu, sau đó là quá trình lọc tần số tại các điểm của bộ A/D và D/A. Khi sử dụng kỹ thuật lấy mẫu tần cao được đề cặp trong phần 1.12 và trong chương 2, thì các chỉ tiêu mô tả trên đây là tương đối dễ chấp nhận ở một hệ thống audio số. Tuy các chỉ tiêu trên khá cao, nhưng nếu hạ thấp giá thành thiết bị cũng không giảm đáng kể. Đặc tuyến tần số tương tự được đo nhờ một loạt các tín hiệu hình sin ở đầu vào có tần số khác so với tần số của bộ phận đang kiểm tra, và quan sát biên độ của tín hiệu đầu ra. Việc này có thể thao tác đơn giản bằng tay với những tần số riêng lẻ hoặc có thể thao tác bằng những thiết bị tự động quét tần số quá phạm vi và vẽ sơ đồ tín hiệu đầu ra. Vì có những tần số thấp, nên quá trình xác định đặc tuyến tần số có thể mất một vài giây (nếu là tự động) đến vài phút (nếu bằng tay). Đặc tuyến thường được trình bày dưới dạng biểu đồ biên độ như hình 1.15. Do phạm vi tần số rộng, thang đo tần số được chia theo logarit và tung độ được tính theo dB tương đương với đặc tuyến ở một tần số “trung tâm”, thường là 1.000Hz. Phần lớn các đơn vị đều thể hiện đặc tuyến dạng “phẳng” trên toàn bộ 26
- Chương 1: Đại cương về tín hiệu audio và video phạm vi tần số trung tâm và dốc xuống ở mỗi đầu. Đặc tuyến tần số được xác định rỏ bằng cách đưa ra một giá trị dung sai, trong khoảng đó đặc tuyến phải thực sự có ảnh hưởng đến phạm vi tần số được xác định. Hình 1.15 là một ví dụ về dạng đặc tuyến phẳng trong khoảng ±20 dB trên phạm vi từ 20 ÷ 20.0000Hz. (dB) độ Biên -6 -4 -2 0 2 4 6 4 2 0 -2 -4 -6 20 50 100 200 500 1000 2000 5000 10000 20000 Tần số (Hz ) Hình 1.15. Đồ thị đặc tuyến tần số audio điển hình 1.10.2. Tỉ lệ tín hiệu trên tạp âm (SNR) Mọi hệ thống điện tử đều có tạp âm, vấn đề chỉ là ở chổ giữ cho tạp âm vừa đủ nhỏ so với các tín hiệu yêu cầu để toàn bộ chỉ tiêu hoạt động của hệ thống có thể chấp nhận được. Trong một hệ thống audio tương tự, SNR được xác định bằng dB tương đương với mức độ tín hiệu “bình thường”. Đối với hệ thống audio, cả tiếng ồn và tín hiệu đều được tính theo giá trị quân phương (rms). Hệ thống này được thiết lập cho mức độ tín hiệu bình thường ở 0dB, tín hiệu bị khử và tín hiệu thu được ở đầu ra (được xác định là tạp âm) được đo xấp xỉ là 0dB. Đây là một phương pháp đo đơn giản cho kết quả là một số đơn. Quang phổ của tín hiệu tạp âm cũng là vấn đề cần quan tâm. Điều này cũng quan trọng đối với các hệ thống audio vì độ nhạy của tai với tạp âm giảm xuống ở vị trí cuối tạp âm. Nó sẽ đánh giá đặc tuyến tần số của tai (hình 1.14). Một vài chuẩn mực được cung cấp với mục đích này, vì vậy khi thực hiện quá trình đo tạp âm có trọng số, người ta phải xác định rõ kỹ thuật trọng số. Trọng số được sử dụng rộng rải nhất là A và CCIR. Trong hệ thống audio số, tỉ lệ tín hiệu trên tạp âm (SNR) của analog tương ứng không bị ảnh hưởng bởi phần số của hệ thống. Nó chỉ bị ảnh hưởng bởi quá trình chuyển đổi A/D và D/A. Việc đo SNR các phần số của một hệ thống mà không có 27
- Chương 1: Đại cương về tín hiệu audio và video tín hiệu hiện thời sẽ là vô nghĩa. Phần số tương ứng của SNR analog thường được coi như là tỉ lệ lỗi bit. 1.10.3. Méo tín hiệu Tính phi tuyến của các đặc tính chuyển đổi ở hệ thống analog gây ra hiện tượng méo (biến dạng). Ở miền tần số, người ta có thể coi sự méo là những thành phần tần số tạp do sự xuất hiện của một tín hiệu gây ra. Các đặc tính đưa ra đều là biến dạng hài toàn phần (THD), và khi sự biến dạng hài vượt quá khoảng 1% thì ta có thể nghe thấy sự biến dạng này. Các thành phần màu của hệ thống analog thường đưa ra những giá trị nhỏ hơn rất nhiều để dự phòng trong hệ thống lớn. Quá trình xác định biến dạng analog được thực hiện nhờ sử dụng một tín hiệu âm thuần hình sin (đối với toàn hệ thống) và ở điểm đo, quá rình lọc ra tín hiệu âm thuần sẽ do một thiết bị lọc khấc nhọn thực hiện. Cái còn lại sau bộ lọc này chính là THD. Tuy nhiên, nó cũng chứa cả tạp âm của hệ thống, điều này có lẽ sẽ hạn chế đến quá trình đo, những biến dạng nhỏ trong các hệ thống ồn. THD được xác định là số phần trăm của mức độ tín hiệu bình thường, tất cả được phân định bằng phép đo sự sai lệch bình phương trung bình (rms). Biến dạng có thể là một hàm tần số tín hiệu và điều này có ý nghĩa trong việc thiết kế hệ thống. Song hầu như chỉ tiêu kỹ thuật đưa ra đều bỏ qua vấn đề này và xác định biến dạng cho một tần số tín hiệu là 1000Hz. Méo tương ứng ở phần tương tự trong hệ thống audio số chỉ bị ảnh hưởng bởi quá trình chuyển đổi A/D và D/A. Việc xác định biến dạng ở hệ thống những phần số là hoàn toàn vô nghĩa. 1.10.4. Dịch chuyển pha Nếu thời gian trễ ở hệ thống analog thay đổi theo tần số tín hiệu, hệ thống sẽ báo lỗi dịch chuyển pha. Ban đầu, tai có vẻ như không nghe thấy những lỗi này. Tuy nhiên, dịch pha có thể xác định được và đôi khi được xác định rõ trong các thành phần của hệ thống chất lượng cao. Lưu ý thông số này rất quan trọng đối với một hệ thống video, ở hệ thống này nó được gọi là méo thời gian truyền nhóm. Người ta đo sự dịch chuyển pha nhờ sử dụng một tín hiệu hình sin ở đầu vào và so sánh pha tín hiệu ở đầu ra với đầu vào. Nếu dịch chuyển pha là một hàm tần số tuyến tính của tín hiệu đầu vào, khi đó sự trễ là ổn định và không có biến dạng. Đối với các hệ thống số, dịch chuyển pha hầu như chỉ xảy ra ở các thành phần ở quá trình chuyển đổi A/D và D/A. Phần đa các bộ lọc số đều không có lỗi dịch chuyển mặc dù bộ lọc số IIR có thể đưa vào những sai số của pha. Vì những đặc tính này bộ lọc IIR rất ít được sử dụng trong hệ thống audio số. 1.10.5. Méo sai tốc âm tần 28
- Chương 1: Đại cương về tín hiệu audio và video Các tín hiệu audio tương tự truyền qua một số thiết bị như máy ghi băng từ tính hoặc máy ghi đĩa có thể phải chịu sự biến điệu tần số do có sự chuyển động không đồng nhất về chuyển động cơ học của băng và đĩa. Nó được xác định bởi những thông số của sự méo sai tốc âm tần và phách động (W&F). Người ta đo W&F bằng cách đặt một tín hiệu kiểm tra (thường 3,15kHz) lên hệ thống và đo đầu ra thông qua bộ tách sóng biến điệu tần số FM được điều chỉnh đến tần số kiểm tra. W&F được xác định là biến điệu tần số toàn phần rms biểu thị số phần trăm của tần số kiểm tra. Một hệ thống sẽ phải đọc dưới 0,1%, mức này chúng ta không thể nghe thấy. Một số tiêu chuẩn đáp ứng được quá trình đo này, chúng sẽ thay đổi các đơn vị đo được sử dụng (rms, đỉnh v.v ) và quá trình lọc ở kênh cần đo tuy nhiên vẫn phải tôn trọng đúng tần số kiểm tra. Hầu hết quá trình đo đều hạn chế độ rộng band tần của W&F ở phạm vi từ 0,5 đến 200Hz. Song vẫn có những chuẩn mực đo độ rộng band tần cao hơn nhiều để thu sóng FM nhờ các hoạt động tạo âm ở cơ cấu băng. Trong hệ thống số, W&F phụ thuộc vào sự ổn định của đồng hồ lấy mẫu sử dụng trong bộ chuyển đổi A/D và D/A. Từ khi những đồng hồ này được sản xuất bởi bộ dao động máy tạo sóng điện tử cho mức ổn định cao, các tính năng W&F của hệ thống số thường thấp dưới 0,001%. 1.11. CHUYỂN ĐỔI TÍN HIỆU AUDIO TƯƠNG TỰ SANG SỐ Những tham số của quá trình chuyển đổi A/D là tần số lấy mẫu và số bit/ mẫu. Theo chương 2 quá trình sử dụng hệ thống sẽ quyết định độ rộng band tần như mong muốn các chỉ tiêu của SNR. Điều này tạo ra các đặc tính của tần số lấy mẫu và số bit/mẫu. Các hệ thống audio số bao gồm từ CD các hệ thống audio số Hi-Fi đến một vài hệ thống được thiết kế cho điện thoại truyền âm thanh chất lượng cao. Trong số đó có những tiêu chuẩn audio sử dụng cho máy tính cá nhân, ở đây tỉ lệ lấy mẫu thấp hơn do yêu cầu lưu trữ dữ liệu và phải sử dụng nén dữ liệu. Bảng 1.4 đưa ra một vài tiêu chuẩn lấy mẫu tiêu biểu. Telephone (μ-low) 8,0 8 3,5 64.000 Dải thông Tốc độ dữ Tiêu chuẩn F (KHz) Bit/mẫu s (kHz) liệu (byte/s) CD-DA stereo 44.1 16 20 176.400 WAV mono (speech) 11,05 8 5 11.050 WAV stereo (music) 22.1 16 10 88.400 29
- Chương 1: Đại cương về tín hiệu audio và video Bảng 1.4. Các tiêu chuẩn lấy mẩu audio điển hình Do tín hiệu âm tương tự là lưỡng cực, nên tất cả các hệ thống đều phải dựa vào sự mã hoá bù của cả hai cực mặc dù những hệ thống nén có thể sẽ không truyền mẫu trực tiếp trong định dạng này. Hầu hết các hệ thống đều sử dụng quá trình lượng tử hoá tuyến tính, trừ một số thiết bị như điện thoại sử dụng lượng tử hoá phi tuyến theo luật μ. Nó tối ưu hoá việc sử dụng một lượng bit nhỏ/ mẫu ở hệ thống này. Sử dụng bộ lọc ở đầu vào bộ chuyển đổi A/D nhằm loại bỏ những tần số của 1 tín hiệu đầu vào cao hơn 1 tần số lấy mẫu là hết sức quan trọng bởi vì khi lấy mẫu, 2 những tần số này sẽ tạo ra những thành phần tần số tạp do sự khác nhau giữa tần số audio và tần số lấy mẫu. Nhưng tần số này được gọi là tần số chồng phổ và bộ lọc này được gọi là bộ lọc tránh chồng phổ. Vì những tần số này không liên quan đến bất cứ tần số nào của âm nên nó rất dễ bị nghe thấy. Với mục đích như vậy, một bộ lọc analog cần phải có độ dốc cao, tuy nhiên để thiết kế được bộ lọc này là rất khó và giá thành cũng tương đối cao. Một công nghệ có thể tạo điều kiện thuận lợi cho các yêu cầu của quá trình lọc được gọi là lấy mẫu tần số cao (oversampling). Ở phương pháp này, âm analog được lấy mẫu cao hơn chu kỳ lấy mẫu thông thường, nếu không một bộ lọc đầu vào sẽ được sử dụng. Sau khi lấy mẫu, người ta sẽ sử dụng bộ lọc số để đẩy bất cứ thành phần chồng phổ nào “tụ tập” xung quanh tần số lấy mẫu cao và do đây là tần số lấy mẫu cao ta không nên chồng ghép dải thông âm. Một dạng khác của kỹ thuật này lại sử dụng hệ số lấy mẫu tần cao lớn nhưng chỉ số hoá ở 1 bit/mẫu. Kỹ thuật lấy mẫu tần cao sẽ được nói rõ thêm ở phần 2.3.1 Lưu ý là kỹ thuật lấy mẫu tần cao chỉ có thể áp dụng cho các tín hiệu âm tần có độ rộng band tần thấp mà hiếm khi được sử dụng cho video vì tần số lấy mẫu cần thiết sẽ trở nên quá cao so với các mạch thông dụng. 1.12. GIẢM TẠP ÂM Tạp âm trong khi thu hoặc ghi âm có thể nhận biết được khi nguồn âm tĩnh hoặc ngưng lại. Trong suốt thời gian này người nghe có thể nghe được tạp âm như một âm suýt. Rất nhiều hệ thống đã được thiết lập để thụ cảm tiếng ồn của âm thanh và sữa đổi nó trong những khoảng lặng để tiếng ồn không đến được tai người nghe. Hệ thống này được sử dụng rộng rải đặc biệt là ở máy ghi âm. 30
- Chương 1: Đại cương về tín hiệu audio và video Biện pháp cơ bản được gọi là ép giãn hình 1.16. Ở đầu vào của hệ thống mức độ âm thanh được thụ cảm và hệ số khuếch đại của hệ thống được điều chỉnh sao cho những âm thấp hơn sẽ có hệ số khuếch đại cao hơn còn những âm cao hệ số khuếch đại giảm do đó kênh sẽ không bị quá tải ở đầu ra của hệ thống. Có thể xảy ra hoạt động ngược lại để lưu trữ dải động của hệ thống. Kết quả là tạp âm của kênh sẽ bị loại đi đối với tín hiệu mức thấp bằng với số lượng mà bộ ép giãn tăng hệ số khuếch đại của những tín hiệu này. Thông thường tiếng ồn giảm 10dB hoặc hơn nữa. Ngỏ vào Độ tăng ích Độ tăng ích Ngỏ ra Hệ thống thay đổi thay đổi Điều khiển Điều khiển Hình 1.16. Sơ đồ khối ép giãn Quá trình ép giãn đặt ra rất nhiều vấn đề, bao gồm vấn đề thích ứng hoặc xác định quá trình xử lý đầu vào. Đó là sản phẩm của một vài công ty phục vụ cho cả những cơ sở thu băng chuyên nghiệp và người tiêu dùng, cho một vài kênh truyền hình, bao gồm âm thanh đa kênh trong truyền hình và tuyền quảng bá truyền hình số độ phân giải cao (HDTV). 1.13. HỆ THỐNG VIDEO SỐ Những hệ thống video số cũng yêu cầu các tiêu chuẩn cùng loại. Một vài hệ thống video số thường xác định rõ việc lấy mẫu trực tiếp của dạng sóng analog tổng hợp, đây là hệ thống số tổng hợp. Những hệ thống khác thao tác trực tiếp với các tính hiệu RGB và tránh được quá trình xử lý màu tổng hợp. Đây được gọi là các hệ thống số thành phần. Việc xử lý một hệ thống tương tự tổng hợp có liên quan đế sự dung hòa về chất lượng của tính hiệu, điều này cũng không thể thiếu được đối với quá trình số hoá, trong khi các hệ thống thành phần lại tránh được sự dung hòa này ngay từ đầu cho nên chất lượng hình ảnh cao hơn. Dưới đây là một vài nét khái quát về hệ thống video số. 1.13.1. Hệ thống số tổng hợp Trong một hệ thống số tổng hợp, tín hiệu NTSC hay PAL được tạo ra bình thường như trong một thiết bị tương tự, và quá trình chuyển đổi A/D được thực hiện trên tín hiệu đơn này. Do ở các tín hiệu này, sóng mang màu là một thành phần có năng lượng cao và biên độ cũng như pha của nó phải được tái tạo một cách chính 31
- Chương 1: Đại cương về tín hiệu audio và video xác nên thường phải sử dụng tần số lấy mẫu đồng bộ với sóng mang màu. Hầu hết các hệ thống đều đồng bộ với clock lấy mẫu 3× hoặc 4× sóng mang, với 8 bit trên mẫu. Nó đưa ra tốc độ dữ liệu như trong bảng 1.5. Tiêu chuẩn fs (KHz) Bit/mẫu Tốc độ dữ liệu Mb/s NTSC 3f 8 85.9 SC NTSC 4 f 8 114.5 SC PAL 3 fSC 8 106.3 PAL 4 fSC 8 141.8 Bảng 1.5. Các thông số lấy mẫu của các hệ thống số tổng hợp Một vài hệ thống số tổng hợp xử lý các tín hiệu nhằm thay đổi bộ mã hóa, di chuyển khoảng xóa dòng-mành, hoặc tạo ra một số thay đổi khác tận dụng triệt để các thế mạnh của kỹ thuật số. 1.13.2. Hệ thống số thành phần Trong hệ thống số thành phần, ba thành phần màu độc lập sẽ được số hóa ở tần số lấy mẫu, gần bằng như tần số lấy mẫu ở hệ thống tổng hợp. Vì vậy, tốc độ dòng số ở hệ thống số thành phần sẽ cao hơn tốc độ dòng số ở hệ thống tổng hợp. Ngay từ khi hệ thống truyền hình số ra đời, ủy ban tư vấn quốc tế về thông tin vô tuyến (CCIR) và ngày nay là liên đoàn viễn thông quốc tế (ITU) đảm nhận trách nhiệm thiết lập các tiêu chuẩn định dạng lấy mẫu tín hiệu video số thành phần. Để thuận tiện trong quá trình trao đổi quốc tế, các tín hiệu truyền hình số, tần số lấy mẫu được quy ước là không có mối quan hệ nào với tần số sóng mang trong các hệ thống tương tự. Đây là sự lựa chọn hợp lý từ thực tế là các hệ thống thành phần không có sóng mang màu. Tần số được lựa chọn là 13,5Mhz, những biến thể của nó sẽ được giải thích trong phần 2.3.3. Tiêu chuẩn ITU, còn gọi là ITU-R BT cũng hướng dẫn cách sử dụng các thành phần màu khác nhau ở hệ PAL hay NTSC để có thể giảm độ rộng band tần và được lấy mẫu là ước số của tần số lấy mẫu cơ bản. Đây được gọi là lấy mẫu con màu và có thể xảy ra với hệ số chia 2:1 hoặc 4:1 dưới tần số cơ bản (13,5Mhz). Tất nhiên, lấy mẫu con cũng có nghĩa là phải giảm độ rộng band tần của màu sắc, điều này lại trái với yêu cầu quá trình xử lý thành phần. Song, lấy mẫu con với tỉ lệ 2:1 vẫn được sử dụng rộng rãi. Một thiết kế đơn giản của ITU-601 đã xác định: 4:4:4 lấy mẫu toàn bộ các thành phần R,G,B 32
- Chương 1: Đại cương về tín hiệu audio và video 4:2:2 lấy mẫu con theo dòng với tỉ lệ 2:1 R-Y, B-Y 4:1:1 lấy mẫu con theo dòng với tỉ lệ 4:1 R-Y, B-Y 4:2:0 lấy mẫu con theo dòng và theo cột với tỉ lệ 2:1 R-Y, B-Y Lưu ý rằng các thành phần màu sắc khác nhau là R-Y và B-Y. Để đơn giản, định dạng này thường được viết dưới dạng YUV hoặc YCrCb, bảng 1.6 đưa ra tốc độ dữ liệu của những sự lựa chọn mẫu này. 1.13.3. Các tiêu chuẩn đĩa số Tín hiệu hình ảnh được ghi trên CD-ROM bằng cách sử dụng một số phương pháp nén dữ liệu lớn. Vì vậy, chất lượng hình ảnh giảm rất nghiêm trọng và không thể chấp nhận được đối với một hệ thống chuyên nghiệp. Tuy nhiên, cùng với sự phát triển của định dạng DVD dựa vào công nghệ ghi đĩa quang tương tự như CD- ROM, chất lượng hình ảnh đang được cải thiện dần. Các DVD làm tăng mật độ ghi từ 650 MB như dung lượng một mặt của CD- ROM lên 4,7GB. Điều này, kết hợp với định dạng hai mặt, hai lớp, cho phép ghi tới 17GB trên một đĩa đơn 12cm. Sử dụng kỹ thuật nén MPEG-2, các chỉ tiêu kỹ thuật của video tương ứng với chỉ tiêu ghi hình của hệ NTSC và PAL sẽ nhận được với thời gian đọc là 1 giờ/một mặt hoặc lớp. Nó tương đương với tốc đọ nén dữ liệu là 10Mb/s. Giống như đĩa CD-ROM, DVD là đĩa chỉ đọc, hoặc tối đa chỉ để ghi một lần. Vì vậy, nó rất hữu ích cho việc phân phối chương trình nhưng lại không thể thay thế được định dạng băng từ để phục vụ cho việc ghi và đọc thông thường. 1.14. AUDIO SỐ Đĩa CD là một trong những ứng dụng đầu tiên của công nghệ audio số. Nó đã chiếm lĩnh thị trường băng đĩa thu âm và tạo ra bước đột phá của máy tính cá nhân thông qua ổ đĩa CD-ROM và một vài ứng dụng khác. 1.14.1. Đĩa compact (CD) Công nghệ ghi đĩa quang được phát triển vào những năm 70 và xuất hiện lần đầu tiên ở dạng analog là đĩa hình laser (LVD). Sản phẩm này chưa bao giờ xuất hiện trên thị trường tiêu dùng nhưng lại đóng một vai trò rất quan trọng trong lĩnh vực giáo dục và đào tạo. Vì trong lĩnh vực này khả năng truy cập ngẫu nhiên của đĩa ghi phù hợp hơn băng ghi. Đĩa CD, được Sony và Philip phát triển và giới thiệu vào đầu những năm 80, vẫn áp dụng công nghệ LVD để ghi số trên đĩa nhựa có kích thước 12cm. Ở đây chúng ta chỉ đề cập đến các thông số lấy mẫu. Sự lựa chọn các tiêu chuẩn của CD cho audio số (CD-DA) phải đảm bảo yêu cầu về chất lượng, độ rộng band tần ít nhất 33
- Chương 1: Đại cương về tín hiệu audio và video là 18KHz và SNR phải lớn hơn 90 đồng bộ, chuyển sang tần số lấy mẫu là 44,1KHz và 16 bit/mẫu, mã hóa sử dụng điều chế xung mã (PCM) và không có nén. Mã hóa kênh để chống lỗi bao gồm mã khối Reed-Solomon và chèn mã. Tiêu chuẩn CD-DA đã cho ra đời một hệ thống tương đối mạnh nhưng chỉ dùng để đọc. Nhờ sự tiến bộ của kỹ thuật số, giá thành mọi thiết bị với đầy đủ các tính năng kỹ thuật đã giảm đáng kể. 1.14.2. Băng âm thanh số Tiếp theo những thành công của đĩa chuyển đổi, một hệ thống băng từ đã được phát triển và tạo ra một hệ thống có khả năng ghi đọc phối hợp các chỉ tiêu của đĩa CD. Đây chính là băng âm thanh số. DAT được sử dụng trước tiên trong lĩnh vực thu âm chuyên nghiệp hoặc được sử dụng để lưu trữ dữ liệu trong máy vi tính cá nhân, nó có khả năng lưu trữ với dung lượng trên 4 GB. 1.14.3. Âm thanh trong PC Máy tính cá nhân có khả năng lưu trữ và xử lý bất cứ tín hiệu thuộc về kỹ thuật số. Do vậy, xử lý âm thanh số với các PC là một điều hoàn toàn tự nhiên. Những PC trước đây không có phần cứng (A/D và D/A) để xử lý các âm thanh analog chất lượng cao tại card âm thanh. Ngày nay, mọi PC đều có card âm thanh. Tuy nhiên, dữ liệu được tạo ra theo tiêu chuẩn CD-DA (9MB/phút) là quá nhiều cho khả năng lưu trữ của hầu hết các PC, do vậy các tiêu chuẩn âm thanh đặc biệt của PC đã được xây dựng để cho phép điều chỉnh chất lượng âm thanh phù hợp với kích cỡ của dữ liệu ở một vài cấp độ. Tiêu chuẩn thấp nhất đưa ra có tần số lấy mẫu là 11,05 KHz ở 8bit/mẫu, nó chỉ phù hợp với lời nói sử dụng tốc độ dữ liệu ở 0,66 MB/phút. Tần số lấy mẫu và số bit/mẫu được nhân đôi khi áp dụng cho âm nhạc. Tiêu chuẩn này cũng có thể dùng cho âm thanh nổi (stereo) với tốc độ dữ liệu lên tới 4,5 MB/phút. Các tiêu chuẩn audio cho PC cũng bao gồm phần nén, dựa trên thuật toán AD- PCM. Thuật toán AD-PCM có thể giảm tốc độ dữ liệu đi 4 lần trong khi chất lượng giảm không đáng kể. Cần lưu ý là, đặc điểm phi cấu trúc của một tín hiệu audio sẽ đưa ra khả năng nén dữ liệu ít hơn nhiều so với tín hiệu video. 1.14.4. Tổng hợp nhạc Có hai yêu cầu khác nhau cho các bộ tổng hợp. Mục đích thứ nhất là tái tạo các dụng cụ phát âm ở mức chuẩn nhất có thể, hai là tạo ra những âm thanh mới và kỳ lạ không có trong tự nhiên. Cả hai mục đích này đều quan trọng như nhau. Phương pháp tốt nhất để tổng hợp âm thanh tự nhiên như là âm thanh của các bộ khí cụ nhạc được gọi là bộ tổng hợp sóng âm. Ở phương pháp này, các nhạc cụ 34
- Chương 1: Đại cương về tín hiệu audio và video được lấy mẫu theo kỹ thuật số, đọc mỗi lần một nốt, thường chỉ ở một vài điểm trên phạm vi tần số của nhạc cụ đó. Những mẫu này được lưu trữ trong bộ nhớ của bộ tổng hợp và khi một nốt nhạc được đọc, mẫu gần nhất được chọn từ bộ nhớ sẽ dịch chuyển tần số nhờ quá trình xử lý số, ở một hệ thống được thiết kế hoàn chỉnh, âm tổng hợp sẽ rất trung thực. Có rất nhiều loại hình tổng hợp khác nhau, tuy nhiên loại hình được sử dụng nhiều nhất là tổng hợp FM, ở loại hình này FM sẽ là biến điệu tần số. Nguyên lý của phương pháp này là một hoặc nhiều bộ dao động có tần số bị biến điệu bởi tần số khác để tạo ra phổ của dải band tần. Phổ này sẽ được lọc để tạo nên âm thanh ở đầu ra. Âm thanh được tổng hợp theo loại hình này rất mềm dẻo. Tuy nhiên, việc lập chương trình cho âm thanh là rất phức tạp và không thuộc về lĩnh vực trực giác ngay cả đối với nhạc sĩ. Song, nó vẫn phổ biến nhờ khả năng truyền tải nhiều tính năng ở mức giá thấp. Dù vậy, nó cũng không tốt bằng quá trình lấy mẫu để tổng hợp âm thanh thực của nhạc cụ. 1.15. AUDIO ĐA KÊNH Hai hoặc nhiều kênh mô phỏng những âm thanh từ cùng một nguồn với cùng sự phân bổ không gian tạo ra những âm thanh gần với thực tiễn hơn vì người nghe có thể thụ cảm được tính có hướng của âm thanh. Mặc dù nhiều thiết bị đa hợp các kênh audio để phù hợp cho ghi hoặc phân bổ nhưng mục đích thường vẫn là giữ cho các kênh độc lập với nhau chỉ với việc trộn kênh xảy ra trong không gian, nơi âm thanh được thu. Với cách này, cảm giác như ở trong một khoảng không gian thật sẽ tăng lên rõ rệt. Audio hai kênh được gọi là âm thanh nổi. Nó được sử dụng rộng rãi trong quá trình ghi và quảng bá cả phát thanh lẫn truyền hình. Các kênh được gọi là trái (L) và phải (R) tương ứng với vị trí của loa. Cảm giác âm thanh như trong không gian thực có thể tăng lên khi cho thêm một hoặc vài kênh mô phỏng phát âm ở phía sau người nghe. Đây là nguyên lý của âm vòm, được sử dụng rộng rãi trong khi chiếu phim và đã nhanh chóng được áp dụng ở HDTV số. Hệ thống này cung cấp “5.1” kênh, với 5 kênh có độ rộng band tần lớn nhất và một kênh dùng loa lợi trầm phụ. Một vài máy thu TV cung cấp âm vòng mô phỏng rất hiệu quả ngay cả khi truyền hình chỉ phát bằng âm nổi. 35
- Chương 2: Số hoá tín hiệu audio và video Chương 2 SỐ HÓA TÍN HIỆU AUDIO VÀ VIDEO 2.1 GIỚI THIỆU Hầu hết các tín hiệu audio và video tự nhiên là ở dạng tương tự, nhưng hầu hết các thiết bị lưu trữ và truyền tải tín hiệu hiện nay được thực hiện dựa trên phương thức số, cho nên chuyển đổi tín hiệu tương tự sang số là một một yêu cầu cần thiết. Chất lượng tín hiệu tối đa của một hệ thống audio và video số hầu như được quyết định toàn bộ ở bộ chuyển đổi tương tự sang số ADC. Còn các phần tử khác trong hệ thống số có thể có khả năng tái tạo lại một hoàn hảo tín hiệu nhưng không thể cải thiện được chất lượng hình ảnh và âm thanh tốt hơn tín hiệu số hóa sau bộ ADC. Hiểu được đầy đủ những hạn chế của bộ ADC là rất quan trọng trong việc thiết kế và sử dụng các hệ thống số và đây cũng là mục đích của chương này. 2.2. CÁC BƯỚC CỦA ADC Các bước chuyển đổi bao gồm quá trìn lọc trước để loại bỏ những tần số quá cao không thể số hóa được tại đầu vào, quá trình lấy mẫu dùng để rời rạc hóa tín hiệu theo thời gian, quá trình lượng tử hóa để chuyển biên độ tín hiệu tương tự sang dạng số, và cuối cùng là quá trình mã hóa để chỉ rõ cách thức biểu diễn của các giá trị số. Mỗi một quá trình này được đề cập trong các phần dưới đây. Ở phần cuối của một hệ thống số, tín hiệu anolog ban đầu sẽ được phục hồi từ chuỗi các mẫu nhờ bộ chuyển đổi số sang tương tự, bộ ADC có nhiệm vụ chuyển các mẫu thành các xung điều chế biên độ, sau đó bộ lọc thông thấp loại bỏ các thành phần ở tần số lấy mẫu cao hơn. Tín hiệu Tín hiệu analog digital Lượng Tiền lọc Lấy mẫu tử hóa Mã hóa 0111 0110 0101 0100 0011 0010 0001 0000 Hình 2.1. Sơ đồ khối ADC 36
- Chương 2: Số hoá tín hiệu audio và video Như trên hình 2.1, trình bày một sơ đồ khối khái quát của khối ADC, quá trình lấy mẫu và lượng tử hóa làm việc dựa trên các đặc tính trực giao của tín hiệu (thời gian và biên độ), điều này có nghĩa là chúng độc lập với nhau. Vì vậy, cả hai bước này có thể được thực hiện theo cả hai trật tự, tức là có thể lượng tử hóa trước thay bằng cách lấy mẫu trước như trong hình. 2.2.1. Tiền lọc và lấy mẫu Lấy mẫu là quá trình đọc các giá trị của tín hiệu tương tự theo chu kỳ xác định. Thông thường các mẫu có xu hướng nhất thời, có nghĩa là mẫu được lấy trong khoảng thời gian ngắn hơn chu kỳ của tần số lấy mẫu. Độ rộng của một mẫu là số phần trăm của chu kỳ tần số lấy mẫu, trên chu kỳ này mẫu được lấy trung bình. Đầu ra của quá trình lấy mẫu là một chuỗi các giá trị tương tự (các mẫu) tương ứng với các điểm ở dạng sóng, nơi diễn ra quá trình lấy mẫu. Nó thường là các dạng xung ở tần số lấy mẫu, và biên độ của tần số lấy mẫu biểu thị các giá trị của mẫu. Tần số lấy mẫu cao Tần số lấy mẫu theo Nyquist Tần số lấy mẫu thấp Hình 2.2. Giới hạn tần số lấy mẫu Quá trình lấy mẫu được thực hiện ở một tần số ổn định, fS là tần số lấy mẫu. Theo lý thuyết lấy mẫu, tần số lấy mẫu phải cao, đủ để tạo được các thành phần tần số cần thiết cao nhất của sóng đầu vào. Theo tiêu chuẩn Nyquist thì tần số lấy mẫu được xác định bởi: fS ≥ 2 fMAX Trong đó: fMAX là tần số cao nhất phải được tạo ra. Việc lọc đầu vào được sử dụng để đảm bảo sẽ không có các thành phần tần số nào cao hơn fMAX. Bởi vì các bộ lọc dốc nhọn thực tế thường mắc phải một số khó 37
- Chương 2: Số hoá tín hiệu audio và video khăn nên fS được thiết lập phần nào cao hơn tiêu chuẩn Nyquist. Lấy mẫu ở 2,2 đến 2,5fH là thông dụng nhất. Một vài hệ thống lấy mẫu với tần số cao hơn nhiều được gọi là lấy mẫu tần cao sẽ bàn đến trong phần 2.3.1 Dải tần cơ bản của video fs 2fs Tần số lấy mẫu cao fs 2fs Tần số lấy mẫu theo Nyquist Chồng phổ fs 2fs Tần số lấy mẫu thấp Hình 2.3. Phổ lấy mẫu Ví dụ trên hình 2.2, trình bày quá trình lấy mẫu dưới, trên và tại tần số của tiêu chuẩn Nyquist. Nội dung của một chuỗi mẫu có thể được xác định bằng cách nối các đỉnh mẫu theo một đường thẳng. Hình 2.2 cũng chỉ ra rằng các mẫu tạo ra tần số tín hiệu chính xác cho đến khi tần số tín hiệu vượt quá 1,5 tần số lấy mẫu. Ở điểm này, tần số đầu ra sẽ tạo nên sự khác nhau giữa tần số lấy mẫu và tần số tín hiệu. Đây là một kết quả sai và ngoài mong muốn được gọi là hiện tượng chồng phổ. Mức độ thiệt hại của nó phụ thuộc vào ứng dụng. Ví dụ trong các hệ thống audio, tần số chồng phổ được coi như là những tần số không liên quan và vì vậy có thể loại bỏ. Còn đối với video, chồng phổ gây ra các hình trên ảnh được tạo có thể thiệt hại hoặc không. Tiêu chuẩn Nyquist cũng có thể được quan sát trên miền tần số. Một chuỗi các mẫu có thể được coi như là một hàm xung định kỳ ở tần số lấy mẫu mà biên độ của nó được điều chế bởi các giá trị lấy mẫu. Phổ của một xung định kỳ bao gồm một thành phần tần số lấy mẫu cộng với các thành phần cân bằng biên độ ở tần số lặp lại và các sóng hài của nó. Mỗi một thành phần có dải band tần biểu thị sự điều chế bằng các tần số tín hiệu biểu diễn trên hình 2.3 với ba điều kiện ứng với hình 2.2. Chồng phổ xảy ra khi dải band tần của thành phần tần số lấy mẫu chồng lên dải band tần của thành phần tần số lấy mẫu bằng 0. Nếu hiện tượng chồng xảy ra sẽ 38
- Chương 2: Số hoá tín hiệu audio và video không có cách nào để loại bỏ nó sau khi lấy mẫu, phải ngăn chặn ngay từ quá trình tiền lọc đầu vào. Từ hình vẽ ta nhận thấy, có thể xảy ra hiện tượng chồng lắp bất cứ khi nào tần số tín hiệu tối đa cao hơn 1,5 lần tần số lấy mẫu, vì vậy đây chỉ là một cách biểu thị khác của tiêu chuẩn Nyquist. Khi cần thiết phải xử lý các tần số tín hiệu ở gần giới hạn Nyquist, yêu cầu đặt ra cho bộ lọc đầu vào trở nên khó khăn. Như trên hình 2.3b, độ dốc của bộ lọc phải nhọn để tránh xảy ra hiện tượng méo tín hiệu cần thiết trong quá trình khử các tần số gây chồng phổ. 2.2.1.1 Quá trình lấy mẫu trong mảng hai chiều Sóng video analog thu được từ quá trình quét sẽ được lấy mẫu theo từng dòng quét. Quá trình lấy mẫu này trong bộ ADC biển diễn một mảng hai chiều (chi tiết dòng). Nó có thể được quan sát trong giới hạn của ảnh như chỉ ra trong hình 2.4. Để tránh nhiễu, tần số lấy mẫu thường được đồng bộ với tần số quét dòng. Nếu đây là một mối quan hệ có tính chính xác thì quá trình lấy mẫu sẽ xảy ra tại các điểm giống nhau trong mỗi dòng (còn gọi là lấy mẫu trực giao) như hình 2.4a. Hình 2.4a minh họa quá trình lấy mẫu quincunx, quá trình này được thực hiện bằng cách lấy tần số lấy mẫu là một bội số lẽ của hai lần tần số quét dòng. Các ảnh trong quá trình lấy mẫu khác nhau có thể xảy ra với những mối quan hệ phức tạp hơn, và trên ảnh sẽ xuất hiện hiện tượng nhiễu nhiều hơn. Trực giao quincunx Hình 2.4. Mô hình lấy mẫu không gian Quá trình lấy mẫu quincunx có nhiều ưu điểm do tạo ra độ phân giải cao ở mọi hướng, nhưng lại không được sử dụng nhiều bởi ví nó làm cho quá trình xử lý số của các tín hiệu trở nên khó khăn hơn. 2.2.1.2 Hiện tượng chồng phổ trong mảng hai chiều 39
- Chương 2: Số hoá tín hiệu audio và video Hình 2.5 biểu diễn dạng của chồng phổ trên một đường chéo đen với nền màu trắng. Hình 2.5a biểu diễn một đường ảnh bị che bởi một hình lấy mẫu trực giao, và Hình 2.5b biểu diễn kết quả lấy mẫu khi đầu ra chỉ dựa vào màu sắc (đen hay trắng) tại thời điểm lấy mẫu. Đây là dòng nhọn quen thuộc thường xuất hiện trên màn hình máy tính khi hiển thị các dòng kề ngang, kề dọc hoặc các biên. Hình 2.5. Hiện tượng chồng phổ Hình 2.5c biểu diễn hiệu ứng của hiện tượng tránh chồng phổ, tại đó các giá trị của đầu ra được dựa vào số lượng của các vùng lấy mẫu chứa dòng (một hình chữ nhật biểu thị ở chu kỳ lấy mẫu sẽ cộng ra trong mỗi mảng và đưa về trung tâm của điểm lấy mẫu). Nếu hình ảnh được quan sát từ khoảng cách xa thì người ta có thể nhận thấy dòng được tránh chồng phổ dễ chịu hơn các các dòng nhọn. Khi sử dụng một bộ lọc đặt trước bộ lấy mẫu, thì kết quả cho như hình 2.5c. Từ khi bộ lọc loại bỏ các thành phần tần số trên giới hạn Nyquist, thì các biên của dạng sóng tín hiệu sẽ bị dốc tại điểm thời gian tăng lên xấp xỉ bằng một chu kỳ lấy mẫu. Quá trình lấy mẫu tức thời của biên dốc này sẽ tự động tạo ra các biên độ trung gian chính xác cho các điểm ảnh tại các biên của ảnh. 2.2.1.3 Độ rộng lấy mẫu Việc lấy trung bình giá trị các mẫu trên phần trăm có nghĩa của chu kỳ lấy mẫu gây ra sự giảm sút biên độ mẫu ở những tần số cao, như đã chỉ ra trong hình 2.6. Phạm vi lấy mẫu được biểu thị bằng vùng bóng trên hình, việc lấy trung bình trên độ rộng này cho ra các giá trị được biểu diễn bằng dòng chấm, giá trị này nhỏ hơn các giá trị được đọc bởi mẫu tức thì lấy tại đỉnh của sóng tín hiệu. Đây được gọi là hiệu ứng góc mở, nó xảy ra trong nhiều quá trình xử lý video. 40
- Chương 2: Số hoá tín hiệu audio và video Độ rộng mẫu Giá trị trung bình Hình 2.6. Độ rộng mẫu Trên thực tế, độ giảm có dạng sin(x)/x và được biểu thị trên hình 2.7. Tham số độ rộng W là số phần trăm của chu kỳ lấy mẫu. Độ giảm này có ý nghĩa đối với độ rộng mẫu cực đại (W=100), tại giới hạn Nyquist, đặc tuyến giảm xuống còn 63,6%. Tuy nhiên, hình 2.7 chỉ ra rằng độ rộng của mẫu ít hơn 20% có thể được bỏ qua. W=20 i đố W=50 ng ươ n t W=100 Đặ c tuy ế 0.6 0.7 0.8 0.9 1.0 1.0 0.9 0.8 0.7 0.6 0 10 20 30 40 50 Tần số (phần trăm của fs) Hình 2.7. Lấy mẫu hiệu ứng góc mở 2.2.1.4. Mẫu và lưu trữ Khi thực hiện quá trình lấy mẫu trước khi lượng tử hóa, người ta thường sử dụng một mạch lấy mẫu và lưu trữ các giá trị mẫu trong một thời gian đủ để bộ lượng tử hóa thực hiện chức năng của mình. Mạch này, như trên hình 2.8, thu mẫu bằng cách đóng mạch trong một thời gian ngắn để nạp các giá trị cả mẫu cho tụ. Khi mạch hở, tụ sẽ lưu giá trị của mẫu cho đến khi có xung lấy mẫu tiếp theo. Vì vậy, các mạch của bộ lượng tử gần như có được toàn bộ chu kỳ của tần số lấy mẫu để hoạt động đúng logic của mình. 41
- Chương 2: Số hoá tín hiệu audio và video Tín hiệu tương tự Mẫu và giữ đầura Xung lấy mẫu Hình 2.8. Mạch lấy mẫu và lưu trữ 2.2.2 Lượng tử hóa Lượng tử hóa là quá trình chuyển đổi một vùng liên tục của các giá trị tương tự thành một bộ giới hạn các giá trị rời rạc. Với định nghĩa này, quá trình lấy mẫu có thể được coi như là lượng tử hóa theo trục thời gian bởi vì các mẫu biểu thị các giá trị tín hiệu chỉ ở các thời điểm thời gian rời rạc nơi diễn ra quá trình lấy mẫu. Tất cả các giá trị tín đầu vào giữa các điểm lấy mẫu đều bị loại bỏ trong quá trình lấy mẫu. Như mô tả trong hình 2.5, quá trình lượng tử hóa theo thời gian này sẽ gây ra hiện tượng nhiễu, biểu thị bằng các đường răng cưa. Dù vậy, thuật ngữ lượng tử hóa vẫn được sử dụng rộng rãi với ý nghĩa tạo ra tín hiệu rời rạc chỉ với trục biên độ. Đây cũng là cách hiểu về lượng tử hóa trong cuốn sách này. Tín hiệu thoải Mức luợng tử Hình 2.9. Lượng tử hóa: a) phạm vi biên độ chia thành lượng tử, b) tín hiệu đã được lượng tử hóa, c) lỗi lượng tử hóa Đầu ra của bộ lấy mẫu là một chuỗi xung rời rạc theo thời gian, nhưng biên độ vẫn liên tục. Các giá trị biên độ phải được lượng tử hóa để nó có thể biểu thị dưới dạng số trong một số bit xác định. Hình 2.9 biểu diễn hiệu ứng lượng tử hóa, không lấy mẫu. Hình 2.9a chỉ rõ, dải biên độ được chia ra thành từng vùng và bộ lượng tử áp dụng cùng giá trị với bất kỳ biên độ nào trong phạm vi mỗi vùng. Do vậy, với một đầu vào tuyến tính, đầu ra của bộ lượng tử sẽ thực hiện từng bước tuần tự từ 42
- Chương 2: Số hoá tín hiệu audio và video một giá trị lượng tử tới giá trị tiếp theo. Tất cả các giá trị trung gian của tín hiệu đầu vào bị mất. Ví dụ này là lượng tử hoá tuyến tính bởi vì tất cả các giá trị lượng tử có cùng kích thước. Đối với lượng tử hóa, số lượng N bit trên một mẫu thì số mức lượng tử hoặc giá trị lượng tử sẽ là (2N), được chọn đủ lớn để không nhận thấy hay nghe thấy tính rời rạc của các mức. Giá trị cơ bản là 8bit/mẫu cho tín hiệu video và 16 bit/mẫu cho audio, mặc dù các giá trị khác có thể được sử dụng trong những trường hợp đặc biệt. Bản chất sai số lượng tử có thể được quan sát trên hình 2.9c. Lỗi này là sự khác nhau giữa tín hiệu dốc thoải trong hình 2.9a và dạng bậc thang trong hình 2.9b, nó có dạng răng cưa mà biên độ đỉnh-đỉnh của nó chính là độ rộng Q của một mức lượng tử. Chú ý rằng, sai số này sẽ giảm tuyến tính khi tăng số mức lượng tử. 2.2.2.1 Các mạch của bộ lượng tử Các bộ lượng tử được thiết kế dựa vào mạch bộ so, bộ này so sánh giá trị tín hiệu của đầu vào với mức điện áp chuẩn. Nó phát ra tín hiệu số bằng 0 khi giá trị tín hiệu nhỏ hơn giá trị chuẩn, và bằng 1 khi giá trị tín hiệu trên mức chuẩn. Giá trị chuẩn này đôi khi còn được gọi là ngưỡng của bộ so. Các bộ so phải rất ổn định, chính xác (ở phía đầu vào, đây là các bộ so sánh tương tự) và phải ngắt từ 0 đến 1 đối với sự thay đổi rất nhỏ của các giá trị đầu vào Hình 2.10 chỉ ra cách nối bộ so được sử dụng cho lượng tử hoá. Trên mỗi mức giá trị lượng tử của một bộ so, tín hiệu đầu vào được sử dụng cho tất cả các bộ so, một thang điện trở sẽ thiết lập các giá trị chuẩn của mỗi bộ so tới một mức cao hơn. Bởi vì phương pháp này lấy 2N bộ so, nó chỉ thực hiện với khoảng N= 8 đến 10 bit (tất nhiên tất cả các bộ so đều được tích hợp trong IC). Có 2N đầu ra từ thang bộ so như trong hình 2.10, toàn bộ đầu ra là 1 cho đến tận mức giá trị lượng tử của tín hiệu đầu vào và sẽ bằng 0 khi mức giá trị lượng tử cao hơn. Cần thêm vào một bộ logic nhằm giảm số đầu ra từ các bộ so còn N đầu ra. Bộ logic này gọi là bộ mã hóa ưu tiên và nó được tích hợp trong IC ADC. Kiến trúc của bộ so trên hình 2.10 thực hiện lượng tử hoá trước quá trình lấy mẫu, quá trình lấy mẫu xảy ra trong bộ mã hóa ưu tiên. Đây được gọi là một ADC tốc độ cao, một trong những loại ADC nhanh nhất. Những kiến trúc khác được sử dụng trong các bộ lượng tử khoảng hơn 10 bit do số bộ so cho một ADC tốc độ cao không hoạt động được. Một phương pháp phổ biến hơn là sử dụng bộ lượng tử xấp xỉ liên tục, nó chỉ có một bộ so dùng để so sánh điện áp đầu ra với điện áp đầu vào của bộ DAC. Tín hiệu số vào bộ DAC được điều chỉnh bởi vòng hồi tiếp cho đến khi đầu ra của bộ so có giá trị bằng 0. Vì vậy, tín hiệu tại đầu ra bộ DAC trở thành tín hiệu đầu vào bộ ADC. Phương pháp này rất 43
- Chương 2: Số hoá tín hiệu audio và video chính xác với số bit cao (ví dụ, N= 16) nhưng lại rất chậm do vòng hồi tiếp phải đi qua N phép lặp để đạt tới giá trị đầu ra cho mỗi mẫu. Nó vẫn có thể đủ độ áp dụng cho audio nhưng không dùng được cho video. Bộ so sánh fs 255 VREF D7 255 D6 D5 . . . . . . . . . . . Ngắt Bộ 8 bit D4 mã hoá Bộ chia biên độ chẳn lẽ D3 255 D2 + Đầu vào _ D1 analog 255 D0 255 255 Hình 2.10. ADC tốc độ cao 2.2.2.2. Thiết lập phạm vi biên độ Một bộ lượng tử không thể cung cấp đầu ra cao hơn (hoặc thấp hơn) đầu ra được xác định bởi giới hạn của phạm vi mức lượng tử. Nếu như tín hiệu đầu vào vượt quá phạm vi này, thì các giá trị đầu ra phải bão hòa tại giá trị tối đa (hoặc tối thiểu). Trong thuật ngữ của hệ thống analog, được gọi là xén, nó biểu thị hiện tượng méo nghiêm trọng cần phải tránh. Sẽ có thể phải tạo ra mạch vào phụ bởi vì hầu hết các thiết bị số chỉ đơn giản là chuyển đổi chu kỳ đến giá trị bằng không khi vượt quá giá trị số tối đa, điều này thậm chí còn tệ hại hơn cả hiện tượng bão hòa. Do sự điều khiển tín hiệu không bao giờ chính xác tuyệt đối nên hầu hết các tiêu chuẩn số hóa đều cho rằng các mức tín hiệu phải được thiết lập để không phải sử dụng hết phạm vi lượng tử. Điều này cho phép bỏ qua lượng giảm nhỏ này. Ví dụ hình 2.11 đưa ra các tiêu chuẩn mức cho số hóa tổng hợp là SMPTE 224M và số hóa thành phần SMPTE 253M. Cần lưu ý rằng trong hầu hết các mạch video, mức 44
- Chương 2: Số hoá tín hiệu audio và video chích xác của đỉnh đồng bộ hoặc mức đen của ảnh sẽ xê dịch xung quanh độ chói trung bình của ảnh bởi vì thành phần DC của tín hiệu không xuất hiện trong mạch. Để duy trì đỉnh đồng bộ hoặc mức đen của tín hiệu ở một mức số xác định, thành phần DC phải được lưu trữ ở trong ADC, điều này được thực hiện nhờ ghim mức tín hiệu. Đây đơn giản chỉ là một mạch điều khiển mức đỉnh đồng bộ hoặc mức đen của ảnh và điều chỉnh hệ thống giữ được mức ổn định này. 255 Đỉnh mức 200 trắng Mức đen 60 Bust màu Xung 0 đồng bộ Tín hiệu hình Khoảng trên dòng xóa dòng Hình 2.11. Các mức lượng tử tín hiệu video SMPTE 244M NTSC tổng hợp Trong trường hợp số hóa tín hiệu audio, hiệu ứng thụ cảm do quá trình xén thậm chí còn kém hơn ở tín hiệu video, và các mức audio khó điều khiển hơn. Kết quả là, các hệ thống audio số thường sử dụng các mức điều khiển tự động hoặc các phương tiện hạn chế để tránh xảy ra hiện tượng tràn, và chúng vẫn có thể hoạt động được khi sử dụng biên bảo vệ là 3dB hoặc hơn nữa. Khi các tín hiệu audio không có thành phần DC thì không cần thiết phải sử dụng quá trình ghim. 2.2.2.3. Tỷ lệ SNR Khi tín hiệu chiếm hết dải lượng tử, sai số lượng tử có thể được coi như tạp âm lẫn vào tín hiệu ở đó tạp âm là ngẫu nhiên với giá trị đỉnh-đỉnh (p-p) của một bước lượng tử và là một hàm mật độ xác suất đồng nhất (pdf). Tỉ lệ tín hiệu trên tạp âm (SNR) có thể xác định một cách đơn giản đối với trường hợp tín hiệu là sóng sin nhờ phép phân tích sau đây: Giả sử một tín hiệu hình sin chiếm hết dải lượng tử có L mức (L=2N, trong đó N là số bit/mẫu). Khi sai số lượng tử có giá trị p-p của một mức lượng tử hoặc 1/L, SNR dựa trên các giá trị p-p bằng L. Nếu sử dụng cho audio, SNR được xác định là tỷ số rms của tín hiệu trên rms của tập âm, và phân tích trên sẽ đúng chỉ khi tỷ số p- p trên rms của tín hiệu và tạp âm là như nhau, nhưng điều này lại không xảy ra. Đối với một tín hiệu sóng sin, giá trị rms là 0,354sp-p, nhưng đối với tạp âm lượng tử (giả 45
- Chương 2: Số hoá tín hiệu audio và video thiết là pdf đồng nhất) sẽ là 0,29Sp-p. Vì vậy, SNR cao hơn L 1,22:1 (1,76 dB) chuyển tất cả sang dB ta có SNR(dB) = 6,02N+1,76 (2.2) Đây là đối với audio, đối với video SNR là tỉ số của p-p của tín hiệu trên rms của tạp âm, vì vậy hệ số 0,354 có thể được loại bỏ. Kết quả đối với video là: SNR(dB) = 6,02N+10,8 (2.3) Biểu thức (2.2) và (2.3) chỉ áp dụng cho trường hợp tín hiệu lớn, chiếm toàn bộ phạm vi lượng tử. Khi tín hiệu nhỏ hơn, hiệu ứng tạp âm lượng tử sẽ tăng lên do tín hiệu chiếm mức lượng tử ít hơn. “Tạp âm” này trở nên phụ thuộc vào tín hiệu, nó chính là méo chứ không phải tạp âm nữa. Đối với audio và cả video, hiện tượng méo tín hiệu thấp với một bộ lượng tử đồng nhất được mô tả trên đây trở nên rất nghiêm trọng và không thể chấp nhận được. Rất may vấn đề này có thể được loại bỏ nhờ sử dụng tín hiệu dither. 2.2.2.4. Lượng tử nhân tạo Ở audio, tạp âm lượng tử hiện rõ trong đoạn mức thấp của rãnh âm, ở đó tạp âm giống như một loại méo “hạt” chứ hoàn toàn không giống như tạp âm ngẫu nhiên. Việc sử dụng dither chuyển hiện tượng méo hạt này thành âm tạp ngẫu nhiên có thể dễ dàng được chấp nhận hơn. Ở video, tạp âm lượng tử có thể được quan sát trên các vùng của ảnh có bóng mờ từ màu này, hoặc độ chói này sang màu khác, hoặc độ chói khác. Chúng ta có thể quan sát được sát các dòng trên ảnh, tại đó giá trị tín hiệu truyền qua từ mức lượng tử này sang mức lượng tử khác. Điều này không rõ rệt nếu sử dụng 8bit/pixel, nhưng rất rõ ràng ở 6 bit hoặc ít hơn trên pixel. Khi có mối tương quan giữa các dòng kề nhau trong ảnh, các bước chuyển lượng tử xuất hiện giống như những đường sóng ở các vùng bị bóng mờ, rất giống như các đường cao ở trên bản đồ địa hình. Từ phép so sánh này, hiện tượng méo như vậy có thể được gọi là méo đường viền. 2.2.2.5. Dither Méo đường viền không đến nỗi quá tồi so với bản chất của nó, bởi vì ảnh gốc cũng đã chứa một vài tạp âm. Hiệu ứng của tạp âm làm gẫy phần ảnh biên, vì rất khó nhìn. Thực tế, hầu hết các ADC đều được đưa vào, một cách có chủ định, một số lượng xác định tạp âm ngẫu nhiên trước khi lượng tử gọi là quá trình dithering và gây ra lỗi lượng tử xuất hiện giống như tạp âm ngẫu nhiên thay bằng các hiệu ứng tín hiệu có liên quan như tạp âm hạt và tạp âm đường viền. Hình 2.12a trình bày một bộ lượng tử không có dither. Hình 2.12b trình bày 46
- Chương 2: Số hoá tín hiệu audio và video cách dither điều chế các mức giá trị lượng tử và hình 2.12c trình bày cách tính trung bình dither làm cho các đặc tính truyền đạt trở nên tuyến tính. Tín hiệu dither phải có biên độ chính xác, và để đạt được kết quả tốt nhất nó phải có một pdf hình tam giác hoặc Gauxơ. Một pdf đồng nhất cũng có thể được sử dụng nhưng như vậy sẽ gây ra tạp âm ở trong tín hiệu điều chế khi mức tín hiệu thay đổi, điều này là ngoài ý muốn. Các pdf hình tam giác hoặc Gauxơ, không gây ra hiện tượng điều chế tạp âm với mức tín hiệu. Hình 2.12d chứng minh điều này. Q Output Output Output P Q P P Q/2 (rms) 2Q Biên độ pdf Biên độ pdf Biên độ pdf đồng nhất tam giác gausesian Hình 2.12. Lượng tử hóa với dither: a) lượng tử, b) lượng tử với dither, c) trung bình của dither, d) các hành phân bố xác suất dither. Dither gây ra tổn hao nhẹ cho SNR, nhưng động thái lượng tử tạp âm được cải thiện là xứng đáng. Ví dụ, dither của pdf hình tam giác yêu cầu một biên độ p-p của hai mức lượng tử, và SNR dựa trên p-p/p-p là: SNR(dB) = 6,02N – 3 (2.4) Tín hiệu đầu vào audio hoặc video có thể có sẵn mức tạp âm cho cùng một kết quả như dither. Tuy nhiên, những tín hiệu này sẽ không tạo ra biên độ tạp âm và pdf tối ưu dưới mọi điều kiện, vì vậy thông thường người ta thêm dither tối ưu hóa riêng cho bộ ADC. 2.2.2.6. Tái lượng tử Đôi khi cần thiết phải giảm số lượng bit/mẫu. Điều này thường xảy ra khi xử lý tín hiệu có liên quan đến pháp nhân bởi quá trình này làm cho số bit/mẫu tăng lên. Cuối quá trình, các mẫu phải được giảm tới số bit/mẫu ban đầu. Nếu điều đó được thực hiện bằng cách bỏ bớt các bit có giá trị nhỏ nhất thì hiệu ứng của dither trong 47
- Chương 2: Số hoá tín hiệu audio và video lượng tử hóa ban đầu bị mất và một lỗi lượng tử mới sẽ được đưa vào. Có thể sửa lỗi này trước tiên bằng cách thực hiện dither số, sau đó làm tròn tới số lượng tử bit cần thiết. Quá trình dithering số đơn giản chỉ là quá trình cộng thêm các bit ngẫu nhiên phù hợp với các bit cần khử. Sau đó quá trình làm tròn diễn ra dựa vào bit có giá trị lớn nhất trong số các bit cần khử. Nếu bit này bằng 0, thì các bit ngoài đã được loại bỏ nhưng nếu nó bằng 1 thì việc làm tròn được thực hiện bằng cách cộng thêm 1 vào các bit còn lại. 2.2.2.7. Lượng tử hoá phi tuyến Như đã đề cập ở trên, méo lượng tử tăng ở mức tín hiệu thấp không chiếm hết phạm vi của bộ lượng tử. Đặc điểm này có thể được khai thác bằng việc tạo ra bộ lượng tử phi tuyến, có nghĩa là sử dụng quá trình lượng tử tinh hơn ở các mức thấp và thô hơn ở gần mức tối đa. Điều này cũng được áp dụng rộng rãi trong hệ thống điện thoại số. Nó giống như quá trình ép giãn tương tự với phạm vi biên độ của tín hiệu được nén trước kênh truyền và giãn sau kênh truyền. Do có sự đồng nhất, lượng tử hóa phi tuyến cũng được gọi là quá trình ép giãn nhằm giữ cho mức tín hiệu trung bình ở kênh cao hơn và vì vậy khả năng chống nhiễu kênh truyền tốt hơn. μ = 255 Output 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 Input Hình 2.13. Lượng tử phi tuyến hàm luật μ Lượng tử hoá phi tuyến sử dụng cho lời thoại trong audio với sối bit /mẫu nhỏ, ví dụ như 8bit/mẫu, được thực hiện trước tiên bằng cách lượng tử số bit/mẫu cao hơn, chẳng hạn như 12bit/mẫu, sau đó sử dụng bảng tra cứu để giảm xuống còn 8 bit phi tuyến. Hình 2.13 trình bày kết quả này. Tất nhiên, phải xác định dạng đường cong phi tuyến một cách cẩn thận bởi vì nó sẽ được tạo lại trong cả bộ ADC và DAC. Hàm thông dụng nhất là hàm theo luật μ: Y= log(1+μx)/log(1+μ) 48
- Chương 2: Số hoá tín hiệu audio và video Trong đó: X là đầu ra tới thiết bị theo luật μ, Y là đầu ra, M là một tham số thường được thiết lập bằng 255. Phương pháp này làm giảm tỉ lệ SNR đối với các tín hiệu lớn, nhưng lại tăng lên với các tín hiệu nhỏ hơn. Có ý kiến cho rằng sự xuất hiện của tín hiệu lớn sẽ lấn áp tạp âm cao, nhưng một SNR ở những tín hiệu nhỏ sẽ tốt hơn. 2.2.3. Tiền nhấn Một kỹ thuật khác thường sử dụng trong các hệ thống audio được gọi là tiền nhấn. Kỹ thuật này khai thác triệt để tính chất: các tần số tín hiệu cao hơn thường có biên độ thấp hơn. Vì vậy, biên độ của chúng có thể được tăng lên mà không làm hệ thống quá tải. Một bộ lọc tương tự được chèn tại đầu vào của hệ thống để nhấn các tần số cao, và một bộ lọc bổ xung được sử dụng sau bộ ADC ở cuối của hệ thống. 10 + 8 + ) dB 6 ( + n ế y 4 + c tu ặ 2 + Đ 0 10 50 100 500 1k 5k 10k 20k Tần số (Hz) Hình 2.14. Đường cong tiền nhấn cho audio Hình 2.14 minh họa chức năng tiền nhấn tiêu biểu. Vì sự tiền nhấn giảm biên quá tải của hệ thống, nên phải rất cẩn thận khi sử dụng. Tiền nhấn không được sử dụng cho video số. 2.2.4. Mã hóa. Quá trình gán các bit cho các mức lượng tử được gọi là mã hoá. Đây có thể là một quá trình đơn giản, ví dụ như hệ nhị phân hay phần bù của 2, một quá trình phi tuyến như luật μ, hoặc có thể là một quá trình rất phức tạp với mục đích thực hiện nén dữ liệu. 2.3. CHỌN TẦN SỐ LẤY MẪU Tần số lấy mẫu quyết định độ rộng band tần của hệ thống đạt được mà không gây ra chồng phổ, nó cũng quyết định tốc độ bit cơ bản của hệ thống theo biểu thức: Tốc độ bit = (tần số lấy mẫu) * (số bit/mẫu) 49