Giáo trình Thống kê sinh học - Chương 4 đến Chương 6 - Bùi Tấn Anh

pdf 104 trang huongle 4890
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Thống kê sinh học - Chương 4 đến Chương 6 - Bùi Tấn Anh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfgiao_trinh_thong_ke_sinh_hoc_chuong_4_den_chuong_6_bui_tan_a.pdf

Nội dung text: Giáo trình Thống kê sinh học - Chương 4 đến Chương 6 - Bùi Tấn Anh

  1. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Chương 4. KIỂM ĐỊNH GIẢ THUYẾT I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA) Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu. Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và chuyển dạng theo hàm logarit. Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển dạng tối ưu nhất. Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu (hematocytometer) (Fisher, 1990). Dữ liệu Số tế bào máu: 0 1 2 3 4 5 6 7 8 9 10 11 12 Tần số: 0 20 43 53 86 70 54 37 18 10 5 2 2 (1) Nhập dữ liệu vào Minitab Cách 1. Dùng các lệnh từ thanh Menu Calc > Make Patterned Data > Arbitrary Set of Numbers Store patterned data in: C1 Arbitrary set of numbers: 1 (số tế bào máu) Numbers of times to list each value: 20 (tần số) Number of times to list the sequence: 1 Lặp lại Calc > Make Patterned Data > Arbitrary Set of Numbers Store patterned data in: C2 Arbitrary set of numbers: 2 (số tế bào máu) Numbers of times to list each value: 43 (tần số) Number of times to list the sequence: 1 Tiến hành tương tự với các giá trị còn lại từ 3 đến 12. Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12. Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13). Đặt tên cột này là Count Data > Stack >/Column Stack the following columns: C1 – C12 Store stacked data in:  Column of current worksheet: C13  OK Data > Display data 55
  2. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Cách 2. Gõ lệnh vào Session Window Editor > Enable commands MTB > SET C1 DATA> (1)20 (2)43 (3)53 (4)86 (5)70 (6)54 (7)37 (8)18 (9)10 DATA> (10)5 (11)2 (12)2 DATA> END MTB> NAME C1 ‘Count’ MTB > PRINT C1 Kết quả dữ liệu xuất ra trên cửa sổ session như sau Data Display Count 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 11 11 12 12 (2) Mô tả dữ liệu Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: Count Variable N Mean SE Mean StDev Minimum Q1 Median Count 400 4.680 0.106 2.114 1.000 3.000 4.000 Variable Q3 Maximum Count 6.000 12.000 56
  3. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Summary for Count A nderson-D arling N ormality T est A -S quared 4.94 P -V alue < 0.005 M ean 4.6800 S tD ev 2.1139 V ariance 4.4688 S kew ness 0.531363 K urtosis 0.311605 N 400 M inimum 1.0000 1st Q uartile 3.0000 M edian 4.0000 3rd Q uartile 6.0000 2.4 4.8 7.2 9.6 12.0 M aximum 12.0000 95% C onfidence Interv al for M ean 4.4722 4.8878 95% C onfidence Interv al for M edian 4.0000 5.0000 95% C onfidence Interv al for StDev 95% Confidence Intervals 1.9769 2.2716 Mean Median 4.0 4.2 4.4 4.6 4.8 5.0 Probability Plot of Counts 0.999 Mean 4.68 StDev 2.114 0.99 N 400 A D 4.938 0.95 P-Value <0.005 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Probability 0.2 0.1 0.05 0.01 0.001 0 3 6 9 12 Counts  Dữ liệu có phân bố lệch dương 57
  4. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Chuyển dạng căn bậc 2 Minitab output Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công cụ Calculator. Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là SqrtCnt. Calc > Calculator Mô tả dữ liệu trong cột SqrtCnt Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: SqrtCnt Variable N Mean SE Mean StDev Minimum Q1 SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321 Variable Median Q3 Maximum SqrtCnt 2.0000 2.4495 3.4641 58
  5. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Summary for SqrtCnt A nderson-D arling N ormality T est A -S quared 4.50 P -V alue < 0.005 M ean 2.1040 S tD ev 0.5040 V ariance 0.2540 S kew ness -0.137839 K urtosis -0.132102 N 400 M inimum 1.0000 1st Q uartile 1.7321 M edian 2.0000 3rd Q uartile 2.4495 1.2 1.6 2.0 2.4 2.8 3.2 M aximum 3.4641 95% C onfidence Interv al for M ean 2.0544 2.1535 95% C onfidence Interv al for M edian 2.0000 2.2361 95% C onfidence Interv al for StDev 95% Confidence Intervals 0.4713 0.5415 Mean Median 2.00 2.05 2.10 2.15 2.20 2.25 Probability Plot for Square Root Count 0.999 Mean 2.104 StDev 0.5040 0.99 N 400 A D 4.497 0.95 P-Value <0.005 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Probability 0.2 0.1 0.05 0.01 0.001 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 SqrtCnt Mặc dù kiểm tra Anderson-Darling cho thấy phân bố này khác biệt có ý nghĩa đối với phân bố chuẩn (P < 0.05) nhưng biểu đồ xác suất có dạng tuyến tính và histogram có đối xứng.  Chuyển dạng thành công. 59
  6. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Chuyển dạng Log Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount. Có thể chọn hàm Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô Expression. Minitab output Calc > Calculator Mô tả dữ liệu trong cột LogCnt Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: LogCount Variable N Mean SE Mean StDev Minimum Q1 LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986 Variable Median Q3 Maximum LogCount 1.3863 1.7918 2.4849 60
  7. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Summary for LogCount A nderson-D arling N ormality T est A -S quared 9.39 P -V alue < 0.005 M ean 1.4234 S tD ev 0.5269 V ariance 0.2776 S kew ness -0.868773 K urtosis 0.707780 N 400 M inimum 0.0000 1st Q uartile 1.0986 M edian 1.3863 3rd Q uartile 1.7918 0.0 0.4 0.8 1.2 1.6 2.0 2.4 M aximum 2.4849 95% C onfidence Interv al for M ean 1.3716 1.4752 95% C onfidence Interv al for M edian 1.3863 1.6094 95% C onfidence Interv al for StDev 95% Confidence Intervals 0.4927 0.5662 Mean Median 1.40 1.45 1.50 1.55 1.60 Probability Plot of LogCount 0.999 Mean 1.423 StDev 0.5269 0.99 N 400 A D 9.388 0.95 P-Value <0.005 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Probability 0.2 0.1 0.05 0.01 0.001 0.0 0.5 1.0 1.5 2.0 2.5 3.0 LogCount Chuyển dạng không phù hợp (quá mạnh). Biên trái (Left hand tail) có số lạ (outlier) Thí dụ 2. Số nang trứng trong các mẫu phân của 100 con dê Dữ liệu có phân bố lệch dương (trang 30) 61
  8. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Chuyển dạng căn bậc hai Calc > Calculator Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: SqrtOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29 Summary for SqrtOocy A nderson-D arling N ormality T est A -S quared 1.30 P -V alue < 0.005 M ean 71.175 S tD ev 22.137 V ariance 490.039 S kew ness 0.806398 K urtosis 0.471601 N 100 M inimum 34.641 1st Q uartile 53.852 M edian 67.082 3rd Q uartile 81.700 40 60 80 100 120 140 M aximum 146.287 95% C onfidence Interv al for M ean 66.782 75.567 95% C onfidence Interv al for M edian 63.624 73.659 95% C onfidence Interv al for StDev 95% Confidence Intervals 19.436 25.716 Mean Median 65.0 67.5 70.0 72.5 75.0 Probability Plot of SqrtOocy 0.999 Mean 71.17 StDev 22.14 0.99 N 100 A D 1.299 0.95 P-Value <0.005 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Probability 0.2 0.1 0.05 0.01 0.001 0 20 40 60 80 100 120 140 160 SqrtOocy Chuyển dạng chưa đủ mạnh - dữ liệu vẫn còn phân bố lệch dương 62
  9. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Chuyển dạng Log Calc > Calculator Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: LogOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061 Variable Maximum LogOocy 9.9711 Summary for LogOocy A nderson-D arling N ormality T est A -S quared 0.24 P -V alue 0.757 M ean 8.4385 S tD ev 0.6073 V ariance 0.3688 S kew ness 0.099690 K urtosis -0.459615 N 100 M inimum 7.0901 1st Q uartile 7.9725 M edian 8.4118 3rd Q uartile 8.8061 7.2 7.8 8.4 9.0 9.6 M aximum 9.9711 95% C onfidence Interv al for M ean 8.3180 8.5590 95% C onfidence Interv al for M edian 8.3059 8.5989 95% C onfidence Interv al for StDev 95% Confidence Intervals 0.5332 0.7055 Mean Median 8.30 8.35 8.40 8.45 8.50 8.55 8.60 Probability Plot of LogOocy Normal 0.999 Mean 8.438 StDev 0.6073 0.99 N 100 A D 0.244 0.95 P-Value 0.757 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Probability 0.2 0.1 0.05 0.01 0.001 6 7 8 9 10 LogOocy Chuyển dạng thành công – Phân bố đối xứng 63
  10. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay sai. Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm định giả thuyết (hypothesis testing). Giả thuyết đưa ra kiểm định được ký hiệu là H0 và được gọi là giả thuyết không (null hypothesis). Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ. Ngoài ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate hypothesis), ký hiệu là H1. H1 sẽ được chấp nhận khi H0 bị bác bỏ. Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách nào?. Các nhà thống kê đều nhất trí nguyên lý sau: “Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ không xảy ra” Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H0 nếu xác suất xuất hiện của một sự kiện quan sát được là “nhỏ” Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 102). Ở một giống bò mới người ta xác định được thời gian mang thai là 295 ngày. Liệu giá trị quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác? Cách giải: Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày. Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc 295) 275 285 295 285 = PZZ or 10 10 = P (Z 1) = 2 * P(Z < - 1) = 2 * 0.1587 = 0.3174 0.159 0.159 275 295 Đây là một xác suất lớn (1/3) vì vậy không có lý do gì để bác bỏ giả thuyết trung bình tổng thể là 285 ngày. 64
  11. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305 ngày. Ta có thể kết luận gì? Cách giải: Bây giờ ta cần tính xác suất của m> 305 ngày hoặc m 305) 265 285 305 285 = PZZ or 10 10 = P (Z 2) = 2 * P(Z < - 2) = 2 * 0.0228 = 0.0456 0.0228 0.0228 265 305 Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý nghĩa so với 285 ngày. Khi phải lựa chọn giữa hai giả thuyết H0 và H1, ta có thể phạm một trong hai loại sai lầm: (1) Bác bỏ H0 khi thực ra H0 là đúng  sai lầm loại I (2) Chấp nhận H0 khi thực ra H0 là sai  sai lầm loại II Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây: Kết luận Chấp nhận H Bác bỏ H Thực tế 0 0 H0 đúng Kết luận đúng Sai lầm loại I H0 sai Sai lầm loại II Kết luận đúng III. KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH) 1. Kiểm định Z Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn, trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 102). Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò: 307 293 293 283 294 297 65
  12. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày. Như vậy có bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác với 285 ngày? Cách giải: Giả định  = 10 ngày dùng z-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m 285 ngày với m = trung bình thời gian mang thai của giống bò mới x = (307+293+293+283+294+297)/6 = 294.5 ngày Kiểm định: ()()x m x m z  2 / n se() x Trong thí dụ trên 294.5 285 z 2.33 102 / 6 Nếu giả thuyết H0 là đúng thì z = 2.33 là một quan sát từ một phân bố chuẩn tắc (standard normal distribution). Chúng ta tính xác suất để: P P( x 275.5 or x 294.5) = PZZ( 2.33 or 2.33) = 2*PZ ( 2.33) = 2*0.010 0.020 0.01 0.01 - 2.33 2.33 Nếu H0 là đúng, chỉ có 2% cơ hội để nhận được giá trị này của x . Do đó chúng ta bác bỏ giả thuyết H0. Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý nghĩa so với 285 ngày. Tổng quát: P 0.05 (lớn hơn 1/20)  chấp nhận H0 66
  13. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Khi H0 được chấp nhận cũng chưa có nghĩa là H0 hoàn toàn đúng; cỡ mẫu có thể quá nhỏ nên không thể phát hiện sự sai khác. Ngay cả khi H0 bị bác bỏ, vẫn có khả năng xảy ra sai lầm. Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi H0 đúng. Thí dụ 2: Thử nghiệm thuốc gây mê trên chó. Người ta muốn kiểm tra xem mức độ epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay đổi hay không so với khi dùng phương pháp gây mê trước đây. Phương pháp gây mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml-1 và độ lệch chuẩn là 0.2 ng.ml-1. Các bước tiến hành Bước 1. Nhập liệu Đặt tên cột C1 là ‘Hormone’. Nhập dữ liệu vào cột này: 0.64 0.74 0.48 0.66 0.34 0.70 Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Descriptive Statistics /Variable ‘Hormone’ Descriptive Statistics: Hormone Variable N Mean SE Mean StDev Minimum Median Maximum Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400 Bước 3. Kiểm tra tính phân bố chuẩn Graph > Boxplot /Simple 0.3 0.4 0.5 0.6 0.7 0.8 Hormone Do mẫu quá nhỏ nên khó kiểm tra. Chỉ xác định được là không có số liệu lạ (outlier). Bước 4. Kiểm định Stat > Basic Statistics > 1-sample Z / Samples in Columns: Hormone Standard deviation: 0.2 Test mean: 0.4 67
  14. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - One-Sample Z: Hormone Test of mu = 0.4 vs not = 0.4 The assumed standard deviation = 0.2 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.081650 Variable 95% CI Z P Hormone (0.433303, 0.753364) 2.37 0.018 Giả thuyết không và giả thuyết đối được viết bởi Minitab là: Test of mu = 0.4 vs not = 0.4 Chúng ta sẽ viết lại như sau: -1 Giả thuyết không: H0 : m = 0.4 ng.ml -1 Giả thuyết đối : H1 : m ≠ 0.4 ng.ml Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới. Bước 5. Kết luận Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp gây mê mới 2. Kiểm định t Thí dụ 1. Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống cũ. Kết quả phân tích sẽ thay đổi như thế nào? Cách giải Không thể giả định  = 10 ngày  dùng t-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m 285 ngày x = 294.5 ngày và s = 7.74 ngày Kiểm định ()()x m x m t độ tự do: df = n – 1 s2 / n se Trong thí dụ trên: 294.5 285 9.5 t 3.01 df = 6 – 1 = 5 (7.74)2 / 6 3.16 nếu giả thuyết H0 là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5. 68
  15. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 0.4 z 0.3 0.2 0.1 t 0.0 -5.0 -2.5 0.0 2.5 5.0 7.5 Phân bố t có đuôi rộng hơn phân bố chuẩn. Phân bố này được dùng khi độ lệch chuẩn được ước lượng từ mẫu. Cỡ mẫu càng lớn thì ước lượng càng chính xác vì độ tự do tăng lên, t phân bố chuẩn. Giá trị P của t-test là: P = P( x 275.5 or x 294.5) = PT(5 3.01 or T 5 3.01) = 2*PT (5 3.01) = 2*0.0015 = 0.03 Kết luận: Vì P Basic Statistics > 1-sample t / Samples in Columns: Hormone Test mean: 0.4 One-Sample T: Hormone Test of mu = 0.4 vs not = 0.4 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.062325 Variable 95% CI T P Hormone (0.433121, 0.753546) 3.10 0.027 3. Khoảng tin cậy của trung bình tổng thể (m) Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp với trung bình mẫu x ? 69
  16. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval) Thời gian mang thai của bò được dùng làm thí dụ minh hoạ. Nhắc lại chúng có phân bố chuẩn N(285, 102). Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới, giá trị trung bình mẫu là x = 294.5 ngày. Trường hợp 1. Nếu ta gỉả sử phương sai mẫu không khác so với phương sai tổng thể, ta sẽ có  = 10 ngày và xác định khoảng tin cậy cho kiểm định z. x z( /2) *  2 / n x z (0.025) * se ( /2) (0.025) Trong đó z = z = 1.96 là 2.5% đuôi bên phải của phân bố chuẩn tắc. Trong thí dụ trên 95% CI 294.5 1.96* 102 / 6 294.5 8.00 (286.5, 302.5) Như vậy ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò mới nằm đâu đó trong khoảng 286.5 đến 302.5 ngày, mặc dù ước lượng là 294.5 ngày. Trường hợp 2. Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với phương sai tổng thể, ta sẽ phải ước lượng  bằng độ lệch chuẩn mẫu s và dùng khoảng tin cậy cho kiểm định t. ( /2) 2 (0.025) x tdf*/* s n x t n 1 se /2 (0.025) Trong đó tdf t n 1 là đuôi bên phải của phân bố t với độ tự do df = n – 1. Trong thí dụ trên: độ lệch chuẩn mẫu là s = 7.74 ngày (0.025) với df = n – 1 = 5 thì t5 = 2.57 95% CI 294.5 2.57* 7.742 / 6 294.5 8.1 (286.4, 302.6) Như vậy một lần nữa ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò mới nằm đâu đó trong khoảng 286.4 đến 302.6 ngày. Lưu ý: - khoảng tin cậy trong kiểm định t thường lớn hơn trong kiểm định z. - ta cũng có thể tính khoảng tin cậy 99% và 99.9%. - Khi dùng Minitab để kiểm định z hoặc t, kết quả xuất bao gồm cả 95% CI. IV. KIỂM ĐỊNH 2 MẪU (SO SÁNH TRUNG BÌNH HAI MẪU) Trong các thí nghiệm sinh học nói chung, khi có từ hai nhân tố hoặc hai nhóm mẫu trở lên thì sau khi xác định được giá trị trung bình và kiểm tra được độ tin cậy của chúng, người ta cần phải khẳng định sự sai khác của tất cả các nhân tố thông qua các phương pháp kiểm tra thống kê sinh học. Mục đích nhằm khẳng định giữa các số trung bình mẫu đó có sự sai khác nhau hay không và nếu có thì sự sai khác đó có ý nghĩa thống kê ở mức độ bao nhiêu. 70
  17. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 1. Hai mẫu độc lập, phương sai bằng nhau Thí dụ: So sánh trọng lượng của hai giống bò. Giống 1 khảo sát 12 con, giống 2 khảo sát 15 con. Kế quả ghi nhận được như trong bảng 4.1 Bảng 4.1. Trọng lượng (kg) của hai giống bò (Peter, 2001) Giống thứ nhất: 187.6 180.3 198.6 190.7 196.3 203.8 190.2 201.0 194.7 221.1 186.7 203.1 Giống thứ hai: 148.1 146.2 152.8 135.3 151.2 146.3 163.5 146.6 162.4 140.2 159.4 181.8 165.1 165.0 141.6 Dữ liệu thống kê mô tả cho thấy: Giống 1 Giống 2 Trung bình mẫu (kg) 196.2 153.7 Độ lệch chuẩn mẫu (kg) 10.62 12.3 Liệu có sự sai khác về trọng lượng giữa hai giống bò nầy hay không? Số liệu thu thập được có dạng: x, x , x , , x nhóm mẫu 1 11 12 13 1n1 x, x , x , , x 21 22 23 2n2 nhóm mẫu 2 trong trường hợp trên n1 = 12 và n2 = 15 Các số liệu có thể được mô hình hóa dưới dạng: [ Dữ liệu quan sát ] = [ Trung bình mẫu ] + [ Sai số ngẫu nhiên ] xij = mi + ij i = 1, 2 (nhóm mẫu) j = 1, 2, , ni (số lần lặp lại của mỗi mẫu) Ở thí dụ trên: m1 = trung bình trọng lượng của bò (kg) thuộc Giống 1 m2 = trung bình trọng lượng của bò (kg) thuộc Giống 2 Trong trường hợp này người ta thường dùng phương pháp kiểm tra t gộp để so sánh hai trung bình mẫu. Phương pháp này đòi hỏi bộ số liệu thu được từ quần thể phải thỏa các yêu cầu: (1) Phương sai hai mẫu phải hoàn toàn độc lập, không ràng buộc lẫn nhau. 2 (2) Dữ liệu có phân bố chuẩn, xij ~N(m, ), cở mẫu nhỏ (n < 30) (3) Phương sai của hai nhóm mẫu và tổng thể phải bằng hoặc gần bằng nhau. Có thể so sánh hai phương sai mẫu bằng hai cách: Cách 1: Dựa vào chênh lệch giữa hai độ lệch chuẩn độ lệch chuẩn lớn nhất <1.5 độ lệch chuẩn nhỏ nhất 71
  18. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - trong thí dụ trên: s2/s1 = 12.3/10.62 = 1.16 cho thấy phương sai của hai mẫu gần bằng nhau. Cách 2: Tiến hành kiểm tra F (F test) Stat > Basic Statistic >/ 2 Variances Tuỳ chọn:  Samples in one column  Samples in different column  Sumarized Data  OK Kết quả: Test for Equal Variances F-Test 1 Test Statistic 0.74 P-Value 0.631 2 6 8 10 12 14 16 18 20 22 Vì P > 0.05 nên có thể xem như phương sai của hai mẫu bằng nhau. Giả định trên về sự phân bố của hai mẫu được thể hiện trong đồ thị dưới đây: hai phân bố chỉ khác nhau về vị trí (do trung bình mẫu qui định), còn lại đều giống hệt nhau. X m1 m2 Giả thiết: H0 : m1 = m2 H1 : m1 m2 72
  19. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Công thức tính t : x x x x t 1 2 1 2 2 1 1 se s p () n1 n 2 2 2 (n1 1) s 1 ( n2 1) s 2 trong đó s p sp là độ lệch chuẩn gộp (p = pool) n1 n 2 2 df ( n1 1) ( n 2 1) n 1 n 2 2 df = độ tự do (degree of freedom) Như vậy trong thí dụ về trọng lượng bò nêu trên: x1 x 2 196.2 153.7 42.5 kg 11*(10.62)2 14*(12.30) 2 s2 134.33 kg p 25 sp 134.33 11.59 kg Cần lưu ý rằng sp phải luôn luôn nằm trong khoảng giữa s1 và s2 10.62 kg <sp<12.30 kg. Sai số chuẩn (se) cho sự khác biệt của hai trung bình là: 1 1 se 134.33 4.489 kg 12 15 x x 42.5 Do đó: t 1 2 9.46 với độ tự do df = 12+15 – 2 =25 se 4.489 Nếu giả thuyết H0 (nghĩa là m1 = m2) là đúng thì t = 9.46 thuộc phân bố t với độ tự do =25. Giá trị P cho kiểm định t là: P P( x1 x 2 42.5 or x 1 x 2 42.5) = PTT(25 9.46 or 25 9.46) = 2 x PT (25 9.46) = 2 x 0.0000 = 0.0000 Nhận xét: Kết quả cho thấy P (hai đuôi) < 0.05  giả thiết H0 bị bác bỏ  sự sai khác của hai trung bình mẫu là có ý nghĩa về mặt thống kê với độ tin cậy 95%  giống thứ nhất có trọng lượng lớn hơn giống thứ hai. Khoảng tin cậy (Confidence Interval) cho sự sai khác giữa hai trung bình mẫu. Ước lượng tốt nhất cho hai trung bình tổng thể m1 và m2 là hai trung bình mẫu x1 và x2 . Do đó ước lượng tốt nhất cho sự khác biệt m1 - m2 là x1 x 2 , gọi là ước lượng điểm (point estimate). 73
  20. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Trong thí dụ trên hiệu giữa hai trung bình mẫu là x1 x 2 42.5 kg cho thấy nếu tính trung bình thì giống 1 nặng hơn giống 2 là 42.5 kg. Khoảng tin cậy 95% (95% confidence interval = CI) được xác định như sau: 1 1 x x t( /2) s 2 x x t (0.025) se 1 2df 1 2 n1 n 2 2 n1 n 2 trong đó t(0.025) là đuôi bên phải (2.5%) của phân bố t với độ tự do là n + n – 2. n1 n 2 2 1 2 1 1 vì n1 + n2 -2 = 25, t 2 = 2.06 và se = 134.33* ( ) = 4.489 kg nên: 12 15 95% CI = 42.5 kg 2.06 x 4.498 = (33.2 , 51.7) kg Như vậy có đến 95% cơ hội đúng khi cho rằng sự khác biệt giữa hai trung bình mẫu nằm trong khoảng từ 33.2 kg đến 51.7 kg. Cách tính bằng Minitab: Worksheet: Cattle weights Bước 1. Kiểm tra sự giống nhau giữa hai độ lệch chuẩn Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: Group A, Group B Variable N Mean StDev Minimum Q1 Median Q3 Maximum Group A 12 196.18 10.62 180.30 188.25 195.50 202.57 221.10 Group B 15 153.70 12.30 135.30 146.20 151.20 163.50 181.80 Độ lệch chuẩn của hai mẫu tương đối giống nhau => có thể giả định 1 = 2 Như vậy có thể dùng phương pháp kiểm tra t gộp. Bước 2. Kiểm tra sự phân bố chuẩn Graph > Boxplot / Multiple Y’s/Simple Group A Group B 140 150 160 170 180 190 200 210 220 230 Trọng lượng (kg) Đồ thị cho thấy cả hai nhóm mẫu A và B đều có phân bố chuẩn. 74
  21. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bước 3. Kiểm định t gộp (pooled t-test) Stat > Basic Statistics > 2-Sample t / Sample in different columns Assume equal variances Two-Sample T-Test and CI: Group A, Group B Two-sample T for Group A vs Group B N Mean StDev SE Mean Group A 12 196.2 10.6 3.1 Group B 15 153.7 12.3 3.2 Difference = mu (Group A) - mu (Group B) Estimate for difference: 42.4750 95% CI for difference: (33.2301, 51.7199) T-Test of difference = 0(vs not =):T-Value = 9.46 P-Value = 0.000 DF = 25 Both use Pooled StDev = 11.5901 Bước 4. Nhận xét và kết luận (giống như trên) 2. Hai mẫu độc lập, phương sai không bằng nhau Trong trường hợp hai mẫu có phương sai không bằng nhau (tỉ lệ giữa hai độ lệch chuẩn > 1.5 hoặc giá trị P của F-test 1.50 nên không thể dùng phương pháp kiểm tra t gộp. Giả thiết: H0 : m1 = m2 H1 : m1 m2 75
  22. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Phương pháp tính Cách 1. Dùng phương pháp kiểm định t Satterthwaite a. Dùng các hàm để tính : x x t tính (t Stat) t 1 2 2 2 (//)s1 n1 s 2 n2 2 (/)(/)s2 n s2 n  độ tự do df 1 1 2 2 (làm tròn) (/)s2 n 2 (/)s2 n 2 1 1 2 2 n1 1 n2 1 2 2 khoảng tin cậy x1 x 2 t / 2.(/)(/) s 1 n1 s 2 n2 b. Dùng Minitab : Bước 1. Nhập liệu Nhập dữ liệu vào bảng tính. Cột C1 chứa dữ liệu, tên nhãn là %Change, cột C2 chứa nhóm, tên nhãn là Species. Data Display Row %Change Species Row %Change Species 1 2.31 Toad 8 0.85 Frog 2 25.23 Toad 9 2.90 Frog 3 28.37 Toad 10 2.47 Frog 4 14.16 Toad 11 17.72 Frog 5 28.39 Toad 12 3.82 Frog 6 27.94 Toad 13 2.86 Frog 7 17.68 Toad 14 13.71 Frog 15 7.38 Frog Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Display Descriptive Statistics / Variables: %Change By Variable: Species Descriptive Statistics: %Change Variable Species N Mean SE Mean StDev Minimum %Change Frog 8 6.46 2.16 6.10 0.850 Toad 7 20.58 3.72 9.84 2.31 Variable Species Q1 Median Q3 Maximum %Change Frog 2.57 3.36 12.13 17.72 Toad 14.16 25.23 28.37 28.39 Graph > Boxplot / One Y/With Groups Graph Variables: %Change Categorical variables for grouping: Species 76
  23. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Boxplot of %Change Frog Species Toad 0 5 10 15 20 25 30 %Change Hai nhóm có độ lệch chuẩn rất khác nhau (Ếch: 6.10 vs Cóc: 9.84) vì vậy không thể dùng phương pháp kiểm định t gộp. Boxplot cũng cho thấy phương sai không bằng nhau. Do đó ta phải dùng kiểm định t Satterthwaite. Bước 3. Kiểm định Stat > Basic Statistics > 2-sample t /Samples in one column Samples: ‘%Change’ Subscripts: Species Assume equal variances: không check  kiểm định Satterthwaite Two-Sample T-Test and CI: %Change, Species Two-sample T for %Change Species N Mean StDev SE Mean Frog 8 6.46 6.10 2.2 Toad 7 20.58 9.84 3.7 Difference = mu (Frog) - mu (Toad) Estimate for difference: -14.1191 95% CI for difference: (-23.8430, -4.3952) T-Test of difference = 0 (vs not =): T-Value = -3.28 P-Value = 0.009 DF = 9 Bước 4. Nhận xét & Kết luận Qua kết quả phân tích ta thấy P = 0.009 < 0.05 chứng tỏ cóc thu nhận nhiều nước hơn ếch. 77
  24. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Cách 2. Chuyển dạng số liệu (chuyển dạng log) Bước 1. Đặt nhãn cho cột C3 là ‘log cha’. Chuyển toàn bộ số liệu trong cột C1 sang log cơ số e. Calc > Calculator / Store result in variable: ‘log cha’ Functions: Natural log Expression: LOGE( ‘%Change’ ) Row log cha Species Row log cha Species 1 0.83725 Toad 8 -0.16252 Frog 2 3.22803 Toad 9 1.06471 Frog 3 3.34533 Toad 10 0.90422 Frog 4 2.65042 Toad 11 2.87469 Frog 5 3.34604 Toad 12 1.34025 Frog 6 3.33006 Toad 13 1.05082 Frog 7 2.87243 Toad 14 2.61813 Frog 15 1.99877 Frog Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Display Descriptive Statistics / Variables: log cha By Variable: Species Descriptive Statistics: log cha Variable Species N Mean SE Mean StDev Minimum log cha Frog 8 1.461 0.351 0.994 -0.163 Toad 7 2.801 0.343 0.907 0.837 Variable Species Q1 Median Q3 Maximum log cha Frog 0.941 1.202 2.463 2.875 Toad 2.650 3.228 3.345 3.346 Phương sai hai mẫu đã xấp xỉ nhau  có thể dùng phương pháp kiểm định t gộp. Graph > Boxplot / One Y/With Groups Graph Variables: log cha Categorical variables for grouping: Species 78
  25. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Boxplot of log cha vs Species 3.5 3.0 2.5 2.0 1.5 log cha log 1.0 0.5 0.0 Frog Toad Species Bước 3. Kiểm định t gộp. Stat > Basic Statistics > 2-sample t /Samples in one column Samples: ‘log cha’ Subscripts: Species Assume equal variances: check Two-Sample T-Test and CI: log cha, Species Two-sample T for log cha Species N Mean StDev SE Mean Frog 8 1.461 0.994 0.35 Toad 7 2.801 0.907 0.34 Difference = mu (Frog) - mu (Toad) Estimate for difference: -1.34023 95% CI for difference: (-2.40782, -0.27264) T-Test of difference = 0 (vs not =): T-Value = -2.71 P-Value = 0.018 DF = 13 Both use Pooled StDev = 0.9548 Bước 4. Nhận xét & Kết luận Cũng giống như trên, cóc thu nhận nhiều nước hơn ếch (P = 0.018). Ở thang log sự khác biệt là 2.80 - 1.46 = 1.34. Chuyển dạng ngược lại (chọn Calc > Calculator .> Function Exponentiate) e1.34 = 3.81, nghĩa là trung bình cóc tăng trọng gấp 3.81 lần so với ếch. 79
  26. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 3. Hai mẫu liên hệ – so sánh cặp Thí dụ (Peter, 2001) Thí nghiệm được tiến hành ở 15 nông trại nhằm so sánh 2 khẩu phần vỗ béo cho heo: một khẩu phần bình thường (ration A) và một khẩu phần có bổ sung khoáng vi lượng Cu (ration B). Mỗi nông trại bố trí hai chuồng heo giống nhau, hai khẩu phần ăn được phân bố ngẫu nhiên và đồng đều vào hai chuồng. Tăng trọng trung bình (lb/ngày) của heo ở mỗi chuồng được ghi nhận trong bảng 4.3. Sự bổ sung Cu trong khẩu phần ăn có ảnh hưởng đến tăng trọng trung bình của lợn hay không? Bảng 4.3. Tăng trọng trung bình của lợn nuôi bằng hai khẩu phần khác nhau Ration Ration Ration N. trại N. trại N. trại A B A B A B 1 0.93 1.17 6 1.11 1.15 11 1.11 1.13 2 1.16 1.03 7 0.98 0.96 12 1.18 1.20 3 1.05 1.23 8 0.99 1.02 13 1.02 1.11 4 1.10 1.29 9 0.66 0.95 14 1.05 1.10 5 0.93 1.04 10 1.14 1.25 15 1.17 1.30 Trong trường hợp này có một vấn đề quan trọng về việc bố trí thí nghiệm cần được làm rõ. Ở mỗi nông trại có hai giá trị trung bình được ghi nhận từ cùng một chuồng. Như vậy, thí nghiệm và số liệu ghi nhận được sắp xếp thành cặp. Nếu thí nghiệm được bố trí ngẫu nhiên ở 30 nông trại: lợn ở 15 trại được cho ăn khẩu phần A, ở 15 trại còn lại cho ăn khẩu phần B thì chúng sẽ là các mẫu độc lập như đã xét ở các trường hợp trước. Trong nghiên cứu sinh học, có nhiều thí nghiệm được bố trí theo cặp tương tự như trên. Chẳng hạn dữ liệu được thu thập từ hai cá thể con của cùng một lứa đẻ, hai lô đất có các đặc tính giống nhau trong cùng một nông trại, mẫu lá trên cùng một cây được thu thập vào ban ngày và ban đêm Ở thí dụ trên, nếu tiến hành theo phương pháp so sánh hai mẫu độc lập, chúng ta sẽ bỏ sót một nguồn biến động quan trọng là nông trại. Trong trường hợp này phương pháp tốt nhất là so sánh cặp, còn gọi là kiểm định t cặp (pair t-test). Sự sai khác giữa hai khẩu phần ăn là: d = ration B - ration A Nông trại Sai khác d 1 1.17 – 0.93 = 0.24 2 1.03 – 1.16 = -0.13 3 1.23 – 1.05 = 0.18 15 1.30 – 1.17 = 0.13 Như vậy, chúng ta có tất cả n = 15 sai khác: d1, d2, , dn. Nếu sự bổ sung Cu không có ảnh hưởng thì trung bình chung của sai khác (md) sẽ bằng 0. Vì vậy ta có thể đặt giả thuyết: Giả thuyết H0 : md = 0 H1 : md 0 80
  27. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Công thức tính t : d t Độ tự do df = n - 1 s2 / n Khoảng tin cậy 95% /2 95%CI d tn 1 . se Phương pháp tính Cách 1: Dùng hàm để tính giá trị t Trung bình mẫu : d = 0.09 lb/ngày Độ lệch chuẩn : s = 0.107 Cở mẫu : n = 15 cặp d 0.09 t 3.25  s2/ n 0.107 2 /15  df n 1 1 1 1 P = 2*P(T14 > 3.25) = 0.006 Khoảng tin cậy 95% là: /2 (0.025) 2 95%CI d tn 1 . se d t 14 . se 0.09 2.145* 0.107 /15 (0.0306, 0.1494) Nhận xét & Kết luận: Vì P Basic Statistics > Paired t Bước 3. Khai báo: Samples in Columns: First sample: ‘Ration B’ Second sample: ‘Ration A’ Graphs : check Boxplot of differences => OK Kết quả xuất: Paired T-Test and CI: Ration B, Ration A Paired T for Ration B - Ration A N Mean StDev SE Mean Ration B 15 1.12867 0.11294 0.02916 Ration A 15 1.03867 0.13352 0.03447 Difference 15 0.090000 0.107238 0.027689 95% CI for mean difference: (0.030614, 0.149386) T-Test of mean difference = 0 (vs not = 0): T-Value = 3.25 P-Value = 0.006 81
  28. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Boxplot of Differences (with Ho and 95% t-confidence interval for the mean) _ X Ho -0.1 0.0 0.1 0.2 0.3 Differences *Lưu ý: khoảng tin cậy 95% cho sự khác biệt nằm giữa 0.03 và 0,15 lb.ngày (tập trung quanh 0.09 lb/ngày. Vì khoảng tin cậy 95% không có chứa giá trị 0 (không khác biệt) nên ta bác bỏ giả thiết H0. Cách 3. Kiểm định 1-sample t bằng Minitab Bước 1. Đặt nhãn cho C3 = ‘Diff’ Bước 2. Tính ‘Diff’ = ‘Ration B’ – ‘Ration A’ Calc > Calculator / Store result in variable: ‘Diff’ Expression: ‘Ration B’ – ‘Ration A’ Bước 3. Kiểm định Stat > Basic Statistics > 1-sample t Sample in column: Diff Test of mean: 0 (vì ta giả định không có sự khác biệt) Kết quả xuất: One-Sample T: Diff Test of mu = 0 vs not = 0 Variable N Mean StDev SE Mean Diff 15 0.090000 0.107238 0.027689 95% CI T P (0.030614, 0.149386) 3.25 0.006 82
  29. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - V. KIỂM ĐỊNH SỰ PHÙ HỢP GIỮA LÝ THUYẾT VÀ THỰC NGHIỆM (TEST FOR GOODNESS OF FIT) Trong nghiên cứu sinh học, đặc biệt là trong lãnh vực di truyền và chọn giống, việc kiểm tra so sánh sự phù hợp giữa tần suất thực nghiệm thu được từ kết quả thí nghiệm và tần suất lý thuyết tính được từ các qui luật sinh học là rất cần thiết. Chẳng hạn tỉ lệ phân ly giới tính có đúng là 1 ♂ : 1 ♀ hay không? Tỉ lệ phân ly kiểu hình thu được trong thí nghiệm có phù hợp với tỉ lệ lý thuyết theo một định luật di truyền (3:1 trong lai một tính hoặc 9:3:3:1 trong lai hai tính) hay không? Trong số nhiều phương pháp kiểm định cơ bản thì phương pháp thông dụng nhất thường dùng để so sánh sự phù hợp giữa tần suất thực nghiệm và lý thuyết là phương pháp kiểm định "khi bình phương 2" (Chi-square test) Muốn thực hiện phương pháp kiểm định 2 đạt hiệu quả, cần nắm rõ các khái niệm và nội dung cơ bản sau: Tần suất lý thuyết (Expected frequency). Ký hiệu là E Là giá trị tính toán dựa theo một qui luật lý thuyết đã được khẳng định, chẳng hạn tỉ lệ phân ly trong di truyền giới tính là 1 ♂ : 1 ♀, tỉ lệ phân ly kiểu hình ở F2 trong trường hợp hai cặp tính trạng phân ly độc lập là 9:3:3:1 Tần suất lý thuyết được xác định bằng tần số xảy ra (trong lý thuyết) nhân với cở mẫu: E = p.n Tần suất thực nghiệm (Observed frequency). Ký hiệu là O Là số liệu thu được trong thực tế, có thể rút ra từ một quần thể hoặc kết quả thu được từ một thí nghiệm. Giả thuyết không (H0) : tần suất lý thuyết và thực nghiệm không khác nhau 2 Giá trị  thực nghiệm () Được tính theo công thức: (O E )2  2 TN  E Giá trị  bảng Được xác định tại bảng phân bố 2với các độ tự do tương ứng của các mức độ xác suất tương ứng. Trong các thí nghiệm sinh học, ba mức độ xác suất thường được sử dụng là P = 0.05, P = 0.01 và P = 0.001. 2 Tìm χ b¶ng bằng MiniTab Calc > Probability Distributions >/Chi square Các khai báo: Degree of freedom:  Inverse cummulative probability  Input constant Optional storage: Kiểm tra và kết luận 2 2 Nếu TN > χ b¶ng ở một mức xác suất nhất định, chẳng hạn P = 0.05, có nghĩa là 2 P( TN )> 0.05 thì giả thuyết H0 bị bác bỏ. Ta có thể kết luận rằng tần suất lý thuyết và tần suất thực nghiệm khác biệt có ý nghĩa với độ tin cậy 95%. 2 2 Nếu TN < χ b¶ng thì giả thuyết H0 được chấp nhận nghĩa là có thể kết luận rằng tần suất thực nghiệm và lý thuyết phù hợp nhau. 83
  30. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Các thí dụ Thí dụ 1. (Sokal &Rohfl, 1995) Một nhà di truyền học tiến hành phép lai giữa hai cá thể ruồi giấm F1 và thu được 176 cá thể F2 gồm 130 có kiểu hình hoang dại và 46 có kiểu hình đột biến. Nhà di truyền học muốn kiểm tra xem liệu kết quả thu được có phù hợp với tỉ lệ 3 trội : 1 lặn theo định luật phân ly của Mendel hay không. Phương pháp tính Cách 1. Ta có thể tính được giá trị 2 bằng cách lập bảng dựa vào các dữ liệu đã có (bảng 4.4) Cở mẫu : n = 176 Số lớp : a = 2 Tần số lý thuyếtp = 0.75, q= 0.25 Độ tự do : df = a - 1 = 1 Bảng 4.4. Bảng kiểm tra sự phù hợp giữa tần suất thực nghiệm với tần suất lý thuyết Kiểu hình Tần suất Tần suất Độ lệch (O E )2 TN LT ( O - E) ( O - E)2 ( O) ( E) E Hoang dại 130 132 -2 4.00 0.03030 Đột biến 46 44 2 4.00 0.09091 Tổng 176 176 0  2 =0.12121 Cách 2. Dùng Minitab (Ver. 15) Nhập giá trị của tần suất thực nghiệm vào ô C1. Nhập tần số lý thuyết vào ô C2 ( 0.75 và 0.25). Stat >Tables > Chi-Square Goodness-of-Fit Test (One Variable) Observed counts: C1 Proportions specified by Historical counts: C2 (Input column) > OK Kết quả hiển thị trong cửa sổ Session Chi-Square Goodness-of-Fit Test for Observed Counts in Variable: O Historical Test Contribution Category Observed Counts Proportion Expected to Chi-Sq 1 130 75 0.75 132 0.0303030 2 46 25 0.25 44 0.0909091 N DF Chi-Sq P-Value 176 1 0.121212 0.728 Nhận xét & Kết luận: 2 Giá trị χ b¶ng = 3.84 2 2 Vì TN = 0.12121 0.05) nên ta không đủ cơ sở để bác bỏ giả thuyết H0 . Nói cách khác ta có thể kết luận rằng kết quả thu được phù hợp với tỉ lệ phân ly 3:1 theo định luật Mendel. 84
  31. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Thí dụ 2. (Sokal & Rohfl, 1995) Theo dõi sự di truyền của hai tính trạng chiều cao và dạng lá ở cà chua, người ta thực hiện một phép lai và thu được kết quả ở F2 như sau: F2 Thân cao, lá chẻ 926 Thân cao, lá nguyên 288 Thân thấp, lá chẻ 293 Thân thấp, lá nguyên 104 Liệu kết quả thu được có phù hợp với tỉ lệ phân ly 9 : 3 : 3 : 1 theo định luật phân ly độc lập của Mendel hay không? Giả thuyết H0: tỉ lệ thực nghiệm phù hợp với tỉ lệ lý thuyết 9 : 3 : 3 : 1 Cách tính 2 Kiểu hình ( O ) ( E) Độ lệch ( O – E ) ()OE 2 ( O – E ) E Thân cao, lá chẻ 926 906.19 19.81 392.4361 0.43306 Thân cao, lá nguyên 288 302.06 -14.06 197.6836 0.65445 Thân thấp, lá chẻ 293 302.06 -9.06 82.0836 0.27174 Thân thấp, lá nguyên 104 100.69 3.31 10.9561 0.10881 Tổng 1611 1611 0.0  2 =1.46806 2 Giá trị χ b¶ng, 0.05[3] = 7.81 2 P( TN ) = 0.68965 Nhận xét & Kết luận 2 2 2 Vì TN 0.05) nên giả thuyết H0 được chấp nhận nghĩa là tỉ lệ phân ly kiểu hình của các cây cà chua F2 là phù hợp với tỉ lệ lý thuyết 9:3:3:1. VI. KIỂM ĐỊNH TÍNH ĐỘC LẬP (TESTS OF INDEPENDENCE) Thí dụ 1 (Sokal&Rohfl, 1995) Chúng ta hãy xét một ví dụ trong lãnh vực miễn dịch học (immunology). Một mẫu gồm 111 con chuột được chia thành hai nhóm. Nhóm thí nghiệm gồm 57 chuột được tiêm vi khuẩn gây bệnh và kháng huyết thanh, nhóm đối chứng gồm 54 chuột được tiêm vi khuẩn gây bệnh nhưng không tiêm kháng huyết thanh. Sau một thời gian, có 38 chuột bị chết (13 con có tiêm kháng huyết thanh và 25 con không có). Các dữ liệu này có thể trình bày dưới dạng một bảng gồm 2 hàng và 2 cột (bảng 4.5), được gọi là bảng tiếp liên (contingency table) 2 x 2. Bảng 4.5. Bảng tiếp liên 2 x 2 Chết Sống  Có kháng huyết thanh 13 44 57 Không có 25 29 54  38 73 111 85
  32. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Từ bảng dữ liệu trên ta có thể thấy mặc dù số chuột được tiêm kháng huyết thanh có tỉ lệ sống sót cao hơn nhưng vẫn có 13 con bị chết ! Như vậy liệu có phải việc tiêm kháng huyết thanh đã làm giảm tỉ lệ chết của chuột? Hay đó chỉ là ngẫu nhiên? Giả thiết H0 : khả năng sống của chuột không phụ thuộc vào việc tiêm kháng huyết thanh. H1 : khả năng sống của chuột nhờ vào việc tiêm kháng huyết thanh Bảng tiếp liên 2 x 2 có thể khái quát dưới dạng sau:  = (tổng hàng) a b a + b c d c + d  = (tổng cột) a + c b + d n Kiểm định 2 Phương pháp tính Cách 1. Tính theo công thức Từ bảng tiếp liên ta có thể tính được tần suất lý thuyết, từ đó tính được giá trị  2 : Tæng hµng x Tæng cét TÇn suÊt lý thuyÕt Tæng chung §é tù do (df) = (sè hµng - 1) x (sè cét - 1) Như vậy tần suất lý thuyết của 4 ô trong bảng 4.5 là: (a + b) x (a + c) 54 x 38 Ô a = = = 19.514 n 111 (a + b) x (b + d) 57 x 73 Ô d = = = 37.486 n 111 (c + d) x (a + c) 54 x 38 Ô c = = = 18.486 n 111 (c + d) x (b + d) 54 x 73 Ô d = = = 35.514 n 111 Tần suất lý thuyết được trình bày trong bảng tiếp liên 2 x 2 cho phép so sánh với tần suất thực nghiệm: Chết Sống  Có kháng huyết thanh 13 (19.514) 44 (37.486) 57.000 Không có 25 (18.486) 29 (35.514) 54.000  38.000 73.000 111.000 Tính 2 ()ad bc2 n [(13x 29) (44 x 25)] 2 x 111  2 6.796 (a b )( c d )( a c )( b d ) 57x 54 x 38 x 73 Cách 2. Áp dụng Minitab Bước 1. Nhập các dữ liệu trong bảng 4.5 vào bảng tính: 86
  33. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bước 2. Tính 2  Stat > Tables > Chi-square test (Table in Worksheet) Kết quả xuất: Chi-Square Test: Chết, Sống Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts Chết Sống Total 1 13 44 57 19.51 37.49 2.174 1.132 2 25 29 54 18.49 35.51 2.295 1.195 Total 38 73 111 Chi-Sq = 6.796, DF = 1, P-Value = 0.009 Nhận xét & Kết luận: 2 2 TN > χ b¶ng (P-value < 0.05) nên giả thuyết H0 bị bác bỏ, nghĩa là việc tiêm kháng huyết thanh có tác dụng làm giảm tỉ lệ chết của chuột do vi khuẩn. Thí dụ 2 (Peter, 2001) Để nghiên cứu tác dụng của 3 loại vaccine (ký hiệu là A, B, C), 788 con chuột được bố trí ngẫu nhiên thành 4 nhóm: 1 nhóm đối chứng (không có tiêm vaccine) và 3 nhóm thí nghiệm (được tiêm vaccine A, B, C). Sau 24 tháng, số lượng chuột không bệnh, bệnh nhẹ và bệnh nặng được ghi nhận. Kết quả thí nghiệm được trình bày trong bảng tiếp liên 4 x 3 (bảng 4.6). Bảng 4.6. Bảng tiếp liên 4 x 3 về hiệu quả của việc tiêm vaccine so với không tiêm Vaccine Tình trạng bệnh Tổng hàng Không Nhẹ Nặng Đối chứng 100 (137.3) 71 (42.6) 29 (20.1) 200 A 146 (133.9) 32 (41.6) 17 (19.6) 195 B 149 (132.5) 28 (41.2) 16 (19.3) 193 C 146 (137.3) 37 (42.6) 17 (20.1) 200 Tổng cột 541 168 79 788 87
  34. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Dữ liệu trong bảng (trình bày O (E)) cho thấy số chuột được tiêm phòng không bệnh cũng như mắc bệnh đều ít hơn số chuột đối chứng. Nhưng liệu có phải việc tiêm vaccine đã có hiệu quả làm giảm tỉ lệ mắc bệnh hay không? Giả thuyết H0: không có quan hệ gì giữa tình trạng bệnh và việc tiêm vaccine. Giả sử H0 là đúng thì tần suất lý thuyết được tính như sau: Thí dụ đối chứng, không bệnh: Tæng hµng x Tæng cét 200x 541 E = 137.3 Tæng chung 788 Kiểm định: ()OE 2  2  E = 10.14 + 18.86 + 3.99 + 1.10 + 2.21 + 0.33 + 2.05 + 4.20 + 0.58 + 0.55 + 0.75 + 0.46 = 45.2 Độ tự do (df) = (số hàng – 1) x (số cột – 1) = (4 – 1) x (3 – 1) = 6 2 Giá trị P: PP (6 45.2) 0.000  Kết luận: Vì P Tables > Chi-square test (Table in Worksheet) Kết quả xuất: Chi-Square Test Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts Không bệnh Bệnh nhẹ Bệnh nặng Total 1 100 71 29 200 137.31 42.64 20.05 10.138 18.863 3.994 2 146 32 17 195 133.88 41.57 19.55 1.098 2.205 0.332 3 149 28 16 193 132.50 41.15 19.35 2.054 4.201 0.580 4 146 37 17 200 137.31 42.64 20.05 88
  35. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 0.550 0.746 0.464 Total 541 168 79 788 Chi-Sq = 45.224, DF = 6, P-Value = 0.000 2 2 Với độ tự do df = ( 4 - 1)( 3 -1 ) = 6, giá trị χ b¶ng = 12.59158 và P ( TN ) = 0.000. 2 2 2 Vì TN > χ b¶ng hay P( TN ) Delete Row Delete rows: 1 From columns: C1 C2 C3 C4  OK  Stat > Tables > Chi-square test (Table in Worksheet) Kết quả xuất Chi-Square Test Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts Không bệnh Bệnh nhẹ Bệnh nặng Total 1 146 32 17 195 146.25 32.17 16.58 0.000 0.001 0.011 2 149 28 16 193 144.75 31.84 16.41 0.125 0.463 0.010 3 146 37 17 200 150.00 32.99 17.01 0.107 0.487 0.000 Total 441 97 50 588 Chi-Sq = 1.203, DF = 4, P-Value = 0.878 89
  36. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Kết quả kiểm tra 2 cho thấy rõ ràng là không có sai khác gì về hiệu quả giữa 3 loại vaccine ( P = 0.878 > 0.05) Phân bố Chi bình phương (df = 4) 0.20 0.15 0.10 f (x) 0.05 P = 0.878 0.00 0 1.203 X 90
  37. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Chương 5. BỐ TRÍ THÍ NGHIỆM & PHÂN TÍCH PHƯƠNG SAI Phương pháp phân tích phương sai (ANOVA = analysis of variance) do tiến sĩ R.A. Fissher đưa ra từ năm 1925. Từ đó đến nay nó là một trong những phương pháp phân tích thống kê quan trọng thường được ứng dụng rộng rãi trong Y học, Sinh học, Nông nghiệp. Nội dung chủ yếu là xác định ảnh hưởng của các nhân tố đến kết quả của các thí nghiệm. Chẳng hạn, nghiên cứu ảnh hưởng của lượng phân bón, mật độ đến năng suất cây trồng. Phương pháp phân tích phương sai phụ thuộc vào các đặc điểm cơ bản của từng nhân tố thí nghiệm như số nhân tố, tính chất và loại hình thí nghiệm. Do đó trước khi tiến hành phân tích chúng ta cần tìm hiểu về bố trí thí nghiệm để ứng dụng phương pháp phân tích phương sai thích hợp. I. ĐẠI CƯƠNG VỀ BỐ TRÍ THÍ NGHIỆM 1. Mục đích Bố trí thí nghiệm (experimental design) là lập kế hoạch về các bước cần tiến hành để thu thập số liệu cho vấn đề đang nghiên cứu. Mục đích để có nhiều kết luận chính xác với chi phí thấp nhất. 2. Một số khái niệm thường dùng Nhân tố (Factor) Nhân tố là biến độc lập cần nghiên cứu, có thể là biến định lượng hoặc định tính, liên tục hoặc gián đoạn. Thí dụ: nghiên cứu ảnh hưởng của các loại thức ăn (nhân tố A) và giới tính (nhân tố B) đến sự tăng trọng của cá. Đơn vị thí nghiệm (Experimental Unit) Một đơn vị thí nghiệm là một đơn vị nghiên cứu trong thí nghiệm, hoặc cụ thể hơn đó là đơn vị nhỏ nhất mà một nghiệm thức được ứng dụng. Thí dụ: đơn vị thí nghiệm có thể là 1 con gà, một đàn heo, một ruộng lúa 3. Hai nguyên tắc cơ bản về bố trí thí nghiệm Lặp lại (Replication) Một nghiệm thức phải được lặp lại nhiều hơn 1 eu. Điều này cho phép so sánh ảnh hưởng của nghiệm thức với các mức biến thiên sinh học của các eu. Số nghiệm thức càng tăng thì sai số chuẩn càng nhỏ và độ chính xác của thí nghiệm càng cao. Số lần lặp lại không có giới hạn nhưng cần phải cân bằng giữa độ chính xác và chi phí thí nghiệm. Ngẫu nhiên hoá (Randomisation) Mẫu phải được chọn sao cho tất cả các đơn vị thí nghiệm được bố trí ngẫu nhiên vào các nghiệm thức. Điều này giúp tránh được các thành kiến của người làm thí nghiệm cũng như các biến động sinh học, môi trường 4. Kỹ thuật ngẫu nhiên hoá Để thực hiện việc ngẫu nhiên hoá, tránh những sai sót chủ quan của người thí nghiệm ta có thể dùng một trong các cách: – thảy đồng xu (sấp, ngửa) – dùng bảng số ngẫu nhiên – tạo các số ngẫu nhiên bằng máy tính. 91
  38. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Thí dụ: Một thí nghiệm gồm hai nghiệm thức (A, B), mỗi nghiệm thức có 5 đơn vị thí nghiệm. – Đánh số các đơn vị thí nghiệm 1, 2, , 10. – Chọn 10 số đầu tiên trong cột thứ nhất của bảng số ngẫu nhiên: 8, 4, 8, 7 – Các đơn vị thí nghiệm có số ngẫu nhiên từ 0 – 4 được bố trí vào nghiệm thức A, từ 5 – 9 vào nghiệm thức B. Số thứ tự Số ngẫu nhiên Nghiệm thức 1 8 B 2 4 A 3 8 B 4 7 B 5 1 A 6 6 B 7 1 A 8 5 B (đủ 5B) 9 A 10 A vì đến đơn vị thứ 8 số nghiệm thức B đã đủ nên đơn vị 9 và 10 được bố trí vào nghiệm thức A. II. CÁC KIỂU BỐ TRÍ THÍ NGHIỆM PHỔ BIẾN 1. Bố trí ngẫu nhiên hoàn toàn (Completely Randomised Design = CRD) Đây là kiểu bố trí thí nghiệm đơn giản nhất, trong đó tất cả các đơn vị thí nghiệm được bố trí vào các nghiệm thức. Đây chính là cách ngẫu nhiên hoá vừa được đề cập. Kiểu bố trí này được dùng khi các đơn vị thí nghiệm không có những sai khác mang tính hệ thống. Chẳng hạn tất cả các động vật thí nghiệm có cùng độ tuổi, tất cả các nông trại đều có kỹ thuật canh tác giống nhau Thí dụ: CRD cho thí nghiệm 1 có nhân tố – Các mức nhân tố A, B, C – 15 lô (plot) đất không có sự khác biệt – Bố trí 5 lô vào mỗi nghiệm thức 1 A 2 B 3 B 4 C 5 A 6 B 7 B 8 C 9 C 10 C 11 A 12 C 13 A 14 B 15 A Áp dụng Minitab – Đặt tên cho các cột C1, C2, C3 lần lượt là ‘UNIT’, ‘RANDOM’, ‘GROUP’ – Calc > Make Patterned Data > Arbitrary Set of Numbers Store pattern data in: UNIT Arbitrary set of numbers: 1:15 – Calc > Random Data > Sample from Columns Sample 15 rows from column(s): UNIT a Store samples in: RANDOM a – Calc > Make Patterned Data > Arbitrary Set of Numbers 92
  39. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Store pattern data in: GROUP . Arbitrary set of numbers: 1:3 List each value: 5 times Row UNIT RANDOM GROUP 1 1 7 1 2 2 1 1 3 3 3 1 4 4 8 1 5 5 15 1 6 6 5 2 7 7 12 2 8 8 6 2 9 9 14 2 10 10 10 2 11 11 9 3 12 12 13 3 13 13 11 3 14 14 2 3 15 15 4 3 – Đặt tên các cột C4, C5, C6 lần lượt là TREAT A’, ‘TREAT B’, ‘TREAT C’ – Data > Unstack Columns Unstack the data in : RANDOM a Using subscripts in : GROUP a After last column in use. Data Display Row TREAT A TREAT B TREAT C 1 7 5 9 2 1 12 13 3 3 6 11 4 8 14 2 5 15 10 4 Qui trình phân tích một CRD Nếu dữ liệu có phân bố chuẩn, phương sai đồng nhất: – thí nghiệm 1 nhân tố, 2 mức: 2-sample t-test – thí nghiệm 1 nhân tố, > 2 mức: 1-way ANOVA Những hạn chế của CRD CRD đòi hỏi tất cả các đơn vị thí nghiệm phải tương tự nhau trước khi được bố trí vào nghiệm thức. Thông thường trong các thí nghiệm ngoài thực địa sẽ không có đủ các đơn vị thí nghiệm bảo đảm cho điều này. Do đó nếu có sự biến động giữa các đơn vị thí nghiệm và chúng ta bỏ qua nó thì sẽ dẫn đến hai kết quả: 1) Mất độ chính xác 2) Kết luận sai: giả sử một CRD được dùng trong một thí nghiệm ngoài ruộng với 3 nghiệm thức A, B, C và một phần của các lô thí nghiệm có độ ẩm cao hơn do chúng nằm gần một nhánh sông. 93
  40. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - B C B A A C B A C B nhánh sông B C C A A độ ẩm tăng Trong sơ đồ trên ta thấy các lô chứa nghiệm thức A có độ ẩm cao hơn. Do đó khó phân biệt được kết quả thí nghiệm chịu sự chi phối của nghiệm thức A hay do độ ẩm. Thí nghiệm này không thích hợp với kiểu bố trí ngẫu nhiên hoàn toàn. 2. Bố trí khối hoàn toàn ngẫu nhiên (Randomised Complete Block Design = RCBD) Là kiểu bố trí trong đó các đơn vị thí nghiệm được tập hợp thành từng khối (block) sao cho mỗi khối có đầy đủ tất cả các nghiệm thức, trong mỗi khối các đơn vị thí nghiệm có tính chất đồng đều. Như vậy số đơn vị thí nghiệm trong mỗi khối = số nghiệm thức, số khối = số lần lặp lại. Trong thí dụ trên, nếu bố trí theo kiểu RCBD như sơ đồ dưới đây: Blk 1 Blk 2 Blk 3 Blk 4 Blk 5 C B C C B A A B B A nhánh sông B C A A C độ ẩm tăng ta thấy mỗi khối có đủ tất cả các nghiệm thức, các nghiệm thức này có độ ẩm tương tự nhau. Thí dụ: một thí nghiệm có 3 nghiệm thức (A, B, C), mỗi nghiệm thức có 5 khối => tổng cộng 15 đơn vị thí nghiệm. Áp dụng Minitab – Đặt tên cho cột C1 là ‘UNIT’, – Calc > Make Patterned Data > Arbitrary Set of Numbers Store pattern data in: UNIT Arbitrary set of numbers: 1:3 – Calc > Random Data > Sample from Columns Sample 3 rows from column(s): UNIT a Store samples in: C2 a lặp lại, lần lượt store sample in C3, C4, C5, C6 – Đặt tên các cột từ C2 – C6 là ‘BLOCK 1’ – ‘BLOCK 5’. Kết quả như sau: Data Display Row BLOCK 1 BLOCK 2 BLOCK 3 BLOCK 4 BLOCK 5 1 1 2 3 2 2 2 2 3 1 3 1 3 3 1 2 1 3 94
  41. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Như vậy: Block 1, Đơn vị 1 nhận nghiệm thức C Block 1, Đơn vị 2 nhận nghiệm thức A Block 1, Đơn vị 3 nhận nghiệm thức B Qui trình phân tích một RCBD Nếu dữ liệu có phân bố chuẩn và phương sai đồng nhất, ta có thể dùng t-test và ANOVA. Bố trí với hai nghiệm thức: nếu mỗi khối có hai đơn vị thí nghiệm thì đây chính là bố trí theo cặp. Hai nghiệm thức được bố trí ngẫu nhiên trong mỗi cặp (Chẳng hạn dùng cách thảy đồng xu) Các dữ liệu sẽ được phân tích bằng cách dùng paired t-test. Bố trí với nhiều nghiệm thức: khi thí nghiệm có từ 3 nghiệm thức trở lên, ta dùng phương pháp phân tích phương sai (ANOVA). Mỗi khối có số đơn vị thí nghiệm bằng (hoặc là bội số) nghiệm thức. Chẳng hạn nếu có 4 nghiệm thức thì trong mỗi khối sẽ có 4 hoặc 8 hoặc 12 đơn vị thí nghiệm. 3. Bố trí ô vuông La tinh (Latin Square Designs) Bố trí thí nghiệm kiểu RCBD khắc phục được vấn đề của CRD đối với đơn vị thí nghiệm không đồng nhất theo một hướng. Tuy nhiên trong thực tế đôi khi ta gặp phải trường hợp các biến động xảy ra theo cả hai hướng, chẳng hạn độ màu mỡ của đất trong các thí nghiệm về nông nghiệp, như sơ đồ dưới đây: độ màu mỡ độ màu mỡ Trong trường hợp này nếu bố trí theo kiểu RCBD ta cũng sẽ gặp phải hai vấn đề là mất độ chính xác và kết luận sai. Vì vậy chúng ta cần bố trí khối theo hai hướng. Cách sắp xếp các nghiệm thức cho phù hợp là bố thí theo ô vuông La tinh. Thí dụ: bố trí ô vuông La tinh cho thí nghiệm có 4 nghiệm thức C A D B B D A C A B C D D C B A 95
  42. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Cần lưu ý rằng: – Mỗi nghiệm thức chỉ hiện diện một lần trong mỗi hàng hay mỗi cột. – Mỗi hàng hay cột đều là một khối đầy đủ. Thứ tự các nghiệm thức trong hàng hay cột là ngẫu nhiên. – Số đơn vị thí nghiệm = (số nghiệm thức)2 Kỹ thuật ngẫu nhiên hoá cho bố trí ô vuông La tinh Giả sử ta cần bố trí một ô vuông La tinh 4 x 4 cho thí nghiệm có 4 nghiệm thức A, B, C, D. Bước 1. Viết các ký tự a, b, c, d vào ô vuông La tinh theo đúng các yêu cầu phải thoả a b c d b c d a c d a b d a b c Bước 2. Phân bố ngẫu nhiên các nghiệm thức vào từng ô vuông úng với mỗi ký tự. Dùng bảng số ngẫu nhiên ta có thể nhận được a C b D c A d B Kết quả: C D A B D A B C A B C D B C D A III. PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ (ONE-WAY ANOVA) 1. Các bước tổng quát trong phân tích phương sai một nhân tố 1. Kiểm tra các điều kiện cần phải thỏa trước khi tiến hành phân tích. 2. Đặt giả thuyết. 3. Tiến hành phân tích phương sai để kiểm định giả thuyết. 4. Nhận xét và kết luận. Bước 1. Kiểm tra các điều kiện cần phải thỏa trước khi tiến hành phân tích. (1) Dữ liệu phải có phân bố chuẩn 2 2 Xij ~ N (i,  ) hoặc ij ~ N(0,  ) Kiểm tra điều kiện này bằng cách dùng biểu đồ histogram, boxplot Điều này phải được tiến hành riêng cho từng nhóm. Tốt hơn là kiểm tra phân bố của sai số ngẫu nhiên của toàn bộ dữ liệu. 2 2 2 (2) Phương sai (tổng thể) của các nhóm phải bằng nhau (1  2  t ). Ta có thể dựa vào: ®é lÖch chuÈn lín nhÊt 2 ®é lÖch chuÈn nhá nhÊt Để minh hoạ điều này ta xem thí dụ về mức globulin miễn dịch (Ig = Immunoglobulin) trong huyết thanh (g/100 ml) trong 3 giống cừu sơ sinh. 96
  43. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Breed 1 1.1 2.2 1.7 1.4 1.6 2.3 1.4 1.9 0.8 1.6 1.2 1.6 1.6 1.6 1.5 1.9 Breed 2 1.7 2.3 1.8 2.3 2.5 2.4 2.5 1.9 2.2 2.0 2.4 3.0 2.0 Breed 3 2.1 2.5 2.8 2.1 2.0 2.2 2.7 2.3 2.6 2.4 1.7 1.4 1.7 2.4 2.6 Câu hỏi đặt ra là mức globulin miễn dịch trung bình của 3 giống cừu có khác biệt ý nghĩa hay không? (1) Kiểm tra tính phân bố chuẩn của số liệu gốc Stat > Basic Statistics > Normality Test Variable: Ig Percentile Lines: None Test for Normality: Anderson–Darling  OK Probability Plot of Ig Normal 99 Mean 1.998 StDev 0.4868 95 N 44 90 AD 0.330 80 P-Value 0.506 70 60 50 40 Percent 30 20 10 5 1 1.0 1.5 2.0 2.5 3.0 Ig Từ kết quả trên ta có thể thấy dữ liệu có phân bố chuẩn. Ta cũng có thể kiểm tra phân bố chuẩn của sai số: Stat > ANOVA > One-way / Response: Ig Factor: Breed Store residuals:  Confidence level: 95.0 Graph: Normal plot of residual One-way ANOVA: Ig versus Breed Source DF SS MS F P Breed 2 4.231 2.116 14.56 0.000 Error 41 5.959 0.145 Total 43 10.190 S = 0.3812 R-Sq = 41.52% R-Sq(adj) = 38.67% 97
  44. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev + + + + 1 16 1.5875 0.3810 ( * ) 2 13 2.2308 0.3521 ( * ) 3 15 2.2333 0.4047 ( * ) + + + + 1.50 1.80 2.10 2.40 Pooled StDev = 0.3812 Normal Probability Plot of the Residuals 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 Probability 0.3 0.2 0.1 0.05 0.01 -1.0 -0.5 0.0 0.5 1.0 Residual Từ kết quả trên ta có thể thấy sai số có phân bố chuẩn. (2) Kiểm tra phương sai chung. Stat > Basic Statistics > Display Descriptive Statistics / Variables: C1 By Variables (optional): C2 Graph: Boxplot of data (checked) Descriptive Statistics: Ig Variable Breed N Mean SE Mean StDev Median Ig 1 16 1.5875 0.0953 0.3810 1.6000 2 13 2.2308 0.0977 0.3521 2.3000 3 15 2.233 0.105 0.405 2.300 Có vẽ có sự khác biệt về mức Ig giữa 3 giống nhưng điều này cần được kiểm định với ANOVA. Các độ lệch chuẩn mẫu xấp xỉ nhau nên ta có thể giả định rằng các phương sai của tổng thể cũng bằng nhau. Ta có thể kiểm tra giả thuyết này. Minitab cho phép kiểm tra nhưng chỉ với các thí nghiệm có một nhân tố. 98
  45. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Stat > ANOVA > Test for Equal Variances Response: Ig Factors: Breed Confidence level: 95.0 Test for Equal Variances: Ig versus Breed 95% Bonferroni confidence intervals for standard deviations Breed N Lower StDev Upper 1 16 0.264304 0.381007 0.656444 2 13 0.235732 0.352100 0.658539 3 15 0.277776 0.404734 0.714208 Bartlett's Test (normal distribution) Test statistic = 0.24, p-value = 0.887 Levene's Test (any continuous distribution) Test statistic = 0.24, p-value = 0.786 Kết quả kiểm tra cho thấy các phương sai giống nhau (Nếu P bác bỏ H0) Test for Equal Variances for Ig Bartlett's Test Test Statistic 0.24 1 P-Value 0.887 Lev ene's Test Test Statistic 0.24 P-Value 0.786 2 Breed 3 0.2 0.3 0.4 0.5 0.6 0.7 95% Bonferroni Confidence Intervals for StDevs Bước 2. Đặt giả thuyết H0 : 1 = 2 = = a H1 : có ít nhất hai trong số các trung bình là bằng nhau Bước 3. Tiến hành phân tích phương sai để kiểm định giả thuyết. 99
  46. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Thí dụ 1 (Peter, 2001): Một thí nghiệm được tiến hành để so sánh trọng lượng (g) của các con gà được nuôi bằng 4 khẩu phần ăn (diet) khác nhau. Hai mươi con gà có trọng lượng ban đầu như nhau được bố trí ngẫu nhiên vào từng nhóm, mỗi nhóm gồm 5 con. Kết quả thí nghiệm được ghi nhận trong bảng 5.1. Bảng 5.1. Trọng lượng gà nuôi bằng các khẩu phần ăn khác nhau (Peter, 2001) Khẩu phần 1 Khẩu phần 2 Khẩu phần 3 Khẩu phần 4 99 61 42 169 88 112 97 137 76 30 81 169 38 89 95 85 94 63 92 154 Có hai nguồn biến động trong các dữ liệu thu được: (1). Sai khác giữa bốn khẩu phần ăn (variation between group), còn gọi là ảnh hưởng của nghiệm thức (treatment effect). (2). Sai khác trong mỗi khẩu phần ăn (variation within group), liên quan tới những biến động ngẫu nhiên của môi trường, sai số thí nghiệm Kết quả thống kê mô tả như sau: Khẩu phần 1 2 3 4 Tổng Trung bình mẫu x1 79.0 x2 71.0 x3 81.4 x4 142.8 x 93.55 Độ lệch chuẩn mẫu s1 = 24.5 s2 = 31.0 s3 = 22.9 s4 = 34.9 s = 39.52 Cở mẫu n1 = 5 n2 = 5 n3 = 5 n4 = 5 N = 20 Cần lưu ý rằng x và s là trung bình và độ lệch chuẩn chung của toàn bộ các giá trị quan sát (N = 20). Nói chung, giả sử ta có t nghiệm thức khác nhau và từ tổng thể thứ 1, 2, thứ t, ta rút ra các mẫu có cở mẫu là n1, n2, , nt. Tổng số quan sát là n1 + n2 + + nt = N. Như vậy trong thí nghiệm về khẩu phần ăn có 4 nghiệm thức (t = 4), mỗi nghiệm thức gồm 5 lần lặp lại (n1 = n2 = n3 = n4 = 5) và tổng chung là N = 20. Nếu số lần lặp lại của các nghiệm thức bằng nhau, ta có thể dùng r để ký hiệu số lần lặp lại của mỗi nghiệm thức. Khi đó N = rt. Kết quả thí nghiệm được ghi nhận như bảng sau: Nhân tố thí nghiệm A Nghiệm thức 1 Nghiệm thức 2 Nghiệm thức 3 Nghiệm thức t X11 X21 X31 Xt1 X12 X22 X32 Xt2 X1n1 X2n2 X3n3 Xtnt 100
  47. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Dữ liệu có thể được mô hình hóa như sau: D÷ liÖu Trung b×nh Sai sè = + quan s¸t mÉu ngÉu nhiªn Xij = i + ij trong đó i = 1, 2, 3, , t (số nhóm mẫu = số nghiệm thức) j = 1, 2, , ni (cở mẫu = số lần lặp lại). Trong thí dụ trên: 1 = trọng lượng trung bình của gà nuôi bằng khẩu phần 1 2 = trọng lượng trung bình của gà nuôi bằng khẩu phần 2 Qui trình phân tích phương sai Mặc dù mô hình, các điều kiện, giả thuyết đều tương tự như kiểm định t khi so sánh trung bình hai mẫu, qui trình phân tích phương sai hoàn toàn khác. Nhìn chung, các biến động của dữ liệu được chia thành hai nhóm: 1) Biến động giữa các nhóm, do sai khác giữa các nghiệm thức (Treatment difference variation) 2) Biến động trong mỗi nhóm, do sai số ngẫu nhiên (Residual variation) Nghĩa là SSTO = SST + SSE Trong đó SSTO = tổng bình phương chung (sums of squares total) SST = tổng bình phương nghiệm thức (sums of squares for treatment) SSE = tổng bình phương sai số (sums of squares for error) Các tổng bình phương được tính như sau: Tổng bình phương chung: t ni 2 SSTO =  (xij x ) i 1 j 1 = ( 99 – 93.55)2 + ( 88 – 93.55)2 + + ( 94 – 93.55)2 + ( 61 – 93.55)2 + (112 – 93.55)2 + + ( 63 – 93.55)2 + ( 42 – 93.55)2 + ( 97 – 93.55)2 + + ( 92 – 93.55)2 + (169 – 93.55)2 + (137 – 93.55)2 + + (154 – 93.55)2 = 29,679 t ni 2 2 Có thể tính cách khác, vì s =  ( xij x ) / ( N 1) nên: i 1 j 1 SSTO = (N–1)s2= 19*(39.52)2 = 29,679 Tổng bình phương nghiệm thức t 2 SST = ni() x i x i 1 = 5(79.0 – 93.55)2 + 5(71.0 – 93.55)2 + 5(81.4 – 93.55)2 + 5(142.8 – 93.55)2 = 16,467 Tổng bình phương sai số ngẫu nhiên a n 2 SSE = ()xij x i i 1 j 1 = ( 99 – 79.0)2 + ( 88 – 79.0)2 + + ( 94 – 79.0)2 + ( 61 – 71.0)2 + (112 – 71.0)2 + + ( 63 – 71.0)2 + 101
  48. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - ( 42 – 81.4)2 + ( 97 – 81.4)2 + + ( 92 – 81.4)2 + (169 – 142.8)2 + (137 – 142.8)2 + + (154 – 142.8)2 = 13,212 ni ni 2 2 2 2 Có thể tính cách khác, vì si =  ( x ij x i ) / ( n i 1)  (ni 1) s i =  ( x ij x i ) j 1 j 1 t 2 Do đó SSE = (ni 1) s i i 1 = (4*24.52) + (4*31.02) + (4*22.9)2 + (4*34.92) = 13,212 Sau khi tính toán các giá trị của tổng bình phương, các kết quả có thể trình bày trong bảng ANOVA như sau: Source of variation Sum of Square degree of freedom Mean square F ratio SST MST Treatment SST t – 1 MST t 1 MSE SSE Residual SSE N – t MSE N t Total SSTO N – 1 Với dữ liệu về trọng lượng gà như trên, ta có bảng ANOVA: Nguồn Tổng Trung bình Độ tự do F tính biến động Bình phương Bình phương Nghiệm thức 16,467 3 5,489 6.65 Sai số 13,212 16 826 Tổng 29,679 19 Trung bình bình phương sai số (MSE) là một ước lượng của 2 nên: s MSE 826 28.7 g. 2 Trung bình bình phương nghiệm thức cũng là một ước lượng của  nếu H0 đúng, 2 ngược lại nó sẽ lớn hơn  . Do đó nếu H0 đúng, F tính sẽ có giá trị chung quanh 1. Có thể so sánh F tính với phân bố F có độ tự do t – 1 và N – t. Trong thí dụ trên: F tính = 6.65 với độ tự do 3, 16. Bước 4. Nhận xét và kết luận – Nếu giá trị P F bảng ta sẽ bác bỏ giả thuyết H0 và có thể kết luận rằng có ít nhất là 2 trung bình mẫu khác nhau. – Nếu ngược lại (H0 được chấp nhận) ta sẽ kết luận rằng không đủ bằng chứng để bác bỏ H0, nghĩa là các trung bình mẫu không khác nhau. Trong thí dụ trên, vì F tính > F bảng nên giả thiết H0 bị bác bỏ và ta nói rằng các khẩu phần ăn đã có tác động khác nhau đến sự tăng trọng của gà, trong đó khẩu phần 4 cho tăng trọng cao nhất. 102
  49. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Áp dụng Minitab Bước 1. Kiểm tra mô tả dữ liệu (kiểm tra các điều kiện phải thỏa) Minitab Worsheet: Chicken weights Data > Display Data Data Display Row Diet 1 Diet 2 Diet 3 Diet 4 1 99 61 42 169 2 88 112 97 137 3 76 30 81 169 4 38 89 95 85 5 94 63 92 154 Stat > Basic Statistics > Display Descriptive Statistic Descriptive Statistics: Diet 1, Diet 2, Diet 3, Diet 4 Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum Diet 1 5 79.0 10.9 24.5 38.0 57.0 88.0 96.5 99.0 Diet 2 5 71.0 13.9 31.0 30.0 45.5 63.0 100.5 112.0 Diet 3 5 81.4 10.2 22.9 42.0 61.5 92.0 96.0 97.0 Diet 4 5 142.8 15.6 34.9 85.0 111.0 154.0 169.0 169.0 Graph > Boxplots /Multiple Y’s > Simple > OK Graph Variables: ‘Diet 1’ ‘Diet 2’ ‘Diet 3’ ‘Diet 4’ 180 160 140 120 100 Data 80 60 40 20 Diet 1 Diet 2 Diet 3 Diet 4 Tính theo công thức s4/s3 = 34.9/22.9 = 1.53 < 2 Từ kết quả tóm tắt của thống kê mô tả trên, ta thấy dữ liệu có phân bố chuẩn, phương sai đồng nhất. 103
  50. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Bước 2. Đặt giả thuyết H0 : 1 = 2 = 3 = a H1 : có ít nhất hai trong số các trung bình là bằng nhau Bước 3. Kiểm định giả thuyết bằng phân tích phương sai Có thể nhập liệu vào bảng tính của Minitab theo một trong hai cách: (1) Stacked data: tất cả các giá trị của các nghiệm thức được nhập chung trong một cột, cột thứ hai là tên của nghiệm thức. (2) Unstacked: dữ liệu của mỗi nghiệm thức được nhập vào một cột riêng. Stat > ANOVA > One-way (Unstacked) / Responses: C1 – C4 One-way ANOVA: Diet 1, Diet 2, Diet 3, Diet 4 Source DF SS MS F P Factor 3 16467 5489 6.65 0.004 Error 16 13212 826 Total 19 29679 S = 28.74 R-Sq = 55.48% R-Sq(adj) = 47.14% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev + + + + Diet 1 5 79.00 24.47 ( * ) Diet 2 5 71.00 31.02 ( * ) Diet 3 5 81.40 22.88 ( * ) Diet 4 5 142.80 34.90 ( * ) + + + + 70 105 140 175 Pooled StDev = 28.74 Có thể tra giá trị của F bảng trong bảng phụ lục hoặc dùng Minitab để tính. Calc > Probability Distribution / F Inverse cummulative probability > Non centrality parameter: 0 Numerator degrees of freedom: 3 Denominator degrees of freedom: 16  Input constant : 0.95 Optional storage: K1  OK Data > Display data Columns, constants, and matrices to display: K1  OK Data Display K1 3.23887 Bước 4. Nhận xét và Kết luận Kết quả phân tích phần ANOVA cho thấy giá trị của F = 6.65 lớn hơn F bảng = 3.24, hay P-value = 0.004 nhỏ hơn rất nhiều so với P 0.05 nên giả thiết về sự giống nhau giữa các trung bình của các nghiệm thức (khẩu phần ăn 1, 2, 3, 4) bị bác bỏ. Nói cách khác là các khẩu phần ăn có tác động khác nhau đến sự tăng trọng của gà. 104
  51. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 2. So sánh các nghiệm thức Giả sử rằng qua phân tích ANOVA ta phát hiện được trung bình của các nghiệm thức khác biệt có ý nghĩa. Câu hỏi tiếp theo là những nghiệm thức nào có trung bình khác nhau? Chúng ta có thể so sánh trung bình của từng cặp nghiệm thức để tìm ra những cặp khác biệt có ý nghĩa. Để làm được điều này, ta phải sửa đổi đôi chút phương pháp kiểm định t. Cần nhớ lại rằng, để so sánh 2 trung bình mẫu bằng kiểm định t, ta dùng công thức: x x x x t 1 2 1 2 2 1 1 se s p () n1 n 2 trong đó phương sai ( được ước lượng từ hai mẫu. Trong trường hợp của ANOVA ta có một ước lượng của 2 tốt hơn dùng chung cho tất cả các mẫu. Đó là trung bình bình phương của sai số (Residual Mean Square = MSE). Do đó công thức trên có thể viết lại là: x x t 1 2 1 1 MSE ( ) n1 n 2 trong trường hợp này độ tự do không được ước lượng từ hai mẫu đem so sánh mà từ tất cả các mẫu. Đó là độ tự do của MSE. Trong thí dụ về Ig, nếu so sánh giữa nhóm 1 và 2 thì: 1.5875 2.2308 t 4.51974 1 1 0.1453 16 13 vì df = 41, tra bảng => P < 0.002. Như vậy mức Ig của hai giống 1 và 2 khác biệt có ý nghĩa, giống 2 có mức Ig cao hơn. Bằng cách làm tương tự ta tìm thấy giống 1 có mức Ig thấp hơn có ý nghĩa so với tất cả các giống khác. Trong Minitab không có kiểm định t để so sánh như đã trình bày trên. Thay vào đó ta sẽ tìm hiểu hai trong số các phương pháp phổ biến nhất để so sánh trung bình của các nghiệm thức. Đó là phương pháp kiểm định Tukey (Tukey’s test) và phương pháp kiểm định Fisher (Fisher’s test) hay còn gọi là Fisher’s LSD (LSD = least significant difference, nghĩa là sai khác ít có ý nghĩa nhất). a) So sánh các nghiệm thức bằng kiểm định Tukey Phương pháp Tukey so sánh trung bình của các cặp nhân tố bằng cách dùng tỉ lệ sai lầm của nhóm (family error rate) để kiểm soát tỉ lệ sai lầm loại I. Tỉ lệ sai lầm của nhóm là xác suất tạo ra một hoặc nhiều sai lầm loại I cho toàn bộ các so sánh. Kết quả được trình bày dưới dạng khoảng tin cậy (confidence interval) cho sai khác giữa các cặp trung bình. Dùng khoảng tin cậy này để xác định xem có sự sai khác giữa các trung bình hay không: – Nếu khoảng tin cậy không có chứa giá trị 0 thì trung bình giữa hai nhóm khác biệt có ý nghĩa về mặt thống kê. – Nếu khoảng tin cậy có chứa giá trị 0 thì trung bình giữa hai nhóm không khác biệt có ý nghĩa về mặt thống kê. Để tiến hành so sánh trung bình các nghiệm thức trong thí dụ 1 bằng Tukey’s test, chọn: 105
  52. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Stat > ANOVA > One-way (Unstacked) / Responses: C1 – C4 Comparisons  Tukey’s family error rate: 5 (tức 5% hay 0.05) OK Kết quả Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 98.87% Diet 1 subtracted from: Lower Center Upper + + + +- Diet 2 -60.05 -8.00 44.05 ( * ) Diet 3 -49.65 2.40 54.45 ( * ) Diet 4 11.75 63.80 115.85 ( * ) + + + +- -70 0 70 140 Diet 2 subtracted from: Lower Center Upper + + + +- Diet 3 -41.65 10.40 62.45 ( * ) Diet 4 19.75 71.80 123.85 ( * ) + + + +- -70 0 70 140 Diet 3 subtracted from: Lower Center Upper + + + +- Diet 4 9.35 61.40 113.45 ( * ) + + + +- -70 0 70 140 Vì 95% CI cho tất cả các so sánh có khẩu phần 4 như H0: 1 = 4, H0: 2 = 4, H0: 3 = 4 đều không có giá trị 0 nên giả thuyết H0 bị bác bỏ. Tất cả các giả thuyết so sánh khác đều được chấp nhận. Như vậy nghiệm thức 4 (khẩu phần 4) ảnh hưởng có ý nghĩa đối với tăng trọng của gà, trong khi các khẩu phần 1, 2, 3 không khác biệt có ý nghĩa. b) So sánh các nghiệm thức bằng Fisher’s LSD. Để tiến hành so sánh trung bình các nghiệm thức trong thí dụ 1 bằng Fisher’s LSD, chọn: Stat > ANOVA > One-way (Unstacked) / Responses: C1 – C4 Comparisons  Fisher’s individual error rate: 5 OK 106
  53. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Kết quả Fisher 95% Individual Confidence Intervals All Pairwise Comparisons Simultaneous confidence level = 81.11% Diet 1 subtracted from: Lower Center Upper + + + +- Diet 2 -46.53 -8.00 30.53 ( * ) Diet 3 -36.13 2.40 40.93 ( * ) Diet 4 25.27 63.80 102.33 ( * ) + + + +- -60 0 60 120 Diet 2 subtracted from: Lower Center Upper + + + +- Diet 3 -28.13 10.40 48.93 ( * ) Diet 4 33.27 71.80 110.33 ( * ) + + + +- -60 0 60 120 Diet 3 subtracted from: Lower Center Upper + + + +- Diet 4 22.87 61.40 99.93 ( * ) + + + +- -60 0 60 120 Kết luận cũng tương tự như kiểm định Tukey Các kết quả trên có thể trình bày như trong bảng sau: Khẩu phần Trung bình 1 79.0a 2 71.0a 3 81.4a 4 142.8b Ký tự phía trên mỗi mẫu cho biết hai mẫu có sự khác biệt hoặc không (các mẫu có cùng ký tự là các mẫu không có sự khác biệt) . Thí dụ 2 (Sokal&Rohlf, 1995): Chiều rộng vảy lưng (scutum) ở ấu trùng của loài bét (tick) Haemaphisalis leporispalutris ký sinh trên 4 con thỏ được ghi nhận trong bảng 5.2. Hãy dùng phương pháp phân tích phương sai để tìm hiểu xem độ rộng vảy lưng của ấu trùng bét có sự khác nhau (do kí chủ khác nhau) hay không? Bảng 5.2. Chiều rộng vảy lưng (tính theo m) ở ấu trùng bét. Host 1 380 376 360 368 372 366 374 382 Host 2 350 356 358 376 338 342 366 350 344 364 Host 3 354 360 362 352 366 372 362 344 342 358 351 348 348 Host 4 376 344 342 372 374 360 107
  54. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Phân tích phương sai Stat > ANOVA > One-way (Unstacked) / Responses: C1 – C4 Comparisons / Fisher’s Graphs / Normal plot of residuals Kết quả One-way ANOVA: Host 1, Host 2, Host 3, Host 4 Source DF SS MS F P Factor 3 1808 603 5.26 0.004 Error 33 3778 114 Total 36 5586 S = 10.70 R-Sq = 32.36% R-Sq(adj) = 26.21% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev + + + + Host 1 8 372.25 7.36 ( * ) Host 2 10 354.40 11.92 ( * ) Host 3 13 355.31 8.92 ( * ) Host 4 6 361.33 15.27 ( * ) + + + + 350 360 370 380 Pooled StDev = 10.70 Fisher 95% Individual Confidence Intervals All Pairwise Comparisons Simultaneous confidence level = 80.38% Host 1 subtracted from: Lower Center Upper + + + + Host 2 -28.18 -17.85 -7.52 ( * ) Host 3 -26.72 -16.94 -7.16 ( * ) Host 4 -22.67 -10.92 0.84 ( * ) + + + + -24 -12 0 12 Host 2 subtracted from: Lower Center Upper + + + + Host 3 -8.25 0.91 10.06 ( * ) Host 4 -4.31 6.93 18.17 ( * ) + + + + -24 -12 0 12 Host 3 subtracted from: Lower Center Upper + + + + Host 4 -4.72 6.03 16.77 ( * ) + + + + -24 -12 0 12 108
  55. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Normal Probability Plot of the Residuals (responses are Host 1, Host 2, Host 3, Host 4) 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 Probability 0.3 0.2 0.1 0.05 0.01 -30 -20 -10 0 10 20 30 Residual Kết luận Chúng ta bác bỏ giả thuyết H0 ở mức xác suất P = 0.01, nghĩa là chiều rộng vảy lưng ở ấu trùng của bét ký sinh trên các ký chủ khác nhau khác biệt có ý nghĩa. Kết luận này có ý nghĩa gì về mặt sinh học? Các con bét ký sinh trên các ký chủ khác nhau có sự khác biệt lớn hơn so với các con bét ký sinh trên cùng một ký chủ. Có thể do ảnh hưởng của ký chủ trên bét (sự khác biệt về sinh hóa của máu, về da, về môi trường sống của ký chủ ) hoặc do sai khác di truyền giữa các con bét. Để xác định tỉ lệ của sai khác trong nhóm và giữa các nhóm, ta cần tính giá trị trung bình của mẫu và phương sai thành phần. Trong trường hợp cở mẫu không bằng nhau thì: Giá trị trung bình của mẫu: t 2 1 t ni n n i 1 0  i 1 i t t 1 n i 1 i trong thí dụ trên: 1 82 10 2 13 2 6 2 n0 [18 10 13 6] 9.009 4 1 8 10 13 6 Phương sai thành phần: 2 MSA MSE sA n0 trong thí dụ trên: 602.58 114.48 s2 54.179 A 9.009 Tỉ lệ của sai khác giữa các nhóm: 2 sA 2 *100 sA MSE trong thí dụ trên: 2 sA 54.179 2 *100= *100=32.1% sA MSE 54.179 114.48 109
  56. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - IV. PHÂNTÍCH PHƯƠNG SAI HAI NHÂN TỐ (TWO-WAY ANOVA) Trong các thí nghiệm thực nghiệm hoặc thực địa (phòng thí nghiệm, nhà kính, đồng ruộng ) người ta thường so sánh và phân tích sự tác động đồng thời của hai nhân tố lên kết quả thí nghiệm (như tác động của phân bón, thời vụ lên năng suất cây trồng). Việc phân tích các thí nghiệm như vậy thường được chia thành hai trường hợp: hai nhân tố không lặp lại và hai nhân tố với nhiều lần lặp lại. 1. Hai nhân tố không lặp lại Phương pháp phân tích phương sai hai nhân tố không lặp lại (Two-way Anova Without Replication) thường được dùng cho những thí nghiệm bố trí theo khối hoàn toàn ngẫu nhiên. Thí dụ: (Peter, 2001). Một nghiên cứu được tiến hành nhằm so sánh độ ẩm đất (%) dưới tác động của 3 phương pháp tưới tiêu. Trong nghiên cứu này mười địa điểm được chọn, mỗi địa điểm có đặc điểm đất khác nhau. Ba phương pháp tưới tiêu được bố trí ngẫu nhiên cho từng điểm như sơ đồ sau: Điểm 1 Điểm 2 Điểm 3 Điểm 4 Điểm 5 Z Y X Y Y Z X Y X Z X Z Y Z X Điểm 6 Điểm 7 Điểm 8 Điểm 9 Điểm 10 Z Y Z X Y X X Z X Z X Y Y Y Z Rõ ràng là mỗi địa điểm phải được xem như một khối (block) và chúng ta cần phải lưu ý đến những biến động do sự sai khác giữa các địa điểm thí nghiệm (nhân tố B) trước khi xem xét sự khác biệt giữa các phương pháp tưới tiêu (nhân tố A). Dữ liệu về độ ẩm đất (%) đo được ở các điểm với các phương pháp tưới tiêu khác nhau được ghi nhận trong bảng 5.3. Bảng 5.3. Độ ẩm đất (%) với 3 phương pháp tưới tiêu khác nhau Địa điểm phương pháp X phương pháp Y phương pháp Z 1 7.6 9.1 8.2 2 9.3 5.8 10.1 3 11.8 5.9 10.2 4 12.4 9.8 12.6 5 13.5 9.3 12.6 6 12.9 11.9 13.1 7 7.1 3.6 8.9 8 10.8 7.9 7.8 9 10.3 8 11.8 10 9.4 8.4 8.6 110
  57. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Dữ liệu có thể được mô hình hóa như sau: D÷ liÖu Trung b×nh T¸c dông T¸c dông cña Sai sè quan s¸t mÉu cña khèi nghiÖm thøc ngÉu nhiªn hoặc §é Èm Trung b×nh T¸c dông T¸c dông cña Sai sè ®Êt mÉu cña ®Þa ®iÓm pp t­íi ngÉu nhiªn hoặc Xij = i + i + j + ij Bảng ANOVA được thiết lập như sau: Tổng Trung bình Nguồn Bình phương Độ tự do Bình phương F tính biến động (SS) (MS) Khối SSB b - 1 MSB=SSB/(b - 1) MSB/MSE Nghiệm thức SST t - 1 MST=SST/(t - 1) MST/MSE Sai số SSE (b - 1)(t - 1) MSE=SSE/(b -1)(t-1) Tổng SSTO bt - 1 Kết quả phân tích phương sai như sau: Tổng Trung bình Nguồn Bình phương Độ tự do Bình phương F tính P value biến động (SS) (MS) Khối 96.23 9 10.69 5.86 0.0007 Nghiệm thức 41.07 2 20.54 11.25 0.0007 Sai số 32.85 18 1.83 Tổng 170.15 29 Kết quả cho thấy F = 11.253 với df = 2, 18 và P = 0.0007 chứng tỏ có sự khác biệt rất có ý nghĩa giữa hàm lượng nước trung bình của đất với 3 phương pháp tưới khác nhau. Nếu bỏ qua nhân tố khối (địa điểm): SSE = 32.85 + 96.23 = 129.08 với df = 18 + 9 = 27 MSE = 129.08/27 = 4.78 (>> 1.83) Kết quả là F tính sẽ nhỏ hơn: F = 20.54/4.78 = 4.30 với df = 2, 27 và P = 0.024 Mặc dù khác biệt vẫn có ý nghĩa nhưng không còn nhiểu như trước. Tỉ lệ của mỗi thành phần trong nguồn biến động là: SSB 96.23 Khối: 0.566 SSTO 170.15 SSA 41.07 Nghiệm thức 0.241 SSTO 170.15 SSE 32.85 Sai số 0.193 SSTO 170.15 111
  58. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Phân tích dữ liệu từ một RCBD bằng Minitab Thí dụ: Nhằm khảo sát ảnh hưởng của 3 loại thuốc A, B, C người ta bố trí một thí nghiệm với 5 lứa chuột, mỗi lứa gồm 4 con, 3 con có tiêm thuốc và 1 con không tiêm. Số lượng tế bào lympho (x 1000 tế bào/ mm3 máu) được ghi nhận trên từng con chuột trong mỗi lứa. Kết quả ghi nhận như trong bảng 5.4. Bảng 5.4. Số lượng tế bào lympho trong 5 lứa chuột có và không tiêm thuốc Row Drug Litter 1 Litter 2 Litter 3 Litter 4 Litter 5 1 A 7.1 6.1 6.9 5.6 6.4 2 B 6.7 5.1 5.9 5.1 5.8 3 C 7.1 5.8 6.2 5.0 6.2 4 D 6.7 5.4 5.7 5.2 5.3 Như vậy: Khối: lứa chuột (litter) gồm 5 mức (levels) Nghiệm thức: thuốc (drug) gồm 4 mức A, B, C (thuốc) và D (đối chứng) Mô hình: D÷ liÖu Trung b×nh T¸c dông T¸c dông Sai sè quan s¸t (sè tÕ bµo) cña løa cña thuèc ngÉu nhiªn hoặc Xij = i + i + j + ij Tiến hành – Mở worksheet: Lymphocyte count.MTW – Sắp xếp lại dữ liệu để cho số tế bào xếp vào một cột (C6), số lứa chuột vào cột C7 và loại thuốc vào cột C8. Data > Stack Columns Stack the following column: C1 – C5 Column of current worksheet: C6 Store subscript in: C7 Calc > Make Patterned Data > Arbitrary Set of Numbers Store patterned data in: C8 Arbitrary set of numbers: 1:4 List each value: 1 . times List the whole sequence: 5 . times => OK 112
  59. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - – Đặt tên các cột C6, C7, C8 lần lượt là ‘Count’, ‘Litter’, và ‘Drug’. Kết quả: – Phân tích phương sai Stat > ANOVA > Balanced ANOVA Response: Count Model: Litter + Drug Results /Display mean corresponding to the terms: Drug Storage Fit  Residual  Kết quả: ANOVA: Count versus Litter, Drug Factor Type Levels Values Litter fixed 5 Litter 1, Litter 2, Litter 3, Litter 4, Litter 5 Drug fixed 4 1, 2, 3, 4 Analysis of Variance for Count Source DF SS MS F P Litter 4 6.4030 1.6008 30.16 0.000 Drug 3 1.8455 0.6152 11.59 0.001 2 Error 12 0.6370 0.0531 đây là s Total 19 8.8855 S = 0.230398 R-Sq = 92.83% R-Sq(adj) = 88.65% Means Drug N Count 1 5 6.4200 2 5 5.7200 3 5 6.0600 4 5 5.6600 Nhận xét Có sự khác biết có ý nghĩa giữa các loại thuốc (P = 0.001). Đối chứng (D) có lượng tế bào Lympho thấp nhất, thuốc A có lượng tế bào Lympho cao nhất. Kiếm tra các giả định của mô hình 1) dữ liệu có phân bố chuẩn: kiểm tra sai số (residual) Stat > Basic Statistics > Normality Test Biểu đồ có dạng đường thẳng do đó có thể giả định rằng dữ liệu có phân bố chuẩn. 2) các phương sai giống nhau 113
  60. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Stat > Basic Statistics > Display Descriptive Statistics Variables: RESI1 By variables: DRUG Các độ lệch chuẩn mẫu tương tự nên có thể giả định rằng phương sai bằng nhau. Normal Probability Plot of the Residuals 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 Probability 0.3 0.2 0.1 0.05 0.01 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 Residual Descriptive Statistics Variable Drug N Mean SE Mean StDev Minimum Q1 Median RESI1 1 5 -1.06599E-15 0.0857 0.1915 -0.2550 -0.1675 0.0200 2 5 -8.88178E-16 0.0696 0.1555 -0.2550 -0.1425 0.0450 3 5 -7.14706E-16 0.0899 0.2011 -0.3200 -0.1950 0.1050 4 5 -1.06859E-15 0.108 0.241 -0.320 -0.245 0.105 Variable Drug Q3 Maximum RESI1 1 0.1575 0.2700 2 0.1200 0.1200 3 0.1425 0.1800 4 0.192 0.280 Phân tích dữ liệu từ một bố trí hình vuông La tinh Thí dụ 3 (Peter, 2001) Một thí nghiệm được bố trí nhằm khảo sát sản lượng lúa mì khi bón bằng các loại phân bón khác nhau: A = không có phân bón (đối chứng) B = phân N (liều lượng 1) C = phân N (liều lượng 2 gấp đôi) D = cyanamide E = cyanamide + dicyanadiomide 114
  61. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Do biến động liên quan đến độ màu mỡ của đất nên người ta bố trí thí nghiệm theo ô vuông La tinh. Sản lượng (lb/plot) thu được và sơ đồ bố trí các nghiệm thức được ghi nhận trong bảng 5.5 Bảng 5.5. Sản lượng lúa mì (lb) trong mỗi lô thí nghiệm 72.2 (E) 55.4 (C) 36.6 (A) 67.9 (D) 73.0 (B) 36.4 (A) 46.9 (D) 46.8 (C) 54.9 (B) 68.5 (E) 71.5 (C) 55.6 (B) 71.6 (E) 67.5 (A) 78.4 (D) 68.9 (B) 53.2 (A) 69.8 (D) 79.6 (E) 77.2 (C) 82.0 (D) 81.0 (E) 76.0 (B) 87.9 (C) 70.9 (A) Mô hình: Xij = + i + j + k(i,j) + ij S¶n l­îng Trung b×nh T¸c ®éng T¸c ®éng T¸c ®éng cña Sai sè lóa m× chung cña hµng cña cét nghiÖm thøc ngÉu nhiªn trong đó i = 1, , t (hàng); j = 1, , t (cột); k = 1, , t (nghiệm thức) với t = 5. k(i,j) để chỉ nghiệm thức được áp dụng tại hàng i, cột j. Các biến động có thể chia thành: Total SS = Row SS + Column SS + Treatment SS + Residual SS (SSTO) (SSR) (SSC) (SST) (SSE) Kết quả được trình bày trong bảng ANOVA như sau: Nguồn biến động Tổng bình phương Độ tự do Trung bình bình phương Hàng SSR t – 1 MSR Cột SSC t – 1 MSC Nghiệm thức SST t – 1 MST Sai số SSE (t – 1)(t – 2) MSE Tổng SSTO t2 – 1 Kiểm định giả thuyết H0 : 1 = 2 = = t = 0 (tất cả các trung bình nghiệm thức đều bằng nhau) H1 : không phải tất cả k đều bằng nhau Tính F-ratio: MST F tÝnh = rồi so sánh với F bảng ở độ tự do (t – 1) và (t – 1)(t – 2). MSE Lưu ý là tác động của hàng và cột không được dùng để kiểm định. 115
  62. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Áp dụng Minitab – Mở worksheet: Wheat yield – Latin square.MTW Row Yield Treat Row Col 1 72.2 E 1 1 2 36.4 A 2 1 3 71.5 C 3 1 4 68.9 B 4 1 5 82.0 D 5 1 6 55.4 C 1 2 7 46.9 D 2 2 8 55.6 B 3 2 9 53.2 A 4 2 10 81.0 E 5 2 11 36.6 A 1 3 12 46.8 C 2 3 13 71.6 E 3 3 14 69.8 D 4 3 15 76.0 B 5 3 16 67.9 D 1 4 17 54.9 B 2 4 18 67.5 A 3 4 19 79.6 E 4 4 20 87.9 C 5 4 21 73.0 B 1 5 22 68.5 E 2 5 23 78.4 D 3 5 24 77.2 C 4 5 25 70.9 A 5 5 – Phân tích phương sai Stat > ANOVA > General Linear Model Response: Yield Model: Treat Row Col Graphs :  Normal plot of residuals  Residual versus Fits Results /Display least squares means coresponding to the terms: . Treat . Storage : Residual, Fit Kết quả xuất: General Linear Model: Yield versus Treat, Row, Col Factor Type Levels Values Treat fixed 5 A, B, C, D, E Row fixed 5 1, 2, 3, 4, 5 Col fixed 5 1, 2, 3, 4, 5 Analysis of Variance for Yield, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Treat 4 1284.51 1284.51 321.13 19.07 0.000 Row 4 2326.39 2326.39 581.60 34.54 0.000 Col 4 901.37 901.37 225.34 13.38 0.000 Error 12 202.06 202.06 16.84 Total 24 4714.33 S = 4.10341 R-Sq = 95.71% R-Sq(adj) = 91.43% 116
  63. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Unusual Observations for Yield Obs Yield Fit SE Fit Residual St Resid 18 67.5000 61.4240 2.9590 6.0760 2.14 R R denotes an observation with a large standardized residual. Least Squares Means for Yield Treat Mean SE Mean A 52.92 1.835 B 65.68 1.835 C 67.76 1.835 D 69.00 1.835 E 74.58 1.835 Normal Probability Plot of the Residuals 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 Probability 0.3 0.2 0.1 0.05 0.01 -8 -6 -4 -2 0 2 4 6 8 Residual Sai số (residual) có phân bố chuẩn Residuals Versus the Fitted Values 7.5 5.0 2.5 0.0 Residual -2.5 -5.0 40 50 60 70 80 90 Fitted Value Sai số không có một thể thức nhất định => phương sai là một hằng số – Nhận xét và kết luận 117
  64. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 2. Hai nhân tố có lặp lại Thí dụ (Peter, 2001) Nhằm khảo sát sự sai khác trong tiêu thụ thức ăn của chim với hai khẩu phần ăn khác nhau (diet 1 và diet 2), người ta bố trí thí nghiệm trên 12 con chim (6 con trống và 6 con mái), mỗi khẩu phần ăn cho mỗi giới gồm 3 con. Lượng thức ăn tiêu thụ (gram) trong suốt 1 tháng được ghi nhận trong bảng 5.6. Bảng 5.6. Lượng thức ăn được chim tiêu thụ Giới tính Khẩu phần ăn (c = 2) (r = 2) Diet 1 Diet 2 Trung bình hàng R 70.9 59.2 ♂ 67.9 53.8 69.9 47 Trung bình nhóm phụ Y 69.57 53.33 61.45 65.7 50.8 ♀ 59.4 50.5 67.7 50.5 Trung bình nhóm phụ Y 64.27 50.6 57.43 Trung bình cột C 66.92 51.97 Tổng chung 713.3 Trong trường hợp này ngoài việc xác định ảnh hưởng của nhân tố A (khẩu phần) và nhân tố B (giới tính) ta còn phải tính đến ảnh hưởng qua lại của chúng. Dữ liệu có thể được mô hình hóa như sau: D÷ liÖu Trung b×nh T¸c ®éng T¸c ®éng T¸c ®éng Sai sè = + + + + quan s¸t mÉu cña hµng cña cét do t­¬ng t¸c ngÉu nhiªn Xijk = i + i + j + ij + ijk Bảng ANOVA được thiết lập như sau: Nguồn biến động SS df MS Giữa các cột (khẩu phần) SSC (c - 1) SSR/(c - 1) Giữa các hàng (giới tính) SSR (r - 1) SSC/(r - 1) Tương tác (GT x KP) SSI (c - 1)(r - 1) SSI/(c - 1)(r - 1) Sai số SSE cr (n - 1) SSE/cr(n - 1) Tổng SSTO crn - 1 SST/(crn - 1) trong bảng trên ta có: Total SS = Diet SS + Sex SS + (Diet*Sex)SS + Residual SS SSTO = SSC + SSR + SSI + SSE Total df = Diet df + Sex df + (Diet*Sex)df + Residual df crn – 1 = c – 1 + r – 1 + (c – 1)(r – 1) + cr(n – 1) 118
  65. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Tiến hành tính toán cho ra kết quả trong bảng ANOVA như sau: Nguồn biến động SS df MS F-ratio P Giữa các hàng (giới tính) 50.8 1 50.8 3.7 0.090 Giữa các cột (khẩu phần) 661.6 1 661.6 48.3 0.000 Tương tác (GT x KP) 4.2 1 4.2 0.3 0.595 Sai số 109.6 8 13.7 Tổng 826.2 11 Áp dụng Minitab Stat > ANOVA > Two-way Response: food consumed Row factor: sex Column factor: Diet Kết quả xuất: Two-way ANOVA: Food consumed versus Sex, Diet Source DF SS MS F P Sex 1 50.841 50.841 3.71 0.090 Diet 1 661.568 661.568 48.27 0.000 Interaction 1 4.201 4.201 0.31 0.595 Error 8 109.640 13.705 Total 11 826.249 S = 3.702 R-Sq = 86.73% R-Sq(adj) = 81.75% Individual 95% CIs For Mean Based on Pooled StDev Sex Mean + + + + Female 57.4333 ( * ) Male 61.5500 ( * ) + + + + 54.0 57.0 60.0 63.0 Individual 95% CIs For Mean Based on Pooled StDev Diet Mean + + + + 1 66.9167 ( * ) 2 52.0667 ( * ) + + + + 54.0 60.0 66.0 72.0 Nhận xét & Kết luận: Kết quả cho thấy cả hai giới đực và cái đều tiêu thụ nhiều thức ăn ở khấu phần 1 (diet 1) hơn khẩu phần 2 (diet 2). Các chim trống tiêu thụ thức ăn hơi nhiều hơn các chim mái. Tuy nhiên, kết quả phân tích ANOVA cho thấy sự tiêu thụ thức ăn không khác biệt nhau giữa hai giới đực và cái (P > 0.05), cũng như không có sự tương tác giữa khẩu phần ăn và giới tính. Chỉ có khẩu phần ăn là khác biệt rất có ý nghĩa (P<<0.001). 119
  66. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Biểu đồ dưới đây cho thấy rõ không có sự tương tác giữa khẩu phần ăn và giới tính. Stat > ANOVA > Interaction Plots Responses: ‘Foot consumed’ Factors: Sex Diet Interaction Plot (data means) for Food consumed 80 Sex Female 70 Male 60 50 40 Mean 30 20 10 0 1 2 Diet Nếu không có tương tác giữa 2 nhân tố, ta có thể xử lý và phân tích như ở mô hình 1. Trong trường hợp này tổng bình phương tương tác (SSI) được nhập chung vào tổng bình phương sai số (SSE) và độ tự do cũng tương tự. Stat > ANOVA > Balanced ANOVA Responses: ‘Food consumed’ Model: Diet Sex ANOVA: Food consumed versus Diet, Sex Factor Type Levels Values Diet fixed 2 1, 2 Sex fixed 2 Female, Male Analysis of Variance for Food consumed Source DF SS MS F P Diet 1 661.57 661.57 52.30 0.000 Sex 1 50.84 50.84 4.02 0.076 Error 9 113.84 12.65 Total 11 826.25 S = 3.55654 R-Sq = 86.22% R-Sq(adj) = 83.16% 120
  67. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - CHƯƠNG 6. PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN Trong nghiên cứu sinh học nhiều khi chúng ta cần so sánh các mẫu với hàng loạt các biến quan sát (Multivariate analysis). Chẳng hạn ta có thể so sánh chiều cao và đường kính của cây được trồng trên nhiều địa phương khác nhau, sự thay đổi huyết áp của động vật khi cho uống các loại thuốc khác nhau Những nghiên cứu và so sánh này giúp ta có những kết luận chính xác và tin cậy hơn là chỉ so sánh đơn thuần một biến số. Các phương pháp phân tích hồi quy và tương quan (Regression and Correlation Analysis) chính là nhằm phân tích thống kê nhiều biến số. I. PHÂN TÍCH HỒI QUY 1. Hồi quy tuyến tính đơn giản (Simple Linear Regression) = Hồi quy đơn Giả sử có sự tương quan tuyến tính hoàn hảo giữa hai biến x và y, chẳng hạn x = nhiệt độ, y = áp suất khí. Mối tương quan này có thể biểu diễn bằng hàm số: y =  + x trong đó  được gọi là tung độ gốc (intercept)  được gọi là độ dốc (slope) hay hệ số hồi quy x là biến độc lập (còn gọi là predictors), y là biến phụ thuộc (còn gọi là response). y Slope =   x Các tham số  và  có thể được ước lượng từ hai điểm bất kỳ, chẳng hạn (x1, y1) y2 y 1 và (x2, y2): 1 và 0 y 1  1 x 1 y 2  1 x 2 x2 x 1 Trong thực tế, các dữ liệu sinh học, môi trường không có biểu hiện quan hệ tuyến tính hoàn hảo như thế mà chúng phân tán rải rác chung quanh đường thẳng. Thí dụ: Trọng lượng (kg) và tuổi (tháng) của bảy con bê khác nhau được ghi nhận như sau: Tuổi (x) Trọng lượng (y) 0 18 2 32 3 64 4 45 6 91 8 127 12 164 Giữa trọng lượng và tuổi có tương quan tuyến tính dương: 121
  68. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 175 150 125 100 75 Trọng lượng 50 25 0 0 2 4 6 8 10 12 Tuổi Mô hình hồi quy tuyến tính: yi =  + xi + i Trọng lượng = 0 + 1*Tuổi + i Dữ liệu (Data) = [ Thành phần tuyến tính ] + [ Sai số ngẫu nhiên ] trong đó các dữ liệu có dạng (x1, y1), x2, y2), , (xn, yn). Các giả định (Assumptions): 1) dữ liệu có phân bố chuẩn 2) phương sai không đổi (2) 3) mô hình tuyến tính là đúng: 2 2 yi ~ N(+  xi,  ) hoặc I ~ N(0,  ) Cần kiểm tra các điều này với số dư = sai số (residuals). y x như vậy với mỗi giá trị xác định của x, y sẽ có phân bố chuẩn với trung bình là  + 2 xi và phương sai là  . 122
  69. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Ước lượng các tham số của mô hình hồi quy:  và  Các tham số  và  không thể được xác định chính xác từ bộ dữ liệu mà phải được ước lượng từ chúng. Nếu gọi ước lượng của  là b0 và ước lượng của  là b1 thì mô hình hiệu chỉnh sẽ là: yˆi b0 b 1 x i và ước lượng “tốt nhất” của yi hoàn toàn dựa trên giá trị của yi. Sai số là resi y i yˆ i y i b0 b 1 x i và là khác biệt của các quan sát phía trên và dưới đường thẳng hồi quy. Phương pháp thường dùng nhất là chọn các giá trị của b0 và b1 sao cho tổng bình phương sai số (Residual SS) là nhỏ nhất. Phương pháp này được gọi là ước lượng bình phương tối thiểu (least square estimates) y y5 res5 y3 res4 res3 y4 y1 res2 res1 y2 x n n n 2ˆ 2 2 Res SS = resi ()() y i y i  y i b0 b 1 x i i 1 i 1 i 1 Để tổng bình phương sai số là nhỏ nhất, ta có thể chọn b0 và b1 là: n (xi x )( y i y ) i 1 b1 n và b0 y b 1 x 2 ()xi x i 1 Các tính toán được minh hoạ trong bảng dưới đây: 2 2 Tuổi (xi) Trọng lượng (yi) Xi x i x Yi y i y X i Yi XYi i 0 18 –5 –59.29 25 3,514.80 296.43 2 32 –3 –45.29 9 2,050.80 135.86 3 64 –2 –13.29 4 176.51 26.57 4 45 –1 –32.29 1 1,042.37 32.29 6 91 1 13.71 1 188.08 13.71 8 127 3 49.71 9 2,471.51 149.14 12 164 7 86.71 49 7,519.37 607.00 35 541 0 0.00 98 16,963.43 1,261.00 x 5.00 y 77.286 n = 7 => b1 = 1261/98 = 12.867 b0 = 77.286 – 12.867*5.00 = 12.949 => đường thẳng hồi quy bình phương tối thiểu là yˆ 12.95 12.87 x 123
  70. BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Tung độ gốc (intercept) b0: khi x = 0 (mới sinh), trọng lượng trung bình là 12.95 kg. Độ dốc (Slope) b1: với mỗi tháng tuổi tăng thêm, bê nặng thêm 12.87 kg. Sai số (Residuals) và giá trị hiệu chỉnh (Fitted values) Tuổi Trọng lượng Giá trị hiệu chỉnh Sai số 2 resi (xi) (yi) yˆi 12.95 12.87 x i Resi y i yˆ i 0 18 12.95 5.05 25.51 2 32 38.68 –6.68 44.67 3 64 51.55 12.45 154.98 4 45 64.42 –19.42 377.07 6 91 90.15 0.85 0.72 8 127 115.89 11.11 123.48 12 164 167.36 –3.36 11.27 35 541 541.00 0.00 737.70 Lưu ý: Sai số trung bình là zero 7 2 Residual SS = SSE =resi 737.70 i 1 Bất kỳ lựa chọn giá trị khác của b0 và b1 cũng đều làm tăng SSE. Giá trị hiệu chỉnh ()yˆi là trọng lượng trung bình của bê được ước lượng cho một độ tuổi nhất định. Chúng có thể dùng để dự đoán. Chẳng hạn một con bê 10 tháng tuổi sẽ có trọng lượng trung bình được ước lượng là 12.95 + 12.87*10 = 141.62 kg. Ước lượng của 2 Nhắc lại giả định cho mô hình hồi quy: 2 2 yi ~N(0 + 1xi,  ) hoặc I ~ N(0,  ) trong đó 2 là phương sai của các dữ liệu trong khoảng đường thẳng hồi quy. Ước 2 2 2 lượng của  là s ( sYX. ) s2 = Residual SS/(n-2) n ˆ 2 ()yi y i = i 1 n 2 Trong thí dụ trên: s2 = 737.70/5 = 147.54 và s = 12.15 kg Kiểm định giả thuyết Intercept H0 : 0 = 0 (đường thẳng hồi quy đi qua trục tung) H1 : 0 ≠ 0 b Kiểm định t 0 df = n – 2 se() b0 n x2 i 1 i trong đó se()* b0 s nn () x x 2 i 1 i 124
  71. THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - trong thí dụ trên: 273 se( b ) 12.13* 7.66 0 7*98 t = 12,95/7.66 = 1.69 với df = 7 – 2 = 5 P-value: P = 2*P(T5 > 1.69) = 0.15 => H0 được chấp nhận: kết luận rằng đường thẳng hồi quy đi qua trục tung. Lưu ý: khi 0 = 0, mô hình trở thành yi = 1xi + i nghĩa là y tỉ lệ với x. Slope H0 : 1 = 0 (không có tương quan tuyến tính) H1 : 1 ≠ 0 b Kiểm định t 1 df = n – 2 se() b1 s trong đó se()* b1 s n ()x x 2 i 1 i trong thí dụ trên: 12.15 se( b ) 1.23 1 98 t = 12,87/1.23 = 10.49 với df = 7 – 2 = 5 P-value: P = 2*P(T5 > 10.49) = 0.00 => H0 bị bác bỏ: kết luận rằng trọng lượng bê tăng có ý nghĩa theo độ tuổi. Bảng ANOVA cho hồi quy Giống như trong bảng ANOVA chuẩn, chúng ta có thể chia tổng sai biến của dữ liệu (y) thành một thành phần được giải thích bởi mô hình, và một thành phần không giải thích được: SS: Totoal SS = Regression SS + Residual SS SSTO = SSR + SSE df: (n – 1) = 1 + (n – 2) Trong thí dụ trên: n 2 Total SS = ()yi y i 1 = (18 – 77.29)2 + (32 – 77.29)2 + + (164 – 77.29)2 = 16,963 n ˆ 2 Regression SS = ()yi y i 1 = (12.95 – 77.29)2 + (38.68 – 77.29)2 + + (167.36 – 77.29)2 = 16,226 n ˆ 2 Residual SS = ()yi y i i 1 = (18 – 12.95)2 + (32 – 38.68)2 + + (164 – 167.36)2 = 738 Có thể tính nhanh Regression SS bằng: n 2 2 2 SSR = b1 ( xi x ) 12.87 *98 16,226 i 1 125