Giáo trình Thống kê sinh học - Bùi Tấn Anh
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Thống kê sinh học - Bùi Tấn Anh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- giao_trinh_thong_ke_sinh_hoc_bui_tan_anh.pdf
Nội dung text: Giáo trình Thống kê sinh học - Bùi Tấn Anh
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - MỤC LỤC Chương 1. GIỚI THIỆU VỀ THỐNG KÊ SINH HỌC I. MỘT SỐ KHÁI NIỆM 1 1. Thống kê 1 2. Thống kê sinh học 1 3. Mẫu và tổng thể 1 II. DỮ LIỆU TRONG SINH HỌC 2 1. Dữ liệu 2 2. Các quan sát và biến số 2 3. Các loại thang đo 2 4. Các loại biến số trong sinh học 3 5. Độ đúng và độ chính xác của dữ liệu 4 III. GIỚI THIỆU PHẦN MỀM THỐNG KÊ MINITAB 4 Chương 2. MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU I. MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU BẰNG BẢNG 7 1. Bảng tần số một chiều 8 2. Bảng tần số hai chiều 9 II. MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ 10 1. Pie Chart 10 2. Time Series Plot 11 3. Line Graph 12 4. Bar Chart 13 5. Interval Plot 17 6. Histogram 18 7. Stem and Leaf Plots 21 8. Dotplot 22 9. Scatterplots 23 III. CÁC SỐ ĐO ĐỊNH TÂM 24 1. Số trung bình 24 2. Số trung vị 26 3. Số yếu vị 26 IV. CÁC SỐ ĐO ĐỘ PHÂN TÁN 27 1. Khoảng biến thiên 27 2. Khoảng tứ vị 27 i
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 3. Độ lệch trung bình 27 4. Phương sai 28 5. Độ lệch chuẩn 28 6. Hệ số biến thiên 28 7. Boxplot 29 Chương 3. PHÂN BỐ XÁC SUẤT I. CÁC DẠNG PHÂN BỐ 31 1. Phân bố đối xứng 31 2. Phân bố lệch dương 32 3. Phân bố lệch âm 33 II PHÂN BỐ NHỊ THỨC 34 1. Xác suất nhị thức 34 2. Trung bình và phương sai của phân bố nhị thức 38 3. Hình dạng của phân bố nhị thức 38 4. Các thí dụ 38 III. PHÂN BỐ POISSON 39 1. Xác suất Poisson 40 2. Trung bình và phương sai của phân bố Poisson 41 3. Hình dạng của phân bố Poisson 41 4. Các tìm xác suất Poisson 41 IV. PHÂN BỐ CHUẨN 43 1. Xác suất chuẩn 43 2. Hình dạng của phân bố chuẩn 44 3. Cách tính xác suất của phân bố chuẩn tắc 46 4. Kiểm tra phân bố chuẩn 51 V. PHÂN BỐ MẪU 52 1. Phân bố của trung bình mẫu 52 2. Sai số mẫu 53 3. Định lý giới hạn trung tâm 53 Chương 4. KIỂM ĐỊNH GIẢ THUYẾT I CHUYỂN DẠNG DỮ LIỆU 55 II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT 64 III. KIỂM ĐỊNH MỘT MẪU 65 1. Kiểm định Z 65 2. Kiểm định t 68 ii
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 3. Khoảng tin cậy của trung bình tổng thể 69 IV. KIỂM ĐỊNH HAI MẪU 70 1. Hai mẫu độc lập, phương sai bằng nhau 71 2. Hai mẫu độc lập, phương sai không bằng nhau 75 3. Hai mẫu liên hệ - So sánh cặp 80 V. KIỂM ĐỊNH SỰ PHÙ HỢP GIỮA LÝ THUYẾT VÀ THỰC NGHIỆM 83 VI. KIỂM ĐỊNH TÍNH ĐỘC LẬP 85 Chương 5. BỐ TRÍ THÍ NGHIỆM & PHÂN TÍCH PHƯƠNG SAI I. ĐẠI CƯƠNG VỀ BỐ TRÍ THÍ NGHIỆM 91 1. Mục đích 91 2. Một số khái niệm thường dùng 91 3. Hai nguyên tắc cơ bản về bố trí thí nghiệm 91 4. Kỹ thuật ngẫu nhiên hoá 91 II. CÁC KIÊU BỐ TRÍ THÍ NGHIỆM PHỔ BIẾN 92 1. Bố trí ngẫu nhiên hoàn toàn 92 2. Bố trí khối hoàntoàn ngẫu nhiên 94 3. Bố trí ô vuông La tin 95 III. PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ 96 1. Các bước tổng quát 96 2. So sánh các nghiệm thức 105 IV. PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ 110 1. Hai nhân tố không lặp lại 110 2. Hai nhân tố có lặp lại 117 Chương 6. PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN I. PHÂN TÍCH HỒI QUY 121 1. Hồi quy đơn 121 2. Hồi quy bội 129 3. Hồi quy đa thức 131 II. PHÂN TÍCH TƯƠNG QUAN 135 1. Tính hệ số tương quan 135 2. Thiết lập biểu đồ tương quan 136 Phụ lục. CÁC BẢNG THỐNG KÊ 137 TÀI LIỆU THAM KHẢO 144 BÀI TẬP 145 iii
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - CHƯƠNG 1. GIỚI THIỆU VỀ THỐNG KÊ SINH HỌC I. MỘT SỐ KHÁI NIỆM 1. Thống kê (Statistics) Thuật ngữ này có thể được hiểu theo hai nghĩa: Thứ nhất: thống kê là các số liệu được thu thập để phản ánh các hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật. Thứ hai: thống kê là hệ thống các phương pháp được sử dụng để mô tả các hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật. Nói một cách tổng quát thống kê là hệ thống các phương pháp dùng để thu thập, xử lý và phân tích các con số (mặt lượng) của các hiện tượng để tìm hiểu bản chất và tính qui luật vốn có của chúng (mặt chất) trong điều kiện thời gian và không gian cụ thể. Thống kê thường được chia thành hai lãnh vực: - Thống kê mô tả (Descriptive Statistics): bao gồm các phương pháp thu thập số liệu, mô tả và trình bày số liệu, tính toán các đặc trưng đo lường. - Thống kê suy diễn (Inferential Statistics): bao gồm các phương pháp như ước lượng, kiểm định, phân tích mối liên hệ, dự đoán trên cơ sở các thông tin thu thập từ mẫu. 2. Thống kê sinh học (Biometry) Theo nghĩa hẹp, biometry bắt nguồn từ tiếng Hy Lạp bios = sự sống và metron = đo đạc nên có người gọi đây là sinh trắc (biological measurement). Theo nghĩa rộng thì thống kê sinh học là khoa học về sự ứng dụng các phương pháp thống kê để giải quyết các vấn đề của sinh học vì vậy biometry cũng còn được gọi là biological statistics hoặc đơn giản là biostatistics. Các phương pháp thống kê bao gồm các bước (1) bố trí thí nghiệm, (2) thu thập dữ liệu, (3) trình bày và tóm tắt dữ liệu, (4) từ các dữ liệu mẫu suy rộng ra tổng thể. Trong giáo trình này chúng ta sẽ tập trung vào hai lãnh vực có liên quan mật thiết với thống kê sinh học. Đó là bố trí thí nghiệm (experimental design) và phân tích thống kê (statistical analysis). 3. Mẫu và Tổng thể Trong thống kê sinh học các nghiên cứu thường dựa trên quan sát riêng rẽ (individual observation), là những quan sát hoặc đo đạc tiến hành trên đơn vị mẫu nhỏ nhất (smallest sampling unit). Trong sinh học, đơn vị mẫu nhỏ nhất thường là cá thể. Nếu ta đo trọng lượng của 100 con chuột thì trọng lượng của mỗi con chuột chính là một quan sát 100 trọng lượng chuột đo được đại diện cho một mẫu của quan sát (sample of observations). Nếu chúng ta nghiên cứu sự thay đổi trọng lượng của một con chuột trong một thời kỳ xác định thì mẫu sẽ là tất cả các số đo trọng lượng của con chuột đó trong suốt thời kỳ nghiên cứu. Tuy nhiên, thuật ngữ “quan sát riêng rẽ” và “mẫu của quan sát” chỉ nêu được cấu trúc mà không nêu được bản chất của dữ liệu nghiên cứu. Giá trị thật sự đo được thật sự bởi một quan sát riêng rẽ là một biến số (variable). Trong một đơn vị mẫu nhỏ nhất có thể có nhiều hơn một biến. Tập hợp tất cả các dữ liệu mà ta quan tâm nghiên cứu trong một lãnh vực nào đó được gọi là tổng thể (population) hay còn gọi là tập hợp chính. Nếu ta chọn 5 1
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - người để nghiên cứu số lượng bạch cầu trong máu họ và từ đó rút ra kết luận về số lượng bạch cầu trong máu của toàn bộ loài người thì tổng thể chính là toàn bộ loài người. Thông thường kích thước của tổng thể (N) rất lớn, thậm chí là vô hạn. Tổng thể có thể được mô tả bởi các thông số (parameters) nhưng thường các giá trị này không thể xác định chính xác được. II. DỮ LIỆU TRONG SINH HỌC (DATA IN BIOLOGY) 1. Dữ liệu (Data) Các ghi nhận, mô tả hoặc các thuộc tính, sự kiện, các quá trình đều có thể hình thành một khối dữ liệu. Các dữ liệu thường được được đo ở dạng thang số (numerical scale) hoặc phân loại thành nhóm (category) rồi sau đó mã hoá dưới dạng số. Dưới đây là một số thí dụ về dữ liệu: (1) Huyết áp tối thiểu của tất cả các học sinh ở một trường trung học được đo để xác định xem có bao nhiêu phần trăm học sinh có huyết áp tối thiểu trên 90 mm Hg. Trong trường hợp này dữ liệu là số đo huyết áp. (2) Tất cả cán bộ viên chức của một công ty được yêu cầu báo cáo thể trọng hàng tháng để đánh giá hiệu quả của chương trình kiểm soát thể trọng. Dữ liệu là? (3) Trong một nghiên cứu về giáo dục, tất cả các tài xế của một trường đại học được yêu cầu trả lời câu hỏi “ bạn có lái xe khi cơ thể đã có rượu, bia hay không?”. Dữ liệu là gì? Việc thu thập đủ và đúng dữ liệu rất quan trọng. Bạn không thể có một nghiên cứu tốt nếu không có các dữ liệu tốt. 2. Các quan sát (Observations) và các biến số (Variables) Trong thống kê, các đối tượng nghiên cứu được gọi là các đơn vị quan sát (observational units). Trên đơn vị này, các đặc tính được quan sát hoặc đo đạc được gọi là các biến số (variables). Trong mỗi đối tượng nghiên cứu, các giá trị số gán cho biến số được gọi là các quan sát (observations) hay các biến (variate). Thí dụ: để nghiên cứu huyết áp của các sinh viên trong một trường đại học, các nhà nghiên cứu đo huyết áp tối đa và tối thiểu cho từng sinh viên. Huyết áp tối đa và tối thiểu là các biến số, số đo huyết áp là các quan sát, các sinh viên là các đơn vị quan sát. Trong mỗi đơn vị, chúng ta thường quan sát nhiều hơn một biến. Chẳng hạn, trong các sinh viên đã nêu trên, người ta nghiên cứu bệnh cao huyết áp ở 500 người. Ngoài các số đo huyết áp tối đa và tối thiểu, nhà nghiên cứu còn ghi nhận tuổi, chiều cao, giới tính, trọng lượng cơ thể. Trong trường hợp này, chúng ta có một bộ dữ liệu của 500 sinh viên với các quan sát được ghi nhận cho mỗi biến trong sáu biến của từng đơn vị quan sát. 3. Các loại thang đo (scale) Có bốn loại thang đo được dùng với các biến số: thang đo định danh (nominal scale), thang đo thứ bậc (ordinal scale), thang đo khoảng (interval scale), và thang đo tỉ lệ (ratio scale). Các thang đo này được xác định dựa vào thông tin giá trị được gán cho biến số. a. Thang đo định danh Được dùng để chỉ các thuộc tính. Các thuộc tính này được mã hoá bởi các con số dùng để phân loại đối tượng, giữa các con số không có giá trị hơn kém. 2
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Thí dụ: khi khảo sát giới tính, 1 được dùng để chỉ nữ, 2 được dùng để chỉ nam. b. Thang đo thứ bậc Được dùng để chỉ các thứ bậc của các đơn vị quan sát. Sự chênh lệch giữa các biểu hiện không nhất thiết phải bằng nhau. Thí dụ: khảo sát điều kiện làm việc của công nhân, người ta ước lượng mức độ độc hại của chất amiăng (asbestos) đối với công nhân: (1) thấp, (2) trung bình, (3) cao. c. Thang đo khoảng và thang đo tỉ lệ Dùng khi các biến được đo ở những khoảng cách đều nhau, chẳng hạn nhiệt độ tính theo độ Celsius (thang đo khoảng) hoặc chiều cao tính theo cm (thang đo tỉ lệ). Giữa hai loại thang đo này có các điểm khác biệt: - Thang đo tỉ lệ có giá trị zero thật. Thí dụ chiều cao bằng 0 nghĩa là không có chiều cao, trong khi nhiệt độ 00C không có nghĩa là không có nhiệt độ. - Khi một biến được đo bằng thang đo tỉ lệ, sự so sánh tỉ lệ giữa hai số là có ý nghĩa. Thí dụ một cây 140cm cao gấp đôi cây 70cm nhưng một lò nung 3000C không nóng gấp đôi lò nung ở 1500C. Việc sử dụng thang đo thường phụ thuộc vào phương pháp hoặc công cụ đo hơn là thuộc tính. Cùng một thuộc tính có thể được đo bằng các thang khác nhau. Chẳng hạn tuổi có thể được đo theo năm (thang tỉ lệ), hoặc được chia thành 3 nhóm trẻ, trung niên, già (thang thứ bậc) 4. Các loại biến số trong sinh học (Variables in Biology) Quan sát và đo lường các hiện tượng là điều căn bản cho tất cả các nghiên cứu khoa học. Các hiện tượng mà ta muốn quan sát được gọi là các biến số (variables), mỗi lĩnh vực nghiên cứu đều có biến số riêng. Biến (Variate) là những đại lượng có thể mang các giá trị khác nhau. Có thể phân loại các biến số như sau: Biến số (Variable) Biến định lượng Biến định tính (Measurement Variable) (Categorical Variable) Biến liên tục Biến rời rạc Biến được xếp hạng Biến thuộc tính (Continuous Variable) (Discrete Variable) (Ranked Variable) (Attribute Variable) a. Biến định lượng (Measurement Variable) Là những biến mà giá trị của chúng có thể được biểu hiện dưới dạng số và có thể đo đạc. Có hai loại biến định lượng là biến liên tục (Continuous Variable) và biến không liên tục (Discontinuous Variable). - Biến liên tục là biến (về lý thuyết) có một số giá trị xác định nằm giữa hai điểm cố định. Chẳng hạn giữa hai chiều dài 1,5 cm và 1,6 cm có vô số các giá trị có thể đo được. Rất nhiều biến được nghiên cứu trong sinh học là biến liên tục. Thí dụ chiều cao cây (cm), trọng lượng cơ thể (kg) hoặc pH của đất. - Biến không liên tục còn được gọi là biến rời rạc (Discrete Variable = Meristic Variable) là những biến chỉ có những giá trị xác định, không có các giá trị trung gian. Chẳng hạn số đốt trong phần phụ của một loài côn trùng có thể là 4, 5 hoặc 6 nhưng không bao giờ là 4,3 hoặc 5 ½ . Các thí dụ về biến rời rạc là số lượng lá cây, số cá thể con trong một lứa đẻ. 3
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - b. Biến định danh/định tính (Categorical Variable) Là những biến mà giá trị của chúng không thể biểu hiện dưới dạng số thực sự nhưng có thể sắp xếp theo loại. - Biến được xếp hạng (Ranked Variable): Trong một thí nghiệm, người ta có thể ghi nhận thứ tự nở của 10 con nhộng mà không lưu ý đến thời điểm nở của mỗi con. Trong trường hợp này các dữ liệu được mã hoá dưới dạng biến được xếp hạng. Thí dụ: chấm điểm mức độ dễ đẻ của bò 1 = không cần can thiệp, 2 = cần can thiệp một ít, 3 = cần bác sĩ thú y; đánh giá mức độ nghiêm trọng của bệnh từ 1 – 5 Trong những trường hợp này, mỗi số được gán cho một loại chứ không phải là thang đo số liệu vì sự khác biệt giữa điểm 1 và 2 không nhất thiết giống với sự khác biệt giữa điểm 2 và 3 - Biến thuộc tính (Attribute Variable = Nominal Variable): Các biến không thể đo đạc, xếp hạng nhưng có thể được biểu hiện về tính chất được gọi là biến thuộc tính. Các thuộc tính có thể là các đặc điểm như trắng hoặc đen, sống hoặc chết, kiểu gen, loại tế bào bạch cầu Khi các biến thuộc tính được kết hợp với tần số, chúng được gọi là dữ liệu liệt kê (enumeration data) và có thể xử lý thống kê được. Thí dụ: khảo sát 80 con chuột người ta thấy có 4 con lông đen, số còn lại có lông xám. Dữ liệu liệt kê về màu lông chuột có thể sắp xếp như sau: Màu lông chuột Tần số (Frequency) Đen 4 Xám 76 Tổng số chuột 80 5. Độ đúng (Accuracy) và độ chính xác (Precision) của dữ liệu Độ đúng là trường hợp giá trị tính toán hoặc đo đạc gần với giá trị thực nhất. Độ chính xác là trường hợp giá trị đo đạc của các lần lặp lại gần giống nhau nhất. Một cái cân bị lệch nhưng nhạy có thể cho ra số đo không đúng nhưng có độ chính xác. Ngược lại, một cái cân không nhạy có thể cho ra số đo không chính xác. Nếu không có sự sai lệch của dụng cụ đo, độ chính xác sẽ dẫn đến độ đúng, do đó ta cần tập trung hơn vào độ chính xác. III. GIỚI THIỆU PHẦN MỀM THỐNG KÊ MINITAB Minitab là phần mềm thống kê được dùng rộng rãi trong giảng dạy và nghiên cứu. Đặc điểm nổi bật của phần mềm này là chúng có dung lượng ít, cấu trúc đơn giản và dễ sử dụng. Cửa sổ của Minitab gồm các phần: (1) Các thanh Tiêu đề (Title Bar), thanh Trình đơn (Menu Bar), thanh Công cụ (Tool Bar) tương tự như các chương trình của Microsoft. (2) Session Screen: là nơi xuất tất cả các giá trị thống kê trong một phiên làm việc. Nội dung của màn hình có thể được lưu lại (save) ở dạng .TXT hoặc RTF hoặc sao chép (copy) và dán (past) vào chương trình MS Word. (3) Worksheet: là nơi để nhập và lưu trữ dữ liệu. Các dữ liệu trong Minitab được sắp xếp trong các cột, có nhãn mặc nhiên là C1, C2, C3 Nếu dữ liệu nhập vào cột là dạng số (numeric data) thì nhãn mặc nhiên sẽ không đổi; nếu cột có dữ liệu dạng text, nhãn cột sẽ được gán thêm “-T”; nếu dữ liệu trong cột là dạng ngày hoặc giờ, nhãn sẽ được gán thêm “-D”. Ta có thể đặt tên cho các cột này (ô nằm bên dưới nhãn cột). Ngoài ra các giá trị khác cũng 4
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - được lưu trữ trong Minitab là các hằng số (constants) K1, K2, K3 cũng như là các ma trận (Matrices) M1, M2, M3 (4) Thêm vào đó còn có một cửa sổ được thu nhỏ là Project Manager. Cửa sổ này cung cấp các menu để ta có thể xem lại nội dung của tất cả các worksheet, các đồ thị, cũng như lịch sử (History) tất cả các output trong phiên làm việc. Hình bên dưới minh hoạ cho các thành phần trong một cửa sổ của chương trình Minitab. (1) (2) (3) (4) Các file dữ liệu của Minitab có đuôi riêng là *.MTW, nhưng ta cũng có thể nhập dữ liệu từ các nguồn khác bao gồm các file của Excel và ASCII. Ngoài ra Minitab còn có thêm file project (*. MPJ). Trong chương trình Minitab ta có thể thực hiện các công việc: (1) Quản lý dữ liệu: trình đơn Data – Tách (Unstack) hoặc nhập (Stack) dữ liệu trong các cột. – Chuyển đổi từ cột thành hàng hoặc ngược lại. – Xếp hạng dữ liệu – Mã hoá dữ liệu (2) Tính toán các hàm: trình đơn Calc (3) Phân tích thống kê: trình đơn Stat 5
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - – Thống kê cơ bản (Basic Statistics) – Phân tích hồi quy (Regression) – Phân tích phương sai (ANOVA) – Bố trí thí nghiệm DOE ( Design of Experiments) (4) Vẽ các biểu đồ: trình đơn Graph – Scatterplot – Matriceplot – Histogram – Dotplot – Boxplot – Bar chart 6
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Chương 2. MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU Giai đoạn cơ bản và sớm nhất trong khoa học là giai đoạn mô tả. Nếu các sự kiện không được mô tả chính xác thì ta không thể phân tích được chúng. Việc ứng dụng thống kê trong sinh học cũng đi theo xu hướng này. Nếu chúng ta muốn tìm hiểu về mối liên hệ giữa chiều cao của bố mẹ và các người con thì trước tiên ta phải có công cụ thích hợp để đo và xác định chiều cao của từng thành viên trong gia đình này. Sau khi đã thực hiện các quan sát và thu thập các dữ liệu cho nghiên cứu, công việc đầu tiên là thiết lập bảng dữ liệu dùng để phân tích thống kê. Tiếp đó là trình bày mô tả tóm tắt các dữ liệu đã được thu thập, hoặc bằng các bảng biểu, hoặc bằng các loại đồ thị, sao cho người đọc có thể rút ra được những thông tin cần thiết. I. MÔ TẢ & TRÌNH BÀY DỮ LIỆU BẰNG BẢNG Trong phần này các dữ liệu dùng để minh hoạ được trích từ Digitalis Investigation Group (DIG 1997). Trong bảng 2.1 là các dữ liệu của 40 bệnh nhân được điều trị thử bằng Digoxin để đánh giá hiệu quả và mức độ an toàn của thuốc này trong điều trị bệnh rối loạn nhịp tim (DIG40). Bảng 2.1. Dữ liệu thử nghiệm lâm sàng Digoxin của 40 bệnh nhân ID Treatment Age Race Sex BMI SCr SBP 2289 0 76 1 1 30.586 1.7 130 6745 0 45 1 1 22.85 1.398 130 1322 1 45 1 2 43.269 0.9 115 538 1 31 1 1 27.025 1.159 120 999 1 47 1 2 30.506 1.386 120 3103 0 60 1 1 29.867 1.091 140 1954 1 77 1 1 26.545 1.307 140 5750 1 76 1 1 39.837 1.455 140 1109 0 68 1 2 27.532 1.534 144 4787 1 46 1 1 28.662 1.307 140 666 0 65 1 1 28.058 2 120 6396 0 83 1 1 26.156 1.489 116 5753 1 75 1 1 37.59 1.3 138 1882 0 50 1 1 25.712 1.034 140 5663 0 59 2 1 27.406 1.705 152 6719 1 34 1 1 20.426 1.886 116 4995 0 55 1 1 19.435 1.6 150 4055 0 71 1 1 22.229 1.261 100 4554 1 58 1 2 28.192 1.352 130 2217 1 65 1 1 23.739 1.614 170 896 0 50 1 1 27.406 1.3 140 5368 1 38 1 1 30.853 0.9 134 3403 0 55 1 2 21.79 1.17 130 7
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 1426 0 70 1 1 19.04 1.25 150 764 1 63 2 2 28.731 0.9 122 5668 0 74 1 1 29.024 1.227 116 1653 1 63 1 1 28.399 1.1 105 1254 1 73 1 1 26.545 1.3 144 2312 0 78 2 1 22.503 2.682 104 2705 1 66 1 2 28.762 0.9 150 4181 0 44 2 2 26.37 1.148 124 3641 0 64 1 1 21.228 0.9 130 2439 1 49 1 1 15.204 1.307 140 3640 0 79 1 1 18.957 2.239 150 6646 0 61 1 1 27.718 1.659 128 787 0 58 2 2 27.369 0.909 100 5407 1 50 1 2 24.176 1 130 5001 1 70 1 1 19.044 1.2 110 4375 0 61 1 1 32.079 1.273 128 4326 0 65 1 1 29.34 1.2 170 Trong bảng 2.1, các dữ liệu gốc được nhập vào worksheet của chương trình thống kê Minitab (hoặc của Excel). Bảng gồm 8 cột ứng với 8 biến: ID: mã số của bệnh nhân Treatment group: nhóm nghiệm thức (lô thí nghiệm) 0 = placebo; 1 = digoxin (placebo là một chất vô hại được dùng như thuốc – trong trường hợp này 0 được xem là lô đối chứng; 1 là lô thí nghiệm). Age: tuổi được tính bằng năm Race: sắc tộc 1 = da trắng; 2 = da màu. Sex: giới tính 1 = nam; 2 = nữ BMI (Body Mass Index): chỉ số thể trọng = trọng lượng (kg)/chiều cao (m2) SCr (Serum Creatinine): Creatinine huyết thanh(mg/dL) SBP (Systolic Blood Pressure): Huyết áp tối đa (mmHg) 1. Bảng tần số một chiều (one-way frequency table) Trình bày kết quả quan sát từng mức độ của mỗi biến. Thí dụ bảng 2.2 trình bày giới tính của 40 bệnh nhân từ dữ liệu gốc đã được nhập trong bảng 2.1. Từ bảng 2.2 ta dễ dàng nhận thấy có ¾ bệnh nhân là nam giới. Bảng 2.2 Tần số giới tính của 40 bệnh nhân trong DIG40 Giới tính Số bệnh nhân Tỉ lệ % Nam 30 75.0 Nữ 10 25.0 Tổng 40 100.0 Các biến được dùng trong bảng tần số có thể là biến định tính hoặc biến định lượng. Khi trình bày biến liên tục, các giá trị của chúng thường được nhóm lại theo loại. Thí dụ tuổi thường được xếp loại thành nhóm 10 năm. Bảng 2.3 trình bày tần số của nhóm tuổi ở 40 bệnh nhân trong bảng 2.1. 8
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bảng 2.3. Tần số độ tuổi của 40 bệnh nhân trong DIG40 Độ tuổi Số bệnh nhân Tỉ lệ % Dưới 40 3 7.5 40 – 49 6 15.0 50 – 59 8 20.0 60 – 69 11 27.5 70 – 79 12 30.0 Tổng 40 100.0 Có hơn phân nửa số bệnh nhân ở độ tuổi từ 60 trở lên. Cần lưu ý là tỉ lệ % có thể được làm tròn nhưng phải bảo đảm tổng là 100%. Đồng thời tiêu đề của bảng cũng phải cung cấp đủ thông tin cho người đọc hiểu được bảng. 2. Bảng tần số hai chiều (Two-way frequency table) Thường được sử dụng nhiều hơn vì chúng chỉ ra được mối liên hệ giữa các biến. Bảng 2.4 trình bày mối liên hệ giữa giới tính và chỉ số thể trọng (BMI), trong đó BMI đã được chia thành 4 nhóm: ốm (BMI < 18.5), bình thường (18.5 BMI < 25), mập (25 BMI < 30), và béo phì (BMI 30). Bảng 2.4. Chỉ số thể trọng (BMI) và giới tính của 40 bệnh nhân trong DIG40 BMI Giới tính Tổng Nam Nữ < 18.5 (ốm) 1 (3.3%) 0 (0.0%) 1 (2.5%) 18.5 – 24.9 (bình thường) 10 (33.3%) 2 (20.0%) 12 (30.0%) 25.0 – 29.9 (mập) 14 (46.7%) 6 (60.0% 20 (50.0%) 30.0 (béo phì) 5 (16.7%) 2 (20.0%) 7 (17.5%) Tổng 30 10 40 Có nhiều cách để trình bày dữ liệu dạng bảng biểu. Trong các bảng 2.2, 2.3, 2.4 chúng ta trình bày cả số lượng và tỉ lệ % Bảng 2.5 trình bày các đặc điểm của 200 bệnh nhân trong bộ dữ liệu gốc DIG200. Bảng 2.5 Các đặc điểm cơ bản của 200 bệnh nhân trong DIG200 Các đặc điểm Tỉ lệ % (n = 200) Giới tính Nam 73 Nữ 27 Sắc tộc Da trắng 86.5 Da màu 13.5 Tuổi Dưới 40 3.5 40 – 49 11.5 50 – 59 25 60 – 69 33 70 trở lên 26 Chỉ số thể trọng Ốm (<18.5) 1.5 Bình thường (18.5 – 24.9) 37.5 Mập (25 – 29.9) 42.5 Béo phì ( 30) 18.5 9
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Ngoài tần số, các dữ liệu khác cũng có thể trình bày dưới dạng bảng. Thí dụ bảng 2.6 trình bày chi phí y tế tính bằng % GDP của 3 nước Hoa Kỳ, Canada và Anh trong thời gian từ 1960 đến 2000. Bảng 2.6 Chi phí y tế (%GDP) trong giai đoạn từ 1960 đến 2000 Năm Canada UK USA 1960 5.4 3.9 5.1 1965 5.6 4.1 6.0 1970 7.0 4.5 7.0 1975 7.0 5.5 8.4 1980 7.1 5.6 8.8 1985 8.0 6.0 10.6 1990 9.0 6.0 12.0 1995 9.2 7.0 13.4 2000 9.2 7.3 13.3 II. MÔ TẢ & TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ Chương trình Minitab có thể được dùng để mô tả dữ liệu bằng nhiều dạng biểu đồ khác nhau, bao gồm: - Một chiều: histograms, boxplots, dotplots - Hai chiều: scatter plots, matrix plots - Ba chiều: contour plots, surface plots. Trong giáo trình này chúng ta làm quen với một số dạng biểu đồ thường được dùng để mô tả các dữ liệu và cách sử dụng chúng cho phù hợp tuỳ theo mục đích. 1. Pie chart (biểu đồ hình quạt = biểu đồ hình tròn): Thường được dùng để so sánh các giá trị dữ liệu dưới dạng tỉ lệ %. Dữ liệu của bảng 2.3 được trình bày dưới dạng biểu đồ Pie (Hình 2.1) 7.50% 30% 15% <40 40-49 50-59 60-69 70-79 20% 27.50% Hình 2.1 Biểu đồ Pie dạng 2D 10
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 2. Time Series Plot Thường dùng để biểu diễn sự thay đổi của các dữ liệu theo thời gian. Thí dụ: Theo dõi nồng độ của Hg trong 20 năm ở hai vị trí khác nhau của Địa Trung hải. Ở mỗi vị trí, 45 mẫu của loài P. oceanica được thu thập ở độ sâu 10m và mang về phòng thí nghiệm để xác định nồng độ Hg. Nồng độ Hg trung bình (ng/ g trọng lượng khô) của các mẫu ở mỗi vị trí được ghi nhận theo từng năm như trong bảng sau: Nồng độ thuỷ ngân Year Site 1 Site 2 Year Site 1 Site 2 1992 14.80 70.20 1982 21.50 147.80 1991 12.90 160.50 1981 18.20 197.70 1990 18.00 102.80 1980 25.80 262.10 1989 8.70 100.30 1979 11.00 123.30 1988 18.30 103.10 1978 16.50 363.90 1987 10.30 129.00 1977 28.10 329.40 1986 19.30 156.20 1976 50.50 542.60 1985 12.70 117.60 1975 60.10 369.90 1984 15.20 170.60 1974 96.70 705.10 1983 24.60 139.60 1973 100.40 462.00 Dùng dữ liệu trong bảng trên để xây dựng biểu đồ line bằng chương trình Minitab, kết quả như hình 2.2 Graph > Time Series Plot Multiple > OK Nhập các tùy chọn: Series: ‘Site 1’‘Site 2’ Time/Scale > Time Scale: Calendar Year Start Values: One set for each value Year 19 73 Data increment: 1 > OK Data view > Data display > symbol connect line Mặc nhiên khi đưa cả hai ‘site’ vào cùng một biểu đồ, Minitab sẽ chỉ dùng một giá trị để làm thang đo của trục Y. Trong trường hợp hai ‘site’ có giá trị khác biệt nhiều (chẳng hạn trong trường hợp trên là từ 8.7 – 100.4 ở ‘site 1’ và 70.2 – 462 ở ‘site 2’) thì sẽ rất khó để thấy được biến đổi nồng độ ở ‘site 1’. Trong trường hợp này việc thiết lập thêm một thang đo thứ hai cho trục Y là rất cần thiết. Hình 2.3 là kết quả sau khi thiết lập thêm thang đo thứ hai cho trục Y. Click chuột phải lên trục Y, chọn Edit Y scale (Ctrl + T) > Secondary OK 11
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 700 600 500 400 300 200 100 Nồng độ thủy ngân (ng/g trọng lượng khô) độ thủy (ng/g trọng ngân lượng Nồng 0 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 Năm Hình 2.2. Time Series Plot của Site 1 và Site 2 với 1 trục Y 700 100 600 80 500 60 400 Site 2 Site 1 Site 300 40 200 20 100 0 0 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 Năm Hình 2.3. Time Series Plot của Site 1 và Site 2 với 2 trục Y 3. Line Graph Thường dùng để so sánh dữ liệu của hai hoặc nhiều nhóm. Thí dụ: Dùng dữ liệu trong bảng 2.6 để xây dựng biểu đồ line bằng chương trình Minitab, kết quả như hình 2.4 12
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Graph > Line Plots >/With symbol > Series in Rows or Columns Graph vaiables: ‘Canada’ ‘UK’ ‘USA’ (C2-C4) Label column (optional): Year (C1) Series Arrangemnet: Each column forms a series Line Plot of Canada, UK, USA Variable 13 Canada UK 12 USA 11 10 9 8 % G D P D G % 7 6 5 4 1960 1965 1970 1975 1980 1985 1990 1995 2000 Year Hình 2.4 Biểu đồ Line 4. Bar Chart Để so sánh các giá trị của các chuỗi dữ liệu người ta có thể dùng các biểu đồ Bar Chart hoặc Area Graph. Thí dụ 1. Ở Mỹ, số người tham gia tổ chức bảo vệ sức khoẻ (HMOs = Health Maintenace Organization) là 9.1 triệu trong năm 1980, 33.0 triệu năm 1990 và 80.9 triệu năm 2000. Thông tin này được trình bày trong hình 2.5 bằng biểu đồ Bar. Graph > Bar Chart Bars Represent: Values from a Table Simple (two-way table) > OK Nhập các tùy chọn Graph variable: HMO Categorical variable: Year Labels > Data labels Use labels from column: HMO 13
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 90 80.9 80 70 60 50 40 33.0 30 Số người tham gia (triệu) gia tham người Số 20 9.1 10 0 1980 1990 2000 Năm Hình 2.5 Biểu đồ Bar về số người tham gia HMOs theo năm Biểu đồ Bar có thể dùng trình bày các dữ liệu phức tạp hơn, chẳng hạn các dữ liệu trong các bảng 2 chiều hoặc 3 chiều. Thí dụ 2. Bảng 2.7 trình bày tỉ lệ người mắc bệnh tiểu đường theo 5 độ tuổi. Dữ liệu này được trình bày bằng biểu đồ Bar như trong hình 2.6. Bảng 2.7 Tỉ lệ người mắc bệnh tiểu đường theo 5 độ tuổi Độ tuổi Tỉ lệ % Bar Chart Bars Represent: Values from a Table One column of values > Simple > OK Nhập các tùy chọn Graph variable: % Diabetes Categorical variable: Age Scale > Axes and Ticks > Transpose value and category scales Labels > Data labels Use labels from column: % Diabetes 14
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 70; cột C3 là ba mức độ béo phì được mã hóa bằng a, b, c. 15
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Các dữ liệu trong bảng được trình bày dưới dạng biểu đồ segmented bar theo tần số (Hình 2.7) hoặc theo tỉ lệ % (Hình 2.8). Data > Code > Numeric to Text / Code data from column: C2 Age Store coded data in columns: C2 Original values: New: 1 70 OK Data > Code > Text to Text / Code data from column: C3 OW Store coded data in columns: C3 Original values: New: a Bình thường b Mập c Béo phì OK Graph > Bar Chart Bars Represent: Values from a Table One column of values > Stack > OK Nhập các tùy chọn Graph variable: Number Categorical variable: Age OW Trong trường hợp trình bày dạng biểu đồ segmented bar theo tỉ lệ % cần khai báo thêm các tùy chọn: Chart Option > Percent and Accumulate Show Y as Percent Take percent and/or Accumulate within categories at level 1 (outermost) 16
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 70 Mứ c độ béo phì Bình thư ờng Mập 60 Béo phì 50 40 30 Số bệnh nhân Số bệnh 20 10 0 Dưới 50 50-59 60-69 70 trở lên Nhóm tuổi Hình 2.7. Biểu đồ Segmented Bar (theo tần số) Mứ c độ béo phì 100 Bình thư ờng Mập Béo phì 80 60 40 Số bệnh nhân Số bệnh 20 0 Dưới 50 50-59 60-69 70 trở lên Nhóm tuổi Hình 2.8 Biểu đồ Segmented Bar (theo tỉ lệ %) 5. Interval Plot Dùng để biểu diễn giá trị trung bình cùng với khoảng tin cậy hoặc sai số. Biểu đồ này vừa minh họa cho các số đo trung tâm, vừa cho thấy biến động của dữ liệu. 17
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Thí dụ: Nhằm khảo sát sự tăng trưởng của trùng Enchytraeid, người ta thu mẫu ở 3 địa điểm khác nhau và đem nuôi trong môi trường có nồng độ là 0, 200, 400, và 800 mg Zn/kg. Số đốt thân được đếm 2 ngày/lần trong một tháng. Kết quả được lưu trong worksheet Enchytraeid. MTW. Từ kết quả này, người ta ghi nhận được biểu đồ như trong hình 2.9. Graph > Interval Plot >/ Multiple Y’s > With Group Graph Variables: 0 200 400 800 (C2-C5) Categorical for grouping: site (C1) Data View > Data display Interval Bar OK Theo mặc nhiên, Minitab sẽ hiển thị interval ở dạng 95% confident interval. Ta có thể chọn hiển thị là error bar bằng cách: Ctrl + T > Option > Type of Interval: Standard error Absolute Growth Rate 0.4 site poll sm sw 0.3 0.2 No of Segment/Day No 0.1 0.0 0 200 400 800 Hình 2. 9. Interval Plot 6. Histogram Biểu đồ này tương tự biểu đồ Bar nhưng chỉ dùng cho các biến được phân lớp. Biểu đồ cung cấp cho chúng ta hình ảnh về sự phân bố của dữ liệu. Các giá trị của biến được nhóm thành từng lớp (còn gọi là bin) thường có độ rộng bằng nhau. Số biến trong mỗi lớp được chỉ bởi độ cao của cột. Trước khi thiết lập biểu đồ, các dữ liệu phải được sắp xếp lại trong bảng tần số 1 chiều. Các dữ liệu trong bảng 2.9 được dùng để thiết lập biểu đồ Histogram. 18
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bảng 2.9 Tần số huyết áp tối đa (mmHg) của 199 bệnh nhân Giá Tần Giá Tần Giá Tần Giá Tần Giá Tần Giá Tần trị số trị số trị số trị số trị số trị số 85 1 105 1 116 8 128 3 138 1 150 12 90 5 106 2 118 5 130 23 139 2 152 3 95 2 108 2 120 25 131 1 140 26 155 1 96 1 110 16 122 4 132 2 142 1 160 3 100 14 112 1 124 4 134 1 144 3 162 1 102 1 114 5 125 3 135 2 145 1 165 1 104 2 115 2 126 1 136 1 148 1 170 5 Trước khi vẽ biểu đồ, ta phải trả lời được các câu hỏi sau: (1) Cần phải chia dữ liệu thành bao nhiêu lớp? (2) Độ rộng (khoảng) của mỗi lớp là bao nhiêu? Như vậy ta phải tính toán số lớp và độ rộng của mỗi lớp để xây dựng bảng phân bố tần số (bảng 2.10). (1) Số lượng khoảng có liên quan đến số lượng biến. Nói chung có thể chia thành từ 5 – 15 khoảng. Cở mẫu càng nhỏ thì số lượng khoảng càng ít. Một phương pháp được đề nghị bởi Sturges và Scott (1979) là dùng log2 n+1 để tính số khoảng (trong đó n là số lượng biến quan sát được). Trong bảng 2.9 có 199 biến, ta cần tìm giá trị của log2 199 + 1. Giá trị này là 8.64, có thể làm tròn là 9, nghĩa là có thể dùng 9 khoảng để xây dựng biểu đồ. (2) Tính độ rộng của mỗi lớp (class interval) = (Xmax – Xmin)/ (log2 n + 1) Vì (170 – 85)/8.64 = 85/8.64 = 9.84, làm tròn thành 10mmHg. Bảng 2.10 Phân bố tần số huyết áp tối đa của các dữ liệu trong bảng 2.9 Lớp Khoảng lớp Tần số Tần suất Tần suất lích luỹ Tần số tích luỹ (Bin) (Class Width) (Frequency) (Relative (Cumulative (Cumulative Frequency) Relative Frequency) Frequency) 1 85 – 95 6 3.02 3.02 6 2 95 -105 20 10.05 13.07 26 3 105 – 115 27 13.57 26.63 53 4 115 – 125 48 24.12 50.75 101 5 125 – 135 34 17.09 67.84 135 6 135 – 145 36 18.09 85.93 171 7 145 – 155 17 8.54 94.47 188 8 155 – 165 5 2.51 96.98 193 9 165 – 175 6 3.02 100.00 199 Tổng 199 100.00 Cần lưu ý là 85 – 95 bao gồm tất cả các giá trị từ 85 – 95 nhưng không bao gồm 95 nghĩa là 85 y <95. Hình 2.10 là biểu đồ histogram được vẻ bằng chương trình Minitab từ dữ liệu của bảng 2.10. 19
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Mở worksheet: DIG200.xls Graph > Histogram > Simple > OK Graph variables: C25 sysbp Labels > Data labels > Use y-value labels > OK Bấm chuột phải trên trục X của biểu đồ, chọn Edit X Scale (hoặc Ctrl+T) Scale > Scale Range: Minimum: 85 Maximum: 175 Binning > Interval Definition Number of intervals: 9 ếốđ 50 48 40 36 34 30 27 Tần số Tần 20 20 17 10 6 6 5 0 85 95 105 115 125 135 145 155 165 175 Huyết áp tối đa (mmHg) Hình 2.10 Biểu đồ histogram về huyết áp tối đa của 199 bệnh nhân Có thể dùng biểu đồ histogram để so sánh hai nhóm dữ liệu. Thí dụ dùng bộ dữ liệu DIG200 ta xây dựng hai biểu đồ histogram để so sánh sự phân bố huyết áp tối đa của hai nhóm tuổi dưới 60 và trên 60. Hình 2.11 trình bày hai biểu đồ của hai nhóm này. Cần lưu ý là ta sử dụng tần số tương đối (tần suất) thay vì tần số do dữ liệu của hai nhóm này khác nhau (cỡ mẫu khác nhau).: chỉ có 81 bệnh nhân dưới 60 tuổi trong khi có tới 118 bệnh nhân trên 60 tuổi. Worksheet: DIG200.xls Graph > Histogram > Simple > OK Graph variables: C25 sysbp Scale > Y-Scale Type > Density Labels > Data labels > Use y-value labels > OK Data option > Specify which rows to include > Row that match Condition age OK > OK 20
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Lặp lại tương tự với Condition Age > 60 Tuổi dưới 60 0.035 0.3333 0.030 0.025 0.020 0.1852 0.1481 0.015 0.1111 Tần số đối tương Tần 0.010 0.0864 0.0741 0.005 0.0247 0.0247 0.0123 0.000 85 95 105 115 125 135 145 155 165 175 Huyết áp tối đa (mmHg) Tuổi trên 60 0.020 0.1780 0.1864 0.1780 0.1695 0.015 0.010 0.0932 0.0932 Tần số tương đối số đối tương Tần 0.005 0.0339 0.0339 0.0339 0.000 85 95 105 115 125 135 145 155 165 175 Huyết áp tối đa (mmHg) Hình 2.11 Biểu đồ histogram về phân bố huyết áp tối đa theo nhóm tuổi 7. Stem-and-Leaf Plots Biểu đồ này tương tự histogram, chỉ khác ở chỗ chúng trình bày giá trị dữ liệu thay vì dùng các thanh (cột). Biểu đồ stem-and-leaf thường chỉ dùng cho các nhóm dữ liệu nhỏ. Thí dụ xây dựng biểu đồ huyết áp tối đa đo được của 40 bệnh nhân trong bộ dữ liệu DIG40, ta được kết quả như sau: 21
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Graph > Stem-and-Leaf Stat > EDA > Stem-and-Leaf 4 10 0045 9 11 05666 16 12 0002488 (8) 13 00000048 16 14 000000044 7 15 00002 2 16 2 17 00 Chương trình minitab hiển thị biểu đồ trong Session window. Nội dung hiển thị gồm 3 cột. Cột thứ nhất nằm bên trái hiển thị số đếm tích luỹ (Cumulative Count) phía trên và phía dưới của số trung vị (số trung vị được đặt trong ngoặc đơn). Cột thứ hai ở giữa là thân (stem) và cột thứ ba bên phải chứa các lá (leaves). Thí dụ trong hàng thứ nhất chúng ta thân là 10 và các lá là 0, 0, 4, và 5. Vì đơn vị của thân là 10 và của lá là 1 nên bốn số này sẽ là 100, 100, 104, và 105. Hàng thứ hai có thân là 11 và 5 lá là 0, 5, 6, 6, 6 nên các giá trị của nó là 110, 115, 116, 116, và 116. Lưu ý số đầu tiên trong hàng thứ hai là 9 chính là số đếm tích luỹ của hai hàng đầu (4 + 5). hàng thứ ba có 7 giá trị nên số đếm tích luỹ của hàng này là 16 (9 + 7). Số trung vị ở hàng thứ tư và giá trị của nó là 130. 8. Dotplot (biểu đồ điểm) Một dotplot trình bày sự phân bố của một biến liên tục. Hình 2.12 dưới đây là dotplot giúp chúng ta so sánh sự phân bố của biến liên tục là huyết áp tối đa qua một biến định tính là tuổi được chia thành hai nhóm: dưới 60 và trên 60 tuổi (DIG 40). Tương tự stem-and-leaf plot, dotplot được dùng cho các nhóm dữ liệu nhỏ. Worksheet DIG40.xls Data > Copy > Columns to Columns Copy from columns: C8 sbp Store Copied Data in Columns: In current worksheet, in columns C9 Subset the Data > Specify which rows to include > Row that match Condition age > 60 Data > Copy > Columns to Columns Copy from columns: C8 sbp Store Copied Data in Columns: In current worksheet, in columns C10 Subset the Data > Specify which rows to include > Row that match Condition age Dotplot > Multiple’s Y/Simple > OK Graph variables: C9 C10 22
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Tuổi trên 60 Tuổi dưới 60 100 110 120 130 140 150 160 170 Huyết áp tối đa (mmHg) Hình 2.12 Dotplot về huyết áp tối đa theo nhóm tuổi 9. Scatterplots Scatterplot là biểu đồ hai chiều (two- dimension) được sử dụng rất phổ biến để trình bày mối quan hệ giữa hai nhóm dữ liệu thu được trong thí nghiệm. Đặc biệt chúng được dùng rất hiệu quả với các biến liên tục. Hình 2.13 là biểu đồ scatter dùng khảo sát tương quan giữa mức creatinine trong huyết thanh với huyết áp tối đa của 40 bệnh nhân (DIG40). Trong biểu đồ mỗi vòng tròn tượng trưng cho một giá trị creatinine huyết thanh và huyết áp tối đa của một bệnh nhân. Chẳng hạn, vòng tròn trên cùng phía tay trái của biểu đồ chỉ bệnh nhân thứ hai (ID = 2312) với creatinine huyết thanh là 2.682 mg/dL và huyết áp tối đa là 104 mmHg. Có nhiều khả năng là giá trị của cả hai biến đều giống nhau ở một số bệnh nhân. Khảo sát cẩn thận các dữ liệu trong bảng 2.1 (DIG40) cho thấy có 3 bệnh nhân (ID = 4787, 1954, 2439) đều có creatinine là 1.307 mg/dL và huyết áp tối đa là 140 mmHg. Chúng được biểu diễn bằng các vòng tròn chồng lên nhau thành một. 2.75 2.50 2.25 2.00 1.75 1.50 1.25 creatinine huyếtcreatinine thanh (mg/dL) 1.00 100 110 120 130 140 150 160 170 Huyết áp tối đa (mmHg) Hình 2.13 Scatter Plots Scatter Plots có hiệu quả nhất đối với cỡ mẫu nhỏ hoặc trung bình. Khi có nhiều biến như trong bộ dữ liệu DIG40, một ma trận (matrix) của scatter plot có thể được sử dụng (hình 2.14). Từ ma trận này ta có thể thấy được giữa tuổi và mức creatinine huyết thanh hơi có mối tương quan dương, giữa creatinine huyết thanh và chỉ số thể trọng hơi có mối tương quan âm, còn lại giữa các biến khác không thấy rõ mối tương quan. 23
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 0.8 1.6 2.4 2.4 creat 1.6 0.8 40 30 bmi 20 80 60 age 40 100 125 150 20 30 40 sysbp creat bmi Hình 2.14. Matrix Plots Dạng đồ thị cuối cùng thường được dùng để trình bày dữ liệu là box plot sẽ được mô tả chi tiết ở phần sau. III. CÁC SỐ ĐO ĐỊNH TÂM (Measures of Central Tendency) Số định tâm của nhóm dữ liệu là số đại diện cho tất cả các dữ liệu đó, nó thể hiện vai trò trung tâm của nhóm dữ liệu. Ba loại số định tâm thường được sử dụng là số trung bình (Mean), số trung vị (Median) và số yếu vị (Mode). Thí dụ dưới đây được dùng để minh hoạ cho cách tính các số đo. Ba nhà chăn nuôi (NCN) dùng các phương pháp khác nhau để vỗ béo lợn. Trên những con lợn cùng lứa, họ ghi nhận số ngày từ lúc cai sữa đến lúc xẻ thịt đối với mỗi con (Bảng 2.11) Bảng 2.11. Số ngày từ cai sữa đến xẻ thịt với 3 phương pháp vỗ béo lợn NCN1 NCN2 NCN3 105 107 100 112 108 107 99 104 100 97 112 113 104 101 103 117 103 115 105 98 108 110 105 1. Số trung bình (Mean) Số trung bình cộng (Arithmetic Mean) Số trung bình cộng còn được gọi là số trung bình số học hay ngắn gọn hơn là số trung bình (Average). Đây là giá trị thường được dùng nhất để mô tả đặc tính của một mẫu. Trung bình mẫu là một số mà các giá trị của mẫu có xu hướng qui tụ quanh nó. 24
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Thí dụ trong nhóm mẫu nhà chăn nuôi 3 (bảng 2.11) trung bình mẫu là: 1 y (100 107 105) 105.7 ngày 9 Nếu ký hiệu cho các giá trị trong mẫu trên là y1 = 100, y2 = 107, , y9 = 105 ta sẽ tính số trung bình cộng là: 19 1 y yi ( y1 y 2 y 3 y 9 ) 9i 1 9 Khái quát, với n giá trị quan sát thì số trung bình cộng được tính theo công thức: 1 n y yi n i 1 Số trung bình cộng gia quyền (Weighted Mean) Còn được gọi là số trung bình số học có trọng số. Chúng được dùng trong trường hợp ta khảo sát nhiều mẫu có kích cỡ khác nhau. Công thức tổng quát để tính trung bình cộng gia quyền là: n wYi i i 1 Yw n trong đó wi là trọng số wi i 1 Thí dụ: khảo sát mật độ khoáng trong xương (BMD = Bone Mineral Density) ở đốt sống thắt lưng của 3 kiểu gen khác nhau, người ta thu nhận được số liệu như sau: Kiểu gen Cở mẫu (n) Trung bình mẫu TT 40 1.25 g/cm2 Tt 45 1.10 g/cm2 tt 15 1.00 g/cm2 Số trung bình cộng gia quyền là: (40)(1.25) (45)(1.10) (15)(1.00) Y w 40 45 15 = 1.145 g/cm2 Số trung bình điều hoà (Harmonic Mean) Nghịch đảo của trung bình cộng các biến nghịch đảo được gọi là trung bình điều hoà. Nếu ký hiệu nó là HY thì công thức để tính trung bình điều hoà là: 1 1 1 1 1 1n 1 ( ) Hy n y1 y 2 y n ni 1 y i 25
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Khi nhóm dữ liệu có các giá trị đo lường tốc độ của sự thay đổi thì người ta thường dùng số trung bình điều hoà. Số trung bình nhân (Geometric Mean) Còn được gọi là số trung bình hình học. Số trung bình nhân của nhóm dữ liệu y1, y2, , yn là antilog của trung bình cộng các giá trị ở dạng loga, nghĩa là: 1 logGM (log y log y log y ) yn 1 2 i 1 n GMy antilog log y n i 1 Một cách biểu diễn khác của giá trị này là: n GMy y1 y 2 y 3 y n hay n n GMy y i i 1 Cần lưu ý là số trung bình nhân không được dùng trong trường hợp dữ liệu có giá trị âm hoặc zero. Trimmed Mean Khi bộ số liệu có một vài giá trị cực đoan (gọi là outlier), trung bình dữ liệu sẽ bị kéo lệch về phía các giá trị này. Để điều chỉnh, Minitab sẽ cắt bỏ 5% số liệu đầu và 5% số liệu cuối của dãy số liệu, sau đó mới tính số trung bình. 2. Số trung vị (Median) Là giá trị nằm ở giữa của chuỗi dữ liệu: 50% giá trị quan sát nằm phía trên, 50% nằm phía dưới trung vị. Khi chuỗi dữ liệu có n giá trị quan sát, nếu n là số lẻ thì số trung vị là số thứ (n+1)/2; nếu n là số chẵn thì số trung vị là trung bình của số thứ n/2 và số thứ (n/2)+1. Thí dụ trong nhóm mẫu NCN 3 (bảng 2.11), các số liệu được sắp xếp từ theo thứ tự từ nhỏ đến lớn thì số trung vị là số ở vị trí thứ (9+1)/2 = 5: 98 100 100 103 105 107 110 113 115 Số trung vị = 105 ngày Tương tự, trong nhóm mẫu NCN 2 thì số trung vị là số ở vị trí giữa số thứ 8/2 = 4 và số thứ (8/2) + 1 = 5. 101 103 104 105 107 108 108 112 Số trung vị = (105+107)/2 = 106 ngày 3. Số yếu vị = Số trội (Mode) Là giá trị có tần số cao nhất trong chuỗi dữ liệu. Thí dụ trong chuỗi dữ liệu {4, 5, 3, 2, 4, 1, 7, 4, 2, 4}, số trội là 4 26
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - IV. CÁC SỐ ĐO ĐỘ PHÂN TÁN (Measures of Dispersal) Các số đo độ phân tán dùng để thể hiện sự khác biệt giữa các số trong dữ liệu đối với số định tâm. 1. Khoảng biến thiên (Range) Là sự khác biệt giữa hai giá trị quan sát lớn nhất và nhỏ nhất. Thí dụ trong nhóm mẫu NCN 1, khoảng biến thiên là 117 – 97 = 20; trong nhóm mẫu NCN2, khoảng biến thiên = 112 – 101 = 11; trong nhóm mẫu NCN3, khoảng biến thiên = 115 – 98 = 17. Như vậy khoảng biến thiên trong các mẫu kích cỡ khác nhau có thể không giống nhau. Khoảng biến thiên càng nhỏ thì tổng thể càng đồng đều, số trung bình càng có tính đại diện cao và ngược lại. Khoảng biến thiên có hai nhược điểm: (1) chúng bỏ qua phần lớn các dữ liệu, vì chúng chỉ phụ thuộc vào hai giá trị nhỏ nhất và lớn nhất, (2) giá trị của khoảng biến thiên gián tiếp phụ thuộc vào cỡ mẫu. Khoảng biến thiên không bao giờ giảm mà chỉ bằng hoặc tăng khi các biến trong chuỗi dữ liệu tăng lên. 2. Khoảng tứ vị (Inter Quartile Range = IQR) Tứ vị (quartile) là vị trí chia chuỗi dữ liệu ra thành 4 phần bằng nhau: Có 25% các giá trị quan sát tứ vị 1 (Q1) = lower quartile 50% các giá trị quan sát tứ vị 2 (Q2) = trung vị 75% các giá trị quan sát tứ vị 3 (Q3) = upper quartile n 1 Tứ vị 1 là giá trị ở vị trí thứ 4 3(n 1) Tứ vị 3 là giá trị ở vị trí thứ 4 Khoảng tứ vị: IQR = Q3 – Q1 Thí dụ trong nhóm mẫu NCN3: 98 100 100 103 105 107 110 113 115 n 1 Lower quartile là giá trị ở vị trí thứ = (9+1)/4 = 2.5 4 Q1 = (100+100)/2 = 100 ngày 3(n 1) Upper quartile là giá trị ở vị trí thứ = 3(9+1)/4 = 7.5 4 Q3 = (110+113)/2 = 111.5 ngày Khoảng tứ vị: IQR = Q3 – Q1 = 111.5 – 100 = 11.5 ngày Như vậy có 50% lợn đạt trọng lượng xẻ thịt trong khoảng giới hạn 11.5 ngày 3. Độ lệch trung bình (Mean Deviation) Giả sử ta tính độ lệch giữa biến số với trung bình của nó: (1) 100 – 105.7 = – 5.7 (2) 107 – 105.7 = +1.3 27
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - (3) 100 – 105.7 = – 5.7 (n) 105 – 105.7 = – 0.7 Những sai khác này cho ta thấy tính biến thiên của dữ liệu. Tuy nhiên trung bình của toàn bộ các độ lệch luôn bằng 0, vì vậy chúng không thể dùng để đo tính biến thiên. Một cách làm khác là loại bỏ dấu của những độ lệch này và tính trung bình của chúng: 1 (5.7 1.3 5.7 0.7) 4.96 ngày 9 Giá trị này được gọi là độ lệch trung bình hoặc là độ lệch tuyệt đối trung bình (mean absolute deviation = MAD). Chúng ít được dùng trong thực tế. 4. Phương sai (Variance) Giả sử ta bình phương độ lệch giữa biến số với trung bình: (1) (100 – 105.7)2 = 32.49 (2) (107 – 105.7)2 = 1.69 (n) (105 – 105.7)2 = 0.49 Trung bình của những độ lệch bình phương này sẽ là một số đo cho tính biến thiên của trung bình. Tuy nhiên, một phương pháp được ưa chuộng hơn là đem chia chúng cho tổng quan sát trừ đi 1. Kết quả thu được chính là phương sai và được ký hiệu là s2. 1 s2 (100 105.7) 2 (107 105.7) 2 (105 105.7) 2 8 = 36.5 ngày2 Đơn vị của phương sai luôn luôn là bình phương của đơn vị gốc. Nếu đơn vị gốc là kg (chẳng hạn đơn vị đo thể trọng) thì phương sai có đơn vị đo là kg2. Tổng quát, nếu ta có n quan sát thì công thức tính phương sai là n 21 2 s () yi y n 1 i 1 5. Độ lệch chuẩn (standard deviation) Để có số đo tính biến thiên cùng đơn vị với số đo gốc, người ta lấy căn bậc hai của phương sai. Đây chính là độ lệch chuẩn , ký hiệu là s: n 1 2 s () yi y n 1 i 1 s = 36.5 = 6.04 ngày 6. Hệ số biến thiên (Coefficient of variation) Độ lệch chuẩn là một ước lượng độ biến thiên trong một tổng thể. Khi có hai tổng thể khác nhau về giá trị trung bình thì việc so sánh trực tiếp phương sai hoặc độ lệch chuẩn của chúng ít có giá trị vì tổng thể lớn thường biến đổi nhiều hơn. Trong trường hợp này, để so sánh biến thiên tương đối trong các tổng thể có trung bình khác nhau, người thường dùng hệ số biến thiên (ký hiệu là CV). Công thức tính là: 28
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - s CV .100 y 7. Box plot Boxplot (còn gọi là box and whiskers plot) là một cách mô tả dữ liệu dưới dạng biểu đồ rất đơn giản. Nó cung cấp cho chúng ta 1 số đo về vị trí trung tâm của dữ liệu (trung vị), 2 số đo về độ phân tán của số liệu (khoảng biến thiên và khoảng tứ vị), độ lệch của dữ liệu. “box” có dạng hộp hình chữ nhật, chứa 50% dữ liệu với các giá trị Q1, Q2 (trung vị) và Q3. Mỗi whisker biểu diễn cho 25% dữ liệu với các giá trị cực tiểu (min) và cực đại (max). Ta sẽ dùng dữ liệu về hàm lượng nước ngầm trong đất (%) để minh hoạ cho cách xây dựng một box plot (Hình 2.15 và 2.16). 7.5 9.0 9.3 10.4 10.4 10.6 10.7 11.6 12.1 12.8 Q1 Q2 Q3 Trong box plot, các tứ vị Q1 và Q3 là hai đầu của “hộp” còn trung vị là thanh đứng giữa hộp. Hai thanh (Whisker) có chiều dài là từ Q1 đến giá trị nhỏ nhất (min) và từ Q3 đến giá trị lớn nhất (max). Trung vị = giá trị thứ (n + 1)/2 = (10 + 1)/2 =giá trị thứ 5.5 = trung bình của giá trị thứ 5 và thứ 6 = ½ *(10.4 + 10.6) = 10.5% n 1 Q1 = giá trị ở vị trí thứ = (10 + 1)/4 = 2.75 4 = trung bình gia quyền của giá trị thứ 2 và thứ 3 = (0.25* 9.0) + (0.75*9.3 = 9.225% 3(n 1) Q3 = giá trị ở vị trí thứ = (3(10+1))/4 = 8.25 4 = trung bình gia quyền của giá trị thứ 8 và thứ 9 = (0.75*11.6) + (0.25*12.1) = 11.725% IRQ Q1 Q2 Q3 9.225 10.5 11.725 7.5 12.8 7 8 9 10 11 12 13 Hình 2.15. Các thành phần của Box Plot 29
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 7 8 9 10 11 12 13 %Water Hình 2.16 Một Box Plot xây dựng bằng minitab Đặc biệt boxplot rất hữu dụng khi ta cần so sánh nhiều nhóm dữ liệu. Chẳng hạn dùng dữ liệu trong bảng 2.11 ta xây dựng được box plot như hình 2. 17. Graph > Boxplot > Multiple’sY / Simple > OK hoặc Stat > EDA > Boxplot > Multiple’sY / Simple > OK 120 115 110 Days 105 100 Farmer 1 Farmer 2 Farmer 3 Hình 2.17 Boxplot so sánh 3 phương pháp vỗ béo của 3 NCN 30
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Chương 3. PHÂN BỐ XÁC SUẤT Chương này giới thiệu ba loại phân bố xác suất (Probability Distribution): phân bố nhị thức (binomial distribution), phân bố Poisson (Poisson distribution) cho các biến ngẫu nhiên rời rạc, và phân bố chuẩn (normal distribution) cho các biến ngẫu nhiên liên tục. Đối với biến ngẫu nhiên rời rạc, phân bố xác suất của nó là kết quả liệt kê các xác suất xảy ra hoặc một hàm để tìm ra xác suất. Đối với biến ngẫu nhiên liên tục, phân bố xác suất của nó là hàm được dùng để tìm xác suất của biến trong một khoảng xác định. Những hiểu biết về phân bố xác suất (1) cho phép chúng ta tóm tắt và mô tả dữ liệu thông qua việc sử dụng một ít số liệu và (2) giúp chúng ta xác định được kết quả có phù hợp với giả thuyết đề ra hay không. I. CÁC DẠNG PHÂN BỐ 1. Phân bố đối xứng (Symmetric distribution) Thí dụ: Chiều cao của 100 người nam (cm) Dữ liệu 168.0 167.6 167.2 166.6 167.6 172.4 176.3 167.2 166.0 172.0 167.8 172.3 164.8 172.4 172.5 166.8 167.9 166.3 175.3 166.9 172.0 166.1 163.9 171.0 172.0 162.4 167.7 175.0 173.5 166.7 170.1 168.3 172.3 170.0 162.5 165.9 164.9 175.6 179.3 160.3 172.6 175.9 170.1 173.8 172.0 175.5 174.1 174.7 170.4 171.0 171.2 177.9 165.8 176.7 173.6 171.7 181.0 168.6 166.6 164.1 168.7 170.5 163.1 164.2 167.6 164.9 168.4 172.8 164.9 171.8 166.7 165.3 178.9 171.1 171.1 174.2 174.5 167.2 171.2 171.1 174.0 164.0 174.2 167.6 167.8 170.6 176.8 168.1 172.0 167.3 176.8 162.8 170.0 172.3 173.4 169.5 170.6 169.5 166.4 173.5 Minitab output Minitab worksheet: Heights of males Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: Height Variable N N* Mean SE Mean StDev Minimum Q1 Median Height 100 0 170.06 0.421 4.21 160.30 166.83 170.25 Variable Q3 Maximum Height 172.75 181.00 31
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Descriptive Statistics A nderson-Darling N ormality Test A -Squared 0.39 P -V alue 0.369 M ean 170.06 StDev 4.21 V ariance 17.75 Skewness 0.157839 Kurtosis -0.405964 N 100 M inimum 160.30 1st Q uartile 166.83 M edian 170.25 3rd Q uartile 172.75 160 164 168 172 176 180 M aximum 181.00 95% C onfidence Interv al for Mean 169.23 170.90 95% C onfidence Interv al for Median 168.25 171.20 95% C onfidence Interv al for StDev 95 % Confidence Intervals 3.70 4.89 Mean Median 168.0 168.5 169.0 169.5 170.0 170.5 171.0 Trung bình (170.1 cm) và trung vị (170.3 cm) xấp xỉ bằng nhau. Phân bố đối xứng qua giá trị trung bình, có thể thấy trên histogram hoặc qua whiskers của boxplot. 2. Phân bố lệch dương (Positively Skewed Distribution) Thí dụ: Số lượng nang trứng/g trong các mẫu phân của 100 con dê Dữ liệu 4100 4500 3600 6200 6600 15900 3300 2900 5300 21400 9400 1300 6400 4100 5400 9300 3700 6800 13400 2700 4300 2500 2800 6700 4800 10800 3300 4900 10000 4400 2400 10400 3100 3800 6000 2400 3000 3800 1600 4500 5400 2600 7400 6400 10500 11900 3600 4800 2200 12000 5500 12300 2300 2900 3900 9000 12200 5600 2200 4500 7800 3600 6600 13200 4100 6000 2000 2500 4500 4100 1800 9900 5600 2400 1500 9600 5200 7500 4900 5800 5900 5900 2700 4500 7300 3100 4700 2600 13000 2300 1700 1900 1200 5600 7500 2000 3600 2900 6600 2500 Minitab output Minitab worksheet: Oocysts in goats Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: Oocysts Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum Oocysts 100 0 5551 360 3597 1200 2900 4500 6675 21400 32
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Descriptive Statistics A nderson-Darling N ormality Test A -Squared 3.78 P -V alue Basic Statistics > Display Descriptive Statistics Descriptive Statistics: Gene+ Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Gene+ 100 0 47.680 0.156 1.563 43.000 47.000 48.000 49.000 Variable Maximum Gene+ 50.000 33
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Descriptive Statistics A nderson-Darling N ormality Test A -Squared 2.32 P -V alue 1– p là xác suất thất bại trong mỗi phép thử độc lập. Phân bố của số lần phép thử thành công được gọi là phân bố nhị thức. Ba thí dụ về biến ngẫu nhiên có hai kết quả là (1) tình trạng hút thuốc lá – một người có thể hút hoặc không hút, (2) tiếp xúc với benzene – một công nhân có hoặc không có tiếp xúc với benzene ở nơi làm việc, (3) bảo hiểm y tế – một người có hoặc không có bảo hiểm y tế. Biến ngẫu nhiên được quan tâm trong phân bố nhị thức là số lần xuất hiện các biến cố (=sự kiện = event) được nghiên cứu. Chẳng hạn như số người trưởng thành có hút thuốc là, số công nhân có tiếp xúc với benzene, số người có bảo hiểm y tế trong số n người của một mẫu nghiên cứu. Trong phân bố nhị thức, các biến cố phải độc lập nhau. 1. Xác suất nhị thức (Binomial Probabilities) Thí dụ chọn ngẫu nhiên 4 người trưởng thành (ký hiệu A, B, C, và D) và phỏng vấn xem họ có hút thuốc lá hay không. Biến ngẫu nhiên được quan tâm là số người trả lời CÓ. Các kết quả thu được là 0, 1, 2, 3, và 4. Các kết quả (0, 1, 2, 3, 4) được gán cho tỉ lệ của người trả lời CÓ (theo thứ tự tương ứng là 0.00, 0.25, 0.50, 0.75, và 1.00). Bất kỳ kết quả nào cũng có thể xảy ra khi ta rút ra một mẫu ngẫu nhiên của 4 người. Để chứng minh, ta hãy rút ra 10 mẫu ngẫu nhiên, mỗi mẫu gồm 4 số ngẫu nhiên. Các số nhỏ hơn 25 được xem là người hút thuốc lá. Kết quả như sau: 34
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Mẫu Số ngẫu nhiên Số người hút thuốc Tỉ lệ 1 17 17 47 59 2 0.50 2 26 58 06 84 1 0.25 3 24 04 23 38 3 0.75 4 74 83 87 93 0 0.00 5 72 86 25 09 1 0.25 6 82 27 49 45 0 0.00 7 77 58 68 91 0 0.00 8 17 80 21 66 2 0.50 9 10 27 10 61 2 0.50 10 07 78 05 54 2 0.50 Trong số 10 mẫu có: 3 mẫu không có người hút thuốc lá (0.00); hai mẫu có 1 người hút (0.25); bốn mẫu có 2 người hút (0.50); một mẫu có 3 người hút (0.75) và không mẫu nào có 4 người hút (1.00). Nếu gọi tỉ lệ người trả lời CÓ (hút thuốc lá) là p thì tỉ lệ người trả lời KHÔNG là 1 - p. Xác suất xuất hiện của các sự kiện được trình bày trong bảng 3.1. Bảng 3.1 Các kết quả của xác suất nhị thức trong một mẫu n = 4 Người Xác suất xuất hiện A B C D y y y y p * p * p * p = p4 * (1– p)0 y y y n p * p * p * (1– p) = p3 * (1– p)1 y y n y p * p * (1– p) * p = p3 * (1– p)1 y n y y p * (1– p)* p * p = p3 * (1– p)1 n y y y (1– p) * p * p * p = p3 * (1– p)1 y y n n p * p * (1– p * (1– p) = p2 * (1– p)2 y n y n p * (1– p * p * (1– p) = p2 * (1– p)2 y n n y p * (1– p * (1– p) * p = p2 * (1– p)2 n y y n 1 p * p * p * (1– p) = p2 * (1– p)2 n y n y 1 p * p * (1– p)* p = p2 * (1– p)2 n n y y 1 p * (1– p)* p * p = p2 * (1– p)2 y n n n p * (1– p * (1– p * (1– p) = p1 * (1– p)3 n y n n (1– p * p * (1– p * (1– p) = p1 * (1– p)3 n n y n (1– p * (1– p * p * (1– p) = p1 * (1– p)3 n n n y (1– p * (1– p * (1– p) * p = p1 * (1– p)3 n n n n 1 p * (1– p * (1– p * (1– p) = p0 * (1– p)4 Giả sử p = 0.25 thì xác suất của mỗi sự kiện là: P {4 trả lời YES} = 1 * (0.25)4 * (0.75)0 = 0.0039 = P {0 trả lời NO} P {3 trả lời YES} = 4 * (0.25)3 * (0.75)1 = 0.0496 = P {1 trả lời NO} P {2 trả lời YES} = 6 * (0.25)2 * (0.75)2 = 0.2109 = P {2 trả lời NO} 35
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - P {1 trả lời YES} = 4 * (0.25)1 * (0.75)3 = 0.4219 = P {3 trả lời NO} P {0 trả lời YES} = 1 * (0.25)0 * (0.75)4 = 0.3164 = P {1 trả lời NO} Tổng của tất cả các xác suất nầy là 1. Hình 3.1 là đồ thị của phân bố nhị thức với n = 4 và p = 0.25. 0.422 0.4 0.316 0.3 0.211 0.2 Xác suất ra xảy 0.1 0.047 0.004 0.0 0 1 2 3 4 Số người trả lời CÓ Hình 3.1. Bar chart trình bày phân bố nhị thức với n = 4 và p = 0.25 Hàm xác suất của phân bố nhị thức là: n x n x P{X= x } = Cx p (1 p ) n! trong đó C x = , n! = n(n – 1)(n – 2) 1 và 0! = 1 n x!( n x )! p = xác suất thành công của phép thử, n = số phép thử Áp dụng Minitab Calc > Probability Distributions > Binomial Các tuỳ chọn: Probability: tính hàm mật độ xác suất (PDF) Cummulative probability: tính hàm phân bố xác suất (CDF) Inverse cummulative probability: tính xác suất của hàm phân bố CDF Dùng phần mềm Minitab để tính hàm mật độ xác suất (PDF = Probability density function) và hàm phân bố xác suất (CDF = Probability cumulative distribution function) với n = 4 và p = 0.25, ta có kết quả như trong bảng 3.2. Hàm phân bố xác suất có dạng như trong hình 3.2. 36
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bảng 3.2 Hàm phân bố của nhị thức (n = 4, p = 0.25) x 0 1 2 3 4 PDF P(X = x) 0.3164 0.4219 0.2109 0.0469 0.0039 CDF P(X x) 0.3164 0.7383 0.9492 0.9961 1.0000 0.4 0.3 PDF 0.2 0.1 0.0 0 1 2 3 4 5 X 1.0 0.9 0.8 0.7 CDF 0.6 0.5 0.4 0.3 0 1 2 3 4 X Hình 3.2. Các hàm phân bố của nhị thức (n = 4, p = 0.25) 37
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 2. Trung bình và phương sai của phân bố nhị thức Trung bình m= n p Thí dụ: trung bình số lần thành công trong n phép thử (n = 4) với xác suất p (p = 0.25) là: (0*0.3164) + (1*0.4219) + (2*0.2109) + (3*0.0469) + (4*0.0039) = 1.00 Phương sai 2 =n p(1 p ) Thí dụ với n =4 và p = 0.25 thì phương sai = 4*0.25*(1-0.25) = 0.75 3. Hình dạng của phân bố nhị thức Trong phân bố nhị thức hai thông số (parameter) có ảnh hưởng đến hình dạng của phân bố là ở mẫu (n) và xác xuất (p). Ở hình 3.1 chúng ta đã thấy sự phân bố của một nhị thức. Hình 3.3 cho thấy ảnh hưởng của của xác suất đến hình dạng của phân bố nhị thức với cỡ mẫu n = 30. Khi p = 0.10 thì hình dạng của phân bố hoàn toàn bất đối xứng với một đuôi dài về phía bên phải. Khi p = 2, đồ thị ít bất đối xứng hơn. Khi p = 0.5, phân bố có trung bình = np = 5, đồ thị có dạng hình chuông (bell shape), đối xứng qua giá trị trung bình. Distribution Plot Binomial, n=30 0.25 p = 01 0.20 0.15 p = 0 p = 05 Probability 0.10 0.05 0.00 0 5 10 15 20 25 X Hình 3.3. Xác suất nhị thức với n = 30 và p = 0.1, 0.2 và 0.5 4. Các thí dụ: Thí dụ 1. Hãy xác định phân bố xác suất số bê cái được sinh ra trong ba lần đẻ liên tiếp. Giả sử rằng mỗi lần bò chỉ đẻ một con và xác suất sinh ra bê cái trong mỗi lần đẻ là 0.5. 38
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Giải: Biến ngẫu nhiên x được định nghĩa là số bê cái được sinh ra trong ba lần đẻ liên tiếp. Các kết quả có thể là 0, 1, 2, 3. Dạng phân bố là nhị thức với p = 0.5 và n = 3: 3x 3 x P{X= x } = Cx (0.5) (0.5) x = 0, 1, 2, 3 3 0 3 x = 0 P{XC= 0} =0 (0.5) (0.5) = 0.125 3 1 2 x = 1 P{XC= 1} =1 (0.5) (0.5) = 0.375 3 2 1 x = 2 P{XC= 2} =2 (0.5) (0.5) = 0.375 3 3 0 x = 3 P{XC= 3} =3 (0.5) (0.5) = 0.125 Trung bình và phương sai của phân bố là: μ = np = (3)(0.5) = 1.5 σ2 = np 1 p = (3)(0.5)(0.5) = 0.75 Thí dụ 2. Trong một quần thể heo (swine population) tính mẫn cảm đối với một bệnh được xác định bởi một locus gene gồm hai alleles: B and b. Heo có kiểu gen bb sẽ có bệnh, Bb và BB không bệnh. Tần số của allele B = b = 0.5. Nếu một heo đực (boar) và một heo nái (sow) đều có kiểu gen Bb giao phối với nhau và sinh ra một lứa (litter) 10 heo con (piglets). Hãy tính: a) Số heo con có khả năng mang bệnh b) Xác xuất để không có heo con nào bệnh. c) Xác suất để ít nhất có một heo con bị bệnh. d) Xác suất để có đúng một nửa đàn heo bị bệnh. Giải: Tần số của allele B = b = 0.5. Xác suất để heo con bệnh (kiểu gen bb) = (0.5)(0.5) = 0.25; xác suất để heo con không bệnh = 1 – 0.25 = 0.75. Như vậy ta có thể dựa vào phân bố nhị thức với p = 0.25 và n = 10 để tính. a) m = np = 10 * 0.25 = 2.5 nghĩa là có từ 2 đến 3 heo con có khả năng bị bệnh. 10 0 10 0 10 b) PXC{= 0} =0 (p ) (1 p ) = 1(0.25) (0.75) = 0.056 c) PXPX{ 1} = 1 = 0 = 1 0.056 = 0.944 10 5 5 d) PXC{= 5} =5 (0.25) (0.75) = 0.058 III. PHÂN BỐ POISSON Phân bố Poisson được đặt theo tên người đã khám phá ra nó, nhà toán học Pháp Siméom-Denis Poisson. Tương tự phân bố nhị thức, phân bố Poisson được dùng cho các biến ngẫu nhiên rời rạc (các số đếm hoặc số biến cố). Phân bố này đặc biệt hữu dụng khi các biến cố xảy ra không thường xuyên. Chúng thường được áp dụng trong các nghiên cứu về các dạng ung thư da, một số bệnh hiếm hoặc nghiên cứu về số lượng các yếu tố trong một không gian nhỏ, chẳng hạn như số khuẩn lạc trong một đĩa nuôi cấy. Mặc dù phân bố nhị thức và phân bố Poisson đều được dùng với số đếm nhưng ứng dụng của chúng khác nhau. Phân bố nhị thức được dùng với một mẫu được chọn có cỡ mẫu là n và số biến cố thành công hoặc thất bại được xác định từ mẫu này. Phân bố Poisson không chọn lọc mẫu có cỡ mẫu n và chúng được dùng khi các biến cố xảy ra ngẫu nhiên trong không gian hoặc thời gian. 39
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 1. Xác suất Poisson Có hai mô hình về phân bố Poisson: (1) Mô hình không gian Thí dụ: các vi khuẩn phân bố ngẫu nhiên trong môi trường với mật độ là trên một đơn vị diện tích. Số khuẩn lạc được xác định trong một không gian mẫu có kích cỡ A tuân theo phân bố Poisson với thông số m = * A. (2) Mô hình thời gian: Thí dụ: Giả sử xác suất của một biến cố trong một khoảng thời gian t1 thì tỉ lệ với t1, nghĩa là P{X=x} xấp xỉ * t1. Một giả định khác là khoảng thời gian t1 ngắn đến mức xác suất của nhiều hơn một biến cố xảy la trong khoảng thời gian này gần bằng 0. Chúng ta cũng giả định rằng các biến cố xảy ra trong các khoảng thời gian khác nhau là độc lập nhau. Trên cơ sở các giả định này, số lần xuất hiện biến cố trong một khoảng thời gian t tuân theo phân bố Poisson với thông số m = * t. Hàm xác suất của phân bố Poisson có dạng là: e m m x P(X= x ) = với x = 0, 1, 2, x! trong đó e 2.71828 là hằng số và m là thông số. Thông thường không thể biết m nên chúng được ước lượng từ dữ liệu của mẫu. Áp dụng Minitab Calc > Probability Distributions > Poisson Các tuỳ chọn: Probability Cummulative probability Inverse cummulative probability Cần lưu ý rằng phân bố Poisson được xác định chỉ dựa trên giá trị của một thông số duy nhất của nó là m. Thí dụ dùng hàm xác suất của phân bố Poisson để tính xác suất khi m = 1 và m = 2, ta thu được kết quả như trong bảng 3.3. Bảng 3.3. Kết quả tính xác suất Poisson với m = 1 và = 2 x m = 1 m = 2 P{X = x} = (e-1 * 1x)/x! P{X = x} = (e-2 * 2x)/x! 0 (0.3679 * 1) / 1 = 0.3679 (0.1353 * 1) / 1 = 0.1353 1 (0.3679 * 1) / 1 = 0.3679 (0.1353 * 2) / 1 = 0.2707 2 (0.3679 * 1) / 2 = 0.1839 (0.1353 * 4) / 2 = 0.2707 3 (0.3679 * 1) / 6 = 0.0613 (0.1353 * 8) / 6 = 0.1804 4 (0.3679 * 1) / 24 = 0.0153 (0.1353 * 16) / 24 = 0.0902 5 (0.3679 * 1) / 120 = 0.0031 (0.1353 * 32) / 120 = 0.0361 6 (0.3679 * 1) / 720 = 0.0005 (0.1353 * 64) / 720 = 0.0120 7 (0.3679 * 1) / 5040 = 0.0001 (0.1353 * 128) / 5040 = 0.0034 8 (0.1353 * 256) / 40320 = 0.0009 9 (0.1353 * 512) / 362880 = 0.0002 Tổng 1.0000 0.9999 40
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 2. Trung bình và phương sai của phân bố Poisson Trung bình và Phương sai của phân bố Poisson đều bằng m Thí dụ: phân bố Poisson với m = 1 (xem bảng 3.1) thì trung bình = xP{ X= x } x=0 = 0(0.3679) + 1(0.3679) + 2(0.1839) + 3(0.0613) + 4(0.0153) + 6(0.0005) + 7(0.0001) = 1.0000 3. Hình dạng của phân bố Poisson Đồ thị ở hình 3.4 cho thấy dạng hàm xác suất của phân bố Poisson với 3 giá trị m khác nhau. Hình dạng hàm xác suất của phân bố Poisson tương tự như hàm xác suất của phân bố nhị thức. 0.20 m = 5 0.15 0.10 m = 10 Probability m = 0 0.05 0.00 0 10 20 30 40 X Hình 3.4. Hàm xác suất của phân bố Poisson (m = 2) 4. Cách tìm xác suất Poisson Thí dụ: Gosset nghiên cứu sự phân bố của các tế bào nấm men trong 400 ô vuông của buồng đếm (Student 1907). Kết quả của một trong bốn bộ dữ liệu được trình bày trong bảng 3.4. Bảng 3.4 Tần số quan sát của các tế bào nấm men trong 400 ô vuông X 0 1 2 3 4 5 6 Tần số 103 143 98 42 8 4 2 Tỉ lệ 0.258 0.358 0.245 0.105 0.020 0.010 0.005 Xác suất Poisson 0.267 0.352 0.233 0.103 0.034 0.009 0.002 Những dữ liệu này có tuân theo phân bố Poisson hay không? Trong trường hợp này ta không biết giá trị trung bình của tổng thể nên ta phải ước lượng bằng trung bình mẫu: (103*0) (143*1) (98*2) (42*3) (8*4) (4*5) (2*6) 529 Mean = = =1.3225 400 400 41
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Dùng giá trị trung bình này để tính xác suất Poisson bằng chương trình Minitab, ta được kết quả như trong hàng thứ ba của bảng 3.4. Mặc dù tỉ lệ lý thuyết (xác suất Poisson) khá phù hợp với tỉ lệ thu được, ta vẫn chưa thể kết luận rằng các dữ liêu này tuân theo phân bố Poisson. Một phương pháp để xác định xem các dữ liệu có phân bố Poisson hay không là dùng biểu đồ Poisson (Poissoness plot), được đề nghị bởi Hoaglin (1980) dựa trên công thức tính phân bố xác suất Poisson. Nếu dữ liệu có phân bố Poisson thì đồ thị của tổng loga tự nhiên của tần số và loga tự nhiên của x! sẽ là một đường thẳng. Dùng Minitab tính tổng này dựa trên dữ liệu trong bảng 3.4, sau đó vẽ biểu đồ từ kết quả thu được, ta sẽ có hình 3.5. Calc > Calculator Lưu ý: Natural Log = LOGE; Gamma (x+1) = x! 8 7 Y 6 5 4 0 1 2 3 4 5 6 x Hình 3.5 Biểu đồ Poissoness từ dữ liệu của Gosset trong bảng 3.4 42
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Biểu đồ có dạng đường thẳng chứng tỏ dữ liệu có phân bố Poisson (trừ ngoại lệ ở điểm x = 4 như ta đã thấy trong bảng 3.4) Thí dụ: Trong một quần thể chuột có 2% mắc bệnh ung thư. Trong một mẫu của 100 con chuột, xác suất có nhiều hơn một con chuột mắc bệnh ung thư là bao nhiêu? Giải: m = 100 (0.02) = 2 e m m x e 2 2 x P(X= x ) = = x!! x P(x > 1) = 1 – P(x = 0) – P(x = 1) = 1 – 0.1353 – 0.2706 = 0.5941 IV. PHÂN BỐ CHUẨN (NORMAL DISTRIBUTION) Còn được gọi là phân bố Gauss (Gaussian distrubion) theo tên của nhà toán học người Đức là Carl Gauss. Phân bố chuẩn được sử dụng rộng rãi vì: (1) nó xảy ra phổ biến trong tự nhiên, (2) trung bình mẫu của nhiều loại phân bố không chuẩn cũng tuân theo chúng, (3) chúng là một ước lượng tốt cho một số phân bố không chuẩn. 1. Xác suất chuẩn (Normal Probabilities) Như đã nêu ở phần trên, phân bố xác suất của các biến ngẫu nhiên liên tục thường được biểu hiện dưới dạng một hàm qua đó có thể tính xác suất mà một biến nằm trong một khoảng xác định. Điều này hoàn toàn khác với phân bố xác suất của một biến rời rạc. Hàm mật độ xác suất (pdf = probability density function) của một biến ngẫu nhiên liên tục là một hàm cho phép ta tìm được xác suất của X trong một khoảng xác định. Hàm mật độ xác suất chuẩn là: 1 2 2 f( x )= e (x m ) /2 , - x 2p 2 trong đó m là trung bình, là độ lệch chuẩn và p là một hằng số xấp xỉ 3.14159. Hàm này có thể biểu diễn bằng đồ thị. Đồ thị này có dạng là một đường cong mà tổng diện tích tạo bởi đường cong và trục hoành là 1(hay 100%), và diện tích giữa 2 điểm x1 và x2 bằng với xác suất mà biến ngẫu nhiên X nằm trong khoảng giữa x1 và x2. Tung độ của mỗi điểm trên đường cong gọi là mật độ xác suất. Theo tính chất toán học thì sự phân bố mẫu thí nghiệm sẽ có: - 68,26% dữ liệu nằm trong khoảng m 1 - 95,46% dữ liệu nằm trong khoảng m - 99,73% dữ liệu nằm trong khoảng m Hàm phân bố tích luỹ (CDF = Cumulative Distribution Function) hay còn gọi là hàm phân bố xác suất thể hiện xác suất để X không vượt quá giá trị của x. Hàm phân bố xác suất là: ()x m 2 x 1 2 2 P() X x = e dx 2 2p 43
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 2. Hình dạng của phân bố chuẩn Hàm mật độ xác suất của phân bố chuẩn có dạng hình chuông (bell-shape), có thể thấy như ở hình 3.6. Đường cong của phân bố chuẩn có tính đối xứng và hai đuôi (tail) của đường cong càng xa trung tâm càng tiến sát trục hoành nhưng không bao giờ gặp trục hoành. Hình 3.6. Hàm mật độ xác suất của phân bố chuẩn Hình 3.7 là đồ thị của hàm phân bố xác suất của phân bố chuẩn. Các giá trị ở trục tung là xác suất tương ứng với các giá trị z ở trục hoành. CDF 1.0 0.8 0.6 0.4 0.2 0.0 -4 -3 -2 -1 0 1 2 3 4 Z Hình 3.7. Hàm phân bố xác suất của phân bố chuẩn 44
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Phân bố N(0,1) được gọi là phân bố chuẩn tắc (standard normal distribution) nghĩa là pdf chuẩn với trung bình = 0 và phương sai = 1. Phân bố chuẩn tắc thường được ký hiệu là Z. Các giá trị của Z có thể nhận được bằng cách tính giá trị được chuẩn hoá (standardised value): x m Z = Nếu x ~ N (m,2) thì Z ~ N (0, 1) Hình 3.8 cho thấy ảnh hưởng của việc tăng từ 1 lên 2 đối với pdf chuẩn. Cả hai đều có dạng hình chuông và diện tích miền bên dưới đường cong đều là 1. Tuy nhiên phân bố chuẩn chuẩn hoá có độ biến thiên nhỏ hơn. Hình 3.9 trình bày hai hàm mật độ phân bố chuẩn cho thấy ảnh hưởng của việc thay đổi giá trị trung bình. Khi trung bình tăng thêm 3 đơn vị thì đường cong pdf sẽ dịch chuyển về phía bên phải 3 đơn vị. Như vậy việc thay đổi số trung bình sẽ làm dịch chuyển đường cong phân bố về phía phải hoặc trái và việc thay đổi độ lệch chuẩn sẽ làm tăng hoặc giảm sự phân tán của dữ liệu. Pdf Distribution Plot 0.4 0.3 N (0, 1) 0.2 0.1 N(0, 2) 0.0 -5.0 -2.5 0.0 2.5 5.0 7.5 X Hình 3.8. pdf chuẩn với N (0, 1) và N(0, 2) 45
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Pdf Distribution Plot 0.4 0.3 0.2 0.1 0.0 -4 -2 0 2 4 6 X Hình 3.9. pdf chuẩn với N(0,1) và N(3,1) 3. Cách tính xác suất của phân bố chuẩn tắc Z~N(0,1): Để tính xác suất của một phân bố chuẩn tắc, cần nhớ rằng các giá trị trình bày trong bảng phân bố chuẩn tắc ở phần phụ lục là xác suất của biến z nằm dưới một giá trị xác định. Chẳng hạn xem trong bảng phụ lục ta thấy xác suất của z = 0 là 0.5000. Điều này có nghĩa là 50% của giá trị z là nhỏ hơn 0. Nếu ta muốn tính xác suất của một biến lớn hơn một giá trị xác định, ta chỉ cần lấy 1 trừ đi giá trị xác định đó. Cách dễ dàng nhất là vẽ đường cong phân bố cho thấy vùng cần xác định. pdf P (Z < 0) -3 -2 -1 0 1 2 3 46
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - pdf P(Z>0) -3 -2 -1 0 1 2 3 a. Một số thí dụ: Thí dụ 1. P (Z 1.85) P (Z > 1.85) = 1 – 0.9713 = 0.0287 47
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - pdf P (Z > 1.85) -3 -2 -1 0 1 2 3 Thí dụ 3. P (–1 –1) = 0.1587 (bảng phụ lục) P (–1 Probability Distribution > /Normal Cumulative probability Mean: 0, Standard deviation: 1.0 Input constant: 0 Optional storage: K1 OK Data > Display data >/Columns, constants and matrices to display: K1 OK 48
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - (2) P (Z Probability Distribution > /Normal Cumulative probability Mean: 0, Standard deviation: 1.0 Input constant: 1.83 Optional storage: K2 OK Data > Display data >/Columns, constants and matrices to display: K2 OK (3) P (–1 Probability Distribution > /Normal Cumulative probability Mean: 0, Standard deviation: 1.0 Input constant: –1 Optional storage: K1 OK Lặp lại tương tự với Input constant: 2 Optional storage: K2 OK Calc > Calculator Store result in: C1 Expression: K2 – K1 OK c. Trường hợp các giá trị chưa được chuẩn hoá X~N(m ≠ 0, ≠ 1) Giả sử trọng lượng bò ở 6 tháng tuổi tuân theo phân bố chuẩn với trung bình m = 200 kg và độ lệch chuẩn = 20 kg. – Có 68.3% dữ liệu nằm trong khoảng m 1 tức là 200 20 = 180 kg đến 220 kg. Như vậy nếu chọn ngẫu nhiên một con bò thì xác suất để nó có trọng lượng trong khoảng 180 kg – 220 kg sẽ là 0.683. – Có 95,4% dữ liệu nằm trong khoảng m 2 tức là 200 40 = 160 kg đến 240 kg. Như vậy nếu chọn ngẫu nhiên một con bò thì xác suất để nó có trọng lượng trong khoảng 160 kg đến 240 kg sẽ là 0.954. 0.683 0.954 X 180 200 220 160 200 240 49
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Calc > Probability Distribution > /Normal Cumulative probability mean = m, standard deviation = Thí dụ: Xét một phân bố chuẩn với m = 20 và = 2. Hãy tính xác suất để một số đo có giá trị nhỏ hơn 23. Giải: x m 23 20 (1) Tính z = = =1.5 2 Tra bảng ta có P (Z Probability Distribution > /Normal Cumulative probability Mean: 20, Standard deviation: 2.0 Input constant: 23 Optional storage: K1 OK Data > Display data >/Columns, constants, and matrices to display: K1 pdf 0.9332 20 23 d. Tính X khi biết giá trị của P Thí dụ: Giả sử sản lượng bắp cải được biết là có phân bố chuẩn với m = 1.4 kg/cây và = 0.2 kg/cây. Tính 5% và 95% sản lượng của bắp cải. Nhập vào cột C1 các giá trị 0.05 và 0.95 Calc > Probability Distribution > /Normal Inverse cumulative probability mean = 1.4, standard deviation = 0.2 Input column: C1 Optional storage: C2 OK 50
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 4. Kiểm tra phân bố chuẩn Để kiểm tra xem dữ liệu của một mẫu có phân bố chuẩn hay không, ta có thể quan sát histogram. Số trung bình và trung vị của dữ liệu phân bố chuẩn phải bằng nhau hoặc gần bằng nhau. Tuy nhiên để xác định chính xác hơn, Minitab cung cấp cho chúng ta ba phương pháp kiểm tra, thông qua: Stat > Basic Statistics > Normality Test hoặc Graph > Probability Plot Anderson-Darling: là phương pháp kiểm tra dựa trên cơ sở ECDF (emperical cumulative distribution function). Đây là phương pháp thường được dùng nhất. Ryan-Joiner (tương tự như Shapiro-Wilk): là phương pháp kiểm tra dựa trên cơ sở tương quan (correlation). Kolmogorov-Smirnov: là phương pháp kiểm tra dựa trên cơ sở khi bình phương (2). Qua biểu đồ xác suất (probability plot), dữ liệu có phân bố chuẩn khi: – Các điểm trên biểu đồ có dạng đường thẳng – Các điểm trên biểu đồ tập trung sát đường thẳng – Giá trị thống kê Anderson-Darling (AD) nhỏ, và giá trị P (P-value) lớn hơn mức được chọn (thông thường mức được chọn = 0.05 hoặc 0.1) Hình 3.10, 3.11 và 3.12 là các biểu đồ xác suất cho dữ liệu có phân bố chuẩn, dữ liệu có phân bố lệch âm và lệch dương. Probability Plot for Normal Distributed Data 99.9 Mean 170.1 StDev 4.213 99 N 100 AD 0.394 95 P-Value 0.369 90 80 70 60 50 40 Percent 30 20 10 5 1 0.1 160 165 170 175 180 185 Male Height Hình 3.10 Biểu đồ xác suất khi dữ liệu có phân bố chuẩn 51
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Probability Plot for Negatively Skewed Data 99.9 Mean 47.68 StDev 1.563 99 N 100 AD 2.323 95 P-Value <0.005 90 80 70 60 50 40 Percent 30 20 10 5 1 0.1 42 44 46 48 50 52 Cattle Gene Frequency Hình 3.11 Biểu đồ xác suất khi dữ liệu có phân bố lệch âm Probability Plot for Possitively Skewed Data 99.9 Mean 5551 StDev 3597 99 N 100 AD 3.785 95 P-Value <0.005 90 80 70 60 50 40 Percent 30 20 10 5 1 0.1 0 10000 20000 Faecal Oocysts Hình 3.12 Biểu đồ xác suất khi dữ liệu có phân bố lệch dương V. PHÂN BỐ MẪU (SAMPLING DISTRIBUTION) 1. Phân bố của trung bình mẫu Nếu từ một tổng thể có trung bình là m ta chọn ngẫu nhiên một mẫu có trung bình là x1 thì ước lượng của m chính là x1. Nếu chọn một mẫu khác, ta sẽ có một ước 52
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - lượng hơi khác của m, gọi là x2 . Tiếp tục lặp lại công việc trên, ta sẽ có nhiều ước lượng khác nhau của m là x1, x 2 , x 3 , x 4 Tất cả sẽ tạo thành một phân bố của trung bình mẫu. Thí dụ: Ta có 5 item được gán nhãn là 5, 6, 7, 8, 9 và ta muốn tạo ra một phân bố của trung bình mẫu cho tất cả các item nầy. Nếu cở mẫu là 2 thì số mẫu sẽ là: 5! 1x 2 x 3 x 4 x 5 C5 = = =10 2 2!(5 2)! (1x 2)(1 x 2 x 3) Vì số lượng mẫu là 10 nên số lượng trung bình mẫu cũng là 10. Các mẫu và giá trị trung bình mẫu được phân bố như sau: TT Tổ hợp (Mẫu) Trung bình 1 (5,6) 5.5 2 (5,7) 6.0 3 (5,8) 6.5 4 (5,9) 7.0 5 (6,7) 6.5 6 (6,8) 7.0 7 (6,9) 7.5 8 (7,8) 7.5 9 (7,9) 8.0 10 (8,9) 8.5 2. Sai số mẫu (Sampling error) Các thống kê của mẫu không phải luôn luôn giống hệt như các thông số của tổng thể. Sự sai khác này gọi là sai số mẫu. Giả sử một tổng thể của 10 bu-lông (bolt) có đường kính là 9, 11, 12, 12, 14, 10, 9, 8, 7, and 9 mm. Trung bình μ của tổng thể sẽ là 10.1 mm. Nếu một mẫu gồm 3 bu- lông có đường kính 9, 14, và 10 mm được chọn từ tổng thể thì trung bình mẫu sẽ là (9 + 14 + 10)/3 = 11 mm và sai số mẫu (E) sẽ là: E = x − μ = 11 − 10.1 = 0.9 Chọn một mẫu khác gồm 3 bu-lông có đường kính là 7, 12, and 11 mm. Lần này, trung bình mẫu là 10 mm và sai số mẫu là: E = x − μ = 10 − 10.1 = − 0.1 Nếu tiếp tục chọn một mẫu khác và ước lượng trung bình, sai số mẫu lại có thể hơi khác. Tất cả những khác biệt này đều được xem là do các yếu tố ngẫu nhiên. Như vậy nếu ta có thể mắc sai lầm khi ước lượng các thông số của tổng thể từ một mẫu, làm thế nào để đảm bảo rằng chọn mẫu có thể giúp ta có một ước lượng tốt? Định lý giới hạn trung tâm (The Central Limit Theorem) có thể giúp chúng ta trả lời câu hỏi này. 3. Định lý giới hạn trung tâm Định lý giới hạn trung tâm phát biểu như sau: nếu một mẫu có kích cở n được chọn ngẫu nhiên từ một tổng thể có trung bình là m và độ lệch chuẩn là , thì trung bình của mẫu là x sẽ có phân bố xấp xỉ chuẩn với: – Giá trị trung bình là m 53
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - – Độ lệch chuẩn là n Độ lệch chuẩn của x còn được gọi là sai số chuẩn (standard error) và thường được ước lượng bởi: s2 s se() x = = n n Sai số chuẩn se() x là thước đo chính xác cho ước lượng của m: se() x khi s (hoặc ) , se() x khi n . Từ định lý giới hạn trung tâm ta có thể rút ra kết luận: – Nếu cở mẫu đủ lớn (n ≥ 30) thì trung bình mẫu x sẽ có phân bố chuẩn bất kể qui luật phân bố xác suất của tổng thể như thế nào. – Nếu tổng thể có phân bố chuẩn, X ~ N(m, 2) thì trung bình mẫu cũng sẽ có phân bố chuẩn x ~ N(m, 2/n), bất kể cở mẫu lớn hay nhỏ. Thí dụ: Thời gian mang thai của bò (ngày) có phân bố chuẩn, X ~ N(285, 102) Chọn một mẫu n = 10, x ~ N(285, 102/10); nghĩa là x ~ N(285, 3.162) trung bình của n = 10 quan sát một quan sát 265 285 305 X 54