Bài giảng Thống kê - Chương 5: Lí thuyết mẫu

pdf 8 trang huongle 9190
Bạn đang xem tài liệu "Bài giảng Thống kê - Chương 5: Lí thuyết mẫu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_thong_ke_chuong_5_li_thuyet_mau.pdf

Nội dung text: Bài giảng Thống kê - Chương 5: Lí thuyết mẫu

  1. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 PHẦN 2: CHƯƠNG 5: THỐNG KÊ LÝ THUYẾT MẪU 1 2 1. MẪU VÀ PHƯƠNG PHÁP MẪU Một số lý do không thể nghiên cứu toàn bộ tổng thể: Giả sử ta cần nghiên cứu một tập hợp có rất nhiều Giới hạn về thời gian, tài chính phần tử, vì một số lý do mà ta không thể khảo sát toàn bộ tập lớn này (khảo sát tất cả các phần tử), nhưng ta Thí dụ muốn khảo sát xem chiều cao trung bình của lại muốn có kết quả trên tập lớn. Ta có thể giải quyết thanh niên Việt Nam hiện nay có tăng lên so với trước như sau: từ tập hợp lớn lấy ra một tập hợp nhỏ hơn để đây không, ta phải đo chiều cao của toàn bộ thanh niên nghiên cứu, ta thu được kết quả trên tập nhỏ, từ kết Việt nam (giả sử xấp xỉ N= 40 triệu người), điều này quả trên tập nhỏ ta suy ra kết quả cho tập lớn. Phương tuy làm được nhưng rõ ràng tốn nhiều thời gian, tiền pháp làm việc như vậy gọi là phương pháp mẫu. Tập bạc, công sức . lớn gọi là tổng thể hay đám đông, số phần tử của tập Ta có thể khảo sát khoảng 1 triệu thanh niên và từ lớn gọi là kích thước tổng thể/đám đông, ký hiệu là N. Tập nhỏ gọi là mẫu, số phần tử của mẫu gọi là kích chiều cao trung bình của n= 1 triệu người này, ta suy ra thước mẫu hay cỡ mẫu, ký hiệu n. 3 chiều cao trung bình của toàn bộ thanh niên VN. 4 1
  2. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 Một số lý do không thể nghiên cứu toàn bộ tổng thể: Một số lý do không thể nghiên cứu toàn bộ tổng thể: Không xác định được chính xác tổng thể. Phá vỡ tổng thể nghiên cứu. Thí dụ muốn khảo sát xem tỷ lệ những người bị Thí dụ ta cất vào kho N= 10000 hộp sản phẩm, muốn nhiễm HIV qua đường tiêm chích ma túy là bao nhiêu biết tỷ lệ hộp hư trong kho sau 1 thời gian bảo quản. phần trăm. Trong tình huống này thì tổng thể chính là Ta phải kiểm tra từng hộp để xác định số hộp hư M= những người bị nhiễm HIV, nhưng ta không thể xác 300, thì tỷ lệ hộp hư trong kho là M/N. định chính xác tất cả những người bị nhiễm HIV vì chỉ Một sản phẩm sau khi được kiểm tra thì bị mất phẩm có những người tự nguyện đến trung tâm xét nghiệm, chất, khi ta kiểm tra xong cả kho thì cũng “tiêu” luôn bệnh viện thì mới biết được, còn những người không cái kho! đi xét nghiệm thì không biết được. Ta có thể lấy ngẫu nhiên n= 100 hộp ra kiểm tra, giả Do đó ta chỉ biết một phần của tổng thể, là những sử có m= 9 hộp hư. Từ tỷ lệ hộp hư 9% ta suy ra tỷ lệ người đã đi xét nghiệm. Ngoài ra số người bị nhiễm hộp hư của cả kho. 5 mới HIV và bị chết do HIV có thể thay đổi từng giây 6 nên số phần tử của tổng thể thay đổi từng giây. Muốn từ kết quả của mẫu suy ra kết quả cho tổng thể tốt thì Tổng thể được đặc trưng bởi dấu hiệu nghiên cứu X, là mẫu phải đại diện được cho tổng thể, muốn vậy thì mẫu phải một đại lượng ngẫu nhiên. Do đó khi nói về X tức là được lấy một cách ngẫu nhiên. Trong phạm vi bài giảng này nói về tổng thể. không đề cập đến kỹ thuật lấy mẫu (mẫu giản đơn, mẫu hệ Mẫu ngẫu nhiên (có cỡ mẫu n) được ký hiệu thống, mẫu chùm, mẫu phân tổ, mẫu nhiều cấp ). WX=(X1, ,Xn) là một véctơ có n thành phần, mỗi thành Có 3 cách lấy mẫu thông dụng: phần Xi là một ĐLNN. Các ĐLNN này độc lập nhau và  C1: Lấy ngẫu nhiên n phần tử: phân phối siêu bội có cùng quy luật phân phối giống với X.  C2: Lấy lần lượt n phần tử Mẫu cụ thể (có cỡ mẫu n) được ký hiệu Wx= (x1, ,xn) là  C3: Lấy có hoàn lại n phần tử: phân phối nhị thức một véctơ có n thành phần, mỗi thành phần xi là một * Về mặt xác suất: c1 = c2 giá trị (con số) cụ thể. * Khi n << N thì c1 xấp xỉ c3 Ta quy ước là mẫu được lấy theo cách có hoàn lại. Ứng với một mẫu ngẫu nhiên thì có nhiều mẫu cụ thể tương ứng với kết quả của các phép thử ngẫu nhiên Mẫu gồm có: mẫu ngẫu nhiên và mẫu cụ thể. Cần phân biệt7 8 rõ mẫu ngẫu nhiên và mẫu cụ thể (đọc thêm). khác nhau. 2
  3. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 II. Các đặc trưng số cơ bản của tổng thể và mẫu: Các đặc trưng số cơ bản của mẫu (dạng cụ thể): Ta xét tổng thể về mặt định lượng: Tổng thể được đặc Định lượng: trưng bởi dấu hiệu nghiên cứu X, X là ĐLNN. Trung bình mẫu: x 1x Ta có E(X)=µ là trung bình tổng thể. Var(X)=2 là n i Phương sai mẫu (chưa hiệu chỉnh): sˆ2 1 (x x)2 phương sai tổng thể, và  là độ lệch chuẩn của tổng thể. n i Phương sai mẫu (đã hiệu chỉnh): s2 1 (x x)2 Ta xét tổng thể về mặt định tính: tổng thể có kích n 1 i thước N, trong đó có M phần tử có tính chất A quan Độ lệch chuẩn mẫu (chưa hiệu chỉnh): sˆ sˆ2 tâm. Ta có p= M/N gọi là tỷ lệ tổng thể. Độ lệch chuẩn mẫu (đã hiệu chỉnh): s s2 Ta có: s sˆ n Tương tự, ta cũng có trung bình mẫu x , phương sai n 1 mẫu (đã hiệu chỉnh) s2, tỷ lệ mẫu f. 9 s 10 Sai số chuẩn mẫu (đã hiệu chỉnh): n Trong thực hành: Xác định trung bình mẫu, Các đặc trưng số cơ bản của mẫu (dạng cụ thể): phương sai mẫu (đã hiệu chỉnh) như sau: Định tính: xi ni Mẫu dạng điểm Trong thực hành ta xác định tỷ lệ mẫu: x1 n1 f = m/n * xi là giá trị thu thập được Với: xi ni n: cỡ mẫu * ni là số lần xuất m: số phần tử có tính chất A quan tâm trong mẫu hiện của xi trong mẫu xk nk n=n1+ +nk 1 21 2 2  11 x  ni x i ; s n x n() x 12 n n 1 i i 3
  4. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 VD2: Điều tra năng suất lúa của một vùng, ta thu Giải: được bảng số liệu sau: 1) Ta lập bảng như sau Năng suất (tạ / ha) 41 44 45 46 48 52 54 x n n x n x 2 Số ha có năng suất 10 20 30 15 10 10 5 i i i i i i 41 10 410 16.810 tương ứng 44 20 880 38.720 1) Tính trung bình mẫu, phương sai mẫu hiệu chỉnh, 45 30 1350 60.750 độ lệch chuẩn mẫu hiệu chỉnh 46 15 690 31.740 2) Những thửa ruộng có năng suất từ 48 tạ trở lên 48 10 480 23.040 là những thửa ruộng có năng suất cao. Tính tỷ lệ 52 10 520 27.040 thửa ruộng có năng suất cao 54 5 270 14.580 3) Tính trung bình mẫu, phương sai mẫu hiệu chỉnh Tổng n = 100 4600 212680 13 14 của những thửa ruộng có năng suất cao Lưu ý: Máy tính Casio fx-570VN Plus có chức năng tính 2) Tỷ lệ mẫu là f = 10 10 5 0,25 trung bình mẫu, độ lệch chuẩn mẫu (hiệu chỉnh). 100 Xem file hướng dẫn trên trang web của Phạm Trí Cao. 3) Lập bảng sau Trung bình mẫu của năng suất: x n n .x n .x 2 1 4600 i i i i i i x  ni x i 46 tạ/ha 48 10 480 23040 n 100 Phương sai mẫu (đã h/chỉnh) của năng suất: 52 10 520 27040 1 54 5 270 14580 s2 n x 2 n() x 2 n 1  i i Tổng n = 25 1270 64660 2 1 2 s 212680 100 *46 10 ,909 1270 100 1 x 50,8 25 Độ lệch chuẩn mẫu (đã hiệu chỉnh): 2 15 s = 1 [64660 25*(50,8)2] 6 16 s s2 10,909 3,303 25 1 4
  5. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 Bài tập VD3: Quan sát tuổi lập gia đình của một số 1) Những thửa ruộng có năng suất từ 45-46 người, ta có bảng số liệu sau : tạ/ha là những thửa ruộng có năng suất trung Tuổi (năm) Số người Mẫu bình. Tính trung bình mẫu, phương sai mẫu, tỷ 20 – 30 5 lệ mẫu của những thửa ruộng có năng suất dạng 30 – 40 14 trung bình? khoảng 40 – 50 25 2) Những thửa ruộng có năng suất từ 44 tạ/ha 50 – 60 6 trở xuống là những thửa ruộng có năng suất 2 thấp. Tính trung bình mẫu, phương sai mẫu, tỷ 1) Tính trung bình mẫu x , phương sai mẫu s . lệ mẫu của những thửa ruộng có năng suất 2) Những người trên 40 tuổi mới lập gia đình thấp? là "già gân". Tìm tỷ lệ người "già gân"? 17 18 VD4: Giải: Khảo sát 500.000 người ở một nước, người ta thấy có Đưa về dạng điểm, lập bảng tính như VD2. 75000 người có biểu hiện tâm thần. xi ni Tìm tỷ lệ mẫu của những người có biểu hiện tâm thần? 25 5 Giải: 35 14 Tỷ lệ mẫu f = 75000 / 500000 = 0,15 45 25 VD5: 55 6 Lô hàng có nhiều sản phẩm, các sản phẩm được đóng vào từng hộp. Mỗi hộp có 10 sản phẩm. Lấy 20 hộp từ lô hàng thì thấy có 60 sản phẩm loại A. 1) n= 50 ; x = 41,40 ; s2= 68,4082 Tìm tỷ lệ mẫu của sản phẩm loại A? 2) Tỷ lệ mẫu f = (25+6)/ 50 19 Giải: 20 Tỷ lệ mẫu f= 60/ 20*10 = 60/ 200 5
  6. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 VD 7: Bảng số liệu về chiều cao của một số người như sau: VD6: Chiều cao 1,1-1,4 1,4-1,5 1,5-1,6 1,6-1,7 1,7-1,8 1,8-2,0 Máy tự động sản xuất ra sản phẩm, cứ 10 sản phẩm (m) đóng thành 1 hộp. Lấy ngẫu nhiên 100 hộp để kiểm Số người 10 30 70 40 35 15 tra, ta có bảng số liệu sau: a) Những người có chiều cao từ 1,7m trở lên là những người có Số sp loại A trong hộp 7 8 9 10 chiều cao lý tưởng. Xác định tỷ lệ người cao lý tưởng? Số hộp 5 25 30 40 b) Những người có chiều cao từ 1,5m trở xuống là những người mi nhon. Xác định tỷ lệ người mi nhon? Xác định tỷ lệ mẫu của sản phẩm loại A? c) Những người có chiều cao từ 1,5m đến 1,7m là những người Giải: cao bình thường. Xác định tỷ lệ người cao bình thường? Giải: Tỷ lệ mẫu f = (1/1000).{7(5)+8(25)+9(30+10(40)} a) Tỷ lệ mẫu f= (35+15)/200 = 0,905 21 b) f= (10+30)/200 22 c) f= (70+40)/200 VD8: Mẫu cụ thể 2 chiều Giải: Ta có bảng số liệu về 2 chỉ tiêu X, Y của 1 loại sản phẩm như sau: 1) Ta có bảng tần số thực nghiệm Y của X và Y như sau: X 5 10 15 20 25 2 2 1 xi 2 4 6 8 yi 5 10 15 20 25 4 2 2 ni 3 4 14 9 ni 2 7 12 6 3 6 4 6 3 1 8 4 3 2 * Chỉ tiêu X: n = 30 , nxx = 178 2 1) Xác định các đặc trưng số của mẫu về chỉ tiêu X, chỉ tiêu Y?  nx x = 1156 , x = 178/30 = 5,9333 2) Sản phẩm có chỉ tiêu Y<= 15 và X<=6 gọi là sản phẩm loại A. 2 1 2 2 23 sx = [nxx – n ( x ) ] = 3,4441 24 Xác định tỷ lệ sản phẩm loại A của mẫu? n 1 6
  7. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 1) Chỉ tiêu Y: III. PHÂN PHỐI CỦA CÁC ĐẶC TRƯNG MẪU n = 30 , n y = 455 , n y 2 = 7725 y  y Định lý: y = 455/30 = 15,1667 Tổng thể có quy luật phân phối X với: 2 2 1 2 2 E(X)=  và var(X)=  sy = [nyy – n ( y ) ] = 28,4185 n 1 Lấy mẫu có hoàn lại: 2) Tỷ lệ sản phẩm loại A của mẫu: E( X )=  và var( X )= 2/n f= 17/30 = 0,5667 Lấy mẫu không hoàn lại:  2 N n Bài tập: E( X )=  và var(X ) . n N 1 Tính trung bình mẫu, phương sai mẫu của chỉ N n 25 gọi là hệ số hiệu chỉnh 26 tiêu X và chỉ tiêu Y, của sản phẩm loại A? N 1 Quy luật phân phối xác suất của đặc trưng mẫu NN: Quy luật phân phối xác suất của đặc trưng mẫu NN: Định tính: Định lượng: F 1 X Ta có X  N(, 2) và cỡ mẫu n n i  2 với X có quy luật ppxs 0-1 X ~N ( , ) X  ~ N(0,1) i n  / n Do đó: P()(a X b b ) () a  / n  / n X 0 1 PX(|  |  ) 2 () P q=1-p p  / n pq E(F) p , var( F ) n Các công thức phân phối chuẩn ở chương 3 27 28 đều dùng được ở đây. 7
  8. ThS. Phạm Trí Cao * Chương 5 # OTCH 01/04/2016 VD9: Chiều cao thanh niên của vùng M là biến ngẫu nhiên phân phối chuẩn với = 165 cm, 2= 202 cm2 . Giải: 1) Người ta đo ngẫu nhiên chiều cao của 100 thanh niên vùng đó. 1) X là chiều cao tb của 100 thanh niên khảo sát a) Xác suất để chiều cao trung bình của 100 thanh niên đó sẽ sai lệch so với chiều cao trung bình của thanh niên vùng  là chiều cao tb của thanh niên toàn vùng M M không vượt quá 1 cm là bao nhiêu? 2 2 2 b) Khả năng chiều cao trung bình của 100 thanh niên trên X~N(165, 20 ) X ~N(165, 20 / 100) = N(165, 2 ) lớn hơn 168 cm là bao nhiêu? 1 2) Nếu muốn chiều cao trung bình đo được của 1 số thanh a) PX(|  | 1) 2  ( ) 2(0,1915) 0,3830 niên sai lệch so với chiều cao trung bình của tổng thể (của 2 PX( 168) 0,5  (168 165 ) tất cả thanh niên vùng M) không vượt quá 3 cm với xác suất b) 2 là 0,99 thì chúng ta phải tiến hành đo chiều cao của bao 29 0,5  (1,5) 0,5 0,4332 0,0668 30 nhiêu thanh niên? Giải: Mời ghé thăm trang web: 2) X là chiều cao tb của n thanh niên cần khảo sát 32  là chiều cao tb của thanh niên toàn vùng M  Tìm n sao cho: PX(|  | 3) 0,99  X~N(165, 202) X ~N(165, 202/ n) PX(|  | 3) 2  (3 ) 0,99 20 / n (3 n ) 0,495  (2,58) 20 3 n= 2,58 n= 295,84 296 (làm tròn lên) 20 Làm tròn lên của 1 số thập phân là lấy phần 31 nguyên của số đó cộng thêm 1 8