Bài giảng Phân tích và xử lý dữ liệu với R - Chương 3: Ước lượng và kiểm định giả thuyết

pptx 32 trang huongle 4310
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Phân tích và xử lý dữ liệu với R - Chương 3: Ước lượng và kiểm định giả thuyết", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptxbai_giang_phan_tich_va_xu_ly_du_lieu_voi_r_chuong_3_uoc_luon.pptx

Nội dung text: Bài giảng Phân tích và xử lý dữ liệu với R - Chương 3: Ước lượng và kiểm định giả thuyết

  1. Phân tích và xử lý dữ liệu với R Chương 3 ƯỚC LƯỢNG & KIỂM ĐỊNH GIẢ THUYẾT
  2. NỘI DUNG ▪ 1. Ước lượng ▪ 2. Kiểm định giả thuyết ▪ 3. So sánh hai tổng thể
  3. Quy trình ước lượng
  4. Ước lượng các tham số của tổng thể chung Ước lượng các tham số của tổng Từ thống kê của thể chung tổng thể mẫu Trung bình 흁 푿ഥ Tỷ lệ 푷 풇 Phương sai 흈 푺 Khác biệt 흁 − 흁 푿 − 푿
  5. 1.2 Ước lượng trung bình của tổng thể chung Khoảng tin cậy Trung bình Tỷ lệ Chưa biết Tổng thể Đã biết 흈 흈 bộc lộ
  6. 1.2.1 Trường hợp đã biết phương sai ▪ Giả thiết ● Đã biết độ lệch chuẩn của tổng thể chung ● Tổng thể chung phân bố chuẩn ● Nếu bất thường sử dụng mẫu lớn ▪ Ước lượng khoảng tin cậy 흈 흈 푿ഥ − 풁휶. ≤ 흁 ≤ 푿ഥ + 풁휶. 풏 풏
  7. 1.2.2 Trường hợp chưa biết phương sai (chưa biết 흈) ▪ Giả thiết ● Chưa biết độ lệch chuẩn của tổng thể chung ● Tổng thể chung phải phân bố chuẩn ▪ Sử dụng phân bố 푡 Students’s ▪ Ước lượng khoảng tin cậy 푺 푺 푿ഥ − 풕 . ≤ 흁 ≤ 푿ഥ + 풕 . 휶Τ ,풏− 풏 휶Τ ,풏− 풏
  8. Đọc dữ liệu vào R >setwd(“D:/testR”) >data = read.csv(“salary.csv”, header =T) >attach(data) >head(data) id salbeg sex time age salnow edlevel work jobcat minority sexrace 1 7 6900 0 79 28.00 16080 15 3.17 1 0 1 2 8 5400 0 67 28.75 14100 15 0.50 1 0 1 3 9 5040 0 96 27.42 12420 15 1.17 1 0 1 4 11 6300 0 84 33.50 15720 15 6.00 1 0 1 5 12 6000 0 88 54.33 8880 12 27.00 1 0 1 6 18 6900 0 72 32.67 10380 15 6.92 1 0 1
  9. ▪ Ước lượng lương trung bình hiện tại của nhân viên sumary (salnow) n = length(salnow) alpha = 0.05 salnow.bar = mean (salnow) s = sd (salnow) z = qnorm(1-alpha/2) erro = z *s / sqrt(n) // khoảng ước lượng: sal.now + c(-erro, erro)
  10. ▪ Tính khoảng ước lượng trung bình thâm niên làm việc của nhân viên trong công ty với mức ý nghĩa alpha = 10%
  11. 1.3 Ước lượng về tỷ lệ của tổng thể chung ▪ Giả thiết ● Chỉ có hai biểu hiện định tính ● Tổng thể chung phân bố theo quy luật nhị thức ● Phân bố chuẩn được sử dụng ● 푛. ≥ 5 & 푛. 1 − ≥ 5 ▪ Ước lượng khoảng tin cậy 풇 − 풇 풇( − 풇) 풇 − 풁 . ≤ 풑 ≤ 풇 + 풁 . 휶Τ 풏 휶Τ 풏
  12. ▪ Ước lượng tỉ lệ nhân viên của công ty có mức lương nhỏ hơn 10,000 usd với alpha = 0.05 >count =0 > alpha =0.05 > for(i in 1:n){if (data[i,"salnow"] f = count /n >z = qnorm(1-alpha/2) >erro = z*sqrt(f*(1-f)/n) > f + c(-erro, erro)
  13. ▪ Hãy ước lượng tỉ lệ nhân viên có trình độ đại học có mức lương thấp hơn 20,000 USD
  14. 1.4 Xác định cỡ mẫu
  15. Khi chọn cỡ mẫu ▪ Yêu cầu: sai số nhỏ; chí phí thấp ▪ Khi muốn ước lượng trung bình: 풁 . 흈 풏 = 휺 ▪ Khi muốn ước lượng tỉ lệ : 풁 풑( − 풑) 풏 = 휺
  16. ▪ Giả sử rằng chiều cao của học sinh lớp 2 có độ lệch chuẩn là 9.48 cm, hãy tính cỡ mẫu cần thiết để ước lượng được giá trị trung bình có sai số quanh điểm ước lượng là 1.2 cm với khoảng tin cậy 95% >sigma = 9.48 >e = 1.2 > z = qnorm(0.975) > n = z^2*sigma^2/(e^2)
  17. NỘI DUNG ▪ 1. Ước lượng ▪ 2. Kiểm định giả thuyết ▪ 3. So sánh trung bình, tỉ lệ hai mẫu
  18. a) Kiểm định Z một phía ▪ Giả định chung phân bố chuẩn ● Tổng thể chung: Phân bố chuẩn ● Nếu không chuẩn, sử dụng mẫu lớn ● Giả thiết “không” chỉ có dấu ≤ hoặc ≥ ▪ Kiểm định Z: 푿ഥ − 흁 풁 = 흈/ 풏
  19. Miền bác bỏ
  20. Kiểm định trái khi đã biết phương sai Giả sử các nhà sản xuất tuyên bố rằng cuộc đời trung bình của một bóng đèn là hơn 10.000 giờ. Trong một mẫu của 30 bóng đèn, người ta thấy rằng tuổi thọ trung bình của chúng chỉ là 9,900 giờ. Giả sử độ lệch chuẩn của tổng thể là 120 giờ. Với mức ý nghĩa 5% có thể bác bỏ tuyên bố của nhà sản xuất hay không
  21. Ho: μ >=10000 > xbar = 9900 # sample mean > mu0 = 10000 # hypothesized value > sigma = 120 # population standard deviation > n = 30 # sample size > z = (xbar−mu0)/(sigma/sqrt(n)) > z # test statistic [1] −4.5644
  22. > alpha = .05 > z.alpha = qnorm(1−alpha) > −z.alpha # critical value [1] −1.6449 Kết luận: Giá trị thống kê z< −z.alpha nên chúng ta có đủ cơ sở để bác bỏ tuyên bố của nhà sản xuất
  23. Kiểm định phải khi biết phương sai Trên bao bì của gói cookie ghi rõ rằng khối lượng chất béo bão hòa trong một chiếc cookie không lớn hơn 2g. Người ta chọn ngẫu nhiên 35 chiếc cookie từ 35 gói hàng khác nhau và tính được khối lượng chất béo bão hòa là 2.1 g. giả sử rằng độ lệch chuẩn của lượng chất béo là 0,25gram. Với mức ý nghĩa 5% có thể yêu cầu nhà sản xuất phải thay đổi thông tin ghi trên bao bì được không?
  24. Ho: μ xbar = 2.1 # sample mean > mu0 = 2 # hypothesized value > sigma = 0.25 # population standard deviation > n = 35 # sample size > z = (xbar−mu0)/(sigma/sqrt(n)) > z # test statistic [1] 2.3664
  25. > alpha = .05 > z.alpha = qnorm(1−alpha) > z.alpha # critical value [1] 1.6449 Kết luận: Giá trị thống kê z > z.alpha nên không đủ cơ sở để chấp nhận giả thuyết Ho nên có thể yêu cầu nhà sản xuất đính chính lại thông tin trên bao bì.
  26. 2.4 Kiểm định tỷ lệ ▪ Là một phân số hoặc % của tổng thể chng theo tiêu thức định tính nào đó ▪ Nếu tiêu thức định có hai biểu hiện và phân bố theo quy luật nhị thức ● Bao gồm cả biểu hiện có và không có theo tiêu thức nghiên cứu ▪ Tỷ lệ của tổng thể mẫu ( ) 푆ố đơ푛 푣ị ó 𝑖ể ℎ𝑖ệ푛 = ổ푛 푠ố đơ푛 푣ị ủ ẫ Sử dụng khi n đủ lớn (푛. ≥ 5) hoặc 푛(1 − ) ≥ 5
  27. NỘI DUNG ▪1. Ước lượng ▪2. Kiểm định giả thuyết ▪3. So sánh hai tổng thể
  28. 3. So sánh hai tổng thể ▪ 3.1 Kiểm định giá trị trung bình của hai tổng thể ● Hai mẫu độc lập ● Hai mẫu phụ thuộc ▪ 3.2 Kiểm định tỷ lệ của hai tổng thể
  29. So sánh hai mẫu độc lập ▪ So sánh thu nhập của cán bộ nam và cán bộ nữ trong công ty >head(data) >ibrary(psych) >describe.by(salnow, sex) >t=t.test(salnow~ sex) >print(t)
  30. data: salnow by sex t = 11.688, df = 344.26, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 5126.691 7201.198 sample estimates: mean in group 0 mean in group 1 16576.71 10412.77
  31. >library(beeswarm) // nếu ko có gõ lệnh install.packages (“beeswarm”) >beeswarm(salnow~sex, data=data, pch=16) >boxplot(salnow~sex, add=T, col = c("green", "red"))
  32. So sánh hai mẫu phụ thuộc So sánh giữa lương khởi điểm và lương hiện tại của nhân viên trong công ty > t=t.test(salnow, salbeg, paired=TRUE) >print(t) Paired t-test data: salnow and salbeg t = 35.036, df = 473, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 6570.963 7351.822 sample estimates: mean of the differences 6961.392