Bài giảng Phân tích và xử lí dữ liệu trong kinh doanh - Chương 3: Ước lượng và kiểm định giả thuyết

pptx 66 trang huongle 2870
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Phân tích và xử lí dữ liệu trong kinh doanh - Chương 3: Ước lượng và kiểm định giả thuyết", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptxbai_giang_phan_tich_va_xu_li_du_lieu_trong_kinh_doanh_chuong.pptx

Nội dung text: Bài giảng Phân tích và xử lí dữ liệu trong kinh doanh - Chương 3: Ước lượng và kiểm định giả thuyết

  1. CHƯƠNG 3 ƯỚC LƯỢNG & KIỂM ĐỊNH GIẢ THUYẾT
  2. NỘI DUNG ▪ 1. Ước lượng ▪ 2. Kiểm định giả thuyết ▪ 3. So sánh hai tổng thể
  3. 1. Ước lượng 1.1 Một số khái niệm thường dùng trong ước lượng 1.2 Ước lượng trung bình của tổng thể chung • Trường hợp đã biết phương sai • Trường hợp chưa biết phương sai • Trường hợp tổng thể chung có giới hạn • Các nhân tố ảnh hưởng tới độ lớn của khoảng tin cây trong ước lượng 1.3 Ước lượng tỷ lệ của tổng thể chung 1.4 Xác định cỡ mẫu
  4. 1.1 Một số khái niệm thường dùng trong ước lượng ▪ Quy trình ước lượng ▪ Ước lượng khoảng tin cậy ▪ Giới hạn tin cậy cho trung bình tổng thể chung ▪ Khoảng tin cậy ▪ Mức độ tin cậy ▪ Ước lượng các tham số của tổng thể chung
  5. Quy trình ước lượng
  6. Ước lượng khoảng tin cậy ▪ Đưa ra một khoảng giá trị dựa trên quan sát từ một tổng thể mẫu ▪ Tìm giá trị gần nhất đối với các tham số của tổng thể chung ▪ Khoảng tin cậy luôn tương ứng với một xác suất nhất định Xác suất đó không bao giờ đạt 100%
  7. Giới hạn tin cậy cho trung bình của tổng thể chung
  8. Độ tin cậy ▪ Là xác suất để tham số của tổng thể chung rơi vào khoảng tin cậy ▪ Biểu hiện: 1 − 휶 = độ tin cậy ● Ví dụ: 90%; 95%; 99% ▪ 휶 là xác suất để tham số của tổng thể chung không rơi vào trong khoảng tin cậy
  9. Ước lượng các tham số của tổng thể chung Ước lượng các tham số của tổng Từ thống kê của thể chung tổng thể mẫu Trung bình 흁 푿ഥ Tỷ lệ 푷 풇 Phương sai 흈 푺 Khác biệt 흁 − 흁 푿 − 푿
  10. 1.2 Ước lượng trung bình của tổng thể chung Khoảng tin cậy Trung bình Tỷ lệ Chưa biết Tổng thể Đã biết 흈 흈 bộc lộ
  11. 1.2.1 Trường hợp đã biết phương sai ▪ Giả thiết ● Đã biết độ lệch chuẩn của tổng thể chung ● Tổng thể chung phân bố chuẩn ● Nếu bất thường sử dụng mẫu lớn ▪ Ước lượng khoảng tin cậy 흈 흈 푿ഥ − 풁휶. ≤ 흁 ≤ 푿ഥ + 풁휶. 풏 풏
  12. 1.2.2 Trường hợp chưa biết phương sai (chưa biết 흈) ▪ Giả thiết ● Chưa biết độ lệch chuẩn của tổng thể chung ● Tổng thể chung phải phân bố chuẩn ▪ Sử dụng phân bố 푡 Students’s ▪ Ước lượng khoảng tin cậy 푺 푺 푿ഥ − 풕 . ≤ 흁 ≤ 푿ഥ + 풕 . 휶Τ ,풏− 풏 휶Τ ,풏− 풏
  13. phân bố 풕 Students’s
  14. Bậc tự do (풅풇) ▪ Là số lượng các quan sát được tự do thay đổi sau khi trung bình mẫu đã được tính toán ▪ Ví dụ: Trung bình của 3 quan sát là 2 ● 1 = 1 (hoặc một giá trị nào khác) ● 2 = 2 (hoặc một giá trị nào khác) ● 3 = 3 (bắt buộc phải bị ấn định theo giá trị của 1, 2 để ത = 2)
  15. VD1 ▪ Một người dân sản xuất bí ngô. Ông ta lấy ngẫu nhiên 50 quả bí ngô, tìm được số trung bình là 3kg. Độ lệch chuẩn của tổng thể là 0,3. Tìm ước lượng khoảng tin cậy 90% của khối lượng trung bình của bí ngô của người nông dân 흈 흈 푿ഥ − 풁휶. ≤ 흁 ≤ 푿ഥ + 풁휶. 풏 풏 , , − , ퟒ. ≤ 흁 ≤ − , ퟒ. ≤ 흁 ≤
  16. 1.2.3 Trường hợp tổng thể chung có giới hạn ▪ Giả thiết ● Mẫu lớn tương đối so với tổng thể chung n/N >0.05 ● Sử dụng các nhân tố hiệu chỉnh tổng thể chung có giới hạn ● Khoảng tin cậy (trung bình, chưa biết phương sai) 푺 푵−풏 푺 푵−풏 푿ഥ − 풕 . . ≤ 흁 ≤ 푿ഥ + 풕 . . 휶Τ ,풏− 풏 푵− 휶Τ ,풏− 풏 푵−
  17. VD2 Kết quả điều tra chọn mẫu 40 nhân viên kinh doanh của một doanh nghiệp có 1000 nhân viên kinh doanh theo phương pháp chọn mẫu ngẫu nhiên cho kết quả như bảng 6.1 trang 254 Hãy tính doanh số trung bình của một nhân viên kinh doanh cho toàn doanh nghiệp với độ tin cậy 95,44% ?
  18. 1.2.4 Những nhân tố ảnh hưởng tới độ lớn của khoảng tin cậy ▪ Độ biến thiên của dữ liệu 흈 ▪ Cỡ mẫu = 휎/ 푛 ▪ Mức độ tin cậy (1 − 훼)
  19. 1.3 Ước lượng về tỷ lệ của tổng thể chung ▪ Giả thiết ● Chỉ có hai biểu hiện định tính ● Tổng thể chung phân bố theo quy luật nhị thức ● Phân bố chuẩn được sử dụng ● 푛. ≥ 5 & 푛. 1 − ≥ 5 ▪ Ước lượng khoảng tin cậy 풇 − 풇 풇( − 풇) 풇 − 풁 . ≤ 풑 ≤ 풇 + 풁 . 휶Τ 풏 휶Τ 풏
  20. Ví dụ 3: Ước lượng tỷ lệ ▪ Một mẫu ngẫu nhiên gồm 400 cử tri, trong đó có 32 người bầu cử cho ứng cử viên A. Sử dụng khoảng tin cậy 95% để ước lượng tỷ lệ cho p. 풇 − 풇 풇( − 풇) 풇 − 풁 . ≤ 풑 ≤ 풇 + 풁 . 휶Τ 풏 휶Τ 풏 . −. . −. . − , . ≤ 풑 ≤. + , . ퟒ ퟒ . ≤ 풑 ≤ .
  21. Ví dụ 4 ▪ Sử dụng số liệu tại bảng 6.1 trang 254 hãy ước lượng tỷ lệ nhân viên trong doanh nghiệp có doanh thu 50 triệu đồng trở lên với độ tin cậy 95%.
  22. 1.4 Xác định cỡ mẫu
  23. Khi chọn cỡ mẫu ▪ Yêu cầu: sai số nhỏ; chí phí thấp ▪ Khi muốn ước lượng trung bình: 풁 . 흈 풏 = 휺 ▪ Khi muốn ước lượng tỉ lệ : 풁 풑( − 풑) 풏 = 휺
  24. NỘI DUNG ▪ 1. Ước lượng ▪ 2. Kiểm định giả thuyết ▪ 3. So sánh trung bình, tỉ lệ hai mẫu
  25. 2. Kiểm định giả thiết ▪ 2.1 Kiểm định giả thiết là gì? Giả thiết thống kê và các loại giả thiết Quá trình kiểm định giả thiết Mức ý nghĩa và sai lầm trong việc ra quyết định ▪ 2.2 Các bước kiểm định giả thiết ▪ 2.3 Kiểm định giả thiết về giá trị trung bình Liên hệ giữa khoảng tin cây và kiểm định giả thiết ▪ 2.4 Kiểm định giả thiết
  26. 2.1 Kiểm định Giả thiết là gì
  27. 2.1.1 Các loại giả thiết ▪ Đưa ra giả định (bằng số) để kiểm định ● VD: Giả sử rằng năng suất của công nhân trong một phân xưởng là 60sp/h 0: 휇 = 60 . ▪ Bắt đầu với giả định rằng giả thiết “không” luôn luôn Đúng. Tương tư như khái niệm vô tội cho đến khi có bằng chứng chứng minh là có tội ▪ Luôn có dấu “=” ▪ Giả thiết đối có thể hoặc không chấp nhận
  28. 2.1.2 Quá trình kiểm định giả thiết ▪ Đặt giả thiết “không” 0: 휇 = 60 ▪ Đặt giả thiết đối 1: 휇 ≠ 60 ● Các giả thiết loại trừ lẫn nhau và bao hàm tất cả các trường hợp. ● Đôi khi điền giả thiết đối trước sẽ dễ dàng hơn ▪ Thu thập thông tin về mẫu để rút ra kết luận về giả thiết cần kiểm định.
  29. 2.1.2 Quá trình kiểm định giả thiết
  30. Bác bỏ H0
  31. 2.1.3 Mức ý nghĩa 휶 ▪ Là xác suất bác bỏ H0 khi nó đúng ● Gọi là miền bác bỏ của phân bố ▪ Lựa chọn giá trị 휶 (alpha) ● Các giá trị điển hình: 0.01, 0.05, 0.1 ▪ Được chọn trước khi bắt đầu nghiên cứu ▪ Đưa ra những giá trị tới hạn cho kiểm định
  32. Mức ý nghĩa 휶 và miền bác bỏ 푯 : 흁 ≥ 푯 : 흁 푯 : 흁 = 푯 : 흁 ≠
  33. 2.1.4 Những sai lầm trong ra quyết định ▪ Loại I ● Bác bỏ giả thiết “Không” khi nó đúng ● Gây ra hậu quả nghiêm trọng ● Xác suất sai của loại I là 휶 ▪ Loại II ● Không loại bỏ giả thiết “không” khi nó sai ● Xác suất xảy ra sai sót loại II là 휷
  34. Những kết quả có thể Hội đồng xét xử (H0 : vô tội) Tình huống thực tế Tuyên án Vô tội Có tội Vô tội (1-휶) Sai loại II (휷) Có tội Sai loại I (휶) Lực lượng kiểm định (1-휷)
  35. 휶 & 휷 có mối liên hệ ngược chiều
  36. Những nhân tố ảnh hưởng tới sai lầm loại II, 휷 ▪ Giá trị đúng của tham số tổng thể chung ● Tăng khi chênh lệch giữa tham số kiểm định và giá trị đúng giảm ● Mức ý nghĩa 훼 ▪ Tăng khi 휶 giảm ● Độ lệch chuẩn của tổng thể chung 흈 ▪ Tăng khi 흈 tăng ● Cỡ mẫu n ▪ Tăng khi n giảm
  37. 2.2 Các bước tiến hành kiểm định ▪ VD: Kiểm định với giả thiết năng suất lao động bình quân của công nhân ở phân xưởng A ít nhất là 60sp/ngày. ● 1. Đặt giả thiết 푯 : µ ≥ ● 2. Đặt giả thiết đối 푯 : µ < ● 3. Chọn 휶 = , ● 4. Chọn n=100 ● 5. Chọn tiêu chuẩn kiểm định Z (p, t , )
  38. 2.2 Các bước tiến hành kiểm định ▪ 6. Thu thập dữ liệu: Điều tra năng suất lao động của 100 công nhân ▪ 7. Tính toán các giá trị thống kê cần thiết theo tiêu chuẩn kiểm định đã lựa chọn ▪ 8. Ra quyết định thống kê: bác bỏ giả thiết hay chấp nhận giả thiết đề ra ▪ 9. Kết luận
  39. 2.3 Kiểm định giả thiết về giá trị trung bình ▪ 2.3.1 Kiểm định Z khi đã biết 흈 ● Thay đổi thống kê mẫu (VD ത) sang biến Z chuẩn hóa 푿ഥ−흁 풁 = Tiêu chuẩn kiểm định 흈Τ 풏 ● So sánh với giá trị Z tới hạn Nếu thống kê kiểm định Z trong miền tới hạn, bác bỏ H0 ; ngược lại thì không bác bỏ H0
  40. a) Kiểm định Z một phía ▪ Giả định chung phân bố chuẩn ● Tổng thể chung: Phân bố chuẩn ● Nếu không chuẩn, sử dụng mẫu lớn ● Giả thiết “không” chỉ có dấu ≤ hoặc ≥ ▪ Kiểm định Z: 푿ഥ − 흁 풁 = 흈/ 풏
  41. Miền bác bỏ
  42. Ví dụ 5 ▪ Giám đốc một công ty sản xuất cà phê muốn kiểm tra khối lượng của mỗi gói sản phẩm có vượt quá khối lượng quy định là 300g hay không, với sai số cho phép trung bình là 15 gram. Để kiểm tra chất lượng của bộ phận đóng gói, ông lấy mẫu 25 gói cà phê, tính được khối lượng trung bình là 304 gram, với mức ý nghĩa 5%, có đủ cơ sở để kết luận là bộ phận đóng gói không hoàn thành nhiệm vụ hay không?
  43. Tìm giá trị tới hạn
  44. Tính toán ra kết luận 푯 : 흁 ≤ Tiêu chuẩn kiểm định 푯 : 흁 > 푿ഥ − 흁 휶 = . 풁 = 흈 = , < 풁휶 n = 25 ൗ 풏 Giá trị tới hạn: 풁휶 = , ퟒ Quyết định: Không bác bỏ giả thuyết H0 Kết luận: Không có bằng chứng chứng tỏ 1 gói cà phê có khối lượng trung bình lớn hơn 300g
  45. Ví dụ 6 Một công ty có hệ thống máy móc sản xuất được 1200 sản phẩm trong 1 h. Công ty mới nhập một hệ thống mới. Để kiểm tra tính hiệu quả của hệ thống mới này, người ta chọn ngẫu nhiên 40 máy, cho thấy số sản phẩm trung bình được tạo ra trong 1 h là 1260 với độ lệch chuẩn là 215. Với mức ý nghĩa 5% hãy nhận định xe hệ thống mới có tốt hơn hệ thống cũ hay không
  46. b. Kiểm định Z hai phía Ví dụ : Một hộp ngũ cốc trung bình có chứa đúng 3.68 g? Lấy ngẫu nhiên một mẫu gồm 25 hộp và cho kết quả ത = 372.5 . Công ty định rõ 휎 = 15 . Kiểm định tại mức ý nghĩa 훼 = 0.05
  47. Ví dụ (tiếp) 푯 : 흁 = Tiêu chuẩn kiểm định 푯 : 흁 ≠ 푿ഥ − 흁 휶 = . 풁 = 흈 = , < 풁휶/ n = 25 ൗ 풏 Giá trị tới hạn: 풁휶/ = , Quyết định: Không bác bỏ giả thuyết H0 Kết luận: Không có bằng chứng chứng tỏ 1 hộp ngũ cốc trung bình chứa khác 368g
  48. 2.3.2 Kiểm định t khi chưa biết 흈, mẫu nhỏ (n<30) ▪ Giả định: ● Tổng thể chung phân bố chuẩn ● Nếu không chuẩn, chỉ lệch nhẹ và lấy cỡ mẫu lớn ▪ Quá trình kiểm định tham số ▪ Kiểm định t ത − 휇 푡 = 푆/ 푛
  49. VD: Kiểm định 1 phía Một hộp ngũ cốc trung bình có chứa hơn 368 gr? Lấy ngẫu nhiên một mẫu gồm 36 hộp và cho kết quả ത = 372.5 và S=15. Kiểm định với mức ý nghĩa 훼 = 0.01
  50. Ví dụ (tiếp) 푯 : 흁 ≤ Tiêu chuẩn kiểm định 푯 : 흁 > 푿ഥ − 흁 휶 = . 풁 = 흈 = , < 풁휶/ n = 36 ; df = 35 ൗ 풏 Giá trị tới hạn: 풁휶/ = , Quyết định: Không bác bỏ giả thuyết H0 Kết luận: Không có bằng chứng chứng tỏ 1 hộp ngũ cốc trung bình chứa khác 368g
  51. 2.4 Kiểm định tỷ lệ ▪ Là một phân số hoặc % của tổng thể chng theo tiêu thức định tính nào đó ▪ Nếu tiêu thức định có hai biểu hiện và phân bố theo quy luật nhị thức ● Bao gồm cả biểu hiện có và không có theo tiêu thức nghiên cứu ▪ Tỷ lệ của tổng thể mẫu ( ) 푆ố đơ푛 푣ị ó 𝑖ể ℎ𝑖ệ푛 = ổ푛 푠ố đơ푛 푣ị ủ ẫ Sử dụng khi n đủ lớn (푛. ≥ 5) hoặc 푛(1 − ) ≥ 5
  52. Kiểm định giả thiết về tỷ lệ của tổng thể chung – Kiểm định Z VD: ▪ Vấn đề: 1 công ty marketing cần phải nhận được 4% lời phúc đáp sau khi gửi thư qua đường bưu điện trước khi tiến hành điều tra trên toàn bộ quốc gia. →Tiếp cận: Để kiểm định sự đòi hỏi này, điều tra một mẫu ngẫu nhiên gồm 500 đơn vị, trong đó có 25 lời phúc đáp →Giải pháp: Kiểm định tại mức ý nghĩa 훼 = .05
  53. Ví dụ 푯 : 풑 = , ퟒ Tiêu chuẩn kiểm định 푯 : 흁 ≠ , ퟒ 풑 − 풇 . ퟒ−. 풁 = = = − . ퟒ 휶 = . 풑( − 풑) . ퟒ( −. ퟒ) n = 25 풏 Giá trị tới hạn: 풁휶/ = , Quyết định: Không bác bỏ giả thuyết H0 Kết luận: Chúng ta không có đủ bằng chứng để bác bỏ mục tiêu của công ty về tỷ lệ phúc đạp là 4%
  54. NỘI DUNG ▪1. Ước lượng ▪2. Kiểm định giả thuyết ▪3. So sánh hai tổng thể
  55. 3. So sánh hai tổng thể ▪ 3.1 Kiểm định giá trị trung bình của hai tổng thể ● Hai mẫu độc lập ● Hai mẫu phụ thuộc ▪ 3.2 Kiểm định tỷ lệ của hai tổng thể
  56. 3.1 Kiểm định giá trị trung bình của hai tổng thể ▪ 3.1.1 Hai mẫu độc lập ● Giả xử nghiên cứu hai tổng thể 푿 ~푵(흁 , 흈 ) ; 푿 ~푵(흁 , 흈 ) ● Chưa biết 휇1, 휇2 , nhưng có cơ sở để giả định chúng bằng nhau ( 0: 휇1 = 휇2) ● Để kiểm định giả thiết trên, lấy hai mẫu ngẫu nhiên độc lập với kích thước mẫu 푛1, 푛2 & có được 1 , 2
  57. T/h1: Biết phương sai của tổng thể chúng, hoặc mẫu lớn ▪ Biết phương sai tổng thể chung (푿 − 푿 ) 풁 = ~푵( , ) 흈 흈 + 풏 풏
  58. Ví dụ 7 Có ý kiến cho rằng chiều cao của nữ thanh niên sống ở khu vực thành thị cao hơn so với nữ thanh niên ở khu vực nông thôn, người ta tiến hành chọn 50 người sống ở khu vực thành thị và 50 người sống ở khu vực nông thôn. Thu được chiều cao trung bình lần lượt thu được tại 2 khu vực là 167,7 và 165,33 cm. Với xác suất 95% hãy đưa ra kết luận biết rằng độ lệch chuẩn ở 2 khu vực lần lượt là 2,5 cm và 2,8 cm.
  59. T/h2: Khi chưa biết phương sai nhưng giả sử chúng bằng nhau ▪ Sử dụng tiêu chuẩn kiểm định 푿 − 푿 푻 = ~풕휶,(풏 +풏 − ) 푺 푺 + 풏 풏 Trong đó 풏 − 푺 + 풏 − 푺 푺 = 풏 + 풏 −
  60. VD8 ▪ Trở lại ví dụ 7. Chúng ta giả sử rằng giá trị trung bình về chiều cao của nữ sinh ở 2 khu vực là 167,7 cm và 165,33 cm và phương sai mẫu lần lượt là: 10.01 và 12.79. Với xác suất 95% hãy đưa ra kết luận liệu chiều cao trung bình của nữ sinh ở khu vực thành thị có cao hơn khu vực nông thôn hay không ?
  61. 3.1.2 So sánh trung bình của hai mẫu phụ thuộc ▪ Giả sử nghiên cứu 2 tổng thể phụ thuộc 푿 ~푵(흁 , 흈 ) ; 푿 ~푵(흁 , 흈 ) Muốn so sánh 휇1, 휇2, chúng ta xét trung bình độ lệch 휇 =휇1, −휇2 chưa biết, tuy nhiên có cơ sở để giả định nó bằng 휇0 ( 0: 휇 = 휇0)
  62. ▪ Để kiểm định giả thiết trên, lấy một mẫu ngẫu nhiên phụ thuộc được hình thành bởi n cặp quan sát độc lập của hai mẫu, tính ҧ là trung bình của các độ lệch ▪ Lực chọn tiêu chuẩn kiểm định ഥ (풅 − 흁 ) 푻 = ~풕휶,(풏− ) 푺풅/ 풏
  63. Ví dụ 9 Người ta quảng cáo rằng những người tham gia chương trình luyện tập giảm cân trung bình sẽ giảm trên 8kg. Để chứng minh điều này họ đã phỏng vấn 10 người để ghi lại cân nặng của họ trước và sau chương trình. Số liệu thu được như sau: 72 77 84 79 74 67 74 77 79 89 65 68 77 73 66 61 66 71 71 78 Với độ chính xác 95% hãy kiểm định lại giả thuyết trên
  64. 3.2 So sánh tỷ lệ của hai tổng thể ▪ Giả sử nghiên cứu hai tổng thể, tỉ lệ theo tiêu thức A trên hai tổng thể lần lượt là 1, 2. ▪ Chưa biết 1, 2 nhưng có cơ sở để giả định chúng bằng nhau 0: 1 = 2
  65. ▪ Để kiểm định giả thuyết trên với điều kiên 푛1, 푛2 đủ lớn (푛1. 1 ≥ 5 ℎ표ặ 푛1. (1 − 1) ≥ 5 tương tự với 푛2) ▪ Sử dụng tiêu chuẩn kiểm định 풇 − 풇 풁 = ~푵( , ) 풇( − 풇) + 풏 풏 푛1. 1+ 푛2. 2 Trong đó = 푛1+푛2
  66. Ví dụ Người ta cho rằng phương pháp mới làm tỉ lệ nảy mầm cao hơn. Để kiểm tra, phương pháp cũ người ta kiểm tra 150 hạt thấy 140 hạt nảy mầm, phương pháp mới, kiểm tra 120 hạt thì thấy 111 hạt nảy mầm. Hãy kiểm tra với mức ý nghĩa 2%