Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 6: Mô hình phân phối mẫu và khoảng tin chắc cho các phần - Nguyễn Duy Long

pdf 23 trang huongle 1770
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 6: Mô hình phân phối mẫu và khoảng tin chắc cho các phần - Nguyễn Duy Long", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_thong_ke_hoc_ung_dung_trong_quan_ly_xay_dung_phan.pdf

Nội dung text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 6: Mô hình phân phối mẫu và khoảng tin chắc cho các phần - Nguyễn Duy Long

  1. 9/8/2010 Phần06 Nguyễn Duy Long, TiếnSỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Các mô hình phân phốimẫu  Các khoảng tin chắc cho các phần ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
  2. 9/8/2010 Sampling Distribution Models ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Các khảosátluônbiểuthị sự biến đổivìlấymẫubởicáccá thể khác nhau.  Chúng tasẽ dự báosự biến đổi này. Thay vì lặp lại nhiềumẫu thực, chúng ta sẽ tưởng tượng điềugìsẽ xảyranếutathực sự thựchiện nhiềumẫu.  Hãy tưởng tượng: 1. 25% độcgiả VnExpress ủng hộ thu phí ôtô vào trung tâm. 2. 64 sinh viên lớpnàymỗingườilấykhảo sát 100 thị dân, hỏi họ có ủng hộ phương án thu phí không ◦ Điềugìxảyranếutaxembiểu đồ tầnsuấttấtcả các phần củamẫuchocác khảosátnày. ◦ Bạnnghĩ gì về biểu đồ tầnsuấtcủatấtcả các phầncủa mẫunày? ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
  3. 9/8/2010  Ta kỳ vọng biểu đồ tầnsuấtcủa các phầntrongmẫu tập trung ở phần (proportion) thực, p, trong quần thể.  Ta có thể mô phỏng các mẫungẫu nhiên mà không thậtsự lấymẫu.  Biểu đồ tầnsuấtlàmộtmốt, đốixứng, và trung tâm là p. ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Dưới đây là hình dạng củaphânphối.  Phân phốinàynhắcbạn điềugì? ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
  4. 9/8/2010  Dùng mô hình chuẩnlàhợplý!  Với các phần, biếttrị trung bình thì sẽ có độ lệch chuẩn: pq n  Phân phốicủa các phầntrongmẫu đượcmôphỏng vớimôhìnhxácsuất: pq Np , n ©2010, Nguyễn Duy Long, Tiến Sỹ 7  Mô hình chuẩn càng tốthơn cho phân phốicủa các phầnkhikíchthướcmẫu càng lớnhơn.  Ta cầnkíchthướcmẫurasao? Sẽ trình bày sau ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
  5. 9/8/2010  Các mô hình chỉ hữu ích khi các giả định của chúng là thật.  Hai giả định trong trường hợpmôhìnhchophân phốicủa các phầntrongmẫu: 1. Các giá trị đượclấymẫulàđộclập nhau. 2. Kích thướcmẫu, n, phải đủ lớn.  Các giả định là rấtkhóđể kiểmtra.  Cầnkiểm tra các giả định là hợplýbằng cách kiểm tra các điềukiệnchobiết thông tin về các giả định. ©2010, Nguyễn Duy Long, Tiến Sỹ 9 1. Điềukiện 10% (10% condition): Nếumẫu không đượclấy cùng vớisự thay thế, thì kích thước mẫu, n, phải không lớnhơn 10% quầnthể. 2. Điềukiện thành công/thấtbại(Success/failure condition): Kích thướcmẫuphải đủ lớn để cả np và nq lớnhơn 10. ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
  6. 9/8/2010  Ứng viên A có 55% quầnthể thích hơn ứng viên còn lại (B), nhưng chỉ kỳ vọng 100 người đibầu. Ta có thể xác định xác suất ứng viên A có 50% hay ít hơn phiếubầu, hay thua cuộc. ◦ Trị trung bình:  () ppˆ = 0.55 pq ◦ Độ lệch chuẩn: SD () pˆ n = 0.049 ◦ z = (0.50 - 0.55)/0.049 = -1.005 ◦ Pr(bầu < 0.50) = 0.157  Có khoảng 16% cơ hội ứng viên B thắng, dù phần lớnthíchứng viên A hơn. ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Mộtphần không chỉ là sự tính toán từ tậphợpcủa dữ liệu. Nó có thể là mộtlượng ngẫu nhiên có phân phối. ◦ Phân phốinàyđượcgọilàmôhìnhphânphốimẫu (sampling distribution model) cho các phần.  Dù ta phụ thuộc vào các mô hình phân phốimẫu, chúng ta không bao giờ thậtsự thấynó.  Cácmôhìnhphânphốimẫulàquantrọng vì: ◦ Chúng đóng vai trò như cầu nối từ thế giới thực của dữ liệu đếnthế giớitưởng tượng củathống kê và ◦ Cho ta biếtgìđóvề quầnthể khi tấtcả những gì ta có là dữ liệutừ thế giớithực. ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
  7. 9/8/2010  Các phần(proportions) tóm tắt các biến định tính.  Ta có thể làm điềutương tự với các dữ liệu định tính? ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Như bấtcứ trị thống kê nào đượctínhtừ mẫungẫu nhiên, trị trung bình củamẫucũng có mộtphânphối mẫu.  Có thể dùng mô phỏng để xem phân phốimẫucủa trị trung bình mẫurasao  Ví dụ, mô phỏng mộtcon súcsắc 10,000 lần: ng u nt ầ l ố S Số nút ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
  8. 9/8/2010  Trung bình số nút của  Trung bình số nút của 2 súc sắccủamô 3 súc sắccủamô phỏng 10,000 lần phỏng 10,000 lần tung: tung: n tung n tung ầ ầ l l ố ố S S Số nút trung bình của2 súcsắc Số nút trung bình của3 súcsắc ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Trung bình số nút của  Trung bình số nút của 5 súc sắccủamô 20 súc sắccủamô phỏng10,000 lần tung: phỏng 10, 000 lần tung: n tung n tung ầ ầ ầ l l ố ố S S Số nút trung bình của5 súcsắc Số nút trung bình của 20 súc sắc ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
  9. 9/8/2010  Khi mẫu càng lớn(số súc sắc), bình quân củamẫu có khả năng càng gầntrị trung bình củaquầnthể. ◦ Ta sẽ thấytiếptụcgần3.5  Phân phốimẫucủatrị trung bình trở thành phân phốichuẩn. ©2010, Nguyễn Duy Long, Tiến Sỹ 17  Định lý giớihạn trung tâm (Central Limit Theorem, CLT) phát biểurằng trị trung bình củamẫungẫu nhiên có phân phốimẫucóhìnhdạng xấpxỉ mô hình chuẩn. Mẫu càng lớn, việcxấp xỉ càng tốt.  Phân phốimẫucủabấtcứ trị trung bình nào trở thành phân phốichuẩnkhikíchthướcmẫulớn.  CLT tốthơnnếu ◦ Kích thướcmẫulớn ◦ Mô hình quầnthể gầnvớimôhìnhchuẩn. ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
  10. 9/8/2010 Mô hình quầnthể 3 mẫu khác nhau, gồm các trị trung bình Biểu đồ tầnsuấtcủacáctrị trung bình từ tất cả các mẫu Biểu đồ tầnsuấttương tự vớiphânphốinày ©2010, Nguyễn Duy Long, Tiến Sỹ 19  CLT nói rằng phân phốimẫucủabấtcứ trị trung bình hay phầnnàođềuxấpxỉ mô hình chuẩn  Mô hình chuẩncủaphầnphốimẫucủaphần: pq ()pˆ p SD pˆ n  Mô hình chuẩncủaphânphốimẫucủatrị trung bình:  ()y  SD y n σđộ lệch chuẩncủaquầnthể. ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
  11. 9/8/2010  Dùng CLT đòi hỏikiểm tra các điềusau: 1. Điềukiệnlấymẫungẫunhiên(Random Sampling Condition): Các giá trị dữ liệuphảilấymẫumộtcáchngẫu nhiên nếu không khái niệmphânphốimẫu không có ý nghĩa. 2. Giả định tính độclập (Independence Assumption): Các giá trị củamẫuphải độclập nhau. (Khi mẫulấyramàkhông có sự thay thế, kiểmtrađiềukiện 10% ) . CLT không tốt cho các mẫunhỏ, hay khi dữ liệubị lệch lớn. . Cho các phần(proportions) điềunàycónghĩalàkỳ vọng có ít nhất 10 thành công và 10 thất bại trong mẫu . Không có qui tắcchocáctrị trung bình – kinh nghiệm cho các biếncố rờirạclàcóítnhất 10 lầnxuấthiện đượckỳ vọng cho mỗibiếncố. ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Giả định trọng lượng trung bình củacủangườiViệt Nam là 60 kg và độ lệch chuẩn là 10 kg. Thang máy ở trường ĐH Bách Khoa có giớihạntối đa 15 người hay 1000 kg. Xác suấtnếu 15 người dùng thang máy và vượttảitrọng cho phép? ◦ Bạncầnbiếttrọng lượng củatấtcả 15 ngườihay chỉ cần trọng lượng trung bình của nhóm? ◦ Bạncócầnbiếttrọng lượng là phân phốichuẩn? ◦ Các giả định của ta là thỏa để có thể dùng CLT? ◦ Hãy tính xác suất ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
  12. 9/8/2010  Độ lệch chuẩncủaphânphốimẫugiảmchỉ vớicăn bậchaicủakíchthướcmẫu.  Trong khi ta lôluônmuốncó mẫu lớn hơn, căn bậc hai giớihạnmẫucóthể nói về quầnthể . (Mộtvídụ củaqui tắcsự thu lạigiảm(Law of Diminishing Returns)  Trở lạivớivídụ kế hoạch thu phí xe hơi vào thành phốởTP.HCM ©2010, Nguyễn Duy Long, Tiến Sỹ 23  Có thể dùng các trị thống kê củamẫu để ướclượng các thông số củaquầnthể.  Bấtcứ khi nào ta ướclượng độ lệch chuẩncủaphân phối mẫu, ta gọi nó là sai số chuẩn (standard error ). ◦ Vớiphầncủamẫu, sai số chuẩnlà pqˆˆ SE pˆ n ◦ Vớitrị trung bình củamẫu, sai số chuẩnlà s SE y n ◦ Vớis làđộ lệch chuẩncủamẫu.  Tính sai số chuẩngiống vớitínhđộ lệch chuẩnchỉ khác ký hiệu! ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
  13. 9/8/2010 Confidence Intervals for Proportions ©2010, Nguyễn Duy Long, Tiến Sỹ 25  Mô hình phân phốimẫucủapˆ có trung tâm p, và độ lệch chuẩn là pq n  Vì không biết p, ta không thể tìm độ lệch chuẩn thựccủamôhìnhphânphốimẫu, cầntìmsaisố chuẩn: pqˆˆ SE() pˆ n ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
  14. 9/8/2010  Từ qui tắc 68-95-99.7%, ta biết: ◦ Khoảng 68% củatấtcả các mẫucópˆ trong1 SE của p ◦ Khoảng 95% củatấtcả các mẫucópˆ trong2 SE của p ◦ Khoảng 99.7% củatấtcả các mẫutrong3pˆ SE của p  Từ pˆ , thường ướctínhphầnthực p vớimộtmẫu đãcho ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Xem xét mức 95%: ◦ Có khoảng 95% cơ hộ p không lớnhơn2 lầnsai số chuẩn(SE) từ p.ˆ ◦ Nếuvươnra2 lầnSE, ta có 95% chắcchắnrằng p sẽ trong khoảng đó. Nói cách khác, nếuvươnra 2 lần SE theo hai hướng củapˆ , ta có 95% tin rằng khoảng này chứaphầnthực. ◦ Phầncònlạihoặcquálớn(khoảng 2.5% cơ hội) hay quá thấp(khoảng 2.5% cơ hội).  Điềunàyđượcgọilàkhoảng tin chắc 95% (95% confidence interval). * Hay chính xác hơn là 95.45% cơ hội ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
  15. 9/8/2010 Vươnra2 lần SE theo hai bên củachopˆ ta 95% tin ta sẽ “bẫy” đượcphầnthựcp Nguồn: De Veaux, 2006, tr.429) ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Mỗikhoảng tin chắc dùng mộttrị số thống kê của mẫu để ướclượng tham số củaquầnthể.  Nhưng vì các mẫubiến đổi, các trị số thống kê ta dùng, và các khoảng tin chắctaxâydựng cũng biến đổi. ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
  16. 9/8/2010  Hình bên chỉ mộtsố khoảng tin chắcthunạp đượcphần thực(đường màu xanh nằm ngang), trong khi một số n) o không:  Độ tin chắclàquátrìnhxây dựng khoảng, chứ không phảimộtkhoảng nào đó. n (proporti ầ  Vì vậy, ta kỳ vọng 95% của Ph tấtcả các khoảng tin chắc 95% chứa tham số quần thể thực đang ướclượng. Mẫusố Nguồn: De Veaux, 2006, tr.431 ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Ta có thể tuyên bố vớikhoảng 95% tin chắc, khoảng pSEpˆˆ 2* ( ) chứaphầnthực. ◦ Tầm của khoảng cho mỗi bên pˆ được gọi là biên sai số (lỗi) (margin of error (ME)).  Tổng quát, các khoảng tin chắccódạng: ướclượng (estimate) ± ME.  Càng muốn độ tin chắclớn, ME càng cầnlớn.  Tổng quát, dạng biên sai số (ME), với z* là giá trị tới hạn (criiitica l va lue) MEzSEp ˆ ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
  17. 9/8/2010 •Bâygiờ ta tin chắchơn, nhưng chúng ta thiệtgì? Nguồn: De Veaux, 2006, tr.432) ©2010, Nguyễn Duy Long, Tiến Sỹ 33  Càng tin chắc(confident), càng ít chính xác (precise).  Mọi khoảng tin chắc là sự cân bằng giữa sự chắc chắn(certainty) và chính xác (precision). ◦ Trong hầuhếttrường hợptacóthể vừachắnchắnmộtcách đầy đủ và chính xác mộtcáchđầy đủ để có các phát biểuhữu ích.  Lựachọnmứctin chắclàkhátùytiện, nhưng nhớ rằng “sứccăng” giữachắcchắn và chính xác khi chọnmứctin chắc.  Các mứctin chắc hay dùng là 90%, 95%, và 99%, nhưng có thể dùng bấtcứ phầntrămnào. ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
  18. 9/8/2010 Sự cân bằng giữachắcchắn (certainty) và chính xác (precision), đây là một thái cực Nguồn: De Veaux, 2006, tr.433) ©2010, Nguyễn Duy Long, Tiến Sỹ 35  Bạnlàmviệcvới phòng tiếpthị củamộtcửahiệu bán giầydéptrựctuyếnvàkhảosátngẫu nhiên 100 ngườivề ý kiếncủahọ đốivớimẫuwebsite mới. 60% người đượckhảo sát thích website mới so vớiwebsite củ. ◦ Khoảng tin chắc 95% cho phầnthựccủangườimuathích website mớihơn? Biên sai số bao nhiêu? ◦ Khoảng tin chắc 99.7% cho phầnthựccủangườimuathích websi te mớihơn? Biên sai số bây giờ bao nhiêu? ◦ Nếumuốncả tin chắc và chính xác hơn, theo bạncầnphải làm gì? ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
  19. 9/8/2010  ‘2’ trongpˆˆ 2*SE ( p ) (khoảng tin chắc 95%) là từ qui tắc 68- 95-99.7%.  Bảng z cho giá trị chính xác hơnchokhoảng tin chắc 95% là 1196.96 thay vì 2. ◦ Ta gọi 1.96 là giá trị tớihạn(critical value) ký hiệu z*.  Cho mỗimứctin chắc, có thể tìm giá trị tớihạntương ứng. ©2010, Nguyễn Duy Long, Tiến Sỹ 37  Vớikhoảng tin chắc 90%, giá trị tớihạn là 1.645.  Chú ý tính đốixứng! ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
  20. 9/8/2010  Tấtcả các mô hình xác suấtphụ thuộc và các giả định (assumptions). ◦ Mô hình khác nhau phụ thuộcvàocácgiả định khác nhau. ◦ Nếucácgiả định là không đúng, mô hình có thể không thích hợpvàcáckếtluậndựa vào mô hình có thể sai.  Ta không bao giờ chắcchắngiả định là đúng, nhưng ta thường quyết định giả định có hợplý không bằng cách kiểmtrađiềukiện liên quan. ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Trướckhitạokhoảng tin chắcchophần, cầnkiểm tra  Giả đinh độclập (independence assumption): Giá trị dữ liệu đượcgiả định độclập nhau. 1. Điều kiện độc lập hợp lý (Plausibl e IdIndepen dence Condition): Có lý do gì để tin rằng giá trị dữ liệu ảnh hưởng nhau? 2. Vớilấymẫu không thay thế, kiểmtrađiềukiện 10% 3. Điềukiệnngẫu nhiên hóa . Giả định kích thướcmẫu (Sample Size Assumption): Mẫucần khá lớn để có thể dùng CLT. 4. Điềukiện thành công/thấtbại (Success/Failure Condition) ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
  21. 9/8/2010  Khoảng z mộtphần(one-proportion z-interval) còn đượcgọi là khoảng tin chắcchomộtphần(the confidence interval for a proportion)  Khi các điềukiệnthỏa, có thể tìm khoảng tin chắn(CI) cho phầncủaquầnthể, p.  Khoảng tin chắclàpˆ ±biênsaisố (ME) CI pˆˆ z SE p với pˆˆq SE() pˆ n  Giá trị tớihạn, z*, phụ thuộcvàomứctin chắctương ứng, C. ©2010, Nguyễn Duy Long, Tiến Sỹ 41  Từ phương trình củaME để xác định kích thước mẫucầnthiết để tạorakhoảng tin chắcvớiME đã cho và với một mức tin chắc đã cho: 2 zpq ˆˆ n ME 2 với z* là giá trị tới hạn cho mức tin chắc đã cho. ©2010, Nguyễn Duy Long, Tiến Sỹ 42 21
  22. 9/8/2010  Sếpbạnnghĩ rằng khảosáttrước (60% thích, 100 người) là quá miên man không thể hữuích. Sếp muốn tăng sự chính xác. Tính số người bạn cần có trong khảo sát 1. Bạnmuốn có 95% tin chắcrằng phầnthựccủangườimua sắmthíchwebsite mớihơnlàtừ 55% đến 65%? 2. Nếubạnmuốn có 99.7% tin chắn cho cùng khoảng? ©2010, Nguyễn Duy Long, Tiến Sỹ 43  Chủ tịch mộtxãnhỏ (5000 người) đề nghị huyện xây một nhà sinh hoạtcộng đồng, lậpluậnrằng việcxâydựng sẽ cảithiện đờisống vănhóacủa dân. Tổng cộng 183 dân trong xã tham gia buổi tham vấncộng đồng về đề án, và việcbiểuquyết đưa tay chỉ có 31 người ủng hộ đề án. ◦ Bạncóthể kếtluậngìvề ý kiếnngườidântrongxãvề đề án? ◦ Ta có nên xây dựng khoảng tin chắc 95% ? ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22
  23. 9/8/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 45 23