Bài giảng Tin học ứng dụng trong Công nghệ sinh học môi trường

ppt 306 trang huongle 4030
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin học ứng dụng trong Công nghệ sinh học môi trường", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptbai_giang_tin_hoc_ung_dung_trong_cong_nghe_sinh_hoc_moi_truo.ppt

Nội dung text: Bài giảng Tin học ứng dụng trong Công nghệ sinh học môi trường

  1. TIN HỌC ỨNG DỤNG TRONG CNSHMT
  2. Mục tiêu ◼ Giúp sinh viên độc lập trong nghiên cứu khoa học, cĩ khả năng xử lý số liệu thường gặp trong điều tra, nghiên cứu trong cơng nghệ sinh học mơi trường ◼ Trang bị cho sinh viên kỹ năng sử dụng phần mềm thống kê trong việc giải quyết xử lý và trình bày số liệu.
  3. Nội dung 1. Tin học ứng dụng trong CNSHMT 2. Khái niệm cơ bản trong thống kê kết quả nghiên cứu 3. Các đại lượng biến thiên 4. Phần mềm thống kê xử lý số liệu 5. Phương pháp bố trí thí nghiệm trong nghiên cứu 6. Xử lý số liệu thí nghiệm so sánh2 mẫu 7. Xử lý số liệu thí nghiệm đơn yếu tố 8. Xử lý số liệu thí nghiệm đa yếu tố 9. Xử lý số liệu TN tương quan và hồi quy
  4. Tài liệu tham khảo ◼ Nguyễn Ngọc Kiểng, Thống kê học trong nghiên cứu khoa học, NXB Giáo dục, 1996. ◼ Lê Đức Ngọc, Xử lý số liệu và kế hoạch hĩa thực nghiệm, Khoa Hĩa, ĐHQGHN, 2001. ◼ Nguyễn Cảnh, Quy hoạch thực nghiệm, NXB Đại học Quốc gia, 2004 ◼ Phan Hiếu Hiền, Phương pháp bố trí nghiệm và xử lý số liệu, NXB Nơng nghiệp, 2001
  5. 1. Tin học ứng dụng trong CNSHMT ◼ Khoa học mơi trường ◼ Các dạng nghiên cứu mơi trường ◼ Các bước trong nghiên cứu khoa học ◼ Tin học ứng dụng trong cơng nghệ
  6. 1.1 Khoa học mơi trường ◼ Nghiên cứu các tác động qua lại của mơi trường và con người ◼ Thuật ngữ mơi trường liên quan đến khơng khí, nước, đất cũng như thực vật, động vật và vi sinh vật.
  7. Khoa học mơi trường giải quyết vấn đề: ◼ Gia tăng dân số, ◼ Cạn kiệt tài nguyên ◼ Ơ nhiễm mơi trường
  8. 1.2 Các dạng nghiên cứu mơi trường ◼ Bố trí thí nghiệm xử lý (mơi trường) ◼ Phân tích diễn biến mơi trường qua thời gian, dự báo mức độ ơ nhiễm dựa trên phân tích chuỗi số liệu theo thời gian ◼ Điều tra các yếu tố vật lý, hĩa học, sinh học của mơi trường, phục vụ đánh giá tác động của mơi trường, đánh giá hiệu quả của biện pháp xử lý
  9. 1.2 Các dạng nghiên cứu mơi trường ◼ Mối liên hệ và tác động qua lại giữa các yếu tố trong cùng quần thể, dự đoán mối liên hệ giữa các yếu tố thơng qua mối liên hệ tương quan
  10. 1.3 Các bước trong nghiên cứu khoa học ◼ Xác định nhiệm vụ, đối tượng, dân số ◼ Tính toán số lượng đơn vị cần thu thập theo qui định thống kê ◼ Thu thập dữ kiện ◼ Lưu trữ và xử lý số liệu ◼ Phân tích kết quả và viết báo cáo
  11. Xác định nhiệm vụ, đối tượng, dân số ◼ Trước khi tiến hành thu thập dữ kiện, phải hiểu mình muốn biết gì khi điều tra nghiên cứu. ◼ xác định nhiệm vụ là việc hàng đầu trước khi thu thập dữ kiện.
  12. Tính toán số lượng đơn vị cần thu thập theo qui định thống kê ◼ Việc xác định dung lượng mẫu cần thiết cho cuộc điều tra cĩ ảnh hưởng đến kết quả đánh giá và suy diễn kết luận về quần thể thơng qua tập hợp mẫu. ◼ Thu thập khơng đủ số lượng đơn vị cho mẫu điều tra sẽ làm lệch sự suy diễn, phi khoa học và dẫn đến sự ngộ nhận gây ra những hậu quả khơng lường được.
  13. Thu thập dữ kiện ◼ Khi điều tra nghiên cứu mơi trường, phải thực hiện việc thu thập dữ kiện. ◼ Cĩ những trường hợp dữ kiện phải được thu thập qua 2 bước. Trong khi thu thập dữ kiện phải thực hiện việc ghi chép thơng qua các bảng ghi số liệu khảo sát.
  14. Lưu trữ và xử lý số liệu ◼ Hình thức và phương pháp lưu trữ dữ kiện thu thập ngồi hiện trường hay kết quả phân tích trong phịng thí nghiệm rất đa dạng tùy theo mục đích điều tra nghiên cứu.
  15. Lưu trữ và xử lý số liệu ◼ Dưới dạng bảng tính ◼ Dưới dạng cơ sở dữ liệu ◼ Lưu trữ trực tiếp vào phần mềm xử lý thống kê.
  16. Phân tích kết quả và viết báo cáo 2 loại dữ liệu: ◼ Loại dữ liệu nguồn, các dữ liệu gốc đã thu thập hay phân tích từ phịng thí nghiệm. ◼ Các kết quả xử lý: phải làm nổi bật các kết luận, đánh giá hiện trạng, phân tích trong báo cáo điều tra nghiên cứu.
  17. Phân tích kết quả và viết báo cáo Một bảng thống kê kết quả chủ yếu gồm các thành phần sau: ◼ Tựa đề của bảng ◼ Các đầu đề dữ kiện ◼ Nguồn gốc dữ kiện
  18. 1.4 Tin học ứng dụng trong cơng nghệ Trong mọi ngành khoa học thực nghiệm: ◼ thực tế kết quả bằng số ◼ thí nghiệm
  19. Kết quả bằng số: ◼ là giá trị của một biến ngẫu nhiên ◼ phụ thuộc vào nhiều yếu tố ◼ ước lượng được qui luật phụ thuộc (nghiên cứu trên một tập hợp mẫu với độ tin cậy nào đĩ)
  20. Xử lý số liệu ◼ dữ liệu thơ - tính tốn, sắp xếp - dữ liệu tinh ◼ làm cơ sở cho việc diễn giải, phân tích thống kê
  21. 2. Khái niệm cơ bản trong thống kê kết quả nghiên cứu ◼ Phân tích thống kê ◼ Mơ tả dữ kiện ◼ Cơng cụ của thống kê ◼ Biến số ◼ Phương pháp xử lý số liệu ban đầu ◼ Đại lượng trung bình
  22. 2.1 Phân tích thống kê ◼ Các con số tĩm lược thơng tin định lượng ◼ Phương pháp tính tốn để giúp chúng ta tĩm lược hoặc khái quát hố thơng tin ◼ Kỹ thuật giúp quyết định vấn đề như phân tích phương sai, tương quan hồi qui, trắc nghiệm,
  23. Hạn chế của thống kê ◼ Sử dụng thống kê phải biết rành về lĩnh vực chuyên mơn của người nghiên cứu ◼ Thống kê chỉ là phương tiện, cơng cụ ◼ Thống kê trình bày những số liệu hoặc hiện tượng rời rạc một cách hệ thống hơn, chứ khơng nĩi được bản chất của sự việc ◼ Thống kê khơng thay thế được cho suy nghĩ và kết luận của người nghiên cứu
  24. Thống kê mơ tả ◼ Là một trong những bước đầu tiên để phân tích vấn đề và thực hiện một quyết định. ◼ Gồm các tính tốn cơ bản mang tính chất mơ tả như trung bình, phương sai, độ lệch chuẩn, nhằm tổng kết về kết quả của thí nghiệm.
  25. Thống kê mơ tả ◼ Phương pháp tĩm lược thơng tin để làm cho chúng trở nên dễ hiểu tức giảm một số lớn các số liệu phức tạp thành một số nhỏ hơn gồm các giá trị tĩm tắt ◼ Mơ tả mối quan hệ giữa các biến số
  26. Thống kê suy diễn ◼ Khái quát hố thơng tin của một mẫu cho tồn dân số của mẫu tức là chỉ đo đếm trên một tiểu tập hợp rồi suy luận cho tồn bộ với một độ tin cậy nào đĩ ◼ Cung cấp kỹ thuật để kiểm tra trên một mẫu và sử dụng thơng tin này để suy rộng ra các đặc tính của tồn bộ dân số
  27. 2.2 Mơ tả dữ kiện ◼ Hai biến số cĩ giá trị trung bình như nhau nhưng độ phân tán khơng giống nhau ◼ độ phân tán cho biết thơng tin để đánh giá độ tin cậy của giá trị tập trung
  28. Mơ tả dữ kiện ◼ Phân phối dân số ◼ Phân phối mẫu ◼ Phân phối chuẩn
  29. Phân phối dân số ◼ là phân phối của những điểm số trong một dân số
  30. Phân phối mẫu ◼ là phân phối của những điểm số trong một mẫu cĩ kích cỡ nhất định ◼ là phân phối của một thống kê nào đĩ của tất cả các mẫu cĩ cùng một kích cỡ trong dân số
  31. Phân phối chuẩn ◼ Khi vẽ biểu đồ tương quan giữa tần số và kết quả thu nhận, hình dạng đường cong thơng thường cĩ dạng hình chuơng gọi là phân phối chuẩn
  32. Phân phối chuẩn ◼ Là một phân phối đối xứng cĩ dạng hình chuơng, biểu diễn bằng phương trình: 2 2 e−(x− ) / 2 Y =  2
  33. ◼ Hai phân phối chuẩn với độ lệch chuẩn khác nhau: độ lệch chuẩn nhỏ cho phép khái quát hoá những kết quả của mẫu cho tồn dân số với độ tin cậy cao
  34. Phân phối chuẩn -2 -3 -1 0 +1 +2 +3 68% 95% 99,7%
  35. Phân phối chuẩn Trong một phân phối chuẩn, khoảng: ◼ 68% số liệu trong khoảng X ±SD ◼ 95% số liệu trong khoảng X ±2SD ◼ 99% số liệu trong khoảng X ±3SD
  36. Phân phối chuẩn Trong một phân phối chuẩn: ◼ Cĩ 95% số trường hợp nằm trong độ lệch chuẩn ±1,96 so với giá trị trung bình ◼ Cĩ 99% số trường hợp nằm trong độ lệch chuẩn ±2,58 so với giá trị trung bình
  37. Các đặc trưng thống kê thường dùng trong mơ tả dữ kiện Các giá trị của một biến số cĩ sự phân phối là phân tán hay tập trung. ◼ Giá trị đồng nhất (các giá trị của một biến số cĩ xu hướng quần tụ) ◼ Giá trị khơng đồng nhất (các giá trị của một biến số cĩ xu hướng phân tán)
  38. Các đặc trưng thống kê thường dùng trong mơ tả dữ kiện ◼ Trung bình mẫu ước lượng giá trị trung tâm của phân bố ◼ Độ lệch chuẩn của mẫu liên quan đến sự phân tán của số liệu
  39. Các đặc trưng thống kê thường dùng trong mơ tả dữ kiện ◼ Trung bình mẫu và Độ lệch chuẩn chỉ cĩ giá trị đại diện cho mẫu khi mẫu cĩ phân phối chuẩn ◼ Độ lệch (skewness) và độ nhọn (kurtosis) dùng để kiểm tra mẫu cĩ phân bố chuẩn hay khơng
  40. Độ lệch (skewness) ◼ Là tiêu chuẩn đánh giá tính đối xứng của số liệu ◼ Độ lệch = 0 (đối xứng) ◼ Độ lệch > 0 (các giá trị cĩ xu hướng tập trung về phía bên phải của đồ thị) ◼ Độ lệch < 0 (các giá trị cĩ xu hướng tập trung về phía bên trái của đồ thị)
  41. Độ nhọn (kurtosis) ◼ Là tiêu chuẩn để xác định hình dạng của phân bố đối xứng. ◼ Độ nhọn = 0 (phân bố chuẩn) ◼ Độ nhọn > 0 (phân bố cĩ đồ thị nhọn hơn phân bố chuẩn) ◼ Độ nhọn < 0 (phân bố cĩ đồ thị bẹt hơn phân bố chuẩn)
  42. 2.3 Cơng cụ của thống kê ◼ Biểu bảng, ◼ Biểu đồ, ◼ Các giá trị mơ tả (trung bình, độ lệch chuẩn, phương sai, )
  43. Bảng phân phối tần số ◼ Sắp xếp, trình bày dữ liệu một cách cĩ hệ thống ◼ Phân chia dữ liệu thành từng nhĩm khác nhau ◼ Căn cứ để hình thành biểu đồ phân phối tần số
  44. Sơ đồ tổng quát của bảng phân phối tần số Trị số của biến Tần số (số lần xuất (Xi) hiện của trị số - fi) X1 f1 X2 f2 Xk fk
  45. Sơ đồ tổng quát của bảng phân phối tần số điểm số sinh viên 1 2 2 4 10 9
  46. Sơ đồ tổng quát của bảng phân phối tần số Năng Tần Tần số Tần số Tần số tương suất số tương tích đối tích lũy đối (%) lũy (%) 152 7 17,5 7 17,5 159 19 47,5 26 65,0 166 8 20 34 85,0 173 6 15 40 100 40
  47. Trị số của biến quan sát ◼ Số cụ thể ◼ Khoảng giá trị (khoảng cách cĩ thể bằng nhau hoặc khơng, cĩ giới hạn trên/dưới hoặc chỉ một giới hạn)
  48. Biểu đồ trong thống kê ◼ Biểu diễn tồn bộ số liệu ◼ Thể hiện nét đặc trưng của tập hợp số liệu ◼ Biểu diễn mối quan hệ giữa tính trạng nghiên cứu và chỉ tiêu theo dõi
  49. Biểu đồ phân phối tần số ◼ Biểu đồ cột ◼ Trình bày số quan sát lớn ◼ Cĩ thể trình bày tần số tương đối, tần số tích lũy, tần số tương đối tích lũy
  50. Biểu đồ phân phối tần số
  51. Biểu đồ phân phối tần số 19 20 15 10 8 7 6 5 0 152 159 1 166 173
  52. Biểu đồ tần số tích lũy 45 40 40 35 34 30 25 26 20 15 10 7 5 0 150 155 160 165 170 175
  53. Biểu đồ tần số tương đối tích lũy 120 100 100 80 85 65 60 40 20 17,5 0 150 155 160 165 170 175
  54. Biểu đồ hộp ◼ Khảo sát sơ lược dữ liệu ◼ Tổng quát về phân phối của mẫu/ tổng thể ◼ thể hiện ví trí tập trung, phân tán, bất thường
  55. Biểu đồ hộp
  56. Biểu đồ hộp ◼ Khối hộp ‘box’ kéo dài từ giá trị phân vị ¼ đến giá trị phân vị ¾ , khoảng 50% giá trị nẳm trong ‘box’ ◼ Đường thẳng đứng ở vị trí trung bị mẫu, chia dãy số liệu thành 2 phần bằng nhau, nếu mẫu phân bố đối xứng thì đường này nằm gần trung tâm của khối hộp
  57. Biểu đồ hộp ◼ Dấu + ở vị trí trung bình của mẫu ◼ Sự khác biệt đáng kể giữa trung bình và trung vị cho thấy cĩ một vài số liệu cĩ khả năng gây ra sai số làm phân bố của mẫu bị lệch ◼ Đoạn thẳng hai đầu gọi là ‘whisker’ nối từ giá trị cực tiểu đến điểm phân vị ¼ và từ điểm phân vị ¾ đến giá trị cực đại
  58. Biểu đồ điểm
  59. Mẫu và dân số ◼ Dữ liệu của dân số là những dữ liệu liên quan đến mọi trường hợp ◼ Dữ liệu của mẫu đại diện cĩ thể khái quát cho tồn bộ dân số
  60. Mẫu (sample) ◼ Được chọn ngẫu nhiên từ dân số ◼ Mẫu là một phần và là đại diện của dân số. ◼ Phân tích mẫu cĩ thể suy ra các đặc tính của dân số với một mức độ tin cậy xác định nào đĩ
  61. Mẫu ngẫu nhiên ◼ Mẫu lấy từ dân số mà các đơn vị đều cĩ cơ hội đồng đều nhau, nĩ mang tính khách quan trong thu thập dữ kiện
  62. Ví dụ: Muốn xác định mức độ ơ nhiễm của một khu cơng nghiệp: ◼ Dân số là tất cả các nhà máy, xí nghiệp trong khu cơng nghiệp đĩ. ◼ Mẫu gồm một vài xí nghiệp hoặc nhà máy nào đĩ trong khu cơng nghiệp để đánh giá mức độ ơ nhiễm
  63. Dân số (population) ◼ Là tập hợp những thơng tin về người, sự vật hoặc sự việc riêng biệt kết hợp với nhau trên cơ sở một đặc điểm chung nào đĩ mà người nghiên cứu đang quan tâm. ◼ Là tập hợp tồn bộ các đối tượng nghiên cứu, điều tra, khảo sát. Cĩ những đặc điểm chung vào mục tiêu của điều tra nghiên cứu mơi trường.
  64. Dân số ◼ Thường rất lớn và khơng thể kiểm tra hết ◼ Muốn biết thơng tin về dân số chỉ cĩ thể đo đếm trên một tiểu tập hợp gọi là mẫu
  65. 2.4 Biến số ◼ Là một đặc trưng mà giá trị của nĩ khác nhau tùy theo trường hợp ◼ Tùy nhu cầu nghiên cứu mà cĩ thể tạo ra các biến số mới ◼ đặc trưng quan sát mà cuộc nghiên cứu quan tâm đến, ◼ cĩ 02 loại biến số (liên tục, rời rạc)
  66. Biến số liên tục ◼ Là các số nguyên dương và thập phân. ◼ Các số đo về chiều dài, trọng lượng, thể tích,
  67. Biến số rời rạc ◼ Là các số nguyên dương. ◼ Các biến biểu thị tính chất hay số đếm như tỷ lệ cây trồng sống sĩt, số cây khơng bị nhiễm rầy
  68. Đơn vị ◼ đối tượng cụ thể để đo đếm và thu nhập dữ kiện. ◼ Một mẫu thăm dị sẽ cĩ nhiều đơn vị. ◼ Đơn vị thống kê là một phần tử của một tập hợp mẫu thống kê điều tra khảo sát. ◼ Cần phân biệt giữa đơn vị thống kê và hình thức thu thập mẫu trong trường hợp đối tượng nghiên cứu là nước, khơng khí.
  69. Đếm số đơn vị 2 ◼ số cây con/m , ◼ số sâu trên một cá thể, ◼ số chồi cây trên một gốc,
  70. Đặc tính quan sát - chỉ tiêu nghiên cứu ◼ một đơn vị thống kê trong lĩnh vực mơi trường cĩ thể cĩ rất nhiều chỉ tiêu nghiên cứu. ◼ Đặc tính quan sát của đơn vị điều tra khảo sát được phân thành hai nhĩm: đặc tính giống nhau và đặc tính biến thiên
  71. đặc tính giống nhau ◼ đặc tính khơng thay đổi từ đơn vị thống kê này đến đơn vị khác. ◼ Các đặc tính giống nhau được chia làm 3 nhĩm: Đặc tính khơng gian Đặc tính thời gian Đặc tính cụ thể
  72. đặc tính biến thiên ◼ Là các đặc tính quan sát mà các đơn vị cĩ thể cĩ giá trị khác nhau. ◼ Là các chỉ tiêu của đơn vị biến thiên từ đơn vị này đến đơn vị khác. ◼ Các đặc tính biến thiên cĩ thể chia thành hai nhĩm: định tính và định lượng.
  73. đặc tính biến thiên ◼ cĩ thể cĩ tính chất cụ thể, tính chất thời gian hoặc khơng gian. ◼ xác định các thơng tin cần thu thập trong khi điều tra khảo sát
  74. 2.5 Phương pháp xử lý số liệu ban đầu ◼ Gọi a là trị thực của đại lượng đo, X là kết quả đo ◼ Sai số tuyệt đối (X-a) cĩ thể gồm 3 thành phần là sai số hệ thống, sai số thơ, sai số ngẫu nhiên
  75. Sai số hệ thống ◼ Sai số hệ thống là sai số khơng đổi hoặc thay đổi theo một qui luật nhất định. ◼ Sai số hệ thống cĩ thể hiệu chỉnh được
  76. Sai số thơ ◼ Sai số thơ là sai số do bất cẩn, trục trặc kỹ thuật, thay đổi điều kiện đột ngột, Đặc điểm đơn lẻ, cĩ trị số tuyệt đối lớn hoặc nhỏ một cách bất thường. ◼ Cần loại bỏ các số đo chứa sai số thơ để khỏi ảnh hưởng khơng trung thực đến kết quả chung
  77. Sai số ngẫu nhiên ◼ Sai số ngẫu nhiên là sai số khơng thể tiên đoán được cụ thể, do rất nhiều nhân tố cĩ tác dụng nhỏ khơng thể tách riêng hoặc tính riêng. ◼ Sai số ngẫu nhiên là sai số mà người làm thí nghiệm khơng thể loại bỏ được, phải chấp nhận
  78. 2.6 Đại lượng trung bình ◼ Mốt (mode) ◼ Trung vị (median) ◼ Trung bình cộng (average) ◼ Trung bình nhân (geometric mean)
  79. Mode: (Mo) ◼ Là giá trị xuất hiện nhiều nhất trong một biến số Ví dụ: Phân phối xác suất: 5, 6, 7, 7, 8, 8, 8, 9, 10 cĩ mode là 8 ◼ Dùng để đo độ tập trung ◼ Khơng phụ thuộc vào giá trị ở 2 đầu của dãy số
  80. Mode: (Mo) ◼ Biến số đơn thức là biến số khi gần như mọi trường hợp đều tập trung về một giá trị ◼ Biến số nhị thức là biến số khi gần như cĩ hai hay nhiều trường hợp nhất và gần như tương đương nhau
  81. Số trung vị: (Me) ◼ số nằm ở chính giữa khi dãy số xếp từ nhỏ - lớn ◼ Là giá trị chia đơi tổng số các giá trị của biến số thành 2 phần bằng nhau ◼ cho kết quả nhanh về ước lượng trung bình.
  82. Trung bình cộng X ◼ Cộng các giá trị của các trường hợp và chia cho tổng trường hợp ◼ Trường hợp dị biệt cĩ thể làm trung bình mất đi tính đại diện ◼ Tổng các độ lệch giữa các giá trị với trung bình luơn bằng 0 ◼ Tổng các độ lệch bình phương cĩ giá trị nhỏ nhất
  83. Trung bình cộng X ◼ Đại diện cho cả một tập hợp lớn số liệu ◼ Nêu lên đặc điểm chung nhất của hiện tượng ◼ Dùng để so sánh các hiện tượng khơng cĩ cùng qui mơ
  84. Trung bình cộng số học n  X i X = i=1 n
  85. Trung bình cĩ trọng số ◼ Là trường hợp đặc biệt của trung bình số học khi gía trị của biến xuất hiện nhiều lần k  X i fi i=1 X = k  fi i=1
  86. Trung bình của dữ liệu phân nhĩm cĩ khoảng cách ◼ mi là trị số giữa của nhĩm i ◼ fi tần số của nhĩm i k  mi fi i=1 X = k  fi i=1
  87. Trung bình nhân (trung bình hình học) GM ◼ Căn bậc n cho n giá trị n GM = X1X 2 X n ◼ Thay cho trung bình cộng trong trường hợp dãy số liệu cĩ phân phối lệch (giá trị đột biến)
  88. Phần tư vị (quartile) ◼ Xếp dữ kiện từ nhỏ đến lớn, chia dãy n dữ kiện làm 4 phần ◼ Phần tư vị dưới (low quartile): lấy giá trị của đơn vị ở vị trí ¼ (25%) dãy dữ kiện. ◼ Phần tư vị trên (upper quartile): lấy giá trị của đơn vị ở vị trí ¾ (75%) dãy dữ kiện.
  89. 3. Các đại lượng biến thiên ◼ Đại lượng đo lường độ biến thiên ◼ Phân tích phương sai
  90. 3.1 Đại lượng đo lường độ biến thiên ◼ Mơ tả biến thiên ◼ Điểm số chuẩn hoá ◼ Sai biệt chuẩn ◼ Khoảng tin cậy
  91. Đại lượng đo lường độ biến thiên ◼ Phương pháp đo lường độ biến thiên của các phân phối giúp hiểu rõ phân phối ◼ Phương sai và độ lệch chuẩn là những đại lượng đo lường giúp tính tốn được biến thiên của một phân phối
  92. Phương sai ◼ Phương sai (variance) chính là trung bình của các độ lệch bình phương giữa các giá trị so với giá trị trung bình.
  93. Phương sai của dân số ◼ Cơng thức đo lường biến thiên của dân số (phương sai) (X − )2  2 =  i N
  94. Phương sai của dân số ◼ Tính giá trị trung bình của dân số ◼ Trừ giá trị trung bình cho từng giá trị của dân số (hiệu số) ◼ Bình phương từng hiệu số ◼ Cộng các hiệu số được bình phương ◼ Lấy tổng của các hiệu số bình phương chia tổng dân số
  95. Phương sai của dân số ◼ Nếu các giá trị được phân phối một cách dàn trãi trên diện rộng và cách xa trung bình thì độ lệch sẽ lớn và phương sai sẽ rất lớn ◼ Nếu các giá trị quần tụ gần giá trị trung bình thì độ lệch sẽ nhỏ và phương sai sẽ nhỏ.
  96. Phương sai của mẫu ◼ Cơng thức đo lường biến thiên của mẫu (phương sai) (X − X )2 S 2 =  i n −1 ◼ n-1 gọi là bậc tự do của phương sai
  97. Phương sai của mẫu ◼ Đối với một phương sai, cĩ n-1 các độ lệch cĩ thể biến đổi một cách tự do một khi chúng đã được nhận biết, độ lệch sau cùng chắc chắn sẽ được xác định. ◼ Vì vậy cĩ n-1 bậc tự do
  98. Độ lệch chuẩn (standard deviation) ◼ Biểu thị mức độ phân tán (cùng bản chất của tính trạng) ◼ Độ lệch càng lớn mức độ phân tán càng cao, tính đại diện trung bình càng nhỏ
  99. Độ lệch chuẩn ◼ Là căn bậc hai của phương sai ◼ độ lệch chuẩn liên quan đến dân số: (X − )2  =  i N
  100. Độ lệch chuẩn ◼ độ lệch chuẩn liên quan đến mẫu (X − X )2 S =  i n −1
  101. Hệ số biến dị ◼ So sánh mức độ phân tán của các tính trạng cĩ bản chất khác nhau SD CV = 100% X
  102. Mơ tả biến thiên ◼ Mơ tả biến thiên chính là đo lường sự khác biệt của các giá trị với một giá trị chuẩn nào đĩ tức là điểm trung bình
  103. Mơ tả biến thiên Nhĩm 1 (tương Nhĩm 2 (giữa 2 Nhĩm 3 (tương đối đồng nhất) xu hướng) đối khác biệt) 64 44 34 68 63 58 70 80 90 71 91 101 69 74 79 66 56 46 Trung bình 68 Trung bình 68 Trung bình 68
  104. Mơ tả biến thiên Nhĩm 1 (tương đối Nhĩm 2 (giữa 2 xu Nhĩm 3 (ttương đối đồng nhất) hướng) khác biệt) 64 44 34 68 63 58 70 80 90 71 91 101 69 74 79 66 56 46 Trung bình 68 Trung bình 68 Trung bình 68 p.Sai 6,8 290,80 686,80
  105. Mơ tả biến thiên Nhĩm 1 (tương đối Nhĩm 2 (giữa 2 xu Nhĩm 3 (tương đối đồng nhất) hướng) khác biệt) 64 44 34 68 63 58 70 80 90 71 91 101 69 74 79 66 56 46 Trung bình 68 Trung bình 68 Trung bình 68 p.Sai 6,8 290,80 686,80 SD 2,61 SD 17,05 SD 26,21
  106. Mơ tả biến thiên ◼ Thơng thường làm trịn giá trị của độ lệch chuẩn và phương sai ở chữ số thập phân thứ 2 ◼ Biến thiên càng lớn thì độ lệch chuẩn và phương sai càng lớn ◼ Khi viết báo cáo kết quả phân tích thống kê, thường dùng độ lệch chuẩn
  107. Điểm số chuẩn hoá ◼ Được dùng để đo lường độ lệch của một điểm số nào đĩ khi được so sánh với trung bình bằng độ lệch chuẩn.
  108. Điểm số chuẩn hoá ◼ Chuyển một điểm số nào đĩ thành một điểm số chuẩn hố theo cơng thức: X − X Z = i i S
  109. Điểm số chuẩn hoá Điểm của sinh Điểm của sinh viên lớp A viên lớp B 87 −81 6 83− 76 7 Z = = Zi = = i 6 6 4 4 = 1,00 = 1,75
  110. Biến số chuẩn hoá ◼ Là biến số mà các điểm số của nĩ đều được chuyển thành điểm số chuẩn hố ◼ Tổng các điểm số chuẩn hố bằng 0 ◼ Tổng bình phương của các điểm số chuẩn hố luơn bằng n là tổng số trường hợp trong mẫu
  111. Sai biệt chuẩn ◼ độ lệch chuẩn của một phân phối mẫu quan trọng đến mức phải đặt cho nĩ một tên gọi riêng là sai biệt chuẩn (standard error) được viết là:  x
  112. Sai biệt chuẩn ◼ Là sai số của số trung bình (sai số chọn mẫu) ◼ Cĩ đơn vị như số trung bình ◼ Biểu thị mức độ đại diện của mẫu đối với dân số
  113. Sai biệt chuẩn ◼ SE lớn biểu thị mức độ đại diện của mẫu đối với dân số nhỏ và ngược lại ◼ Biểu thị mức độ tin cậy của mẫu ◼ Ước lượng số trung bình của tổng thể
  114. Sai biệt chuẩn ◼ Sai biệt chuẩn của trung bình là tồn bộ độ lệch chuẩn của phân phối mẫu của các trung bình của tồn bộ mẫu cĩ kích cỡ nhất định trong dân số, được tính bằng cơng thức:   = x n
  115. Khoảng tin cậy ◼ Trung bình của một dân số cĩ thể được tìm ra ở phía dưới và hoặc phía trên của trung bình mẫu, do đĩ bên cạnh biết được trị trung bình của mẫu cần phải biết khoảng tin cậy.
  116. Khoảng tin cậy ◼ Chính sai biệt chuẩn sẽ cho biết khoảng tin cậy. ◼ Khoảng tin cậy 95% (X 1,96 x ) Khẳng định với độ chắc chắn rằng 95% trung bình của dân số sẽ nằm trong khoảng này
  117. Khoảng tin cậy ◼ Tương tự 99%: (X 2,58 x )
  118. Các đặc trưng khác ◼ độ nhọn (kurtosis), ◼ độ lệch (skewness)
  119. 3.2 Phân tích phương sai ◼ Ý nghĩa của phân tích phương sai ◼ Thành phần bảng phân tích phương sai
  120. Ý nghĩa của phân tích phương sai ◼ ANOVA cho phép đánh giá những mức ý nghĩa thống kê của những khác biệt giữa các trị trung bình ◼ Phân tích phương sai cho phép khai thác một cách đầy đủ các đặc tính tốn học của biến và giúp tìm ra ý nghĩa thống kê của những khác biệt giữa 3 trị trung bình trở lên.
  121. Phân tích phương sai dựa trên các giả định ◼ Chọn mẫu ngẫu nhiên ◼ sự độc lập giữa các trung bình ◼ Biến phụ thuộc cĩ phân phối chuẩn trong dân số
  122. Thành phần bảng phân tích phương sai Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Between groups 2,82137 3 0,940456 8,62 0,0069 Within groups 0,872533 8 0,109067 Total (Corr.) 3,6939 11
  123. Thành phần bảng phân tích phương sai Nguồn biến Tổng bp bậc tự do Phương sai F thiên (SS) (df) (MS) Giữa các SSnt k - 1 SSnt / dfnt MSnt/MSe nghiệm thức Trong nội bộ SSe n – k SSe/ dfe nghiệm thức (sai số) tổng SST n – 1 SSt/ dfT
  124. Biến thiên của biến độc lập: ◼ Biến thiên mà quan sát được giữa các nhĩm trong biến độc lập (between groups) ◼ Biến thiên mà quan sát được trong từng nhĩm của biến độc lập hay gọi là biến thiên trong nội bộ của nhĩm (within groups)
  125. Total sum of squares ◼ Tổng các độ lệch bình phương chung (total sum of squares) cho biết mức độ biến thiên của các điểm số so với trung bình chung 2 SST = (X i − X T )
  126. Within-groups sum of squares ◼ Tổng các độ lệch bình phương trong nội bộ nhĩm (within-groups sum of squares) cho biết mức độ biến thiên của các điểm số so với trung bình của nhĩm nội bộ 2 SSe = (X i − X G )
  127. Between-groups sum of squares ◼ Tổng các độ lệch bình phương giữa các nhĩm (between-groups sum of squares) đo lường độ biến thiên giữa các trị trung bình của các nhĩm so với trung bình chung: SSnt=SST-SSe
  128. Bậc tự do: ◼ Bậc tự do chung dfT= n-1 (n tổng số trường hợp) ◼ Bậc tự do giữa các nhĩm dfnt= k-1 (k là số giá trị của biến độc lập) ◼ Bậc tự do nội bộ nhĩm dfe= n-k
  129. Phương sai chung (X − X )2 MS =  i T T n −1
  130. Phương sai trong nội bộ nhĩm (X − X )2 MS =  i G e n − k
  131. Phương sai giữa các nhĩm SSnt/(k-1) ◼ F tính = MSnt/MSe
  132. Ví dụ: Độ chắc sản phẩm ứng các chất phụ gia thể hiện bảng: Lặp lại A B C D tổng 1 55 45 65 25 2 50 40 60 55 3 65 35 55 50 4 40 65 65 40 5 60 45 65 tổng 270 230 310 170 980
  133. ANOVA - analysis of variance Nguồn biến Tổng bp bậc tự do Phương sai F thiên (SS) (df) (MS) Giữa các SSnt J - 1 = 1057,632/3 = 352,33/99,67 nghiệm 4 – 1 = 3 352,33 = 3,535 thức Trong nội SSe n – j = 19 – 4 = 15 1495/15 = bộ 99,67 nghiệm thức (sai số) tổng SSt n – 1 = 19 – 1 = 2552,632/18 = 18 141,81
  134. Tra bảng Fisher, với 3 bậc tự do ở tử và 15 bậc tự do ở mẫu, được: F0,05 = 3,29 F0,01 = 5,42 với Ftính = 3,535 > 3,29 kết luận cĩ khác biệt ở 95%
  135. 4. Phần mềm thống kê xử lý số liệu ◼ Giao diện phần mềm ◼ Một số thao tác cơ bản ◼ Định dạng dữ liệu trong cột (biến)
  136. 5. Phương pháp bố trí thí nghiệm trong nghiên cứu ◼ Khái niệm liên quan đến vấn đề thí nghiệm ◼ Nguyên tắc bố trí thí nghiệm ◼ Những điều cần tuân thủ khi bố trí thí nghiệm ◼ Phương pháp bố trí thí nghiệm
  137. 5.1 Khái niệm liên quan đến vấn đề thí nghiệm ◼ Thí nghiệm ◼ Quan sát ◼ Yếu tố ◼ Nghiệm thức ◼ Đơn vị thí nghiệm (ĐVTN) ◼ Sai số thí nghiệm ◼ Sai số lấy mẫu
  138. Thí nghiệm ◼ quan sát hiện tượng trong điều kiện cĩ kiểm soát ◼ yếu tố quan sát được cho thay đổi (nồng độ, độ dài thời gian, các hợp chất khác nhau, ) và các trường hợp thay đổi được gọi tên bằng các nghiệm thức khác nhau.
  139. Thí nghiệm ◼ Những nguyên nhân khác khơng thuộc về các mục tiêu thí nghiệm cĩ thể ảnh hưởng đến kết quả được giữ ở mức bình thường và đồng nhất trong các nghiệm thức. ◼ Nguyên tắc chung của thí nghiệm là trên cơ sở quan sát và đánh giá các nghiệm thức, chọn ra nghiệm thức tối ưu và suy diễn, kết luận
  140. Thí nghiệm ◼ để thu đạt những kết quả mới ◼ để xác nhận hay bác bỏ kết quả thí nghiệm trước
  141. Thí nghiệm khảo sát ảnh hưởng của các chất phụ gia đến độ chắc sản phẩm: Lặp lại A B C D 1 55 45 65 25 2 50 40 60 55 3 65 35 55 50 4 40 65 65 40
  142. Quan sát ◼ là phương pháp dùng giác quan, thiết bị ◼ để ghi nhận hiện tượng
  143. Yếu tố ◼ là một biến số ảnh hưởng đến kết quả thu được ◼ là tập hợp nhiều nghiệm thức cùng một đặc tính
  144. Nghiệm thức ◼ Nghiệm thức là tình trạng khác nhau của một yếu tố mà muốn nghiên cứu. ◼ Nghiệm thức cĩ thể là nồng độ hĩa chất, giống vi sinh, thời gian xử lý, ◼ Số liệu thu thập từ thí nghiệm sẽ tăng lên rất nhiều nếu áp đặt nhiều nghiệm thức và thiếu hiểu biết cơ bản về yếu tố nghiên cứu.
  145. Nghiệm thức ◼ Hiểu biết về nguyên liệu thí nghiệm hay mức độ ảnh hưởng của yếu tố cĩ thể hạn chế các nghiệm thức khơng cần thiết. ◼ Hiểu biết về tác động của nồng độ của một hĩa chất, chỉ cần đặt các nghiệm thức trong phạm vi nồng độ tối thiểu và nồng độ tối đa cần thiết.
  146. Nghiệm thức ◼ tập hợp các điều kiện áp dụng cho các ĐVTN ◼ cĩ thể là mức của một yếu tố hay đối chứng
  147. Đơn vị thí nghiệm (ĐVTN) ◼ Đơn vị thí nghiệm là đơn vị cơ bản về mặt hình thức khi tổ chức một thí nghiệm. ◼ Đơn vị thí nghiệm cĩ thể là một lơ đất cĩ kích thước cố định được định trước, hoặc là một liếp trồng cây, một ống nghiệm,
  148. Đơn vị thí nghiệm (ĐVTN) ◼ là một thí nghiệm của sơ đồ bố trí ◼ là đơn vị nhỏ nhất
  149. Sai số lấy mẫu ◼ là sự biến thiên giữa các đơn vị lấy mẫu ◼ trong cùng một đơn vị thí nghiệm
  150. 5.2 Nguyên tắc bố trí thí nghiệm ◼ Nguyên tắc cơ bản ◼ Nguyên tắc không cơ bản
  151. Nguyên tắc cơ bản ◼ lặp lại ◼ ngẫu nhiên ◼ kiểm soát địa phương
  152. Sự lặp lại ◼ Mỗi đơn vị thí nghiệm phải hiện diện nhiều lần trong một cuộc thí nghiệm, đĩ là sự lặp lại. ◼ Một lơ thí nghiệm khơng lặp lại khơng đo được sự biến thiên, từ đĩ khơng thể tính toán được mức tin tưởng của các kết luận. ◼ Lặp lại càng nhiều, trung bình và sai số tiêu chuẩn tính cho mỗi nghiệm thức càng tin cậy.
  153. Sự lặp lại ◼ Thơng thường thực hiện việc lặp lại từ 4 ¸ 10 lần tùy theo từng loại thí nghiệm. ◼ Một thí nghiệm khơng lặp lại khơng phải là thí nghiệm mà chỉ là quan sát sơ bộ hay trình bày kết quả.
  154. Sự lặp lại ◼ hơn 1 DVTN trong 1 nghiệm thức ◼ là tập hợp hồn chỉnh của các NT Mục đích : ◼ thí nghiệm thống kê trở nên chính xác hơn ◼ giảm sai số một cách cĩ ý nghĩa
  155. Ngẫu nhiên ◼ bảo đảm tính hiệu lực của sự đánh giá ◼ làm cơng bằng sự khác biệt giữa các nghiệm thức ◼ cĩ thể tạo được từ các bảng số ngẫu nhiên
  156. Kiểm soát địa phương ◼ là phân nhĩm, phân lơ, phân khối ◼ giảm sai số thí nghiệm ◼ cực đại sự khác biệt giữa các khối ◼ cực tiểu sự khác biệt bên trong khối ◼ nghiệm thức được bố trí ngẫu nhiên trong khối
  157. Nguyên tắc khơng cơ bản ◼ độ nhạy ◼ tính trực giao ◼ sự nhầm lẫn
  158. 5.3 Những điều cần tuân thủ khi bố trí thí nghiệm • Xác định mục tiêu nghiên cứu • Xác định các yếu tố thí nghiệm • Xác định các lơ TN, DVTN • Xác định sự quan sát • Xác định mẫu thí nghiệm • Thực hiện thí nghiệm, phân tích số liệu, giải thích và báo cáo kết quả
  159. Xác định mục tiêu nghiên cứu ◼ Xác định phạm vi quần thể mà dự định sẽ áp dụng kết quả suy diễn từ cuộc thí nghiệm và lấy mẫu trong phạm vi của quần thể đĩ. ◼ Ví dụ thí nghiệm về tác động của chất thải trong phạm vi một nhà máy hay cả khu cơng nghiệp.
  160. Xác định mục tiêu nghiên cứu ◼ Đặt ra các câu hỏi cần giải đáp, thường là tìm kết luận về nồng độ, kết luận về một giả thiết ảnh hưởng của một yếu tố.
  161. Xác định mục tiêu nghiên cứu ◼ vấn đề quan trọng của việc tổ chức nghiên cứu ◼ quyết đinh thành cơng, thất bại của nghiên cứu. ◼ xuất phát từ địi hỏi của sản xuất ◼ cĩ đơn đặt hàng ◼ yêu cầu của cơ quan cấp kinh phí
  162. Xác định các yếu tố thí nghiệm Số yếu tố: ◼ một, hai, hay nhiều hơn ◼ khơng nên quá nhiều yếu tố trong một thí nghiệm. Bản chất của mỗi yếu tố: ◼ định tính hay định lượng ◼ cố định hay ngẫu nhiên
  163. Xác định các yếu tố thí nghiệm Mức độ của mỗi yếu tố: ◼ quan trọng cho yếu tố định lượng ◼ tổng nghiệm thức bằng tích số yếu tố với mức độ ◼ các NT phải phân bố ngẫu nhiên vào các lơ TN
  164. Xác định các lơ TN, DVTN ◼ mỗi nghiệm thức tương ứng với 1 lơ thí nghiệm. ◼ đơn vị thí nghiệm phải đồng nhất ◼ cần xác định số lặp lại hay ĐVTN cho mỗi NT
  165. Xác định sự quan sát ◼ quan sát được thực hiện để đánh giá ảnh hưởng ◼ NT xác định trước cũng như đơn vị đo lường ◼ trước khi phân tích phải kiểm chứng giả thuyết ◼ số liệu quan sát khơng phù hợp với giả thuyết thì phải biến đổi số liệu.
  166. Xác định mẫu thí nghiệm Mẫu thí nghiệm: ◼ phải mang tính ngẫu nhiên ◼ mang tính đại diện ◼ tránh chọn mẫu theo chủ quan người nghiên cứu
  167. Thực hiện thí nghiệm, phân tích số liệu, giải thích và báo cáo kết quả a. Việc thực hiện thí nghiệm: ◼ tránh sai số khi thu thập các số liệu. ◼ tránh sai số khi sao chép ◼ kiểm tra số liệu sao chép. ◼ Kiểm tra các điều kiện nghiên cứu
  168. Nguyên tắc khi thu thập số liệu ◼ Đo đếm kết quả đúng lúc và chính xác ◼ Chọn thời điểm đo hợp lý ◼ Hạn chế các điều kiện khách quan ◼ Loại bỏ các số liệu đột biến
  169. Đo đếm kết quả đúng lúc và chính xác ◼ Cần phải thực hiện đo đếm một cách đồng nhất giữa các nghiệm thức vì nếu đo khơng đồng nhất sẽ làm tăng sự sai biệt gây ra do các yếu tố khơng kiểm sốt và làm tăng sai số thí nghiệm. ◼ Khi đo đếm phải dùng một thiết bị đồng nhất, giữa các nghiệm thức phải cùng do một người hay một nhĩm đo.
  170. Chọn thời điểm đo hợp lý ◼ Thời điểm đo đếm cũng rất quan trọng, đơi khi ngồi các số liệu định lượng như tỷ lệ nảy mầm của hạt giống cịn cần biết thời điểm nảy mầm. Vì vậy phải đo đếm liên tục từ lúc hạt nẩy mầm cho đến khi hạt nảy mầm hồn tồn.
  171. Hạn chế các điều kiện khách quan ◼ Thí nghiệm đặt trên đất hay trong đất ◼ Thí nghiệm liên quan đến chất lỏng (nước thải) ◼ Lơ thí nghiệm đặt cạnh nhau cĩ thể bị sai lệch do nước chảy lan sang ơ bên cạnh. ◼ Ngồi ra giĩ, ánh sáng cĩ thể cĩ ảnh hưởng đến kết quả.
  172. Loại bỏ các số liệu đột biến ◼ Trong quá trình thí nghiệm kết quả đo được đơi khi cĩ những giá trị đột biến (tăng hoặc giảm) bất thường. ◼ Đối với những số liệu này chỉ ghi nhận và tìm cách giải thích nĩ chứ khơng mơ phỏng và sử dụng cho thí nghiệm.
  173. Thực hiện thí nghiệm, phân tích số liệu, giải thích và báo cáo kết quả Khi xử lý số liệu thí nghiệm cĩ thể cĩ nhiều cách: ◼ Sử dụng các phần mềm xử lý như Statgraphic, MSTATC, MINITAB, Cách này đơn giản, dễ sử dụng, ít bị nhầm lẫn trong tính toán.
  174. Thực hiện thí nghiệm, phân tích số liệu, giải thích và báo cáo kết quả ◼ Sử dụng các bảng tính điện tử như Lotus, Quattro, Excel, lập bảng tính theo các cơ sở tốn học thống kê thích hợp cho từng phương pháp. ◼ Cách này cĩ lợi cho các thí nghiệm địi hỏi kiểu bố trí đặc biệt như kiểu lơ phụ, khối đầy đủ.
  175. Thực hiện thí nghiệm, phân tích số liệu, giải thích và báo cáo kết quả b. Phân tích số liệu và giải thích kết quả: ◼ là quan trọng nhất trong nghiên cứu suy diễn ◼ phân tích kết quả thu thập trước khi ngưng TN
  176. Thực hiện thí nghiệm, phân tích số liệu, giải thích và báo cáo kết quả ◼ phân tích số liệu phải phù hợp với mơ hình tốn ◼ kết quả phải được giải thích trong điều kiện TN
  177. Thực hiện thí nghiệm, phân tích số liệu, giải thích và báo cáo kết quả ◼ phân tích số liệu phải phù hợp với mơ hình tốn ◼ kết quả phải được giải thích trong điều kiện TN ◼ các so sánh trung bình giữa các nghiệm thức ◼ sự tương tác giữa các yếu tố
  178. 5.4 Phương pháp bố trí thí nghiệm ◼ Lập kế hoạch các bứơc cần tiến hành để thu thập số liệu khoa học cho vấn đề đang nghiên cứu ◼ Bố trí thí nghiệm giúp tìm ra ảnh hưởng của các yếu tố liên quan đến đại lượng đang được quan tâm
  179. Bố trí thí nghiệm ◼ Yếu tố thí nghiệm ◼ Kiểu bố trí thí nghiệm
  180. Yếu tố thí nghiệm ◼ Thí nghiệm một yếu tố ◼ Thí nghiệm nhiều yếu tố
  181. Thí nghiệm một yếu tố ◼ cĩ một yếu tố chính thay đổi ◼ các yếu tố khác được giữ cố định
  182. Thí nghiệm nhiều yếu tố ◼ Thí nghiệm nhiều yếu tố được tổ chức để nghiên cứu ảnh hưởng của hai hay nhiều yếu tố cùng lúc
  183. Kiểu bố trí thí nghiệm ◼ Hồn tồn ngẫu nhiên (CRD - Completely randomized design) ◼ Khối ngẫu nhiên đầy đủ (RCBD - Randomzied complete block design) ◼ Bình phương Latinh (LSD - Latin Squared design)
  184. 6. Xử lý số liệu thí nghiệm so sánh 2 mẫu ◼ Giả thuyết khơng Ho (Null Hypothesis) giả thuyết được đặt ra từ đầu với mục đích trắc nghiệm xem nĩ đúng hay sai dựa vào kết quả thí nhgiệm ◼ Giả thuyết chọn lựa H1 (Alternative Hypothesis) Là giả thuyết ngược lại Ho nghĩa là khi bác bỏ Ho thì chấp nhận H1
  185. 7. Xử lý số liệu thí nghiệm đơn yếu tố ◼ Thí nghiệm 1 yếu tố hồn tồn ngẫu nhiên ◼ Thí nghiệm 1 yếu tố khối ngẫu nhiên đầy đủ ◼ Thí nghiệm 1 yếu tố bình phương Latinh ◼ Xử lý số liệu thí nghiệm 1 yếu tố
  186. Thí nghiệm một yếu tố ◼ Thí nghiệm trong đĩ chỉ xem xét và đi đến kết luận đối với giả thiết về một yếu tố, các yếu tố khác cĩ ảnh hưởng đến kết quả đều phải được thực hiện đồng nhất trong các đơn vị thí nghiệm gọi là thí nghiệm một yếu tố.
  187. Thí nghiệm một yếu tố ◼ Ví dụ nghiên cứu tác động của biện pháp làm đất trong trồng trọt, chúng ta chỉ đặt ra các nghiệm thức đối với biện pháp làm đất cịn các yếu tố như lượng phân bĩn, giống cây trồng, lượng thuốc trừ sâu đều đồng nhất trong các nghiệm thức.
  188. 7.1 Thí nghiệm 1 yếu tố hồn tồn ngẫu nhiên ◼ NT phân phối ngẫu nhiên hồn tồn ◼ kiểu thí nghiệm cơ bản, dễ phân tích và bố trí. ◼ điều kiện ngoại cảnh, vật liệu ĐVTN đồng nhất ◼ ít xảy ra trong thực tế sản xuất ◼ thích hợp trong phịng thí nghiệm
  189. Thuận lợi: ◼ mềm dẻo về số nghiệm thức và số lần lặp lại. ◼ số lần lặp lại cĩ thể khác nhau ở các nghiệm thức ◼ phân tích thống kê đơn giản
  190. Bất lợi: ◼ sai số TN gồm sự biến thiên giữa các ĐVTN ◼ địi hỏi vật liệu làm thí nghiệm phải đồng nhất
  191. 7.2 Thí nghiệm 1 yếu tố khối ngẫu nhiên đầy đủ ◼ điều kiện ngoại cảnh khơng được kiểm sốt ◼ Điều kiện ngoại cảnh tác động làm sai số của thí nghiệm tăng lên
  192. Phải bố trí làm sao giảm được ảnh hưởng của yếu tố ngoại cảnh: ◼ ĐVTN của NT hiện diện trong cùng khối ◼ Đơn vị thí nghiệm trong khối chịu ảnh hưởng như nhau ◼ Các NT bố trí ngẫu nhiên vào các ĐVTN ◼ Làm giảm sai số ngẫu nhiên giữa các khối ◼ Tạo cơ hội đồng đều hơn khi so sánh các nghiệm thức
  193. Lưu ý: ◼ Các đơn vị thí nghiệm phải được giữ cùng 1 điều kiện ◼ Nếu cĩ thay đổi phải thay đổi trên tồn khối
  194. Thuận lợi: ◼ Mỗi NT hiện diện 1 lần trong mỗi khối ◼ Mỗi khối cĩ đầy đủ tất cả các nghiệm thức ◼ Dễ dàng tính kết quả. ◼ Chính xác hơn kiểu hồn tồn ngẫu nhiên. ◼ Khơng bị hạn chế ở số nghiệm thức hay số khối.
  195. Bất lợi: ◼ Khi cĩ nhiều biến thiên giữa các đơn vị thí nghiệm trong một khối sẽ cĩ sai số thí nghiệm lớn
  196. 7.3 Thí nghiệm 1 yếu tố bình phương Latinh ◼ Các vật liệu trên đơn vị thí nghiệm khơng đồng nhất ◼ Thí nghiệm cĩ tác động của hai yếu tố ngoại cảnh. ◼ Số lần lặp lại bằng số nghiệm thức ◼ Số đơn vị thí nghiệm bằng số nghiệm thức bình phương.
  197. 7.3 Thí nghiệm 1 yếu tố bình phương Latinh ◼ Đơn vị thí nghiệm được xếp theo hình vuơng cĩ hàng và cột ◼ Mỗi hàng và mỗi cột đều cĩ đủ các nghiệm thức ◼ Mỗi nghiệm thức xuất hiên 1 lần trong mỗi hàng và cột
  198. 7.4 Xử lý số liệu thí nghiệm 1 yếu tố ◼ Phân tích phương sai ◼ Ước lượng và kiểm định giả thiết thống kê ◼ So sánh nhiều giá trị trung bình ◼ Phân tích, đánh giá kết quả và trình bày báo cáo thí nghiệm
  199. Phân tích phương sai ◼ ANOVA đo lường sự khác biệt chung giữa các trị trung bình mà khơng đo lường sự khác biệt giữa các trị trung bình cụ thể nào đĩ
  200. Ước lượng và kiểm định giả thiết thống kê ◼ Cơ sở lý thuyết của ước lượng điểm và ước lượng khoảng tin cậy ◼ Trắc nghiệm giả thiết thống kê
  201. Cơ sở lý thuyết của ước lượng điểm và ước lượng khoảng ◼ Nghiên cứu trên mẫu ◼ Muốn biết những đặc trưng của mẫu là của tổng thể, cần phải ước lượng ◼ Thơng thường ước lượng số trung bình và tỷ lệ trung bình của tổng thể
  202. Ứớc lượng điểm ◼ Thơng báo trung bình của tổng thể là một giá trị cụ thể ◼ Mỗi mẫu là ước lượng điểm của trung bình tổng thể ◼ Biến thiên từ mẫu này đến mẫu khác là khác nhau nên ước lượng điểm ít chính xác
  203. Ứớc lượng điểm ◼ Sau khi xây dựng được hàm hồi quy giữa x và y, sử dụng nó để phát triển một ước lượng điểm của giá trị trung bình y đối với giá trị x nhất định hoặc dự đoán một giá trị nhất định của y tương ứng với một giá trị nhất định của x.
  204. Ứớc lượng điểm ◼ Tuy nhiên, ước lượng điểm không cung cấp một thông tin nào về độ chính xác có liên quan đến một ước lượng. ◼ Vì thế cần phải phát triển một ước lượng khoảng.
  205. Ước lượng khoảng tin cậy Có hai kiểu ước lượng khoảng: ◼ ước lượng khoảng tin cậy (khoảng tin cậy của giá trị trung bình ytb đối với giá trị cụ thể của x) ◼ ước lượng khoảng dự đoán (ước lượng khoảng của 1 giá trị y nhất định đối với một giá trị x nhất định)
  206. Sử dụng hàm hồi quy ước lượng để ước lượng và dự đoán Giới hạn khoảng dự đoán y = f(x) Giới hạn khoảng tin cậy Khoảng tin cậy, khoảng dự đoán của y tương ứng với giá trị x nhất định
  207. Trắc nghiệm giả thiết thống kê ◼ Kiểm định ý nghĩa thống kê là khẳng định mối quan hệ tìm thấy được trong các dữ liệu của mẫu cũng cĩ thể được tìm thấy trong dân số ◼ Cần phải xác định được xác xuất (cơ may) để tìm ra được mối quan hệ trong mẫu khi quan hệ đĩ khơng cĩ trong dân số.
  208. Trắc nghiệm giả thiết thống kê ◼ Xác xuất để tìm ra một quan hệ trong mẫu nghiên cứu được gọi là mức ý nghĩa của quan hệ. ◼ Mức ý nghĩa thể hiện từ 0 đến 1 ◼ Xác xuất càng nhỏ thì cơ may xuất hiện càng ít và ngược lại
  209. Kiểm định ý nghĩa thống kê ◼ Theo qui ước, một xác xuất p (probability) ≤ 0,05 là đủ lý lẻ để kết luận với ý nghĩa thống kê một quan hệ nào đĩ. ◼ Mức ý nghĩa thống kê được thể hiện bằng biểu thức p<0,05 p<0,01 hoặc p<0,001
  210. So sánh nhiều giá trị trung bình ◼ Sau khi phân tích ANOVA với kết quả cĩ ảnh hưởng của yếu tố thí nghiệm đến chỉ tiêu quan sát, cần phải so sánh tất cả các cặp trung bình của các nghiệm thức ◼ Trắc nghiệm LSD (least significant difference)
  211. So sánh trung bình giữa các nghiệm thức Multiple Range Tests for dochac by tylebanhmi Method: 95,0 percent LSD kichco Count Mean Homogeneous Groups 2 3 1,54367 X 4 3 1,663 X 6 3 1,75867 X Contrast Difference +/- Limits 2 - 4 *-0,119333 0,112609 2 - 6 *-0,215 0,112609 4 - 6 -0,0956667 0,112609 * denotes a statistically significant difference.
  212. Phân tích, đánh giá kết quả và trình bày báo cáo thí nghiệm ◼ Kết quả phân tích xử lý số liệu giúp quyết định đúng đắn vấn đề đang nghiên cứu để có những cải tiến thích hợp
  213. Phân tích, đánh giá kết quả và trình bày báo cáo về thí nghiệm Tỷ lệ bánh mì vụn (%) Tham số thống kê 2 4 6 n 3 3 3 X 1,54a 1,66b 1,75b SD 0,08 0,03 0,04 (a, b chỉ sự khác biệt có ý nghĩa thống kê ở mức tin cậy 95%)
  214. 8. Xử lý số liệu thí nghiệm đa yếu tố ◼ Trường hợp cần nghiên cứu ảnh hưởng của nhiều yếu tố đến kết quả ◼ Trong thí nghiệm nhiều tố, khơng chỉ biết ảnh hưởng của từng yếu tố mà cịn cĩ tác dụng tương hỗ của giữa các yếu tố ◼ Tương tác là tác dụng cĩ thêm vì ảnh hưởng đồng thời của 1 hoặc nhiều yếu tố
  215. Bố trí thí nghiệm đa yếu tố ◼ Thí nghiệm 2 yếu tố hồn tồn ngẫu nhiên ◼ Thí nghiệm 2 yếu tố khối ngẫu nhiên đầy đủ ◼ Thí nghiệm 2 yếu tố bình phương Latinh
  216. Xử lý số liệu thí nghiệm 2 yếu tố ◼ Phân tích phương sai ◼ Kiểm định ý nghĩa thống kê ◼ So sánh nhiều giá trị trung bình ◼ Phân tích, đánh giá kết quả và trình bày báo cáo thí nghiệm
  217. Phân tích phương sai đa biến ◼ Phân tích phương sai cho đa biến độc lập (nhiều yếu tố-multifactor analysis of variance ) cho phép xem xét cùng một lúc tác động của nhiều biến độc lập và tác động của sự kết hợp giữa các biến này với biến phụ thuộc
  218. 9. Xử lý số liệu thí nghiệm hồi quy và tương quan tuyến tính ◼ Khái niệm hồi quy và tương quan ◼ Hồi quy và tương quan tuyến tính đơn biến ◼ Hồi quy và tương quan tuyến tính đa biến
  219. 9.1 Khái niệm hồi quy và tương quan ◼ Phân tích hồi qui ◼ Đồ thị phân tán ◼ Phân tích tương quan
  220. Phân tích hồi qui ◼ Trong nhiều trường hợp cĩ hai hoặc nhiều biến số cĩ quan hệ thì việc tìm mơ hình và giải thích mối quan hệ này là quan trọng, sẽ giúp cho việc dự đoán, tối ưu hoặc kiểm sốt quá trình
  221. Phân tích hồi qui ◼ giả sử biến phụ thuộc y cĩ quan hệ với n biến độc lập, thì mối quan hệ được biểu diễn bởi một mơ hình tốn học gọi là phương trình hồi qui: y = f(x1, x2, xn)
  222. Phân tích hồi qui ◼ Thơng thường việc phân tích ANOVA của một thí nghiệm giúp xác định yếu tố nào là quan trọng, sau đĩ hồi qui giúp xây dựng mơ hình định lượng giữa yếu tố phụ thuộc với các yếu tố quan trọng đĩ
  223. Đồ thị phân tán Đồ thị phân tán giúp nhìn thấy rõ mối quan hệ giữa 2 biến Biến phụ thuộc Biến độc lập 0
  224. Đồ thị phân tán Biến phụ thuộc Quan hệ dương là mối quan hệ mà trong đĩ các giá trị lớn nhất của một biến nào đĩ gắn kết Biến 0 độc lập với những giá trị lớn Quan hệ dương nhất của biến cịn lại.
  225. Đồ thị phân tán Biến phụ thuộc ◼ Quan hệ âm là mối quan hệ mà trong đĩ các giá trị lớn nhất của một biến nào đĩ gắn kết với những giá Biến trị nhỏ nhất của biến 0 độc lập Quan hệ âm cịn lại.
  226. Đồ thị phân tán ◼ Quan hệ tương quan cong là những mối quan hệ mà trong đĩ các trường hợp mang những giá trị lớn và nhỏ trong biến độc lập cũng cĩ những giá trị tương ứng trong biến phụ thuộc
  227. Phân tích tương quan ◼ Mức độ của mối quan hệ được đo lường bởi độ tập trung của các điểm dữ kiện trên đường thẳng hồi qui trong đồ thị phân tán
  228. Phân tích tương quan ◼ Nếu các trường hợp tập trung gần đường hồi qui sẽ cĩ mối quan hệ mạnh mẽ ◼ Nếu các trường hợp phân tán xa đường hồi qui sẽ cĩ mối quan hệ yếu
  229. Lạm dụng phân tích tương quan ◼ Sự khơng thích hợp giữa dữ kiện và mục đích ◼ Sự khái quát kết quả quá giới hạn ◼ Sử dụng số liệu từ các lần lặp lại riêng lẻ thay vì sử dụng trung bình của các lần lặp lại
  230. Sự khơng thích hợp giữa dữ kiện và mục đích ◼ sự diễn đạt kết quả của tương quan hồi quy phụ thuộc rất lớn vào kiểu dữ kiện đang sử dụng Ví dụ: sản lượng lúa và hàm lượng protein trong hạt sẽ cĩ sự tương quan khác nhau trong các nguồn số liệu khác nhau.
  231. Sự khơng thích hợp giữa dữ kiện và mục đích ◼ Nếu data lấy từ thí nghiệm với mục đích tìm giống lúa cho năng suất cao thì tương quan đĩ cĩ thể là một tương quan âm (sản lượng cao nhưng hàm lượng protein khơng cao).
  232. Sự khơng thích hợp giữa dữ kiện và mục đích ◼ Ngược lại nếu xử lý từ số liệu thí nghiệm tìm cơng thức bĩn phân đạm tối ưu, tương quan giữa sản lượng lúa và hàm lượng protein trong hạt là tương quan dương. ◼ Do đĩ nếu khơng kiểm sốt nguồn gốc số liệu phân tích hồi quy cĩ thể dẫn đến những kết luận sai lầm hoặc trái ngược nhau.
  233. Sự khái quát kết quả quá giới hạn ◼ áp dụng hàm hồi quy ngồi phạm vi dữ kiện đã được sử dụng của biến số là một trong những lạm dụng thường xảy ra.
  234. Sự khái quát kết quả quá giới hạn ◼ Loại thứ hai là sử dụng kết quả phân tích hồi quy tương quan như là một phương pháp thay thế cho việc đo đếm thu thập số liệu, thay vì đo đếm số liệu lại dùng hồi quy tương quan để suy diễn số liệu cho một yếu tố nào đĩ trong nghiên cứu đưa đến những kết quả tai hại.
  235. Sự khái quát kết quả quá giới hạn ◼ Tuy nhiên trong trường hợp tương quan tuyến tính của một nhân tố khĩ đo và một nhân tố dễ đo lập với các mẫu lớn, ta cĩ thể sử dụng dữ kiện của nhân tố dễ đo để suy diễn.
  236. Sử dụng số liệu từ các lần lặp lại riêng lẻ thay vì sử dụng trung bình của các lần lặp lại khi phân tích tương quan hồi quy cho dữ liệu từ các thí nghiệm lặp lại các nghiệm thức cĩ 2 cách sử dụng dữ kiện: ◼ sử dụng dữ kiện từ các nghiệm thức riêng lẻ ◼ sử dụng dữ kiện từ trung bình của các lần lặp lại trong mỗi nghiệm thức.
  237. Sử dụng số liệu từ các lần lặp lại riêng lẻ thay vì sử dụng trung bình của các lần lặp lại ◼ nên dùng dữ kiện từ trung bình của các lần lặp lại trong mỗi nghiệm thức vì biến thiên giữa các lần lặp lại khơng nên tham gia vào đánh giá tương quan đang nghiên cứu.
  238. Sử dụng số liệu từ các lần lặp lại riêng lẻ thay vì sử dụng trung bình của các lần lặp lại ◼ Cĩ những trường hợp ngoại lệ cĩ thể dùng dữ kiện từ các lần lặp lại riêng lẻ, chẳng hạn liên hệ giữa sản lượng và chỉ số diện tích lá lúa, hoặc thu thập số liệu từ các khoảng cách cấy khác nhau
  239. Kiểu sai lệch khi diễn đạt kết quả của hồi quy đơn giản ◼ Số liệu giả ◼ Ngộ nhận giữa nguyên nhân và hậu quả ◼ Phân biệt các nhĩm biến số trong phân tích hồi qui và tương quan
  240. Số liệu giả ◼ số liệu mà phân bố của nĩ trong phạm vi của biến độc lập hơi bất thường. ◼ dữ kiện chỉ tập trung ở hai cực cịn khoảng giữa khơng cĩ, trong trường hợp này xác lập hồi quy đơn thường cĩ kết quả với hệ số tương quan cao.
  241. Ngộ nhận giữa nguyên nhân và hậu quả ◼ hệ số tương quan r cĩ ý nghĩa tức là hiện diện một mối quan hệ nhân quả giữa hai biến số. ◼ khi phân tích tương quan cĩ thể định lượng mức độ kết hợp giữa hai đặc tính cũng khơng thể và khơng nên đưa ra lý do cho sự kết hợp đĩ.
  242. Phân biệt các nhĩm biến số trong phân tích hồi qui và tương quan Cĩ 03 nhĩm biến số thường được ghi nhận trong nghiên cứu là: ◼ Yếu tố nghiệm thức như mức bĩn phân, thuốc trừ sâu, chủng loại cây, Các số liệu này thường thu thập trong thực tế hoặc là mục tiêu ưu tiên trong các thí nghiệm.
  243. Phân biệt các nhĩm biến số trong phân tích hồi qui và tương quan ◼ Yếu tố mơi trường như lượng mưa, độ chiếu sáng, Các yếu tố này biểu thị phần tác động của mơi trường khơng nằm trong sự kiểm soát của nhà nghiên cứu.
  244. Phân biệt các nhĩm biến số trong phân tích hồi qui và tương quan ◼ Yếu tố hệ quả (phản hồi) biểu thị tính chất vật lý và sinh học của đơn vị thí nghiệm.
  245. Phân biệt các nhĩm biến số trong phân tích hồi qui và tương quan Yếu tố này được dự kiến chịu sự tác động của các nghiệm thức đã khảo sát, cĩ thể cĩ 02 loại: + Loại đặc trưng cho sự thay đổi sinh học như năng suất hạt, chiều cao cây, + Loại đặc trưng cho thay đổi mơi trường như cơn trùng, cháy rừng, độ phì của đất,
  246. Sự kết hợp giữa nghiệm thức, yếu tố mơi trường và yếu tố phản hồi thường được đánh giá trong nghiên cứu ◼ Sự liên hệ giữa các biến hệ quả (phản hồi) ◼ Sự liên hệ giữa hệ quả và nghiệm thức ◼ Sự liên hệ giữa hệ quả và mơi trường
  247. Sự liên hệ giữa các biến hệ quả (phản hồi) ◼ các biến hệ quả trong thí nghiệm mơi trường thường chịu tác động của các nghiệm thức. ◼ Các đặc tính này thường được đo cùng lúc và sự liên hệ của chúng thường cung cấp các thơng tin hữu ích về cách thức mà các nghiệm thức ảnh hưởng đến hệ quả.
  248. Sự liên hệ giữa hệ quả và nghiệm thức ◼ khi các nghiệm thức được định lượng như lượng đạm trên ha hay số cây trên m2, cĩ thể diễn đạt sự liên hệ giữa nghiệm thức và hệ quả. Từ liên hệ đĩ cĩ thể xác định hệ quả khơng chỉ ở mức các nghiệm thức thí nghiệm mà cịn cĩ thể suy diễn cho các mức trung gian.
  249. Sự liên hệ giữa hệ quả và mơi trường: ◼ khi bố trí thí nghiệm trên nhiều diện tích, mùa vụ trong nhiều năm khác nhau cĩ thể xác lập liên hệ giữa các yếu tố mơi trường như nhiệt độ, lượng mưa, độ chiếu sáng, độ phì đất, với hệ quả như năng suất. Các thơng tin như vậy rất quan trọng cho việc nghiên cứu bảo vệ mơi trường, cho sản xuất nơng nghiệp.
  250. 6.2 Hồi quy và tương quan tuyến tính đơn biến ◼ Hồi qui và đường thẳng bình phương nhỏ nhất ◼ Đường thẳng hồi qui ◼ Mơ hình hồi qui ◼ Hàm hồi qui
  251. Hồi qui và đường thẳng bình phương nhỏ nhất Biến phụ thuộc Đường thẳng cực tiểu hoá tổng các độ lệch bình phương giữa đường thẳng với các điểm số thuộc biến phụ thuộc 0 Biến độc lập
  252. Đường thẳng hồi qui ◼ Đường thẳng hồi qui dự đoán một cách chính xác điểm số trong biến phụ thuộc của một trường hợp nào đĩ khi biết được điểm số trong biến độc lập của trường hợp đĩ ◼ Một đường thẳng mơ tả mối quan hệ nào đĩ gọi là hồi qui tuyến tính
  253. Mô hình hồi qui ◼ Hàm số mô tả quan hệ giữa y với x và sai số € được gọi là mô hình hồi quy. ◼ Mô hình hồi quy tuyến tính đơn có dạng: y = ß1x + ß0 + € ◼ Trong mô hình hồi quy tuyến tính đơn, ß1 và ß0 là các tham số của mô hình, € là biến ngẫu nhiên biểu thị sai số của mô hình
  254. Mô hình hồi qui ◼ Một trong những giả định là trị số kỳ vọng của € bằng zero, nghĩa là E(€) = 0.
  255. Hàm hồi qui ◼ Hàm số mô tả giá trị trung bình của y có quan hệ với x được gọi là hàm hồi quy. ◼ Hàm hồi quy đối với hồi quy tuyến tính đơn có dạng: E(y)= ß1x + ß0
  256. Hàm hồi qui ◼ Đồ thị của hàm hồi quy tuyến tính đơn là một đường thẳng, trong đó ß0 là điểm chặn của đường hồi quy, ß1 là độ dốc của đường hồi quy. ◼ Khi biết các tham số ß1 và ß0 có thể sử dùng hàm hồi qui để tính giá trị trung bình y đối với giá trị x nhất định.
  257. Hàm hồi qui ◼ Nhưng trong thực tế chưa biết các tham số ß1 và ß0, do đó chúng ta phải ước lượng các tham số này từ các quan sát mẫu.
  258. Hàm hồi qui ◼ Các thống kê mẫu b1 và b0 được xem như là các ước lượng tương ứng của ß1 và ß0 khi thay thế b1 và b0 tương ứng cho ß1 và ß0 chúng ta nhận được hàm hồi quy ước lượng có dạng: y’ = b1x + b0
  259. Hàm hồi qui Với: ◼ b0 là điểm chặn và b1 là độ dốc của đường hồi quy ước lượng, ◼ y’ là giá trị ước lượng (kỳ vọng) của y tương ứng với một giá trị x nhất định.
  260. Hàm hồi qui ◼ Các tham số b1 và b0 được tính theo phương pháp bình phương nhỏ nhất. ◼ Phương pháp bình phương nhỏ nhất sử dụng các số liệu của mẫu để tính các tham số b1 và b0 của hàm hồi quy ước lượng.
  261. Hàm hồi qui ◼ Bản chất của phương pháp này là làm nhỏ nhất tổng bình phương các sai lệch giữa giá trị của biến yi và giá trị ước lượng của biến yi’
  262. Tính các thơng số của đường thẳng hồi quy 2 ◼ Để tổng các (yi-yi’) nhỏ nhất thì b1 và b0 được tính theo công thức: (xi − xtb )( yi − ytb ) b1 = 2 (xi − xtb ) b0 = ytb − b1xtb
  263. Tính các thơng số của đường thẳng hồi quy ◼ n = tổng số quan sát. ◼ xi = giá trị của biến độc lập tương ứng với quan sát i. ◼ yi = giá trị của biến phụ thuộc tương ứng với quan sát i. ◼ xtb = giá trị trung bình của biến độc lập. ◼ ytb = giá trị trung bình biến phụ thuộc
  264. Tính hệ số xác định r2 ◼ Hệ số xác định là số đo mức độ phù hợp của hàm hồi quy ước lượng ◼ Hiệu số (yi-yi’) gọi là sai lệch của quan sát i.
  265. Tính hệ số xác định r2 ◼ Tổng bình phương các sai lệch hoặc sai số (kí hiệu SSE) là một đại lượng được tối thiểu hoá phương pháp bình phương nhỏ nhất 2 SSE = (yi − y'i )
  266. Tính hệ số xác định r2 ◼ Giá trị SSE đo đạc sai số khi sử dụng hàm hồi quy ước lượng để ước lượng các giá trị của biến phụ thuộc yi ở mẫu.
  267. Tính hệ số xác định r2 ◼ Nếu sử dụng giá trị ytb của mẫu để ước lượng yi thì sai số ước lượng là: yi – ytb 2 ◼ Đại lượng  ( y i − y tb ) được gọi là tổng bình phương toàn bộ: 2 SST = (yi − ytb )
  268. Tính hệ số xác định r2 ◼ SST đo đạc sự phân bố của các yi xung quanh ytb ◼ SSE đo đạc sự phân bố của các yi xung quanh y’
  269. Tính hệ số xác định r2 ◼ Để đo đạc giá trị y’ trên đường hồi quy ước lượng cách xa ytb bao nhiêu, thì dùng đại lượng tổng bình phương do hồi quy: 2 SSR = (y'−ytb )
  270. Tính hệ số xác định r2 ◼ Giữa SST, SSE và SSR có mối quan hệ: SST=SSR+SSE
  271. Tính hệ số xác định r2 ◼ Nếu tất cả các điểm quan sát yi đều nằm trên đường y’ thì hàm hồi quy ước lượng phù hợp hoàn toàn. ◼ Điều này có nghĩa yi - yi’ = 0 hay SSE = 0, và vì SST = SSE + SSR nên để hàm hồi quy ước lượng phù hợp hoàn toàn thì SSR/SST = 1
  272. Tính hệ số xác định r2 ◼ Như vậy, mức phù hợp của hàm hồi quy ước lượng phụ thuộc vào SSE lớn hay nhỏ. ◼ Tỷ số SSR/SST được gọi là hệ số xác định, ký hiệu r2 2 ◼ r lấy giá trị từ 0 đến 1.
  273. Tính hệ số xác định r2 2 ◼ hệ số xác định r cho biết số tỷ lệ sai biệt mà chúng ta đã giảm được khi dự đoán điểm số của biến phụ thuộc bằng cách dựa vào điểm số của biến độc lập bienthienduocgiaithich r 2 = bienthienchung
  274. Tính hệ số tương quan (r) ◼ Căn bậc hai của hệ số xác định được gọi là hệ số tương quan (ký hiệu r) ◼ r lấy giá trị từ -1 đến +1.
  275. Tính hệ số tương quan (r) ◼ Hệ số tương quan r đo lường một cách chính xác mức độ tập trung của các điểm số trên suốt chiều dài của đường hồi qui
  276. Tính hệ số tương quan (r) ◼ r = 0 thì x và y không có tương quan ◼ r = -1 thì x và y có quan hệ tuyến tính âm rất chặt chẽ, có nghĩa các điểm quan sát nằm trên đường thẳng có độ dốc âm. ◼ r = +1 thì x và y có quan hệ tuyến tính dương rất chặt chẽ, có nghĩa các điểm quan sát nằm trên đường thẳng có độ dốc dương
  277. Tính hệ số tương quan (r) Qui chiếu đánh giá r: ◼ 0,0 < r < 0,3 tương quan yếu ◼ 0,3 < r < 0,5 tương quan vừa ◼ 0,5 < r < 0,7 tương quan tương đối chặt ◼ 0,7 < r < 0,9 tương quan chặt ◼ 0,9 < r < 1,0 tương quan rất chặt
  278. Kiểm định mức ý nghĩa ◼ Trong hàm hồi quy tuyến tính đơn, E(y)= ß1x + ß0 nếu ß1 = 0 thì E(y)= ß0 trong trường hợp này ytb không phụ thuộc vào x, ◼ ngược lại nếu ß1 ≠ 0 thì x và y có quan hệ với nhau. ◼ Thực chất của kiểm định mức ý nghĩa là kiểm định giả thiết H0: ß1 = 0.
  279. Kiểm định mức ý nghĩa ◼ Kiểm định t: là xác định hệ số ß1 có khác zero hay không. ◼ Kiểm định F: dựa trên phân bố xác xuất F, được sử dụng để kiểm định mức ý nghĩa trong hồi quy
  280. Kiểm định mức ý nghĩa ◼ Với hàm hồi quy tuyến tính một biến, kiểm định F cũng đưa ra cùng kết luận như kiểm định t, nhưng hàm hồi quy đa tuyến tính (từ hai biến độc lập trở lên) thì chỉ có kiểm định F được sử dụng.
  281. Phân tích các sai lệch ◼ Những quan sát ngoại lai là những số không phù hợp với khuynh hướng biến đổi của các tập hợp quan sát khác hoặc nằm cách xa trị trung bình của các quan sát khác. ◼ Để loại bỏ các số ngoại lai, có thể sử dụng đồ thị phân tán hoặc các sai lệch chuẩn.
  282. Phân tích các sai lệch ◼ Nếu một quan sát phân tán xa trị trung bình của các quan sát khác thì sai lệch chuẩn của nó sẽ lớn hơn về trị tuyệt đối. ◼ Nói chung, những giá trị quan sát có sai lệch chuẩn lớn hơn +2 và nhỏ hơn -2 là những số ngoại lai
  283. Hồi quy và tương quan phi tuyến tính đơn biến (Simple Nonlinear) Các tính trạng cĩ quan hệ với nhau theo những đường cong: ◼ Parabol (hàm bậc 2) ◼ Hình chữ S (hàm bậc 3)
  284. Hồi quy và tương quan phi tuyến tính đơn biến (Simple Nonlinear) Polynomial Regression Analysis Dependent variable: y Standard T Parameter Estimate Error Statistic P-Value CONSTANT 9,57463 4,72639 2,02578 0,0703 x -4,09341 4,62313 -0,885419 0,3967 x^2 2,12537 1,03897 2,04565 0,0680 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 215,755 2 107,878 31,20 0,0001 Residual 34,5773 10 3,45773 Total (Corr.) 250,332 12 R-squared = 86,1875 percent R-squared (adjusted for d.f.) = 83,4249 percent y = 9,57463-4,09341*x + 2,12537*x^2
  285. 6.3. Hồi quy và tương quan tuyến tính đa biến ◼ Mơ hình hồi qui mở rộng ◼ Hồi qui và tương quan bội
  286. Mô hình hồi qui mở rộng Đồ thị phân tán 3 chiều: Biến phụ thuộc
  287. Mặt phẳng hồi qui trong đồ thị 3 chiều Biến phụ thuộc
  288. Hồi qui và tương quan bội ◼ Phân tích hồi quy đa biến là nghiên cứu biến phụ thuộc y có quan hệ với 2 hay nhiều biến độc lập hay không.
  289. Hồi qui và tương quan bội ◼ Mô hình hồi quy đa biến có dạng: y = ßo + ß1x1 + ß2x2 + + ßnxn + €, Với: ßo ß1 ß2 ßn là các tham số € là sai số của mô hình.
  290. Hồi qui và tương quan bội ◼ Trong phân tích hồi quy, biến phản hồi thay thế cho biến độc lập, ◼ hồi quy đa biến tạo ra một mặt phẳng, nên đồ thị của nó gọi là mặt phẳng phản hồi
  291. Hồi qui và tương quan bội ßo * * Giá trị y khi x1 = x1 và x2 Mặt phẳng tương ứng với E(y) = ßo + ß1x1 + ß2x2 * * E(y) khi x1 = x1 và x2 đồ thị hàm hồi quy để phân tích hồi quy đa biến
  292. Hồi qui và tương quan bội ◼ Hàm hồi quy đa biến có dạng: E(y) = ßo + ß1x1 + ß2x2 + + ßnxn ◼ Hàm hồi quy đa biến uớc lượng có dạng: y’ = b0 + b1x1 + b2x2 + + bnxn
  293. Hồi qui và tương quan bội ◼ Trong hồi quy tuyến tính đơn, hệ số b1 là ước lượng sự thay đổi của y theo một đơn vị thay đổi của x. ◼ Trong hồi quy đa tuyến tính, hệ số bi là ước lượng sự thay đổi của y tương ứng với một đơn vị thay đổi của xi khi tất các biến độc lập khác là hằng số.
  294. Hồi qui và tương quan bội ◼ SST, SSR và SSE có mối quan hệ: SST = SSR + SSE ◼ SST là tổng bình phương toàn bộ: 2 SST = (yi − ytb )
  295. ◼ Với SSE là tổng bình phương do sai số 2 SSE = (yi − y') ◼ SSR là tổng bình phương do hồi quy 2 SSR = (y'−ytb )
  296. Hồi qui và tương quan bội SSR ◼ Hệ số xác định đa biến R 2 = SST giải thích tỷ lệ biến thiên của biến phụ thuộc y. ◼ Hệ số tương quan đa biến của mẫu R giải thích cường độ quan hệ giữa y với các biến độc lập.
  297. Mơ hình hồi qui đa biến (hồi qui bội): ◼ Hệ số tương quan bộ phận sẽ đo lường được mức độ và hướng của một quan hệ nào đĩ đồng thời vẫn kiểm soát ảnh hưởng của một hay nhiều biến khác.
  298. Hệ số tương quan bội ◼ Là một thống kê đo lường ảnh hưởng chung (ảnh hưởng kết hợp) của một tổng thể các biến độc lập đối với một biến phụ thuộc ◼ Cho biết độ lệch giữa các điểm dữ kiện so với mặt phẳng hồi qui ◼ Luơn luơn là số dương (0 đến 1)
  299. Phương trình hồi qui bội Y = a + b1X1 + b2X2 Y là điểm số được dự đoán của biến phụ thuộc a giao điểm giữa mặt cắt trục của biến phụ thuộc b1 độ dốc của mặt phẳng so với biến độc lập x1 X1 là điểm số của biến độc lập 1 b2 độ dốc của mặt phẳng so với biến độc lập x2 X2 là điểm số của biến độc lập 2
  300. b1 và b2: ◼ Là các hệ số hồi qui khơng chuẩn hoá ◼ Là những độ dốc bộ phận ◼ mơ tả sự thay đổi trong biến phụ thuộc gắn với sự gia tăng của một đơn vị nào đĩ trong biến độc lập X, đồng thời vẫn kiểm soát được ảnh hưởng của biến độc lập cịn lại
  301. Điều kiện cần trong phân tích hồi qui đa biến ◼ Các biến độc lập cĩ quan hệ tuyến tính với biến phụ thuộc ◼ Các biến độc lập cĩ thể ảnh hưởng với biến phụ thuộc nhưng giữa chúng khơng cĩ tương tác thống kê ◼ Các biến độc lập trong mơ hình phải khơng cĩ tương quan mạnh mẽ với nhau
  302. Kiểm định mức ý nghĩa ◼ Trong hồi quy tuyến tính đơn, thống kê t và F được dùng để kiểm định sự tồn tại của mô hình. ◼ Hai kiểm định t và F có ý nghĩa như nhau, nghĩa là cùng đưa ra những kết luận giống nhau.
  303. Kiểm định mức ý nghĩa ◼ Nhưng trong hồi quy đa tuyến tính, thống kê t và F được dùng với ý nghĩa khác nhau: ◼ Thống kê F được dùng để xác định mô hình hồi quy đa tuyến tính có tồn tại hay không, hay giữa y với các xi có tồn tại mối quan hệ hay không.
  304. Kiểm định mức ý nghĩa ◼ Nếu kiểm định F chỉ ra mối quan hệ giữa y với các xi có tồn tại thực sự, thì tiếp theo kiểm định t sẽ được sử dụng để xác định từng biến độc lập có ý nghĩa hay không.
  305. Kiểm định mức ý nghĩa ◼ Kiểm định t riêng biệt được xây dựng cho từng biến độc lập, nên mỗi kiểm định t là một kiểm định mức ý nghĩa riêng biệt.
  306. Xử lý số liệu thí nghiệm phân tích tương quan và hồi quy ◼ Xác định mơ hình tuyến tính ◼ Xác định mơ hình phi tuyến ◼ Xác định mơ hình đơn biến ◼ Xác định mơ hình đa biến ◼ Xác định mơ hình bậc nhất ◼ Xác định mơ hình bậc cao