Bài giảng Phân tích và xử lí dữ liệu trong kinh doanh - Chương 2: Biên tập và phân tích mô tả dữ liệu
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Phân tích và xử lí dữ liệu trong kinh doanh - Chương 2: Biên tập và phân tích mô tả dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_phan_tich_va_xu_li_du_lieu_trong_kinh_doanh_chuong.pptx
Nội dung text: Bài giảng Phân tích và xử lí dữ liệu trong kinh doanh - Chương 2: Biên tập và phân tích mô tả dữ liệu
- Chương 2 BIÊN TẬP VÀ PHÂN TÍCH MÔ TẢ DỮ LIỆU
- Nội dung I. Một số đại lượng đặc trưng của dữ liệu II. Xây dựng bảng hỏi và kết cấu bộ dữ liệu III.Biên tập dữ liệu IV.Mô tả dữ liệu V.Phân tích dữ liệu bằng biểu đồ
- I Một số đại lượng đặc trưng của dữ liệu
- 1.1 Số trung bình a) Khái niệm: Số trung bình (bình quân) trong thống kê là mức độ đại biểu theo một tiêu thức nào đó của một tổng thể thống kê bao gồm nhiều đơn vị cùng loại - Là mức độ phổ biến nhất (dùng với các lượng biến có quan hệ tổng) - Chịu ảnh hương bởi giá trị đột biến
- b) Các loại số trung bình ▪ Số trung bình cộng (vận dụng khi các lượng biến có quan hệ tổng) 푡ổ푛 푙ượ푛 𝑖ế푛 ủ 푡𝑖ê 푡ℎứ 푠ố 푡 푛 ì푛ℎ = ổ푛 푠ố đơ푛 푣ị ủ 푡ô푛 푡ℎể - Trung bình cộng giản đơn + + ⋯ + ҧ = 1 2 푛 푛 - Trung bình cộng gia quyền (vận dụng khi các 푖 khác nhau) 1 1+ 2 2+⋯+ 푛 푛 σ 푖 푖 ҧ = hay ҧ = ൗσ 1+ 2+ + 푛 푖
- ▪ VD. Tính năng suất lao động bình quân Phân xưởng Năng xuất lao động (m/ công Số công nhân nhân) A 50 3 B 55 5 C 60 10 D 65 7 σ 50 ∗ 3 + 55 ∗ 5 + 60 ∗ 10 + 65 ∗ 7 ҧ = 푖 푖 = = 59,2 ( / 푛) σ 푖 3 + 5 + 10 + 7 Trong t/h này số bình quân trùng với số tương đối cường độ
- ▪ VD Năng suất LĐ (sp) Số công nhân (풇풊) 풙풊 40-60 10 50 60-80 30 70 80-100 70 90 100-120 25 110 120-140 10 130 >140 5 150 ▪ 푆퐿Đ 푞 =? → số trung bình được tính từ việc phân tổ có khoảng cách thì giá trị của nó chỉ mang tính gần đúng
- Tính tỷ lệ bình quân hoàn thành kế hoạch của 3 phân xưởng sau: PX NSLĐ Số CN % ht kế hoạch sl (풙풊) Sản lượng (푴풊) 1 50 10 103 500 2 60 30 106 1800 3 30 20 102 600 ▪ 푖: % ℎ표à푛 푡ℎà푛ℎ ế ℎ표ạ ℎ 푠ả푛 푙ượ푛 ủ 푡ừ푛 ℎâ푛 ưở푛 푖 ▪ 푖: ế ℎ표ạ ℎ 푠ả푛 푙ượ푛 = ൗ 푖 ҧ = σ 푖ൗ = 104,63% → σ 푖/ 푖 (Số trung bình điều hòa)
- ▪ Số trung bình điều hòa khi được biết tổng các lượng biến 푖 và 푖 ● Trung bình điều hòa giản đơn 푛 ҧ = σ 1/ 푖 ● Trung bình điều hòa gia quyền + + ⋯ + ҧ = 1 2 푛 1 + 2 + ⋯ + 푛 1 2 푛
- ▪ VD: Có 3 công nhân cùng sản xuất 1 loại sản phẩn trong 8h; - CN1: sản xuất 1 sản phẩm hết 6 phút - CN2: sản xuất 1 sản phẩm hết 8 phút - CN3: sản xuất 1 sản phẩm hết 5 phút → Tính thời gian hao phí bình quân để sản xuất hết 1 sản phẩm. ● 푖: 푡ℎờ𝑖 𝑖 푛 ℎ 표 ℎí 푠ả푛 ấ푡 1 푠ả푛 ℎẩ ủ 1 푛 ườ𝑖 ● 푖: 푆ố 푠ả푛 ℎẩ đã 푠ả푛 ấ푡 ủ 푡ừ푛 푛 ườ𝑖 ● 푖: ổ푛 푡ℎờ𝑖 𝑖 푛 푙à 푣𝑖ệ ủ 푡ổ푛 푛 ườ𝑖 σ 푖 8∗60∗3 → Tg SXTB = = 8∗60 8∗60 8∗60 = 6,10 ( ℎú푡) 푖 + + σ 6 8 5 푖
- VD cho tốc độ tăng trưởng thu nhập của doanh nghiệp A như sau 2013 2012 1 = ൗ 2012 = 1,1 ; 2 = ൗ 2011 = 1,2; ; 푛 →Các phân số này không có quan hệ trung bình cộng →Với quan hệ tích? OK 푛 →Tốc độ phát trưởng trung bình = 1 2 . 푛 ❖ Số trung bình nhân được vận dụng khi các lượng biến có quan hệ tích với nhau ❖ Số bình quân nhân giản đơn 풏 풙ഥ = 풌 풌 . 풌풏 ❖ Số bình quân nhân gia quyền σ 푖 ෑ 푖 푖
- c) Đặc điểm của số trung bình ▪ Mang tính tổng hợp, khái quát cao ▪ San bằng các chênh lệch giữa các đơn vị về trị số của tiêu thức nghiên cứu ▪ Chịu ảnh hưởng của lượng biến đột xuất
- 1.2 Trung vị ▪ Là mức độ quan trọng ▪ Trong dãy số đã được sắp xếp theo thứ tự trung vị là số ở vị trí giữa. ▪ Nếu n lẻ: trung vị ở vị trí giữa ▪ Nếu n chẵn: trung vị là bình quân của 2 số đứng ở vị trí giữa ▪ Không chịu ảnh hưởng của giá trị đột xuất
- 1.3 Mốt ▪ Là một mức độ điển hình ▪ Là giá trị phổ biến nhất ▪ Không chịu ảnh hưởng của giá trị đột xuất ▪ Có thể không có Mốt nhưng cũng có thể có vài mốt ▪ Được sử dụng với cả biến định tính và định lượng
- Vai trò của việc nghiên cứu Mốt trong cuộc sống ?
- 1.4 Các phân vị • Là vị trí phân chia tổng thể thành các nhóm khác nhau • Tứ phân vị: chia dữ liệu được sắp xếp thành 4 phần 25% 25% 25% 25% Q1 Q2 Q3 • Q1 - tứ phân vị thứ nhất: 25% tổng thể có giá trị dưới Q1 và 75% trên Q1 • Q2 – tứ phân vị thứ hai: % 50% trên và 50% dưới • VD: điều tra nhu cầu sử dụng phương tiện giao thông bằng hàng không → tập chung vào Q3 – trong trường hợp tổng thể điều tra là thu nhập 푖(푛+1) Vị trí của tứ phân vị thứ tại điểm 푄 = 푖 4
- ▪ Ví dụ Dữ liệu đã được sắp xếp theo thứ tự 11 12 13 16 16 17 18 21 22 1(1+9) Vị trí tại điểm Q = = 2,5 → 1 4 Điểm Q1 = 12,5 Tương tự có Q2 = 16; Q1 = 19,5
- 1.4 Các chỉ tiêu đo độ biến thiên
- 1.4.1 Khoảng biến thiên ▪ Là chỉ tiêu đo độ biến thiên ▪ Là sự chênh lệch giữa giá trị nhỏ nhất và giá trị lớn nhất ▪ Quan sát: Range = Xmax – Xmin ▪ Không phụ thuộc vào sự phân bố của dữ liệu
- 1.4.2 Phương sai ▪ Là một trong những thước đo quan trọng của độ biến thiên ▪ Cho biết độ biến thiên xung quanh giá trị trung bình 2 2 σ 푖−휇 ● Đối với tổng thể chung: 휎 = σ − ҧ 2 ● Đối với tổng thể mẫu: 푠2 = 푖 n−1 ● hạn chế ▪ Vì dùng bình phương → khuếch đại trị số ▪ Không có đơn vị tính
- 1.4.3 Độ lệch chuẩn ▪ Là thước đo của độ biến thiên ▪ Cho biết độ biến thiên xung quanh giá trị trung bình σ −휇 2 ▪ Tổng thể chung 휎 = 푖 σ − ҧ 2 ▪ Tổng thể mẫu s = 푖 푛−1
- ▪ So sánh các độ lệch chuẩn
- 1.4.4 Độ biến thiên ▪ Là thước đo độ biến thiên tương đối ▪ Đơn vị luôn là % ▪ Cho biết độ biến thiên tương đối xung quanh gt trung bình ▪ So sánh 2 hoặc nhiều hơn 2 các giá trị biến thiên 푠 푣 = ҧ
- Ví Dụ ▪ Cổ phiếu A giá bình quân năm trước = 50$; Độ lệch chuẩn 5$ ▪ Cổ phiếu B giá bình quân năm trước = 100$ Độ lệch chuẩn 5$ →Cổ phiếu A biến động 10%; cổ phiếu B biến động 5% →Đầu tư cho loại nào?
- 1.5 hình dáng phân phối ▪ Mô tả sự phân bố của dữ liệu ▪ Các mức độ của hình dáng: đối xứng hoặc lệch
- Đồ thị hộp ria mèo (box plot)
- Hình dáng của phân phối và đồ thị hộp ria mèo
- Tác dụng của đồ thị hộp ria meo ▪ Nhận biết vị trí của bộ dữ liệu trên cơ sở trung vị (Me) ▪ Nhận biết sự dàn trải của dữ liệu thông qua độ dài của hộp (khoảng tứ phân vị và độ dài của ria mèo) ▪ Nhận biết lượng biến đột xuất và nghi ngờ là đột xuất ▪ So sánh hai hay nhiều bộ dữ liệu trên cùng một thước đo
- Nhận biết lượng biến đột xuất