















































Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Community
Ask the community for help and clear up your study doubts
Discover the best universities in your country according to Docsity users
Free resources
Download our free guides on studying techniques, anxiety management strategies, and thesis advice from Docsity tutors
Bai tap lon xac suat thong ke hcmut
Typology: Assignments
1 / 55
This page cannot be seen from the preview
Don't miss anything!
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
Tp. Hồ Chí Minh, Tháng 8/
BẢNG PHÂN CÔNG NHIỆM VỤ
STT Họ và Tên MSSV Nhiệm vụ Hoàn thành Ghi chú 1 Hồ Công Danh 2310410 Kiểm định 2 mẫu, Báo cáo 100% +0đ 2 Cao Quang Đôn 2310752 Anova 1 yếu tố, Code phụ 100% +0đ 3 Nguyễn Minh Hạnh 2310895 Kiểm định 1 mẫu, Báo cáo 100% -0.5đ 4 Nguyễn Văn Hiếu 2310967 Hồi quy tuyến tính, Code phụ 100% -0.5đ 5 Nguyễn Huỳnh Thiên Hậu 2310930 Code chính, Báo cáo, Nhận xét 100% +2đ 6 Nguyễn Thái Hoàng 2311062 Tiền xử lý dữ liệu, Thuyết trình 100% -0.5đ 7 Trần Như Nhật Hoàng 2311081 Hồi quy tuyến tính, Báo cáo 100% -0.5đ
Tập dữ liệu này chứa các thông số kỹ thuật chi tiết, ngày phát hành và giá phát hành của các linh kiện máy tính,... Tập dữ liệu bao gồm hai tệp CSV: All_GPUs.csv dành cho Đơn vị xử lý đồ họa (GPU) và Intel_CPUs.csv dành cho Đơn vị xử lý trung tâm (CPU). Mỗi bảng đều có các thuộc tính dữ liệu riêng, bao gồm những số liệu: tốc độ xung nhịp, nhiệt độ tối đa, độ phân giải hiển thị, công suất tiêu thụ, số luồng, ngày phát hành, giá phát hành, kích thước die, hỗ trợ ảo hóa và nhiều số liệu tương tự khác. Ở BTL này nhóm chọn tệp Intel_CPUs.csv để làm bài báo cáo.
Lý thuyết mẫu:
● Tổng thể thống kê (Population): là tập hợp các phần tử thuộc đối tượng nghiên cứu, cần được quan sát, thu thập và phân tích theo một hoặc một số đặc trưng nào đó. Các phần tử tạo thành tổng thể thống kê được gọi là đơn vị tổng thể.
● Mẫu (sample): một số đơn vị được chọn ra từ tổng thể theo một phương pháp lấy mẫu nào đó. Các đặc trưng mẫu được sử dụng để suy rộng ra các đặc trưng của tổng thể nói chung.
● Đặc điểm thống kê (dấu hiệu nghiên cứu): các tính chất quan trọng liên quan trực tiếp đến nội dung nghiên cứu và khảo sát cần thu thập dữ liệu trên các đơn vị tổng thể; Người ta chia làm 2 loại: đặc điểm thuộc tính và đặc điểm số lượng.
● Dữ liệu sơ cấp: dữ liệu được thu thập trực tiếp từ đối tượng nghiên cứu theo yêu cầu của người làm nghiên cứu.
● Dữ liệu thứ cấp: dữ liệu từ những nguồn có sẵn, thường đã qua tổng hợp, xử
lý; Sử dụng dữ liệu thứ cấp giúp người nghiên cứu ít tốn kém thời gian, công sức; chi phí so với việc thu thập dữ liệu sơ cấp; cần lưu ý dữ liệu này đôi khi không đáp ứng đủ các yêu cầu chi tiết hơn của nghiên cứu.
Các đặc trưng của biến tổng thể:
● Trung bình tổng thể (Kì vọng ) E(X) Kí hiệu : μ
● Phương sai tổng thể V(x) Kí hiệu : σ^2
● Độ lệch chuẩn tổng thể √V (x) Kí hiệu : σ
● Tỉ lệ tổng thể Kí hiệu : p là xác suất lấy được phần tử mang dấu hiệu nghiên cứu từ tổng thể.
Các đặc trưng của mẫu ngẫu nhiên:
Các số đặc trưng cho ta hình ảnh về vị trí trung tâm của mẫu, tức là xu thế các số liệu trong mẫu tụ tập xung quanh những con số nào đó. Chẳng hạn trung bình mẫu, trung vị mẫu, Mode mẫu, ...
Các số đặc trưng cho sự phân tán của các số liệu: độ lệch trung bình, độ lệch tiêu chuẩn và phương sai mẫu.
quan.
Do đó:
Nếu gqs ∈ RR thì bác bỏ H 0 , thừa nhận giả thiết H 1.
Nếu gqs ∈ RR, ta chưa đủ dữ liệu khẳng định H 0 sai. Vì vậy ta chưa thể chứng minh được H 1 đúng.
Sai lầm loại I: Bác bỏ giả thiết H 0 trong khi H 0 đúng. Xác suất mắc phải sai lầm này nếu H 0 đúng chính bằng mức ý nghĩa. Nguyên nhân mắc phải sai lầm loại I thường có thể do kích thước mẫu quá nhỏ, có thể do phương pháp lấy mẫu...
Sai lầm loại II: Thừa nhận H 0 trong khi H 0 sai, tức là mặc dù thực tế H1 đúng nhưng giá trị thực nghiệm gqs không thuộc RR.
Kiểm định giả thuyết thống kê
Các nguyên tác chung của kiểm định giả thuyết :
a) Tiêu chuẩn kiểm định giả thuyết thống kê: Từ BNN gốc X của tổng thể lập mẫu ngẫu nhiên X 1 , .., Xn và tham số 0 liên quan đến H 0 chọn thống kê G có thể phụ thuộc vào tham số đã biết trong giả thuyết H 0. Nếu giả thuyết H 0 đúng thì luật phân phối của G phải hoàn toàn xác định. Một thống kê như vậy được gọi là tiêu chuẩn kiểm định.
b) Quy tắc kiểm định: Nếu ta thành công trong việc chia miền xác định của tiêu chuẩn kiểm định G thành hai phần RR và AR trong đó RR là miền bác bỏ, còn AR là miền chấp nhận của H 0.
c) Với quy tắc kiểm định như trên có thể mắc hai loại sai lầm sau đây: loại 1 và loại 2
d) Thủ tục kiểm định giả thuyết thống kê Qua nội dung trình bày ở trên ta có thể xây dựng một thủ tục kiểm định giả thuyết thống kê bao gồm các bước sau:
(i) Phát biểu giả thuyết H 0 và đối thuyết H 1.
(ii) Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên kích thước n.
(iii) Chọn tiêu chuẩn kiểm định G và xác định quy luật phân phối xác suất của G với điều kiện giả thuyết H 0 đúng.
(iv) Dựa vào luật phân phối xác suất của G, tìm miền bác bỏ RR sao cho: P (G∈ RR|H 1 ) = α
Các công thức kiểm định mẫu
Kiểm định tỉ lệ
Bài toán ANOVA 1 yếu tố
Nếu trung bình của các tổng thể được ký hiệu là μ 1 , μ 2 , μ 3 , ..., μk thì khi các giả
định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:
Các bước phân tích ANOVA:
thích đều không bắt buộc phải có phân phối chuẩn, chính các phần dư phù hợp mới là chuẩn.
-Giá trị ngoại lệ là một điểm dữ liệu quan sát mà khiến giá trị biến phụ thuộc rất khác với giá trị được dự đoán bởi phương trình hồi quy.
-Dữ liệu không được xuất hiện đa cộng tuyến (multicollinearity), xảy ra khi có hai hoặc nhiều biến độc lập có tương quan cao với nhau.
Phương trình hồi quy
Giả sử mối quan hệ giữa biến phụ thuộc (biến phản hồi) Y và k biến độc lập (biến hồi quy) x 1 , x 2 ,... , xk cho bởi mô hình:
Y=β 0 + β 1 x 1 + β 2 x 2 + ... + βkxk + ϵ (1)
Trong đó β 0 , β 1 , ..., βk là các tham số chưa biết, gọi là các hệ số hồi quy, ϵ là sai số ngẫu nhiên có kỳ vọng 0 và phương sai không đổi σ^2.
Trong đó Yi là giá trị ước lượng cho Yi và sai lệch giữa hai giá trị này được gọi là phần dư.
Đánh giá sự phù hợp của mô hình
Có một số phương pháp thống kê để tiến hành đánh giá sự phù hợp của mô hình là: tính toán hệ số xác định, dùng thống kê F để đánh giá mức ý nghĩa toàn diện của mô hình,tính toán sai số chuẩn của ước lượng và đánh giá ý nghĩa của từng biến độc lập.
Tính toán hệ số xác định bội : R^2 = SSRSST
Cụ thể trong trường hợp khi R^2 = 0.82 thì ta có thể kết luận rằng 82% biến thiên trong giá trị của biến phụ thuộc có thể được giải thích bởi mối liên hệ tuyến tính giữa biến phụ thuộc với các biến độc lập trong mô hình, tuy nhiên chú rằng không phải tất cả các biến độc lập này đều có tầm quan trọng ngang nhau đối với khả năng giải thích cho biến thiên trong biến phụ thuộc của mô hình.
Hệ số xác định hiệu chỉnh
Hệ số xác định hiệu chỉnh ký hiệu là R^2 adj là một cách khác để đo lường tỷ lệ phần trăm của biến thiên được giải thích trong biến phụ thuộc mà có tính đến mối liên hệ giữa cỡ mẫu và số biến độc lập trong mô hình hồi quy bội, công thức như sau:
R^2 adj = 1 − ( 1 − R^2 )(n−c k; .n − k − 1 )
Trong đó n là cỡ mẫu, k là số biến độc lập trong mô hình.Vì việc đưa thêm biến độc lập vào mô hình sẽ luôn làm tăng R^2 .Nếu số biến độc lập là khá lớn so với cỡ mẫu thì R^2 sẽ thổi phồng khả năng giải thích cho biến phụ của mô hình một cách sai lệch. Sự gia tăng trong R^2 có thể không bù đắp được sai sót do mất thêm bậc tự do khi thêm biến, thế nhưng hệ số này có tính đến chi phí này và đỉnh chỉnh giá trị hệ số xác định hiệu chỉnh theo nó một cách phù hợp. Khi một biến độc lập được thêm vào không có đóng góp xứng đáng vào khả năng giải thích cho biến phụ thuộc thì R^2 adj sẽ luôn luôn giảm đi mặc dù R^2 tăng. Điều đó cho thấy với mô hình hồi quy đa biến, nhất là khi số biến độc lập khá lớn trong tương quan với cỡ mẫu thì ta nên dùng nó để đánh giá khả năng giải thích của mô hình.
Tập dữ liệu này chứa thông số kỹ thuật chi tiết, ngày phát hành và giá phát hành của các bộ phận máy tính. Tập tin "All_GPUs.csv "dành cho Bộ xử lý đồ họa (GPU) và Tập tin "Intel_CPUs.csv". Các thuộc tính dữ liệu bao gồm tốc độ xung nhịp, nhiệt độ tối đa, số lượng luồng, ngày phát hành, giá phát hành, kích thước khuôn, hỗ trợ ảo hóa, số lượng lõi, tần số cơ bản, bộ nhớ cache, băng thông bộ nhớ, hỗ trợ đồ họa tích hợp và TDP. Dữ liệu được đưa ra ở đây chủ yếu thuộc về Intel, Game-Debate và các công ty liên quan đến việc sản xuất bộ phận này. Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/datasets/kkhandekar/cpu-gpu-specs
● Max_Memory_Bandwidth: Băng thông bộ nhớ tối đa mà hệ thống có thể cung cấp, thường được đo bằng GB/s (gigabytes per second).
Đọc dữ liệu (Import Data): Intel_CPUs Tạo dữ liệu cpu_data đọc từ file Intel_CPUs.csv. (^)
1 # Doc du lieu tu file CSV 2 cpu _ data = read. csv (" C : / Users / Windows / Downloads / Intel _ CPUs. csv " , na. strings = c ( " " , " N /A " ) ) 3 # Tom tat du lieu 4 summary ( cpu _ data ) 5 # In so luong gia tri NA trong moi cot 6 print ( apply ( is. na ( cpu _ data ) , 2 , sum ) ) (^)
Xử lý dữ liệu khuyết và thay đổi định dạng Xử lý năm sản xuất(Năm sản xuất là 2000+x). (^)
1 # Xu ly nam san xuat 2 launch _ date _ replacements <- c ( ' Q1 \ ' 00 ' , ' Q2 \ ' 00 ' , ' Q3 \ ' 00 ' , ' Q4 \ ' 00 ' , ' Q1 \ ' 01 ' , ' Q2 \ ' 01 ' , ' Q3 \ ' 01 ' , ' Q4 \ ' 01 ' , ' Q1 \ ' 02 ' , ' Q2 \ ' 02 ' , ' Q3 \ ' 02 ' , ' Q4 \ ' 02 ' , ' Q1 \ ' 03 ' , ' Q \ ' 03 ' , ' Q3 \ ' 03 ' , ' Q4 \ ' 03 ' , ' Q1 \ ' 04 ' , ' Q2 \ ' 04 ' , ' Q3 \ ' 04 ' , ' Q4 \ ' 04 ' , ' Q1 \ ' 05 ' , ' Q2 \ ' 05 ' , ' Q3 \ ' 05 ' , ' Q4 \ ' 05 ' , ' Q1 \ ' 06 ' , ' Q2 \ ' 06 ' , ' Q3 \ ' 06 ' , ' Q4 \ ' 06 ' , ' Q1 \ ' 07 ' , ' Q2 \ ' 07 ' , ' Q3 \ ' 07 ' , ' Q4 \ ' 07 ' , ' Q1 \ ' 08 ' , ' Q2 \ ' 08 ' , ' Q3 \ ' 08 ' , ' Q4 \ ' 08 ' , ' Q1 \ ' 09 ' , ' Q2 \ ' 09 ' , ' Q3 \ ' 09 ' , ' Q4 \ ' 09 ' , ' Q \ ' 10 ' , ' Q2 \ ' 10 ' , ' Q3 \ ' 10 ' , ' Q4 \ ' 10 ' , ' Q1 \ ' 11 ' , ' Q2 \ ' 11 ' , ' Q3 \ ' 11 ' , ' Q4 \ ' 11 ' , ' Q1 \ ' 12 ' , ' Q2 \ ' 12 ' , ' Q3 \ ' 12 ' , '
3 replacement _ values <- c ( seq (1 , 19 , 0.25) , 15.75 , 17.0 , 0.0 , 0.25) 4 5 cpu _ data $ Launch _ Date <- ifelse ( cpu _ data $ Launch _ Date % in % launch _ date _ replacements , replacement _ values [ match ( cpu _ data $ Launch _ Date , launch _ date _ replacements ) ] , cpu _ data $ Launch _ Date ) (^)
Tạo dữ liệu mới cpu_df chứa các cột cần thiết. (^) 1 # Lay cac cot can thiet 2 data _ feature <- c ( ' Product _ Collection ' , 3 ' Launch _ Date ' , ' Lithography ' , 4 ' Recommended _ Customer _ Price ' , 5 ' Processor _ Base _ Frequency ' , 6 ' Cache ' , ' Bus _ Speed ' , ' TDP ' , 7 ' Max _ nb _ of _ Memory _ Channels ' , 8 ' Max _ Memory _ Size ' , ' Max _ Memory _ Bandwidth ' ) 9 10 # Tao du lieu moi chua cac cot can thiet 11 cpu _ df <- cpu _ data [ , data _ feature , drop = FALSE ] (^)
5 values <- as. numeric ( gsub ( " \ $ " , " " , unlist ( matches ) ) ) 6 if ( length ( values ) >= 2) { 7 ans <- mean ( values , na. rm = TRUE ) 8 } else { 9 ans <- NA 10 } 11 } else if ( length ( matches [[1]]) > 0) { 12 ans <- as. numeric ( sub ( " \ $ " , "" , matches [[1]][1]) ) 13 } else { 14 ans <- NA 15 } 16 return ( ans ) 17 } 18 19 cpu _ df $ Recommended _ Customer _ Price <- sapply ( cpu _ df $ Recommended _ Customer _ Price , PriceProcessor ) 20 cpu _ df $ Recommended _ Customer _ Price <- as. numeric ( cpu _ df $ Recommended _ Customer _ Price ) (^)
Xử lý tần số cơ bản(đơn vị Hz). (^) 1 ProcessorMapper = function ( x ) { 2 value <- as. double ( as. numeric ( substr (x , 1, nchar ( x ) - 4) ) ) 3 if ( substr (x , nchar ( x ) - 2 , nchar ( x) - 2) == " G " ) {
4 value <- value * 1000000000 5 } else if ( substr (x , nchar ( x ) -2 , nchar ( x ) -2) == " M " ) { 6 value <- value * 1000000 7 } else if ( substr (x , nchar ( x ) -2 , nchar ( x ) -2) == " K " ) { 8 value <- value * 1000 9 } else if ( substr (x , nchar ( x ) -2 , nchar ( x ) -2) == " T " ) { 10 value <- value * 1000000000000 11 } 12 13 return ( value ) 14 } 15 16 Cleanify = function ( tag , func , df ) { 17 clean _ df <- df [! is. na ( df [[ tag ]]) , , drop = FALSE ] 18 clean _ df <- data. frame ( clean _ df ) 19 rownames ( clean _ df ) <- NULL 20 clean _ df [[ tag ]] <- lapply ( clean _ df [[ tag ]] , func ) 21 return ( clean _ df ) 22 } 23 24 25 cpu _ df <- Cleanify ( " Processor _ Base _ Frequency " , ProcessorMapper , df = cpu _ df ) 26 cpu _ df $ Processor _ Base _ Frequency <- as. numeric ( cpu _ df