Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Bai tap lon xac suat thong ke, Assignments of Probability and Stochastic Processes

Bai tap lon xac suat thong ke hcmut

Typology: Assignments

2023/2024

Uploaded on 02/09/2025

elliot-17
elliot-17 🇻🇳

1 document

1 / 55

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
XÁC SUẤT VÀ THỐNG
Báo cáo bài tập lớn
PHÂN TÍCH DỮ LIỆU CPU
Nhóm MT05 - Lớp DL02
KHOA KHOA HỌC VÀ KỸ THUẬT Y TÍNH
HỌC 233
GVHD: NGUYỄN KIỀU DUNG
Tp. Hồ Chí Minh, Tháng 8/2024
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37

Partial preview of the text

Download Bai tap lon xac suat thong ke and more Assignments Probability and Stochastic Processes in PDF only on Docsity!

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

XÁC SUẤT VÀ THỐNG KÊ

Báo cáo bài tập lớn

PHÂN TÍCH DỮ LIỆU CPU

Nhóm MT05 - Lớp DL

KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

HỌC KÌ 233

GVHD: NGUYỄN KIỀU DUNG

Tp. Hồ Chí Minh, Tháng 8/

BẢNG PHÂN CÔNG NHIỆM VỤ

STT Họ và Tên MSSV Nhiệm vụ Hoàn thành Ghi chú 1 Hồ Công Danh 2310410 Kiểm định 2 mẫu, Báo cáo 100% +0đ 2 Cao Quang Đôn 2310752 Anova 1 yếu tố, Code phụ 100% +0đ 3 Nguyễn Minh Hạnh 2310895 Kiểm định 1 mẫu, Báo cáo 100% -0.5đ 4 Nguyễn Văn Hiếu 2310967 Hồi quy tuyến tính, Code phụ 100% -0.5đ 5 Nguyễn Huỳnh Thiên Hậu 2310930 Code chính, Báo cáo, Nhận xét 100% +2đ 6 Nguyễn Thái Hoàng 2311062 Tiền xử lý dữ liệu, Thuyết trình 100% -0.5đ 7 Trần Như Nhật Hoàng 2311081 Hồi quy tuyến tính, Báo cáo 100% -0.5đ

1 Tổng quan dữ liệu:

Tập dữ liệu này chứa các thông số kỹ thuật chi tiết, ngày phát hành và giá phát hành của các linh kiện máy tính,... Tập dữ liệu bao gồm hai tệp CSV: All_GPUs.csv dành cho Đơn vị xử lý đồ họa (GPU) và Intel_CPUs.csv dành cho Đơn vị xử lý trung tâm (CPU). Mỗi bảng đều có các thuộc tính dữ liệu riêng, bao gồm những số liệu: tốc độ xung nhịp, nhiệt độ tối đa, độ phân giải hiển thị, công suất tiêu thụ, số luồng, ngày phát hành, giá phát hành, kích thước die, hỗ trợ ảo hóa và nhiều số liệu tương tự khác. Ở BTL này nhóm chọn tệp Intel_CPUs.csv để làm bài báo cáo.

2 Kiến thức nền:

Lý thuyết mẫu:

● Tổng thể thống kê (Population): là tập hợp các phần tử thuộc đối tượng nghiên cứu, cần được quan sát, thu thập và phân tích theo một hoặc một số đặc trưng nào đó. Các phần tử tạo thành tổng thể thống kê được gọi là đơn vị tổng thể.

● Mẫu (sample): một số đơn vị được chọn ra từ tổng thể theo một phương pháp lấy mẫu nào đó. Các đặc trưng mẫu được sử dụng để suy rộng ra các đặc trưng của tổng thể nói chung.

● Đặc điểm thống kê (dấu hiệu nghiên cứu): các tính chất quan trọng liên quan trực tiếp đến nội dung nghiên cứu và khảo sát cần thu thập dữ liệu trên các đơn vị tổng thể; Người ta chia làm 2 loại: đặc điểm thuộc tính và đặc điểm số lượng.

● Dữ liệu sơ cấp: dữ liệu được thu thập trực tiếp từ đối tượng nghiên cứu theo yêu cầu của người làm nghiên cứu.

● Dữ liệu thứ cấp: dữ liệu từ những nguồn có sẵn, thường đã qua tổng hợp, xử

lý; Sử dụng dữ liệu thứ cấp giúp người nghiên cứu ít tốn kém thời gian, công sức; chi phí so với việc thu thập dữ liệu sơ cấp; cần lưu ý dữ liệu này đôi khi không đáp ứng đủ các yêu cầu chi tiết hơn của nghiên cứu.

Các đặc trưng của biến tổng thể:

● Trung bình tổng thể (Kì vọng ) E(X) Kí hiệu : μ

● Phương sai tổng thể V(x) Kí hiệu : σ^2

● Độ lệch chuẩn tổng thể √V (x) Kí hiệu : σ

● Tỉ lệ tổng thể Kí hiệu : p là xác suất lấy được phần tử mang dấu hiệu nghiên cứu từ tổng thể.

Các đặc trưng của mẫu ngẫu nhiên:

  • Hàm g(X 1 , ........, Xn) với (X 1 , ....., Xn) là một mẫu ngẫu nhiên được gọi là một hàm mẫu hay một thống kê.Có hai nhóm thống kê mẫu quan trọng đặc trưng cho BNN của tổng thể:
  • Các số đặc trưng cho ta hình ảnh về vị trí trung tâm của mẫu, tức là xu thế các số liệu trong mẫu tụ tập xung quanh những con số nào đó. Chẳng hạn trung bình mẫu, trung vị mẫu, Mode mẫu, ...

  • Các số đặc trưng cho sự phân tán của các số liệu: độ lệch trung bình, độ lệch tiêu chuẩn và phương sai mẫu.

  • Trung bình mẫu: Xét mẫu ngẫu nhiên của BNN X : X = (^) n^1 (X 1 + .... + Xn)
  • Phương sai mẫu: Tương tự trung bình mẫu, phương sai mẫu được định nghĩa là kì vọng của độ lệch bình phương các thành phần của mẫu với trung bình mẫu và kí hiệu: σ^2

quan.

  • Giả thiết đối H 1 : (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H 0 , H 1 thể hiện xu hướng cần kiểm định dựa vào đó để kết luận xem có thừa nhận các giả thiết nêu trên hay không.
  • Miền bác bỏ giả thiết RR ( Rejection region): là miền số thực thỏa P(G(x) ∈ RR/H0 đúng) = α - là một số khá bé,thường không quá 10% và được gọi là mức ý nghĩa của kiểm định.
  • Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ thể của tiêu chuẩn kiểm định, gọi là giá trị kiểm định thống kê: gqs

Do đó:

  • Nếu gqs ∈ RR thì bác bỏ H 0 , thừa nhận giả thiết H 1.

  • Nếu gqs ∈ RR, ta chưa đủ dữ liệu khẳng định H 0 sai. Vì vậy ta chưa thể chứng minh được H 1 đúng.

  • Các loại sai lầm:
  • Sai lầm loại I: Bác bỏ giả thiết H 0 trong khi H 0 đúng. Xác suất mắc phải sai lầm này nếu H 0 đúng chính bằng mức ý nghĩa. Nguyên nhân mắc phải sai lầm loại I thường có thể do kích thước mẫu quá nhỏ, có thể do phương pháp lấy mẫu...

  • Sai lầm loại II: Thừa nhận H 0 trong khi H 0 sai, tức là mặc dù thực tế H1 đúng nhưng giá trị thực nghiệm gqs không thuộc RR.

Kiểm định giả thuyết thống kê

  • Nguyên lí xác suất nhỏ : nếu một sự kiện có xác suất xuất hiện rất nhỏ thì có thể coi rằng nó không xảy ra khi thực hiện một phép thử có liên quan đến sự kiện đó.
  • Phương pháp phản chứng: Từ giả thuyết đúng dẫn đến một điều vô lí thì ta bác bỏ (chấp nhận đối thuyết)

Các nguyên tác chung của kiểm định giả thuyết :

a) Tiêu chuẩn kiểm định giả thuyết thống kê: Từ BNN gốc X của tổng thể lập mẫu ngẫu nhiên X 1 , .., Xn và tham số 0 liên quan đến H 0 chọn thống kê G có thể phụ thuộc vào tham số đã biết trong giả thuyết H 0. Nếu giả thuyết H 0 đúng thì luật phân phối của G phải hoàn toàn xác định. Một thống kê như vậy được gọi là tiêu chuẩn kiểm định.

b) Quy tắc kiểm định: Nếu ta thành công trong việc chia miền xác định của tiêu chuẩn kiểm định G thành hai phần RR và AR trong đó RR là miền bác bỏ, còn AR là miền chấp nhận của H 0.

c) Với quy tắc kiểm định như trên có thể mắc hai loại sai lầm sau đây: loại 1 và loại 2

d) Thủ tục kiểm định giả thuyết thống kê Qua nội dung trình bày ở trên ta có thể xây dựng một thủ tục kiểm định giả thuyết thống kê bao gồm các bước sau:

(i) Phát biểu giả thuyết H 0 và đối thuyết H 1.

(ii) Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên kích thước n.

(iii) Chọn tiêu chuẩn kiểm định G và xác định quy luật phân phối xác suất của G với điều kiện giả thuyết H 0 đúng.

(iv) Dựa vào luật phân phối xác suất của G, tìm miền bác bỏ RR sao cho: P (G∈ RR|H 1 ) = α

Các công thức kiểm định mẫu

Kiểm định tỉ lệ

Bài toán ANOVA 1 yếu tố

  • Phân tích phương sai: Là một mô hình dùng để xem xét sự biến động của một biến ngẫu nhiên định lượng X chịu tác động trực tiếp của một hay nhiều yếu tố nguyên nhân (định tính).
  • Mô hình phân tích phương sai 1 yếu tố kiểm định so sánh sự bằng nhau của trung bình biến ngẫu nhiên X ở những tổng thể(còn gọi là các nhóm) khác nhau dựa vào các mẫu quan sát lấy từ những nhóm này. Các nhóm được phân biệt bởi những mức độ khác nhau của yếu tố định tính đang xem xét.

Nếu trung bình của các tổng thể được ký hiệu là μ 1 , μ 2 , μ 3 , ..., μk thì khi các giả

định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:

  • Mỗi mẫu tuân theo phân phối chuẩn N(μ, ϕ^2 )
  • Các phương sai tổng thể bằng nhau
  • Ta lấy k mẫu độc lập từ k tổng thể. Mỗi mẫu được quan sát nj lần.

Các bước phân tích ANOVA:

  1. Tính các giá trị trung bình: Trung bình từng cột. trung bình chung
  2. Tính tổng độ lệch bình phương:

thích đều không bắt buộc phải có phân phối chuẩn, chính các phần dư phù hợp mới là chuẩn.

-Giá trị ngoại lệ là một điểm dữ liệu quan sát mà khiến giá trị biến phụ thuộc rất khác với giá trị được dự đoán bởi phương trình hồi quy.

-Dữ liệu không được xuất hiện đa cộng tuyến (multicollinearity), xảy ra khi có hai hoặc nhiều biến độc lập có tương quan cao với nhau.

Phương trình hồi quy

Giả sử mối quan hệ giữa biến phụ thuộc (biến phản hồi) Y và k biến độc lập (biến hồi quy) x 1 , x 2 ,... , xk cho bởi mô hình:

Y=β 0 + β 1 x 1 + β 2 x 2 + ... + βkxk + ϵ (1)

Trong đó β 0 , β 1 , ..., βk là các tham số chưa biết, gọi là các hệ số hồi quy, ϵ là sai số ngẫu nhiên có kỳ vọng 0 và phương sai không đổi σ^2.

Trong đó Yi là giá trị ước lượng cho Yi và sai lệch giữa hai giá trị này được gọi là phần dư.

Đánh giá sự phù hợp của mô hình

Có một số phương pháp thống kê để tiến hành đánh giá sự phù hợp của mô hình là: tính toán hệ số xác định, dùng thống kê F để đánh giá mức ý nghĩa toàn diện của mô hình,tính toán sai số chuẩn của ước lượng và đánh giá ý nghĩa của từng biến độc lập.

Tính toán hệ số xác định bội : R^2 = SSRSST

Cụ thể trong trường hợp khi R^2 = 0.82 thì ta có thể kết luận rằng 82% biến thiên trong giá trị của biến phụ thuộc có thể được giải thích bởi mối liên hệ tuyến tính giữa biến phụ thuộc với các biến độc lập trong mô hình, tuy nhiên chú rằng không phải tất cả các biến độc lập này đều có tầm quan trọng ngang nhau đối với khả năng giải thích cho biến thiên trong biến phụ thuộc của mô hình.

Hệ số xác định hiệu chỉnh

Hệ số xác định hiệu chỉnh ký hiệu là R^2 adj là một cách khác để đo lường tỷ lệ phần trăm của biến thiên được giải thích trong biến phụ thuộc mà có tính đến mối liên hệ giữa cỡ mẫu và số biến độc lập trong mô hình hồi quy bội, công thức như sau:

R^2 adj = 1 − ( 1 − R^2 )(n−c k; .n − k − 1 )

Trong đó n là cỡ mẫu, k là số biến độc lập trong mô hình.Vì việc đưa thêm biến độc lập vào mô hình sẽ luôn làm tăng R^2 .Nếu số biến độc lập là khá lớn so với cỡ mẫu thì R^2 sẽ thổi phồng khả năng giải thích cho biến phụ của mô hình một cách sai lệch. Sự gia tăng trong R^2 có thể không bù đắp được sai sót do mất thêm bậc tự do khi thêm biến, thế nhưng hệ số này có tính đến chi phí này và đỉnh chỉnh giá trị hệ số xác định hiệu chỉnh theo nó một cách phù hợp. Khi một biến độc lập được thêm vào không có đóng góp xứng đáng vào khả năng giải thích cho biến phụ thuộc thì R^2 adj sẽ luôn luôn giảm đi mặc dù R^2 tăng. Điều đó cho thấy với mô hình hồi quy đa biến, nhất là khi số biến độc lập khá lớn trong tương quan với cỡ mẫu thì ta nên dùng nó để đánh giá khả năng giải thích của mô hình.

3 Tiền xử lý số liệu:

Tập dữ liệu này chứa thông số kỹ thuật chi tiết, ngày phát hành và giá phát hành của các bộ phận máy tính. Tập tin "All_GPUs.csv "dành cho Bộ xử lý đồ họa (GPU) và Tập tin "Intel_CPUs.csv". Các thuộc tính dữ liệu bao gồm tốc độ xung nhịp, nhiệt độ tối đa, số lượng luồng, ngày phát hành, giá phát hành, kích thước khuôn, hỗ trợ ảo hóa, số lượng lõi, tần số cơ bản, bộ nhớ cache, băng thông bộ nhớ, hỗ trợ đồ họa tích hợp và TDP. Dữ liệu được đưa ra ở đây chủ yếu thuộc về Intel, Game-Debate và các công ty liên quan đến việc sản xuất bộ phận này. Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/datasets/kkhandekar/cpu-gpu-specs

● Max_Memory_Bandwidth: Băng thông bộ nhớ tối đa mà hệ thống có thể cung cấp, thường được đo bằng GB/s (gigabytes per second).

Đọc dữ liệu (Import Data): Intel_CPUs Tạo dữ liệu cpu_data đọc từ file Intel_CPUs.csv. (^) 

1 # Doc du lieu tu file CSV 2 cpu _ data = read. csv (" C : / Users / Windows / Downloads / Intel _ CPUs. csv " , na. strings = c ( " " , " N /A " ) ) 3 # Tom tat du lieu 4 summary ( cpu _ data ) 5 # In so luong gia tri NA trong moi cot 6 print ( apply ( is. na ( cpu _ data ) , 2 , sum ) ) (^) 

Xử lý dữ liệu khuyết và thay đổi định dạng Xử lý năm sản xuất(Năm sản xuất là 2000+x). (^) 

1 # Xu ly nam san xuat 2 launch _ date _ replacements <- c ( ' Q1 \ ' 00 ' , ' Q2 \ ' 00 ' , ' Q3 \ ' 00 ' , ' Q4 \ ' 00 ' , ' Q1 \ ' 01 ' , ' Q2 \ ' 01 ' , ' Q3 \ ' 01 ' , ' Q4 \ ' 01 ' , ' Q1 \ ' 02 ' , ' Q2 \ ' 02 ' , ' Q3 \ ' 02 ' , ' Q4 \ ' 02 ' , ' Q1 \ ' 03 ' , ' Q \ ' 03 ' , ' Q3 \ ' 03 ' , ' Q4 \ ' 03 ' , ' Q1 \ ' 04 ' , ' Q2 \ ' 04 ' , ' Q3 \ ' 04 ' , ' Q4 \ ' 04 ' , ' Q1 \ ' 05 ' , ' Q2 \ ' 05 ' , ' Q3 \ ' 05 ' , ' Q4 \ ' 05 ' , ' Q1 \ ' 06 ' , ' Q2 \ ' 06 ' , ' Q3 \ ' 06 ' , ' Q4 \ ' 06 ' , ' Q1 \ ' 07 ' , ' Q2 \ ' 07 ' , ' Q3 \ ' 07 ' , ' Q4 \ ' 07 ' , ' Q1 \ ' 08 ' , ' Q2 \ ' 08 ' , ' Q3 \ ' 08 ' , ' Q4 \ ' 08 ' , ' Q1 \ ' 09 ' , ' Q2 \ ' 09 ' , ' Q3 \ ' 09 ' , ' Q4 \ ' 09 ' , ' Q \ ' 10 ' , ' Q2 \ ' 10 ' , ' Q3 \ ' 10 ' , ' Q4 \ ' 10 ' , ' Q1 \ ' 11 ' , ' Q2 \ ' 11 ' , ' Q3 \ ' 11 ' , ' Q4 \ ' 11 ' , ' Q1 \ ' 12 ' , ' Q2 \ ' 12 ' , ' Q3 \ ' 12 ' , '

Q4 \ ' 12 ' , ' Q1 \ ' 13 ' , ' Q2 \ ' 13 ' , ' Q3 \ ' 13 ' , ' Q4 \ ' 13 ' , ' Q1 \ '

14 ' , ' Q2 \ ' 14 ' , ' Q3 \ ' 14 ' , ' Q4 \ ' 14 ' , ' Q1 \ ' 15 ' , ' Q2 \ ' 15 ' ,

' Q3 \ ' 15 ' , ' Q4 \ ' 15 ' , ' Q1 \ ' 16 ' , ' Q2 \ ' 16 ' , ' Q3 \ ' 16 ' , ' Q

\ ' 16 ' , ' Q1 \ ' 17 ' , ' Q2 \ ' 17 ' , ' Q3 \ ' 17 ' , ' Q4 \ ' 17 ' , ' Q1 \ ' 18

' , ' Q2 \ ' 18 ' , ' Q3 \ ' 18 ' , ' Q4 \ ' 18 ' , ' Q1 \ ' 15 ' , ' 04\ ' 16 ' ,

' Q1 \ ' 99 ' , ' Q2 \ ' 99 ' )

3 replacement _ values <- c ( seq (1 , 19 , 0.25) , 15.75 , 17.0 , 0.0 , 0.25) 4 5 cpu _ data $ Launch _ Date <- ifelse ( cpu _ data $ Launch _ Date % in % launch _ date _ replacements , replacement _ values [ match ( cpu _ data $ Launch _ Date , launch _ date _ replacements ) ] , cpu _ data $ Launch _ Date ) (^) 

Tạo dữ liệu mới cpu_df chứa các cột cần thiết. (^)  1 # Lay cac cot can thiet 2 data _ feature <- c ( ' Product _ Collection ' , 3 ' Launch _ Date ' , ' Lithography ' , 4 ' Recommended _ Customer _ Price ' , 5 ' Processor _ Base _ Frequency ' , 6 ' Cache ' , ' Bus _ Speed ' , ' TDP ' , 7 ' Max _ nb _ of _ Memory _ Channels ' , 8 ' Max _ Memory _ Size ' , ' Max _ Memory _ Bandwidth ' ) 9 10 # Tao du lieu moi chua cac cot can thiet 11 cpu _ df <- cpu _ data [ , data _ feature , drop = FALSE ] (^) 

5 values <- as. numeric ( gsub ( " \ $ " , " " , unlist ( matches ) ) ) 6 if ( length ( values ) >= 2) { 7 ans <- mean ( values , na. rm = TRUE ) 8 } else { 9 ans <- NA 10 } 11 } else if ( length ( matches [[1]]) > 0) { 12 ans <- as. numeric ( sub ( " \ $ " , "" , matches [[1]][1]) ) 13 } else { 14 ans <- NA 15 } 16 return ( ans ) 17 } 18 19 cpu _ df $ Recommended _ Customer _ Price <- sapply ( cpu _ df $ Recommended _ Customer _ Price , PriceProcessor ) 20 cpu _ df $ Recommended _ Customer _ Price <- as. numeric ( cpu _ df $ Recommended _ Customer _ Price ) (^) 

Xử lý tần số cơ bản(đơn vị Hz). (^)  1 ProcessorMapper = function ( x ) { 2 value <- as. double ( as. numeric ( substr (x , 1, nchar ( x ) - 4) ) ) 3 if ( substr (x , nchar ( x ) - 2 , nchar ( x) - 2) == " G " ) {

4 value <- value * 1000000000 5 } else if ( substr (x , nchar ( x ) -2 , nchar ( x ) -2) == " M " ) { 6 value <- value * 1000000 7 } else if ( substr (x , nchar ( x ) -2 , nchar ( x ) -2) == " K " ) { 8 value <- value * 1000 9 } else if ( substr (x , nchar ( x ) -2 , nchar ( x ) -2) == " T " ) { 10 value <- value * 1000000000000 11 } 12 13 return ( value ) 14 } 15 16 Cleanify = function ( tag , func , df ) { 17 clean _ df <- df [! is. na ( df [[ tag ]]) , , drop = FALSE ] 18 clean _ df <- data. frame ( clean _ df ) 19 rownames ( clean _ df ) <- NULL 20 clean _ df [[ tag ]] <- lapply ( clean _ df [[ tag ]] , func ) 21 return ( clean _ df ) 22 } 23 24 25 cpu _ df <- Cleanify ( " Processor _ Base _ Frequency " , ProcessorMapper , df = cpu _ df ) 26 cpu _ df $ Processor _ Base _ Frequency <- as. numeric ( cpu _ df