Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Bài tập lớn đại số tuyến tính đại họ bách khoa k22, Assignments of Probability and Statistics

Bài tập lớn đại số tuyến tính đại họ bách khoa k22 ứng dung biến đổi fourỉe vào khử nhiễu âm thanh

Typology: Assignments

2023/2024

Uploaded on 05/05/2024

bao-cao-tan
bao-cao-tan 🇻🇳

1 / 48

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MÌNH
---------------a a a---------------
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
ĐỀ TÀI:
3D Printer Dataset for Mechanical
Engineers
GIÁO VIÊN HƯỚNG DẪN: NGUYỄN KIỀU DUNG
LỚP: L01
NHÓM: CK25
NĂM HỌC: 2023-2024
Danh sách các thành viên
STT Họ và tên Mã số sinh viên
1 Trần Duy Thoại 2213317
2 Nguyễn Ngọc Bảo Toàn 2213535
3 Bùi Văn Đạt 2210651
4 Vũ Đình Bảo 2210291
5 Nguyễn Ngô Phong Hào 2210865
6 Võ Phạm Xuân Hoàng 2211125
7 Cao Tấn Bảo 2210193
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30

Partial preview of the text

Download Bài tập lớn đại số tuyến tính đại họ bách khoa k22 and more Assignments Probability and Statistics in PDF only on Docsity!

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MÌNH

---------------a a a---------------

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

ĐỀ TÀI:

3D Printer Dataset for Mechanical

Engineers

GIÁO VIÊN HƯỚNG DẪN: NGUYỄN KIỀU DUNG

LỚP: L

NHÓM: CK

NĂM HỌC: 2023-

Danh sách các thành viên STT Họ và tên Mã số sinh viên 1 Trần Duy Thoại 2213317 2 Nguyễn Ngọc Bảo Toàn 2213535 3 Bùi Văn Đạt 2210651 4 Vũ Đình Bảo 2210291 5 Nguyễn Ngô Phong Hào 2210865 6 Võ Phạm Xuân Hoàng 2211125 7 Cao Tấn Bảo 2210193

MỤC LỤC

PHẦN TRÌNH BÀY I. TỔNG QUAN DỮ LIỆU 1.1. Mục đích của nghiên cứu Mục đích của nghiên cứu này là để xác định mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến chất lượng in, độ chính xác và độ bền. Trong đó có chín thông số cài đặt và ba thông số đầu ra đo được. 1.2. Nguồn dữ liệu Dữ liệu được cung cấp tại : https://www.kaggle.com/datasets/afumetto/3dprinter 1.3. Mô tả các biến Gồm 12 biến : ST T Biến Đơn vị 1 layer_height Chiều cao lớp mm 2 wall_thickness Độ dày tường mm 3 infill_density Tỷ lệ điểm đổ % 4 infill_pattern Mẫu điền 5 nozzle_temper ature Nhiệt độ đầu phun Cº 6 bed_temperatu re Nhiệt độ bàn in Cº 7 print_speed Tốc độ in mm/ s 8 material Vật liệu 9 fan_speed Tốc độ làm mát % 10 roughness Độ nhám μm 11 tension_streng ht Cường độ chịu kéo giới hạn MPa 12 elongation Độ giãn dài % Các loại biến:

  • Biến số liên tục: các biến như layer_height, wall_thickness,infill_density, nozzle_temperature, print_speed,fan_speed, roughness, tension_strenght và elongation.
  • Biến số rời rạc: infill_pattern, material Các bước thực hiện: Bước 1: Đọc dữ liệu (Import data). Bước 2: Làm sạch dữ liệu ( Data cleaning). Bước 3: Làm rõ dữ liệu ( Data visualization) (a) Chuyển đổi biến ( nếu cần thiết). (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị. Bước 4: Phân tích mối quan hệ giữa các biến để hiểu cách chúng ảnh hưởng đến chất lượng và tính chất của sản phẩm in 3D. Chúng em sẽ dùng mô hình hồi quy bội vào bộ dữ liệu này. II. KIẾN THỨC NỀN 2.1. Phân tích hồi quy 2.1.1 Định nghĩa Phân tích hồi quy (Regression Analysis) là một phương pháp thống kê được sử dụng để nghiên cứu mối quan hệ giữa một biến phụ thuộc (Y) và một hoặc nhiều biến ngẫu nhiên (X) hay còn gọi là biến giải thích. Mục tiêu chính của phân tích hồi quy là là đưa ra các dự đoán hoặc mô tả biến phụ thuộc dựa trên các biến ngẫu nhiên. Các mối quan hệ giữa X và Y có thể được biểu diễn dưới dạng hàm tuyến tính hoặc phương trình. Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số F(X1,...,Xs ) của các biến ngẫu nhiên X1,...,Xs khác (gọi là các biến điều khiển control variables), hay còn gọi là biến tự do, trong khi Y được gọi là biến phụ thuộc ( dependent variable), tức là khi ta có các giá trị của X1,...,Xs , thì ta muốn từ đó ước lượng được giá trị của Y. Hàm số F này có thể phụ thuộc vào một số tham số θ = (θ1,... , θk) nào đó. Ta có thể viết Y như sau: Y = Fθ (X1,... , Xs)+ ∈ Trong đó ∈ là phần sai số (cũng là một biến ngẫu nhiên). Ta muốn chọn hàm F một cách thích hợp nhất có thể, và các tham số , sao cho sai số là nhỏ nhất có thể. Đại lượng: √Ε(|ε|^2 ) được gọi là sai số chuẩn (standard error) của mô hình hồi qui. Mô hình nào mà có sai số chuẩn càng thấp thì được coi là càng chính xác.

2.2.2 Kiểm định ý nghĩa của mô hình Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0. Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:  B1: Giả thuyết “không” là H 0 : β 2 = β 3 = ⋯ = βk = 0  B2: Trước tiên hồi quy Y theo một số hạng không đổi và X 2 , X 3 , ..., Xi, sau đó tính tổng bình phương sai số RSSU, RSSR. Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập.  B3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n – k) cho mẫu số, và với mức ý nghĩa α cho trước.  B4: Bác bỏ giả thuyết H 0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n- k). Đối với phương pháp giá trị p, tính giá trị p = P (F>Fc|H 0 ) và bác bỏ giả thuyết H 0 nếu p < α. 2.2.3 Kiểm tra các giả thuyết của mô hình hồi quy bội Nhắc lại các giả định của mô hình hồi quy: Yi = β 1 + β 2 X 2 + β 3 X 3 + ⋯ βiXi + ui (i= 1,...,n)  Giả thuyết 1: : Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.  Giả thuyết 2: Sai số có phân phối chuẩn.  Giả thuyết 3: : Phương sai của các sai số là hằng số.  Giả thuyết 4: : Các sai số u có kỳ vọng = 0.  Giả thuyết 5: Các sai số u 1 ,..., un thì độc lập với nhau. 2.3. Phân tích phương sai 2.3.1 Định nghĩa Phân tích phương sai ( Analysis of Variance) hay còn gọi là kiểm định ANOVA là kỹ thuật thống kê tham số được sử dụng để so sánh các nhóm dữ liệu dựa trên các giá trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thuyết để đánh giá và kết luận sự bằng nhau của các trung bình nhóm dữ liệu này. Trong nghiên cứu, phân tích phương sai được sử dụng như một công cụ để xem xét ảnh hưởng của một yếu tố ngẫu nhiên đến một yếu tố kết quả. Phân tích phương sai được phát triển bởi Ronald Fisher năm

ANOVA thật ra là một mở rộng của phương pháp kiểm định T cho các mẫu độc lập khi so sánh trung bình của các nhóm gồm các quan sát độc lập. Không như phương pháp kiểm định T, ANOVA có thể so sánh nhiều hơn hai nhóm. Lưu ý rằng ANOVA không so sánh các phương sai, mà là phân tích các phương sai để so sánh với các kỳ vọng.  Phân tích phương sai được dùng để kiểm định giả thuyết các tổng thể nhóm có giá trị trung bình bằng nhau.  Kỹ thuật này được dựa trên cơ sở tính toán mức độ biến thiên trong nội bộ các nhóm và biến thiên giữa trung bình các nhóm.

 Có hai thủ tục phân tích phương sai: ANOVA một nhân tố ( One way ANOVA) và ANOVA hai nhân tố (Two way ANOVA). 2.3.2 Phân tích phương sai hai nhân tố ANOVA hai nhân tố một phần mở rộng của phân tích phương sai một nhân tố. Với One way, ta có một biến độc lập ảnh hưởng đến biến phụ thuộc. Còn với Two way ANOVA, sẽ có 2 biến độc lập. Giả thuyết phân tích phương sai hai yếu tố:  Tổng thể có phân phối chuẩn.  Mỗi mẫu được quan sát một lần không lặp. Các bước tiến hành kiểm định giả thuyết: ta lấy mẫu không lặp lại, sau đó các đơn vị mẫu của nhân tố ngẫu nhiên thứ nhất xếp thành K nhóm (cột), các đơn vị mẫu của nhân tố ngẫu nhiên thứ hai sắp xếp thành H khối (hàng). Như vậy ta có bảng kết hợp hai nhân tố nguyên nhân gồm K cột và H hàng và (K x H) ô dữ liệu. Tổng số mẫu quan sát là n= (K x H). Hàng (Khối ) Cột (nhóm) 1 2 … K 1 X 11 X 12 X1K 2 X 21 X 22 X2K … … H XH1 XH2 XHK B1: Tính các số trung bình mẫu của các nhóm  Trung bình riêng của từng nhóm ( K cột): Xi= j=1HXijH(j = 1,2,...,K)  Trung bình riêng của từng khối ( H hàng) Xj= i=1KXijK(i = 1,2,...,H)  Trung bình chung của toàn bộ mẫu quan sát: X = i=1K j=0HXijn =i=1KXijK =j=1HXijH B2: Tính tổng các độ lệch bình phương  Tổng các độ lệch bình phương chung (SST): Phản ánh biến động của nhân tố kết quả do ảnh hưởng của tất cả các nhân tố. Công thức : SST = i=1K(Xij -X)  Tổng các độ lệch bình phương giữa các nhóm (SSK): Phản ánh biến động của nhân tố kết quả do ảnh hưởng của nhân tố nguyên tố thứ nhất ( xếp theo cột). Công thức : SSK = H i=1K(Xi -X)  Tổng các độ lệch bình phương giữa các nhóm ( SSH): ): Phản ánh biến động của nhân tố kết quả do ảnh hưởng của nhân tố nguyên tố thứ hai ( xếp theo hàng). Công thức : SSH = K j=1H(Xj -X)

Phần dư SSE (h-1)(k-1) MSE Tổng SST n- Tiền xử lý dữ liệu:

là quá trình chuẩn bị dữ liệu trước khi đưa vào mô hình học máy để đào tạo hoặc dự

đoán. Trong đoạn mã trên , bao gồm các bước sau:

Đọc dữ liệu:

 Dữ liệu đầu vào trong đoạn mã là từ một tệp CSV, được giả

định là đã được thu thập từ máy in 3D.

 Có tổng cộng 12 cột trong dữ liệu, bao gồm các biến như

chiều cao lớp in, độ dày tường, mật độ lấp đầy, mẫu lưới bên

trong chi tiết, nhiệt độ đầu phun, nhiệt độ bàn in, tốc độ in,

vật liệu in, tốc độ quạt, độ nhám, độ căng và độ giãn khi kéo.

 Trong đoạn mã, thư viện Pandas được import với tên rút gọn

là ‘ pd ’.

 Sử dụng thư viện Pandas để đọc dữ liệu từ tệp CSV vào một

DataFrame. Hàm pd.read_csv() được sử dụng để đọc dữ liệu

từ tệp CSV.

 Tham số sep=";" được sử dụng để chỉ định rằng dấu chấm

phẩy (;) được sử dụng làm dấu phân cách giữa các cột trong

tệp CSV.

Chỉnh sửa định dạng dữ liệu:

 Trong quá trình xử lý dữ liệu, việc đảm bảo định dạng đúng

của dữ liệu là rất quan trọng.Trong trường hợp này, việc

chỉnh sửa định dạng dữ liệu được thực hiện để đảm bảo rằng

các giá trị trong các cột " layer_height " và " elongation " có

đơn vị phù hợp và dễ đọc hơn.

 Cột " layer_ height " và " elongation " được nhân với 100 để

làm cho chúng dễ đọc hơn. Điều này được thực hiện bằng

cách sử dụng cú pháp “data['column_name'] =

data['column_name'] * 100.”

 Việc chỉnh sửa định dạng dữ liệu giúp làm cho dữ liệu dễ

đọc hơn và thích hợp cho việc phân tích tiếp theo.

 Bằng cách này, người đọc có thể dễ dàng hiểu được đơn vị

của các giá trị trong các cột " layer_height " và " elongation "

mà không cần phải tham khảo tài liệu bổ sung.Việc sử dụng

Pandas để thực hiện chỉnh sửa này cũng rất linh hoạt và dễ

dàng mở rộng cho các thay đổi định dạng dữ liệu khác nếu

cần thiết.

Chuyển đổi biến mã hóa:

 Ý Nghĩa: Trong quá trình huấn luyện mô hình học máy, các

thuật toán thường yêu cầu dữ liệu đầu vào là dạng số. Trong

trường hợp này, cột " material " và " infill_pattern " ban đầu

được lưu trữ dưới dạng chuỗi văn bản. Để sử dụng chúng

trong mô hình, chúng cần được chuyển đổi sang dạng số.

 Cách thực hiện: Sử dụng list comprehension và các điều

kiện logic để thực hiện chuyển đổi. Đối với cột "material ",

" abs " được gán giá trị 0 và " pla " được gán giá trị 1. Đối với

cột " infill_pattern ", " grid " được gán giá trị 0 và

" honeycomb " được gán giá trị 1.

 List comprehension là một cú pháp tiện lợi trong Python để

tạo danh sách mới từ một danh sách hiện có. Trong đoạn mã,

list comprehension được sử dụng để lặp qua từng phần tử

trong cột " material " và " infill_pattern ", sau đó thực hiện

phép gán giá trị mới dựa trên điều kiện logic.

 Việc chuyển đổi biến mã hóa giúp làm cho dữ liệu phù hợp

với yêu cầu của các thuật toán học máy.Bằng cách này, các

thuật toán có thể hiểu được và xử lý dữ liệu một cách hiệu

quả hơn.Sử dụng list comprehension và điều kiện logic làm

cho quá trình chuyển đổi này trở nên linh hoạt và dễ dàng

thực hiện, đặc biệt là khi cần thay đổi các điều kiện hoặc giá

trị mã hóa.

Tách biến độc lập và biến phụ thuộc:

 Trước khi huấn luyện mô hình học máy, quy trình phân tích

dữ liệu thường bao gồm việc phân tách dữ liệu thành hai

phần: biến độc lập (input) và biến phụ thuộc (output). Trong

 Trong đoạn mã, dữ liệu được trực quan hóa bằng các biểu đồ

phân tán và biểu đồ đường. Các biểu đồ này giúp hiểu rõ hơn

về mối quan hệ giữa các biến, như mối tương quan giữa tốc

độ quạt và độ căng, hoặc biểu diễn sự thay đổi của độ gồ ghề

theo chiều cao lớp in.

Chuẩn hóa dữ liệu:

 Trong quá trình huấn luyện mô hình học máy, việc chuẩn

hóa dữ liệu giúp đảm bảo rằng các biến độc lập có phân phối

tương đồng và có cùng tỷ lệ. Việc này giúp các thuật toán

học máy hoạt động hiệu quả hơn và đảm bảo rằng không có

biến nào ảnh hưởng quá mạnh đến quá trình huấn luyện.

 Công thức chuẩn hóa Min-Max:

 Thư viện Pandas cung cấp các chức năng linh hoạt để thực

hiện các phép tính toán trên dữ liệu một cách hiệu quả.

Trong đoạn mã, dùng np.min() và np.max() để tính toán giá

trị tối thiểu và tối đa của từng biến, sau đó sử dụng phép chia

để chuẩn hóa dữ liệu.

 Việc chuẩn hóa dữ liệu giúp đảm bảo rằng các thuật toán học

máy có thể hội tụ nhanh chóng và đạt được hiệu suất tốt

nhất. Bằng cách này, chúng ta có thể tránh được các vấn đề

như divergent trong quá trình huấn luyện và cải thiện tính ổn

định của mô hình. Sử dụng Pandas giúp việc chuẩn hóa dữ

liệu trở nên dễ dàng và linh hoạt, đặc biệt là khi cần áp dụng

chuẩn hóa cho nhiều biến đồng thời.

Chia dữ liệu thành tập huấn luyện và tập kiểm tra:

 Dữ liệu được chia thành hai phần: một phần được sử dụng để

huấn luyện mô hình và một phần được sử dụng để kiểm tra

hiệu suất của mô hình.

 Hàm train_test_split() từ sklearn.model_selection được sử

dụng để thực hiện phân chia này.

Tham số test_size = 0.3 được sử dụng để chỉ định tỷ lệ phần trăm của dữ liệu

được chia cho tập kiểm tra.

IV. THÔNG KÊ MÔ TẢ

4.1 Thực hiện tính thống kê mô tả cho các biến trong bộ dữ liệu: 4.1.1 Các biến liên tục Phần đầu, ta sẽ thực hiện thống kê mô tả cho các biến liên tục bằng cách tính (trung bình, trung vị, độ lệch chuẩn, min,max) CODE:

Kết quả: 4.2 Vẽ biểu đồ thể hiện phân phối cho các biến 4.2.1. Biểu đồ Histogram của các biến đầu ra “tension strenght”, “elongation” và “roughness” CODE: Kết quả:

Nhận xét: Đồ thị histogram của tension_strength thì tập trung chủ yếu về phía bên phải, trong khoảng từ 25 đến 30. Điều này cho thấy rằng hầu hết các mẫu có sức mạnh căng tương đối cao, có thể là do vật liệu được chọn có tính chất cơ học tốt hoặc quá trình sản xuất được kiểm soát tốt. Kết quả:

Nhận xét: Đồ thị histogram của elongation cho thấy các giá trị lớn tập trung chủ yếu trong khoảng từ 1 đến 2, chỉ ra rằng hầu hết các mẫu có mức độ giãn dài tương đối gần nhau. Điều này có thể chỉ ra rằng quá trình sản xuất hoặc loại vật liệu được sử dụng cho mẫu này có tính đồng đều cao hơn so với các đặc tính khác. 4.2.2. Biểu đồ Boxplot thể hiện phân phối của các biến phụ thuộc vào biến phân loại:  Biểu đồ Boxplot thể hiện phân phối của biến roughness:

Nhận xét: Ở “abs” các giá trị roughness phân bố từ khoảng 90 đến

  1. Trong khi đó “pla” chỉ phân bố đến bé hơn mức trung vị của “abs”. Nhận xét: Ở hình trên ta có thể thấy mức trung vị của grid cao hơn một chút so với mức trung vị của honeycomb. Tuy nhiên nhìn chung hai đồ thị là tương đương nhau và không có điểm cụ thể nào phân biệt rõ mức độ ảnh hưởng của infill_pattern đến roughness.  Biểu đồ Boxplot thể hiện phân phối của biến tension_strenght: Nhận xét: Ở hình , ta có thể thấy cả hai đều có phân bố lệch so với trung vị. Với “pla” các giá trị phân phối từ 14 đến 27. Còn “abs” đa số phân phối bé hơn mức trung vị của “pla”.