Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Đồ án môn học Khoa học dữ liệu, Study Guides, Projects, Research of Data Analysis & Statistical Methods

PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE

Typology: Study Guides, Projects, Research

2021/2022

Uploaded on 11/15/2022

thumint
thumint 🇻🇳

5

(3)

2 documents

1 / 24

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
🖎🕮
ĐỒ ÁN MÔN HỌC
ĐỀ TÀI:
PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ
DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE
Học phần: Khoa Học Dữ Liệu
Nhóm Sinh Viên:
1. NGUYỄN PHƯƠNG PHI - 31211026995
2. NGUYỄN ANH THƯ - 31211025873
Chuyên Ngành: TÀI CHÍNH
Khóa: K47
Giảng Viên: TS. Đặng Ngọc Hoàng Thành
TP. Hồ Chí Minh, Ngày 28 tháng 10 năm 2022
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18

Partial preview of the text

Download Đồ án môn học Khoa học dữ liệu and more Study Guides, Projects, Research Data Analysis & Statistical Methods in PDF only on Docsity!

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ 🖎🕮 ✍

ĐỒ ÁN MÔN HỌC

ĐỀ TÀI:

PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ

DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE

Học phần : Khoa Học Dữ Liệu

Nhóm Sinh Viên :

1. NGUYỄN PHƯƠNG PHI - 31211026995

2. NGUYỄN ANH THƯ - 31211 025873

Chuyên Ngành : TÀI CHÍNH

Khóa : K

Giảng Viên : TS. Đặng Ngọc Hoàng Thành

TP. Hồ Chí Minh, Ngày 28 tháng 10 năm 2022

MỤC LỤC

  • MỤC LỤC.........................................................................................................................
  • CHƯƠNG 1. TỔNG QUAN............................................................................................
    • 1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu........................................................................................
    • 1.2. Giới Thiệu Về Phần Mềm Orange......................................................................................................
    • 1.3. Lý Do Chọn Lựa Đề Tài......................................................................................................................
  • CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU..................................................
    • 2.1. Các Mô Hình Phân Lớp Dữ Liệu.........................................................................................................
      • 2.1.1. Mô Hình Logistic Regression......................................................................................................
      • 2.1.2. Mô Hình Decision Tree...............................................................................................................
      • 2.1.3. Mô Hình Support Vector Machine.............................................................................................
      • 2.1.4. Mô Hình Neural Network...........................................................................................................
    • 2.2. Quy Trình Phân Lớp Dữ Liệu.............................................................................................................
      • 2.2.1. Phân Chia Dữ Liệu......................................................................................................................
      • 2.2.2. Phân Lớp Dữ Liệu.......................................................................................................................
      • 2.2.3. Đánh Giá Tính Hiệu Quả.............................................................................................................
  • CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM........................................................
    • 3.1. Bộ Dữ Liệu.......................................................................................................................................
    • và 20% cho việc kiểm tra dữ liệu........................................................................................................... Tiếp đến sinh viên dùng “Data Sampler” để phân chia dữ liệu thành 2 phần, 80% cho việc huấn luyện
    • ở nông thôn........................................................................................................................................... Tỉ lệ được vay của những người có tài sản ở thành thị và bán thành thị cao hơn nhóm người có tài sản
    • 3.2. Các Kết Quả Thực Nghiệm..............................................................................................................
    • 3.3. Phân Tích và Đánh Giá....................................................................................................................
  • CHƯƠNG 4. KẾT LUẬN..............................................................................................
    • 4.1. Các Kết Quả Đạt Được....................................................................................................................
    • 4.2. Những Hạn Chế và Hướng Phát Triển.............................................................................................
  • TÀI LIỆU THAM KHẢO.............................................................................................

Các công cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng , lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học , trực quan hóa các phần tử dữ liệu, … 1.3. Lý Do Chọn Lựa Đề Tài Trong thời đại cách mạng công nghiệp 4.0 hiện nay, nhiều công nghệ nổi bật ra đời như trí tuệ nhân tạo, Internet vạn vật và big data. Sự phát triển này đã tác động mạnh mẽ đến nền kinh tế. Ứng dụng công nghệ số hóa để thực hiện những nhiệm vụ, quy trình trong sản xuất, kinh doanh để tối ưu hóa chi phí, đảm bảo hiệu suất. Thông qua kiến thức môn Khoa học dữ liệu đã cung cấp, ứng dụng các phát triển công nghệ thông tin vào để phân tích dữ liệu từ đó đưa ra những quyết định kinh tế. Là những sinh viên Kinh tế, việc áp dụng những kiến thức đã được trang bị vào thực tiễn để quan sát các hiện tượng kinh tế và sử dụng thông tin ấy để phát triển kinh doanh. Nhận thấy nhu cầu vay của người tiêu dùng ngày càng lớn, nhiều công ty tín dụng ra đời ở Việt Nam hiện nay. Bằng chứng là quy mô thị trường tín dụng tiêu dùng đạt mức 646 nghìn tỷ đồng vào cuối năm 2016, phục vụ 20 triệu lượt khách hàng ở 63 tỉnh, thành phố trên cả nước. (Cao, 2018). Nhiều công ty tín dụng muốn thực hiện tự động hóa quy trình xét duyệt điều kiện cho vay dựa trên thông tin khách hàng điền đơn trực tuyến. Để tự động hóa quy trình này, họ đã đưa ra bài toán xác định các phân khúc khách hàng, đối tượng được vay vốn để có thể hướng đến đối tượng khách hàng cụ thể. Nắm bắt được nhu cầu thực tiễn trên, nhóm sinh viên nghiên cứu quyết định chọn đề tài: “ Phân tích dữ liệu phân hạng tín dụng dựa trên bộ dữ liệu XYZ bằng phần mềm Orange ” làm đồ án môn học CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1. Các Mô Hình Phân Lớp Dữ Liệu 2.1.1. Mô Hình Logistic Regression Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)

Loại mô hình thống kê này (còn được gọi là mô hình logit ) thường được sử dụng để phân loại và phân tích dự đoán. Hồi quy logistic ước tính xác suất xảy ra một sự kiện, chẳng hạn như đã bỏ phiếu hoặc không bỏ phiếu, dựa trên một tập dữ liệu nhất định của các biến độc lập. (Vũ, 2020) Mô hình Hồi quy Logistic 2.1.2. Mô Hình Decision Tree

Cây Quyết định là một phương pháp học tập có giám sát phi tham số được sử dụng để

phân loại và hồi quy. Mục tiêu là tạo ra một mô hình dự đoán giá trị của một biến mục

tiêu bằng cách tìm hiểu các quy tắc quyết định đơn giản được suy ra từ các tính năng

dữ liệu. Một cây có thể được coi là một phép gần đúng không đổi theo từng mảnh.

Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal. Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả Khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định. Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa gặp dữ liệu cho trước. (Nguyễn, 2005)

2.1.4. Mô Hình Neural Network Neural Network đọc tiếng việt là Mạng nơ-ron nhân tạo, đây là một chuỗi những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu. Thông qua việc bắt bước cách thức hoạt động từ não bộ con người. Mạng Neural Network là sự kết hợp của những tầng perceptron hay còn gọi là perceptron đa tầng. Và mỗi một mạng Neural Network thường bao gồm 3 kiểu tầng là: ● Tầng input layer (tầng vào): Tầng này nằm bên trái cùng của mạng, thể hiện cho các đầu vào của mạng. ● Tầng output layer (tầng ra): Là tầng bên phải cùng và nó thể hiện cho những đầu ra của mạng. ● Tầng hidden layer (tầng ẩn): Tầng này nằm giữa tầng vào và tầng ra nó thể hiện cho quá trình suy luận logic của mạng. Mô hình Neutral Network 2.2. Quy Trình Phân Lớp Dữ Liệu 2.2.1. Phân Chia Dữ Liệu a. Hold-out

Phương pháp Hold-out phân chia dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ nhất định. Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệp (testing set) chiếm 30%. Phương pháp này thích hợp cho các bộ dữ liệu nhỏ. Tuy nhiên, các mẫu có thể không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm). Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu phân bố đều trong cả 2 tập dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu ngẫu nhiên: thực hiện holdout k lần và độ chính xác acc(M)=trung bình cộng k giá trị chính xác. Phương pháp Hold-out phân chia dữ liệu b. K-fold cross validation Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước (gọi là các fold). Một trong các fold được sử dụng làm tập dữ liệu đánh giá và phần còn lại được sử dụng làm tập huấn luyện. Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu đánh giá. Phương pháp phân chia dữ liệu K-fold cross validation

Confusion Matrix b. Accuracy (Độ chính xác) Accuracy là tỉ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu. Cách tính sử dụng accuracy chỉ cho chúng ta biết được bao nhiêu phần trăm lượng dữ liệu được phân loại đúng mà không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác c. Precision (độ chính xác), Recall (độ phủ) Precision cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng. Recall còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate). Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót các điểm thực sự positive là thấp. Khi Precision = 1, mọi điểm tìm được đều thực sự là positive , tức không có điểm negative nào lẫn vào kết quả. Tuy nhiên, Precision = 1 không đảm bảo mô hình là tốt, vì câu hỏi đặt ra là liệu mô hình đã tìm được tất cả các điểm positive hay chưa. Nếu một mô hình chỉ tìm được đúng một điểm positive mà nó chắc chắn nhất thì ta không thể gọi nó là một mô hình tốt.

Khi Recall = 1, mọi điểm positive đều được tìm thấy. Tuy nhiên, đại lượng này lại không đo liệu có bao nhiêu điểm negative bị lẫn trong đó. Nếu mô hình phân loại mọi điểm là positive thì chắc chắn Recall = 1, tuy nhiên dễ nhận ra đây là một mô hình cực tồi. Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao, tức càng gần một càng tốt. d. F1-score F1-score là harmonic mean của precision và recall (giả sử rằng hai đại lượng này khác không): F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn. Một bộ phân lớp với precision = recall = 0.5 tốt hơn một bộ phân lớp khác với precision = 0.3, recall = 0.8 theo cách đo này. e. ROC và AUC ROC (Receiver Operating Characteristic) là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau. Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả. AUC (Area Under the Curve) là diện tích nằm dưới đường cong ROC. ● Giá trị này là một số dương nhỏ hơn hoặc bằng 1. ● Giá trị này càng lớn thì mô hình các tốt. CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM 3.1. Bộ Dữ Liệu a. Mô tả dữ liệu Nhằm ứng dụng khai phá dữ liệu trong việc ra quyết định phê duyệt cho vay, bộ dữ liệu của bài nghiên cứu được lấy từ trang Loan Data Set

  • Trong các cột dữ liệu, cột Loan Status là mục tiêu của bài nghiên cứu, cho biết khách hàng có vay được tiền hay không. Trong bài này, sinh viên sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu.
  • Các biến khác bao gồm:

Các thuộc tính của bộ dữ liệu Quan sát dữ liệu sinh viên nhận thấy các vấn đề sau ● Loan_ID là thuộc tính không ảnh hưởng đến việc đưa ra đánh giá, nên thuộc tính sẽ được khai báo là “Skip”. ● Có 2% missing data nên sẽ dùng “Impute” để xử lí.

Sử dụng Impute để xử lý missing data

Tiếp đến sinh viên dùng “Data Sampler” để phân chia dữ liệu thành 2 phần, 80% cho việc huấn luyện và 20% cho việc kiểm tra dữ liệu Sử dụng Data Sampler để phân chia dữ liệu c. Trực quan hóa dữ liệu Sinh viên dùng “Distribution” trong Orange để trực quan hóa dữ liệu:

Trực quan hóa dữ liệu về tỷ lệ vay được theo giới tính Cả hai giới tính đều có tỷ lệ phần trăm được phê duyệt khoản vay như nhau. Trực quan hóa dữ liệu về tỷ lệ vay được theo tình trạng hôn nhân

Trực quan hóa dữ liệu về tỷ lệ vay được theo có tự kinh doanh hay không Nhóm người tự kinh doanh và nhóm người không tự kinh doanh có tỉ lệ được vay bằng nhau.

Trực quan hóa dữ liệu về tỷ lệ vay được theo lịch sử tín dụng Những người trả không đúng hạn các khoản vay trong quá khứ có tỉ lệ được vay rất thấp. Ngược lại, những người trả đúng hạn các khoản vay trong quá khứ có 80% vay được. Trực quan hóa dữ liệu về tỷ lệ vay được theo vị trí của tài sản Tỉ lệ được vay của những người có tài sản ở thành thị và bán thành thị cao hơn nhóm người có tài sản ở nông thôn. 3.2. Các Kết Quả Thực Nghiệm Sau khi thử hiện kiểm thử trên 3 mô hình theo các bước sau đây: