Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Data Mining Pertemuan ke satu Mahasiswa STIKOM Tunas Bangsa, Lecture notes of Data Mining

Data Mining Pertemuan ke satu Mahasiswa STIKOM Tunas Bangsa

Typology: Lecture notes

2016/2017

Uploaded on 09/03/2017

dedy-hartama
dedy-hartama 🇮🇩

1 document

1 / 8

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
BAB 1 PENGERTIAN DATA MINING
DAN FUNGSI-FUNGSI DATA MINING
Pendahuluan
Perkembangan yang cepat dalam teknologi pengumpulan dan
penyimpanan data telah memudahkan organisasi untuk mengumpulkan sejumlah
data berukuran besar sehingga menghasilkan gunung data. Ekstraksi informasi
yang berguna dari gunung data menjadi pekerjaan yang cukup menantang.
Seringkali alat dan teknik analisis data tradisional tidak dapat digunakan dalam
mengekstrak informasi dari data berukuran besar. Data mining adalah teknologi
yang merupakan campuran metode-metode analisis data dengan algoritme-
algoritme untuk memproses data berukuran besar. Data mining telah banyak
diaplikasikan dalam berbagai bidang, diantanya dalam bidang bisnis dan
kedokteran.
Dalam bidang bisnis, teknik data mining digunakan untuk mendukung
cakupan yang luas dari aplikasi-aplikasi bisnis inteligen seperti customer
profiling, targeted marketing, workflow management, store layout dan fraud
detection. Teknik data mining dapat digunakan untuk menjawab pertanyaan
bisnis yang penting seperti ”Siapakan pelanggan yang akan paling banyak
mendatangkan keuntungan ?” dan ” Seperti apa perkiraan pendapatan perusahaan
tahun depan ?”.
Dalam bidang kedokteran, peneliti dalam bidang biomolekuler dapat
menggunakan teknik data mining untuk menganalisis sejumlah besar data
genomic yang sekarang ini telah banyak dikumpulkan untuk menjelaskan struktur
dan fungsi gen, memprediksi struktur protein, dan lain-lain.
1.1 Pengertian Data mining
Data mining adalah sebuah proses percarian secara otomatis informasi
yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang
sering digunakan diantaranya knowledge discovery (mining) in databases (KDD),
knowledge extraction, data/pattern analysis, data archeology, data dredging,
information harvesting, dan business intelligence. Teknik data mining digunakan
untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola
yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan
sebagai data mining. Sebagai contoh, pencarian record individual menggunakan
database management system atau pencarian halaman we tertentu melalui kueri ke
semua search engine adalah pekerjaan pencarian informasi yang erat kaitannya
dengan information retrieval. Teknik-teknik data mining dapat digunakan untuk
meningkatkan kemampuan sistem-sistem information retrieval.
Data mining adalah bagian integral dari knowledge discovery in databases
(KDD). Keseluruhan proses KDD untuk konversi raw data ke dalam informasi
yang berguna ditunjukkan dalam Gambar 1.1.
Modul Kuliah Data Mining 3
pf3
pf4
pf5
pf8

Partial preview of the text

Download Data Mining Pertemuan ke satu Mahasiswa STIKOM Tunas Bangsa and more Lecture notes Data Mining in PDF only on Docsity!

BAB 1 PENGERTIAN DATA MINING

DAN FUNGSI-FUNGSI DATA MINING

Pendahuluan

Perkembangan yang cepat dalam teknologi pengumpulan dan penyimpanan data telah memudahkan organisasi untuk mengumpulkan sejumlah data berukuran besar sehingga menghasilkan gunung data. Ekstraksi informasi yang berguna dari gunung data menjadi pekerjaan yang cukup menantang. Seringkali alat dan teknik analisis data tradisional tidak dapat digunakan dalam mengekstrak informasi dari data berukuran besar. Data mining adalah teknologi yang merupakan campuran metode-metode analisis data dengan algoritme- algoritme untuk memproses data berukuran besar. Data mining telah banyak diaplikasikan dalam berbagai bidang, diantanya dalam bidang bisnis dan kedokteran.

Dalam bidang bisnis, teknik data mining digunakan untuk mendukung cakupan yang luas dari aplikasi-aplikasi bisnis inteligen seperti customer profiling, targeted marketing, workflow management, store layout dan fraud detection. Teknik data mining dapat digunakan untuk menjawab pertanyaan bisnis yang penting seperti ”Siapakan pelanggan yang akan paling banyak mendatangkan keuntungan ?” dan ” Seperti apa perkiraan pendapatan perusahaan tahun depan ?”.

Dalam bidang kedokteran, peneliti dalam bidang biomolekuler dapat menggunakan teknik data mining untuk menganalisis sejumlah besar data genomic yang sekarang ini telah banyak dikumpulkan untuk menjelaskan struktur dan fungsi gen, memprediksi struktur protein, dan lain-lain.

1.1 Pengertian Data mining

Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record individual menggunakan database management system atau pencarian halaman we tertentu melalui kueri ke semua search engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknik-teknik data mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval.

Data mining adalah bagian integral dari knowledge discovery in databases (KDD). Keseluruhan proses KDD untuk konversi raw data ke dalam informasi yang berguna ditunjukkan dalam Gambar 1.1.

Gambar 1.1 Proses dalam KDD (Tan et al, 2005)

Data input dapat disimpan dalam berbagai format seperti flat file , spreadsheet , atau tabel-tabel relasional, dan dapat menempati tempat penyimpanan data terpusat atau terdistribusi pada banyak tempat. Tujuan dari preprocessing adalah mentransformasikan data input mentah ke dalam format yang sesuai untuk analisis selanjutnya. Langkah-langkah yang terlibat dalam preprocessing data meliputi mengabungkan data dari berbagai sumber, membersihkan (cleaning) data untuk membuang noise dan observasi duplikat, dan menyeleksi record dan fitur yang relevan untuk pekerjaan data mining. Karena terdapat banyak cara mengumpulkan dan menyimpan data, tahapan preprocessing data merupakan langkat yang banyak menghabiskan waktu dalam KDD.

Hasil dari data mining sering kali diintegrasikan dengan decision support system (DSS). Sebagai contoh, dalam aplikasi bisnis informasi yang dihasilkan oleh data mining dapat diintegrasikan dengan tool manajemen kampanye produk sehingga promosi pemasaran yang efektif yang dilaksanakan dan dapat diuji. Integrasi demikian memerlukan langkah postprocessing yang menjamin bahwa hanya hasil yang valid dan berguna yang akan digabungkan dengan DSS. Salah satu pekerjaan dan postprocessing adalah visualisasi yang memungkinkan analyst untuk mengeksplor data dan hasil data mining dari berbagai sudur pandang. Ukuran-ukuran statistik dan metode pengujian hipotesis dapat digunakan selama postprocessing untuk membuang hasil data mining yang palsu.

Secara khusus, data mining menggunakan ide-ide seperti (1) pengambilan contoh, estimasi, dan pengujian hipotesis, dari statistika dan (2) algoritme pencarian, teknik pemodelan, dan teori pembelajaran dari kecerdasan buatan, pengenalan pola, dan machine learning. Data mining juga telah mengadopsi ide- ide dari area lain meliputi optimisasi, evolutionary computing, teori informasi, pemrosesan sinyal, visualisasi dan information retrieval. Sejumlah area lain juga memberikan peran pendukung dalam data mining , seperti sistem basis data yang dibutuhkan untuk menyediakan tempat penyimpanan yang efisien, indexing dan pemrosesan kueri. Gambar 1.2 menunjukkan hubungan data mining dengan area- area lain.

Gambar 1.2 Data mining sebagai pertemuan dari banyak disiplin ilmu (Tan et al, 2005)

Data cleaning & data integration

Database or data warehouse server

Data mining engine

Pattern evaluation

Graphical user interface

Knowledge-base

Data Warehouse

Filtering

Databases

Gambar 1.3 Arsitektur sistem data mining (Han dan Kamber, 2001)

Data mining dapat diaplikasikan pada berbagai jenis penyimpanan data seperti basis data relational, data warehouse , transactional database, object- oriented and object-relational databases, spatial databases, time-series data and temporal data, text databases and multimedia databases, heterogeneous and legacy databases dan WWW.

a. Basis data Relasional

Basis data relasional merupakan koleksi dari table. Setiap table berisi atribut (field) dan biasanya menyimpan sejumlah besar tuple ( record ). Setiap tuple dalam table relasional merepesentasikan sebuah objek yang diidentifikasikan oleh kunci unik dan dideskripsikan oleh sekumpulan nilai atribut. Data relasional dapat diakses oleh kueri basis data yang ditulis dalam bahasa kueri relasional seperti SQL atau dengan bantuan antarmuka pengguna grafis.

b. Data warehouse

Data warehouse merupakan tempat penyimpanan informasi yang dikumpulkan dari berbagai sumber, disimpan dalam skema yang dipersatukan (unified schema) dan biasanya bertempat pada tempat penyimpanan tunggal. Data warehouse dikonstruksi melalui sebuah proses data cleaning , data transformation , data integration , data loading dan periodic data refreshing. Untuk memfasilitasi proses pembuatan keputusan, data dalam data warehouse diorganisasikan ke dalam subjek utama seperti customer, item, supplier atau aktivitas. Data disimpan untuk menyediakan informasi dari perspektif sejarah (seperti 5-10 tahun yang lalu) dan biasanya data tersebut diringkas ( summarized ). Sebagai contoh, daripada menyimpan data rinci dari transaksi penjualan, data warehouse dapat menyimpan ringkasan dari transaksi per tipe item untuk setiap toko atau diringkas dalam level yang lebih tinggi seperti daerah pemasaran.

Data warehouse biasanya dimodelkan oleh struktur basis data multidimensional, dimana setiap dimensi berkaitan dengan sebuah atribut atau sekumpulan atribut dalam skema, dan setiap sel menyimpan nilai dari ukuran agregasi seperti count dan sales_amount. Struktur fisik dari data warehouse dapat berupa penyimpanan basis data relasional atau sebuah kubus data multidimensional.

Selain data warehouse , terdapat istilah penyimpanan data yang lain yaitu data mart. Sebuah data warehouse mengumpulkan informasi mengenai subjek- subjek yang menjangkau seluruh organisasi, dengan demikian cakupannya enterprise-wide. Sedangkan data mart merupakan sub bagian dari data warehouse. Fokus data mart adalah pada subjek yang dipilih dan dengan demikian cakupannya adalah department-wide.

c. Basis data Transaksional

Secara umum, basis data transaksional terdiri dari sebuah file dimana setiap record merepresentasikan transaksi. Sebuah transaksi biasanya meliputi bilangan identitas transaksi yang unik (trans_id), dan sebuah daftar dari item yang membuat transaksi (seperti item yang dibeli dalam sebuah took). Basis data transaksi dapat memiliki tabel tambahan, yang mengandung informasi lain berkaitan dengan penjualan seperti tanggal transaksi, customer ID number, ID number dari sales person dan dari kantor cabang (branch) dimana penjualan terjadi.

1.3 Tugas-tugas dalam Data mining

Tugas-tugas dalam data mining secara umum dibagi ke dalam dua kategori utama:

  • Prediktif. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai dari atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas.
  • Deskriptif. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend , cluster , trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.

Berikut adalah tugas-tugas dalam data mining :

  • Analisis Asosiasi (Korelasi dan kausalitas)

Analisis asosiasi adalah pencarian aturan-aturan asosiasi yang menunjukkan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa market basket dan data transaksi. Aturan-aturan asosiasi memiliki bentuk X ⇒ Y, bahwa A 1 ∧ A 2 ∧ … ∧ Am → B 1 ∧ B 2 ∧ … ∧ Bn , dimana Ai (untuk i = 1, 2, …, m) dan Bj (untuk j = 1, 2, …,

pembelajaran, dan visualisasi. Sistem data mining dapat diklasifsikasikan berdasarkan beberapa kategori, yaitu

  • Klasifikasi berdasarkan data yang akan di- mine seperti relational , transactional , object-oriented , object-relational , spatial , time-series , text , multi-media dan www.
  • Klasifikasi berdasarkan pengetahuan yang akan di- mine , yaitu berdasarkan fungsionalitas data mining seperti karakterisasi, diskriminasi, asosiasi, klasifikasi, clustering , analisis outlier dan analisis evolusi. Sistem data mining yang komprehensif biasanya menyediakan beberapa fungsi-fungsi data mining.
  • Klasifikasi berdasarkan teknik yang akan digunakan seperti database- oriented , data warehouse (OLAP), machine learning , Statistics , Visualization dan neural network.
  • Klasifikasi berdasarkan aplikasi yang diadaptasi, sebagai contoh system data mining untuk keuangan, telekomunikasi, DNA, dan e-mail.

Penutup – Soal Latihan

Tugas Individu

Jawablah pertanyaan berikut secara singkat dan jelas. Carilah literatur pendukung untuk memperkaya jawaban anda.

  1. Apakah data mining itu?
  2. Sebutkan dan jelaskan secara singkat area-area yang berhubungan dengan data mining
  3. Apa yang dimaksud dengan descriptive data mining dan predictive data mining?
  4. Jelaskan secara singkat apa itu teknik asosiasi, klasifikasi, prediksi dan clustering. Berikan contoh pengunaan teknik-teknik tersebut menggunakan basis data yang telah anda kenal sehari-hari.

Tugas Kelompok

Diskusikan dengan kelompok anda jawaban untuk pertanyaan-pernyataan berikut. Carilah literatur pendukung untuk memperkaya jawaban anda.

  1. Berikan contoh aplikasi dari data mining dalam berbagai bidang.
  2. Tentukan apakah aktivitas-aktivitas berikut adalah tugas dalam data mining?

a. Membagi pelanggan sebuah perusahaan berdasarkan jenis kelamin b. Membagi pelanggan sebuah perusahaan berdasarkan profitabilitas-nya c. Menghitung total penjualan dari sebuah perusahaan d. Mengurutkan basis data mahasiswa berdasarkan NRP mahasiswa e. Memprediksi keluaran dari hasil pelemparan sepasang dadu

f. Memprediksi harga stock mendatang dari sebuah perusahaan berdasarkan record historis

g. Memonitor kecepatan jantung dari seorang pasien

h. Memonior gelombang yang berkaitan dengan gempa bumi untuk aktivitas gempa bumi

i. Mengekstrak frekuensi dari gelombang suara.