Memaksimalkan Knowledge dari Data Warehouse dengan Tehnik Data Mining

Pendahuluan


Mendefinisikan, mengerti, dan megutilisasi knowledge atau pengetahuan dalam ruang lingkup organisasi berarti menginterpretasikan dan mengolah informasi menjadi suatu bagian dari proses yang dilakukan organisai untuk meningkatkan performa organisasi tersebut. Menurut Prusak (1998), knowledge adalah suatu percampuran antara pengalaman-pengalaman yang telah terbentuk, nilai-nilai, informasi yang kontekstual dan wawasan ahli (p. 3). Sumber-sumber knowledge dapat menjadi dua bagian, yaitu internal knowledge dan eksternal knowledge.


Tekanan kompetisi lingkungan bisnis tidak hanya berpengaruh kepada alur proses bisnis      suatu organisasi, tetapi juga dapat memasukkan knowledge dari lingkungan diorganisasi tersebut. Dengan kata lain, setiap organisasi memerlukan akses knowledge atau pengetahuan dari lingkungan sekitarnya untuk memenangkan persaingan, knowledge ini yang biasa disebut knowledge eksternal.  Knowledge ini yang biasanya dibawa kedalam organisasi yang berasal dari lingkungan luar organisasi dan berguna tidak hanya bagi  suatu organisasi itu sendiri, akan tetapi juga bagi kompetitor perusahaan lain. Sedangkan internal knowledge merupakan knowledge yang didapat dari aktivitas kegiatan bisnis organisasi tersebut beserta masalah-masalah yang timbul didalamnya.

Internal knowledge dapat berupa data-data transaksi perusahaan yang diolah menjadi informasi yang dapat mengetahui pola-pola tertentu dari aktitivitas suatu organisasi.  Misalkan setiap data transaksi penjualan yang masuk ke organisasi yang dikumpulkan. Pada faktanya,  banyak organisasi mengkoleksi semua data-data. Tapi apa yang dapat dipelajari dari data-data tersebut? Pengetahuan apa yang dapat diraih dari semua informasi yang terdapat didata?.  Pada saat ini, kita selalu tenggelam dalam sebuah kolam informasi, tetapi kita selalu haus akan pengetahuan didalam informasi tersebut yang terkadang kita tidak dapat melihat informasi tersebut. Masalah yang sebenarnya adalah bukan terletak pada banyaknya data dan informasi yang dialirkan kedalam organisasi, akan tetapi tetapi tidak cukupnya data analyst yang mempunyai skill menterjemahkan data dan informasi tersebut menjadi knowledge, dan pada puncaknya menjadi wisdom organisasi

Data Warehouse

Data warehouse adalah tempat penampungan bagi data-data organisasi yang bernilai tinggi, atau data asset,  yang aslinya berasal dari berbagai aplikasi yang digunakan oleh organisasi seperti data transaksi penjualan dan data customer. Data – data didalam data warehouse telah terorganisir, terasitektur dan secara periodik disalurkan atau dicopykan dari berbagai sumber data kedalam satu data warehouse

Berikut ciri-ciri data warehouse (Hammergren et al, p13) :

1.   Data warehouse menyediakan sentralisasi dari data asset korporasi

2.   Data warehouse tersimpan didalam lingkungan storage yang diatur sangat baik

3.   Data yang ada didalam data warehouse bersifat tetap atau konsisten dan  merupakan proses yang berulang dalam mentransfer data dari berbagai sumber data aplikasi didalam organisasi

4.   Data warehouse dibangun diatas arsitektur yang dapat diukur dan dapat dikembangkan dan dibesarkan seiring meningkatnya ekspansi data

5.   Data warehouse menyediakan tools bagi yang mengizinkan user untuk secara efektif mengolah data  menjadi informasi bagi perusahaan yang dapat dimengerti, meskipun bagi orang yang awam teknologi ini


Online – Analytical Data Processing

Teknologi data warehouse apabila hanya digunakan sebagai tempat penampungan data dan menampilkan data saja, hanya akan menjadi tempat yang begitu banyak informasi, akan tetapi organisai tidak tahu  cara mengolahnya. Teknologi data warehouse, termasuk data cleaning, data integration, dan online – analytical processing (OLAP), dimana OLAP digunakan sebagai tehnik analisis dengan beberapa fungsionalitas seperti summarization, consolidation, aggregation, dimana semua fungsionalitas ini menampilkan informasi dari data warehouse dari berbagai sudut.

Meskipun fungsionalitas OLAP mendukung multidimensional analisis dan pengambil keputusan, organisasi memerlukan tools atau tehnik ekstra didalam in-depth analysis, seperti data classification, clustering  dan karakterisasi data yang dapat berubah sewaktu-waktu. Pertumbuhan data warehouse yang begitu cepat dan begitu besar membuat organisasi memerlukan tools atau tehnik yang kuat untuk mengolah data dan informasi yang sangat besar tersebut. Apabila organisasi tidak mempunyai tehnik tersebut, sebagai hasilnya data warehouse hanya menjadi gudang data yang sia-sia. Pengambilan keputusan dari pihak eksekutif  bukan berdasarkan pada data dan informasi pada yang besar pada data warehouse dan penggunaan intuisi dalam pengambilan keputusan. Akan tetapi secara sederhana, pihak eksekutif tidak mempunyai tools atau tehnik yang dapat mengekstrak knowledge yang bernilai dari data dan informasi didalam data warehouse.

Data Mining

            Data mining merupakan tool yang dapat melakukan data analysis yang dapat membuka data pattern tertentu yang penting. Data mining adalah mengekstrak knowledge dari data yang berjumlah sangat besar. Data mining lebih tepatnya dikatakan sebagai knowledge mining, dimana mining berarti menemukan beberapa set data yang berharga diantara begitu banyak data, untuk dijadikan knowledge (Kamber, 2006, p5). Dari sudut pandang lain, data mining dapat dikatakan sebagai langkah-langkah yang esensial didalam proses knowledge discovery. Secara teknikal, Kamber menjelaskan  langkah-langkah knowledge discovery (Kamber, 2006, p7) :

1.      Data Cleaning. Data cleaning adalah tehnik untuk menghapus data yang bersifat noise atau pengganggu  dan data yang tidak konsisten.

2.      Data Integration. Data integration adalah tahap dimana berbagai sumber data mulai diintegrasikan

3.      Data Selection. Pada tahap ini dimana data yang relevant dianalisis dan dipilih

4.      Data Transformation. Pada tahap ini data ditransformasikan dan dikonsolidasikan kedalam bentuk yang sesuai agar data tersebut dapat diekstrak pada tahap data mining

5.      Data Mining. Pada tahap ini adalah proses yang esensial dimana metode-metode yang pintar diterapkan pada data warehouse untuk mengesktrak data pattern

6.      Pattern Evaluation. Pada tahap ini terjadi identifikasi pattern-patern data yang merepresentasikan knowledge berdasarkan pengukuran-pengukuran yang sesuai

7.      Knowledge Representation. Pada tahap ini dimana tehnik visualisasi dan knowledge representasi digunakan untuk menampilkan knowledge yang telah diekstrak dari dalam data warehouse

 

 

Cross Industry Standard Process – Data Mining :  CRISP-DM

Pada tahun 1996, para analyst yang berasal dari DaimlerChrysler, SPSS, dan NCR membuat standarisasi data mining  untuk industri secara umum, dimana standar ini dapat digunakan untuk memecahkan masalah-masalah strategi organisasi dari unit-unit bisnisnya agar setiap industri dapat mendapatkan dan memaksimalkan knowledge dari data warehouse organisasi. CRISP – DM  merupakan proses yang adaptif dimana setiap fasenya dapat dimodifikasi sesuai dengan kebutuhan industrinya. Berikut fase-fase dari CRISP (Larose, 2005, p6):

1.      Business Understanding Phase

a.    Memberitahukan tujuan proyek dan persyaratan jelas dalam kaitannya dengan  bisnis atau unit penelitian secara keseluruhan.

b.   Menerjemahkan tujuan-tujuan ini dan batasan dalam perumusan masalah data mining

c.    Menyiapkan strategi awal untuk mencapai tujuan ini.

2.      Data Understanding Phase

a.    Mengumpulkan data.

b.   Menggunakan analisis data eksplorasi untuk membiasakan diri dengan data dan menemukan wawasan awal.

c.    Mengevaluasi kualitas data.

d.   Jika diinginkan, pilih menarik himpunan bagian data  yang mungkin berisi pola-pola ditindaklanjuti.

3.      Data Preparation Phase

a.    Persiapkan dari awal data mentah kumpulan data akhir yang akan digunakan untuk semua
fase-fase berikutnya. Fase ini sangat padat karya.

b.   Pilih kasus dan variabel Anda ingin menganalisis dan yang sesuai   untuk analisis Anda.

c.    Melakukan transformasi pada variabel-variabel tertentu, jika diperlukan.
Bersihkan data mentah sehingga siap untuk fase modeling.

4.      Modeling Phase

a.    Pilih dan menerapkan teknik-teknik pemodelan yang sesuai.

b.   Modelmeng kalibrasi pengaturan untuk mengoptimalkan hasil.

c.    Beberapa teknik yang berbeda dapat digunakan untuk hal yang sama untuk permasalahan data mining

d.   Jika diperlukan, ulang kembali ke tahap fase  data preparation untuk membawa bentuk
data ke dalam baris dengan persyaratan tertentu dari tehnik data mining tertentu.

5.      Evaluation Phase

a.    Evaluasi satu atau lebih model yang disampaikan dalam tahap pemodelan kualitas
dan efektivitas sebelum penggelaran mereka untuk digunakan di lapangan.

b.   Menentukan apakah model dalam kenyataannya mencapai sasaran yang ditetapkan untuk itu dalam  tahap pertama.

c.    Menetapkan apakah beberapa aspek penting dari bisnis atau masalah penelitian
belum dipertanggungjawabkan cukup.

d.   Mengambil keputusan mengenai penggunaan data hasildata mining.

6.      Deployment Phase

a.    Memanfaatkan model dibuat: Fase tidak menandakan selesainya  proyek.

b.   Contoh penyebaran sederhana: Menghasilkan sebuah laporan.

c.    Contoh penyebaran yang lebih kompleks: Menerapkan data mining parallel
proses di departemen lain.

d.   Untuk bisnis, pelanggan sering melakukan pengerahan berdasarkan model.

 

Studi Kasus

Business Understanding Phase

Pada krisis ekonomi yang terjadi di Asia beberapa terakhir ini telah melahirkan tingkat kebangkrutan perusahaan yang belum pernah terjadi sebelumnya didalam wilayah tersebut dan seluruh dunia. Peneliti dari Kyonggi University dan Sogang University, Tae Kyung dan Namsik Chang telah mengembangkan model untuk memprediksi kebangkrutan perusahaan. Mereka merasa bahwa interpretability sangat penting, dikarenakan prediksi kebangkrutan yang negative dapat berdampak pada keuangan organisasi. Prediksi kebangrkrutan bagi peneliti korea tersebut sangat penting karena organisasi dapat dengan cepat mengambil tindakan bilamana prediksi tersebut mendekati kebenaran

Data Understanding Phase

Data terbagi atas dua kelompok, perusahaan Korea yang bangkrut dalam pertumbuhan yang relatif stabil
periode 1991-1995, dan perusahaan-perusahaan Korea yang bangkrut dalam kondisi krisis ekonomi
1997-1998. Setelah berbagai prosedur penyaringan, 29 perusahaan yang diidentifikasi, kebanyakan berada pada sektor manufaktur. Data keuangan dikumpulkan langsung dari Korea Stock Exchange,  dan diverifikasi oleh Bank of Korea dan Bank Industri Korea.

Data Preparation Phase

Lima puluh enam rasio keuangan diidentifikasi oleh para peneliti melalui pencarian literatur pada prediksi kebangkrutan, 16 data perusahaan di antaranya kemudian tidak digunakan karena duplikasi. Masih ada  40 rasio keuangan dalam kumpulan data, termasuk ukuran pertumbuhan, profitabilitas, keselamatan / pengaruh, kegiatan / efisiensi, dan produktivitas.

 

Modelling Phase

 

Model Pohon pengambil keputusan  terbagi dua, yaitu kondisi normal dan kondisi krisis. Berikut beberapa aturan modeling pada kondisi normal:

 

a.       Jika produktivitas modal lebih besar dari 19,65, prediksi perusahaan tidak mengalami kebangkrutan dengan keyakinan data sebesar 86%.

b.      Jika rasio arus kas untuk total aset adalah lebih besar dari -5,65, prediksi perusahaan tidak mengalami kebangkrutan dengan keyakinan data sebesar 95%.

c.       Jika produktivitas modal adalah pada atau di bawah 19,65 dan rasio arus kas dengan total aset
berada pada atau di bawah -5,65, memprediksi kebangkrutan keyakinan data sebesar 84%.

 

Berikut beberapa aturan modeling pada kondisi krisis:

a.       Jika produktivitas modal lebih besar dari 20,61, prediksi perusahaan tidak mengalami kebangkrutan dengan keyakinan data 91%.

b.      Jika rasio arus kas untuk kewajiban lebih besar dari 2,64, prediksi perusahaan tidak mengalami kebangkrutan dengan keyakinan data 85%.

c.       Jika rasio aktiva tetap kepada pemegang saham ekuitas dan kewajiban jangka panjang lebih besar daripada  87,23, memprediksi perusahaan tidak mengalami kebangkrutan dengan keyakinan data sebesar 86%.

d.      Jika produktivitas modal adalah pada atau di bawah 20,61, dan rasio arus kas untuk kewajiban
berada pada atau di bawah 2,64, dan rasio aktiva tetap kepada pemegang saham ekuitas dan jangka panjang  kewajiban adalah pada atau di bawah 87,23, memprediksi bangkrut dengan data sebesar 84%.

Arus kas dan produktivitas modal yang ditemukan untuk menjadi penting terlepas dari kondisi ekonomi. Sementara arus kas terkenal didalam literatur prediksi kebangkrutan,  identifikasi produktivitas modal relatif langka, yang karenanya menuntut lebih lanjut verifikasi

Evaluation Phase

Para peneliti mengadakan panel pakar ahli keuangan, yang dipilih dengan suara bulat produktivitas modal sebagai atribut yang paling penting untuk membedakan perusahaan dalam bahaya  kebangkrutan dari perusahaan lain. Dengan demikian, hasil yang tidak diharapkan ditemukan oleh pohon keputusan model itu diverifikasi oleh para ahli. Untuk memastikan bahwa model digeneralisasikan ke populasi semua manufaktur Korea perusahaan, kontrol sampel perusahaan non bankrupt dipilih, dan atribut kontrol sampel dibandingkan dengan perusahaan dalam kumpulan data. Ditemukan bahwa kontrol sampel rata-rata rata-rata aset dan jumlah karyawan yang berada dalam jarak 20% dari data sampel. Akhirnya, para peneliti menerapkan analisis diskriminan ganda sebagai tolok ukur kinerja. Banyak dari 40 rasio keuangan yang ditemukan untuk menjadi prediktor signifikan kepailitan, dan fungsi diskriminan akhir termasuk variabel yang diidentifikasi oleh model pohon keputusan

 

Deployment Phase

 

Karena penelitian ini, lembaga keuangan di Korea adalah sekarang lebih sadar akan prediktor kebangkrutan untuk kondisi krisis, sebagai lawan dari kondisi normal.

 

Reference

 

Hammergren Thomas C., Simon, Alan R., 2009, Data Warehouse for Dummies 1st ed., Wiley Publishing, Canada

Kamber, Micheline, Han, Jiawei, 2006,  Data Mining: concept and techniques 2nd ed., Diane Cerra, San Fransisco

Larose, Daniel T., 2005, Discovering Knowledge in Data 1st ed., Wiley Publishing, Canada


Leave a Reply