tugas data warehouse
Kerangka Evolusi Data Warehouse
Abstrak
Dalam
makalah ini disajikan kerangka kerja gudang data yang mendukung evolusi gudang
data. Kerangka kerja ini mampu menangani tidak hanya perubahan sumber data,
tetapi juga perubahan langsung dalam skema data warehouse. Dalam kerangka versi
data warehouse didukung di lingkungan pengembangan serta dalam laporan di
lingkungan pengguna.
1
Pendahuluan
Data
warehouse mengintegrasikan informasi dari berbagai sumber data terdistribusi
dan otonom yang dapat berubah seiring waktu. Oleh karena itu, gudang data harus
dapat beradaptasi dengan perubahan apa pun yang dapat terjadi pada sumber data
yang mendasarinya. Selain itu kebutuhan bisnis sering berubah di tingkat klien.
Itu dapat menyebabkan perubahan pada model gudang data. Semua perubahan dalam
sumber data atau persyaratan bisnis ini dapat membatalkan skema dan proses
ekstraksi data, transformasi, dan pemuatan (ETL) yang ada dari gudang data.
Inilah sebabnya mengapa perubahan ini perlu ditangani dengan benar. Dalam
banyak kasus, gudang data yang ada dapat disesuaikan dengan perubahan.
Adaptasi
sederhana dari skema data warehouse dapat menyebabkan hilangnya histori ketika
beberapa struktur data yang tersedia sebelumnya dihapus. Untuk mengatasi
masalah kehilangan sejarah, perlu untuk menyimpan versi data warehouse.
Pembuatan versi skema berarti bahwa perubahan dalam skema gudang data membuat
versi skema baru yang diberi stempel waktu atau pengenal yang ditentukan
pengguna lainnya.
Dalam
makalah ini kerangka data warehouse dibahas. Kerangka kerja mendukung evolusi
skema gudang data yang dapat terjadi karena berbagai alasan, termasuk kasus
ketika skema sumber data diubah. Perubahan yang didukung adalah penyisipan,
penghapusan, dan penggantian nama relasi sumber, penyisipan, penghapusan,
penggantian nama, dan perubahan jenis atribut relasi sumber. Kerangka kerja
yang diusulkan tidak hanya mengotomatiskan evolusi skema data warehouse atau
pembuatan versi baru, tetapi juga memungkinkan untuk mengadaptasi proses ETL
dan laporan yang ada pada skema data warehouse.
2 Contoh Memotivasi
Skema
gudang data sering berkembang ketika persyaratan bisnis diubah atau diperluas
atau skema diadaptasi setelah perubahan sumber data.
Sebagai
contoh, mari kita perhatikan sebuah gudang data yang menyimpan informasi
tentang aktivitas siswa dalam sistem manajemen pembelajaran (LMS). Gudang data
ini berisi satu tabel fakta dengan ukuran: hits dan waktu, yang mencatat durasi
aktivitas siswa. Langkah-langkah ini dapat dianalisis dengan kursus yang
digunakan, alat dalam kursus ini dan waktu, ketika aktivitas terjadi. Aktivitas
semua siswa dirangkum.
Selama
pengoperasian gudang data yang disebutkan di atas, pengguna mengeluh bahwa
informasi yang tersedia di dalamnya tidak mencukupi karena skema yang ada tidak
memenuhi perincian yang diinginkan. Selain itu, diputuskan untuk menyimpan juga
data tentang kegiatan dosen mata kuliah. Oleh karena itu, dimensi baru yang
menggambarkan pengguna tertentu dan perannya dalam kursus dibuat.
3
Pekerjaan terkait
Dalam
literatur terdapat berbagai solusi untuk masalah evolusi data warehouse, yaitu
adaptasi data warehouse setelah perubahan sumber data dan skema serta kebutuhan
bisnis. Dalam [1] operasi evolusi primitif yang terjadi pada skema data
warehouse didefinisikan. Aktivitas adaptasi yang diperlukan dari Dalam [7]
model metadata yang mendukung versi skema untuk gudang data diperkenalkan.
Solusi manajemen metadata di gudang data multiversi juga diusulkan di [20], di
mana salah satu masalah yang dibahas adalah dukungan metadata untuk mendeteksi
perubahan sumber dan penyebarannya kedata yang ditunjuk
versi
gudang. Masalah yang terkait dengan kueri ke gudang data multiversi
dipertimbangkan dalam [14]. Dalam [17] definisi skema multidimensi yang
mendukung versi skema diberikan. Definisi ini sangat mirip dengan yang
diberikan di [2], perbedaannya adalah yang pertama mendukung pembuatan versi.
Operasi evolusi versi yang menghasilkan versi skema data warehouse diformalkan.
Perubahan struktur dan konten dalam dimensi gudang data dibahas dalam [9].
Model multidimensi dan turunannya didefinisikan. Operator struktur dimensi dan
pembaruan instans ditentukan secara formal dan efeknya dipelajari melalui
tampilan yang terwujud pada tingkat dimensi.
4
Kerangka Evolusi Data Warehouse
Untuk
mendukung adaptasi gudang data setelah perubahan skema sumber dan versi, kami
mengusulkan kerangka kerja gudang data
4.1
Komponen Kerangka
Kerangka
ini terdiri dari lingkungan pengembangan dan lingkungan pengguna. Dalam
lingkungan pengembangan, gudang metadata gudang data .Repositori metadata juga
mencakup repositori perubahan data warehouse, yang mengakumulasi potensi
perubahan skema data warehouse dan opsi pembuatan versi. Administrator memilih
opsi yang paling sesuai yang diterapkan. Agen khusus dimasukkan ke dalam sumber
data. Agen ini melacak perubahan dalam skema sumber dan mengakumulasikannya di
repositori perubahan sumber.
Proses ETL dihasilkan oleh alat penyebaran
metadata yang menggunakan metadata dari bagian statis dari repositori pemetaan.
Pemuat gudang data mengeksekusi skrip ETL yang dihasilkan.data Prosedur
transportasimentransfer data gudang data dari lingkungan pengembangan ke
lingkungan pengguna dan metadata versi ke dalam repositori metadata
pelaporan. Selain gudang data, di lingkungan pengguna juga terdapat
repositori metadata pelaporan yang berisi metadata versi, yang ditransfer dari
repositori pemetaan lingkungan pengembangan, dan metadata pelaporan, yang
dibuat oleh pengembang gudang data oleh alat definisi laporan dan digunakan
oleh alat pelaporan untuk pembuatan laporan. Pengguna gudang data bekerja
dengan alat pelaporan yang memungkinkan untuk menentukan kueri ad-hoc,
menampilkan laporan sebagai tabel dan grafik, serta menganalisis data
menggunakan hierarki.
4.2
Operasi Kerangka Kerja Kerangka
kerja
yang diusulkan mampu menangani perubahan sumber yang dapat mempengaruhi gudang
data serta perubahan lain dari skema gudang data. Jika skema gudang data diubah
oleh administrator maka semua perubahan dilakukan oleh alat manajemen metadata,
yang memungkinkan untuk membuat versi gudang data baru atau mengubah versi
lama. Metadata proses ETL dalam repositori pemetaan disesuaikan menurut versi
gudang data baru.
Perubahan
sumber diproses sebelum eksekusi proses ETL di lingkungan pengembangan. Awalnya
komponen adaptasi menganalisis perubahan dalam repositori perubahan sumber dan
mendeteksi perubahan yang memengaruhi skema gudang data dan proses ETL.
5
Kesimpulan dan Pekerjaan Masa Depan
Kami
mengusulkan kerangka kerja evolusi gudang data. Kerangka kerja ini dikembangkan
dengan memperluas kerangka adaptasi gudang data [18], yang sebelumnya dirancang
dan diimplementasikan. Kerangka adaptasi dapat secara otomatis mendeteksi
perubahan skema sumber data dan mengadaptasi skema gudang data dan proses ETL,
sesuai dengan keputusan administrator.
Berbeda
dengan kerangka adaptasi, kerangka evolusi mampu menangani tidak hanya
perubahan sumber data, tetapi juga perubahan langsung dalam skema data
warehouse. Perbedaan penting kedua adalah fakta bahwa dalam kerangka evolusi,
versi gudang data didukung di lingkungan pengembangan serta dalam laporan di
lingkungan pengguna.
Kerangka
yang diusulkan berbeda dari solusi lain dari masalah evolusi gudang data yang
disajikan dalam literatur karena mendukung banyak masalah evolusi sekaligus,
bukan hanya satu masalah.
Komentar
Posting Komentar