tugas data warehouse

Kerangka Evolusi Data Warehouse

Abstrak

Dalam makalah ini disajikan kerangka kerja gudang data yang mendukung evolusi gudang data. Kerangka kerja ini mampu menangani tidak hanya perubahan sumber data, tetapi juga perubahan langsung dalam skema data warehouse. Dalam kerangka versi data warehouse didukung di lingkungan pengembangan serta dalam laporan di lingkungan pengguna.  

1 Pendahuluan  

Data warehouse mengintegrasikan informasi dari berbagai sumber data terdistribusi dan otonom yang dapat berubah seiring waktu. Oleh karena itu, gudang data harus dapat beradaptasi dengan perubahan apa pun yang dapat terjadi pada sumber data yang mendasarinya. Selain itu kebutuhan bisnis sering berubah di tingkat klien. Itu dapat menyebabkan perubahan pada model gudang data. Semua perubahan dalam sumber data atau persyaratan bisnis ini dapat membatalkan skema dan proses ekstraksi data, transformasi, dan pemuatan (ETL) yang ada dari gudang data. Inilah sebabnya mengapa perubahan ini perlu ditangani dengan benar. Dalam banyak kasus, gudang data yang ada dapat disesuaikan dengan perubahan.  

Adaptasi sederhana dari skema data warehouse dapat menyebabkan hilangnya histori ketika beberapa struktur data yang tersedia sebelumnya dihapus. Untuk mengatasi masalah kehilangan sejarah, perlu untuk menyimpan versi data warehouse. Pembuatan versi skema berarti bahwa perubahan dalam skema gudang data membuat versi skema baru yang diberi stempel waktu atau pengenal yang ditentukan pengguna lainnya.  

Dalam makalah ini kerangka data warehouse dibahas. Kerangka kerja mendukung evolusi skema gudang data yang dapat terjadi karena berbagai alasan, termasuk kasus ketika skema sumber data diubah. Perubahan yang didukung adalah penyisipan, penghapusan, dan penggantian nama relasi sumber, penyisipan, penghapusan, penggantian nama, dan perubahan jenis atribut relasi sumber. Kerangka kerja yang diusulkan tidak hanya mengotomatiskan evolusi skema data warehouse atau pembuatan versi baru, tetapi juga memungkinkan untuk mengadaptasi proses ETL dan laporan yang ada pada skema data warehouse. 

 

2 Contoh Memotivasi  

Skema gudang data sering berkembang ketika persyaratan bisnis diubah atau diperluas atau skema diadaptasi setelah perubahan sumber data.  

Sebagai contoh, mari kita perhatikan sebuah gudang data yang menyimpan informasi tentang aktivitas siswa dalam sistem manajemen pembelajaran (LMS). Gudang data ini berisi satu tabel fakta dengan ukuran: hits dan waktu, yang mencatat durasi aktivitas siswa. Langkah-langkah ini dapat dianalisis dengan kursus yang digunakan, alat dalam kursus ini dan waktu, ketika aktivitas terjadi. Aktivitas semua siswa dirangkum.  

Selama pengoperasian gudang data yang disebutkan di atas, pengguna mengeluh bahwa informasi yang tersedia di dalamnya tidak mencukupi karena skema yang ada tidak memenuhi perincian yang diinginkan. Selain itu, diputuskan untuk menyimpan juga data tentang kegiatan dosen mata kuliah. Oleh karena itu, dimensi baru yang menggambarkan pengguna tertentu dan perannya dalam kursus dibuat. 

 

3 Pekerjaan terkait  

Dalam literatur terdapat berbagai solusi untuk masalah evolusi data warehouse, yaitu adaptasi data warehouse setelah perubahan sumber data dan skema serta kebutuhan bisnis. Dalam [1] operasi evolusi primitif yang terjadi pada skema data warehouse didefinisikan. Aktivitas adaptasi yang diperlukan dari Dalam [7] model metadata yang mendukung versi skema untuk gudang data diperkenalkan. Solusi manajemen metadata di gudang data multiversi juga diusulkan di [20], di mana salah satu masalah yang dibahas adalah dukungan metadata untuk mendeteksi perubahan sumber dan penyebarannya kedata yang ditunjuk  

versi gudang. Masalah yang terkait dengan kueri ke gudang data multiversi dipertimbangkan dalam [14]. Dalam [17] definisi skema multidimensi yang mendukung versi skema diberikan. Definisi ini sangat mirip dengan yang diberikan di [2], perbedaannya adalah yang pertama mendukung pembuatan versi. Operasi evolusi versi yang menghasilkan versi skema data warehouse diformalkan. Perubahan struktur dan konten dalam dimensi gudang data dibahas dalam [9]. Model multidimensi dan turunannya didefinisikan. Operator struktur dimensi dan pembaruan instans ditentukan secara formal dan efeknya dipelajari melalui tampilan yang terwujud pada tingkat dimensi.

4 Kerangka Evolusi Data Warehouse  

Untuk mendukung adaptasi gudang data setelah perubahan skema sumber dan versi, kami mengusulkan kerangka kerja gudang data

4.1 Komponen Kerangka  

Kerangka ini terdiri dari lingkungan pengembangan dan lingkungan pengguna. Dalam lingkungan pengembangan, gudang metadata gudang data .Repositori metadata juga mencakup repositori perubahan data warehouse, yang mengakumulasi potensi perubahan skema data warehouse dan opsi pembuatan versi. Administrator memilih opsi yang paling sesuai yang diterapkan. Agen khusus dimasukkan ke dalam sumber data. Agen ini melacak perubahan dalam skema sumber dan mengakumulasikannya di repositori perubahan sumber.  

Proses ETL dihasilkan oleh alat penyebaran metadata yang menggunakan metadata dari bagian statis dari repositori pemetaan. Pemuat gudang data mengeksekusi skrip ETL yang dihasilkan.data  Prosedur transportasimentransfer data gudang data dari lingkungan pengembangan ke lingkungan pengguna dan metadata versi ke dalam repositori metadata pelaporan.  Selain gudang data, di lingkungan pengguna juga terdapat repositori metadata pelaporan yang berisi metadata versi, yang ditransfer dari repositori pemetaan lingkungan pengembangan, dan metadata pelaporan, yang dibuat oleh pengembang gudang data oleh alat definisi laporan dan digunakan oleh alat pelaporan untuk pembuatan laporan. Pengguna gudang data bekerja dengan alat pelaporan yang memungkinkan untuk menentukan kueri ad-hoc, menampilkan laporan sebagai tabel dan grafik, serta menganalisis data menggunakan hierarki.  

4.2 Operasi Kerangka Kerja Kerangka  

kerja yang diusulkan mampu menangani perubahan sumber yang dapat mempengaruhi gudang data serta perubahan lain dari skema gudang data. Jika skema gudang data diubah oleh administrator maka semua perubahan dilakukan oleh alat manajemen metadata, yang memungkinkan untuk membuat versi gudang data baru atau mengubah versi lama. Metadata proses ETL dalam repositori pemetaan disesuaikan menurut versi gudang data baru.  

Perubahan sumber diproses sebelum eksekusi proses ETL di lingkungan pengembangan. Awalnya komponen adaptasi menganalisis perubahan dalam repositori perubahan sumber dan mendeteksi perubahan yang memengaruhi skema gudang data dan proses ETL.

5 Kesimpulan dan Pekerjaan Masa Depan  

Kami mengusulkan kerangka kerja evolusi gudang data. Kerangka kerja ini dikembangkan dengan memperluas kerangka adaptasi gudang data [18], yang sebelumnya dirancang dan diimplementasikan. Kerangka adaptasi dapat secara otomatis mendeteksi perubahan skema sumber data dan mengadaptasi skema gudang data dan proses ETL, sesuai dengan keputusan administrator.  

Berbeda dengan kerangka adaptasi, kerangka evolusi mampu menangani tidak hanya perubahan sumber data, tetapi juga perubahan langsung dalam skema data warehouse. Perbedaan penting kedua adalah fakta bahwa dalam kerangka evolusi, versi gudang data didukung di lingkungan pengembangan serta dalam laporan di lingkungan pengguna.  

Kerangka yang diusulkan berbeda dari solusi lain dari masalah evolusi gudang data yang disajikan dalam literatur karena mendukung banyak masalah evolusi sekaligus, bukan hanya satu masalah. 

 

 

Komentar

Postingan populer dari blog ini

persamaan regresi ganda

Korelasi dan Regresi Berganda