Dataset: Pengertian, Jenis, Teknik Presentasi, dan Web Penyedia Public Dataset

Pengertian Dataset
Dataset

Pengertian Dataset
Dataset adalah kumpulan data yang berisi satu atau lebih catatan (record). Di mana masing-masing kelompok record memiliki peran untuk menyimpan informasi seperti catatan medis, asuransi, program, dan sistem data institusi. Dataset digunakan untuk menyimpan informasi yang dibutuhkan oleh aplikasi atau sistem operasi tertentu seperti sumber pemrograman, pustaka makro, atau variabel serta parameter sistem.

Dataset juga dapat diartikan sebagai himpunan data yang disajikan dalam pola tabel. Setiap kolom dalam tabel data tersebut menggambarkan variabel tertentu sehingga dalam satu dataset terdapat beberapa variabel. Secara teknis, dataset merupakan bagian dari manajemen data. Sedangkan, nilai-nilai dari himpunan data ini disebut sebagai datum.

Jenis Dataset
Berikut beberapa jenis dataset yang paling umum digunakan di antaranya,
1. Numerical Dataset
Numerical dataset adalah jenis dataset yang paling sederhana. Karena, isinya hanyalah data yang berupa angka. Itulah mengapa jenis dataset ini juga kerap disebut data kuantitatif. Contohnya, jika Anda sedang mengumpulkan data berat badan dari sekumpulan orang, berarti Anda sedang membuat numerical dataset. Karena data yang Anda kumpulkan hanya berisi angka.

2. Correlation Dataset
Sesuai dengan namanya, correlation dataset adalah jenis dataset yang berisi data yang memiliki korelasi, atau saling terhubung satu sama lain. Misalkan Anda sedang mengumpulkan data penjualan di suatu toko. Lalu, Anda menemukan bahwa ketika penjualan sikat gigi meningkat, penjualan pasta gigi juga ikut meningkat.

Kumpulan data penjualan sikat gigi dan pasta gigi bisa diklasifikasikan ke dalam correlation dataset, karena keduanya saling berhubungan. Adapun korelasi yang dihasilkan dari dataset ini juga bisa dibagi ke dalam tiga jenis di antaranya,
a. No correlation. Data yang dikumpulkan tidak ada hubungannya sama sekali.
b. Positive correlation. Data yang dikumpulkan punya pengaruh yang sama. Contohnya seperti data penjualan sikat gigi dan pasta gigi yang sama-sama meningkat.
c. Negative correlation. Data yang dikumpulkan punya pengaruh yang berlawanan. Contohnya, misalkan penjualan jus menurun jika penjualan susu meningkat.

Baca Juga: Pengertian Korelasi, Bentuk, Macam, Rumus, dan Manfaatnya

3. Categorical Dataset
Categorical dataset adalah jenis dataset yang biasanya digunakan untuk membagi sekumpulan data ke dalam dua kategori yang berbeda. Contoh paling gampangnya adalah gender (Laki-laki atau perempuan). Atau data yang merupakan jawaban dari pertanyaan yang bisa direspons dengan setuju atau tidak setuju.

4. Bivariate Dataset
Bivariate artinya adalah dua variabel. Jadi, jenis dataset ini menggambarkan hubungan antara dua variabel saja. Misalkan Anda ingin menentukan bonus untuk masing-masing anggota tim sales. Jadi, bonus yang diberikan akan dihitung berdasarkan dua variabel berikut:
a. Jumlah produk yang dijual
b. Jumlah keuntungan yang diraih per bulannya

Karena kedua data tersebut saling berhubungan, maka kumpulan data tersebut masuk ke dalam kategori bivariate dataset.

5. Multivariate Dataset
Jika bivariate dataset hanya mengandung dua variabel, multivariate adalah dataset yang mengandung lebih dari dua variabel. Misalkan Anda sedang mengumpulkan data terkait karyawan. Jadi, Anda menyimpan data terkait umur, alamat, nomor telepon, dan alamat email. Berhubung dataset yang Anda buat berisi empat variabel yang berbeda, berarti dataset yang Anda buat bertipe multivariate.

Teknik Presentasi Dataset
Memiliki informasi yang disimpan dalam dataset seringkali memudahkan untuk melakukan operasi dan analisis matematika. Berikut beberapa teknik umum yang dapat digunakan pada dataset untuk mempelajari lebih lanjut tentang data yang mendasarinya di antaranya,
1. Mean. Mean dari dataset adalah rata-rata dari semua pengamatan. Ini adalah rasio jumlah pengamatan dengan jumlah elemen.
2. Median. Saat Anda membuat daftar data dalam urutan menaik, median adalah angka yang berada tepat di tengah dataset.
3. Rentang. Rentang adalah perbedaan antara nilai tertinggi dan terendah dalam dataset, yang memberi tahu Anda lebih banyak tentang seberapa jauh dataset meluas.
4. Penghitungan nilai unik. Penghitungan nilai unik memberi tahu Anda isi dataset dengan menghitung setiap item unik dalam kolom kategoris.
5. Penghitungan frekuensi. Penghitungan frekuensi menjumlahkan jumlah pengamatan untuk setiap kategori yang Anda daftarkan dalam baris dataset.
6. Histogram. Histogram adalah representasi grafis dari dataset yang menunjukkan jumlah frekuensi di seluruh rentang data.

Web Penyedia Public Dataset
Untuk mempermudah dalam mencari dataset, berikut situs penyedia dataset yang dapat mendukung proyek maupun pekerjaan Anda di antaranya,
1. Google Dataset Search
Salah satu situs populer untuk mencari dataset adalah Google Dataset Search. Google Dataset Search merupakan data-data yang dikumpulkan oleh Google untuk menyediakan sumber data eksternal beserta deskripsi dan pembaruan terkininya.

2. Datahub.io
Jika Anda ingin mencari dataset dengan fokus bisnis dan keuangan. Anda bisa mengakses sebagian besar dataset di sini secara gratis tanpa registrasi. Umumnya dataset yang tersedia berfokus pada bidang pasar saham, harga properti, inflasi, dan logistik.

3. Earth Data
Bagi Anda yang bekerja atau studi di bidang lingkungan maupun geografi, dataset dari Earth Data amat membantu. Anda bisa mengakses data mengenai kebumian secara gratis tanpa registrasi dan Anda bisa menemukan berbagai hal seperti pengukuran cuaca, iklim, pemetaan vegetasi, hingga suhu laut dengan dataset ini.

4. Global Health Observatory Data Repository
Selama pandemi, mungkin beberapa dari Anda ingin mencari tahu bagaimana data kesehatan di seluruh dunia. Anda bisa mengakses dataset kesehatan dunia lewat dataset rilisan World Health Organization ini. Selain gratis dan tanpa registrasi, Anda juga bisa mengakses berbagai statistik terkait kesehatan dari seluruh dunia seperti malaria, HIV/AIDS, hingga tingkat vaksinasi lewat Global Health Observatory Data Repository.

5. Kaggle
Kaggle menyediakan berbagai data dan dapat diakses secara gratis namun perlu pendaftaran di depan. Lewat Kaggle, Anda bisa mendapatkan berbagai data dari semua topik, bahkan suhu rerata harian di berbagai kota dapat ditemukan di Kaggle.

6. BFI Film Industry Statistics
Bagi Anda yang menggemari film dan mengaku diri sebagai sinefil dengan riset-riset terkait film, maka situs dataset dari British Film Institute ini tepat buat Anda. Selain dapat diakses secara gratis tanpa registrasi, Anda bisa menemukan berbagai angka box office di Inggris hingga demografi penonton untuk film-film Inggris yang bisa Anda analisis.

7. FBI Crime Data Explorer
Kali ini, bagi Anda yang mendalami ilmu kriminologi atau bekerja di bidang intelijen dan memerlukan dataset khusus, maka FBI Crime Data Explorer bisa menjadi rujukan tepat. Kamu bisa mengakses segala informasi mengenai pelanggaran kriminal, kejahatan, dan narkoba lewat situs rilisan FBI ini.

8. Open Data Jakarta
Bagi Anda yang tinggal di Jakarta dan sekitarnya, pemerintah DKI Jakarta memiliki dataset berisi berbagai informasi dengan akses mudah lewat Open Data Jakarta. Anda bisa mengakses berbagai hal seperti indeks standar pencemaran udara (ISPU) dari berbagai tahun serta data-data lainnya.

9. Satu Data Indonesia
Untuk dataset nasional, Anda bisa mengakses Satu Data Indonesia lewat situsnya data.go.id. Lewat dataset ini Anda bisa mengakses data mengenai ekonomi dan industri, pembangunan daerah, pendidikan dan tenaga kerja, serta berbagai hal lain secara mudah.

10. Databoks Katadata
Selain situs milik pemerintah, Anda juga bisa mengakses berbagai dataset lewat Katadata dengan rilisan Databoks milik mereka. Anda bisa mencari dan menemukan data dengan mengisi kata kunci, pilihan industri, sub industri, dan berbagai macam data dari berbagai sumber seperti dari Badan Pusat Statistik (BPS) dan sebagainya.

Dari berbagai sumber

Download

Aletheia Rabbani
Aletheia Rabbani “Barang siapa yang tidak mampu menahan lelahnya belajar, maka ia harus mampu menahan perihnya kebodohan” _ Imam As-Syafi’i

Post a Comment for "Dataset: Pengertian, Jenis, Teknik Presentasi, dan Web Penyedia Public Dataset"