1. Konsep Penyamaran Data
Penyamaran data juga dikenal sebagai penyembunyian data. Ini adalah metode teknis untuk mengubah, mengubah, atau menutupi data sensitif seperti nomor telepon seluler, nomor kartu bank, dan informasi lainnya ketika kami telah memberikan aturan dan kebijakan penyembunyian. Teknik ini terutama digunakan untuk mencegah data sensitif digunakan secara langsung di lingkungan yang tidak dapat diandalkan.
Prinsip Penyamaran Data: Penyamaran data harus mempertahankan karakteristik data asli, aturan bisnis, dan relevansi data untuk memastikan bahwa pengembangan, pengujian, dan analisis data selanjutnya tidak akan terpengaruh oleh penyamaran. Pastikan konsistensi dan validitas data sebelum dan sesudah penyamaran.
2. Klasifikasi Penyamaran Data
Penyamaran data dapat dibagi menjadi penyamaran data statis (SDM) dan penyamaran data dinamis (DDM).
Penyamaran data statis (SDM): Penyamaran data statis memerlukan pembentukan basis data lingkungan nonproduksi baru untuk isolasi dari lingkungan produksi. Data sensitif diekstrak dari basis data produksi lalu disimpan dalam basis data nonproduksi. Dengan cara ini, data yang tidak sensitif diisolasi dari lingkungan produksi, yang memenuhi kebutuhan bisnis dan memastikan keamanan data produksi.
Penyamaran Data Dinamis (DDM): Umumnya digunakan dalam lingkungan produksi untuk mendesensitisasi data sensitif secara real time. Terkadang, diperlukan tingkat masking yang berbeda untuk membaca data sensitif yang sama dalam situasi yang berbeda. Misalnya, peran dan izin yang berbeda dapat menerapkan skema masking yang berbeda.
Aplikasi pelaporan data dan penyembunyian produk data
Skenario semacam itu terutama mencakup produk pemantauan data internal atau papan iklan, produk data layanan eksternal, dan laporan berdasarkan analisis data, seperti laporan bisnis dan tinjauan proyek.
3. Solusi Penyamaran Data
Skema penyembunyian data umum meliputi: pembatalan, nilai acak, penggantian data, enkripsi simetris, nilai rata-rata, pengimbangan dan pembulatan, dll.
Penghapusan: Pembatalan mengacu pada enkripsi, pemotongan, atau penyembunyian data sensitif. Skema ini biasanya mengganti data asli dengan simbol khusus (seperti *). Operasinya sederhana, tetapi pengguna tidak dapat mengetahui format data asli, yang dapat memengaruhi aplikasi data berikutnya.
Nilai Acak: Nilai acak mengacu pada penggantian acak data sensitif (angka menggantikan digit, huruf menggantikan huruf, dan karakter menggantikan karakter). Metode masking ini akan memastikan format data sensitif sampai batas tertentu dan memfasilitasi aplikasi data selanjutnya. Kamus masking mungkin diperlukan untuk beberapa kata yang bermakna, seperti nama orang dan tempat.
Penggantian Data: Penggantian data serupa dengan penutupan nilai nol dan acak, kecuali bahwa alih-alih menggunakan karakter khusus atau nilai acak, data penutupan diganti dengan nilai tertentu.
Enkripsi Simetris: Enkripsi simetris adalah metode penyamaran reversibel khusus. Metode ini mengenkripsi data sensitif melalui kunci enkripsi dan algoritma. Format ciphertext konsisten dengan data asli dalam aturan logis.
Rata-rata: Skema rata-rata sering digunakan dalam skenario statistik. Untuk data numerik, pertama-tama kita hitung nilai rata-ratanya, lalu kita distribusikan secara acak nilai yang tidak sensitif di sekitar nilai rata-rata, sehingga jumlah datanya tetap konstan.
Offset dan Pembulatan: Metode ini mengubah data digital dengan pergeseran acak. Pembulatan offset memastikan keaslian kisaran yang mendekati dengan tetap menjaga keamanan data, yang lebih mendekati data sebenarnya daripada skema sebelumnya, dan memiliki signifikansi besar dalam skenario analisis big data.
Model Rekomendasi “ML-NPB-5660"untuk Penyamaran Data
4. Teknik Penyamaran Data yang Umum Digunakan
(1). Teknik Statistik
Pengambilan sampel data dan agregasi data
- Pengambilan sampel data: Analisis dan evaluasi kumpulan data asli dengan memilih subset representatif dari kumpulan data tersebut merupakan metode penting untuk meningkatkan efektivitas teknik de-identifikasi.
- Agregasi data: Sebagai kumpulan teknik statistik (seperti penjumlahan, penghitungan, perata-rataan, maksimum dan minimum) yang diterapkan pada atribut dalam mikrodata, hasilnya mewakili semua catatan dalam kumpulan data asli.
(2). Kriptografi
Kriptografi merupakan metode umum untuk menghilangkan kepekaan atau meningkatkan efektivitas desensitisasi. Berbagai jenis algoritma enkripsi dapat menghasilkan efek desensitisasi yang berbeda.
- Enkripsi deterministik: Enkripsi simetris non-acak. Biasanya memproses data ID dan dapat mendekripsi serta mengembalikan ciphertext ke ID asli bila diperlukan, tetapi kuncinya perlu dilindungi dengan benar.
- Enkripsi yang tidak dapat diubah: Fungsi hash digunakan untuk memproses data, yang biasanya digunakan untuk data ID. Fungsi hash tidak dapat didekripsi secara langsung dan hubungan pemetaan harus disimpan. Selain itu, karena fitur fungsi hash, tabrakan data dapat terjadi.
- Enkripsi homomorfik: Algoritma homomorfik ciphertext digunakan. Karakteristiknya adalah bahwa hasil operasi ciphertext sama dengan hasil operasi plaintext setelah dekripsi. Oleh karena itu, umumnya digunakan untuk memproses bidang numerik, tetapi tidak banyak digunakan karena alasan kinerja.
(3). Teknologi Sistem
Teknologi penekanan menghapus atau melindungi item data yang tidak memenuhi perlindungan privasi, tetapi tidak menerbitkannya.
- Masking: mengacu pada metode desensitisasi yang paling umum untuk menutupi nilai atribut, seperti nomor lawan, kartu identitas ditandai dengan tanda bintang, atau alamat terpotong.
- Penekanan lokal: mengacu pada proses penghapusan nilai atribut tertentu (kolom), menghilangkan bidang data yang tidak penting;
- Penghapusan rekaman: merujuk pada proses penghapusan rekaman (baris) tertentu, penghapusan rekaman data yang tidak penting.
(4). Teknologi Nama Samaran
Pseudomanning adalah teknik de-identifikasi yang menggunakan nama samaran untuk menggantikan pengenal langsung (atau pengenal sensitif lainnya). Teknik pseudonim menciptakan pengenal unik untuk setiap subjek informasi, bukan pengenal langsung atau sensitif.
- Dapat menghasilkan nilai acak secara independen untuk bersesuaian dengan ID asli, menyimpan tabel pemetaan, dan secara ketat mengontrol akses ke tabel pemetaan.
- Anda juga dapat menggunakan enkripsi untuk membuat nama samaran, tetapi perlu menyimpan kunci dekripsi dengan benar;
Teknologi ini banyak digunakan dalam kasus sejumlah besar pengguna data independen, seperti OpenID dalam skenario platform terbuka, di mana pengembang yang berbeda memperoleh Openid yang berbeda untuk pengguna yang sama.
(5). Teknik Generalisasi
Teknik generalisasi mengacu pada teknik de-identifikasi yang mengurangi detail atribut terpilih dalam set data dan memberikan deskripsi data yang lebih umum dan abstrak. Teknologi generalisasi mudah diterapkan dan dapat melindungi keaslian data tingkat rekaman. Umumnya digunakan dalam produk data atau laporan data.
- Pembulatan: melibatkan pemilihan basis pembulatan untuk atribut yang dipilih, seperti forensik ke atas atau ke bawah, menghasilkan hasil 100, 500, 1K, dan 10K
- Teknik pengkodean atas dan bawah: Ganti nilai di atas (atau di bawah) ambang batas dengan ambang batas yang mewakili level atas (atau bawah), menghasilkan hasil "di atas X" atau "di bawah X"
(6). Teknik Pengacakan
Sebagai salah satu jenis teknik de-identifikasi, teknologi pengacakan mengacu pada modifikasi nilai atribut melalui pengacakan, sehingga nilai setelah pengacakan berbeda dari nilai riil aslinya. Proses ini mengurangi kemampuan penyerang untuk memperoleh nilai atribut dari nilai atribut lain dalam rekaman data yang sama, tetapi memengaruhi keaslian data yang dihasilkan, yang umum terjadi pada data uji produksi.
Waktu posting: 27-Sep-2022