1. Konsep Penyamaran Data
Penyamaran data juga dikenal sebagai penyembunyian data. Ini adalah metode teknis untuk mengonversi, mengubah, atau menyembunyikan data sensitif seperti nomor ponsel, nomor kartu bank, dan informasi lainnya ketika kami memiliki aturan dan kebijakan penyembunyian yang berlaku. Teknik ini terutama digunakan untuk mencegah data sensitif digunakan secara langsung di lingkungan yang tidak dapat diandalkan.
Prinsip Penyembunyian Data: Penyembunyian data harus mempertahankan karakteristik data asli, aturan bisnis, dan relevansi data untuk memastikan bahwa pengembangan, pengujian, dan analisis data selanjutnya tidak akan terpengaruh oleh penyembunyian. Pastikan konsistensi dan validitas data sebelum dan sesudah penyembunyian.
2. Klasifikasi Penyembunyian Data
Penyamaran data dapat dibagi menjadi penyamaran data statis (SDM) dan penyamaran data dinamis (DDM).
Penyamaran data statis (SDM)Penyamaran data statis memerlukan pembentukan basis data baru di lingkungan non-produksi untuk isolasi dari lingkungan produksi. Data sensitif diekstraksi dari basis data produksi dan kemudian disimpan di basis data non-produksi. Dengan cara ini, data yang telah didesensitisasi diisolasi dari lingkungan produksi, yang memenuhi kebutuhan bisnis dan memastikan keamanan data produksi.
Penyamaran Data Dinamis (DDM)Umumnya digunakan dalam lingkungan produksi untuk mendesensitisasi data sensitif secara real-time. Terkadang, tingkat masking yang berbeda diperlukan untuk membaca data sensitif yang sama dalam situasi yang berbeda. Misalnya, peran dan izin yang berbeda dapat menerapkan skema masking yang berbeda.
Aplikasi pelaporan data dan penyembunyian produk data
Skenario semacam itu terutama mencakup produk pemantauan data internal atau papan iklan, produk data layanan eksternal, dan laporan berdasarkan analisis data, seperti laporan bisnis dan tinjauan proyek.
3. Solusi Penyamaran Data
Skema penyembunyian data umum meliputi: pembatalan, nilai acak, penggantian data, enkripsi simetris, nilai rata-rata, pengimbangan dan pembulatan, dll.
PenghapusanPembatalan mengacu pada enkripsi, pemotongan, atau penyembunyian data sensitif. Skema ini biasanya mengganti data asli dengan simbol khusus (seperti *). Operasinya sederhana, tetapi pengguna tidak dapat mengetahui format data asli, yang dapat memengaruhi aplikasi data selanjutnya.
Nilai AcakNilai acak mengacu pada penggantian acak data sensitif (angka menggantikan digit, huruf menggantikan huruf, dan karakter menggantikan karakter). Metode masking ini akan memastikan format data sensitif sampai batas tertentu dan memfasilitasi aplikasi data selanjutnya. Kamus masking mungkin diperlukan untuk beberapa kata yang bermakna, seperti nama orang dan tempat.
Penggantian Data: Penggantian data serupa dengan penutupan nilai nol dan acak, kecuali bahwa alih-alih menggunakan karakter khusus atau nilai acak, data penutupan diganti dengan nilai tertentu.
Enkripsi SimetrisEnkripsi simetris adalah metode penyamaran reversibel khusus. Metode ini mengenkripsi data sensitif melalui kunci dan algoritma enkripsi. Format ciphertext konsisten dengan data asli dalam aturan logis.
Rata-rataSkema rata-rata sering digunakan dalam skenario statistik. Untuk data numerik, pertama-tama kami menghitung rata-ratanya, lalu mendistribusikan nilai-nilai yang telah didesensitisasi secara acak di sekitar rata-rata, sehingga jumlah data tetap konstan.
Offset dan PembulatanMetode ini mengubah data digital secara acak. Pembulatan offset memastikan perkiraan keaslian rentang sekaligus menjaga keamanan data, yang lebih mendekati data sebenarnya dibandingkan skema sebelumnya, dan sangat penting dalam skenario analisis big data.
Model yang Direkomendasikan "ML-NPB-5660"untuk Penyembunyian Data
4. Teknik Penyamaran Data yang Umum Digunakan
(1). Teknik Statistik
Pengambilan sampel data dan agregasi data
- Pengambilan sampel data: Analisis dan evaluasi kumpulan data asli dengan memilih subset representatif dari kumpulan data tersebut merupakan metode penting untuk meningkatkan efektivitas teknik de-identifikasi.
- Agregasi data: Sebagai kumpulan teknik statistik (seperti penjumlahan, penghitungan, perata-rataan, maksimum dan minimum) yang diterapkan pada atribut dalam mikrodata, hasilnya mewakili semua catatan dalam kumpulan data asli.
(2). Kriptografi
Kriptografi merupakan metode umum untuk mendesensitisasi atau meningkatkan efektivitas desensitisasi. Berbagai jenis algoritma enkripsi dapat mencapai efek desensitisasi yang berbeda-beda.
Enkripsi deterministik: Enkripsi simetris non-acak. Enkripsi ini biasanya memproses data ID dan dapat mendekripsi serta mengembalikan ciphertext ke ID asli bila diperlukan, tetapi kuncinya perlu dilindungi dengan benar.
Enkripsi ireversibel: Fungsi hash digunakan untuk memproses data, yang biasanya digunakan untuk data ID. Fungsi ini tidak dapat didekripsi secara langsung dan hubungan pemetaannya harus disimpan. Selain itu, karena karakteristik fungsi hash, tabrakan data dapat terjadi.
Enkripsi homomorfik: Algoritma homomorfik ciphertext digunakan. Karakteristiknya adalah hasil operasi ciphertext sama dengan hasil operasi plaintext setelah dekripsi. Oleh karena itu, algoritma ini umumnya digunakan untuk memproses bidang numerik, tetapi tidak banyak digunakan karena alasan kinerja.
(3). Teknologi Sistem
Teknologi penekanan menghapus atau melindungi item data yang tidak memenuhi perlindungan privasi, tetapi tidak menerbitkannya.
- Masking: mengacu pada metode desensitisasi yang paling umum untuk menutupi nilai atribut, seperti nomor lawan, kartu identitas ditandai dengan tanda bintang, atau alamat terpotong.
- Penekanan lokal: mengacu pada proses penghapusan nilai atribut tertentu (kolom), menghilangkan bidang data yang tidak penting;
- Penghapusan rekaman: merujuk pada proses penghapusan rekaman (baris) tertentu, penghapusan rekaman data yang tidak penting.
(4). Teknologi Nama Samaran
Pseudomanning adalah teknik de-identifikasi yang menggunakan nama samaran untuk menggantikan pengenal langsung (atau pengenal sensitif lainnya). Teknik pseudonim menciptakan pengenal unik untuk setiap subjek informasi, alih-alih pengenal langsung atau sensitif.
- Dapat menghasilkan nilai acak secara independen agar sesuai dengan ID asli, menyimpan tabel pemetaan, dan mengontrol akses ke tabel pemetaan secara ketat.
- Anda juga dapat menggunakan enkripsi untuk membuat nama samaran, tetapi perlu menyimpan kunci dekripsi dengan benar;
Teknologi ini banyak digunakan dalam kasus sejumlah besar pengguna data independen, seperti OpenID dalam skenario platform terbuka, di mana pengembang yang berbeda memperoleh OpenID yang berbeda untuk pengguna yang sama.
(5). Teknik Generalisasi
Teknik generalisasi mengacu pada teknik de-identifikasi yang mengurangi granularitas atribut terpilih dalam suatu set data dan memberikan deskripsi data yang lebih umum dan abstrak. Teknologi generalisasi mudah diimplementasikan dan dapat melindungi keaslian data tingkat rekaman. Teknik ini umum digunakan dalam produk data atau laporan data.
- Pembulatan: melibatkan pemilihan basis pembulatan untuk atribut yang dipilih, seperti forensik ke atas atau ke bawah, menghasilkan hasil 100, 500, 1K, dan 10K
- Teknik pengkodean atas dan bawah: Ganti nilai di atas (atau di bawah) ambang batas dengan ambang batas yang mewakili level atas (atau bawah), menghasilkan hasil "di atas X" atau "di bawah X".
(6). Teknik Pengacakan
Sebagai salah satu jenis teknik de-identifikasi, teknologi pengacakan mengacu pada modifikasi nilai suatu atribut melalui pengacakan, sehingga nilai setelah pengacakan berbeda dari nilai sebenarnya. Proses ini mengurangi kemampuan penyerang untuk mendapatkan nilai atribut dari nilai atribut lain dalam rekaman data yang sama, tetapi memengaruhi keaslian data yang dihasilkan, yang umum terjadi pada data uji produksi.
Waktu posting: 27-Sep-2022