個資利用去識別化:具體建議

需求與建議

「個資利用去識別化」是針對政府為公共利益之必要,發佈統計資料、提供學術研究時,採用「遮除概略化亂數化」等資訊技術,以充份保障個人資料及隱私權、增進公眾互信的架構。實務上的建議,可簡列如下:

  1. 機關儲存源資料時,可將識別符代碼化以增進資訊安全。
    • 此處「代碼化」必須為不可逆運算,但可結合密鑰為之。
    • 代碼化後之資料仍然含有有隱私與個人資料,因此不應稱為「去識別化資料」。
    • 機關應容許資料當事人申請註記為「排除特定目的外之利用」。
  2. 為統計取樣之必要,或向不特定公眾提供含任何個資之資料集時:
    • 應以「任何人(含原資料持有人)皆無從識別」為判準,釋出合成資料
  3. 為學術研究之必要,向特定研究者提供含特種(敏感)個資之資料集時:
    • 應以「資訊專家亦無從識別」為判準,按實際需求,採「資料最少原則」提供。
  4. 為學術研究之必要,向特定研究者提供無特種(敏感)個資之資料集時:
    • 應以「有心侵入者無從識別」為判準,按實際需求,採「資料最少原則」提供。
  5. 機關可將代碼化後之資料,委託第三方機構執行下列事項:
    • 將資料充份去識別化處理後,向特定研究者揭露。
    • 製作「任何人(含原資料持有人)皆無從識別」之合成資料。
  6. 事後註記為「排除特定目的外之利用」者:
    • 機關應結合密鑰計算其代碼,使第三方機構刪除相應資料。
  7. 機關不得將代碼化密鑰交予第三方機構。
  8. 概略化、亂數化技術之參數值應由個案討論訂定。
    • 下圖列出對應各專業層級的侵入者,可採用的去識別化方法。
    • 多項方法可以施用於同一資料集,例如身分證字號採代碼化、ICD-9 值一律遮除、出生年月日概略化、最後再採取亂數化處理。

2015/07/11 現行技術一覽

建立去識別化標準

考量個人資料與隱私保護,我們建議去識別化採取以下的判準:

  1. 個人行為紀錄,藉由連結其他資料集而能間接或直接識別當事人時,該紀錄即屬於個資。
    • 除資料當事人擁有隱私權外,也應防止有心者藉由資料推導,使特定族群蒙受干擾。
    • 因此,個資法所稱研究、統計之必要,於去識別化時,應採「資料最少原則」滿足之。
  2. 技術上任何可逆之編碼方式,不應稱為「代碼化」。
    • 結合密鑰之不可逆編碼方式,可以稱為「代碼化」。
    • 代碼化處理後之資料仍可間接識別,因此不應稱為「去識別化」。
  3. 供不特定人利用之開放資料,應依資訊含量,分級選擇去識別化方式:
    • 資料筆數不足以充份執行去識別化運算者,考量重新識別之風險,應遮除所有直接、間接可識別欄位內容。
    • 資料筆數足以進行去識別化運算者,可採樣建立「任何人(含原資料持有人)皆無從識別」之合成資料集,以供分析使用。
  4. 供特定學術研究者使用之資料,應依資訊含量,分級選擇去識別化方式:
    • 資料筆數不足以充份執行去識別化運算者,以及特種敏感個資,應以「資訊專家亦無從識別」為判準提供。
    • 資料筆數足以進行充份亂數化或概略化運算、且為非特種敏感之個資,得以「有心侵入者無從識別」為判準提供。

規範重新識別行為

我們認為應採取法律、技術雙重方式,降低重新識別之風險。

  1. 法律上,可限制利用者不得進行原申請目的以外之行為:
    • 連結未經申請之其他資料集、交予未經授權之第三方等行為,均可訂定罰則。
    • 對上列罰則,可訂定檢舉違反案件之獎勵辦法。
  2. 技術上,可採用 API 界面:
    • 由申請者提出查詢、收受去識別化後之結果,而非逕行交付資料集。
    • 循此方式留下之紀錄,亦可提供予後續研究者,作為驗證之用。
  3. 利用條款應註明:
    • 申明該資料集已被匿名化。
    • 禁止被授權人再識別任何個人。
    • 禁止被授權人利用該資料集,對特定個人採取任何行動或決定。
    • 應使被授權人負有義務,於其發現個人能或已經被再識別時,通知授權人。

建立隱私風險評估機制

隱私影響評估,以事先防範為原則。考量學術研究申請資料,與向不特定人提供之開放資料有別,我們的建議如下:

  1. 隱私風險評估,應由專門之審議委員會行之。
    • 審議時應納入外部專家:如消費者保護專家、人權保護專家、資訊技術專家、該領域專家,以及利益相關者。
    • 視申請之需要,應執行有心侵入者測試、專家測試等項目。
  2. 概略化、亂數化技術之參數值應由個案討論訂定。
    • 全民健保研究資料庫應包含在首批個案研討內。
    • 去識別化之技術日新月異,相關評估均應定期、持續更新。
  3. 學術研究之申請,除隱私風險外,亦應同時考慮是否滿足公共利益。
    • 公共利益之加強,可納入經濟回饋、知識共享等因素。
  4. 主責部會應提出如何進行評估之範本,就何種情況一定要進行、進行的規模簡易或詳盡、如何進行(包含如何組成隱私諮詢團體)等進行討論、規範。

引入第三方機構

考慮到現行充份去識別化之技術,並非所有機關皆有執行能力,我們的建議是:

  1. 機關進行不可逆之識別符代碼化運算時,得結合特定密鑰為之。
    • 此密鑰無法從資料集取回識別符,但可結合識別符取得資料集內之代碼。
    • 當事人應可隨時申請、撤銷「排除特定目的外之利用」註記。
  2. 代碼化後之資料,不含上述註記者,可委託第三方機構執行去識別化運算。
    • 機關得授權該機構將資料充份去識別化處理後,向通過申請之特定研究者揭露。
    • 機關得授權該機構製作「任何人(含原資料持有人)皆無從識別」之合成資料。
  3. 事後註記為「排除特定目的外之利用」者,機關應結合密鑰計算其代碼,使第三方機構刪除相應資料。
  4. 第三方機構之業務執行方式應明確規範,並受公開監督。
    • 執行此項監督之單位,應代表所有資料當事人利益行之。