CAFE

우리들의 이야기

가명화와 익명화에 관하여 우선 예를 살펴보면....

작성자칡 흰|작성시간26.06.14|조회수36 목록 댓글 2

아래는 기고적인 예를 가리킴이다.

 

가명화 pseudonymization과 익명화 Anonymization의 차이는 가역성 여부에 있다.
가명화는 데이터 레코드 내의 개인 식별 정보 필드를 하나 이상의 인공 식별자 또는 가명 으로 대체하는 데이터 관리 및 비식별화 절차다 . 


대체한 필드 또는 대체한 필드 모음에 대해 하나의 가명을 사용하면 데이터 레코드의 식별 가능성이 낮아지면서 데이터 분석 및 데이터 처리 에 적합한 상태를 유지한다 .
파일 생성 시각을 uSec보다 세분하여 기록하고 이를 암호화하여 파일명의 일부로 대체한다든지 기준값이 없는 불특정한 값을 입력하든지 간에 원본 연결이 불가하도록 무의미한 속성으로 변경하는 기술을 익명화라고 할 수 있다.
 
재식별 노력


다양한 분야에서 재식별 시도가 상당히 많이 성공적으로 이루어졌습니다. 
일반인이 익명성을 깨뜨리는 것이 쉽지는 않지만, 
일단 그 단계가 공개되고 학습되면 데이터베이스 의 정보에 접근하기 위해 더 높은 수준의 지식이 필요하지 않습니다 . 
때로는 인구가 고유한 식별자 조합을 가지고 있는 경우 기술적 전문 지식조차 필요하지 않습니다.

건강 기록

1990년대 중반, 매사추세츠 주 공무원의 건강 보험을 구매하는 정부 기관인 그룹 보험 위원회(GIC)는 데이터를 요청하는 연구자에게 병원 방문 기록을 무료로 공개하기로 결정했습니다. 
GIC는 이름, 주소, 사회 보장 번호와 같은 식별 정보를 제거했기 때문에 환자의 개인 정보는 문제가 되지 않는다고 보장했습니다. 
그러나 우편번호, 생년월일, 성별과 같은 정보는 그대로 남아 있었습니다. 
당시 매사추세츠 주지사였던 윌리엄 웰드는 GIC의 보장을 더욱 강화했습니다. 
당시 대학원생이었던 라타냐 스위니는 GIC 데이터에서 주지사의 기록을 찾아내기로 마음먹었습니다. 
그녀는 20달러에 구입한 캠브리지 시의 유권자 데이터베이스와 GIC 데이터를 결합하여 웰드 주지사의 기록을 쉽게 찾아냈습니다.

1997년에 한 연구자는 유권자 데이터베이스를 사용하여 의료 기록의 익명성을 성공적으로 해제했습니다.
2011년에 Latanya Sweeney 교수는 워싱턴주의 익명화된 병원 방문 기록과 투표 기록을 다시 사용하여 개인을 43%의 확률로 성공적으로 일치시켰습니다.

처방약 정보를 이용하여 환자를 재식별하는 데 사용되는 기존 알고리즘이 있습니다.

소비자 습관 및 관행

텍사스 대학교 의 두 연구원인 Arvind Narayanan 과 Vitaly Shmatikov 교수는 익명화된 Netflix 영화 순위 데이터의 일부를 스트리밍 웹사이트의 개별 소비자와 재식별하는 데 성공했습니다.
이 데이터는 개인 이름을 난수로 대체하고 개인 정보를 재배열하는 방식으로 익명화된 후 Netflix에서 2006년에 공개되었습니다. 
두 연구원은 익명화되지 않은 IMDb(인터넷 영화 데이터베이스) 사용자의 영화 평점과 비교하여 데이터의 일부를 다시 익명화했습니다. 
데이터베이스에서 구독자를 식별하는 데 필요한 정보는 매우 적은 것으로 나타났습니다. 
이 연구 논문에서는 Netflix 사용자를 재식별하는 것이 얼마나 쉬운지에 대한 놀라운 사실이 밝혀졌습니다. 
예를 들어, 
사용자가 리뷰한 영화 두 편에 대한 데이터(정확한 평점과 평점 작성일 기준 3일 이내의 오차 범위 포함)만 알아도 68%의 재식별 성공률을 보였습니다. 

2006년 AOL이 사용자 검색어 데이터를 공개한 후, 공개 전 익명화된 데이터를 바탕 으로 뉴욕 타임스 기자들은 익명화된 사용자들이 검색한 내용을 그룹으로 분석하여 개인을 성공적으로 재식별했습니다.  
AOL은 사용자 이름과 IP 주소를 포함한 식별 정보를 숨기려고 시도했지만, 연구자들이 이 데이터를 활용할 수 있도록 고유 식별 번호로 대체했습니다. 
데이터 공개 후 블로거들은 해당 데이터를 분석하여 특정 사용자를 식별하거나, "아내 죽이는 방법", "우울증과 병가", "교통사고 사진"과 같은 재미있거나, 우울하거나, 충격적인 검색어를 찾아냈습니다. 
마이클 바르바로 와 톰 젤러 두 기자는 사용자 417729의 검색 기록에서 단서를 찾아 62세의 과부 델마 아놀드를 추적할 수 있었습니다. 
아놀드는 자신이 해당 검색어의 작성자임을 인정하여 재식별이 가능하다는 것을 확인시켜 주었습니다.

위치 데이터

위치 데이터(시간에 따른 지리적 위치의 연속으로 개인의 행방과 이동을 설명하는 데이터)는 익명성을 유지하기가 특히 어려운 개인 데이터의 한 종류입니다. 
위치 데이터는 집, 직장, 쇼핑, 의료 또는 특정 여가 활동 패턴과 같은 일상생활에서 자주 방문하는 장소에 대한 반복적인 방문을 보여줍니다. 
위치 데이터에서 개인의 신원을 제거하는 것만으로는 통근 리듬, 수면 장소 또는 직장과 같은 식별 가능한 패턴을 제거할 수 없습니다. 
좌표를 주소에 매핑하면 위치 데이터는 쉽게 재식별되거나 개인의 사생활 맥락과 연관될 수 있습니다. 
위치 정보 스트림은 앱에서 액세스하는 스마트폰 데이터에서 개인 식별자를 재구성하는 데 중요한 역할을 합니다. 

법원 판결

2019년 취리히 대학교 의 연구원인 케르스틴 노엘 포킹거 교수 와 우르스 야콥 뮐레마터 박사는 스위스 연방대법원 의 판례를 분석하여 연방 공중보건국 (FOPH) 을 상대로 의약품 가격 결정과 관련하여 제기된 소송에 어떤 제약 회사와 어떤 의약품이 연루되었는지 평가했습니다 . 
일반적으로 스위스 판결에서는 관련 민간 당사자(예: 제약 회사)와 민간 당사자를 드러낼 수 있는 정보(예: 의약품 이름)가 익명화됩니다. 
연구원들은 공개적으로 접근 가능한 데이터베이스의 정보를 연결하여 스위스 연방대법원 의 관련 익명화된 사건 중 84%를 재식별할 수 있었습니다.  
이 성과는 언론에 보도되었고 법원 사건을 익명화해야 하는지, 그리고 어떻게 익명화해야 하는지에 대한 논쟁을 촉발했습니다.  

우려와 결과

1997년 Latanya Sweeney는 인구 조사 기록 연구를 통해 미국 인구의 최대 87%를 5자리 우편번호 , 성별 및 생년월일의 조합을 사용하여 식별할 수 있다는 사실을 발견했습니다. 

이러한 조합을 기반으로 한 무단 재식별은 현재 GDPR을 준수하는 가명화에 필요한 것처럼 데이터 관리자가 관리하는 별도로 보관된 "추가 정보"에 대한 접근을 필요로 하지 않습니다.

개인 정보가 재식별되면 개인은 자신의 신원이 연결된 정보가 재정, 건강 또는 선호도에 관한 개인 정보를 보유하기를 원하지 않는 조직에 판매될 위험도 있습니다. 
이러한 데이터의 공개는 불안, 수치심 또는 당혹감을 유발할 수 있습니다. 재식별로 인해 개인의 사생활이 침해되면 향후 침해가 훨씬 쉬워집니다. 
한 데이터와 개인의 실제 신원이 연결되면 데이터와 익명 신원 간의 모든 연결은 개인의 익명성을 깨뜨립니다. 

재식별은 익명성을 보장하겠다고 약속한 회사와 기관을 불법행위 책임 증가에 노출시키고 재식별 후 사용자 를 식별할 수 있는 정보를 제3자에게 공개함으로써 내부 정책, 공공 개인정보 보호 정책, 재정 기밀 또는 의료 개인정보 보호에 관한 법률과 같은 주 및 연방 법률을 위반하게 할 수 있습니다. 

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
  • 작성자칡 흰 작성자 본인 여부 작성자 | 작성시간 26.06.14 가역성이 있다면 가명화.
  • 답댓글 작성자칡 흰 작성자 본인 여부 작성자 | 작성시간 26.06.14 https://en.wikipedia.org/wiki/Data_re-identification
댓글 전체보기
맨위로

카페 검색

카페 검색어 입력폼