일시 2025년 11월 13일(목) 14:00-17:00
장소 서울대 101동 2층 영원홀, ZOOM 병행
오늘날 연구 환경은 데이터의 체계적 관리와 공유를 새로운 표준으로 요구하고 있습니다.
이에 KOSSDA는 연구자들이 데이터 관리의 첫걸음을 성공적으로 시작할 수 있도록 "데이터 큐레이션 ON 2025: 익명처리부터 문서화까지 – 함께 만드는 공유 가능한 데이터"를 주제로 연구데이터 관리 워크숍을 개최합니다.
이번 워크숍은 연구 단계별 데이터 관리의 핵심 원칙부터 개인정보 보호와 데이터 유용성 사이에서의 균형을 찾는 익명처리 기법, 그리고 데이터의 재사용 가치를 높이는 체계적 문서화 방법을 다룹니다. KOSSDA 연구데이터 관리 워크숍은 이론보다는 실천을 모토로 하여, KOSSDA 아키비스트가 20년간 축적한 연구데이터 관리 경험에 기반한 노하우를 공유하는 시간입니다.
특히 실제 사례를 통해 익명처리와 문서화 과정을 구체적으로 보여드림으로써 관심 있는 여러분들이 연구현장에서 바로 실천할 수 있도록 준비했습니다.
서울대학교 한국사회과학자료원
프로그램
세션 1. 연구데이터 관리 기초
“연구 단계별 데이터 관리 원칙과 실천 방안”
KOSSDA 허혜옥 연구원
오픈 사이언스 운동이 확산되면서 체계적으로 관리된 데이터는 논문만큼 중요한 연구 성과물로 평가됩니다. 이 세션에서는 연구 시작부터 종료 후까지 데이터의 가치를 보존하고 재사용 가능한 상태로 유지하기 위한 필수 개념과 연구 단계별 실천 방안을 제시합니다. 데이터 관리 계획(DMP), 버전 관리, 백업 전략, 저작권과 라이선스, 데이터 인용 등 공유를 전제로 한 6대 핵심 키워드를 중심으로 연구자가 현장에서 적용할 수 있는 관리 전략을 안내합니다.
세션 2. 연구데이터 익명처리
“데이터 유용성과 개인식별위험 사이에서의 밸런스 게임”
KOSSDA 김혜진 연구원
데이터 익명화의 핵심은 데이터의 재이용을 위해 연구정보를 최대한 유지하면서도 개인 식별 가능성을 최소화하는 균형점을 찾는 것입니다. 이 세션에서는 이러한 데이터 익명화 밸런스 게임에서 요구하는 필수 개념과 규칙 및 기술(technic)을 설명하고, 연구자가 실제 연구데이터 관리에서 적용·실천하게 하는 것을 목적으로 합니다. 내용은 사회과학 연구데이터의 익명처리 전반을 다루지만, 특히 질적자료의 대표적 유형인 텍스트를 중심으로 방법과 사례를 소개합니다.
세션 3. 연구데이터 문서화
“데이터를 설명하는 일, 데이터의 가치를 살리는 방법”
KOSSDA 신지민 연구원
연구데이터 생애주기에서 “문서화”는 데이터에 맥락과 설명을 더하여 연구데이터를 지속적으로 재이용 가능한 자산으로 만들어주는 핵심 단계입니다. 이 세션에서는 연구데이터 문서화의 필요성과 구성 요소를 살펴보고, 변수 라벨링, 메타데이터 작성, 코드북 작성 등 구체적인 절차와 방법을 소개합니다.
사전 신청
포스터
행사 리뷰
서울대학교 한국사회과학자료원(KOSSDA)은 2025년 11월 13일 ‘익명처리부터 문서화까지 – 함께 만드는 공유 가능한 데이터’를 주제로 연구데이터 관리 워크숍 <KOSSDA 데이터 큐레이션 ON 2025>를 개최했다.
이 행사는 온·오프라인 하이브리드 방식으로 진행되었으며, <데이터 큐레이션 ON>은 데이터 관리를 ‘시작(turn ON)’하고, 연구자들을 ‘연결(connect ON)’하며, 배운 것을 바로 ‘실천(practice ON)’하자는 의미를 담고 있다. 김석호 KOSSDA 원장은 개회사에서 연구 및 데이터의 생애주기 전 과정에서 데이터 관리 계획을 수립하고 실천하는 활동이 그동안 충분히 이뤄지지 못했다고 지적하며, 연구자를 위한 데이터 관리 교육의 필요성을 강조하였다.
이번 위크숍은 KOSSDA의 연구원이 데이터 아카이빙 업무를 수행하며 쌓은 경험을 바탕으로, 연구 단계별 데이터 관리의 핵심 원칙부터 개인정보 보호와 데이터 유용성 사이에서의 균형을 찾는 익명처리 기법, 그리고 데이터의 재사용 가치를 높이는 체계적 문서화 방법을 순차적으로 다루었다.
1) 연구 단계별 데이터 관리의 핵심 원칙
허혜옥 KOSSDA 아카이빙사업부 실장은 연구 시작부터 종료 후까지 데이터의 가치를 보존하고 재사용 가능한 상태로 유지하기 위한 필수 개념과 연구 단계별 실천 방안을 제시했다. 오픈사이언스 시대에서 연구데이터의 생애주기를 고려한 데이터 관리는 연구의 타당성과 재이용성을 확보하는 데 중요한 활동이다. 오늘날 연구생태계에서 재현 불가능한 연구는 곧 신뢰할 수 없다고 인식되기 때문에, 권위 있는 해외 저널에서는 엄격한 데이터 가용성 진술문(Data Availability Statement)을 요구하고 있으며 데이터 공유 의무화, 오픈액세스 부여, CC BY 라이선스 설정 등도 제시되고 있다. 즉 연구자들이 데이터 개방과 연구재현성에 대한 사회적 요구에 대응하지 못한다면 데이터 유실이나 관리 부실로 인해 연구 결과의 진실성을 입증하는 데 실패함으로써 신뢰를 잃게 될 위험이 있다. 이에 허혜옥 실장은 연구의 품질을 높이는 ‘연구데이터관리계획(Data Management Plan, DMP)’, 명명 규칙에 따라 정렬되도록 하는 ‘파일관리’, 검토, 수정단계 등 작업 내용을 직관적으로 보여주는 ‘버전관리’, 데이터를 안전하게 보존하는 ‘백업’, 데이터 재사용을 촉진하는 ‘라이선스’, 연구의 투명성과 재현가능성을 높이는 ‘데이터 인용’이라는 6대 키워드를 가지고 공유를 전제로 하는 데이터 관리 방법을 소개했다.
하지만 연구데이터 관리 경험이 없다면 개인 연구자가 이를 바로 실천하기에 쉽지 않을 수 있다. 허 실장은 기탁받은 데이터를 2차 활용 가능하도록 돕는 KOSSDA의 데이터 큐레이션 레벨과 세부 내용을 설명하며, 연구자의 데이터 관리 활동에 KOSSDA 데이터 큐레이션 서비스를 지원하여 “함께 만드는 공유 가능한 데이터”가 될 수 있다고 강조했다.
2) 연구데이터 익명처리 방안
김혜진 KOSSDA 아카이빙사업부 연구원은 <데이터 유용성과 개인식별위험 사이에서의 밸런스 게임>을 주제로 연구데이터 익명처리 방안을 발표했다. 질적자료를 공유한다고 할 때, 불충분한 맥락 정보로 인한 오독(誤讀)과 재이용 어려움, 기밀유지와 개인정보 침해 우려, 소유권과 저작권 문제, 연구자에게 가중되는 부담 등이 주된 우려로 언급된다. 그러나 연구자가 연구참여자를 보호하기 위해 정보수집 및 이용에 대한 사전동의를 구하거나, 사후적으로 자료에 대한 접근을 통제하거나, 개인 및 민감정보를 비식별화 또는 익명화하는 노력을 기울인다면 질적 자료 공유는 불가능하지 않다.
김혜진 연구원은 개인식별 가능성을 최소화하여 연구참여자를 보호하면서, 공유 및 재이용이 가능한 데이터로 관리하기 위한 KOSSDA의 지침을 구체적인 사례를 들어 소개했다. KOSSDA가 사용하고 있는 연구참여자 대상 동의서는 연구목적, 연구 참여로 인한 이익과 위험, 동의 철회 절차와 동의 여부, 개인정보 처리 및 관리 방안, 데이터 보관 및 (재)이용 계획을 포함한다. 자료접근통제의 경우 일반공개, 회원공개, 제한공개 등급을 달리하고 있다. 연구참여자가 잠재적으로 노출될 위험이 크다고 판단되어 제한공개로 설정한 자료에 대해서 이용자는 적합한 이용목적과 자격을 제시하고, 필요한 경우 추가 이용조건에 동의하여야 자료에 접근할 수 있다. 익명화는 수집한 데이터에서 식별자를 찾고 평가한 다음, 식별자별 적절한 익명화 기술을 적용하고 적절성을 검토하는 처리단계를 거친다. 이 과정에서 개인노출위험을 줄이기 위해 익명처리 기준을 높일수록 정보가 손실되어 데이터의 유용성이 떨어지기 때문에, 익명화는 개인식별위험과 데이터 유용성 사이에서 균형점을 찾는 기술이라 할 수 있다. 김 연구원은 KOSSDA 소장 질적자료의 익명처리 사례를 직접 보여주며, 구술의 맥락을 이해할 수 있도록 간접식별자는 정보 삭제를 지양하지만 간접식별자라도 예외적이거나 고유한 정보라면 개인 식별 가능성이 커지기 때문에 정보 변경이 필요하다고 강조했다.
끝으로 모든 유형의 데이터에 적합한 단 하나의 익명화 방법이 있는 것은 아니며 “익명처리에 정답은 없지만 사전동의와 접근통제, 익명화 장치 등을 활용해 균형점에 도달할 수 있다”고 언급했다.
3) 연구데이터 문서화
신지민 KOSSDA 아카이빙사업부 연구원은 <데이터를 설명하는 일, 데이터의 가치를 살리는 방법>에 대해 발표했다. 연구데이터 생애주기에서 ‘문서화’는 데이터에 맥락과 설명을 더해 연구데이터를 지속적으로 재이용 가능한 자산으로 만드는 핵심 단계다. 신지민 연구원은 데이터 문서화를 통해 생산자는 효율적이고 책임 있는 연구 수행이 가능하며, 2차 이용자는 데이터를 신뢰하고 재이용할 수 있어 궁극적으로 연구생태계의 확장과 지속가능성을 강화한다고 설명했다.
이어 KOSSDA에서 기탁받은 자료를 구축하는 프로세스와 실무 경험을 바탕으로 좋은 데이터 문서화의 구성요소를 소개했다. 먼저 일관되고 명확한 변수 라벨링은 데이터의 가독성을 높이기 때문에 중요하다. 데이터에 대한 데이터인 메타데이터(Metadata)는 이용자 친화성, 장기 활용성, 공유 가능성, 상호운용성을 고려하여 작성되어야 한다. 메타데이터는 결과보고서나 웹사이트 등 공개된 정보를 기반으로 작성되므로, 연구와 조사에 대한 정보가 풍부할수록 더 완성도 높은 메타데이터를 만들 수 있다. 신 연구원은 KOSSDA에서 제공하는 메타데이터의 필수 항목으로 자료명, 자료시리즈, 연구과제, 연구책임자, 연구수행기관 등이 있으며, 이는 국제표준인 DDI(Data Documentation Initiative)에 따라 개발한 템플릿으로써 개인 연구자부터 연구기관까지 모두 참고할 수 있는 표준화된 기술 문서라고 설명했다.
2. 질의응답
발표 후 이어진 질의응답 세션에서는 오래된 자료를 데이터로 활용할 때 주의할 점과 재이용 의의에 대한 질문이 나왔다. 이에 대해 허 실장은 KOSSDA가 소장한 1950년대 자료를 예로 들며, 과거 자료는 한국 역사를 돌아보는 데 필수적이며 맥락 정보 정리가 중요하다고 답했다. 특히 과거 데이터를 이용해 AI를 학습시켜 출구조사보다 정확한 선거 결과를 예측한 KOSSDA 서비스 자료 ‘전국지표조사(Natioanl Barometer Survey, NBS)’의 사례를 공유하며 데이터의 넓은 활용 범위를 강조했다. 연구 참여 주체별로 DMP(데이터 관리 계획) 실무의 차이가 있는지에 대한 질문에는, 해외 연구팀과의 협업 경험을 바탕으로 연구책임자가 체계적으로 데이터를 관리했던 경험을 나누었다. 김혜진 연구원에게는 익명화된 데이터로 연구 결과의 정확도를 확보하는 방안에 대한 질의가 있었다.
김 연구원은 양적 자료는 평판 등으로 신뢰도에 대한 공감대가 형성되는 반면, 질적 자료는 상대적으로 품질 보장 기준이 부족할 수 있다고 지적했다. 이 때문에 KOSSDA와 같은 데이터 리포지토리에서 데이터 품질이 핵심임을 언급하며, 소장 데이터 자체가 신뢰를 얻을 수 있도록 데이터 큐레이션에 집중해야 한다고 의견을 밝혔다.
마지막으로 신지민 연구원은 연구자가 데이터 문서화를 효율적으로 시작할 수 있는 최소한의 작업에 대한 질문에 연구 시작부터 나만 아는 메모가 아닌, 누가 봐도 이해할 수 있는 표준화된 언어와 기호로 메모를 남기는 습관을 제안했다.
3. 마치며
이번 연구데이터 관리 워크숍은 온오프라인 동시 진행으로 치러졌다. KOSSDA 홈페이지와 연구데이터주간 웹페이지를 통해 홍보되었으며, 사전신청자는 174명, 실시간 온라인 시청과 현장 참여자는 약 100명이 참석하였다. 참여자들은 의견조사를 통해 데이터 큐레이션의 각 영역별 주제를 보다 깊이 있게 다루기를 희망한다거나, 조직 차원에서의 연구데이터 관리체계 도입 전략이 궁금하다는 등 다양한 의견을 주었다.
KOSSDA는 앞으로도 참여자 수요와 기대에 맞춰 내용을 보완하고 발전시켜 연구자에게 실질적인 도움을 제공하는 연구데이터 관리 워크숍을 지속적으로 개최할 예정이다.