(디지털)인문학 연구를 위한 공공데이터 활용 –11)
(디지털)인문학 연구와 공공데이터
디지털 인문학(Digital Humanities)이 전통적인 인문학 연구와 다른 지점은 ‘전자화된 인문 데이터’의 활용 유무이다. 물론 기존 인문학 연구에서도 조선왕조실록이나 한국사데이터베이스처럼2) 국가 단위에서 사료를 전자 문헌화한 데이터를 활용 중이다. 다만 디지털 인문학 연구에서는 자료 웹사이트에서 자료를 검색하는 데 그치지 않고 해당 전자문헌 raw 파일을 가져와 자신의 연구 주제에 맞게 재조합하고 추가하는 등의 행위가 수반된다는 것이다. 예컨대 아래는 한국사데이터베이스에 있는 한국근현대잡지자료 예시이다. 서북학회 월보의 한 기사인데, 제목과 본문을 확인하는 수준을 넘어 디지털 인문학 연구에서는 기계가 읽어낼 수 있는(Machine-readable data)3) 표준적인 포맷의 파일이 필요하다.
특히 인문 데이터의 진가는 아래 그림처럼 추가 데이터 태깅 작업이다. 역시 동일한 한국사데이터베이스 자료에서 이름과 지명이라는 색인어가 따로 정리된 것을 확인할 수 있다. 이 색인어 추가 태깅(tagging) 작업은 기존 txt, hwp, pdf 파일로는 불가능하다. 기계 가독 데이터의 중요성은 뒤에서 더 설명하겠다.
이제 좀 더 구체적인 상황을 상상해보자. 만약 당신이 (디지털) 인문학4)에서 공공데이터를 활용한다고 한다면 난이도에 따른 단계는 다음과 같다 (아래로 갈수록 난도 상승).
1. 기존(공공) 데이터를 하나 정해 가져와 활용한다.
2. 기존(공공) 데이터에 추가 작업(Annotation, Tagging 등)을 해서 활용한다.
3. 여러 기존(공공) 데이터들을 연결해 활용한다.
4. 자신이 연구할 데이터를 밑바닥부터 직접 설계해 활용한다.
1번은 자신이 연구에 필요한 데이터를 한정해서 기존 공공데이터를 그대로 활용하는 것이다. 잘 조직된 공공데이터를 활용하는 손쉬운 방법이다. 2번에서는 공공데이터에 연구자가 필요한 정보를 추가(Annotation)해서 더 넓은 범위의 연구 데이터를 확보할 수 있다. 3번은 이에 더해 흩어져 있거나 기존에는 연결성 없이 독립적으로 존재하던 데이터를 연결해 새로운 인사이트를 얻는다. 마지막 4번은 자신의 해결하고자 하는 연구 문제나 질문에 딱 맞는 데이터가 없을 시 해당 데이터를 찾아 전자 문헌화 하고 데이터 형태로 설계하는 가장 고난도의 작업이다. 4번 작업도 밑바닥부터 하기보다는 기존 공공데이터를 기반으로 직접 만드는 것이 좋다. 필자는 석사논문 작업을 위해 1, 2, 3번을 포함해서 결국 4번 작업을 통해 연구 데이터를 확보할 수 있었다. “한국의 문학 권력을 정량적으로 측정할 수 있는 데이터가 있는가?”라는 질문에 답하기 위해 한국의 대표 문예지 『창작과비평』, 『문학동네』, 『문학과사회』의 서지 정보가 필요했다. 이 작업은 각종 학술 데이터베이스(교보 스콜라, 디비피아 등)에서 서지 목록을 모으고, 해당 문예지의 저자와 비평 대상에 대한 인구사회학적인 정보(성별, 생년, 출신 대학/학과, 등단 연도, 등단지 등)를 네이버 인물정보와 구글링을 통해 수집하는 것으로 진행했다. 하나의 연구 문제를 해결하기 위해 여러 공공데이터가 동원된 것이다.5)
공공데이터 포털 활용하기
이제 구체적인 공공데이터 활용법을 알아보려 한다. ‘놀랍게도’ 대한민국은 디지털 인문학 강국이 될 수 있는 토양이 넘친다. 바로 공공데이터 포털 덕분이다.6) 공공데이터 포털은 정부나 공공기관/국책 연구소 등에서 생산되는 데이터를 한데 모아 제공하는 곳이다. 앞에서 언급한 한국사데이터베이스는 물론이고 한국문집총간 등 인문 공공데이터가 총망라되어 있다. 또한 더 큰 매력은 raw 데이터 파일을 제공한다는 점이다. 웹사이트에서 보는 형태로만 제공되던 인문 데이터를 기계 가독형 데이터 형식(특히 XML)으로 제공함으로써 연구자가 자유롭게 데이터를 다뤄볼 수 있다. 아래 그림에서도 한국사데이터베이스의 원본 XML 파일이 제공되는 것을 알 수 있다.
공공데이터 포털을 더 적극적으로 활용하는 방법은 데이터 공개 요청이다. 원본 데이터를 내려받을 수 없는 경우 하는 요청인데 한국학중앙연구원의 김바로 선생님의 논문7)에 자세히 그 과정이 적혀있으니 일독을 권한다. 공공기관이 보유한 각종 인문데이터를 공개 신청8)을 통해 기계 가독형 데이터로 받아볼 수 있을 것이다.
기계 가독형 데이터에 대해 말하며 이번 칼럼을 마무리하려 한다. 앞에서 언급한 김바로 선생님의 논문에 따르면 기계 가독형 데이터는 5단계로 나눠서 설명할 수 있다. 3단계 이상의 포맷이 오픈 포맷으로 진정한 의미에서 기계가 읽어낼 수 있는 형태다. 즉 1, 2단계 포맷은 사람이 보고 확인하는 데에는 문제가 없으나 기계는 해당 데이터의 구조를 알 수 없다. 예컨대 근대 관련 사료에서 ‘이광수’라는 작가의 이름이 등장한다면 연구자는 소설가 춘원 이광수를 자연스럽게 떠올리겠지만, ‘이광수’라는 텍스트에 아무 정보도 추가하지 않은 상태에서는 기계가 그것을 알 턱이 없다. 즉 기계에 그냥 줄글이 아니라 줄글에 있는 여러 정보를 포함해서 줄 수 있는 포맷이 아래 표에서 3단계 이상의 포맷이 갖는 함의다. 3단계 이상의 포맷은 여러 개가 있지만 인문 데이터에 최적화된 XML 파일을 다음 편에 소개하겠다.
(다음 편에 계속)
1) 이 글은 2023 디지털인문학(DH) 겨울학교의 공동 세션, <디지털인문학을 위한 공공데이터 활용(김병준)>의 강의안의 내용을 일부 가져온 것입니다.겨울학교 안내 : https://dhcss.kaist.ac.kr/boards/view/board_news/87 발표자료 링크 :https://docs.google.com/presentation/d/1TRlCIdNWecV8_a0_-1GVe5UMUYhEX1m0F6ApykzEHDY/edit?usp=sharing
4) 반드시 디지털 인문학 연구가 아니어도 적용할 수 있다. 따라서 디지털에 괄호를 넣었다.
5) 이 과정을 확인해보고 싶다면 다음 논문 세 편을 참고할 것.전봉관, 김병준 and 이원재. (2016). 문예지를 매개로 한 한국 소설가들의 사회적 지형: 1994~2014. 현대소설연구, 61, 169-228.이원재, 김병준 and 전봉관. (2016). 작가-비평가 관계와 비평가의 구조적 위치가 소설 단행본 판매량 증감에 미치는 영향: 2010-2015. 한국현대문학연구, 48, 527-574.김병준, 전봉관 and 이원재. (2017). 비평 언어의 변동: 문예지 비평 텍스트에 나타난 개념단어의 변동 양상, 1995~2015. 현대문학의 연구, 61, 49-102.
7) 김바로. (2022). <공공데이터법>과 인문데이터-공공기관 보유 인문데이터 공개 신청 사례를 중심으로. 韓國古典硏究, 57, 167-192.
8) https://www.data.go.kr/tcs/dor/insertDataOfferReqstProcssView.do
Comments