top of page

양산된 논문과 지성사 자료로서의 KCI-2 / 김병준

최종 수정일: 2023년 1월 11일

1. 들어가며

지난 편에는 지성사 혹은 지식사회학의 연구 대상으로서 KCI 논문 서지 데이터를 소개하였다. 이번 편에서는 실제 어떤 방식으로 KCI 논문 서지 데이터를 확보하고, 다른 데이터와 연결하는 방법을 다뤄볼 예정이다. 아무쪼록 아랫글이 연구자들에게 실전적인 도움이 되었으면 한다.1)


2. KCI 분류 체계논문

서지 데이터를 수집하기에 앞서 KCI에서 제공하는 학문 분류 체계를 이해해야 한다. KCI의 학문 분류 체계는 크게 대분류와 중분류로 나뉜다. 대분류는 총 8개 학문 분류로 구성된다(인문학, 사회과학, 자연과학, 공학, 의약학, 농수해양학, 예술체육학, 복합학). 이때 주의할 점은 복합학의 존재이다. 복합학은 학제간연구, 과학기술학 등의 중분류로 구성되어 있는데 이 중에는 인문학 대분류에 넣어도 큰 문제가 없을 것 같은 학술지도 존재한다. 예컨대 <대중서사연구>는 서사학(문학)을 연구하는 학술지라 인문학 대분류에 속할 것이라 예상할 수 있지만 복합학(학제간연구)에 소속돼 있다. 따라서 자신이 수집하려는 논문이나 학술지가 어떤 대분류와 중분류에 속해 있는지 확인하는 것이 중요하다. 필자는 주로 인문학 대분류에 있는 데이터를 학위 논문의 연구대상으로 삼았으므로 인문학의 중분류 체계를 소개한다(표1).

​가톨릭신학, 기독교신학, 기타동양어문학, 기타서양어문학, 기타인문학, 독일어와문학, 러시아어와문학, 문학, 불교학, 사전학, 서양고전어와문학, 스페인어와문학, 언어학, 역사학, 영어와문학, 유교학, 인문학, 일본어와문학, 종교학, 중국어와문학, 철학, 통번역학, 프랑스어와문학, 한국어와문학


총 24개의 중분류가 있으며 각 학술지는 하나의 중분류를 부여받는다. 문제는 A 학술지는 ‘문학’이라는 중분류를 부여받았는데(신청했거나), 해당 학술지의 어떤 논문은 중분류가 ‘문학’이 아닐 수도 있다는 것이다. 이는 KCI 초창기 생긴 문제인 듯한데 지금은 학술지를 기준으로 고쳐진 상태다. 또한 24개의 중분류가 서로 겹치거나 인문학 연구자의 상식과는 맞지 않는 경우도 있어서 연구 대상을 설정할 때 학술지의 성격이 분류에 제대로 맞는지 확인이 필요하다. 자세한 사항은 KCI의 학술지 분류 검색 사이트2)를 참고하길 추천한다.


3. KCI 서지 데이터 수집

KCI 분류 체계를 이해한 이후엔 자신이 연구할 논문의 범위를 정해야 한다. 이를테면 연구할 범위가 특정 학술지인지, 특정 검색어를 포함하는 논문 전체인지, 아니면 앞에서 말했던 특정 분류 체계 단위인지 규정해야 한다. KCI 논문 검색창3)을 최대한 활용해서 자신의 연구 주제와 맞는 논문이 한 번에 여러 건 검색될 수 있게 하는 것이 중요하다.


KCI 논문 검색창

물론 필자처럼 인문학 혹은 사회과학 전체 논문을 다 가져와서 분석하는 것도 가능하지만 수 십만 건의 데이터 처리는 그만큼의 컴퓨팅 파워와 숙련된 코딩 기술을 요한다. 논문 검색창에서 검색을 통해 연구에 필요한 논문의 수와 범위를 확인했다면 가장 중요한 단계는 복수의 논문의 서지정보를 한 번에 ‘내보내기’하는 작업이다.


KCI에서는 최근에 서지정보 내보내기 기능을 대폭 강화하였다. 아래 그림처럼 아무 논문도 선택하지 않고 엑셀 버튼을 누르면 최대 2,000건의 논문 서지정보를 한꺼번에 내려받을 수 있다. 원래는 서지정보 내보내기를 눌러 한 번에 최대 300건씩(한 페이지당 300건씩 보기 설정 후) 다운이 가능했는데 많은 발전을 이룬 셈이다. 2,000건이 넘는 논문 서지 정보를 받으려면 어떻게 해야 하는가? 일단 한 번에 이천 건 이하의 논문을 검색해(연도 검색 등으로) 일일이 내려받는 방법이 있다. KCI에서 제공하는 OPEN API4)을 활용하면 한 번에 수만 건의 서지 정보를 내려받을 수 있지만 코딩 역량을 요구하는 게 단점이다. 또한 내보내기의 경우 초록이나 참고문헌 목록 데이터를 확인할 수 없다.

KCI 논문 내보내기(엑셀)

이런 어려움이 있을 때는 따로 KCI 데이터활용안내 메뉴(정보마당)5)를 통해 자신이 원하는 조건의 논문 서지정보를 요청해서 따로 받을 수 있다. 필자 역시 몇 번의 요청을 해본 적이 있고, 큰 도움을 받았다. 정보이용 신청서와 서약서를 작성해 전자 공문이나 이메일을 보내면 엑셀 형태의 서지정보 데이터를 받을 수 있다.


KCI 데이터활용안내

논문 서지 데이터의 여러 항목은 디지털인문학 혹은 지식사회학 연구에 큰 자료가 될 수 있다. 제목, 주제어, 초록 같은 텍스트 데이터는 자연어처리(텍스트마이닝)를 활용한 연구에 이용할 수 있으며, 참고문헌이나 인용 관계 데이터를 통해 계량서지학 연구에도 활용되고 있다.


4. 다른 공공 데이터와 연결

데이터를 활용한 디지털인문학 혹은 계산사회과학 연구의 장점을 가장 잘 활용하는 방법은 ‘연결’이다. 아니, 더 강하게 말하자면 ‘연결’에서 디지털 인문사회과학이 시작하는 것인지도 모른다. 이전까지의 인문사회과학 연구가 설문조사, 특정 작가 등 하나의 데이터 세트에 국한된 연구를 해왔다면 컴퓨팅 파워와 디지털 방법론의 대중화는 여러 데이터 사이의 연결을 용이하게 했다. KCI 데이터는 그 자체로 매력 있는 데이터지만 여기에 다른 공공데이터를 연결하면 더 확장된 연구가 가능하다. 또한 KCI가 가진 한계(KCI 논문을 제외한 단행본이나 해외 논문은 식별화가 되어있지 않음 등)도 분명하므로 다른 데이터베이스와 연결하는 시도가 중요하다. KCI에 연결해볼 수 있는 대표적인 데이터베이스는 KRI(한국연구자정보), RISS, 국가서지 LOD이다. 첫째, KRI는 연구자의 인구사회학적인 정보가 있는데, 연구자 고유번호를 통해 KCI의 저자와 KRI 정보를 연결할 수 있다. 이는 조금은 어려운 웹스크래핑(크롤링) 기술을 요한다. 둘째, RISS는 KCI의 약점인 학위논문 데이터가 잘 구축되어 있다. 이를 활용하면 학위논문 서지정보를 보강할 수 있을 것이다. 셋째, 2022년에 공개한 국립중앙도서관의 국가서지 LOD6)는 국립중앙도서관이 보유한 도서와 전자문헌에 대한 모든 정보에 접근할 수 있다. 예컨대 특정 저자로 검색해 들어가면 해당 저자의 모든 저작 정보를 확인할 수도 있다. 더 나아가 SPARQL7)를 활용하면 특정 검색 조건(예:“1910년부터 1920년까지 매일신보가 발행한 신문을 반환하시오”)에 맞는 자료를 바로 받아볼 수 있다.8)



1) 이 글은 필자의 학위 논문과 아래 기고문에서 일부를 발췌, 수정한 것이다.Kim, Byungjun. "Mapping the knowledge structure of Korean humanities:Bibliographic data analysis of humanities journal articles in the Korea citation index, 2004~2019." 박사학위논문, 성균관대학교, 2022

김병준. (2021). 계량서지학 기반 개념사 연구의 가능성. 개념과 소통, 28, 233-246.

7) LOD(Linked Open Data)를 위한 질의 언어. 데이터베이스를 위한 SQL과 유사하다.



김병준(카이스트 연구교수)

조회수 135회댓글 0개

최근 게시물

전체 보기

Comments


bottom of page