디지털 인문학의 현재와 전망 / 이재연

한국연구원
Nov 5, 2021
3 min read

Updated: Nov 5, 2021

인공지능의 힘을 세간에 알린 사건은 2016년 3월에 있었던 알파고(AlphaGo) 대 이세돌 9단의 바둑대결이 아니었나 싶다. 그래도 인간이 완승하리라는 예상을 깨고 알파고는 4승을 했고 이세돌은 단 1승만을 거둬 충격을 주었다. 당시 이세돌은 “이세돌이 패한 것이지 인간이 패한 것이 아니다”라는 유명한 말을 남겼지만, 이후 더 강해진 인공지능 바둑의 신(神)이 더 이상의 실수를 허용하지 않았다. 결국 이 국수(國手)의 1승은 인간이 발휘한 창의성의 상징으로 남았다.

그 정도의 대중적 관심을 얻지 못했지만, 2021년 5월 출시된 네이버의 하이퍼 클로바 (HyperClova)는 인간의 창의성을 넘보는 인공지능의 존재를 알렸다. 하이퍼 클로바는 한국어에 최적화된 초대규모(hyperscale) 인공지능이다. 최근 해외에서는 사람의 사고를 본뜬 인공신경망을 활용하여 인간이 사용하는 자연어를 학습하고, 통계적 추론을 통해 주어진 단어나 문장 뒤에 올 단어나 문장을 생성하는 모델을 활발히 개발해왔다. 이를 언어 모델(Language Model)이라고 하는데 그중 Open AI 회사에서 만든 GPT(Generative Pre-trained Transformer)는 발군의 실력을 발휘했다. 하이퍼클로바는 이와 같은 해외의 언어모델을 대규모의 한국어 자원으로 훈련시킨 AI로, 검색엔진과 챗봇, AI콜, 지능형 대화모델, 자동 이메일 쓰기, AI 어시스턴트 등 다방면에서 활용이 가능하다.

이와 같은 초대규모 AI의 등장은 디지털 인문학자들에게 질문을 던진다. 이러한 기술의 발전을 어떻게 받아 안을 것인가, 이를 활용하여 어떻게 인문학을 풍요롭게 만들 것인가 하는. 이런 질문들을 생각하면 그러잖아도 잰 발걸음이 더욱 빨라진다.

디지털 인문학이란, 인쇄형태의 문서를 디지털화하여 데이터베이스를 만들고 이를 대상으로 디지털 기술을 활용하여 분석하는 인문학 연구를 총칭하는 말이다. 사실, 디지털 인문학이라는 어휘는 없었지만 고전문학에서는 1990년대 중반부터 <<조선왕조실록>>의 전산화 작업, 2000년대의 한국역사정보통합시스템과 같은 아카이브 구축, 2010년대에는 이를 활용한 다양한 지식항의 관계 (온톨로지) 연구 등으로 진행됐다. 이러한 디지털 아카이브의 확충과 더불어, 인문학 내의 정량적 및 전산적 접근은 사회학, 언어학, 문학, 역사학 등의 분과학문을 넘는 방법론의 융합, 더 빠르고 정교한 연산(머신러닝, 딥러닝)을 도입한 어휘와 의미 분석 등, 여러 방면으로 그 지평을 넓히고 있다.

디지털 인문학을 학제적 분류가 아닌, 방법론적 분류로 보면 크게 다섯 가지로 나눌 수 있을 듯하다.

첫째, 사회 연결망 분석(Social Network Analysis)으로 대변되는 인물 간의 군집 분석.

둘째, 언어의 형식적 특질을 고찰하여 (형태소 분석, 공기어 분석 등을 활용하여) 어휘 사용의 문맥을 파악하는 의미론.

셋째, 사회학의 네트워크 분석을 언어학의 형태소 분석과 연결하거나 지리학의 지리 정보 시스템 등과 연결하여 진행하는 방법론적 융합 연구,

넷째, 언어를 벡터라는 숫자로 변환하여 벡터의 연산을 통해 어휘의 문맥관계를 추론하는 워드 임베딩(word embedding).

다섯째, 앞서 설명한 언어모델. 워드 임베딩은 머신러닝을 적용한 기계번역의 기본적 프레임이 되며, 자언어 분석 (NLA) 분야를 앞서 언급한 GPT와 같은 영역을 자언어 생성 (NLG) 분야로 연결시키는 중요한 거멀못이 된다.

언어모델 알고리즘의 발달로 인해 <<승정원 일기>>의 초벌 번역은 기계가 담당하고 있고, 하이퍼 클로버는 앞선 문맥을 요약ㆍ 정리하여 사람과 대화하며, 로스 굿윈(Ross Goodwin)이 고안한, 차에 장착된 글쓰기 기계는 카메라에 담긴 외경(外境)을 묘사하여 그 자리에서 줄줄 출력할 수 있게 되었다.

굿윈의 글쓰기 기계는 흥미롭다. 굿윈은 구글 팀과 함께 2017년 3월25일부터 27일까지 미국의 뉴욕에서 뉴올리언즈까지 여행을 떠났다. 차의 외부에는 감시카메라를 설치하고 이를 200권 이상의 여행기와 소설을 사전학습한 컴퓨터에 연결하였다. 그리고 컴퓨터가 본 풍경을 영수증 기계를 사용하여 곧장 출력하도록 했다. 공학적으로 보면 시각데이터를 담당하는 합성곱 신경망(Convolutional Neural Network)과 텍스트 데이터를 처리하는 순환신경망(Recurrent Neural Network)을 재치 있게 조합하여 AI가 문장을 작성하는 과정에서 사람의 손을 빌리지 않도록 하였다.

“집 안 구석구석 사이의 바닥을 [비추던] 빛이 [집 밖의] 차로 이어져 헛간까지 닿았다. 바닥을 비추는 빛이라, 화가가 말했다. 할 일이 없네. 난 원대하게

시작할 수도 있었어. 여기서 사라지고 싶구나. 때가 되었다.”

그 기계가 쓴 문장은, 부분적으로는 우울한 시인이 나지막이 읊조린 시같기도 하다. 그렇지만 전체적으로는 문맥이 닿지 않는 기호들의 내뱉음 같이 느껴지기도 한다.

“바람은 서 있었다, 창문이 새롭게 상자들로 덮일 때.”

AI에게서 창작의 가능성을 엿본다면 그것은 위에 인용한 두 문장 사이의 어디쯤이 아닐까. 이 가능성을 영문학의 경험주의 전통의 연장으로 볼 것인가, 아니면 존 설(John Seale)의 “중국어 방” 튜링테스트처럼, 어떤 컴퓨터도 사람의 마음을 이해할 수 없다고 볼 것인가는 곧 다가올 미래가 답을 해줄 것 같다.

우리는 어디로 가고 있을까. 기계와 접촉이 더 늘어날 보철(補鐵) 사회의 미래를 낙관하든 비관하든, 철학이 필요한 시기이다. 디지털 인문학의 문제는 관련 기술을 걷어내면 결국 인문학의 문제가 되기 때문이다. 우리는 빠르게 내닫는 해외의 이론과 기술을 또다시 새마을운동 식으로 따라잡으려고 하는 것은 아닌가. 디지털 인문학의 물질적 제도적 사회적 토대의 구축 없이 외국의 알고리즘을 한국어로 최적화하는 응용 속에서 특이점을 찾으려 하는 것은 아닌가. 디지털 인문학이 어떻게 한국학의 미래를 투영(projection)할 수 있을지 논의할 때가 되었다.