앨리슨 패리시, 언어의 벡터화 실험의 의의 / 오영진
- 한국연구원

- 5일 전
- 4분 분량
앨리슨 패리시(Allison Parrish)의 "벡터화된 단어를 활용한 실험적인 창작 글쓰기(Experimental Creative Writing with the Vectorized Word)"는 언어를 단순히 의사소통의 수단이 아닌, 조작 가능한 연속적인 데이터로 바라보는 새로운 시각을 제시한다. 그녀는 시인이자 프로그래머, 게임 디자이너로서 뉴욕대학교 인터랙티브 텔레커뮤니케이션 프로그램에서 컴퓨터 생성 시를 가르치며, 언어를 벡터로 표현하는 실험을 통해 전자문학의 지평을 넓히고 있다.
전통적으로 언어는 글자, 단어, 문장과 같은 불연속적인 단위로 구성된다고 여겨져 왔다. 이는 마치 디지털 이미지의 픽셀이나 오디오 파일의 샘플처럼 각각의 독립적인 의미를 지닌 요소들로 이루어진 것처럼 보인다. 그러나 패리시의 접근 방식은 이러한 고정관념을 뒤흔든다. 그녀는 언어를 벡터 공간 속의 점으로 치환함으로써, 단어들 간의 관계를 수학적으로 계산하고 조작할 수 있는 가능성을 탐구한다. 이는 언어에 일종의 산수를 적용하여 새로운 의미와 형태를 창조하는 혁신적인 시도다.
패리시가 제시하는 언어 벡터화의 핵심은 자연어 처리 분야에서 활용되는 "분포 가설(distributional hypothesis)"에 기반한다. 분포 가설은 "비슷한 분포를 가진 언어 항목은 비슷한 의미를 가진다"는 원리로, 쉽게 말해 어떤 단어의 의미는 그 단어가 주로 어떤 단어들과 함께 쓰이는지를 통해 파악할 수 있다는 것이다. 마치 xkcd 색상 조사 데이터베이스에서 색깔 단어들이 RGB 벡터 공간에 매핑되어 "빨간색"과 "진홍색"이 서로 가깝게 위치하는 것처럼, 의미적으로 유사한 단어들은 벡터 공간에서도 서로 가까운 거리에 놓이게 되는 원리다.

초기에는 색깔 단어와 같이 직관적으로 연속적인 값을 지닌 단어들을 벡터화하는 것이 상대적으로 쉬웠다. 예를 들어, "빨간색"과 "보라색"을 빼고 가장 가까운 벡터를 찾으면 "파란색"이 나오는 식의 연산이 가능했다. "장미는 빨개요, 제비꽃은 파래요." "장미는 토마토색이에요, 제비꽃은 일렉트릭 블루에요." "장미는 호박색이에요, 제비꽃은 다크사이드에요." "장미는 버트 오렌지색이에요, 제비꽃은 바다색이에요." 와 같이 색깔 단어를 통해 새로운 시적인 표현을 만들어내는 것이 가능하다. 하지만 패리시의 실험은 여기서 멈추지 않았다. 그녀는 모든 영어 단어에 대해 동일한 '가까이 있는 것은 의미도 가깝다'는 속성을 가진 벡터 공간을 만들 수 있을까?라는 질문을 던졌다. 이를 위해 그녀는 단어의 주변 컨텍스트를 분석하여 각 단어에 대한 고차원 벡터를 생성하는 방법을 소개한다. “옛날 옛적에 가장 좋은 시절이었고, 가장 나쁜 시절이었다"라는 문장을 예시로 들었을 때, "best"와 "worst"라는 단어는 문맥상 반의어처럼 보이지만, 함께 등장하는 단어들을 기준으로 만들어진 벡터 공간에서는 같은 위치에 놓이게 된다. 이는 두 단어가 모두 "최고의" 또는 "최악의"와 같이 극단적인 감정을 표현하는 형용사라는 점에서 의미론적 유사성을 지니기 때문이다. 이러한 방식으로 생성된 단어 벡터, 즉 워드 벡터(word vector)는 50에서 300차원 사이의 숫자로 이루어지며, 단어의 의미를 연속적으로 표현한다. 이는 단순히 동의어를 찾는 것을 넘어, 단어들 간의 미묘한 의미론적 관계를 포착하고 수학적으로 조작할 수 있게 한다.
단어가 벡터로 표현됨으로써, 언어는 마치 이미지나 오디오 파일과 같은 파형으로 간주될 수 있다. 이는 디지털 이미지 처리나 오디오 신호 처리에서 사용되는 다양한 알고리즘을 언어에 적용할 수 있게 한다는 점에서 전자문학의 새로운 장을 연다. 패리시는 빅터 타이로프(Viktor Tightrope)라는 프로토타입 프레임워크를 개발하여 이를 시연했었다. 이 프레임워크는 텍스트를 구성하는 워드 벡터 행렬을 실시간으로 조작하여 텍스트의 의미를 흐리게 하거나(blur), 해상도를 낮추거나(resample), 다른 텍스트와 혼합하는(blend) 등의 작업을 가능하게 한다.
메리 셸리의 『프랑켄슈타인』과 성경 창세기 1장을 혼합하는 그녀의 시 「프랑켄슈타인 창세기(Frankenstein Genesis)」는 이러한 언어의 신호 처리 가능성을 극명하게 보여준다. 두 원본 텍스트의 워드 벡터 값을 점진적으로 평균화함으로써, 중간 단계의 텍스트들은 원본 텍스트의 구문 패턴과 의미론적 유사성을 부각시키며 전혀 새로운 시적 경험을 제공한다. 이는 단순히 단어를 교체하는 수준을 넘어, 텍스트의 의미 파형을 조작하여 창조적인 변형을 이끌어내는 것이다. 패리시는 의미 벡터를 넘어 단어의 소리 또한 벡터 공간으로 표현하는 실험을 진행한다. 단어의 발음 기호를 숫자로 변환하고, 음소(phoneme) 수준의 음향적, 조음적 유사성을 포착하는 특징들을 추출하여 음성 벡터를 생성하는 것이다. 이를 통해 그녀는 "octopus"와 "apocalypse"가 소리적으로 유사하다는 것을, 혹은 "kitten"과 "puppy"의 중간 소리를 가진 단어가 "committee"라는 것을 수학적으로 증명한다. 주목할 만한 것은 특정 단어의 음성 벡터를 전체 텍스트에 더하여 텍스트의 소리를 변화시키는 실험이다. 예를 들어, 로버트 프로스트의 시 "가지 않은 길(The Road Not Taken)"에 날카롭고 각진 느낌의 단어인 "Kiki"의 음성 벡터를 더하면, 시는 더욱 날카롭고 각진 소리를 내는 단어들로 변환된다. 반대로 둥글고 뭉툭한 느낌의 단어인 "Booba"의 음성 벡터를 더하면, 시는 부드럽고 둥근 소리의 단어들로 재구성된다. 이러한 소리 벡터화는 언어의 미학적 특성 중 하나인 운율과 음향적 효과를 계산적으로 조작할 수 있게 하여, 시적인 창작의 영역을 확장한다. 패리시의 저서 『Articulations』(2018)는 퍼블릭 도메인 시 텍스트 데이터베이스인 프로젝트 구텐베르크(Project Gutenberg)의 모든 시 구절에 대한 음성 유사성 공간을 무작위로 탐색하여 생성된 시들로 구성되어 있다. 이는 시의 내용뿐만 아니라 소리적 측면에서도 새로운 시적 경험을 제공고 기존의 언어공간을 탐구할 수 있는 전자문학의 가능성을 보여준다.
앨리슨 패리시의 벡터화된 언어 실험은 전자문학이 나아가야 할 새로운 방향을 제시한다. 이는 단순히 컴퓨터를 이용해 텍스트를 생성하는 것을 넘어, 언어 자체를 데이터로 인식하고 수학적, 알고리즘적으로 조작함으로써 인간의 인지적, 감각적 경험을 확장하는 시도다. 그녀의 작업은 언어의 의미와 소리라는 두 가지 핵심 요소를 연속적인 벡터 공간에 매핑함으로써, 우리가 언어를 이해하고 창조하는 방식에 대한 근본적인 질문을 던진다. 언어의 산수가 가능하다면, 언어의 나눗셈과 곱셈, 더 나아가 언어의 미적분 또한 가능하지 않을까? 이는 단순히 단어를 더하고 빼는 차원을 넘어선다. 특정 단어에 감정의 상수를 곱해 슬픔의 강도를 기하급수적으로 증폭시키는 정서의 스케일링(Scaling)이 가능해지고, 거대하고 복잡한 서사를 문맥의 단위로 나누어 그 기저에 흐르는 욕망의 기울기를 산출해내는 의미의 미분(Differentiation)이 가능해진다는 뜻이다. 우리는 서로 다른 차원의 개념을 곱해 이전에 없던 복합적인 의미의 텐서(Tensor)를 생성하거나, 난해한 문장을 정서의 최소 단위인 소수(Prime Number)로 쪼개어 본질만을 남기는 의미의 인수분해를 시도할 수도 있다. 결국 이것은 문학이 직관과 영감이라는 모호한 안개 속을 걷는 행위에서, 좌표와 수식이라는 정밀한 도구를 쥐고 언어의 구조적 심연을 설계하는 감각의 공학으로 진화하고 있음을 시사한다. 작가는 이제 언어의 연산자가 되어, 무한한 벡터의 우주 속에서 단어와 단어 사이의 미지의 해를 도출해내는 수학자가 된다
가장 유명한 예시인 "왕(King) - 남자(Man) + 여자(Woman) = 여왕(Queen)"이라는 수식은, 언어 임베딩 기술이 단순한 기호 매칭을 넘어 단어 간의 성별과 지위라는 뉘앙스까지 수학적으로 파악하고 있음을 보여준다. 이러한 흐름은 전자문학을 언어의 경계를 넘어 시각 예술, 음악, 인터랙티브 미디어 등 다양한 예술 형식과 융합시킬 수 있는 잠재력을 지닌다. 언어는 더 이상 고정된 형태의 메시지가 아니라, 끊임없이 변형되고 진화하는 유기적인 데이터 흐름이 된다. 앨리슨 패리시의 실험은 전자문학이 단순한 텍스트의 디지털화가 아니라, 언어의 본질을 탐구하고 재정의하는 전위적인 예술 형식으로서의 가능성을 열어젖힌다. 다시 말해 전자문학이란 기계가 대신 써 주는 문학이나 기계적 장치에 의해 생산성을 품은 문학이 아니라 연산가능해진 언어 공간을 탐색하는 문학을 의미하게 되는 것이다.
언어의 벡터화가 새로운 창작에 도움이 되느냐는 질문에 대한 답은 명확하다. 벡터화는 단순히 글을 쓰는 도구를 넘어, 글을 연주할 수 있는 악기를 제공한다. 앨리슨 패리시의 사례는 작가가 빈 페이지 앞에서 단어를 고뇌하는 존재에서, 방대한 언어 데이터의 바다 위에서 의미의 파형을 조작하고 소리의 주파수를 변조하는 문학적 신디사이저 연주자로 진화할 수 있음을 시사한다.
이것이 벡터화된 언어 실험의 힘이다. 작가가 고독 다음에 폭발을 써야지라고 계획하지 않아도, 언어 데이터의 수학적 거리를 따라가기만 하면 필연적인 서사가 발생한다. 이 말은 소외된 언어들(심지어 그것은 우리가 생각하는 언어의 형태가 아닐 수도 있다.) 사이의 수학적 거리를 기계와 함께 탐사할 수 있다는 말이기도 하다. 물론 아직까지는 이론 상 개념이다. 특정 시대 특정 관점에 갇힌 데이터 안에서는 잠재공간을 누벼도 결국 그 언어 안에서 비슷한 언어를 길어올리는 일이기 때문이다. 하지만 앨리슨 패리시가 보여주는 언어의 미분 가능성은 오늘날 전자문학의 갈 길을 새롭게 보여주는데, 충분한 영감을 주고 있다.








댓글