동시통역學
최근 동시통역 기술이 엄청나게 발전하면서 언어가 통합될 조짐을 보이고 있다. 소수민족의 수많은 언어가 점차 사라지고 있는 점도 이와 무관치 않다. 앞으로 3~4년 후에는 웨어러블 디바이스만 장착하면 러시아나 남미 여행에 나선다 해도 별로 두려울 것이 없을 것이다. 내가 어떤 말을 하더라도 완벽한 동시통역기술이 이를 상대방의 모국어로 바꿔 척척 전달할 것이기 때문이다.
전설의 탑, 바벨탑에 대한 이야기는 널리 알려져 있다. 바벨탑을 쌓을 당시만 해도 사람들이 한 가지 언어만 사용했다고 성경에선 설명하고 있다. 넓은 들판 한가운데 세상사람들이 모두 정착할 수 있을 만큼 커다란 도시를 지었다고 한다. 바벨이란 이름의 그 도시 한가운데 하늘에 닿을 만큼 높은 탑을 쌓아 올렸는데 그것이 바로 바벨탑이다.
이를 지켜 본 하느님이 “사람들이 뭐든 하려고만 들면 앞으로 못할 일이 없겠다. 아직은 시작에 불과하니 당장 사람들이 쓰는 말을 뒤섞어놓아 서로 말을 알아듣지 못하게 해야겠다”며, 사람들이 사용하던 낱말들을 모두 흩어놓았다고 전해진다. 서로 말이 통하지 않자 결국 바벨탑을 더는 쌓을 수 없게 됐다는 것이다.
문명 발달로 수많은 언어가 소멸된다
세계 방방곡곡에는 현재 다양한 언어가 혼재한다. 세계인이 사용하는 언어의 수는 유엔 통계에 의하면 6800~6900가지나 된다. 파푸아뉴기니는 인구가 550만 명도 안 되지만 그들이 사용하는 언어의 종류는 832종이나 될 정도다. 이웃마을 사람들에게 비밀이 새나가지 않도록 암구호를 사용하다 보니 낱말이 서로 달라졌다는 설명에 절로 고개가 끄덕여진다. 대부분 인구 10만 명도 채 안 되는 이들이 사용하는 언어들이다.
폐쇄된 사회는 언어도 고립된다. 지구상에서 100만 명 이상이 사용하는 언어의 수는 대략 150여 종이라고 한다. 언어의 분포를 보면 문명 발달이 뒤처진 지역일수록 언어의 수가 많다. 문명의 발달로 이웃과 소통이 잦아지면서 열등한 문명의 언어는 소멸돼왔다. 이 같은 추세는 지금도 마찬가지여서 세계화 흐름에 따라 소수민족의 문화는 이리저리 흡수되고 수많은 언어가 도태되는 과정을 겪게 된다. 언어학자 데이비드 해리슨은 2050년까지 90% 정도의 구어가 사라질 것이라는 예측을 내놓았다.
지금 전 세계는 디지털 문명 속으로 급속히 빨려들고 있다. 마이크로소프트가 지난 2009년 발표한 10년 후 세상을 내다본 영상물의 첫 화면은 동시 통역기술에 대한 소개로 이뤄져 있다. 영어와 힌두어를 사용하는 어린이들이 투명 창에 글자를 쓰면 즉시 실시간으로 번역돼 상대방 문자로 표시되는 장면이 바로 그것이다. 마이크로소프트는 당시 오는 2019년에 즈음해 적어도 많은 언어 간에 소통의 제약이 없어질 것으로 전망한 바 있다.
번역은 언어학자보다는 수학자의 몫이다
인터넷을 통해 ‘바벨 피시’나 ‘구글 번역’은 매우 유용한 번역 서비스를 제공한다. 하지만 누구나 인정하듯이 완벽과는 거리가 멀다. 멀어도 한참 멀다. 이는 대부분 초벌 번역을 언어학자들이 만든 번역사전을 기반으로 하기 때문에 생기는 문제들이다. 하지만 현대판 번역기술은 언어학에 기초를 두고 있지 않다. 일종의 수학문제 풀이와 같이 단어를 벡터 공간에 늘어놓고 서로 사용빈도를 비교하면서 선형변화를 시키는 통계적 방식을 활용한다.
컴퓨터 과학은 언어의 번역과정에서 단어와 문장의 성격을 변화시키고 있다. 모든 언어는 사람들이 겪는 비슷한 상황을 묘사하는 생각들을 표현하는 말들의 집합이라고 가정한다. 따라서 이들을 세트화할 수 있고, 개념적으로 서로 비교해볼 수 있다고 가정한다. 한 언어의 단어들 뭉치를 다른 언어의 단어들 뭉치와 비교하는 새로운 방식이다.
예를 들면 아침에 처음 만나 인사를 나눈다고 하자. 영어로는 간단히 “좋은 아침입니다”라고 하겠지만 우리나라 시골길에서 마주친 어르신 두 분이 나누는 인사말은 좀 다르다. “식사하셨어요?” 같은 상황에서 교환하는 단어 뭉치를 직역하면 전혀 다른 의미를 갖지만 그대로 단어 뭉치를 바꿔주면 같은 의미로 전달된다.
영국인이 “식사하셨어요?”라고 아침인사를 해올 때 더 친밀감을 느끼게 된다. 또 다른 사례로 화장실에 가고 싶다고 표현하고 싶다고 하자. 서양인들은 “손을 씻고 싶습니다”라고 표현한다. 시골 아낙네가 살며시 속삭이듯이 말한다. “저, 여기 뒷간이 어디 있는가요?” 이걸 서로 직역하면 이상해진다.
그러나 단어 뭉치를 바로 바꿔주면 듣기 민망하지 않다. 서양 아낙네가 속삭인다. “저, 여기 뒷간이 어딘가요?” 서로 문화가 다르더라도 비슷한 환경에서 사용되는 단어나 어구들의 뭉치들을 통계적으로 분석해보면 빈도가 높은 단어 뭉치들이 나타난다. 이 단어뭉치들을 바꿔주는 것이 요즘 새로 등장한 통역 방법이다. 이렇게 하면 직역과는 달리 서로 다른 문화를 뛰어넘어 오히려 더 자연스러운 표현으로 전달된다.
이 방법의 특징은 어떤 상황이 특정 언어나 특정 문화에만 국한되지 않는다고 본다는 점이다. 표현 방식이 다를 뿐 사람 사는 환경에서 나누는 대화의 유형은 거의 비슷하다고 본다. 그래서 어떤 언어의 쌍이라도 사전이나 번역 테이블로 세분하고 확장할 수 있다고 한다.
이 새로운 기술은 기존에 언어학자들이 번역해놓은 문서들에 의존하지 않는 대신에 단일 언어의 구조를 모델링하는 데이터 마이닝 기법을 사용하고 이것을 다시 다른 언어의 구조와 비교한다. 번역과정이 언어학 문제로부터 수학 문제로 바뀌게 됐다.
언어는 벡터의 집합이다
전체 단어들의 관계를 모두 모아놓은 공간을 전체 언어공간이라고 가정한다. 이 언어공간은 한 단어에서 다른 단어로 향하는 벡터의 집합이다. 예를 들면 ‘왕’ – ‘남자’ + ‘여자’ = ‘여왕’이 된다. 이 기법은 지극히 단순함에도 불구하고 놀라울 정도로 효과적이라고 한다.
언어의 구조가 비슷한 영어와 스페인어 사이에선 번역의 정밀도가 거의 90%에 달한다고 한다. 이 방법은 심지어 언어학자들이 만들어놓은 사전에서 오류를 찾아내기도 한다. 구글의 번역 팀은 기존의 영어-체코어 번역사전에서 수많은 오류를 찾아냈다고 한다.
이 기술의 특징은 언어 자체에 전혀 가정을 두지 않는다는 점이다. 기존 사전들이 다루지 못하거나 사전적 의미와는 전혀 관련이 없는 은어들도 번역할 수 있다. 시대적 유행어도 쉽게 처리할 수 있다.
스페인어와 영어가 모두 인도유럽어족이니까 그렇다 치더라도 언어 구조가 전혀 다른 영어와 한국어 사이에도 같은 기법이 적용된다. 또 이 기법은 영어, 중국어, 스페인어, 한국어가 섞여 있어도 동시에 다국어 간 소통이 가능할 정도로 통번역이 가능하다고 한다.
다국어로 동시통역한다
사람들은 인터넷에서 제공하는 구글 번역기가 오류가 너무 많고 실용화하기엔 아직 멀었다고 말하기도 한다. 하지만 그렇지 않다. 지금 웬만한 구어는 거의 동시통역이 가능한 수준까지 번역기술이 높은 수준에 근접해 있다. 공개하지 않았을 뿐이다. 구글의 CEO인 래리 페이지는 2012년 5월에 개최된 쟈이트가이스트에서 5년 후가 되면 64개 국어를 전문 통역사가 통역하는 수준으로 동시통역이 가능하게 될 것으로 예상했다. 그런 그의 진단이 절대로 허황된 것은 아니라고 보고 싶다.
앞으로 3~4년 후면 웨어러블 디바이스를 장착하고 러시아나 브라질 등 지구촌 어느 곳으로 여행을 떠나도 두려울 게 없게 될 것이다. 내가 어떤 말을 해도 상대방에게 실시간으로 그의 모국어로 전달된다는 얘기다.
예를 들어 박물관 안내인이 러시아 말로 설명해도 여러 나라에서 모인 관광객들이 각자 모국어로 알아듣는 식이다. 그렇다고 외국어를 배울 필요가 없다는 말은 아니다. 외국어를 사용하는 데 전혀 불편하지 않다는 점을 강조하고 싶을 뿐이다.
언어는 이제 더이상 학문의 대상이 아니다. 단지 도구일 뿐이다. 그 소통도구도 컴퓨터가 알아서 처리해주는 시점이 아주 가까이 다가온 상황이다. 지금 이순간 무슨 공부에 매달려야 할지 한 번 더 고민하고 심사숙고할 필요가 있다. 우리가 의식하지 못하는 사이 새로운 바벨탑이 하늘을 향해 끝없이 치솟고 있는 게 부인할 수 없는 현실이기 때문이다.