CAFE

언어학 자료실

언어 자료를 컴퓨터로 연구하는 코퍼스 언어학

작성자10 손동근|작성시간10.03.12|조회수582 목록 댓글 1

105655 손동근 (생명과학기술학부)

 

언어학의 이해 수업을 들을 때 강범모 고려대 언어학 교수님의 「언어 - 풀어쓴 언어학 개론」책으로 수업을 듣죠.

홍도(도서관)에 와서 언어학 관련 책을 찾아보고 있는데 동일 저자인 강범모 교수의 「언어, 컴퓨터, 코퍼스 언어학 - 컴퓨터를 이용한 국어 분석의 기초와 이론」이라는 빨간 빛깔의 책이 눈에 들어왔습니다. (보니까 교수님의 저서가 엄청 많은데 돈 많이 버셨겠네요~ 부럽습니다. ㅜㅜ)

빨간색이라서 눈에 더 띄었던 걸까요?

 

사실 컴퓨터 공학 또한 제가 가고자 했던 분야 중 하나였고, 또 수시 때 윗 지방의 컴퓨터 공학과에도 합격했었기 때문에 혹시나 만약 그곳을 갔다면 어땠을까 하는 아쉬움에 관심있게 보게 되었습니다. (안가길 잘했네요; 어려워;;;)

 

책 제목부터 '코퍼스 언어학' 이렇게 나와있는데, 과연 '코퍼스'가 도대체 뭔지, '코퍼스 언어학'이란 또 무엇인지 궁금했습니다.

'코퍼스'란 텍스트를 모아 놓은 것, 즉 텍스트의 집합을 말한다고 합니다. 넓은 의미로는 어떠한 종류의 텍스트들인지 어떤 방식으로든지 모아 놓은 것을 이르켜 말한다네요.

그럼 '코퍼스 언어학'이란 무엇일까요? 제목에도 나와있듯이 언어 자료를 컴퓨터로 처리하여 연구하는 것을 '코퍼스 언어학'(Corpus Linguistics)이라는 이름으로 부릅니다.

 

그런데, 오늘날의 언어학에서의 코퍼스는 무조건적인 묶음보다는 어떤 언어 분석의 목적을 가지고 모아놓은, 의도된 집합을 말합니다. (더 좁은 의미로 사용되는거죠.) 코퍼스 언어학은 이러한 코퍼스를 기반으로 음성, 어휘, 또 문법, 의미등의 언어 현상을 탐구하는 하나의 방법론적 의미에서 언어학의 한 분야로 자리잡고 있다고 합니다.

 

다시 요약하자면, 현대의 코퍼스 언어학은 코퍼스를 기반으로 언어를 연구하는 것을 말하며, 이때의 코퍼스는 어떤 목적을 위해 대표성과 균형성을 갖춘 전자 텍스트들의 집합을 의미합니다.

 

여기서 또 우리가 지금 배우고 있는 '촘스키(N. Chomsky)'씨가 나옵니다.

책의 내용을 가져와 볼게요.

어떤 의미에서 촘스키 이전의 근대 언어학은 모두가 구체적인 실제 발화 자료를 기반으로 연구하는 언어학, 즉 넓은 의미의 코퍼스 언어학이라고 할 수 있다. 촘스키의 생성문법은 직관에 입각하여 언어를 연구하는 것이 올바른 방법임을 역설하여 오늘날 언어학의 방법론에 지대한 영향을 미쳤다.

그런데 촘스키는 여기서 다루는 코퍼스 언어학을 다음과 같이 비판했습니다.

- 코퍼스는 언어수행의 결과이고, 이것이 언어능력을 충분히 반영하지 못한다는 것, 나아가 언어능력을 제대로 파악하게 하지 못한다는 것이다. 예로썬, 실어증 환자의 발화 데이터를 기반으로 언어를 연구할 수 없다.

- 언어는 무한하며 창조적ㅇ다. 따라서 유한한 코퍼스가 무한한 언어를 반영할 수 있겠느냐?!

- 많은 경우 코퍼스를 힘들게 뒤지지 않아도 직관은 올바른 데이터를 금방 제공해주는 것 같다. 쉽게 생각나는 예문을 찾기 위해 수고할 필요가 있겠느냐?!!

 

물론 촘스키의 비판이 일리도 있지만, 과장되고, 또 오늘날에는 맞지 않는 부분도 있답니다. (언어학의 대가시라는 분이 깨지는군요.)

- 코퍼스가 언어수행의 결과이고, 분명 한계는 있다. 그러나 촘스키는 우리가 쓰는 말, 즉 구어의 대부분이 비문법적이라고 했지만, 실제로 올바른 문장이 더 많다는 연구 결과(Labov 1969)가 있다. 또 문어(Octopus 가 아니라 구어체 문어체 할때 그 문어) 코퍼스는 대부분 문법적인 문장으로 구성된다.

- 언어수행의 결과인 데이터에 문제가 있을 수 있으나, 순전히 내성적으로 만들어지는 인공적인 문장들도 문제가 있다.

- 직관적으로 알 수 없는 중요한 언어 사실이 있다. 빈도 혹은 양적 데이터에 관한 것이다. 예) 사람과 말 중 어떤 것이 많이 쓰이는지는 실제 자료를 보아야만 알 수 있다.

- 무엇보다, 현대의 컴퓨터 코퍼스 언어학은 검색, 추출, 정렬, 계산하는 일을 이전엔 상상 못했던 정도로 정확하고 빠르게 수행하므로 이전의 비판을 무색하게 한다.

 

결국, 촘스키의 비판의 본질은 근거는 있었습니다, 하지만 과장되어 있고, 오늘날의 대용량의 컴퓨터 코퍼스는 새로운 가능성을 제공합니다. 따라서 필모어(Filmore 1992)의 다움과 같은 말

"코퍼스가 아무리 크더라도 내가 영어의 어휘와 문법에 대해 알고 싶은 모든 정보를 포함할 수는 없다. (그러나) 내가 이제껏 보아 왔던 코퍼스들은 그것이 아무리 작더라도 다른 방식으로는 내가 찾지 못했을 사실들을 가르쳐 주었다. 내 결론은 두 가지 타입의 언어학은 서로를 필요로 하다는 것이다." (해석- 강범모 교수, 책에서 그대로 발췌)

처럼 생성문법과 같은 이론언어학과 코퍼스 언어학이 상호 대립적 관계가 아니라 보완적 관계에 있다는 것이죠.

 

보다 자세한 내용을 보고 싶거나, 관심있으신 분들은 도서관 분류 401.028 강43ㅇㄱ 「언어, 컴퓨터, 코퍼스 언어학」-강범모 책을 찾아보시기 바랍니다. (제가 있는 층이 몇층인지 모르겠네요.;;;;)

 

그런데 아쉬운 것은, 영어 코퍼스 내용밖에 없다는 겁니다. 아쉽게도 한글 코퍼스 내용은 이 책에 기술되어 있지 않아요.

다음엔 한글 코퍼스 내용의 책을 발간해 주시면 좋겠네요. ㅎㅎ

 

처음이라 뭘 어떻게 써야할지 몰라, 글은 너무 길어지고;; 이러네요.

 

이상입니다.

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
  • 작성자10 김성용 | 작성시간 10.03.15 코퍼스 언어학을 통해서 현대의 보편문법을 쉽게 알수 있게 해주겠군요. 잘 읽었어요.
댓글 전체보기
맨위로

카페 검색

카페 검색어 입력폼