이 자료는 2000년 5월 박석문 교수님께서 올리신 자료입니다.
==============================================================================
구문분석자료
1. 구문분석 기준 설정
1.1 기본 구조 설정을 위한 기본 원칙은 표면 구조에 근거한다.
형태·통사 태그 정보를 그대로 구문분석에도 이용한다.
표면 구조에 나타난 형태·통사 태그는 구문상의 기능을 파악하는데 효
율적이다.
(1) a. VP b. AP
/ | \ / \
V AUXP \ A \
| | \ | \
주/pvg + 었/ep + 다/ef 예쁘/paa + ㄴ/etm
(2) a. V b. AP
/ \ / \
주었다 예쁘+ㄴ
1.2 계층 구조(Hierachy structure) 분석을 기본으로 한다.
1.3 동사구 내부 주어 가설에 의하여 종래의 주어를 동사구 내부에 설정
한다.
(3)에서 두 개의 명사구(NP)가 하나의 용언구(VP) 속에 포함되더라도,
격표지의 형태·통사 태그 정보(는/jxt, 를/jco)가 표면상에 그대로 나타나
므로 분석의 효율성을 높이기 위해 평면구조를 사용할 수 있다.
(3) S
|
VP
/ \
/ VP
/ | \
NP NP V
| | |
나는 너를 사랑한다 (나/npp+는/jxc 너/npp+를/jco 사랑/ncpa+하/x
sv+ㄴ다/ef)
1.4 한국어 구문 표지
한국어 구문 표지는 이기용(1997: "구문분석기 데이터 정보 개발에 관한
연구," 한국과학 기술원)을 그대로 따른다.
(4) 범주:
a. 뿌리: S(문장)
b. 구범주: NP(명사구), VP(용언구), AP(관형어구), PP(후치사구), AD
VP(부사구), IP(독립어구), AUXP(보조용언구)
c. 중간범주: N, V, A
2. 구문 표지와 트리 태깅
2.1 문장(S)
S는 (5)와 같이 어느 구범주와 문장종결부호(., !, ?)로 형성된다.
(5) S규칙
S -> XP + {., !, ?}/sf (XP: VP, NP, ADVP, ...)
(6) S -> VP + {., !, ?}/sf
; 정말 모처럼의 가족동반의 나들이였다.
(S
(VP
(AP (ADVP 정말/mag )
(AP 모처럼/ncn+의/jcm )
(AP 가족/ncn+동반/ncn+의/jcm ))
(V 나들이/ncpa+이/jp+었/ep+다/ef ))+./sf )
(7) S->IP
; 결코!
(S
(IP (ADVP 결코/mag)) + !/sf)
(8) S->PP
; 그러나 남정의 지극한 정성에 동한 구이는 마침내 사랑의 고백을 하
기에.
(S
(PP
(NP
(AP
(PP (AP 남정/ncn+의/jcm )
(AP 지극/ncps+하/xsm+ㄴ/etm )
(PP 정성/ncn+에/jca ))
(AP 동하/pvg+ㄴ/etm ))
(NP 구이/nq+는/jxc))
(NP (ADVP 마침내/mag )
(AP 사랑/ncpa+의/jcm )
(NP 고백/ncpa+을/jco ))
(PP 하/pvg+기/etn+에/jca ))+./sf )
2.2 명사구(NP)
NP는 (9)에서처럼 N과 그리고 격조사(이/가/을/를)와 접속조사(와/과)
또는 특수조사(도/만), 또는 주제격 조사(은/는)로 형성될 수 있다.
(9) 명사구(NP) 규칙
NP -> N + (이/가/을/를/와/과/은/는/도/만)
(10) 격조사 '이/가/을/를'을 포함하는 NP
(NP 염주/ncn+이/jp+ㅁ/etn+이/jcs )
(NP 참새/ncn+가/jcs )
(NP 합장/ncpa+을/jco )
(NP 귀/ncn+를/jco )
(11) 접속조사 '와/과'를 포함하는 NP
(PP (NP 크기/ncn+와/jcj)
(PP 방향/ncn+과/jct))
(NP
(NP
(AP 실린더/ncn)
(NP 변면/ncn+과/jcj))
(NP
(AP
(PP 피스톤/ncn+으로/jca)
(AP 이루/pvg+어/ecx+지/px+ㄴ/etm))
(NP 구역/ncn+은/jxc)))
(12) 특수조사 '도/만'을 포함하는 NP
(NP 발굽/ncn+소리/ncpa+도/jxc )
(NP 자기/npp+만/jxc )
(13) 주제격조사 '은/는'을 포함하는 NP
(NP 기쁘/paa+ㅁ/etn+은/jxc )
(NP 나/npp+는/jxc )
명사구(NP)는 또한 관형사구(AP)와 관계하여 다음과 같이 나타난다.
(14)
(NP
(AP 새롭/paa+ㄴ/etm )
(AP 작품/ncn+의/jcm )
(NP 가치/ncn+를/jco ))
또한 관형사구(AP)이외에도 다른 범주를 포함하기도 한다.
(15) (NP
(NP
(AP
(PP (ADVP 결국/mag )
(AP 더블린/nq )
(AP 사람/ncn+들/xsn+의/jcm )
(PP 일상/ncn+생활/ncpa+에서/jca ))
(AP 나타나/pvg+는/jxt ))
(NP 의미/ncpa+는/jxt ))
(NP 환상/ncn+이/jp+ㅁ/etn+을/jco ))
위와 같은 구문 분석은 명사구의 형태·통사 태그 정보가 다음과 같을 때
만 가능하다.
(16) NP -> {NP, VP, PP} ...+X/{etn, ef}+(이/가/을/를/은/는/도/만)
2.2.3 후치사구(PP)
후치사구(PP)는 명사구 외에 구문 내에서 독립적으로 나타날 수 있는 성
분들로 규칙은 (17)과 같다.
(17) 후치사구(PP) 규칙
PP -> N + (에게/께/에/에서/부터/까지/에서는 . . . )
명사에 후치사가 결합하고 '-는. -도. -만'이 결합한 경우에 이들을 명
사구로 다루지 않고 후치사구로 다루었다.
(18) (PP 시스템/ncn+에/jca)
(PP
(AP 열/ncn+의/jcm)
(PP 형태/ncn+로/jca))
(PP 초기/ncn+에/jca+는/jxc)
(PP 공업/ncn+열/ncn+역학/ncn+에서/jca+는/jxc)
(PP
(AP 자동차/ncn+엔진/ncn+의/jcm)
(PP 경우/ncn+에/jca+도/jxc))
(19)
(PP (AP 내/npp )
(PP 손아귀/ncn+에서/jca ))
(19)와 같이 후치사구는 관형사구(AP)의 수식을 받을 수도 있고 다음과
같이 다른 독립 범주를 포함할 수 있다.
(20)
(PP
(NP (ADVP 때로/mag )
(AP 새롭/paa+ㄴ/etm )
(AP 작품/ncn+의/jcm )
(NP 가치/ncn+를/jco ))
(PP 인식/ncpa+하/xsv+ㅁ/etn+으로써/jca ))
(21) (PP (NP 크기/ncn+와/jcj)
(PP 방향/ncn+과/jct))
(22) (PP
(NP 에너지/ncn+방정식/ncn+이/jp+ㅁ/etn+과/jcj)
(PP 동시/ncn+에/jca)
(PP
(AP 압력/ncn)
(AP 방정식/ncn+의/jcm)
(PP 형태/ncn+로/jca+도/jxc)))
(PP
(NP
(AP 벽면/ncn+에서/jca+의/jcm)
(NP 전단/ncn+응력/ncn+과/jcj))
(PP
(AP 동압/ncn+의/jcm)
(PP 비/ncn+로/jca)))
(20)~(22)에서와 같이 다른 독립범주를 포함하는 경우에는 다음과 같이 규
칙화 할 수 있다.
(23) PP -> {NP, VP, PP} ...+X/{etn, ef}+(에게/께/에/에서/부터/까지/에
서는 . . .)
또한 조사가 결합하지 않은 경우에도 시간을 나타내는 어휘는 '-에'가
생략된 것으로 보아 PP로 분석하였다.
(24)
(PP
(AP
(NP
(AP 두/nnc)
(NP 손/ncn+을/jco))
(ADVP 서로/mag)
(AP 비비/pvg+ㄹ/etm))
(PP 때/ncn))
2.4 관형사구(AP)
AP(Adnominal Phrase)는 독립적으로 사용될 수 없는 범주로 반드시 뒤에
N이 포함된 명사구, 후치사구, 용언구가 나타나야 한다.
(25) 명사구를 수식하는 관형사구(AP)
(NP (AP 왕/ncn+의/jcm )
(NP 병환/ncn+을/jco ))
(26) 후치사구를 수식하는 관형사구
(PP (AP 이렇/pad+ㄴ/etm )
(PP 뜻/ncn+에서/jca ))
(27) 용언구를 수식하는 관형사구
(VP (AP 악착스렇/paa+ㄴ/etm )
(V 문지기/ncn+이/jp+었/ep+다/ef ))
또한 다음과 같이 관형사형 어미(etm)가 있을 때는 관형사구가 명사구,
후치사구, 용언구, 부사구를 포함할 수 있다.
(28)
(AP (PP 멋/ncn+대로/jca )
(AP 울리/pvg+어/ecx+대/px+는/etm ))
(29)
(AP (NP 새벽잠/ncn+을/jco )
(AP 깨우/pvg+어/ecx+주/px+는/etm ))
(AP
(NP 표면/ncn+마찰/ncn+계수/ncn+는/jxc)
(PP
(NP
(AP 벽면/ncn+에서/jca+의/jcm)
(NP 전단/ncn+응력/ncn+과/jcj))
(PP
(AP 동압/ncn+의/jcm)
(PP 비/ncn+로/jca))
(AP 정의/ncpa+하/xsv+ㄹ/etm))
(30)
(AP
(VP
(NP (AP 내/npp )
(AP 깨/pvg+어/ecx+지/px+ㄴ/etm )
(AP 마음/ncn+의/jcm )
(NP 상처/ncn+를/jco ))
(V 헹구/pvg+어/ecx+내/px+고자/ecs ))
(AP 찾/pvg+는/etm ))
(31)
(AP
(ADVP
(PP 다음/ncn+과/jct)
(ADVP 같/paa+이/xsa))
(AP 계산/ncpa+하/xsv+ㄹ/etm))
(28-31)과 같이 명사구, 후치사구, 용언구, 부사구를 포함하는 규칙화는
다음과 같다.
(32) AP -> {NP, PP, VP, ADVP} X/pvg(paa, px, xsv)+...X/etm
2.5 용언구(VP)
용언구(VP)는 동사와 형용사를 모두 포함한다. 특히 다른 범주와 달리
용언구는 연달아 나타날 수도 있고 또한 다른 범주와 관계하여 복잡하게 나
타날 수 있기 때문에 어휘 범주인 V를 도입한다.
가. 어휘범주 V
(33)은 어휘범주 V의 분석 규칙이고 (34)는 분석 예이다.
(33) V -> ...+X/{ecx, ecc, ecs, ef}
(34)
a. (V 이해/ncpa+하/xsv+고/ecc )
b. (V 보이/pvg+지/ecx )
c. (V 것/nbn+이/jp+지만/ecs )
d. (V 나타나/pvg+ㄴ다/ef )
또한 보조용언구(AUXP)는 독립적으로 나타날 수 없고 반드시 V가 선행해
야 하므로 다음과 같이 V로 분석한다.
(35) V -> V+AUXP
a. (V (V 보이/pvg+지/ecx)(AUXP 않/px+아야/ecs ))
b. (V (V 모이/pvg+어/ecx)(AUXP 있/px+지/ecx )(AUXP 못하/px+ㅂ니다/e
f ))
이밖에도 V가 연속될 때에는 다음과 같이 어휘범주 V로 분석한다.
(36) V -> V+V
a. (V (V 끼/pvg+고/ecs )
(V 흐르/pvg+어도/ecs )))
b. (V (V 대치/ncpa+되/xsv+긴/ecs )
(V 하/pvg+었/ep+으나/ecs )))
나. 다른 범주와 관련된 용언구(VP)
VP는 크게는 문장종결부호와 결합하여 S를 이루고, 작게는 용언(V)과 명
사구(NP), 후치사구(PP), 관형사구(AP), 부사구(ADVP), 독립어구(IP) 등과
결합한다. (37)은 용언구(VP)의 규칙과 분석 예이다.
(37) VP규칙
VP -> XP* V
a. VP -> NP V
(VP (NP 대상/ncn+이/jcs )
(V (V 되/pvg+고/ecx )(AUXP 있/px+다/ef ))
b. VP -> ADVP V
(VP (ADVP 상당/ncps+정도/ncn )
(V 변화/ncpa+시키/xsv+었/ep+다/ef ))
c. VP -> PP V
(VP (PP 거기/npd+에서/jca )
(V 연유/ncpa+하/xsv+ㄴ다/ef ))
d. VP -> AP V
(VP (AP 어떻/pad+ㄴ/etm )
(V 것/nbn+이/jp+다/ef ))
e. VP -> IP V
(VP (IP 그리고/maj)
(V 웃/pvg+었/ep+다/ef))
2.6 보조용언구(AUXP)
보조용언구(AUXP)는 독립적으로 사용하지 못하고 반드시 선행하는 용언(
V)과 같이 나타나서 선행하는 용언(V)과 함께 V로 분석된다. 보조용언구(AU
XP)의 분석 규칙은 다음과 같다.
(38) AUXP -> X/px + ...
(39)
a. (AUXP 되/px+고/ecc )
b. (AUXP 하/px+어/ecs )
(AUXP 받/px+았/ep+으나/ecs )
c. (AUXP 버리/px+지/ecx )
d. (AUXP 보/px+자/ef )
(AUXP 않/px+았/ep+다/ef )
2.7 부사구(ADVP)
부사구(ADVP)는 용언구나 관형사구를 수식하는 범주이다. 부사구는 형태
·통사 태그 정보가 지시부사(mad), 일반부사(mag), 부사파생접미사(xsa)로
분석된 어절은 부사구로 분석할 수 있다.
(40) ADVP -> ...+X/{mad, mag, xsa}
(41)
(ADVP 더구나/mag )
(ADVP 무참/ncps+히/xsa )
(ADVP 다시/mag)
(42)와 같이 시간을 나타내는 명사가 홀로 쓰일 때는 부사구가 된다.
(42) (ADVP 지금/ncn )
(ADVP 오늘날/ncn )
서술성을 가진 부사는 부사구를 형성한다.
(43) (ADVP
(PP 다음/ncn+과/jct)
(ADVP 같/paa+이/xsa))
(ADVP
(PP
(NP
(AP 파이프/ncn+의/jcm)
(NP 크기/ncn+나/jcj))
(PP
(AP 유체/ncn+의/jcm)
(PP 종류/ncn+에/jca)))
(NP 상관/ncn)
(ADVP 없/paa+이/xsa))
2.8 독립구(IP)
독립구(IP)는 감탄사(ii), 호격조사(jcv), 접속부사(maj)에 의한 형태·
통사 태그 정보로 규칙화될 수 있다.
또한 문장의 제시어나 표제어는 독립구를 형성할 수 있으며 (47)과 같이
독립구 분석 목록으로 정의할 수 있다.
(44) IP -> {ii, maj}
IP -> ....+X/jcv
(45)
a. (IP 그리고/maj )
b. (IP 여보게/ii)
c. (IP 젊은이/ncn+여/jcv)
d. (IP 주/ncn)
;주 : 마이너스 부호는 동력이 펌프에 들어가는 것을 뜻한다.
(S (VP
(IP 주/ncn+:/sp)
(NP
(AP 마이너스/ncn)
(NP 부호/ncn+는/jxc))
(46) (IP 첫째/nno)+,/sp
(47) | 그리고/maj 나/pvg + 서/ecs |
| 그리고/maj 나/pvg + 자/ecs |
| 그래서/maj 그렇/pvg + ㄴ지/ecs |
| 뿐/nbn + 만/jxc 아니/paa + 라/ecs |
| 다시/mag 말/ncpa+하/xsv + 면/ecs |
| 다시/mag 말/ncpa + 하/xsv + 어서/ecs |
| 예/ncn+ 를/jco 들/pvg + 면/ecs |
| 그리하/paa+ 여/ecs |
| 말/ncpa + 하/xsv + 자면/ecs |
(IP (NP 예/ncn+를/jco)
(V 들/pvg+어/ecs))
'뿐만 아니라'는 문두에 있을 때와 그렇지 않을 때 차이가 있다.
(48) (NP
(AP
(NP 절대/ncpa+다수/ncpa+가/jcs )
(AP 모자라/paa+ㄹ/etm ))
(NP 뿐/nbn ))
(V 아니/paa+라/ecs )
3. 트리 구조의 실례
구문 분석은 5개의 영역(경제, 기계, 물리, 생물, 전산)의 5,000 문장을
분석하였다.
;이는 물에 떠 있는 합판을 두 개의 손가락을 이용하여 회전시키는 경우로
생각해 볼 수 있다.
(S
(VP
(NP 이/npd+는/jxc)
(NP (AP (PP 물/ncn+에/jca)
(V 뜨/pvg+어/ecx)
(AP 있/px+는/etm))
(NP 합판/ncn+을/jco))
(PP (AP (NP (AP 두/nnc)
(AP 개/nbu+의/jcm)
(NP 손가락/ncn+을/jco))
(V 이용/ncpa+하/xsv+어/ecs)
(AP 회전/ncpa+시키/xsv+는/etm))
(PP 경우/ncn+로/jca))
(VP (NP (AP (V 생각/ncpa+하/xsv+어/ecx)
(AP 보/px+ㄹ/etm))
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
;만일 썰매에 아이 두 명이 타고 있으면 썰매를 움직이게 하기 위해서 두
배의 힘을 가해야 한다.
(S
(VP (VP
(ADVP 만일/mag)
(PP 썰매/ncn+에/jca))
(NP (AP 아이/ncn)
(AP 두/nnc)
(NP 명/nbu+이/jcs))
(V (V 타/pvg+고/ecx)
(AUXP 있/px+으면/ecs)))
(VP (NP
(VP
(NP 썰매/ncn+를/jco)
(V 움직이/pvg+게/ecx))
(NP 하/px+기/etn))
(V 위하/pvg+어서/ecs))
(VP (NP (AP 두/nnc)
(AP 배/nbu+의/jcm)
(NP 힘/ncn+을/jco))
(V (V 가하/pvg+어야/ecs)
(V 하/pvg+ㄴ다/ef+))))+./sf)
;지름 d 인 축이 축과 하우징 사이에 채워진 일정한 폭 y 의 유체 내에서
회전하고 있다.
(S
(VP
(NP (AP 지름/ncn)
(AP d/f+이/jp+ㄴ/etm)
(NP 축/ncn+이/jcs))
(AP
(PP (NP 축/ncn+과/jcj)
(AP 하우징/ncn)
(PP 사이/ncn+에/jca))
(AP 채우/pvg+어/ecx+지/px+ㄴ/etm))
(PP (AP 일정/ncps+하/xsm+ㄴ/etm)
(AP 폭/nbu)
(AP y/f+의/jcm)
(AP 유체/ncn)
(PP 내/nbn+에서/jca))
(V (V 회전/ncpa+하/xsv+고/ecx)
(AUXP 있/px+다/ef)))+./sf)
;이와 같이 힘 E 는 자와 각도기를 이용하여 도해적으로 힘의 다각형을 그
려서 구할 수 있다.
(S
(VP
(ADVP
(PP 이/npd+와/jct)
(ADVP 같/paa+이/xsa)
(VP (NP (AP 힘/ncn)
(NP E/f+는/jxc))
(VP (NP (NP 자/ncn+와/jcj)
(NP 각도기/ncn+를/jco))
(V 이용/ncpa+하/xsv+어/ecs)))
(VP
(PP 도해/ncn+적/xsn+으로/jca)
(NP (AP 힘/ncn+의/jcm)
(NP 다각형/ncn+을/jco))
(V 그리/pvg+어서/ecs))
(VP
(NP (AP 구하/pvg+ㄹ/etm)
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
;강물이 흐르지 않는 상황이라면 강을 건너는데 걸리는 시간은 거리를 속
력으로 나눈 값이다.
(S
(VP
(VP
(AP (NP 강물/ncn+이/jcs)
(AP (V 흐르/pvg+지/ecx)
(AP 않/px+는/etm)))
(V 상황/ncn+이/jp+라면/ecs))
(VP
(NP (AP (NP 강/ncn+을/jco)
(AP (V 건너/pvg+는데/ecs)
(AP 걸리/pvg+는/etm)))
(NP 시간/ncn+은/jxc))
(AP (NP 거리/ncn+를/jco)
(PP 속력/ncn+으로/jca)
(AP 나누/pvg+ㄴ/etm))
(V 값/ncn+이/jp+다/ef)))+./sf)
;경리부는 무슨 일을 하는 부서인가.
(S
(VP
(NP 경리부/ncn+는/jxc)
(VP
(AP (NP (AP 무슨/mmd)
(NP 일/ncn+을/jco))
(AP 하/pvg+는/etm))
(V 부서/ncn+이/jp+ㄴ가/ef)))+./sf)
4. 앞으로의 과제
1) 구문 분석이 평면 구조 분석으로 국어의 문장 구조를 명확히 이해할 수
있을 것인가?
평면 구조가 기계적인 처리를 쉽게 할 수 있는가?
관형사구에 제시한 예문 (30)에 해당하는 부분이다.
(NP (AP 내/npp )
(AP 깨/pvg+어/ecx+지/px+ㄴ/etm )
(AP 마음/ncn+의/jcm )
(NP 상처/ncn+를/jco ))
이것을 계층구조로 보이면
(NP
(AP
(AP
(AP 내/npp )
(AP 깨/pvg+어/ecx+지/px+ㄴ/etm ))
(AP 마음/ncn+의/jcm ))
(NP 상처/ncn+를/jco ))
와 같다.
다음은 병렬 구조를 평면구조로 제시한 것이다. 이기용(1997)에 제시된
것임.
(NP
(AP 봄/ncn+의/jcm )
(AP 앙징/ncn+과/jcj )
(AP 여름/ncn+의/jcm )
(AP 싱싱/ncn+과/jcj )
(AP 가을/ncn+의/jcm )
(NP 영화/ncn+가/jcs ))
이것을 계층 구조로 보이면
(NP
(NP (AP 봄/ncn+의/jcm )
(NP 앙징/ncn+과/jcj ))
(NP (AP 여름/ncn+의/jcm )
(NP 싱싱/ncn+과/jcj ))
(NP (AP 가을/ncn+의/jcm )
(NP 영화/ncn+가/jcs )))
와 같다.
다음의 문장을 살펴보면
;이는 물에 떠 있는 합판을 두 개의 손가락을 이용하여 회전시키는 경우로
생각해 볼 수 있다.
(S
(VP
(NP 이/npd+는/jxc)
(NP (AP (PP 물/ncn+에/jca)
(V 뜨/pvg+어/ecx)
(AP 있/px+는/etm))
(NP 합판/ncn+을/jco))
(PP (AP (NP (AP 두/nnc)
(AP 개/nbu+의/jcm)
(NP 손가락/ncn+을/jco))
(V 이용/ncpa+하/xsv+어/ecs)
(AP 회전/ncpa+시키/xsv+는/etm))
(PP 경우/ncn+로/jca))
(VP (NP (AP (V 생각/ncpa+하/xsv+어/ecx)
(AP 보/px+ㄹ/etm))
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
;이는 물에 떠 있는 합판을 두 개의 손가락을 이용하여 회전시키는 경우로
생각해 볼 수 있다.
(S
(VP
(NP 이/npd+는/jxc)
(PP (AP (VP
(NP
(AP (PP 물/ncn+에/jca)
(V 뜨/pvg+어/ecx)
(AP 있/px+는/etm))
(NP 합판/ncn+을/jco))
(NP (AP 두/nnc)
(AP 개/nbu+의/jcm)
(NP 손가락/ncn+을/jco))
(V 이용/ncpa+하/xsv+어/ecs))
(AP 회전/ncpa+시키/xsv+는/etm))
(PP 경우/ncn+로/jca))
(VP (NP
(AP (V 생각/ncpa+하/xsv+어/ecx)
(AP 보/px+ㄹ/etm))
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
==============================================================================
구문분석자료
1. 구문분석 기준 설정
1.1 기본 구조 설정을 위한 기본 원칙은 표면 구조에 근거한다.
형태·통사 태그 정보를 그대로 구문분석에도 이용한다.
표면 구조에 나타난 형태·통사 태그는 구문상의 기능을 파악하는데 효
율적이다.
(1) a. VP b. AP
/ | \ / \
V AUXP \ A \
| | \ | \
주/pvg + 었/ep + 다/ef 예쁘/paa + ㄴ/etm
(2) a. V b. AP
/ \ / \
주었다 예쁘+ㄴ
1.2 계층 구조(Hierachy structure) 분석을 기본으로 한다.
1.3 동사구 내부 주어 가설에 의하여 종래의 주어를 동사구 내부에 설정
한다.
(3)에서 두 개의 명사구(NP)가 하나의 용언구(VP) 속에 포함되더라도,
격표지의 형태·통사 태그 정보(는/jxt, 를/jco)가 표면상에 그대로 나타나
므로 분석의 효율성을 높이기 위해 평면구조를 사용할 수 있다.
(3) S
|
VP
/ \
/ VP
/ | \
NP NP V
| | |
나는 너를 사랑한다 (나/npp+는/jxc 너/npp+를/jco 사랑/ncpa+하/x
sv+ㄴ다/ef)
1.4 한국어 구문 표지
한국어 구문 표지는 이기용(1997: "구문분석기 데이터 정보 개발에 관한
연구," 한국과학 기술원)을 그대로 따른다.
(4) 범주:
a. 뿌리: S(문장)
b. 구범주: NP(명사구), VP(용언구), AP(관형어구), PP(후치사구), AD
VP(부사구), IP(독립어구), AUXP(보조용언구)
c. 중간범주: N, V, A
2. 구문 표지와 트리 태깅
2.1 문장(S)
S는 (5)와 같이 어느 구범주와 문장종결부호(., !, ?)로 형성된다.
(5) S규칙
S -> XP + {., !, ?}/sf (XP: VP, NP, ADVP, ...)
(6) S -> VP + {., !, ?}/sf
; 정말 모처럼의 가족동반의 나들이였다.
(S
(VP
(AP (ADVP 정말/mag )
(AP 모처럼/ncn+의/jcm )
(AP 가족/ncn+동반/ncn+의/jcm ))
(V 나들이/ncpa+이/jp+었/ep+다/ef ))+./sf )
(7) S->IP
; 결코!
(S
(IP (ADVP 결코/mag)) + !/sf)
(8) S->PP
; 그러나 남정의 지극한 정성에 동한 구이는 마침내 사랑의 고백을 하
기에.
(S
(PP
(NP
(AP
(PP (AP 남정/ncn+의/jcm )
(AP 지극/ncps+하/xsm+ㄴ/etm )
(PP 정성/ncn+에/jca ))
(AP 동하/pvg+ㄴ/etm ))
(NP 구이/nq+는/jxc))
(NP (ADVP 마침내/mag )
(AP 사랑/ncpa+의/jcm )
(NP 고백/ncpa+을/jco ))
(PP 하/pvg+기/etn+에/jca ))+./sf )
2.2 명사구(NP)
NP는 (9)에서처럼 N과 그리고 격조사(이/가/을/를)와 접속조사(와/과)
또는 특수조사(도/만), 또는 주제격 조사(은/는)로 형성될 수 있다.
(9) 명사구(NP) 규칙
NP -> N + (이/가/을/를/와/과/은/는/도/만)
(10) 격조사 '이/가/을/를'을 포함하는 NP
(NP 염주/ncn+이/jp+ㅁ/etn+이/jcs )
(NP 참새/ncn+가/jcs )
(NP 합장/ncpa+을/jco )
(NP 귀/ncn+를/jco )
(11) 접속조사 '와/과'를 포함하는 NP
(PP (NP 크기/ncn+와/jcj)
(PP 방향/ncn+과/jct))
(NP
(NP
(AP 실린더/ncn)
(NP 변면/ncn+과/jcj))
(NP
(AP
(PP 피스톤/ncn+으로/jca)
(AP 이루/pvg+어/ecx+지/px+ㄴ/etm))
(NP 구역/ncn+은/jxc)))
(12) 특수조사 '도/만'을 포함하는 NP
(NP 발굽/ncn+소리/ncpa+도/jxc )
(NP 자기/npp+만/jxc )
(13) 주제격조사 '은/는'을 포함하는 NP
(NP 기쁘/paa+ㅁ/etn+은/jxc )
(NP 나/npp+는/jxc )
명사구(NP)는 또한 관형사구(AP)와 관계하여 다음과 같이 나타난다.
(14)
(NP
(AP 새롭/paa+ㄴ/etm )
(AP 작품/ncn+의/jcm )
(NP 가치/ncn+를/jco ))
또한 관형사구(AP)이외에도 다른 범주를 포함하기도 한다.
(15) (NP
(NP
(AP
(PP (ADVP 결국/mag )
(AP 더블린/nq )
(AP 사람/ncn+들/xsn+의/jcm )
(PP 일상/ncn+생활/ncpa+에서/jca ))
(AP 나타나/pvg+는/jxt ))
(NP 의미/ncpa+는/jxt ))
(NP 환상/ncn+이/jp+ㅁ/etn+을/jco ))
위와 같은 구문 분석은 명사구의 형태·통사 태그 정보가 다음과 같을 때
만 가능하다.
(16) NP -> {NP, VP, PP} ...+X/{etn, ef}+(이/가/을/를/은/는/도/만)
2.2.3 후치사구(PP)
후치사구(PP)는 명사구 외에 구문 내에서 독립적으로 나타날 수 있는 성
분들로 규칙은 (17)과 같다.
(17) 후치사구(PP) 규칙
PP -> N + (에게/께/에/에서/부터/까지/에서는 . . . )
명사에 후치사가 결합하고 '-는. -도. -만'이 결합한 경우에 이들을 명
사구로 다루지 않고 후치사구로 다루었다.
(18) (PP 시스템/ncn+에/jca)
(PP
(AP 열/ncn+의/jcm)
(PP 형태/ncn+로/jca))
(PP 초기/ncn+에/jca+는/jxc)
(PP 공업/ncn+열/ncn+역학/ncn+에서/jca+는/jxc)
(PP
(AP 자동차/ncn+엔진/ncn+의/jcm)
(PP 경우/ncn+에/jca+도/jxc))
(19)
(PP (AP 내/npp )
(PP 손아귀/ncn+에서/jca ))
(19)와 같이 후치사구는 관형사구(AP)의 수식을 받을 수도 있고 다음과
같이 다른 독립 범주를 포함할 수 있다.
(20)
(PP
(NP (ADVP 때로/mag )
(AP 새롭/paa+ㄴ/etm )
(AP 작품/ncn+의/jcm )
(NP 가치/ncn+를/jco ))
(PP 인식/ncpa+하/xsv+ㅁ/etn+으로써/jca ))
(21) (PP (NP 크기/ncn+와/jcj)
(PP 방향/ncn+과/jct))
(22) (PP
(NP 에너지/ncn+방정식/ncn+이/jp+ㅁ/etn+과/jcj)
(PP 동시/ncn+에/jca)
(PP
(AP 압력/ncn)
(AP 방정식/ncn+의/jcm)
(PP 형태/ncn+로/jca+도/jxc)))
(PP
(NP
(AP 벽면/ncn+에서/jca+의/jcm)
(NP 전단/ncn+응력/ncn+과/jcj))
(PP
(AP 동압/ncn+의/jcm)
(PP 비/ncn+로/jca)))
(20)~(22)에서와 같이 다른 독립범주를 포함하는 경우에는 다음과 같이 규
칙화 할 수 있다.
(23) PP -> {NP, VP, PP} ...+X/{etn, ef}+(에게/께/에/에서/부터/까지/에
서는 . . .)
또한 조사가 결합하지 않은 경우에도 시간을 나타내는 어휘는 '-에'가
생략된 것으로 보아 PP로 분석하였다.
(24)
(PP
(AP
(NP
(AP 두/nnc)
(NP 손/ncn+을/jco))
(ADVP 서로/mag)
(AP 비비/pvg+ㄹ/etm))
(PP 때/ncn))
2.4 관형사구(AP)
AP(Adnominal Phrase)는 독립적으로 사용될 수 없는 범주로 반드시 뒤에
N이 포함된 명사구, 후치사구, 용언구가 나타나야 한다.
(25) 명사구를 수식하는 관형사구(AP)
(NP (AP 왕/ncn+의/jcm )
(NP 병환/ncn+을/jco ))
(26) 후치사구를 수식하는 관형사구
(PP (AP 이렇/pad+ㄴ/etm )
(PP 뜻/ncn+에서/jca ))
(27) 용언구를 수식하는 관형사구
(VP (AP 악착스렇/paa+ㄴ/etm )
(V 문지기/ncn+이/jp+었/ep+다/ef ))
또한 다음과 같이 관형사형 어미(etm)가 있을 때는 관형사구가 명사구,
후치사구, 용언구, 부사구를 포함할 수 있다.
(28)
(AP (PP 멋/ncn+대로/jca )
(AP 울리/pvg+어/ecx+대/px+는/etm ))
(29)
(AP (NP 새벽잠/ncn+을/jco )
(AP 깨우/pvg+어/ecx+주/px+는/etm ))
(AP
(NP 표면/ncn+마찰/ncn+계수/ncn+는/jxc)
(PP
(NP
(AP 벽면/ncn+에서/jca+의/jcm)
(NP 전단/ncn+응력/ncn+과/jcj))
(PP
(AP 동압/ncn+의/jcm)
(PP 비/ncn+로/jca))
(AP 정의/ncpa+하/xsv+ㄹ/etm))
(30)
(AP
(VP
(NP (AP 내/npp )
(AP 깨/pvg+어/ecx+지/px+ㄴ/etm )
(AP 마음/ncn+의/jcm )
(NP 상처/ncn+를/jco ))
(V 헹구/pvg+어/ecx+내/px+고자/ecs ))
(AP 찾/pvg+는/etm ))
(31)
(AP
(ADVP
(PP 다음/ncn+과/jct)
(ADVP 같/paa+이/xsa))
(AP 계산/ncpa+하/xsv+ㄹ/etm))
(28-31)과 같이 명사구, 후치사구, 용언구, 부사구를 포함하는 규칙화는
다음과 같다.
(32) AP -> {NP, PP, VP, ADVP} X/pvg(paa, px, xsv)+...X/etm
2.5 용언구(VP)
용언구(VP)는 동사와 형용사를 모두 포함한다. 특히 다른 범주와 달리
용언구는 연달아 나타날 수도 있고 또한 다른 범주와 관계하여 복잡하게 나
타날 수 있기 때문에 어휘 범주인 V를 도입한다.
가. 어휘범주 V
(33)은 어휘범주 V의 분석 규칙이고 (34)는 분석 예이다.
(33) V -> ...+X/{ecx, ecc, ecs, ef}
(34)
a. (V 이해/ncpa+하/xsv+고/ecc )
b. (V 보이/pvg+지/ecx )
c. (V 것/nbn+이/jp+지만/ecs )
d. (V 나타나/pvg+ㄴ다/ef )
또한 보조용언구(AUXP)는 독립적으로 나타날 수 없고 반드시 V가 선행해
야 하므로 다음과 같이 V로 분석한다.
(35) V -> V+AUXP
a. (V (V 보이/pvg+지/ecx)(AUXP 않/px+아야/ecs ))
b. (V (V 모이/pvg+어/ecx)(AUXP 있/px+지/ecx )(AUXP 못하/px+ㅂ니다/e
f ))
이밖에도 V가 연속될 때에는 다음과 같이 어휘범주 V로 분석한다.
(36) V -> V+V
a. (V (V 끼/pvg+고/ecs )
(V 흐르/pvg+어도/ecs )))
b. (V (V 대치/ncpa+되/xsv+긴/ecs )
(V 하/pvg+었/ep+으나/ecs )))
나. 다른 범주와 관련된 용언구(VP)
VP는 크게는 문장종결부호와 결합하여 S를 이루고, 작게는 용언(V)과 명
사구(NP), 후치사구(PP), 관형사구(AP), 부사구(ADVP), 독립어구(IP) 등과
결합한다. (37)은 용언구(VP)의 규칙과 분석 예이다.
(37) VP규칙
VP -> XP* V
a. VP -> NP V
(VP (NP 대상/ncn+이/jcs )
(V (V 되/pvg+고/ecx )(AUXP 있/px+다/ef ))
b. VP -> ADVP V
(VP (ADVP 상당/ncps+정도/ncn )
(V 변화/ncpa+시키/xsv+었/ep+다/ef ))
c. VP -> PP V
(VP (PP 거기/npd+에서/jca )
(V 연유/ncpa+하/xsv+ㄴ다/ef ))
d. VP -> AP V
(VP (AP 어떻/pad+ㄴ/etm )
(V 것/nbn+이/jp+다/ef ))
e. VP -> IP V
(VP (IP 그리고/maj)
(V 웃/pvg+었/ep+다/ef))
2.6 보조용언구(AUXP)
보조용언구(AUXP)는 독립적으로 사용하지 못하고 반드시 선행하는 용언(
V)과 같이 나타나서 선행하는 용언(V)과 함께 V로 분석된다. 보조용언구(AU
XP)의 분석 규칙은 다음과 같다.
(38) AUXP -> X/px + ...
(39)
a. (AUXP 되/px+고/ecc )
b. (AUXP 하/px+어/ecs )
(AUXP 받/px+았/ep+으나/ecs )
c. (AUXP 버리/px+지/ecx )
d. (AUXP 보/px+자/ef )
(AUXP 않/px+았/ep+다/ef )
2.7 부사구(ADVP)
부사구(ADVP)는 용언구나 관형사구를 수식하는 범주이다. 부사구는 형태
·통사 태그 정보가 지시부사(mad), 일반부사(mag), 부사파생접미사(xsa)로
분석된 어절은 부사구로 분석할 수 있다.
(40) ADVP -> ...+X/{mad, mag, xsa}
(41)
(ADVP 더구나/mag )
(ADVP 무참/ncps+히/xsa )
(ADVP 다시/mag)
(42)와 같이 시간을 나타내는 명사가 홀로 쓰일 때는 부사구가 된다.
(42) (ADVP 지금/ncn )
(ADVP 오늘날/ncn )
서술성을 가진 부사는 부사구를 형성한다.
(43) (ADVP
(PP 다음/ncn+과/jct)
(ADVP 같/paa+이/xsa))
(ADVP
(PP
(NP
(AP 파이프/ncn+의/jcm)
(NP 크기/ncn+나/jcj))
(PP
(AP 유체/ncn+의/jcm)
(PP 종류/ncn+에/jca)))
(NP 상관/ncn)
(ADVP 없/paa+이/xsa))
2.8 독립구(IP)
독립구(IP)는 감탄사(ii), 호격조사(jcv), 접속부사(maj)에 의한 형태·
통사 태그 정보로 규칙화될 수 있다.
또한 문장의 제시어나 표제어는 독립구를 형성할 수 있으며 (47)과 같이
독립구 분석 목록으로 정의할 수 있다.
(44) IP -> {ii, maj}
IP -> ....+X/jcv
(45)
a. (IP 그리고/maj )
b. (IP 여보게/ii)
c. (IP 젊은이/ncn+여/jcv)
d. (IP 주/ncn)
;주 : 마이너스 부호는 동력이 펌프에 들어가는 것을 뜻한다.
(S (VP
(IP 주/ncn+:/sp)
(NP
(AP 마이너스/ncn)
(NP 부호/ncn+는/jxc))
(46) (IP 첫째/nno)+,/sp
(47) | 그리고/maj 나/pvg + 서/ecs |
| 그리고/maj 나/pvg + 자/ecs |
| 그래서/maj 그렇/pvg + ㄴ지/ecs |
| 뿐/nbn + 만/jxc 아니/paa + 라/ecs |
| 다시/mag 말/ncpa+하/xsv + 면/ecs |
| 다시/mag 말/ncpa + 하/xsv + 어서/ecs |
| 예/ncn+ 를/jco 들/pvg + 면/ecs |
| 그리하/paa+ 여/ecs |
| 말/ncpa + 하/xsv + 자면/ecs |
(IP (NP 예/ncn+를/jco)
(V 들/pvg+어/ecs))
'뿐만 아니라'는 문두에 있을 때와 그렇지 않을 때 차이가 있다.
(48) (NP
(AP
(NP 절대/ncpa+다수/ncpa+가/jcs )
(AP 모자라/paa+ㄹ/etm ))
(NP 뿐/nbn ))
(V 아니/paa+라/ecs )
3. 트리 구조의 실례
구문 분석은 5개의 영역(경제, 기계, 물리, 생물, 전산)의 5,000 문장을
분석하였다.
;이는 물에 떠 있는 합판을 두 개의 손가락을 이용하여 회전시키는 경우로
생각해 볼 수 있다.
(S
(VP
(NP 이/npd+는/jxc)
(NP (AP (PP 물/ncn+에/jca)
(V 뜨/pvg+어/ecx)
(AP 있/px+는/etm))
(NP 합판/ncn+을/jco))
(PP (AP (NP (AP 두/nnc)
(AP 개/nbu+의/jcm)
(NP 손가락/ncn+을/jco))
(V 이용/ncpa+하/xsv+어/ecs)
(AP 회전/ncpa+시키/xsv+는/etm))
(PP 경우/ncn+로/jca))
(VP (NP (AP (V 생각/ncpa+하/xsv+어/ecx)
(AP 보/px+ㄹ/etm))
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
;만일 썰매에 아이 두 명이 타고 있으면 썰매를 움직이게 하기 위해서 두
배의 힘을 가해야 한다.
(S
(VP (VP
(ADVP 만일/mag)
(PP 썰매/ncn+에/jca))
(NP (AP 아이/ncn)
(AP 두/nnc)
(NP 명/nbu+이/jcs))
(V (V 타/pvg+고/ecx)
(AUXP 있/px+으면/ecs)))
(VP (NP
(VP
(NP 썰매/ncn+를/jco)
(V 움직이/pvg+게/ecx))
(NP 하/px+기/etn))
(V 위하/pvg+어서/ecs))
(VP (NP (AP 두/nnc)
(AP 배/nbu+의/jcm)
(NP 힘/ncn+을/jco))
(V (V 가하/pvg+어야/ecs)
(V 하/pvg+ㄴ다/ef+))))+./sf)
;지름 d 인 축이 축과 하우징 사이에 채워진 일정한 폭 y 의 유체 내에서
회전하고 있다.
(S
(VP
(NP (AP 지름/ncn)
(AP d/f+이/jp+ㄴ/etm)
(NP 축/ncn+이/jcs))
(AP
(PP (NP 축/ncn+과/jcj)
(AP 하우징/ncn)
(PP 사이/ncn+에/jca))
(AP 채우/pvg+어/ecx+지/px+ㄴ/etm))
(PP (AP 일정/ncps+하/xsm+ㄴ/etm)
(AP 폭/nbu)
(AP y/f+의/jcm)
(AP 유체/ncn)
(PP 내/nbn+에서/jca))
(V (V 회전/ncpa+하/xsv+고/ecx)
(AUXP 있/px+다/ef)))+./sf)
;이와 같이 힘 E 는 자와 각도기를 이용하여 도해적으로 힘의 다각형을 그
려서 구할 수 있다.
(S
(VP
(ADVP
(PP 이/npd+와/jct)
(ADVP 같/paa+이/xsa)
(VP (NP (AP 힘/ncn)
(NP E/f+는/jxc))
(VP (NP (NP 자/ncn+와/jcj)
(NP 각도기/ncn+를/jco))
(V 이용/ncpa+하/xsv+어/ecs)))
(VP
(PP 도해/ncn+적/xsn+으로/jca)
(NP (AP 힘/ncn+의/jcm)
(NP 다각형/ncn+을/jco))
(V 그리/pvg+어서/ecs))
(VP
(NP (AP 구하/pvg+ㄹ/etm)
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
;강물이 흐르지 않는 상황이라면 강을 건너는데 걸리는 시간은 거리를 속
력으로 나눈 값이다.
(S
(VP
(VP
(AP (NP 강물/ncn+이/jcs)
(AP (V 흐르/pvg+지/ecx)
(AP 않/px+는/etm)))
(V 상황/ncn+이/jp+라면/ecs))
(VP
(NP (AP (NP 강/ncn+을/jco)
(AP (V 건너/pvg+는데/ecs)
(AP 걸리/pvg+는/etm)))
(NP 시간/ncn+은/jxc))
(AP (NP 거리/ncn+를/jco)
(PP 속력/ncn+으로/jca)
(AP 나누/pvg+ㄴ/etm))
(V 값/ncn+이/jp+다/ef)))+./sf)
;경리부는 무슨 일을 하는 부서인가.
(S
(VP
(NP 경리부/ncn+는/jxc)
(VP
(AP (NP (AP 무슨/mmd)
(NP 일/ncn+을/jco))
(AP 하/pvg+는/etm))
(V 부서/ncn+이/jp+ㄴ가/ef)))+./sf)
4. 앞으로의 과제
1) 구문 분석이 평면 구조 분석으로 국어의 문장 구조를 명확히 이해할 수
있을 것인가?
평면 구조가 기계적인 처리를 쉽게 할 수 있는가?
관형사구에 제시한 예문 (30)에 해당하는 부분이다.
(NP (AP 내/npp )
(AP 깨/pvg+어/ecx+지/px+ㄴ/etm )
(AP 마음/ncn+의/jcm )
(NP 상처/ncn+를/jco ))
이것을 계층구조로 보이면
(NP
(AP
(AP
(AP 내/npp )
(AP 깨/pvg+어/ecx+지/px+ㄴ/etm ))
(AP 마음/ncn+의/jcm ))
(NP 상처/ncn+를/jco ))
와 같다.
다음은 병렬 구조를 평면구조로 제시한 것이다. 이기용(1997)에 제시된
것임.
(NP
(AP 봄/ncn+의/jcm )
(AP 앙징/ncn+과/jcj )
(AP 여름/ncn+의/jcm )
(AP 싱싱/ncn+과/jcj )
(AP 가을/ncn+의/jcm )
(NP 영화/ncn+가/jcs ))
이것을 계층 구조로 보이면
(NP
(NP (AP 봄/ncn+의/jcm )
(NP 앙징/ncn+과/jcj ))
(NP (AP 여름/ncn+의/jcm )
(NP 싱싱/ncn+과/jcj ))
(NP (AP 가을/ncn+의/jcm )
(NP 영화/ncn+가/jcs )))
와 같다.
다음의 문장을 살펴보면
;이는 물에 떠 있는 합판을 두 개의 손가락을 이용하여 회전시키는 경우로
생각해 볼 수 있다.
(S
(VP
(NP 이/npd+는/jxc)
(NP (AP (PP 물/ncn+에/jca)
(V 뜨/pvg+어/ecx)
(AP 있/px+는/etm))
(NP 합판/ncn+을/jco))
(PP (AP (NP (AP 두/nnc)
(AP 개/nbu+의/jcm)
(NP 손가락/ncn+을/jco))
(V 이용/ncpa+하/xsv+어/ecs)
(AP 회전/ncpa+시키/xsv+는/etm))
(PP 경우/ncn+로/jca))
(VP (NP (AP (V 생각/ncpa+하/xsv+어/ecx)
(AP 보/px+ㄹ/etm))
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
;이는 물에 떠 있는 합판을 두 개의 손가락을 이용하여 회전시키는 경우로
생각해 볼 수 있다.
(S
(VP
(NP 이/npd+는/jxc)
(PP (AP (VP
(NP
(AP (PP 물/ncn+에/jca)
(V 뜨/pvg+어/ecx)
(AP 있/px+는/etm))
(NP 합판/ncn+을/jco))
(NP (AP 두/nnc)
(AP 개/nbu+의/jcm)
(NP 손가락/ncn+을/jco))
(V 이용/ncpa+하/xsv+어/ecs))
(AP 회전/ncpa+시키/xsv+는/etm))
(PP 경우/ncn+로/jca))
(VP (NP
(AP (V 생각/ncpa+하/xsv+어/ecx)
(AP 보/px+ㄹ/etm))
(NP 수/nbn))
(V 있/paa+다/ef)))+./sf)
다음검색