CAFE

형태소 분석기 KLT2000

[Q&A] 형태소 분석기에 포함된 자동 띄어쓰기

작성자nlp|작성시간12.07.26|조회수666 목록 댓글 0

<질문>

현재 홈페이지에 업로드하신 KLT2010-TestVersion 프로젝트를 다운받아 사용해보고 있습니다.

사용 중 자동 띄어쓰기 함수 adjust_word_spacing() 을 통해 띄어쓰기를 해보고 있는데

예를 들어, "다크나이트" 라는 현재 상영중인 영화 제목을 입력값으로 사용하면

"다 크나 이트" 라고 띄어쓰기가 된 상태로 출력이 됩니다.

 

이러한 영화 이름을 하나의 명사로 인식해서 자동으로 띄어쓰지 않도록 할 수 있는 방법이 있을까요?

 

<답변>
1) 한 가지 방법은 길이가 짧은(예: 음절수 5 이하?) 것은 띄어쓰기 모듈을 호출하지 않도록 하면 됩니다.
2) 다른 방법으로 아래 error 사전을 만들어서 error 사전에 등록된 스트링들은
error 사전에 등록된 그대로 띄어쓰기를 하도록 후처리 기능을 추가하면 됩니다.

 

<참고> KLT2010에 포함된 자동 띄어쓰기 모듈은 1차 버전이고 그 후에 개발된 2차 버전에서는 문제가 없는데
2차 버전은 공개를 하지 않았습니다. 2차 버전 특징은 잘못 띄어쓴 에러(붙띄 오류)를 최소화하고
띄어쓰기 에러가 발생하는 스트링은 error 사전에 등록하여 해결하도록 하고 있습니다.

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼