CAFE

궁금해요!

전자책을 활용한 코퍼스 구축 관련해서 질문드립니다.

작성자엘리스|작성시간16.11.30|조회수94 목록 댓글 0

항상 감사한 마음으로 코퍼스에 대한 배움을 얻고 있는 사람들 중 한명 입니다.


코퍼스를 구축하여 keyword list를 만들어보고(->AntConc의 keyword list 활용)  

그 결과를 바탕으로

1) 문맥내에서 사용된 의미 (->AntConc의 concordance 활용?)

2) Lexical bundles (->AntConc의 N-gram이나 collocate 활용?)

2) 어떤 책들에서 나왔는지 (->AntWordProfiler 활용? 전자책 여러 권을 사용할 예정입니다) 

3) 품사별로 차이가 있다면 어떠한지 (->BNC Corpus 활용?)

를 알아보고자 합니다.


그런데 연구에 필요한 전자책들을 찾았는데 말씀해주신 pdf에서 텍스트로의 파일 변환은 완료하였습니다만 그 이후 또 체크해야 할 것이 있는지 궁금하네요.

질문 1) 문자가 아닌 것이나 글자가 깨진 것, 그림들은 지웠는데 텍스트 파일안에는 오롯이 영어만 남아있어야 하는 건가요? 숫자는 삭제하지 않고 그냥 두었는데 불현듯 걱정이 되네요;; 예를 들어 chapter 2가 있다면 chapter는 남겨두고 2는 삭제해야 하는 건가요?

질문 2) 그리고 한 단어의 품사별 차이를 보고자 한다면 태깅을 꼭 해야 하는 건가요?

질문 3) 그 밖에 텍스트 파일 가공에서 제가 놓치고 있는 것이 혹 있다면 알려주시면 너무너무 감사하겠습니다.

질문 4) 마지막으로 제가 알아보고자 하는 것들을 앞에 열거한 프로그램(혹은 코퍼스)들을 활용하여 찾아보면 답을 구할 수 있을까요?



다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼