CAFE

개발자료실-소스 등

윈도용 wordcount.exe - 대용량 파일 소팅, 빈도 계산에 유용함

작성자nlp|작성시간14.09.12|조회수1,071 목록 댓글 0

<주의사항> 아래 wordcount.exe 는 DOS창(cmd 프롬프트)에서 실행되는 프로그램입니다.

Main memory에 파일을 로드할 수 있으면 처리 가능합니다.

 

메모리 부족으로 처리를 못하는 경우에는 파일을 2개 이상으로 분할하여 각각 빈도계산을 하면 누적됩니다.


- 윈도 64비트용 -- 1억개 데이터도 처리 잘 된 것을 확인하였음.

   wordcount 버전 3.0 -- 2018/07/02

첨부파일 wordcount.exe


  웬만큼 소팅이 되어 있는 데이터의 경우에 skewed tree 생성 문제로 비효율적인 문제 해결

    (option "-noshuffle" 추가)

  문장부호 뒤에 바로 오는 줄바꿈 문자 오류 해결


- 윈도 32비트용 -- 5천만개 데이터는 잘 처리하는데 1억개는 memory 부족

첨부파일 wordcount-w32.exe

 

 

- 사용법

 

 

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼