지난 포스팅에서 윈도우 컴퓨터에 ubuntu 어플리케이션을 설치해서 khaiii를 설치해 보았습니다.
이번에는 khaiii와 konlpy의 다른 형태소 분석기들을 비교해 보기 위해 konlpy를 설치해보겠습니다.
ubuntu 앱에서 konlpy를 설치하기 위해서는 JDK를 설치해야 합니다.
Java 1.7 이상의 버전이 필요하다고 하는데, 저는 11을 설치했습니다. 약간의 시간이 소요됩니다.
sudo apt-get install g++ openjdk-11-jdk sudo apt-get install python3-dev pip3 install konlpy |
이 세 줄의 코드로 konlpy의 설치는 완료됩니다.
다음은 몇 개의 클래스를 실습해보겠습니다.
터미널에서 jupyter notebook을 켜면 jupyter notebook을 실행할 수 있는 두 개의 주소가 나옵니다.
둘 중 하나를 복사하여 웹 브라우저 주소창에 입력합니다.
jupyter notebook --no-browser |
jupyter notebook - New - Python 3을 누르면 파이썬 주피터 파일을 생성할 수 있습니다.
두 개의 클래스를 실습해보겠습니다.
두 분석기의 결과가 차이가 있는 것을 확인할 수 있습니다.
Kkma() : ['Kkma', '형태소', '분석기', '를', '실행', '하', '어', '보', '겠', '습니다', '!']
Twitter() : ['Twitter', '형태소', '분석', '기르다', '실행', '하다', '보다', '!']
Kkma()가 Twitter()에 비해 동사를 더 세밀하게 분리하고 있으며, '분석기' 라는 단어를 왜곡 없이 분리하고 있습니다.
Twitter()는 동사를 분리하여 원래 형태('하다', '보다'와 같이)로 변경하여 보기 표기하고, Kkma()는 단어의 형태를 변경하는 작업 없이 사용하고 있습니다.
지난번에 설치했던 khaiii도 유사한 문장으로 실행하고 비교해보겠습니다.
khaiiiApi()는 ['khaiii', '형태소', '분석기', '를', '실행', '하', '여', '보', '겠', '습니다', '!']로 분리되어 Kkma()와 유사하게 분리됩니다.
형태소 분석기마다 결과에 차이가 존재합니다.
여기서는 너무 짧은 문장을 사용하여 그 차이가 두드러지지는 않지만 속도와 강점 등에서도 차이가 존재한다고 합니다.
다양한 분석기와 그 특징을 알아보고 자신의 프로젝트에 적합한 형태소 분석기를 사용하는 것이 좋을 것 같습니다.
이 글은 konlpy document(https://konlpy.org/ko/v0.4.3/#)를 참고했습니다.
'공부공부공부를 합시다 > 이것저것 설치해 봅시다' 카테고리의 다른 글
[Ubuntu/Jupyter 서버 구축] Ubuntu20.04 기초 설정 [1] (0) | 2022.07.27 |
---|---|
[Elastic] 엘라스틱서치(ElasticSearch) 설치하기 (0) | 2022.05.09 |
[Python] 아나콘다에서 py-Hanspell 설치하다가 경로가 꼬였다면? (0) | 2022.04.15 |
[하둡 설치] 참고한 블로그 정리 (0) | 2021.07.12 |
[python] 윈도우 컴퓨터에서 khaiii (카카오 형태소 분석기) 설치하기 (0) | 2021.05.13 |
댓글