Text extraction and Keyword scoring according RAKE algorithm. 텍스트 추출 그리고 RAKE 알고리즘에 따른 키워드 스코어링
Source Code for simple wikipedia crawling and keywords extraction.
Using BeautifulSoup
and requests
, it scrapes wikipedia with user’s requested topic, providing .txt
with the entire document and .json
.csv
for simple data sets of extracted keywords.
간단한 위키피디아 클롤러와 키워드 선별 소스 코드입니다.BeautifulSoup
과 requests
를 사용하여 사용자가 원하는 주제를 위키피디아에서 크롤링한 후, .txt
파일로 전체 문서를 정리하고, .json
과 .csv
파일로 단어 및 연속된 단어들의 중요도를 정리하여 놓습니다.
We use nltk database in order to classify each word with its part of speech.
Program automatically downloads required NLTK packages
아래 nltk 라이브러리의 패키지들이 필요합니다.
코드를 실행 시키면 저절로 다운로드 됩니다.
punkt
universal_tagset
averaged_perceptroon_tagger
stopwords
We need following Python Packages
아래의 파이썬 라이브러리가 필요 합니다.
`requests` and
`BeautifulSoup4` for crawling
`rake_nltk` for keyword extraction
You can
위 라이브러리를 다운 받기 위해서는
python3 -m venv ../.env
python3 -m pip install -r requirements.txt
source ../.env/bin/activate
to install required python libraries
이렇게 실행 시키시면 됩니다.
For keyword extraction, RAKE algorithm has been used.
For more information regarding RAKE algorithm please go to
csurfer’s package.
키워드 정리를 위해서 RAKE 알고리즘을 사용했습니다.
자세한 정보가 필요하면 csurfer’s 링크를 참고해주세요.
If anyone is interested enough to contact me for any questions revolving around
this project, feel free to contact me via e-mail seanhong2000@gmail.com