Tesseract-OCR을 이용한 문자추출 (windows기반)
Optical Character Reader
문자인식을 대표하는 오픈소스 중 하나이며, 엔진이다.
설치주소 : https://github.com/tesseract-ocr/tesseract/wiki
추가 언어 업데이트 : https://github.com/tesseract-ocr/tessdata_best
설치는 각자의 환경에 맞는 것으로 선택해서 설치
tesseract설치와 동시에 언어데이터도 함께 설치하기를 원하면 설치 진행 중 Additional language data부분의 체크박스를 클릭
파이썬 이미지 처리 라이브러리
// 이미지합성, 이미지포맷 변환, 회전하기 등
아래의 명령어를 입력하여 pillow라이브러리 설치
pip install pillow
Tesseract-OCR의 기능을 파이썬에서 호출할 수 있게 해주는 라이브러리
아래의 명령어를 입력하여 pytesseract라이브러리 설치
pip install pytesseract
pip install opencv-python