注意:pyPdf 主页 说不再维护。
我已经实现了这个 pyPdf 。请参阅下面的示例代码。
from pyPdf import PdfFileReader pdf_toread = PdfFileReader(open("doc2.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print str(pdf_info)
输出:
{'/Title': u'Microsoft Word - Agnico-Eagle - Complaint (00040197-2)', '/CreationDate': u"D:20111108111228-05'00'", '/Producer': u'Acrobat Distiller 10.0.0 (Windows)', '/ModDate': u"D:20111108112409-05'00'", '/Creator': u'PScript5.dll Version 5.2.2', '/Author': u'LdelPino'}
对于Python 3和新的pdfminer(pip install pdfminer3k):
import os from pdfminer.pdfparser import PDFParser from pdfminer.pdfparser import PDFDocument fp = open("foo.pdf", 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) parser.set_document(doc) doc.set_parser(parser) if len(doc.info) > 0: info = doc.info[0] print(info)
对于Python 3,请参阅 PyPDF2 来自@Khaleel的示例代码更新为:
from PyPDF2 import PdfFileReader pdf_toread = PdfFileReader(open("test.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print(str(pdf_info))
安装使用 pip install PyPDF2 。
pip install PyPDF2