在Python中读取PDF属性/元数据

作者: 甲基蓝
发布时间: 2026-01-06 11:46:45 (1月前)
转自：

4 条回复

0#
回复此人
我头上有犄角 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 注意：pyPdf <a href="http://pybrary.net/pyPdf/" rel="nofollow noreferrer"> 主页 </A> 说不再维护。 </p> <P> 我已经实现了这个 <a href="http://pybrary.net/pyPdf/" rel="nofollow noreferrer"> pyPdf </A> 。请参阅下面的示例代码。 </p> <pre> <code> from pyPdf import PdfFileReader pdf_toread = PdfFileReader(open("doc2.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print str(pdf_info) </code> </pre> <P> 输出： </p> <pre> <code> {'/Title': u'Microsoft Word - Agnico-Eagle - Complaint (00040197-2)', '/CreationDate': u"D:20111108111228-05'00'", '/Producer': u'Acrobat Distiller 10.0.0 (Windows)', '/ModDate': u"D:20111108112409-05'00'", '/Creator': u'PScript5.dll Version 5.2.2', '/Author': u'LdelPino'} </code> </pre> </DIV>

编辑
1#
回复此人
筱梨 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 对于Python 3和新的pdfminer（pip install pdfminer3k）： </p> <pre> <code> import os from pdfminer.pdfparser import PDFParser from pdfminer.pdfparser import PDFDocument fp = open("foo.pdf", 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) parser.set_document(doc) doc.set_parser(parser) if len(doc.info) > 0: info = doc.info[0] print(info) </code> </pre> </DIV>

编辑
2#
回复此人
听风～ | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 对于Python 3，请参阅 <a href="https://github.com/mstamy2/PyPDF2" rel="noreferrer"> PyPDF2 </A> 来自@Khaleel的示例代码更新为： </p> <pre> <code> from PyPDF2 import PdfFileReader pdf_toread = PdfFileReader(open("test.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print(str(pdf_info)) </code> </pre> <P> 安装使用 <code> pip install PyPDF2 </code> 。 </p> </DIV>

编辑

登录后才能参与评论