關(guān)于本站
人大經(jīng)濟論壇-經(jīng)管之家:分享大學(xué)、考研、論文、會計、留學(xué)、數(shù)據(jù)、經(jīng)濟學(xué)、金融學(xué)、管理學(xué)、統(tǒng)計學(xué)、博弈論、統(tǒng)計年鑒、行業(yè)分析包括等相關(guān)資源。
經(jīng)管之家是國內(nèi)活躍的在線教育咨詢平臺!
經(jīng)管之家新媒體交易平臺
提供"微信號、微博、抖音、快手、頭條、小紅書、百家號、企鵝號、UC號、一點資訊"等虛擬賬號交易,真正實現(xiàn)買賣雙方的共贏!菊堻c擊這里訪問】
考研考博
- 考博 | 南大考博經(jīng)濟類資 ...
- 考博 | 考博英語10000詞匯 ...
- 考博 | 如果復(fù)旦、南大這 ...
- 考博 | 有誰知道春招秋季 ...
- 考博 | 工作與考博?到底 ...
- 考博 | 考博應(yīng)該如何選擇 ...
- 考博 | 考博失敗了
- 考博 | 考博考研英語作文 ...
TOP熱門關(guān)鍵詞
PDFMiner其特征有:1、完全使用python編寫。(適用于2.4或更新版本)2、解析,分析,并轉(zhuǎn)換成PDF文檔。3、PDF-1.7規(guī)范的支持。(幾乎)4、中日韓CJK語言和垂直書寫腳本支持。5、各種字體類型(Type1、TrueType、Type ...
壇友互助群 |
掃碼加入各崗位、行業(yè)、專業(yè)交流群 |
1、完全使用python編寫。(適用于2.4或更新版本)
2、解析,分析,并轉(zhuǎn)換成PDF文檔。
3、PDF-1.7規(guī)范的支持。(幾乎)
4、中日韓CJK語言和垂直書寫腳本支持。
5、各種字體類型(Type1、TrueType、Type3,和CID)的支持。
6、基本加密(RC4)的支持。
7、PDF與HTML轉(zhuǎn)換。
8、綱要(TOC)的提取。
9、標簽內(nèi)容提取。
10、通過分組文本塊重建原始的布局。
如果你的Python有安裝pip模塊,就可以通過pip命令自動安裝pdfminer。(不支持中文)
#python pip install pdfminer
由于我們大部分處理的文檔都是中文的 所以不能直接pip 安裝 使用中日韓CJK文字須先編譯再安裝
首先下載 安裝包
使用的是pdfminer-20140328.tar.gz
https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz
然后在Windows cmd下輸入命令:
- mkdir pdfminer\cmap
- python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
- python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
- python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt
- python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt
- python setup.py install
下面附上將pdf 轉(zhuǎn)成 txt 的python代碼
- #!/usr/bin/env python
- # -*- coding: utf-8 -*-
- # @Time : 2017/7/6 21:02
- # @Author: chen# @Site :
- # @File : simplePDF.py
- # @Software: PyCharm
- import os
- from cStringIO import StringIO
- import sys
- from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
- from pdfminer.converter import TextConverter
- from pdfminer.layout import LAParams
- from pdfminer.pdfpage import PDFPage
- def convert_pdf_2_text(path):
- rsrcmgr = PDFResourceManager()
- retstr = StringIO()
- device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
- interpreter = PDFPageInterpreter(rsrcmgr, device)
- with open(path, 'rb') as fp:
- for page in PDFPage.get_pages(fp, set()):
- interpreter.process_page(page)
- text = retstr.getvalue()
- device.close()
- retstr.close()
- return text
如果嫌麻煩的話,可以聯(lián)系我?guī)湍戕D(zhuǎn)(Free).
掃碼或添加微信號:壇友素質(zhì)互助
「經(jīng)管之家」APP:經(jīng)管人學(xué)習(xí)、答疑、交友,就上經(jīng)管之家!
免流量費下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟、管理、金融投資、計量統(tǒng)計、數(shù)據(jù)分析、國貿(mào)、財會等專業(yè)的學(xué)習(xí)寶庫,各類資料應(yīng)有盡有。
來自五湖四海的經(jīng)管達人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
經(jīng)管之家(原人大經(jīng)濟論壇),跨越高校的圍墻,帶你走進經(jīng)管知識的新世界。
掃描下方二維碼下載并注冊APP
免流量費下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟、管理、金融投資、計量統(tǒng)計、數(shù)據(jù)分析、國貿(mào)、財會等專業(yè)的學(xué)習(xí)寶庫,各類資料應(yīng)有盡有。
來自五湖四海的經(jīng)管達人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
經(jīng)管之家(原人大經(jīng)濟論壇),跨越高校的圍墻,帶你走進經(jīng)管知識的新世界。
掃描下方二維碼下載并注冊APP
本文論壇網(wǎng)址:http://xalimeijing.com/thread-6274438-1-1.html
您可能感興趣的文章
人氣文章
本文標題:Python利器: 利用 pdfminer 把pdf 年報數(shù)據(jù)轉(zhuǎn)成 txt 文本
本文鏈接網(wǎng)址:http://xalimeijing.com/jg/huiji_huijiku_6274438_1.html
2.轉(zhuǎn)載的文章僅代表原創(chuàng)作者觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,本站對該文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性,不作出任何保證或承若;
3.如本站轉(zhuǎn)載稿涉及版權(quán)等問題,請作者及時聯(lián)系本站,我們會及時處理。