五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

  • <center id="8gusu"></center><rt id="8gusu"></rt>
    <menu id="8gusu"><small id="8gusu"></small></menu>
  • <dd id="8gusu"><s id="8gusu"></s></dd>

    Python利器: 利用 pdfminer 把pdf 年報數(shù)據(jù)轉(zhuǎn)成 txt 文本-經(jīng)管之家官網(wǎng)!

    人大經(jīng)濟論壇-經(jīng)管之家 收藏本站
    您當前的位置> 會計>>

    會計庫

    >>

    Python利器: 利用 pdfminer 把pdf 年報數(shù)據(jù)轉(zhuǎn)成 txt 文本

    Python利器: 利用 pdfminer 把pdf 年報數(shù)據(jù)轉(zhuǎn)成 txt 文本

    發(fā)布:MRchesian | 分類:會計庫

    關(guān)于本站

    人大經(jīng)濟論壇-經(jīng)管之家:分享大學(xué)、考研、論文、會計、留學(xué)、數(shù)據(jù)、經(jīng)濟學(xué)、金融學(xué)、管理學(xué)、統(tǒng)計學(xué)、博弈論、統(tǒng)計年鑒、行業(yè)分析包括等相關(guān)資源。
    經(jīng)管之家是國內(nèi)活躍的在線教育咨詢平臺!

    經(jīng)管之家新媒體交易平臺

    提供"微信號、微博、抖音、快手、頭條、小紅書、百家號、企鵝號、UC號、一點資訊"等虛擬賬號交易,真正實現(xiàn)買賣雙方的共贏!菊堻c擊這里訪問】

    提供微信號、微博、抖音、快手、頭條、小紅書、百家號、企鵝號、UC號、一點資訊等虛擬賬號交易,真正實現(xiàn)買賣雙方的共贏!菊堻c擊這里訪問】

    PDFMiner其特征有:1、完全使用python編寫。(適用于2.4或更新版本)2、解析,分析,并轉(zhuǎn)換成PDF文檔。3、PDF-1.7規(guī)范的支持。(幾乎)4、中日韓CJK語言和垂直書寫腳本支持。5、各種字體類型(Type1、TrueType、Type ...
    壇友互助群


    掃碼加入各崗位、行業(yè)、專業(yè)交流群


    PDFMiner其特征有:
    1、完全使用python編寫。(適用于2.4或更新版本)
    2、解析,分析,并轉(zhuǎn)換成PDF文檔。
    3、PDF-1.7規(guī)范的支持。(幾乎)
    4、中日韓CJK語言和垂直書寫腳本支持。
    5、各種字體類型(Type1、TrueType、Type3,和CID)的支持。
    6、基本加密(RC4)的支持。
    7、PDF與HTML轉(zhuǎn)換。
    8、綱要(TOC)的提取。
    9、標簽內(nèi)容提取。
    10、通過分組文本塊重建原始的布局。
    如果你的Python有安裝pip模塊,就可以通過pip命令自動安裝pdfminer。(不支持中文)
    #python pip install pdfminer
    由于我們大部分處理的文檔都是中文的 所以不能直接pip 安裝 使用中日韓CJK文字須先編譯再安裝

    首先下載 安裝包

    使用的是pdfminer-20140328.tar.gz


    https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz



    然后在Windows cmd下輸入命令:

    1. mkdir pdfminer\cmap
    2. python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
    3. python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
    4. python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt
    5. python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt
    6. python setup.py install
    復(fù)制代碼

    下面附上將pdf 轉(zhuǎn)成 txt 的python代碼

    1. #!/usr/bin/env python
    2. # -*- coding: utf-8 -*-
    3. # @Time : 2017/7/6 21:02
    4. # @Author: chen# @Site :
    5. # @File : simplePDF.py
    6. # @Software: PyCharm
    7. import os
    8. from cStringIO import StringIO
    9. import sys
    10. from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
    11. from pdfminer.converter import TextConverter
    12. from pdfminer.layout import LAParams
    13. from pdfminer.pdfpage import PDFPage
    14. def convert_pdf_2_text(path):
    15. rsrcmgr = PDFResourceManager()
    16. retstr = StringIO()
    17. device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    18. interpreter = PDFPageInterpreter(rsrcmgr, device)
    19. with open(path, 'rb') as fp:
    20. for page in PDFPage.get_pages(fp, set()):
    21. interpreter.process_page(page)
    22. text = retstr.getvalue()
    23. device.close()
    24. retstr.close()
    25. return text
    復(fù)制代碼
    如果嫌麻煩的話,可以聯(lián)系我?guī)湍戕D(zhuǎn)(Free).

    掃碼或添加微信號:壇友素質(zhì)互助


    「經(jīng)管之家」APP:經(jīng)管人學(xué)習(xí)、答疑、交友,就上經(jīng)管之家!
    免流量費下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
    涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟、管理、金融投資、計量統(tǒng)計、數(shù)據(jù)分析、國貿(mào)、財會等專業(yè)的學(xué)習(xí)寶庫,各類資料應(yīng)有盡有。
    來自五湖四海的經(jīng)管達人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
    經(jīng)管之家(原人大經(jīng)濟論壇),跨越高校的圍墻,帶你走進經(jīng)管知識的新世界。
    掃描下方二維碼下載并注冊APP
    本文關(guān)鍵詞:

    本文論壇網(wǎng)址:http://xalimeijing.com/thread-6274438-1-1.html

    人氣文章

    1.凡人大經(jīng)濟論壇-經(jīng)管之家轉(zhuǎn)載的文章,均出自其它媒體或其他官網(wǎng)介紹,目的在于傳遞更多的信息,并不代表本站贊同其觀點和其真實性負責(zé);
    2.轉(zhuǎn)載的文章僅代表原創(chuàng)作者觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,本站對該文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性,不作出任何保證或承若;
    3.如本站轉(zhuǎn)載稿涉及版權(quán)等問題,請作者及時聯(lián)系本站,我們會及時處理。