rpa_pdf_extract_image

从PDF的指定页面提取里面的图片

1. 函数

rpa_pdf_extract_image(pdfId,pageIndex,picPath)

  • pdfId:PDF操作符,通过rpa_pdf_open返回
  • pageIndex:整数型,PDF指定页码
  • picPath:字符串类型,图片保存的目录

2. 返回值

返回字符串列表,存储提取的图片路径的列表

若返回False表示执行失败,通过rpa_getLastErrorCode()获取错误码,rpa_getLastErrorMsg()获取错误信息。

3. 示例

pdfFile = 'D:/test.pdf'
picPath = 'D:/'
pageIndex = 0
pdfId = rpa_pdf_open(pdf_file)
#提取PDF中第0页的图片
pngFiles = rpa_pdf_extract_image(pdfId,pageIndex,picPath)
rpa_pdf_close(pdfId)
if len(pngFiles) == 0:
    rpa_log('[error]%s' % rpa_getLastErrorMsg())
    rpa_exit()
#提取的图片进行OCR识别
for pngFile in pngFiles: 
    ret = rpa_ocr_normal(pngFile)
    rpa_log(ret)
'''
有的时候从PDF中提取的图片可能需要进行翻转操作
可以使用PIL中的Image进行相应操作
'''
from PIL import Image

pngFile = 'D:/1.png'
img = Image.open(pngFile)
#out = img.transpose(Image.FLIP_LEFT_RIGHT)  #水平翻转
out = img.transpose(Image.FLIP_TOP_BOTTOM)   #垂直翻转
# out = img.rotate(45)                       #45°顺时针翻转
newPngFile = 'D:/1_new.png'
out.save(newPngFile)
img.close()
powered by Gitbook修订时间: 2021-04-15 15:56:54

找到相关内容

    未找到""相关内容

    找到相关内容

      未找到""相关内容