rpa_pdf_extract_image

从PDF的指定页面提取里面的图片

1. 函数

rpa_pdf_extract_image(pdfId,pageIndex,picPath)

pdfId：PDF操作符，通过rpa_pdf_open返回
pageIndex：整数型，PDF指定页码
picPath：字符串类型，图片保存的目录

2. 返回值

返回字符串列表，存储提取的图片路径的列表

若返回False表示执行失败，通过rpa_getLastErrorCode()获取错误码，rpa_getLastErrorMsg()获取错误信息。

3. 示例

pdfFile = 'D:/test.pdf'
picPath = 'D:/'
pageIndex = 0
pdfId = rpa_pdf_open(pdf_file)
#提取PDF中第0页的图片
pngFiles = rpa_pdf_extract_image(pdfId,pageIndex,picPath)
rpa_pdf_close(pdfId)
if len(pngFiles) == 0:
    rpa_log('[error]%s' % rpa_getLastErrorMsg())
    rpa_exit()
#提取的图片进行OCR识别
for pngFile in pngFiles: 
    ret = rpa_ocr_normal(pngFile)
    rpa_log(ret)

'''
有的时候从PDF中提取的图片可能需要进行翻转操作
可以使用PIL中的Image进行相应操作
'''
from PIL import Image

pngFile = 'D:/1.png'
img = Image.open(pngFile)
#out = img.transpose(Image.FLIP_LEFT_RIGHT)  #水平翻转
out = img.transpose(Image.FLIP_TOP_BOTTOM)   #垂直翻转
# out = img.rotate(45)                       #45°顺时针翻转
newPngFile = 'D:/1_new.png'
out.save(newPngFile)
img.close()

找到相关内容个

未找到""相关内容

找到相关内容个

未找到""相关内容