rpa_pdf_extract_image
从PDF的指定页面提取里面的图片
1. 函数
rpa_pdf_extract_image(pdfId,pageIndex,picPath)
- pdfId:PDF操作符,通过rpa_pdf_open返回
- pageIndex:整数型,PDF指定页码
- picPath:字符串类型,图片保存的目录
2. 返回值
返回字符串列表,存储提取的图片路径的列表
若返回False表示执行失败,通过rpa_getLastErrorCode()获取错误码,rpa_getLastErrorMsg()获取错误信息。
3. 示例
pdfFile = 'D:/test.pdf'
picPath = 'D:/'
pageIndex = 0
pdfId = rpa_pdf_open(pdf_file)
#提取PDF中第0页的图片
pngFiles = rpa_pdf_extract_image(pdfId,pageIndex,picPath)
rpa_pdf_close(pdfId)
if len(pngFiles) == 0:
rpa_log('[error]%s' % rpa_getLastErrorMsg())
rpa_exit()
#提取的图片进行OCR识别
for pngFile in pngFiles:
ret = rpa_ocr_normal(pngFile)
rpa_log(ret)
'''
有的时候从PDF中提取的图片可能需要进行翻转操作
可以使用PIL中的Image进行相应操作
'''
from PIL import Image
pngFile = 'D:/1.png'
img = Image.open(pngFile)
#out = img.transpose(Image.FLIP_LEFT_RIGHT) #水平翻转
out = img.transpose(Image.FLIP_TOP_BOTTOM) #垂直翻转
# out = img.rotate(45) #45°顺时针翻转
newPngFile = 'D:/1_new.png'
out.save(newPngFile)
img.close()