上回说到以前虽然与python有过美丽的邂逅,但好景不长,敌不过现实的“残酷”,最后只能分开了。那么这次又是怎样重续前缘的呢?事情是这样的: 前段时间,由于工作需要从大量EXCEL文件中提取图片,开始时试过VBA的方式,但是得到的图片模糊,达不到要求,几经辗转搜索,不断对比,最终锁定python实现的这种方法,即通过先把文件变为压缩包的方式,而后解压此压缩包,进而获取到其中的图片。
这种方式获取到的图片与原图像素一般无二。具体逻辑如下:1、判断是否是文件和判断文件是否存在 2、修改指定目录下的文件类型名,将excel后缀名修改为.zip 3、解压文件 4、读取解压后的文件夹,打印图片路径 以下是将每一步想要实现的功能,封装成一个个单独的自定义函数模块,最后再把这些模块组合起来,完成整体功能。
以下是网上找到的众多“提取EXCEL文件中图片”中,我觉得层次最为分明的一个,所以决定就用它了。 你可能会问,刚开始就弄这么一堆代码,谁懂啊?不怕啊!还是那句话,不懂就“拿来主义”呗。毕竟解决问题才是最大的需求所在,不是吗? 如今的孩子很小的时候,就能熟练操作各种电子产品,各种电子游戏更是无师自通,甚至让成年人都叹为观止,为什么? 想玩啊,只有会了,才能更好地玩,才能玩得更加尽兴啊。 毕竟,这个时候,“玩”才是刚需,不是吗
所以,你能把一样东西学到什么程度,很大程度上取决于你自身有多渴望做成一件事。
————————–代码分割 —————————————-
自定义函数部分:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 import os,shutilimport zipfileimport openpyxlfrom openpyxl import load_workbookdef isfile_exist (file_path ): if not os.path.isfile(file_path): print("It's not a file or no such file exist ! %s" % file_path) return False else : return True def change_file_name (file_path, new_type='.zip' ): if not isfile_exist(file_path): return '' extend = os.path.splitext(file_path)[1 ] if extend != '.xlsx' and extend != '.xls' : print("It's not a excel file! %s" % file_path) return False file_name = os.path.basename(file_path) new_name = str (file_name.split('.' )[0 ]) + new_type dir_path = os.path.dirname(file_path) new_path = os.path.join(dir_path, new_name) if os.path.exists(new_path): os.remove(new_path) os.rename(file_path, new_path) return new_path def unzip_file (zipfile_path ): if not isfile_exist(zipfile_path): return False if os.path.splitext(zipfile_path)[1 ] != '.zip' : print("It's not a zip file! %s" % zipfile_path) return False file_zip = zipfile.ZipFile(zipfile_path, 'r' ) file_name = os.path.basename(zipfile_path) zipdir = os.path.join(os.path.dirname(zipfile_path), str (file_name.split('.' )[0 ])) for files in file_zip.namelist(): file_zip.extract(files, os.path.join(zipfile_path, zipdir)) file_zip.close() return True def read_img (zipfile_path,img_path ): if not isfile_exist(zipfile_path): return False dir_path = os.path.dirname(zipfile_path) file_name = os.path.basename(zipfile_path) unzip_dir = os.path.join(dir_path, str (file_name.split('.' )[0 ])) pic_dir = 'xl' + os.sep + 'media' pic_path = os.path.join(dir_path, str (file_name.split('.' )[0 ]), pic_dir) file_list = os.listdir(pic_path) for file in file_list: filepath = os.path.join(pic_path, file) print(filepath,img_path) shutil.move(filepath,img_path) os.unlink(zipfile_path) shutil.rmtree(unzip_dir) def compenent (excel_file_path,img_path ): zip_file_path = change_file_name(excel_file_path) if not os.path.exists(img_path): os.mkdir(img_path) if zip_file_path != '' : unzip_msg = unzip_file(zip_file_path) if unzip_msg: read_img(zip_file_path,img_path)
以上是各个模块的自定义函数,用于实现相应的功能,下面才是主体的程序(将各个模块按照一定的逻辑贯穿起来,以实现最终的效果). 首先是单个文件中的图片提取:
1 2 3 4 5 6 7 8 9 if __name__ == '__main__' : excel_path='C:\\Users\leezhengqi2020\\Desktop\\XXXX.xlsx' img_dir = 'D:\\lee' compenent(excel_path,img_dir)
但是上述代码提取出来的图片名字是image1,image2…的形式,不方便识别是哪个文件中的图片,于是 接下来想要实现的是,将提取出来的图片重命名为文件名+图片名,以下代码就是实现这样的功能:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 if __name__ == '__main__' : excel_path='C:\\Users\leezhengqi2020\\Desktop\\xxxx.xlsx' img_dir = 'D:\\lee' file_name1 = os.path.basename(excel_path) compenent(excel_path,img_dir) img_list=os.listdir(img_dir) file_name2=file_name1.split('.' )[0 ] file_name3=file_name2.split('-' )[0 ] print(file_name3) for img in img_list: os.rename('D:\\lee\\' +img,'D:\\output\\' +file_name3+'-' +img)
既然完成了单个EXCEL文件的图片提取,那么多个文件呢,于是就有了以下的代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 if __name__ == '__main__' : excel_path='C:\\Users\leezhengqi2020\\Desktop\\baogao' file_name1_list=os.listdir(excel_path) img_dir = 'D:\\lee' for file_name1 in file_name1_list: file_path=excel_path+'\\' +file_name1 print(file_path) compenent(file_path,img_dir) img_list=os.listdir(img_dir) file_name2=file_name1.split('.' )[0 ] file_name3=file_name2.split('-' )[0 ] print(file_name3) for img in img_list: os.rename('D:\\lee\\' +img,'D:\\output\\' +file_name3+'-' +img)
既然完成多个EXCEL文件的图片提取,那word文件呢?试一下! 上述代码需要稍稍修改一下,只有一处需要改动,相信你已经找到了。为什么要这样改? 这个嘛…我先不说 你手动将一个word文件的后缀改为.zip,然后解压,然后就知道为什么了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 def read_img (zipfile_path,img_path ): if not isfile_exist(zipfile_path): return False dir_path = os.path.dirname(zipfile_path) file_name = os.path.basename(zipfile_path) unzip_dir = os.path.join(dir_path, str (file_name.split('.' )[0 ])) pic_dir = 'word' + os.sep + 'media' pic_path = os.path.join(dir_path, str (file_name.split('.' )[0 ]), pic_dir) file_list = os.listdir(pic_path) for file in file_list: filepath = os.path.join(pic_path, file) print(filepath,img_path) shutil.move(filepath,img_path) os.unlink(zipfile_path) shutil.rmtree(unzip_dir)
通过上面写代码的过程,我切实体会到了什么是需求驱动,也更好地理解了什么是举一反三。很多事情其实一开始想的都比较简单,只是后面需求多了,慢慢的用来实现需求的方法也开始多了。 所以不要惊讶于有的程序长出了天际,其实它也是慢慢长大的,不是一开始就如此模样。 万丈高楼平地起,没有大厦是一下盖起来的。 说到这里,突然明白了为什么程序员的别称是“码农”了,可不嘛,写代码的过程就像盖房子砌墙,再漂亮的房子,也是一点点码出来的。