python常用代码(EXCEL文件中图片提取)

上回说到以前虽然与python有过美丽的邂逅,但好景不长,敌不过现实的“残酷”,最后只能分开了。那么这次又是怎样重续前缘的呢?事情是这样的:
前段时间,由于工作需要从大量EXCEL文件中提取图片,开始时试过VBA的方式,但是得到的图片模糊,达不到要求,几经辗转搜索,不断对比,最终锁定python实现的这种方法,即通过先把文件变为压缩包的方式,而后解压此压缩包,进而获取到其中的图片。

这种方式获取到的图片与原图像素一般无二。具体逻辑如下:
1、判断是否是文件和判断文件是否存在
2、修改指定目录下的文件类型名,将excel后缀名修改为.zip
3、解压文件
4、读取解压后的文件夹,打印图片路径
以下是将每一步想要实现的功能,封装成一个个单独的自定义函数模块,最后再把这些模块组合起来,完成整体功能。

以下是网上找到的众多“提取EXCEL文件中图片”中,我觉得层次最为分明的一个,所以决定就用它了。
你可能会问,刚开始就弄这么一堆代码,谁懂啊?不怕啊!还是那句话,不懂就“拿来主义”呗。毕竟解决问题才是最大的需求所在,不是吗?
如今的孩子很小的时候,就能熟练操作各种电子产品,各种电子游戏更是无师自通,甚至让成年人都叹为观止,为什么?
想玩啊,只有会了,才能更好地玩,才能玩得更加尽兴啊。
毕竟,这个时候,“玩”才是刚需,不是吗

所以,你能把一样东西学到什么程度,很大程度上取决于你自身有多渴望做成一件事。

————————–代码分割—————————————-

自定义函数部分:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
import os,shutil
import zipfile
import openpyxl
from openpyxl import load_workbook

# 判断是否是文件和判断文件是否存在
def isfile_exist(file_path):
if not os.path.isfile(file_path):
print("It's not a file or no such file exist ! %s" % file_path)
return False
else:
return True



# 修改指定目录下的文件类型名,将excel后缀名修改为.zip
def change_file_name(file_path, new_type='.zip'):
if not isfile_exist(file_path):
return ''

extend = os.path.splitext(file_path)[1] # 获取文件拓展名
if extend != '.xlsx' and extend != '.xls':
print("It's not a excel file! %s" % file_path)
return False

file_name = os.path.basename(file_path) # 获取文件名
new_name = str(file_name.split('.')[0]) + new_type # 新的文件名,命名为:xxx.zip

dir_path = os.path.dirname(file_path) # 获取文件所在目录
new_path = os.path.join(dir_path, new_name) # 新的文件路径
if os.path.exists(new_path):
os.remove(new_path)

os.rename(file_path, new_path) # 保存新文件,旧文件会替换掉

return new_path # 返回新的文件路径,压缩包


# 解压文件
def unzip_file(zipfile_path):
if not isfile_exist(zipfile_path):
return False

if os.path.splitext(zipfile_path)[1] != '.zip':
print("It's not a zip file! %s" % zipfile_path)
return False

file_zip = zipfile.ZipFile(zipfile_path, 'r')
file_name = os.path.basename(zipfile_path) # 获取文件名
zipdir = os.path.join(os.path.dirname(zipfile_path), str(file_name.split('.')[0])) # 获取文件所在目录
for files in file_zip.namelist():
file_zip.extract(files, os.path.join(zipfile_path, zipdir)) # 解压到指定文件目录

file_zip.close()
return True


# 读取解压后的文件夹,打印图片路径
def read_img(zipfile_path,img_path):
if not isfile_exist(zipfile_path):
return False

dir_path = os.path.dirname(zipfile_path) # 获取文件所在目录
file_name = os.path.basename(zipfile_path) # 获取文件名
unzip_dir = os.path.join(dir_path, str(file_name.split('.')[0]))
pic_dir = 'xl' + os.sep + 'media' # excel变成压缩包后,再解压,图片在media目录
pic_path = os.path.join(dir_path, str(file_name.split('.')[0]), pic_dir)

file_list = os.listdir(pic_path)
for file in file_list:
filepath = os.path.join(pic_path, file)
print(filepath,img_path)
shutil.move(filepath,img_path)
os.unlink(zipfile_path)
shutil.rmtree(unzip_dir)


# 组合各个函数
def compenent(excel_file_path,img_path):
zip_file_path = change_file_name(excel_file_path)
if not os.path.exists(img_path):
os.mkdir(img_path)
if zip_file_path != '':
unzip_msg = unzip_file(zip_file_path)
if unzip_msg:
read_img(zip_file_path,img_path)

以上是各个模块的自定义函数,用于实现相应的功能,下面才是主体的程序(将各个模块按照一定的逻辑贯穿起来,以实现最终的效果).
首先是单个文件中的图片提取:

1
2
3
4
5
6
7
8
9
# main

if __name__ == '__main__':
#excel地址
excel_path='C:\\Users\leezhengqi2020\\Desktop\\XXXX.xlsx'

#图片目录
img_dir = 'D:\\lee'
compenent(excel_path,img_dir)

但是上述代码提取出来的图片名字是image1,image2…的形式,不方便识别是哪个文件中的图片,于是
接下来想要实现的是,将提取出来的图片重命名为文件名+图片名,以下代码就是实现这样的功能:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# main
if __name__ == '__main__':
excel_path='C:\\Users\leezhengqi2020\\Desktop\\xxxx.xlsx'

#图片目录
img_dir = 'D:\\lee'
file_name1 = os.path.basename(excel_path)
compenent(excel_path,img_dir)

img_list=os.listdir(img_dir)

file_name2=file_name1.split('.')[0]
file_name3=file_name2.split('-')[0]
print(file_name3)
for img in img_list:
os.rename('D:\\lee\\'+img,'D:\\output\\'+file_name3+'-'+img)

既然完成了单个EXCEL文件的图片提取,那么多个文件呢,于是就有了以下的代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# main
if __name__ == '__main__':
#excel地址
excel_path='C:\\Users\leezhengqi2020\\Desktop\\baogao'
file_name1_list=os.listdir(excel_path)

#图片目录
img_dir = 'D:\\lee'
for file_name1 in file_name1_list:
file_path=excel_path+'\\'+file_name1
print(file_path)
compenent(file_path,img_dir)

img_list=os.listdir(img_dir)

file_name2=file_name1.split('.')[0]
file_name3=file_name2.split('-')[0]
print(file_name3)
for img in img_list:
os.rename('D:\\lee\\'+img,'D:\\output\\'+file_name3+'-'+img)

既然完成多个EXCEL文件的图片提取,那word文件呢?试一下!
上述代码需要稍稍修改一下,只有一处需要改动,相信你已经找到了。为什么要这样改?
这个嘛…我先不说
你手动将一个word文件的后缀改为.zip,然后解压,然后就知道为什么了。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 读取解压后的文件夹
def read_img(zipfile_path,img_path):
if not isfile_exist(zipfile_path):
return False

dir_path = os.path.dirname(zipfile_path) # 获取文件所在目录
file_name = os.path.basename(zipfile_path) # 获取文件名
unzip_dir = os.path.join(dir_path, str(file_name.split('.')[0]))
pic_dir = 'word' + os.sep + 'media' # excel变成压缩包后,再解压,图片在media目录
pic_path = os.path.join(dir_path, str(file_name.split('.')[0]), pic_dir)

file_list = os.listdir(pic_path)
for file in file_list:
filepath = os.path.join(pic_path, file)
print(filepath,img_path)
shutil.move(filepath,img_path)
os.unlink(zipfile_path)
shutil.rmtree(unzip_dir)

通过上面写代码的过程,我切实体会到了什么是需求驱动,也更好地理解了什么是举一反三。很多事情其实一开始想的都比较简单,只是后面需求多了,慢慢的用来实现需求的方法也开始多了。
所以不要惊讶于有的程序长出了天际,其实它也是慢慢长大的,不是一开始就如此模样。
万丈高楼平地起,没有大厦是一下盖起来的。
说到这里,突然明白了为什么程序员的别称是“码农”了,可不嘛,写代码的过程就像盖房子砌墙,再漂亮的房子,也是一点点码出来的。