2021-02-25

python常用代码（EXCEL文件中图片提取）

上回说到以前虽然与python有过美丽的邂逅，但好景不长，敌不过现实的“残酷”，最后只能分开了。那么这次又是怎样重续前缘的呢？事情是这样的:
前段时间，由于工作需要从大量EXCEL文件中提取图片，开始时试过VBA的方式，但是得到的图片模糊，达不到要求，几经辗转搜索，不断对比，最终锁定python实现的这种方法，即通过先把文件变为压缩包的方式，而后解压此压缩包，进而获取到其中的图片。

这种方式获取到的图片与原图像素一般无二。具体逻辑如下：
1、判断是否是文件和判断文件是否存在
2、修改指定目录下的文件类型名，将excel后缀名修改为.zip
3、解压文件
4、读取解压后的文件夹，打印图片路径
以下是将每一步想要实现的功能，封装成一个个单独的自定义函数模块，最后再把这些模块组合起来，完成整体功能。

以下是网上找到的众多“提取EXCEL文件中图片”中，我觉得层次最为分明的一个，所以决定就用它了。
你可能会问，刚开始就弄这么一堆代码，谁懂啊？不怕啊!还是那句话，不懂就“拿来主义”呗。毕竟解决问题才是最大的需求所在，不是吗？
如今的孩子很小的时候，就能熟练操作各种电子产品，各种电子游戏更是无师自通，甚至让成年人都叹为观止，为什么？
想玩啊，只有会了，才能更好地玩，才能玩得更加尽兴啊。
毕竟，这个时候，“玩”才是刚需，不是吗

所以，你能把一样东西学到什么程度，很大程度上取决于你自身有多渴望做成一件事。

————————–代码分割—————————————-

自定义函数部分：

import os,shutil
import zipfile
import openpyxl
from openpyxl import load_workbook

# 判断是否是文件和判断文件是否存在
def isfile_exist(file_path):
    if not os.path.isfile(file_path):
        print("It's not a file or no such file exist ! %s" % file_path)
        return False
    else:
        return True



# 修改指定目录下的文件类型名，将excel后缀名修改为.zip
def change_file_name(file_path, new_type='.zip'):
    if not isfile_exist(file_path):
        return ''

    extend = os.path.splitext(file_path)[1]  # 获取文件拓展名
    if extend != '.xlsx' and extend != '.xls':
        print("It's not a excel file! %s" % file_path)
        return False

    file_name = os.path.basename(file_path)  # 获取文件名
    new_name = str(file_name.split('.')[0]) + new_type  # 新的文件名，命名为：xxx.zip

    dir_path = os.path.dirname(file_path)  # 获取文件所在目录
    new_path = os.path.join(dir_path, new_name)  # 新的文件路径
    if os.path.exists(new_path):
        os.remove(new_path)

    os.rename(file_path, new_path)  # 保存新文件，旧文件会替换掉

    return new_path  # 返回新的文件路径，压缩包


# 解压文件
def unzip_file(zipfile_path):
    if not isfile_exist(zipfile_path):
        return False

    if os.path.splitext(zipfile_path)[1] != '.zip':
        print("It's not a zip file! %s" % zipfile_path)
        return False

    file_zip = zipfile.ZipFile(zipfile_path, 'r')
    file_name = os.path.basename(zipfile_path)  # 获取文件名
    zipdir = os.path.join(os.path.dirname(zipfile_path), str(file_name.split('.')[0]))  # 获取文件所在目录
    for files in file_zip.namelist():
        file_zip.extract(files, os.path.join(zipfile_path, zipdir))  # 解压到指定文件目录

    file_zip.close()
    return True


# 读取解压后的文件夹，打印图片路径
def read_img(zipfile_path,img_path):
    if not isfile_exist(zipfile_path):
        return False

    dir_path = os.path.dirname(zipfile_path)  # 获取文件所在目录
    file_name = os.path.basename(zipfile_path)  # 获取文件名
    unzip_dir = os.path.join(dir_path, str(file_name.split('.')[0]))
    pic_dir = 'xl' + os.sep + 'media'  # excel变成压缩包后，再解压，图片在media目录
    pic_path = os.path.join(dir_path, str(file_name.split('.')[0]), pic_dir)

    file_list = os.listdir(pic_path)
    for file in file_list:
        filepath = os.path.join(pic_path, file)
        print(filepath,img_path)
        shutil.move(filepath,img_path)
    os.unlink(zipfile_path)
    shutil.rmtree(unzip_dir)


# 组合各个函数
def compenent(excel_file_path,img_path):
    zip_file_path = change_file_name(excel_file_path)
    if not os.path.exists(img_path):
        os.mkdir(img_path)
    if zip_file_path != '':
        unzip_msg = unzip_file(zip_file_path)
        if unzip_msg:
            read_img(zip_file_path,img_path)

以上是各个模块的自定义函数，用于实现相应的功能，下面才是主体的程序（将各个模块按照一定的逻辑贯穿起来，以实现最终的效果）.
首先是单个文件中的图片提取:

# main

if __name__ == '__main__':
    #excel地址
    excel_path='C:\\Users\leezhengqi2020\\Desktop\\XXXX.xlsx'

    #图片目录
    img_dir = 'D:\\lee'
    compenent(excel_path,img_dir)

但是上述代码提取出来的图片名字是image1，image2…的形式，不方便识别是哪个文件中的图片，于是
接下来想要实现的是，将提取出来的图片重命名为文件名+图片名，以下代码就是实现这样的功能：

# main
if __name__ == '__main__':
    excel_path='C:\\Users\leezhengqi2020\\Desktop\\xxxx.xlsx'

    #图片目录
    img_dir = 'D:\\lee'
    file_name1 = os.path.basename(excel_path)
    compenent(excel_path,img_dir)

    img_list=os.listdir(img_dir)
    
    file_name2=file_name1.split('.')[0]
    file_name3=file_name2.split('-')[0]
    print(file_name3)
    for img in img_list:
        os.rename('D:\\lee\\'+img,'D:\\output\\'+file_name3+'-'+img)

既然完成了单个EXCEL文件的图片提取，那么多个文件呢，于是就有了以下的代码：

# main
if __name__ == '__main__':
    #excel地址
    excel_path='C:\\Users\leezhengqi2020\\Desktop\\baogao'
    file_name1_list=os.listdir(excel_path)

    #图片目录
    img_dir = 'D:\\lee'
    for file_name1 in file_name1_list:
        file_path=excel_path+'\\'+file_name1
        print(file_path)
        compenent(file_path,img_dir)

        img_list=os.listdir(img_dir)
    
        file_name2=file_name1.split('.')[0]
        file_name3=file_name2.split('-')[0]
        print(file_name3)
        for img in img_list:
            os.rename('D:\\lee\\'+img,'D:\\output\\'+file_name3+'-'+img)

既然完成多个EXCEL文件的图片提取，那word文件呢？试一下！
上述代码需要稍稍修改一下，只有一处需要改动，相信你已经找到了。为什么要这样改？
这个嘛…我先不说
你手动将一个word文件的后缀改为.zip，然后解压，然后就知道为什么了。

# 读取解压后的文件夹
def read_img(zipfile_path,img_path):
    if not isfile_exist(zipfile_path):
        return False

    dir_path = os.path.dirname(zipfile_path)  # 获取文件所在目录
    file_name = os.path.basename(zipfile_path)  # 获取文件名
    unzip_dir = os.path.join(dir_path, str(file_name.split('.')[0]))
    pic_dir = 'word' + os.sep + 'media'  # excel变成压缩包后，再解压，图片在media目录
    pic_path = os.path.join(dir_path, str(file_name.split('.')[0]), pic_dir)

    file_list = os.listdir(pic_path)
    for file in file_list:
        filepath = os.path.join(pic_path, file)
        print(filepath,img_path)
        shutil.move(filepath,img_path)
    os.unlink(zipfile_path)
    shutil.rmtree(unzip_dir)

通过上面写代码的过程，我切实体会到了什么是需求驱动，也更好地理解了什么是举一反三。很多事情其实一开始想的都比较简单，只是后面需求多了，慢慢的用来实现需求的方法也开始多了。
所以不要惊讶于有的程序长出了天际，其实它也是慢慢长大的，不是一开始就如此模样。
万丈高楼平地起，没有大厦是一下盖起来的。
说到这里，突然明白了为什么程序员的别称是“码农”了，可不嘛，写代码的过程就像盖房子砌墙，再漂亮的房子，也是一点点码出来的。