返回列表发帖

2652boy

列兵

Rank: 1

帖子: 16
积分: 31
技术: 0
捐助: 0
注册时间: 2021-11-18

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2023-5-16 11:52 | 只看该作者

[文件操作] 求助能够统计pdf页数的bat脚本

因为之前做的很多东西都没统计过页数，现在审计查要具体数据，有大神能帮忙写一个吗？

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 575
积分: 1072
技术: 156
捐助: 0
注册时间: 2022-6-20

2楼

发表于 2023-5-16 13:30 | 只看该作者

回复 1# 2652boy

import argparse
from glob import glob
from os.path import exists, join
from PyPDF2 import PdfFileReader

def get_total_pages(folder, recursive=False):
    if not exists(folder):
        return "Error: No such file or directory: {}".format(folder)
    if recursive:
        pdf_list = glob(join(folder, "**/*.pdf"), recursive=True)
    else:
        pdf_list = glob(join(folder, "*.pdf"), recursive=False)

    pages = []
    for pdf in pdf_list:
        reader = PdfFileReader(pdf)
        num_page = reader.getNumPages()
        # print("%d pages <-- '%s'" % (num_page, pdf))
        pages.append(num_page)
    return sum(pages)

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('folder', type=str, help='path to the folder where PDF files are stored.')
    parser.add_argument('--recursive', '-r', action='store_true', help='search PDF files in the <folder> recursively.')
    args = parser.parse_args()
    total_pages = get_total_pages(args.folder, recursive=args.recursive)
    print("===============================\nTotal pages in '%s': %d" % (args.folder, total_pages))
复制代码

将以上文本以UTF-8编码保存为count_pdf_pages.py，假设要统计"D:\tmp\pdf"文件夹（含子文件夹）下所有pdf文档的页数总数，可执行以下指令获得：
python count_pdf_pages.py "D:\tmp\pdf" -r

TOP

2652boy

列兵

Rank: 1

帖子: 16
积分: 31
技术: 0
捐助: 0
注册时间: 2021-11-18

3楼

发表于 2023-5-16 15:37 | 只看该作者

回复 2# hfxiang

感谢大佬

TOP

buyiyang

少尉

Rank: 5 Rank: 5

帖子: 343
积分: 654
技术: 97
捐助: 0
注册时间: 2022-3-26

4楼

发表于 2023-5-16 16:18 | 只看该作者

本帖最后由 buyiyang 于 2023-5-16 16:47 编辑

现在的exiftool功能比较强大

set "sd=C:\1\2"
cd "%sd%"
"%~dp0exiftool(-k).exe" -s -csv -PageCount *.pdf>%~dp0pdfpages.txt
复制代码

补充一个下载链接https://exiftool.org/exiftool-12.62.zip，脚本和exiftool放同一个目录，然后在脚本中设置好pdf目录

TOP

jyswjjgdwtdtj

少尉

Rank: 5 Rank: 5

帖子: 604
积分: 703
技术: 30
捐助: 0
注册时间: 2023-2-9

5楼

发表于 2023-5-16 18:55 | 只看该作者

试试用word.application(office)/kwps.application(wps)
自带的总归比第三方好（谁电脑上每个文档编辑器？）

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

6楼

发表于 2023-5-16 19:46 | 只看该作者

@echo off & setlocal enabledelayedexpansion
set file=a.pdf
for /f %%i in ('findstr /irc:"/Type[	 ]*/Page" "!file!" 2^>nul ^|find /v "/Pages" ^|find /c "/Page"') do set "n=%%i"
echo !file!  !n!

pause
复制代码

1 评分人数

buyiyang: 感谢分享技术 + 1

TOP

buyiyang

少尉

Rank: 5 Rank: 5

帖子: 343
积分: 654
技术: 97
捐助: 0
注册时间: 2022-3-26

7楼

发表于 2023-5-16 22:09 | 只看该作者

回复 6# terse

页面对象的数目和pdf的实际页数似乎不完全一致，我看了一下页面树根节点有一个Count属性与实际页数一致。

TOP

Batcher

管理员

Rank: 12

帖子: 14811
积分: 45989
技术: 848
捐助: 745
注册时间: 2008-6-9

8楼

发表于 2023-5-16 22:48 | 只看该作者

回复 1# 2652boy

批处理调用PDFtk获取PDF文件页数
http://bbs.bathome.net/thread-65227-1-1.html#pid264896

我帮忙写的代码不需要付钱。如果一定要给，请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家，加入VIP会员！】http://bbs.bathome.net/thread-67716-1-1.html

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

9楼

发表于 2023-5-17 00:08 | 只看该作者

本帖最后由 terse 于 2023-5-17 13:42 编辑

回复 7# buyiyang
是的但也可能会包含多个count属性准确性也会受到影响还是专业工具处理好

添加个提取count属性的
删了准确性不高
另外这样可以一次findstr哦

findstr /irc:"/Type[	 ]*/Page\>" "!file!" 2^>nul ^|find /c "/Page"
复制代码

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文件操作] 求助能够统计pdf页数的bat脚本

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]