在线阅读文档解密

前言

承接上篇在线阅读epub解密，这次讲讲一些常见在线阅读文档解密。

正文

pdf文件头

%PDF-1.base64:JVBERi0xhex:25 50 44 46 2D 31  bytes:{37,80,68,70,45,49}这个很重要，至少要记住前两行，方便快速识别文件

一、pdf格式

第一种，Range

请求头中有个明显的参数Range: bytes=0-0，看网页中不断请求同一个地址

每次请求的Range:范围都不一样，说明就是分段请求的，通常只需要把请求头中bytes=0-？，改成bytes=0-，就可以得到整个pdf，最简单的办法就是用fiddler抓包，重发

这种应该是最简单的了，但可能会有坑，我碰到过一个，如果直接按bytes=0-，会保错，后来发现，直接翻到最后一页，请求头中的范围，比响应头返回的要小十个字节左右，所以还是要根据实际情况仔细甄别。

第二种，base64

很明显就是base64编码了，网页解码后很多时候再生成一个blob，pdf。

这个只需要解下码在写入文件就行，或者有blob直接下载就行。

这种也有坑的，有可能pdf会有密码，也有可能在生成blob时加上了密码。

第三种，AES或其他

aHR0cDovL3d3dy5qdHlzYnouY246ODAwOS9wZGYvdmlld2VyLzA5NDY0MjcyNWJmOWE=

最大特征就是啥也看不懂，只有分析js。

以这个网站为例简单分析一下，先下一个XHR断点（也可以根据堆栈分析），

F5刷新，看堆栈，看看附近的代码

发现一个可疑的的地方，查看函数调用，直接搜索，或者下断点刷新，再看堆栈

没什么好说的了，人家注释都标上了，就是一个AES

第四种，请求头加密

浏览器返回的数据，并没有加密，但无论是直接打开还是用curl-py,都不行，说明请求地址很可能是一次性的

先验证下，右键阻止请求域，翻一页。链接生成了，并没有发送出去，用py跑两次。

可以看到第一次请求成功，第二次失败了，说明就是一次性的

而且这个pdf是分页的，不可能手动下载，看下参数，同一本书，四个不一样，页数，时间戳，签名，还有个应该是随机生成的，直接用uuid.uuid4()就行了，

直接搜索关键词nonce，下个断点刷新，看堆栈，找到加密的位置。

可以看到这个UUID，就是uuid4,py里面直接

import uuiduuid=uuid.uuid4()

发现每次，签名结果都一样，而且都是32位，很大可能就是MD5，随便找个网站验证下，

在线阅读文档解密

在线阅读文档解密

前言

正文

pdf文件头

一、pdf格式

第一种，Range

第二种，base64

第三种，AES或其他

第五种，啥也看不懂

其他

随心所欲验证码型

字体加密型

他来他也不行

二、png格式

第一种，idm批量下载

第二种，综合类

其他

不知道取啥名

分块

三、epub格式

第一种，混淆+AES

第二种，RSA,DES,AES

to be continued