关于blob加密视频的基于m3u8和ts文件下载转MP4视频的python爬虫实现_基于blob的视频加密 切片-程序员宅基地

技术标签: 爬虫  python  websocket  http  

关于blob加密视频的基于m3u8和ts文件下载转MP4视频的python爬虫实现

首先谈一下这篇文章主要的爬虫对象,基本上都是一些视频网站(一些大厂会有自己独特的编码风格需要自行破解加密格式,所以很难实现,所以这篇文章主要针对于一些小网站)。

下面先说一下blob加密的实现,可以参考这篇博客(https://blog.csdn.net/xingyun89114/article/details/80699527)

总结来说呢,其实就是HTTP请求后的数据做blob加密,上篇博客我们也可以在开发者模式中的network部分找到相关m3u8文件以及ts文件,在这里先提一句,那就是有一些网站呢,你已经开始播放后,再打开开发者模式去找这些文件的时候,可能你只能找到ts文件,你需要刷新网页先开开发者模式,再进行后续操作。

下面开始简述基本流程

首先你需要找到m3u8文件,其次你需要解析出所有的ts文件的路径,这个解析的过程是因为大部分m3u8文件的里面给出的ts文件是相对路径,最后通过命令行将所有ts文件拼接成MP4文件。

理论成立,实践开始!

首先呢,我们做的工作是半自动化,手动下载你所需要的m3u8文件,就是在开发者模式中找到该文件,通过其url进行下载,下面给出一段关于解析m3u8文件到ts文件的代码片段。

def get_ts_urls(path_m3u8, filename, base_url):
    # 将index.m3u8文件解读为数组
	print('-' * 70)
    print('Analysising M3U8 File...')
    urls = []
    with open(path_m3u8 + filename,"r") as file:
        lines = file.readlines()
        for line in lines:
            if line.endswith(".ts\n"):
                urls.append(base_url+ line.strip("\n"))
    if(len(urls) > 0):
        print('-' * 70)
        return urls

这样我们便得到了一个关于所有ts文件的url的list。

其次的工作呢,是将这些url中的ts文件下载到本地
我利用的是urllib,给出相关代码如下:
(后续会对其进行加工)

	urlretrieve(url, filename)

之后是通过命令行来将所有的ts文件转为一个MP4文件

copy /b *.ts video.mp4

这样一个最low最low的版本就实现了,下面我们根据上述方法存在的问题进行改良。

首先是关于urlretrieve方面,很多情况下,我们会发现由于网络原因等,一个ts文件的下载会很慢甚至会失败,经常会抛出这样的异常(urllib.error.URLError: urlopen error _ssl.c:1039: The handshake operation timed out)针对于这种情况,我们改良这个方法,可以进行多次尝试,而且为每次尝试设置timeout。(这个是在某篇博客看到的,但是当时没保存url,现在找不到该博客,不是有意抄袭

def OwnUrlRetrieve(url, filename, timeout):
    # 改良的urlretrieve方法,主要是因为有的网站会超时,如果说ts下载速度特别慢而且经常超时可以先修改时间限制,不行就放弃吧(估计有IP的防爬)
    socket.setdefaulttimeout(timeout)
    try:
        urlretrieve(url, filename)
    except socket.timeout:
        count = 1
        while count <= 5:
            try:
                urlretrieve(url, filename)
                break
            except socket.timeout:
                err_info = 'Reloading for %d time' % count if count == 1 else 'Reloading for %d times' % count
                print(err_info)
                count += 1
        if count > 5:
            print("download job failed!")

这样基本上会保证不会因为网络原因而中断下载任务。

其次我们将命令行部分封装到代码里,在此提示,之前的下载以及命令行等请自己注意好文件路径。

def ts2mp4(path):
    #cmd命令行,如果这个方法出错了,八成是管理员权限没有赋给这个文件夹,还有就是你也可以自己用命令行执行,只是为了全自动化
    cmd = 'copy /b *.ts video.mp4'
    os.chdir(path)
    os.system(cmd)

下面我们可能还是感觉这不是很智能,而且没有应用于爬虫。

我们的目标:给出一个url就可以获取该页视频,这才是棒棒的程序(全自动化)。

摆在我们面前的第一个问题是,给出一个url我就能找到正确的index.m3u8文件,请注意是正确的

在给出一段url之后,我们利用webdriver可以找到该网页中的视频url数据,我比较常用的可能有两个方面,第一个是通过标签检索,这个需要有一些网页开发的经验,比如说js里的document.getElementById()等等的,在我们的爬虫中是这个(driver.find_element_by_id),下面给出一篇博客,有好多这种方法(https://www.cnblogs.com/youngleesin/p/10447907.html),第二个是根据responsetext自己去找相关url,这个因为没法普遍应用于所有网页,所以就不推广了。

在进行这部分前你需要先下载好chorme驱动等相关配置,下面代码中的两个本地地址,D盘的是我浏览的exe执行文件地址,E盘的是python环境中的驱动包地址,关于这个包下载的给出一篇博客(https://blog.csdn.net/muriyue6/article/details/101440353

下面给出相关代码

def download_m3u8(page_url, path_m3u8):
    print('-' * 70)
    print('Downloading M3U8 File...')
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.binary_location = r"D:\Google\Chrome\Application\chrome.exe"
    driver = webdriver.Chrome(
        executable_path=r'E:\Anaconda3\Lib\site-packages\selenium\webdriver\chrome\chromedriver.exe',
        options=chrome_options)
    driver.get(page_url)
    frame = driver.find_element_by_id("")#这没写是为了不侵权,狗头保命
    #这句就是精髓,找到对应的iframe从而找到index.m3u8的地址,这个需要根据网页来定,方法不一定根据id,你有网页开发经验的话就很好理解
    m3u8_url = frame.get_attribute('src').split('?')[1].split('&')[0].split('=')[1]
    #这句话也是你要拆好这个参数
    OwnUrlRetrieve(m3u8_url, path_m3u8, 20)
    driver.quit()
    time.sleep(1)#防止本机卡的一些故障
    print('-' * 70)
    return 'https://' + m3u8_url.split('/')[2]

好了,到这里我们的主要功能都说完了,下面有几个小tips要提出

第一个坑,我在刚才说的时候提到的正确的m3u8文件,有很多网站呢,他很坏,有不止一个m3u8文件,可能是两个,而第一个文件经常会被我们所找到,但是这个文件不包含ts文件信息,而是第二个文件的相对路径,所以我们找到第一个文件之后,不需要再去遍历整个网页去找第二个文件,而是改写我们之前的方法,有一些聪明的小伙伴可能发现我上面的一段代码只写了if,下面给出全代码。

def get_ts_urls(path_m3u8, filename, base_url):
    # 将index.m3u8文件解读为数组
    print('-' * 70)
    print('Analysising M3U8 File...')
    urls = []
    with open(path_m3u8 + filename,"r") as file:
        lines = file.readlines()
        for line in lines:
            if line.endswith(".ts\n"):
                urls.append(base_url+ line.strip("\n"))
    if(len(urls) > 0):
        print('-' * 70)
        return urls
    else:
        with open(path_m3u8 + filename, "r") as file:
            lines = file.readlines()
            for line in lines:
                if line.endswith(".m3u8"):
                    urls.append(relative_path(base_url) + line)
        if(len(urls) == 1):
            OwnUrlRetrieve(urls[0], path_m3u8 + filename,20)
            base_url = urls[0]
            results = get_ts_urls(path_m3u8,base_url)
            return results
        else:
            urls[0] = 'error'
            return urls

第二个算是一个小建议,当我们需要下载多集资源的时候,我们可以通过更改url的方式来使得程序更智能化。

第三个呢,就是有一个可以改进的地方,那就是可不可以用多线程来实现ts文件的下载,这样可以加速我们的ts文件下载。之前的urls的list其实就是任务池,如果有大佬写出了这样的代码,欢迎大佬联系我([email protected])。

最后的最后,我全部的代码做了整合之后(还有一些进度条功能)放在CSDN资源里面,希望支持,(苦逼的孩子有时候需要下训练集需要积分)
资源链接:(https://download.csdn.net/download/weixin_41084548/12209564

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_41084548/article/details/106038704

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签