Python实战:使用Python采集情感音频数据

成年人的世界真不容易啊
总是悲伤大于欢喜
爱情因为懵懂而快乐
却走进了复杂和困惑的婚姻

前言

我最近喜欢去听情感类的节目,比如说,婚姻类,我可能老了吧。我就想着怎么把音乐下载下来了,保存到手机上,方便我们业余时间去听。

环境使用

  • python 3.9
  • pycharm
  • 模块使用

  • requests
  • 模块介绍

  • requests
  •         requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

  • parsel
  •         parsel是一个python的第三方库,相当于css选择器+xpath+re。

    parsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xml内容,获取需要的数据。

    相比于BeautifulSoup,xpath,parsel效率更高,使用更简单。

  • re
  •         re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。

  • os
  •         os 就是 “operating system” 的缩写,顾名思义,os模块提供的就是各种 Python 程序与操作系统进行交互的接口。通过使用 os 模块,一方面可以方便地与操作系统进行交互,另一方面也可以极大增强代码的可移植性。

  • csv
  •         它是一种文件格式,一般也被叫做逗号分隔值文件,可以使用 Excel 软件或者文本文档打开 。其中数据字段用半角逗号间隔(也可以使用其它字符),使用 Excel 打开时,逗号会被转换为分隔符。csv 文件是以纯文本形式存储了表格数据,并且在兼容各个操作系统。

    模块安装问题:

  • 如果安装python第三方模块:
  • win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

    在pycharm中点击Terminal(终端) 输入安装命令

  • 安装失败原因:
  • 失败一: pip 不是内部命令
  •                 解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out)
  •                 解决方法: 因为是网络链接超时, 需要切换镜像源

       

        清华:https://pypi.tuna.tsinghua.edu.cn/simple
        阿里云:https://mirrors.aliyun.com/pypi/simple/
        中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
        华中理工大学:https://pypi.hustunique.com/
        山东理工大学:https://pypi.sdutlinux.org/
        豆瓣:https://pypi.douban.com/simple/
        例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
    
  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入
  •                 解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好,或者你pycharm里面python解释器没有设置好。

    代码实现

    发送请求

    首先,我们要确定我们的目标网址,我们想要获取到每一个音频的地址。

    我们发送请求,获取网页源代码。我们相信大家这里的代码都会写了。

    url = 'https://www.ximalaya.com/album/37453303'
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
    }
    
    res = requests.get(url,headers=headers)
    

    requests 是 Python 的一个内置模块,用于发送 HTTP 请求。在这个例子中,我们使用 requests.get() 函数向 https://www.ximalaya.com/album/37453303 发送一个 GET 请求,并将请求头和响应体作为参数传递给函数。

    获取数据

    info_list = re.findall('"tracks":[(.*?)]', res.text)[1]
    print(info_list)
    

    re.findall() 函数用于在字符串中查找所有匹配的子字符串。在这个例子中,我们使用 re.findall() 函数查找了响应体中的 tracks 字符串,并使用切片 [1] 取出了子字符串列表。

    子字符串列表中的第一个元素就是我们要找的 tracks 字符串。我们将其存储在 info_list 变量中,并使用 print() 函数输出。

    我们发现,我们想要的数据,就在我们匹配的内容中。里面包含了每一个音乐的标题和其id,我们接下来把这个获取下来。

    注意,这里,不是json数据,所以,我们只能正则去匹配。

    trackIds = re.findall('"trackId":(\d+)', info_list)
    # print(trackIds)
    titles = re.findall('"title":"(.*?)"', info_list)
    # print(titles)

    解析数据

    我们通过对比url发现,我们只需要拿到uid,就可以直接访问到音频。这里就不多解释。

    audio = f'https://www.ximalaya.com/revision/play/v1/audio?id={trackId}&ptype=1'
    

    我们只需要把trackID换掉,就可以了。请求上面的url,就可以拿到音频的地址。接下来,我们写代码。

    for trackId, title in zip(trackIds, titles):
        audio = f'https://www.ximalaya.com/revision/play/v1/audio?id={trackId}&ptype=1'
        print(audio)
        audio_res = requests.get(audio, headers=headers)
        audio_url = audio_res.json()['data']['src']
        print(audio_url)
    

    zip() 函数用于将两个列表合并成一个列表。在这个例子中,我们使用 zip() 函数将 trackIds 和 titles 两个列表合并成一个列表,并将其存储在 trackIds 变量中。

    然后,我们将 trackId 和 title 转换为字符串格式,并将其存储在 audio 变量中。

    接下来,我们使用 requests.get() 函数向 audio 发送一个 GET 请求,并将请求头和响应体作为参数传递给函数。 最后,我们使用 json() 方法将响应体中的 data 字段转换为 JSON 格式,并使用 ['data']['src'] 取出了 src 属性,即 audio_url 的值,并将其存储在 audio_url 变量中。

     保存数据

    music_content = requests.get(audio_url, headers=headers).content
    
    with open('music//' + f'{title}' + '.mp3', mode='wb') as filename:
        filename.write(music_content)
        print(title, '保存成功')
    

    接下来,我们请求这个网页,保存二进制到本地。with open() 语句用于自动关闭文件,确保文件在使用完毕后被正确关闭。在这个例子中,我们使用 with open() 语句打开一个名为 music// + title + .mp3的文件,并将其保存到变量filename 中。

    然后,我们使用 write() 方法将音频内容写入文件中。

    全部代码

    import os
    import re
    import requests
    
    filename = 'music//'
    if not os.path.exists(filename):
        os.mkdir(filename)
    
    url = 'https://www.ximalaya.com/album/37453303'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
    }
    res = requests.get(url,headers=headers)
    seoTrackList = re.findall('"seoTrackList":\[(.*?)\]', res.text)[0]
    # print(seoTrackList)
    trackIds = re.findall('"trackId":(\d+)',seoTrackList)
    # print(trackIds)
    titles = re.findall('"trackName":"(.*?)"',seoTrackList)
    # print(titles)
    for trackId,title in zip(trackIds,titles):
        # audio = 'https://www.ximalaya.com/revision/play/v1/audio?id=621413024&ptype=1'
        audio = f'https://www.ximalaya.com/revision/play/v1/audio?id={trackId}&ptype=1'
        print(audio)
        audio_res = requests.get(audio,headers=headers)
        # print(audio_res)
        audio_url = audio_res.json()['data']['src']
        print(audio_url)
    
        music_content = requests.get(audio_url,headers=headers).content
        with open('music//' + f'{title}' + '.mp3', mode='wb') as filename:
            filename.write(music_content)
            print(title, '保存成功')

    总结

    这是一个关于如何下载音乐并保存到手机的Python代码实战。我们首先确定我们的目标网址,然后使用requests.get()函数向该网址发送一个 GET 请求,并将请求头和响应体作为参数传递给函数。

    在请求成功后,我们使用json()方法将响应体中的 data 字段转换为 JSON 格式,并使用['data']['src']取出了 src 属性,即 audio_url 的值,并将其存储在 audio_url 变量中。

    我们请求网页,保存二进制,就可以保存了。

    6adf31c8c5dd4e6a83314f4805b30bc1.jpg

    物联沃分享整理
    物联沃-IOTWORD物联网 » Python实战:使用Python采集情感音频数据

    发表评论