代码收藏家技术教程 2025-06-21

Python调用讯飞API实现离线麦克风说话机器人唤醒功能详解

引言

语音唤醒技术是现代智能语音交互系统中的重要组成部分，它允许设备在待机状态下通过特定的唤醒词进入交互状态。本文将介绍如何使用Python结合讯飞语音SDK实现一个简单的语音唤醒系统。

技术背景

语音唤醒技术主要依赖于以下几个关键技术点：

声学模型：用于识别特定唤醒词的声学特征
唤醒词检测：实时监测音频流中是否包含预设的唤醒词
低功耗设计：确保在待机状态下也能持续监听

讯飞开放平台提供了成熟的语音唤醒解决方案，我们可以通过其提供的DLL接口进行集成开发。

环境准备

硬件要求

麦克风设备

Windows系统（x64架构）

软件依赖

Python 3.x

PyAudio库（用于音频采集）

讯飞语音SDK（ivw_msc_x64.dll）

代码实现解析

1. 常量配置

我们首先创建一个Constants类来集中管理所有配置参数：

python

复制

下载

class Constants:
    APPID = ""  # 讯飞开放平台申请的APPID
    WORK_DIR = os.path.join(os.path.dirname(__file__), "resources")
    
    # 唤醒相关配置
    IVW_DLL_PATH = os.path.join(os.path.dirname(__file__), "resources", "ivw_msc_x64.dll")
    IVW_LOGIN_PARAMS = f"appid = {APPID}, work_dir = {WORK_DIR}"
    IVW_SSB_PARAMS = "ivw_threshold=0:1450,sst=wakeup,ivw_shot_word=1,ivw_res_path =fo|res/ivw/wakeupresource.jet"
    IVW_FRAME_SIZE = 6400
    IVW_AUDIO_STATUS = 1
    
    # 音频格式配置
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 16000
    CHUNK = 1024

2. 回调函数定义

唤醒结果的回调函数是核心部分，当系统检测到唤醒词时会调用此函数：

python

复制

下载

def ivw_callback(sessionID, msg, param1, param2, info, userData):
    print(f"回调函数返回的唤醒结果...：{info.decode('utf-8')}")
    return 0

3. DLL加载与函数原型定义

我们需要使用ctypes库加载讯飞的DLL并定义函数原型：

python

复制

下载

ivw_dll = ctypes.WinDLL(Constants.IVW_DLL_PATH)

# 定义各个函数的参数和返回值类型
ivw_dll.MSPLogin.argtypes = [ctypes.c_char_p, ctypes.c_char_p, ctypes.c_char_p]
ivw_dll.MSPLogin.restype = ctypes.c_int

# 其他函数定义...

4. 主流程实现

主流程分为以下几个步骤：

登录认证：使用APPID登录讯飞服务
开启会话：初始化唤醒会话
注册回调：设置唤醒结果回调函数
音频采集：通过麦克风实时采集音频
音频写入：将采集的音频数据发送给唤醒引擎
资源释放：完成后释放资源

python

复制

下载

def start_ivw():
    # 登录
    ret = ivw_dll.MSPLogin(None, None, Constants.IVW_LOGIN_PARAMS.encode('utf-8'))
    
    # 开启会话
    error_code = ctypes.c_int(-100)
    session_id = ivw_dll.QIVWSessionBegin(None, Constants.IVW_SSB_PARAMS.encode('utf-8'), ctypes.byref(error_code))
    
    # 注册回调函数
    callback_type = ctypes.CFUNCTYPE(ctypes.c_int, ctypes.c_char_p, ctypes.c_int, ctypes.c_int, ctypes.c_int, ctypes.c_char_p, ctypes.c_void_p)
    callback = callback_type(ivw_callback)
    
    # 初始化音频采集
    p = pyaudio.PyAudio()
    stream = p.open(format=Constants.FORMAT,
                    channels=Constants.CHANNELS,
                    rate=Constants.RATE,
                    input=True,
                    frames_per_buffer=Constants.CHUNK)
    
    try:
        while True:
            audio_data = stream.read(Constants.IVW_FRAME_SIZE // 2, exception_on_overflow=False)
            # 音频写入和状态处理...
    finally:
        # 资源释放...