STM32 LWIP中处理大数据包导致Hardfault的解决之路

STM32 LWIP 接收大数据包导致Hardfault问题解决记录

  • 问题描述
  • 问题排查
  • 解决方案
  • 问题描述

    一套设备使用了 STM32H743,使用CubeMX IDE 配置以太网,加上了Freertos和LWIP,主要业务是收发UDP数据,现场一直工作良好。部署后现场反馈说开机几分钟后LED不闪烁,经我调试发现是进入了Hardfault。 抓包发现现场内网存在广播设备,全网段10hz以上广播3000到4000字节的UDP数据包。

    还原现场,在自己电脑python编程进行UDP广播数据发送,的确出现了每帧数据6K,且数据频率较快时,MCU不一会就出现死机现象。

    问题排查

    1. 最先想到Freertos在任务堆栈不够时,会有一样现象,加大任务堆栈到2K,问题依旧。
    2. 提高Lwip内MEM_SIze,等缓冲区设置,问题依旧。
    3. 修改Lwip内各种内存分配大小相关的值,问题依旧。

    受到以下文章启发:

    工程师笔记 | Lwip中和 IP分包相关的参数


    和我遇到的问题很类似,可能需要改动ETH驱动底层接收数组的大小。

    查看CubeMX生成的RX_buffer代码在哪

    CubeMX IDE 生成的是GCC编译器

    宏定义ETH_TX_DESC_CNT和ETH_RX_DESC_CNT在stm32h7xx_hal_conf.h文件里面

    #define ETH_TX_DESC_CNT         4  /* number of Ethernet Tx DMA descriptors */
    #define ETH_RX_DESC_CNT         4  /* number of Ethernet Rx DMA descriptors */
    

    可以看到以太网底层DMA数组大小是4个,每个 ETH_RX_BUFFER_SIZE 是 1524,为啥是1524是因为以太网TCP或者UDP最大分包就是这么大,再大也会被分片后发出。

    到这里问题的原貌是:

    当广播的用户发送一个6K左右的大数据包时,分包后相当于发出了4个连续的 1500字节以上的数据包,这样会导致单片机的DMA无法处理,出现内存异常。

    这样解决方案就简单了,一是关闭广播,让他分为更小的包发送。另外一个是加大我们一次处理1500个字节数据包的能力。也就是改大 ETH_TX_DESC_CNT.

    解决方案

    直接改动 ETH_TX_DESC_CNT 宏定义为8,编译错误。错误出现在链接阶段。

    STM32H743ZITX_FLASH.ld:148 cannot move location counter backwards (from 00000000300400c0 to 0000000030040060)
    

    报错基本说上是无法把一个东西放入0x30040060,要用到0x300400c0

    H7 由于有I-cache 和MPU,以太网相关的内存定义到特定区段内,这是用 ld 链接脚本实现的:

      .lwip_sec (NOLOAD) : {
        . = ABSOLUTE(0x30040000);
        *(.RxDecripSection) 
        
        . = ABSOLUTE(0x30040060);
        *(.TxDecripSection)
        
        . = ABSOLUTE(0x30040200);
        *(.RxArraySection) 
      } >RAM_D2 AT> FLASH  
    

    在 RAM_D2内分3个标记,RxDecripSection 从 0x30040000开始,TxDecripSection 从 0x30040060 开始,RxArraySection 从 0x30040200 开始。

    分别对应开头提到的3个DMA数组,由于被DMA访问,需要设置位置,进行MPU设置。

    由于我改动了 ETH_TX_DESC_CNT,导致第一个数组变大,所以第二个TxDecripSection已经不能从0x30040060开始。所以第二个起始改为0x300400c0

    改动完毕,发现不能ping通,检查MPU设置,原来以下这段也是根据官方以太网历程添加。

    /* MPU Configuration */
    
    void MPU_Config(void)
    {
      MPU_Region_InitTypeDef MPU_InitStruct = {0};
    
      /* Disables the MPU */
      HAL_MPU_Disable();
      /** Initializes and configures the Region and the memory to be protected
      */
      MPU_InitStruct.Enable = MPU_REGION_ENABLE;
      MPU_InitStruct.Number = MPU_REGION_NUMBER0;
      MPU_InitStruct.BaseAddress = 0x30040000;
      MPU_InitStruct.Size = MPU_REGION_SIZE_256B;
      MPU_InitStruct.SubRegionDisable = 0x0;
      MPU_InitStruct.TypeExtField = MPU_TEX_LEVEL0;
      MPU_InitStruct.AccessPermission = MPU_REGION_FULL_ACCESS;
      MPU_InitStruct.DisableExec = MPU_INSTRUCTION_ACCESS_ENABLE;
      MPU_InitStruct.IsShareable = MPU_ACCESS_NOT_SHAREABLE;
      MPU_InitStruct.IsCacheable = MPU_ACCESS_NOT_CACHEABLE;
      MPU_InitStruct.IsBufferable = MPU_ACCESS_BUFFERABLE;
    
      HAL_MPU_ConfigRegion(&MPU_InitStruct);
    

    0x30040000 开始,
    MPU_REGION_SIZE_256B
    对256Byte大小区域做了不可共享,不可缓存保护.

    /** 
      * @brief  ETH DMA Descriptor structure definition
      */
    typedef struct
    {
      __IO uint32_t DESC0;
      __IO uint32_t DESC1;
      __IO uint32_t DESC2;
      __IO uint32_t DESC3;
      uint32_t BackupAddr0; /* used to store rx buffer 1 address */
      uint32_t BackupAddr1; /* used to store rx buffer 2 address */
    }ETH_DMADescTypeDef;
    

    但是我用8*2个ETH_DMADescTypeDef类型,,一个24字节,那就是已经用了380多字节,原来256B的保护行为要扩充了。

    所以设置MPU要保护更多的内容,Size改为512.

    最后ping通恢复,长时间 每帧 8K 数据冲刷 , 正常通过,结案。

    物联沃分享整理
    物联沃-IOTWORD物联网 » STM32 LWIP中处理大数据包导致Hardfault的解决之路

    发表评论