基于speex的音频处理系列之一-speex在pc上的移植与回声消除测试

原创 嵌入式Lee 2025-01-12 08:30

.前言


注:完整代码见后面总结部分git地址

最近在做音频相关的内容,接触到音频对讲中的一个需求:回声消除。所谓的回声消除即对应以下模型, 在对讲过程中远端的讲话通过一定方式传输到近端,在近端通过喇叭播放,

这个喇叭播放的声音以及其环境的各种反射,加上近端的语音(包括噪声等)被近端的麦克风采集传送到远端,这样远端就会听到对方的讲话声叠加了自己的讲话声。远端听到自己的讲话声反射回来了,需要消除这部分。这个工作是在近端完成的,近端已知的是A处即远端传过来的语音,以及B处麦克风采集的叠加数据,实际上简单的来说就是要从B中减去A的数据。但是这个减是没办法直接减的,A处的原始数据播放到B处采集,实际上有一个映射关系,我们一般要求其是线性的,这个减法需要一定的算法模型去实现,这就是回声消除算法。

由于A处的原始数据和B处的麦克风采集可能软件上没法比较好的同步,并且A处原始数据经过PA到喇叭播出来之后的效果存在一定映射关系,这个对应线性度不好的话影响也较大,所以有时候硬件上可以在PA之后做一路回声采集(理想是应该要能采集喇叭播放之后的效果但是做不到,只能采集PA之后的),这个采集和B处的麦克风采集使用同一个声卡采集这样可以保持同步,同时也可以减少PA过程的影响。

在找回声消除算法方案时,正好就找到了一个开源的实现speex,见其官网https://www.speex.org/。可以浏览下其官网了解一些背景知识,尤其是其文档可以下载下来先好好看看。

我们这一篇就来分享下speexpc上的移植,实现一个回声消除测试的pc端的小程序,一方面先体验一下speex,一方面也可以作为后面调试验证的工具,可以dump数据先在pc端进行仿真测试验证,再移植到具体的平台上去。

二. PC环境移植speex

我这里使用WSL+Ubuntu

2.1下载源码

git clone https://gitlab.xiph.org/xiph/speexdsp.git

cd speexdsp

./autogen.sh 生成各种工程,config.h.in等。

2.2添加文件

添加以下文件

speexdsp\include\speex下所有h文件

speexdsp_config_types.h.in改为

speexdsp_config_types.h

speexdsp\libspeexdsp下所有hc文件

test开头的不需要添加,可以单独放一个文件夹,在写自己的应用时参考。

config.h.in改为config.h

最终文件如下

lhj@lhj:~/speex/speexdsptree ..|-- config.h|-- include|   `-- speex|       |-- speex_buffer.h|       |-- speex_echo.h|       |-- speex_jitter.h|       |-- speex_preprocess.h|       |-- speex_resampler.h|       |-- speexdsp_config_types.h|       `-- speexdsp_types.h|-- libspeexdsp|   |-- _kiss_fft_guts.h|   |-- arch.h|   |-- bfin.h|   |-- buffer.c|   |-- fftwrap.c|   |-- fftwrap.h|   |-- filterbank.c|   |-- filterbank.h|   |-- fixed_arm4.h|   |-- fixed_arm5e.h|   |-- fixed_bfin.h|   |-- fixed_debug.h|   |-- fixed_generic.h|   |-- jitter.c|   |-- kiss_fft.c|   |-- kiss_fft.h|   |-- kiss_fftr.c|   |-- kiss_fftr.h|   |-- math_approx.h|   |-- mdf.c|   |-- misc_bfin.h|   |-- os_support.h|   |-- preprocess.c|   |-- pseudofloat.h|   |-- resample.c|   |-- resample_neon.h|   |-- resample_sse.h|   |-- scal.c|   |-- smallft.c|   |-- smallft.h|   `-- vorbis_psy.h`-- test    |-- testdenoise.c    |-- testecho.c    |-- testjitter.c    |-- testresample.c    `-- testresample2.c 4 directories, 44 files

对应的还要配置或者指定相应的头文件包含路径。

2.3配置speexdsp_config_types.h

该文件定义一些基本的数据类型

编译器支持则直接包含

定义对应类型

否则按照具体平台定义

#ifndef __SPEEX_TYPES_H__#define __SPEEX_TYPES_H__ #include  typedef int16_t spx_int16_t;typedef uint16_t spx_uint16_t;typedef int32_t spx_int32_t;typedef uint32_t spx_uint32_t; #endif

2.4 配置config.h

工程配置宏

HAVE_CONFIG_H

比如gcc中使用-DHAVE_CONFIG_H选项。

定义该宏后,每个c文件都会包含config.h文件,通过config.h进行相应的配置。

2.4.1EXPORT

config.h

#undef EXPORT

改为

#define EXPORT

2.4.2配置使用浮点还是定点

config.h

如果支持浮点则

#undef FLOATING_POINT

改为

#define FLOATING_POINT

如果使用定点则

#undef FIXED_POINT

改为

#define FIXED_POINT

我这里使用浮点

2.4.3指定FFT实现

内部有fft实现

kiss_fft.c

kiss_fftr.c

我们先使用内部实现,硬件支持fft的后面再改为硬件实现。

#undef USE_KISS_FFT

改为

#define USE_KISS_FFT

还可以使用

USE_SMALLFT

以下依赖具体平台

USE_GPL_FFTW3

USE_INTEL_IPP

USE_INTEL_MKL

2.4.4 math依赖

speexdsp/libspeexdsp/math_approx.h中依赖

sqrt

acos

exp

atan

fabs

log

floor

等接口

这里默认直接使用标准库

链接时-lm指定链接数学库即可。

嵌入式平台则根据自己平台实现对应的接口即可。

2.4.5Os依赖

speexdsp/libspeexdsp/os_support.h中相关的动态内存管理接口,内存拷贝等接口,打印等接口。

Pc直接使用标准库即可。嵌入式平台则需要根据自己平台去实现对应接口。

2.5编译

我这里是基于WSLLinux环境。

新建build.sh文件

添加如下内容

#! /bin/sh gcc libspeexdsp/*.c speexecho.c -Iinclude -I. -DHAVE_CONFIG_H -lm -o speexecho

其中speexecho.c是用户自己的应用代码。

chmod +x build.sh 

编译./build.sh

.实现回声消除测试程序

我们基于testecho.c,该demo读原始spk(echo)mic的原始数据流,输出回声消除后的数据。

我们这里在原来的基础上修改下,可以读wav文件并且输出也是wav文件方便后面直接播放。假设我们这里自己的平台也可以dumpmic和当前spkecho数据为wav格式。

我这里有个抓取的mic3.wavspk3.wav的测试数据。

我们这里假设wav文件都是单通道,16位。

实现代码如下

#ifdef HAVE_CONFIG_H#include "config.h"#endif#include "speex/speex_echo.h"#include "speex/speex_preprocess.h"#include <stdio.h>#include <stdlib.h>#include <string.h>/* WAV解析 */#define CHUNK_RIFF "RIFF"#define CHUNK_WAVE "WAVE"#define CHUNK_FMT "fmt "#define CHUNK_DATA "data"typedef struct{    uint32_t off;    uint32_t chunksize;    uint16_t audioformat;    uint16_t numchannels;    uint32_t samplerate;    uint32_t byterate;    uint16_t blockalign;    uint16_t bitspersample;    uint32_t datasize;}wav_t;static int wav_decode_head(uint8_t* buffer, wav_t* wav){    uint8_t* p = buffer;    uint32_t chunksize;    uint32_t subchunksize;    if(0 != memcmp(p,CHUNK_RIFF,4))    {        return -1;    }    p += 4;    chunksize = (uint32_t)p[0| ((uint32_t)p[1]<<8| ((uint32_t)p[2]<<16| ((uint32_t)p[3]<<24);    wav->chunksize = chunksize;    p += 4;    if(0 != memcmp(p,CHUNK_WAVE,4))    {        return -2;    }    p += 4;    do    {        if(0 == memcmp(p,CHUNK_FMT,4))        {            p += 4;            subchunksize = (uint32_t)p[0| ((uint32_t)p[1]<<8| ((uint32_t)p[2]<<16| ((uint32_t)p[3]<<24);            p += 4;            /* 解析参数 */            wav->audioformat = (uint16_t)p[0| ((uint16_t)p[1]<<8);            if((wav->audioformat == 0x0001|| (wav->audioformat == 0xFFFE))            {                p += 2;                wav->numchannels = (uint16_t)p[0| ((uint16_t)p[1]<<8);                p += 2;                wav->samplerate = (uint32_t)p[0| ((uint32_t)p[1]<<8| ((uint32_t)p[2]<<16| ((uint32_t)p[3]<<24);                p += 4;                wav->byterate = (uint32_t)p[0| ((uint32_t)p[1]<<8| ((uint32_t)p[2]<<16| ((uint32_t)p[3]<<24);                p += 4;                wav->blockalign = (uint16_t)p[0| ((uint16_t)p[1]<<8);                p += 2;                wav ->bitspersample = (uint16_t)p[0| ((uint16_t)p[1]<<8);                p += 2;                if(subchunksize >16)                {                    /* 有ext区域 */                    uint16_t cbsize = (uint16_t)p[0| ((uint16_t)p[1]<<8);                    p += 2;                    if(cbsize > 0)                    {                        /* ext数据 2字节有效bits wValidBitsPerSample ,4字节dwChannelMask 16字节SubFormat */                        p += 2;                        p += 4;                        /* 比对subformat */                        p += 16;                           }                }            }            else            {                p += subchunksize;            }        }        else if(0 == memcmp(p,CHUNK_DATA,4))        {            p += 4;            subchunksize = (uint32_t)p[0| ((uint32_t)p[1]<<8| ((uint32_t)p[2]<<16| ((uint32_t)p[3]<<24);            wav->datasize = subchunksize;            p += 4;            wav->off = (uint32_t)(p- buffer);            return 0;        }        else        {            p += 4;            subchunksize = (uint32_t)p[0| ((uint32_t)p[1]<<8| ((uint32_t)p[2]<<16| ((uint32_t)p[3]<<24);            p += 4;            p += subchunksize;        }    }while((uint32_t)(p - buffer) < (chunksize + 8));    return -3;}/* 填充44字节的wav头 */static void wav_fill_head(uint8_t* buffer, int samples, int chnum, int freq){    /*     * 添加wav头信息     */    uint32_t chunksize = 44-8+samples*chnum*16/8;    uint8_t* p = (uint8_t*)buffer;    uint32_t bps = freq*chnum*16/8;    uint32_t datalen = samples*chnum*16/8;    p[0] = 'R';    p[1] = 'I';    p[2] = 'F';    p[3] = 'F';    p[4] = chunksize & 0xFF;    p[5] = (chunksize>>8) & 0xFF;    p[6] = (chunksize>>16) & 0xFF;    p[7] = (chunksize>>24) & 0xFF;    p[8] = 'W';    p[9] = 'A';    p[10] = 'V';    p[11] = 'E';    p[12] = 'f';    p[13] = 'm';    p[14] = 't';    p[15] = ' ';    p[16] = 16;  /* Subchunk1Size */    p[17= 0;    p[18= 0;    p[19= 0;    p[20= 1;  /* PCM */    p[21= 0;    p[22= chnum; /* 通道数 */    p[23= 0;    p[24= freq & 0xFF;    p[25= (freq>>8& 0xFF;    p[26= (freq>>16& 0xFF;    p[27= (freq>>24& 0xFF    p[28= bps & 0xFF;      /* ByteRate */    p[29= (bps>>8& 0xFF;    p[30= (bps>>16& 0xFF;    p[31= (bps>>24& 0xFF    p[32= chnum*16/8; /* BlockAlign */    p[33= 0;    p[34= 16;  /* BitsPerSample */    p[35= 0;    p[36= 'd';    p[37= 'a';    p[38= 't';    p[39= 'a';    p[40= datalen & 0xFF;    p[41= (datalen>>8& 0xFF;    p[42= (datalen>>16& 0xFF;    p[43= (datalen>>24& 0xFF}void wav_print(wav_t* wav){   printf("off:%d\r\n",wav->off);    printf("chunksize:%d\r\n",wav->chunksize);    printf("audioformat:%d\r\n",wav->audioformat);    printf("numchannels:%d\r\n",wav->numchannels);    printf("samplerate:%d\r\n",wav->samplerate);    printf("byterate:%d\r\n",wav->byterate);    printf("blockalign:%d\r\n",wav->blockalign);    printf("bitspersample:%d\r\n",wav->bitspersample);    printf("datasize:%d\r\n",wav->datasize); }#define NN 128#define TAIL 1024int main(int argc, char **argv){   FILE *spk_fd, *mic_fd, *out_fd;      short spk_buf[NN], mic_buf[NN], out_buf[NN];   uint8_t spk_wav_buf[44]; /* 输入spk wav文件头缓存 */   uint8_t mic_wav_buf[44]; /* 输入mic wav文件头缓存 */   uint8_t out_wav_buf[44]; /* 输出文件wav头缓存 */   wav_t spk_wav;   wav_t mic_wav;   int samps;  /* 采样点数 */   int times;    /* 读取次数 */   SpeexEchoState *st;   SpeexPreprocessState *den;   int sampleRate;   char* mic_fname = argv[1];   char* spk_fname = argv[2];   char* out_fname = argv[3];   if (argc != 4)   {      fprintf(stderr, "testecho mic.wav spk.wav out.wav\n");      exit(1);   }   spk_fd = fopen(spk_fname, "rb");   if(spk_fd < 0){      fprintf(stderr, "open file %s err\n",spk_fname);      exit(1);   }   mic_fd  = fopen(mic_fname,  "rb");   if(mic_fd < 0){      fprintf(stderr, "open file %s err\n",mic_fname);      fclose(spk_fd);      exit(1);   }   out_fd    = fopen(out_fname, "wb");   if(out_fd < 0){      fprintf(stderr, "open file %s err\n",out_fname);      fclose(spk_fd);      fclose(mic_fd);      exit(1);   }   if(44 != fread(mic_wav_buf, 144, mic_fd)){      fprintf(stderr, "read file %s err\n",mic_fname);      fclose(spk_fd);      fclose(mic_fd);      fclose(out_fd);      exit(1);   }   if(44 != fread(spk_wav_buf, 144, spk_fd)){      fprintf(stderr, "read file %s err\n",spk_fname);      fclose(spk_fd);      fclose(mic_fd);      fclose(out_fd);      exit(1);    }   if(0 != wav_decode_head(spk_wav_buf, &spk_wav)){      fprintf(stderr, "decode file %s err\n",spk_fname);      fclose(spk_fd);      fclose(mic_fd);      fclose(out_fd);      exit(1);    }   printf("[spk_wav]\r\n");   wav_print(&spk_wav);   if(0 != wav_decode_head(mic_wav_buf, &mic_wav)){      fprintf(stderr, "decode file %s err\n",mic_fname);      fclose(spk_fd);      fclose(mic_fd);      fclose(out_fd);      exit(1);     }   printf("[mic_wav]\r\n");   wav_print(&mic_wav);   samps = spk_wav.datasize > mic_wav.datasize ? mic_wav.datasize : spk_wav.datasize; /* 获取较小的数据大小 */   samps /= spk_wav.blockalign;  /* 采样点数 =  数据大小 除以 blockalign */   printf("\r\nsamps:%d\r\n",samps);   sampleRate = spk_wav.samplerate;   wav_fill_head(out_wav_buf, samps, 1, sampleRate);  /* 输出文件头 */   if(44 != fwrite(out_wav_buf, 144, out_fd)){      fprintf(stderr, "write file %s err\n",out_fname);      fclose(spk_fd);      fclose(mic_fd);      fclose(out_fd);      exit(1);   }   st = speex_echo_state_init(NNTAIL);   den = speex_preprocess_state_init(NN, sampleRate);   speex_echo_ctl(st, SPEEX_ECHO_SET_SAMPLING_RATE&sampleRate);   speex_preprocess_ctl(den, SPEEX_PREPROCESS_SET_ECHO_STATE, st);   times = samps / NN;   /* 一次读取NN个点,读取times次 */   for(int i=0; i<times; i++)   {      if(NN != fread(mic_buf, sizeof(short), NN, mic_fd)){        fprintf(stderr, "read file %s err\n",mic_fname);        fclose(spk_fd);        fclose(mic_fd);        fclose(out_fd);        exit(1);      }      if(NN != fread(spk_buf, sizeof(short), NN, spk_fd)){        fprintf(stderr, "read file %s err\n",spk_fname);        fclose(spk_fd);        fclose(mic_fd);        fclose(out_fd);        exit(1);      }      speex_echo_cancellation(st, mic_buf, spk_buf, out_buf);      speex_preprocess_run(den, out_buf);      if(NN != fwrite(out_buf, sizeof(short), NN, out_fd)){        fprintf(stderr, "write file %s err\n",out_fname);        fclose(spk_fd);        fclose(mic_fd);        fclose(out_fd);        exit(1);      }   }   speex_echo_state_destroy(st);   speex_preprocess_state_destroy(den);   fclose(out_fd);   fclose(spk_fd);   fclose(mic_fd);   return 0;}

测试

./speexecho mic3.wav spk3.wav out3.wav

可以看到out3.wav相对与mic3.wav消除掉了spk3.wav的部分,但是还是有残留没有消除干净,后面再来优化。

.总结

以上分享了speexpc上的移植使用,实现了一个简单的回声消除的测试程序,先暂时体验一下,后面再来学习了解speex的细节,以及调试,和在平台上的移植等。

完整代码见
https://github.com/qinyunti/speex_test

评论 (0)
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 109浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 187浏览
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 204浏览
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 154浏览
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 109浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 146浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 148浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 152浏览
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 149浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 182浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦