ESPHome: /opt/build/esphome/esphome/components/audio/audio_resampler.cpp Source File

 #include "audio_resampler.h"

 #ifdef USE_ESP32

 #include "esphome/core/hal.h"

 namespace esphome {
 namespace audio {

 static const uint32_t READ_WRITE_TIMEOUT_MS = 20;

 AudioResampler::AudioResampler(size_t input_buffer_size, size_t output_buffer_size)
     : input_buffer_size_(input_buffer_size), output_buffer_size_(output_buffer_size) {
   this->input_transfer_buffer_ = AudioSourceTransferBuffer::create(input_buffer_size);
   this->output_transfer_buffer_ = AudioSinkTransferBuffer::create(output_buffer_size);
 }

 esp_err_t AudioResampler::add_source(std::weak_ptr<RingBuffer> &input_ring_buffer) {
   if (this->input_transfer_buffer_ != nullptr) {
     this->input_transfer_buffer_->set_source(input_ring_buffer);
     return ESP_OK;
   }
   return ESP_ERR_NO_MEM;
 }

 esp_err_t AudioResampler::add_sink(std::weak_ptr<RingBuffer> &output_ring_buffer) {
   if (this->output_transfer_buffer_ != nullptr) {
     this->output_transfer_buffer_->set_sink(output_ring_buffer);
     return ESP_OK;
   }
   return ESP_ERR_NO_MEM;
 }

 #ifdef USE_SPEAKER
 esp_err_t AudioResampler::add_sink(speaker::Speaker *speaker) {
   if (this->output_transfer_buffer_ != nullptr) {
     this->output_transfer_buffer_->set_sink(speaker);
     return ESP_OK;
   }
   return ESP_ERR_NO_MEM;
 }
 #endif

 esp_err_t AudioResampler::start(AudioStreamInfo &input_stream_info, AudioStreamInfo &output_stream_info,
                                 uint16_t number_of_taps, uint16_t number_of_filters) {
   this->input_stream_info_ = input_stream_info;
   this->output_stream_info_ = output_stream_info;

   if ((this->input_transfer_buffer_ == nullptr) || (this->output_transfer_buffer_ == nullptr)) {
     return ESP_ERR_NO_MEM;
   }

   if ((input_stream_info.get_bits_per_sample() > 32) || (output_stream_info.get_bits_per_sample() > 32) ||
       (input_stream_info_.get_channels() != output_stream_info.get_channels())) {
     return ESP_ERR_NOT_SUPPORTED;
   }

   if ((input_stream_info.get_sample_rate() != output_stream_info.get_sample_rate()) ||
       (input_stream_info.get_bits_per_sample() != output_stream_info.get_bits_per_sample())) {
     this->resampler_ = make_unique<esp_audio_libs::resampler::Resampler>(
         input_stream_info.bytes_to_samples(this->input_buffer_size_),
         output_stream_info.bytes_to_samples(this->output_buffer_size_));

     // Use cascaded biquad filters when downsampling to avoid aliasing
     bool use_pre_filter = output_stream_info.get_sample_rate() < input_stream_info.get_sample_rate();

     esp_audio_libs::resampler::ResamplerConfiguration resample_config = {
         .source_sample_rate = static_cast<float>(input_stream_info.get_sample_rate()),
         .target_sample_rate = static_cast<float>(output_stream_info.get_sample_rate()),
         .source_bits_per_sample = input_stream_info.get_bits_per_sample(),
         .target_bits_per_sample = output_stream_info.get_bits_per_sample(),
         .channels = input_stream_info_.get_channels(),
         .use_pre_or_post_filter = use_pre_filter,
         .subsample_interpolate = false,  // Doubles the CPU load. Using more filters is a better alternative
         .number_of_taps = number_of_taps,
         .number_of_filters = number_of_filters,
     };

     if (!this->resampler_->initialize(resample_config)) {
       // Failed to allocate the resampler's internal buffers
       return ESP_ERR_NO_MEM;
     }
   }

   return ESP_OK;
 }

 AudioResamplerState AudioResampler::resample(bool stop_gracefully, int32_t *ms_differential) {
   if (stop_gracefully) {
     if (!this->input_transfer_buffer_->has_buffered_data() && (this->output_transfer_buffer_->available() == 0)) {
       return AudioResamplerState::FINISHED;
     }
   }

   if (!this->pause_output_) {
     // Move audio data to the sink
     this->output_transfer_buffer_->transfer_data_to_sink(pdMS_TO_TICKS(READ_WRITE_TIMEOUT_MS));
   } else {
     // If paused, block to avoid wasting CPU resources
     delay(READ_WRITE_TIMEOUT_MS);
   }

   this->input_transfer_buffer_->transfer_data_from_source(pdMS_TO_TICKS(READ_WRITE_TIMEOUT_MS));

   if (this->input_transfer_buffer_->available() == 0) {
     // No samples available to process
     return AudioResamplerState::RESAMPLING;
   }

   const size_t bytes_free = this->output_transfer_buffer_->free();
   const uint32_t frames_free = this->output_stream_info_.bytes_to_frames(bytes_free);

   const size_t bytes_available = this->input_transfer_buffer_->available();
   const uint32_t frames_available = this->input_stream_info_.bytes_to_frames(bytes_available);

   if ((this->input_stream_info_.get_sample_rate() != this->output_stream_info_.get_sample_rate()) ||
       (this->input_stream_info_.get_bits_per_sample() != this->output_stream_info_.get_bits_per_sample())) {
     esp_audio_libs::resampler::ResamplerResults results =
         this->resampler_->resample(this->input_transfer_buffer_->get_buffer_start(),
                                    this->output_transfer_buffer_->get_buffer_end(), frames_available, frames_free, -3);

     this->input_transfer_buffer_->decrease_buffer_length(this->input_stream_info_.frames_to_bytes(results.frames_used));
     this->output_transfer_buffer_->increase_buffer_length(
         this->output_stream_info_.frames_to_bytes(results.frames_generated));

     // Resampling causes slight differences in the durations used versus generated. Computes the difference in
     // millisconds. The callback function passing the played audio duration uses the difference to convert from output
     // duration to input duration.
     this->accumulated_frames_used_ += results.frames_used;
     this->accumulated_frames_generated_ += results.frames_generated;

     const int32_t used_ms =
         this->input_stream_info_.frames_to_milliseconds_with_remainder(&this->accumulated_frames_used_);
     const int32_t generated_ms =
         this->output_stream_info_.frames_to_milliseconds_with_remainder(&this->accumulated_frames_generated_);

     *ms_differential = used_ms - generated_ms;

   } else {
     // No resampling required, copy samples directly to the output transfer buffer
     *ms_differential = 0;

     const size_t bytes_to_transfer = std::min(this->output_stream_info_.frames_to_bytes(frames_free),
                                               this->input_stream_info_.frames_to_bytes(frames_available));

     std::memcpy((void *) this->output_transfer_buffer_->get_buffer_end(),
                 (void *) this->input_transfer_buffer_->get_buffer_start(), bytes_to_transfer);

     this->input_transfer_buffer_->decrease_buffer_length(bytes_to_transfer);
     this->output_transfer_buffer_->increase_buffer_length(bytes_to_transfer);
   }

   return AudioResamplerState::RESAMPLING;
 }

 }  // namespace audio
 }  // namespace esphome

 #endif
esphome::speaker::Speaker
Definition: speaker.h:29

esphome::audio::AudioStreamInfo::get_channels
uint8_t get_channels() const
Definition: audio.h:29

esphome::audio::AudioSinkTransferBuffer::create
static std::unique_ptr< AudioSinkTransferBuffer > create(size_t buffer_size)
Creates a new sink transfer buffer.
Definition: audio_transfer_buffer.cpp:12

hal.h

esphome::audio::AudioStreamInfo::get_bits_per_sample
uint8_t get_bits_per_sample() const
Definition: audio.h:28

esphome::audio::AudioResampler::resampler_
std::unique_ptr< esp_audio_libs::resampler::Resampler > resampler_
Definition: audio_resampler.h:95

esphome::audio::AudioResampler::input_stream_info_
AudioStreamInfo input_stream_info_
Definition: audio_resampler.h:92

esphome::audio::AudioResampler::add_source
esp_err_t add_source(std::weak_ptr< RingBuffer > &input_ring_buffer)
Adds a source ring buffer for audio data.
Definition: audio_resampler.cpp:18

esphome::audio::AudioResampler::accumulated_frames_used_
uint32_t accumulated_frames_used_
Definition: audio_resampler.h:87

esphome::audio::AudioResampler::pause_output_
bool pause_output_
Definition: audio_resampler.h:90

esphome::audio::AudioStreamInfo::frames_to_milliseconds_with_remainder
uint32_t frames_to_milliseconds_with_remainder(uint32_t *frames) const
Computes the duration, in milliseconds, the given amount of frames represents.
Definition: audio.cpp:26

esphome::audio::AudioResampler::input_transfer_buffer_
std::unique_ptr< AudioSourceTransferBuffer > input_transfer_buffer_
Definition: audio_resampler.h:81

esphome::audio::AudioStreamInfo
Definition: audio.h:11

esphome::audio::AudioResampler::AudioResampler
AudioResampler(size_t input_buffer_size, size_t output_buffer_size)
Allocates the input and output transfer buffers.
Definition: audio_resampler.cpp:12

esphome::audio::AudioStreamInfo::bytes_to_samples
uint32_t bytes_to_samples(size_t bytes) const
Convert bytes to samples.
Definition: audio.h:48

esphome::audio::AudioStreamInfo::frames_to_bytes
size_t frames_to_bytes(uint32_t frames) const
Converts frames to bytes.
Definition: audio.h:53

esphome::audio::AudioResampler::resample
AudioResamplerState resample(bool stop_gracefully, int32_t *ms_differential)
Resamples audio from the ring buffer source and writes to the sink.
Definition: audio_resampler.cpp:88

esphome::audio::AudioSourceTransferBuffer::create
static std::unique_ptr< AudioSourceTransferBuffer > create(size_t buffer_size)
Creates a new source transfer buffer.
Definition: audio_transfer_buffer.cpp:22

esphome::audio::AudioStreamInfo::get_sample_rate
uint32_t get_sample_rate() const
Definition: audio.h:30

esphome::audio::AudioResampler::add_sink
esp_err_t add_sink(std::weak_ptr< RingBuffer > &output_ring_buffer)
Adds a sink ring buffer for resampled audio.
Definition: audio_resampler.cpp:26

esphome::audio::AudioResamplerState::RESAMPLING

esphome::audio::AudioDecoderState::FINISHED

esphome
Implementation of SPI Controller mode.
Definition: a01nyub.cpp:7

esphome::audio::AudioResampler::output_stream_info_
AudioStreamInfo output_stream_info_
Definition: audio_resampler.h:93

esphome::audio::AudioResampler::output_buffer_size_
size_t output_buffer_size_
Definition: audio_resampler.h:85

esphome::audio::AudioResampler::output_transfer_buffer_
std::unique_ptr< AudioSinkTransferBuffer > output_transfer_buffer_
Definition: audio_resampler.h:82

audio_resampler.h

esphome::audio::AudioResamplerState
AudioResamplerState
Definition: audio_resampler.h:22

esphome::audio::AudioStreamInfo::bytes_to_frames
uint32_t bytes_to_frames(size_t bytes) const
Convert bytes to frames.
Definition: audio.h:43

esphome::audio::AudioResampler::input_buffer_size_
size_t input_buffer_size_
Definition: audio_resampler.h:84

esphome::audio::AudioResampler::start
esp_err_t start(AudioStreamInfo &input_stream_info, AudioStreamInfo &output_stream_info, uint16_t number_of_taps, uint16_t number_of_filters)
Sets up the class to resample.
Definition: audio_resampler.cpp:44

esphome::audio::AudioResampler::accumulated_frames_generated_
uint32_t accumulated_frames_generated_
Definition: audio_resampler.h:88

esphome::delay
void IRAM_ATTR HOT delay(uint32_t ms)
Definition: core.cpp:26