DPDFNet: Boosting DeepFilterNet2 via Dual-Path RNN - 惯性聚合

推荐订阅源

Tailwind CSS Blog

OSCHINA 社区最新新闻

SegmentFault 最新的问题

Cyber Attacks, Cyber Crime and Cyber Security

Security Latest

LINUX DO - 最新话题

The Register - Security

人人都是产品经理

美团技术团队

PCI Perspectives

奇客Solidot–传递最新科技情报

cs.AI updates on arXiv.org

Full Disclosure

Application and Cybersecurity Blog

KPMG report finds enterprise disconnect between AI and its ROI | CIO

MIT News - Artificial intelligence

Security @ Cisco Blogs

博客园 - 【当耐特】

Stack Overflow Blog

Check Point Blog

Help Net Security

WordPress大学

Simon Willison's Weblog

CERT Recently Published Vulnerability Notes

博客园 - 三生石上(FineUI控件)

博客园 - Franky

博客园 - 叶小钗

DataBreaches.Net

Proofpoint News Feed

Cybersecurity and Infrastructure Security Agency CISA

Hugging Face - Blog

Engineering at Meta

Threat Intelligence Blog | Flashpoint

Hackread – Cybersecurity News, Data Breaches, AI and More

The GitHub Blog

Kaspersky official blog

Google Online Security Blog

Security Affairs

cs.SD updates on arXiv.org

Probing Token Spaces under Generator Shift in AI-Generated Music Detection Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models Real-Time Streamable Generative Speech Restoration with Flow Matching Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs TinyDéjàVu: Smaller RAM and Faster Inference with Neural Networks on MCUs for Sensor Data Streams Protecting Bystander Privacy via Selective Hearing in Audio LLMs Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding AaSP: Aliasing-aware Self-Supervised Pre-Training for Audio Spectrogram Transformers Two-Dimensional Quantization for Geometry-Aware Audio Coding HarmonicAttack: An Adaptive Cross-Domain Audio Watermark Removal The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical Context Inference Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores Quantizing Whisper-small: How design choices affect ASR performance Towards Fine-Grained Code-Switch Speech Translation with Semantic Space Alignment Assessing Factual Music Comprehension in Large Audio Language Models Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes LibriConvo: Simulating Conversations from Read Literature for ASR and Diarization Beyond Hearing: Learning Task-Agnostic ExG Representations from Earphones via Physiology-Informed Tokenization Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation VAPO: End-to-end Slide-Enhanced Speech Recognition with Omni-modal Large Language Models TokenChain: A Discrete Speech Chain via Semantic Token Modeling Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech BaldWhisper: Faster Whisper with Head Shearing and Layer Merging Go witheFlow: Real-time Emotion Driven Audio Effects Modulation Where Do Backdoors Live? A Component-Level Analysis of Backdoor Propagation in Speech Language Models When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models MARS: Sound Generation via Multi-Channel Autoregression on Spectrograms Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias AUDDT: A Unified Benchmark Toolkit for Audio and Speech Deepfake Detectors CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance Direct Simultaneous Translation Activation for Large Audio-Language Models Exploring How Audio Effects Alter Emotion with Foundation Models RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing CodecSep: Prompt-Driven Universal Sound Separation on Neural Audio Codec Latents DreamAudio: Customized Text-to-Audio Generation with Diffusion Models GetNetUPAM: Ecologically Informed Nested Cross-Validation and Noise-Robust Attention for Marine Bioacoustic Monitoring Computational Narrative Understanding for Expressive Text-to-Speech Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder Gaussian Process Regression of Steering Vectors With Physics-Aware Deep Composite Kernels for Augmented Listening TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation AVEX: What Matters for Animal Vocalization Encoding VGGSounder: Audio-Visual Evaluations for Foundation Models MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks CIS-BWE: Chaos-Informed Speech Bandwidth Extension Balalaika: Data-Centric, Prosody-Aware Annotation Pipeline for Russian Speech JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching Acoustic scattering AI for non-invasive object classifications: A case study on hair assessment Genre Controlled Music Generation via Activation Steering Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia MAVL: A Multilingual Audio-Video Lyrics Dataset for Animated Song Translation Semantic-Aware Interpretable Multimodal Music Auto-Tagging Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio Not that Groove: Zero-Shot Symbolic Music Editing Histogram-based Parameter-efficient Tuning for Passive and Active Sonar Classification Speculative End-Turn Detector for Efficient Speech Chatbot Assistant AudioX: A Unified Framework for Anything-to-Audio Generation S2S-Arena: Evaluating Paralinguistic Instruction Following in Speech-to-Speech Models Weakly Supervised Detection and Temporal Localization of Whale Calls in Long-Duration Bioacoustic Data DeePen: Penetration Testing for Audio Deepfake Detection Audio-FLAN: An Instruction-Following Dataset for Unified Audio Understanding and Generation of Speech, Music, and Sound Speech-FT: Merging Pre-trained And Fine-Tuned Speech Representation Models For Cross-Task Generalization Throat and acoustic paired speech dataset for deep learning-based speech enhancement XAttnMark: Learning Robust Audio Watermarking with Cross-Attention Dementia classification from spontaneous speech using wrapper-based feature selection Modality-Inconsistent Continual Learning of Multimodal Large Language Models Repurposing Image Diffusion Models for Training-Free Music Style Transfer on Mel-spectrograms DASB - Discrete Audio and Speech Benchmark Benchmarking Cross-Domain Audio-Visual Deception Detection Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation Deep Neural Network for Musical Instrument Recognition using MFCCs Sports highlights generation based on acoustic events detection: A rugby case study Emotion Analysis of Songs Based on Lyrical and Audio Features Modeling State-Conditional Observation Distribution using Weighted Stereo Samples for Factorial Speech Processing Models Plagiarism Detection in Polyphonic Music using Monaural Signal Separation Joint Optimization of Masks and Deep Recurrent Neural Networks for Monaural Source Separation Computoser - rule-based, probability-driven algorithmic music composition Automatic Fado Music Classification Music and Vocal Separation Using Multi-Band Modulation Based Features A Stochastic Temporal Model of Polyphonic MIDI Performance with Ornaments Outer-Product Hidden Markov Model and Polyphonic MIDI Score Following Phoneme discrimination using KS algebra I Beyond Markov Chains, Towards Adaptive Memristor Network-based Music Generation A Mixed Graphical Model for Rhythmic Parsing An Approach for Classification of Dysfluent and Fluent Speech Using K-NN And SVM Evolving Musical Counterpoint: The Chronopoint Musical Evolution System An end-to-end machine learning system for harmonic analysis of music On Macroscopic Complexity and Perceptual Coding Particle Filtering on the Audio Localization Manifold Inter Genre Similarity Modelling For Automatic Music Genre Classification

DPDFNet: Boosting DeepFilterNet2 via Dual-Path RNN

Daniel Rika, Nino Sapir, Ido Gus · 2025-12-18 · via cs.SD updates on arXiv.org

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。