





















摘要:字根检索,即將缺失的字根與給定的音頻子混音進行匹配的任務,是目前受限於拋棄時間信息的模型的一個關鍵挑戰。我們介紹了 PHALAR,一個對比性框架,它在超越最先進技術的同時,實現了相對準確性提升最高達 $\approx 70\%$,而所需的<50\%$ 的參數和 7$\times$ 的訓練速度提升。透過利用一個學習頻譜池化層和一個複數值頭部,PHALAR 強制實施音高等變和相位等變偏差。PHALAR 在 MoisesDB、Slakh 和 ChocoChorales 上建立了新的檢索狀態最佳,與人類協調判斷相關顯著高於語義基線。最後,零樣本節拍追蹤和線性和弦探測確認 PHALAR 捕捉了超出檢索任務的強健音樂結構。
| 評論: | 於 ICML 2026 接受 |
| 主題: | 聲音 (cs.SD); 人工智慧 (cs.AI); 機器學習 (cs.LG); 信號處理 (eess.SP) |
| 引用格式: | arXiv:2605.03929 [cs.SD] |
| (或 arXiv:2605.03929v4 [cs.SD]) for this version) | |
| https://doi.org/10.48550/arXiv.2605.03929 arXiv-發行的 DOI 透過 DataCite |
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。