Using Reasoning Models to Generate Search Heuristics that Solve Open Instances of Combinatorial Design Problems

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data

Parameter Importance is Not Static: Evolving Parameter Isolation for Supervised Fine-Tuning

Reward Design for Physical Reasoning in Vision-Language Models

Who Gets Flagged? The Pluralistic Evaluation Gap in AI Content Watermarking

MedRCube: A Multidimensional Framework for Fine-Grained and In-Depth Evaluation of MLLMs in Medical Imaging

Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference

(How) Learning Rates Regulate Catastrophic Overtraining

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

Chain of Uncertain Rewards with Large Language Models for Reinforcement Learning

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size

Indexing Multimodal Language Models for Large-scale Image Retrieval

Detecting Safety Violations Across Many Agent Traces

C-ReD: A Comprehensive Chinese Benchmark for AI-Generated Text Detection Derived from Real-World Prompts

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Discourse Diversity in Multi-Turn Empathic Dialogue

Evaluating Cooperation in LLM Social Groups through Elected Leadership

SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

Agentic Driving Coach: Robustness and Determinism of Agentic AI-Powered Human-in-the-Loop Cyber-Physical Systems

Legal2LogicICL: Improving Generalization in Transforming Legal Cases to Logical Formulas via Diverse Few-Shot Learning

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents

A Triadic Suffix Tokenization Scheme for Numerical Reasoning

Hidden Measurement Error in LLM Pipelines Distorts Annotation, Evaluation, and Benchmarking

Synthius-Mem: Brain-Inspired Hallucination-Resistant Persona Memory Achieving 94.4% Memory Accuracy and 99.6% Adversarial Robustness on LoCoMo

Time is Not a Label: Continuous Phase Rotation for Temporal Knowledge Graphs and Agentic Memory

NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models

Quantization Dominates Rank Reduction for KV-Cache Compression

Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Think Before you Write: QA-Guided Reasoning for Character Descriptions in Books

METRO: Towards Strategy Induction from Expert Dialogue Transcripts for Non-collaborative Dialogues

Retrieval as Generation: A Unified Framework with Self-Triggered Information Planning

Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories

Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations

The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems

Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

RECIPER: A Dual-View Retrieval Pipeline for Procedure-Oriented Materials Question Answering

Exploring Knowledge Conflicts for Faithful LLM Reasoning: Benchmark and Method

CocoaBench: Evaluating Unified Digital Agents in the Wild

MathAgent: Adversarial Evolution of Constraint Graphs for Mathematical Reasoning Data Synthesis

Evaluating Memory Capability in Continuous Lifelog Scenario

How Robust Are Large Language Models for Clinical Numeracy? An Empirical Study on Numerical Reasoning Abilities in Clinical Contexts

Use of AI Tools: Guidelines to Maintain Academic Integrity in Computing Colleges

Efficient Training for Cross-lingual Speech Language Models

Guardrails Beat Guidance: A Large-Scale Study of Rules, Skills, and Persistent Configuration for Coding Agents

Towards Proactive Information Probing: Customer Service Chatbots Harvesting Value from Conversation

Shared Emotion Geometry Across Small Language Models: A Cross-Architecture Study of Representation, Behavior, and Methodological Confounds

A Systematic Analysis of the Impact of Persona Steering on LLM Capabilities

Uncertainty-Aware Web-Conditioned Scientific Fact-Checking

Min-$k$ Sampling: Decoupling Truncation from Temperature Scaling via Relative Logit Dynamics

When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies

When Verification Fails: How Compositionally Infeasible Claims Escape Rejection

Back to the Barn with LLAMAs: Evolving Pretrained LLM Backbones in Finetuning Vision Language Models

CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning

A molecular clock for writing systems reveals the quantitative impact of imperial power on cultural evolution

Mem$^2$Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval

AOP-Smart: A RAG-Enhanced Large Language Model Framework for Adverse Outcome Pathway Analysis

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation

Speaking to No One: Ontological Dissonance and the Double Bind of Conversational AI

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

TInR: Exploring Tool-Internalized Reasoning in Large Language Models

Do BERT Embeddings Encode Narrative Dimensions? A Token-Level Probing Analysis of Time, Space, Causality, and Character in Fiction

Generating Multiple-Choice Knowledge Questions with Interpretable Difficulty Estimation using Knowledge Graphs and Large Language Models

Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation

BlasBench: An Open Benchmark for Irish Speech Recognition

Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models

Teaching Language Models How to Code Like Learners: Conversational Serialization for Student Simulation

Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game

Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents

Learning and Enforcing Context-Sensitive Control for LLMs

HeceTokenizer: A Syllable-Based Tokenization Approach for Turkish Retrieval

Efficient Process Reward Modeling via Contrastive Mutual Information

SpectralLoRA: Is Low-Frequency Structure Sufficient for LoRA Adaptation? A Spectral Analysis of Weight Updates

Computational Lesions in Multilingual Language Models Separate Shared and Language-specific Brain Alignment

NSFL: A Post-Training Neuro-Symbolic Fuzzy Logic Framework for Boolean Operators in Neural Embeddings

Bridging Linguistic Gaps: Cross-Lingual Mapping in Pre-Training and Dataset for Enhanced Multilingual LLM Performance

Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs

Knowing What to Stress: A Discourse-Conditioned Text-to-Speech Benchmark

Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models

LLMs Should Incorporate Explicit Mechanisms for Human Empathy

AI Patents in the United States and China: Measurement, Organization, and Knowledge Flows

ReFEree: Reference-Free and Fine-Grained Method for Evaluating Factual Consistency in Real-World Code Summarization

Structure-Grounded Knowledge Retrieval via Code Dependencies for Multi-Step Data Reasoning

Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation

From Query to Counsel: Structured Reasoning with a Multi-Agent Framework and Dataset for Legal Consultation

推荐订阅源

cs.CL updates on arXiv.org