Sample Efficiency in Sparse Reinforcement Learning: Or Your Money Back

Detecting Safety Violations Across Many Agent Traces

C-ReD: A Comprehensive Chinese Benchmark for AI-Generated Text Detection Derived from Real-World Prompts

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Discourse Diversity in Multi-Turn Empathic Dialogue

Evaluating Cooperation in LLM Social Groups through Elected Leadership

SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

Agentic Driving Coach: Robustness and Determinism of Agentic AI-Powered Human-in-the-Loop Cyber-Physical Systems

Legal2LogicICL: Improving Generalization in Transforming Legal Cases to Logical Formulas via Diverse Few-Shot Learning

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents

A Triadic Suffix Tokenization Scheme for Numerical Reasoning

Synthius-Mem: Brain-Inspired Hallucination-Resistant Persona Memory Achieving 94.4% Memory Accuracy and 99.6% Adversarial Robustness on LoCoMo

Time is Not a Label: Continuous Phase Rotation for Temporal Knowledge Graphs and Agentic Memory

NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models

Quantization Dominates Rank Reduction for KV-Cache Compression

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Think Before you Write: QA-Guided Reasoning for Character Descriptions in Books

METRO: Towards Strategy Induction from Expert Dialogue Transcripts for Non-collaborative Dialogues

Retrieval as Generation: A Unified Framework with Self-Triggered Information Planning

Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories

Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations

The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems

Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

RECIPER: A Dual-View Retrieval Pipeline for Procedure-Oriented Materials Question Answering

Exploring Knowledge Conflicts for Faithful LLM Reasoning: Benchmark and Method

CocoaBench: Evaluating Unified Digital Agents in the Wild

MathAgent: Adversarial Evolution of Constraint Graphs for Mathematical Reasoning Data Synthesis

Use of AI Tools: Guidelines to Maintain Academic Integrity in Computing Colleges

Efficient Training for Cross-lingual Speech Language Models

Guardrails Beat Guidance: A Large-Scale Study of Rules, Skills, and Persistent Configuration for Coding Agents

Towards Proactive Information Probing: Customer Service Chatbots Harvesting Value from Conversation

Shared Emotion Geometry Across Small Language Models: A Cross-Architecture Study of Representation, Behavior, and Methodological Confounds

A Systematic Analysis of the Impact of Persona Steering on LLM Capabilities

Uncertainty-Aware Web-Conditioned Scientific Fact-Checking

Min-$k$ Sampling: Decoupling Truncation from Temperature Scaling via Relative Logit Dynamics

When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies

When Verification Fails: How Compositionally Infeasible Claims Escape Rejection

Back to the Barn with LLAMAs: Evolving Pretrained LLM Backbones in Finetuning Vision Language Models

CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning

A molecular clock for writing systems reveals the quantitative impact of imperial power on cultural evolution

Mem$^2$Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval

AOP-Smart: A RAG-Enhanced Large Language Model Framework for Adverse Outcome Pathway Analysis

Speaking to No One: Ontological Dissonance and the Double Bind of Conversational AI

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

TInR: Exploring Tool-Internalized Reasoning in Large Language Models

Do BERT Embeddings Encode Narrative Dimensions? A Token-Level Probing Analysis of Time, Space, Causality, and Character in Fiction

Generating Multiple-Choice Knowledge Questions with Interpretable Difficulty Estimation using Knowledge Graphs and Large Language Models

Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation

Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models

Teaching Language Models How to Code Like Learners: Conversational Serialization for Student Simulation

Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game

Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents

Learning and Enforcing Context-Sensitive Control for LLMs

Efficient Process Reward Modeling via Contrastive Mutual Information

Computational Lesions in Multilingual Language Models Separate Shared and Language-specific Brain Alignment

NSFL: A Post-Training Neuro-Symbolic Fuzzy Logic Framework for Boolean Operators in Neural Embeddings

Bridging Linguistic Gaps: Cross-Lingual Mapping in Pre-Training and Dataset for Enhanced Multilingual LLM Performance

Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs

Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models

LLMs Should Incorporate Explicit Mechanisms for Human Empathy

AI Patents in the United States and China: Measurement, Organization, and Knowledge Flows

ReFEree: Reference-Free and Fine-Grained Method for Evaluating Factual Consistency in Real-World Code Summarization

Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation

From Query to Counsel: Structured Reasoning with a Multi-Agent Framework and Dataset for Legal Consultation

CodaRAG: Connecting the Dots with Associativity Inspired by Complementary Learning

The Amazing Agent Race: Strong Tool Users, Weak Navigators

Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration

Think in Sentences: Explicit Sentence Boundaries Enhance Language Model's Capabilities

CircuitSynth: Reliable Synthetic Data Generation

ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models

Computational Implementation of a Model of Category-Theoretic Metaphor Comprehension

CoSToM:Causal-oriented Steering for Intrinsic Theory-of-Mind Alignment in Large Language Models

FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks

Demographic and Linguistic Bias Evaluation in Omnimodal Language Models

Cross-Cultural Value Awareness in Large Vision-Language Models

From UAV Imagery to Agronomic Reasoning: A Multimodal LLM Benchmark for Plant Phenotyping

Should We be Pedantic About Reasoning Errors in Machine Translation?

Instructing LLMs to Negotiate using Reinforcement Learning with Verifiable Rewards

COMPOSITE-Stem

GIANTS: Generative Insight Anticipation from Scientific Literature

Pioneer Agent: Continual Improvement of Small Language Models in Production

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Many-Tier Instruction Hierarchy in LLM Agents

Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories

PhysInOne: Visual Physics Learning and Reasoning in One Suite

Neural Distribution Prior for LiDAR Out-of-Distribution Detection

Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition

PDE-regularized Dynamics-informed Diffusion with Uncertainty-aware Filtering for Long-Horizon Dynamics

Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Images via Visual Prompt Injection

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Regime-Conditional Retrieval: Theory and a Transferable Router for Two-Hop QA

推荐订阅源

cs.AI updates on arXiv.org