Skip to content

JTCSE: Joint Tensor-Modulus Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

grok-3-latest
Score: 0.53
Published: at 05:09

Summary: 本文提出 JTCSE 框架,通过联合张量模长约束和跨注意力机制,显著提升无监督句子嵌入在语义文本相似性任务中的性能,成为当前 SOTA。

Keywords: Sentence Embeddings, Contrastive Learning, Tensor Constraints, Cross-Attention, BERT Optimization

Authors: Tianyu Zong, Hongzhu Yi, Bingkang Shi, Yuanxiang Wang, Jungang Xu

Institution(s): University of Chinese Academy of Sciences, Institute of Information Engineering, Chinese Academy of Sciences

Problem Background

无监督句子嵌入的对比学习中,现有方法(如 SimCSE)主要通过 InfoNCE 损失约束正负样本在高维语义空间中的方向分布,但忽略了语义表示张量的模长特征,导致正样本对齐不足;同时,BERT 类模型存在注意力沉没现象,[CLS] 标记无法有效聚合全局语义信息,影响嵌入质量;此外,传统集成学习方法推理开销巨大或依赖非自主训练,存在效率和公平性问题。

Method

Experiment

Further Thoughts

张量模长约束可推广至多模态学习,通过约束不同模态表示的模长特征增强跨模态对齐;跨注意力机制可探索动态调整策略,根据任务需求自适应选择交互层;注意力沉没问题可能影响其他依赖 [CLS] 标记的任务,值得研究其在分类等任务中的表现及解决方案;Pooler 层等未充分利用结构的预训练信息挖掘具有潜力,可在其他预训练模型任务中进一步探索。