惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Security Latest
Security Latest
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Stack Overflow Blog
Stack Overflow Blog
WordPress大学
WordPress大学
N
Netflix TechBlog - Medium
GbyAI
GbyAI
云风的 BLOG
云风的 BLOG
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
宝玉的分享
宝玉的分享
博客园 - 【当耐特】
C
Cyber Attacks, Cyber Crime and Cyber Security
雷峰网
雷峰网
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
T
Threat Research - Cisco Blogs
NISL@THU
NISL@THU
Spread Privacy
Spread Privacy
P
Proofpoint News Feed
J
Java Code Geeks
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
MyScale Blog
MyScale Blog
T
Tor Project blog
P
Proofpoint News Feed
C
CERT Recently Published Vulnerability Notes
P
Privacy & Cybersecurity Law Blog
MongoDB | Blog
MongoDB | Blog
Simon Willison's Weblog
Simon Willison's Weblog
C
Cybersecurity and Infrastructure Security Agency CISA
L
LINUX DO - 热门话题
小众软件
小众软件
G
GRAHAM CLULEY
P
Privacy International News Feed
AWS News Blog
AWS News Blog
Know Your Adversary
Know Your Adversary
P
Palo Alto Networks Blog
人人都是产品经理
人人都是产品经理
S
Schneier on Security
Scott Helme
Scott Helme
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
B
Blog RSS Feed
T
The Exploit Database - CXSecurity.com
Recent Announcements
Recent Announcements
E
Exploit-DB.com RSS Feed
C
CXSECURITY Database RSS Feed - CXSecurity.com
U
Unit 42
The Register - Security
The Register - Security
S
Securelist
Martin Fowler
Martin Fowler
Project Zero
Project Zero
大猫的无限游戏
大猫的无限游戏
Cisco Talos Blog
Cisco Talos Blog

博客园 - Augustone

积分公式 100 条(大学数学系常用) 龙虾警告 安装sparktts Kali上安装Cuda和cudnn 再次安装docker单机版ufm-南京 概率论与数理统计 Transformer,大模型的幻觉太严重,仅作参考吧 哈希256,待研究 梯度下降法权重更新的特点 Python库的位置 删除_JAVA_OPTIONS 支持cuda的pytorch NVIDIA CUDA 编程模型之Grid和Block C语言内存管理,分配、使用、释放以及安全性 CUDA程序可以运行,但出现“标识符不能识别”时可 CUDA函数的概念、种类和示例 CUDA的核函数与CNN的核函数 CUDA核函数 cuda的c++程序 如何检查nvidia驱动、cuda、cudnn是否安装了
词向量为什么包含外部特征?
Augustone · 2025-01-15 · via 博客园 - Augustone

1,词向量的本质

词向量(WordEmbedding)是通过训练得到的低维稠密向量,用于表示词汇的语义信息。
在训练过程中,词向量不仅捕捉了词汇的自身特征(如词义、词性),还捕捉了词汇的上下文特征(如语法角色、位置信息、与其他词的关系)。 

2,词向量的维度

词向量的每个维度并不是独立的,而是通过训练数据学习到的潜在特征。
这些潜在特征可能包括:
语义特征:词义、同义词、反义词等。
语法特征:词性、句法角色(如主语、宾语)、时态等。
上下文特征:词汇在句子中的位置、与其他词的关系等。 

3,为什么词向量可以包含外部关系特征?

训练目标:词向量是通过语言模型(如Transformer)在大量文本数据上训练得到的。训练目标是最大化词汇在上下文中的概率,因此词向量必须捕捉词汇的上下文信息。
上下文信息:在训练过程中,模型会学习到词汇在不同上下文中的用法,从而捕捉到词汇的语法角色、位置信息等外部关系特征。 

4,你的例子:主语特征

脱离语句的词:一个词本身并不包含“主语”这样的语法角色信息。
训练后的词向量:在训练过程中,模型会学习到某些词在上下文中经常作为主语出现,因此词向量会捕捉到“可以作为主语”的特征。
相似性运算:当计算词向量之间的相似度时,模型会考虑这些语法角色特征,从而判断两个词是否在语法上具有相似性。 

5,多头注意力机制的作用

捕捉多种特征:多头注意力机制通过多个头并行计算,允许模型同时捕捉词汇的多种特征(如语义、语法、上下文等)。
计算相似性:在计算注意力分数时,模型会综合考虑这些特征,从而判断词汇之间的关联程度。 

6,总结

词向量不仅包含词汇的自身特征,还包含词汇的上下文特征(如语法角色、位置信息等)。
这些特征是通过训练数据学习得到的,而不是人为定义的。
多头注意力机制通过多个头并行计算,允许模型同时捕捉词汇的多种特征,从而计算词汇之间的相似性。 

7,类比理解

可以把词向量类比为一个人的“身份信息”:
自身特征:姓名、性别、年龄等。
外部关系特征:职业、家庭角色、社交关系等。
训练过程:通过观察一个人在多种情境下的行为,我们可以推断出他的职业、家庭角色等信息。
相似性运算:通过比较两个人的身份信息,我们可以判断他们是否具有相似的职业或家庭角色。