当前位置: 首页 > news >正文

做网站公司怎么找深圳外贸seo

做网站公司怎么找,深圳外贸seo,网站前台做哪些工作内容,福州自助建站第四章:大模型(LLM)第一部分:Embedding is all you need第六节:从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)一、引言:一切的起点是“向量表达”在自然语言处理中&a…

第四章:大模型(LLM)

第一部分:Embedding is all you need

第六节:从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)


一、引言:一切的起点是“向量表达”

在自然语言处理中,词是离散的符号。传统方法使用 One-hot 编码 表示词语,维度高且无法表达词之间的语义关系。
Word2Vec 的出现,标志着从离散符号到稠密向量(Embedding)的里程碑跃迁。

向量化不仅让机器“理解”语言,还为后续推荐系统、广告排序、LLM 模型提供了统一的特征表达方式。Embedding 不仅仅是技术细节,它是现代人工智能表示学习的核心引擎。


二、Word2Vec:构建语义空间的起点

1. 基本原理

Word2Vec 包括两个训练目标:

模型输入输出预测特点
CBOW上下文词预测当前中心词适合大语料、高频词建模
Skip-Gram当前中心词预测上下文词适合小语料、低频词建模

2. 模型结构简化解释:

  • 词语通过 嵌入矩阵 W 映射为向量;

  • 然后计算概率分布(softmax)预测上下文;

  • 通过最大化 log-likelihood 进行训练;

  • 输出是一个词典中每个词对应的 稠密向量表示(embedding)


三、Embedding 在推荐系统中的应用

1. 核心思想:推荐系统也有“语言”

  • 用户行为序列 = 一个句子

  • 商品/内容 = 一个个“词”

  • 用户点击序列中的商品,也可用 Skip-Gram/CBOW 训练模型;

  • 得到的商品向量可用于相似度召回或冷启动补全。

2. 实际落地应用

案例1:淘宝推荐系统
  • 淘宝构建了商品点击序列,训练 item2vec;

  • 相似商品召回性能提升,Cold Start 问题减轻。

案例2:YouTube 推荐系统(Covington et al., 2016)
  • 利用用户历史行为 Embedding 得到 user vector;

  • 与 candidate item vector 做匹配(点积或 MLP);

  • 多阶段结构(候选召回 + 精排)均用到了 Embedding。

3. 多模态推荐

  • 使用文本 Embedding + 图像特征 Embedding;

  • 在视觉电商推荐中尤为常见;

  • 嵌入空间支持“跨模态”相似度计算。


四、广告系统中的Embedding表示

1. 问题背景

广告系统包含大量高维稀疏离散特征:

  • 用户属性(性别、年龄、兴趣标签);

  • 广告属性(广告主、品类、关键词);

  • 上下文(时间、设备、APP ID)。

使用 One-hot 编码维度极高,不适合直接进入模型。

2. 嵌入表示方法

  • 每个稀疏特征都有一个 Embedding Lookup 表;

  • 输入时映射为低维向量(如 16~64 维);

  • 多个 Embedding 向量拼接后进入神经网络。

3. 工程落地模型

模型名称特点
Wide & Deep线性模型 + 深层网络;支持记忆与泛化
DeepFMFM自动建交叉特征 + DNN特征提取
DIN / DIEN动态兴趣提取模型,基于用户行为序列
AutoInt注意力机制自动学习特征交叉


五、Embedding 到 LLM 的跃迁:统一的语义基础

1. Token Embedding 是 Transformer 的入口

Transformer 模型(如 BERT、GPT)将文本中的 token 映射为向量,这是模型的第一个计算步骤。

  • Token → Embedding Lookup;

  • 通常与 Position Embedding 相加后输入网络。

2. Positional Embedding

由于 Transformer 没有循环结构,需加位置信息。

  • Sinusoidal:固定函数构造;

  • Learnable:模型训练时自适应学习。

3. 从静态到动态的语义学习

模型特点
Word2Vec静态 Embedding,每个词语唯一向量
BERT上下文相关的动态向量表示(双向 Transformer)
GPT利用解码器结构动态生成文本与上下文语义

4. 应用场景迁移

  • 推荐系统使用上下文 Embedding 学习用户兴趣;

  • LLM 使用多层 Transformer 构造更复杂的上下文依赖;

  • 表示学习的思路不变,复杂度和上下文能力大幅提高。


六、从Word2Vec到LLM:演进路径总结

阶段模型特点与用途
词向量阶段Word2Vec学习词的语义空间表示
推荐/广告阶段item2vec, DeepFM用户/商品/广告等高维特征低维嵌入
表达式学习阶段BERT, GPT上下文相关的动态嵌入,支持复杂推理与生成
多模态通用阶段CLIP, BLIP图文联合嵌入,向大模型统一表示演进


七、小结:Embedding是AI的语言

从 Word2Vec 到推荐系统、广告排序、再到 GPT、ChatGPT、Gemini 等大语言模型,Embedding 技术一直是连接不同 AI 系统的桥梁。它不仅提升了表示能力,更为理解、推理、生成提供了统一的语义基础。

可以说:

“Embedding is not just a component; it is the soul of modern AI.”

http://www.laogonggong.com/news/353.html

相关文章:

  • 马云做中国最大的网站湖南关键词优化排名推广
  • wordpress做门户网站重庆高端网站seo
  • 如何建设公司网站怎样申请网站注册
  • 柳州做网站去哪家公司好aso应用优化
  • 赣州培训学做网站专业网络推广公司
  • 网站建设案例收费情况网站查询工具seo
  • 网站招标建设2024年阳性最新症状
  • 百度网站客服电话人工服务nba今日最新消息
  • 做博客网站赚钱吗电商大数据查询平台
  • 腾讯云服务器用什么软件做网站网络促销策略
  • 网站建设登记表磁力猫引擎
  • wordpress导入菜单网站搜索优化排名
  • 网站建设响应式是什么意思全网推广的方式有哪些
  • 免费个人网站建设泸州网站优化推广
  • 现在的网站一般做多宽最好如何优化网站排名
  • tradexdll.wordpress搜索关键词优化
  • 网页qq怎么登录湖南专业关键词优化服务水平
  • 网络网站维护费怎么做会计分录google入口
  • wordpress适合做什么网站现在做网络推广都有什么方式
  • 网站建设提成方案百度网页游戏排行榜
  • 天元建设集团有限公司本科生待遇太原seo建站
  • 达内网站开发学习培训哪里有seo排名优化
  • 网站建设有限公网站推广和宣传的方法
  • 长沙制作网站创建一个网站需要什么
  • 交互式网站开发技术包括中国进入全国紧急状态
  • 网站建设如何做用户名密码windows优化大师的特点
  • 百度推广 帮做网站吗中国站长素材网
  • 做网站咨询b站免费推广app大全
  • 凡科网站内容怎么做效果好快刷网站
  • 如何看网站是不是织梦做的新开店铺怎么做推广