甘虎文'blogs

甘虎文'blogs

fasttext工具
Created2024-02-25
fasttext工具1 fasttext工具1.1 介绍 概念 是一种文本分类和词向量训练的高效工具 作用 文本分类 (分类模型) 训练高质量词向量 (词嵌入模型) 特点 高效, 快 适用于大规模数据集 1.2 架构(了解) fasttext模型组成 输入层 词向量 -> 根据词和词子词信息 词:apple 子词:app ppl ple skipgram模型 CBOW模型 隐藏层 加权求和 -> 文本向量表示 输出层 文本分类 线性层 softmax层 层次softmax 由霍夫曼二叉树组成 二叉树转换成是否问题 二分类问题 树路径越短, 词概率越大; 树路径越长, 词概率越小 层次softmax最多只需要计算 $$log_2词数$$ 次数, 普通的softmax计算 词数 的次数 负采样 将输出层的神经元分为正负两类, 正例神经元1个, 其余都是负例神经元 在负例神经元中随机选择2-5个/5-20个进行反向传播 其他Bert/GPT模型对所有的神经元进行反向传播 1.3 文本分类 概念: 将输入文本分...
transformer介绍
Created2024-02-08
day12_课堂笔记1 transformer介绍 概念 transformer是基于自注意力机制的seq2seq模型/架构/框架 核心思想 基于注意力机制 自注意力 一般注意力 作用 捕获超长距离语义关系 并行计算 灵活性: 处理不同的数据, 文本/语音/图像/视频 扩展性: 层数和多头数量可调, transformer默认是6层, 8个头 2 transformer架构 输入部分 词嵌入层 位置编码层 输出部分 线性层 softmax层 编码器部分 多头自注意力子层 前馈全连接子层 残差连接层 规范化层(层归一化) 解码器部分 掩码多头自注意力子层 编码器-解码器堵头一般注意力子层 前馈全连接子层 残差连接层 规范化层(层归一化) 3 输入3.1 文本嵌入层 概念 将token转换成词向量过程 nn.Embedding() 代码实现 1234567891011121314151617181920212223242526272829303132333435363738# 输入部分是由 ...
图像分类和目标检测
Created2024-02-01
图像分类和目标检测 正在跳转到图像分类和目标检测...
transformer
Created2024-01-22
transformer1 transformer介绍 概念 transformer是基于自注意力机制的seq2seq模型/架构/框架 核心思想 基于注意力机制 自注意力 一般注意力 作用 捕获超长距离语义关系 并行计算 灵活性: 处理不同的数据, 文本/语音/图像/视频 扩展性: 层数和多头数量可调, transformer默认是6层, 8个头 2 transformer架构 输入部分 词嵌入层 位置编码层 输出部分 线性层 softmax层 编码器部分 多头自注意力子层 前馈全连接子层 残差连接层 规范化层(层归一化) 解码器部分 掩码多头自注意力子层 编码器-解码器堵头一般注意力子层 前馈全连接子层 残差连接层 规范化层(层归一化) 3 输入3.1 文本嵌入层 概念 将token转换成词向量过程 nn.Embedding() 代码实现 1234567891011121314151617181920212223242526272829303132333435363738# 输入部分是由...
新零售行业评价决策系统
Created2024-01-19|AI_ModuleFineTuning新零售行业评价决策系统
新零售行业评价决策系统一、项目介绍【理解】1、项目背景 随着科技的迅速发展和智能设备的普及,AI技术在新零售行业中得到了广泛应用。其中 智能推荐系统 是AI技在新零售中最为常见且有效的应用之一。通过分析用户的购买历史、浏览行为以及喜好偏好,推荐系统可以根据个人特征给用户进行个性化商品推荐。这种个性化推荐不仅可以提高用户购买意愿,减少信息过载,还可以带来更高的用户满意度和销量。 在智能推荐系统中,文本分类的应用属于重要的应用环节。比如:某电商网站都允许用户为商品填写评论,这些文本评论能够体现出用户的偏好以及商品特征信息,是一种语义信息丰富的隐式特征。 相比于单纯的利用显式评分特征,文本信息一方面可以弥补评分稀疏性的问题,另一方面在推荐系统的可解释方面也能够做的更好。 因此,本次项目我们将 以”电商平台用户评论”为背景,基于深度学习方法实现评论文本的准确分类 ,这样做的目的是通过用户对不同商品或服务的评价,平台能够快速回应用户需求,改进产品和服务。同时,自动分类也为个性化推荐奠定基础,帮助用户更轻松地找到符合其偏好的商品。 2、评论文本分类实现方法2.1 传统的深度学习方法 目前实...
seq2seq
Created2024-01-05
seq2seq1 RNN案例-seq2seq英译法1.1 seq2seq模型介绍 模型结构 编码器 encoder 解码器 decoder 编码器和解码器中可以使用RNN模型或者是transformer模型 工作流程 编码器生成上下文语义张量 -> 什么是nlp? 将问题转换成语义张量 解码器根据编码器的语义张量和上一时间步的预测值以及上一时间步的隐藏状态值进行当前时间步的预测 自回归模式 局限性 信息瓶颈问题 长序列问题 1.2 数据集介绍 每行样本由英文句子和法文句子对组成, 中间用\t分隔开 英文句子是编码器的输入序列, 法文句子是解码器的输出序列(预测序列)对应的真实序列 1.3 案例实现步骤1.3.1 文本清洗工具函数 utils.py 123456789101112131415161718192021222324252627282930313233343536373839404142434445# 用于正则表达式import re# 用于构建网络结构和函数的torch工具包import torchimport torch.nn as nn...
大模型微调技术V6.1
Created2024-01-01
大模型微调技术V6.1 正在跳转到大模型微调技术内容...
RNN案例-seq2seq英译法
Created2023-12-20
RNN案例-seq2seq英译法1 RNN案例-seq2seq英译法1.1 seq2seq模型介绍 模型结构 编码器 encoder 解码器 decoder 编码器和解码器中可以使用RNN模型或者是transformer模型 工作流程 编码器生成上下文语义张量 -> 什么是nlp? 将问题转换成语义张量 解码器根据编码器的语义张量和上一时间步的预测值以及上一时间步的隐藏状态值进行当前时间步的预测 自回归模式 局限性 信息瓶颈问题 长序列问题 1.2 数据集介绍 每行样本由英文句子和法文句子对组成, 中间用\t分隔开 英文句子是编码器的输入序列, 法文句子是解码器的输出序列(预测序列)对应的真实序列 1.3 案例实现步骤1.3.1 文本清洗工具函数 utils.py 123456789101112131415161718192021222324252627282930313233343536373839404142434445# 用于正则表达式import re# 用于构建网络结构和函数的torch工具包import torchimport torch...
注意力机制应用
Created2023-12-03
注意力机制应用1 注意力机制应用 思路: 解码器端的一般注意力机制(加性注意力) 实现步骤: q和k按特征维度轴进行拼接torch.concat(), 经过线性层计算nn.linear(), 再经过softmax激活层计算torch.softmax(, dim=-1), 得到权重概率矩阵 将上一步的权重概率矩阵和V进行矩阵乘法torch.bmm(), 得到动态张量c q和动态张量c进行融合, 按特征维度轴进行拼接torch.concat(), 经过线性层计算nn.linear(), 得到融合的结果->解码器当前时间步的输入X output, hn=nn.gru(X, h0) 代码实现 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677import torchimport torch.nn as nn# 创建神经...
注意力机制
Created2023-11-16
注意力机制1 注意力机制由来 seq2seq架构介绍(encoder-decoder) encoder:编码器, 生成固定上下文张量c decoder:解码器, 生成预测序列 自回归预测: 只能使用上一时间步的预测结果作为下一时间步的输入 seq2seq架构存在问题 c不变->信息不变/信息瓶颈 使用GRU模型, 处理超长序列时也会产生梯度消失或梯度爆炸 基于以上两个问题引用了注意力机制 2 注意力机制介绍 概念 一种增强神经网络模型性能的技术/工具 预测时每个时间步都要计算一个中间语义张量C(动态C) C1,C2,C3… C1 = 0.5欢迎 + 0.3来 + 0.2北京 C2 = 0.3欢迎 + 0.6来 + 0.1北京 核心思想 通过计算==动态中间语义张量c==来增强模型表达能力 作用 增强神经网络模型性能 增强可解释性 -> 权值 缓解信息瓶颈问题 -> 动态C 解决长序列问题 -> 使用自注意力机制替换RNN/LSTM&#x...
1…345…7
avatar
甘虎文
探索技术 & 分享生活
Articles
64
Tags
16
Categories
32
Follow Me
Announcement
patience & passion
Recent Posts
基于LangGraph的垂直领域智能体实战2025-06-11
借助MCP搭建AI数据分析智能体2025-05-21
大模型微调做信息抽取和文本分类任务2025-05-08
MCP协议2025-05-05
milvus索引算法-IVF-PQ的原理解释2025-04-21
Categories
  • AI_Module13
    • DeepLearning5
      • PyTorch框架使用1
      • 卷积神经网络CNN1
      • 循环神经网络RNN1
      • 深度学习简介1
      • 神经网络基础1
    • FineTuning1
Tags
MachineLearning Python_Programing FineTuningNotes Agent CV_Content et_cetera Local_deploy_LLM AI_Module a_new_FT RAG_Notes command_set DataProcess_StatisticalAnalysis Python Advanced LLM_Notes NLP_Notes Language_Learning
Archives
  • June 2025 1
  • May 2025 3
  • April 2025 4
  • March 2025 1
  • February 2025 2
  • January 2025 4
  • December 2024 1
  • November 2024 1
Website Info
Article Count :
64
Unique Visitors :
Page Views :
Last Update :
© 2025 By 甘虎文Framework Hexo 7.3.0|Theme Butterfly 5.4.3