甘虎文'blogs

Created2024-01-22

transformer1 transformer介绍概念 transformer是基于自注意力机制的seq2seq模型/架构/框架核心思想基于注意力机制自注意力一般注意力作用捕获超长距离语义关系并行计算灵活性: 处理不同的数据, 文本/语音/图像/视频扩展性: 层数和多头数量可调, transformer默认是6层, 8个头 2 transformer架构输入部分词嵌入层位置编码层输出部分线性层 softmax层编码器部分多头自注意力子层前馈全连接子层残差连接层规范化层(层归一化) 解码器部分掩码多头自注意力子层编码器-解码器堵头一般注意力子层前馈全连接子层残差连接层规范化层(层归一化) 3 输入3.1 文本嵌入层概念将token转换成词向量过程 nn.Embedding() 代码实现 1234567891011121314151617181920212223242526272829303132333435363738# 输入部分是由...

新零售行业评价决策系统

Created2024-01-19|AIFineTuning新零售行业评价决策系统

新零售行业评价决策系统一、项目介绍【理解】1、项目背景随着科技的迅速发展和智能设备的普及，AI技术在新零售行业中得到了广泛应用。其中智能推荐系统是AI技在新零售中最为常见且有效的应用之一。通过分析用户的购买历史、浏览行为以及喜好偏好，推荐系统可以根据个人特征给用户进行个性化商品推荐。这种个性化推荐不仅可以提高用户购买意愿，减少信息过载，还可以带来更高的用户满意度和销量。在智能推荐系统中，文本分类的应用属于重要的应用环节。比如：某电商网站都允许用户为商品填写评论，这些文本评论能够体现出用户的偏好以及商品特征信息，是一种语义信息丰富的隐式特征。相比于单纯的利用显式评分特征，文本信息一方面可以弥补评分稀疏性的问题，另一方面在推荐系统的可解释方面也能够做的更好。因此，本次项目我们将以”电商平台用户评论”为背景，基于深度学习方法实现评论文本的准确分类，这样做的目的是通过用户对不同商品或服务的评价，平台能够快速回应用户需求，改进产品和服务。同时，自动分类也为个性化推荐奠定基础，帮助用户更轻松地找到符合其偏好的商品。 2、评论文本分类实现方法2.1 传统的深度学习方法目前实...

seq2seq

Created2024-01-05

seq2seq1 RNN案例-seq2seq英译法1.1 seq2seq模型介绍模型结构编码器 encoder 解码器 decoder 编码器和解码器中可以使用RNN模型或者是transformer模型工作流程编码器生成上下文语义张量 -> 什么是nlp? 将问题转换成语义张量解码器根据编码器的语义张量和上一时间步的预测值以及上一时间步的隐藏状态值进行当前时间步的预测自回归模式局限性信息瓶颈问题长序列问题 1.2 数据集介绍每行样本由英文句子和法文句子对组成, 中间用\t分隔开英文句子是编码器的输入序列, 法文句子是解码器的输出序列(预测序列)对应的真实序列 1.3 案例实现步骤1.3.1 文本清洗工具函数 utils.py 123456789101112131415161718192021222324252627282930313233343536373839404142434445# 用于正则表达式import re# 用于构建网络结构和函数的torch工具包import torchimport torch.nn as nn...

favorite songs

Created2024-01-02|Musicfavorite songs

我要你默默走不回头-队长的小斑鸠、向晚晚暖一杯茶-邵帅爱河-ZaZaZsu咂咂苏不凡-王铮亮真爱的力量-巴黎灰-呼麦版 TheNight-Ameriie.mp3 妈妈的话-南栀向云端-小霞、海洋Bo 若月亮没来-童小丽、郭小进

大模型微调技术V6.1

Created2024-01-01

大模型微调技术V6.1 正在跳转到大模型微调技术内容...

RNN案例-seq2seq英译法

Created2023-12-20

RNN案例-seq2seq英译法1 RNN案例-seq2seq英译法1.1 seq2seq模型介绍模型结构编码器 encoder 解码器 decoder 编码器和解码器中可以使用RNN模型或者是transformer模型工作流程编码器生成上下文语义张量 -> 什么是nlp? 将问题转换成语义张量解码器根据编码器的语义张量和上一时间步的预测值以及上一时间步的隐藏状态值进行当前时间步的预测自回归模式局限性信息瓶颈问题长序列问题 1.2 数据集介绍每行样本由英文句子和法文句子对组成, 中间用\t分隔开英文句子是编码器的输入序列, 法文句子是解码器的输出序列(预测序列)对应的真实序列 1.3 案例实现步骤1.3.1 文本清洗工具函数 utils.py 123456789101112131415161718192021222324252627282930313233343536373839404142434445# 用于正则表达式import re# 用于构建网络结构和函数的torch工具包import torchimport torch...

注意力机制应用

Created2023-12-03

注意力机制应用1 注意力机制应用思路: 解码器端的一般注意力机制(加性注意力) 实现步骤: q和k按特征维度轴进行拼接torch.concat(), 经过线性层计算nn.linear(), 再经过softmax激活层计算torch.softmax(, dim=-1), 得到权重概率矩阵将上一步的权重概率矩阵和V进行矩阵乘法torch.bmm(), 得到动态张量c q和动态张量c进行融合, 按特征维度轴进行拼接torch.concat(), 经过线性层计算nn.linear(), 得到融合的结果->解码器当前时间步的输入X output, hn=nn.gru(X, h0) 代码实现 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677import torchimport torch.nn as nn# 创建神经...

注意力机制

Created2023-11-16

注意力机制1 注意力机制由来 seq2seq架构介绍(encoder-decoder) encoder:编码器, 生成固定上下文张量c decoder:解码器, 生成预测序列自回归预测: 只能使用上一时间步的预测结果作为下一时间步的输入 seq2seq架构存在问题 c不变->信息不变/信息瓶颈使用GRU模型, 处理超长序列时也会产生梯度消失或梯度爆炸基于以上两个问题引用了注意力机制 2 注意力机制介绍概念一种增强神经网络模型性能的技术/工具预测时每个时间步都要计算一个中间语义张量C(动态C) C1,C2,C3… C1 = 0.5欢迎 + 0.3来 + 0.2北京 C2 = 0.3欢迎 + 0.6来 + 0.1北京核心思想通过计算==动态中间语义张量c==来增强模型表达能力作用增强神经网络模型性能增强可解释性 -> 权值缓解信息瓶颈问题 -> 动态C 解决长序列问题 -> 使用自注意力机制替换RNN/LSTM&#x...

网络编程_进程_线程

Created2023-10-31

网络编程介绍概述就是用来实现网络互联的不同计算机上运行的程序间可以进行数据交互. 三要素 IP地址: 设备(电脑, 手机, Ipad…)在网络中的唯一标识分类: IPV4, 4字节, 十进制. 例如: 192.168.88.100 IPV6, 8字节, 十六进制, 宣传语: 可以让地球上的每一粒沙子都有自己的IP 两个DOS命令: 查看IP: windows: ipconfig Linux, Mac: ifconfig 测试网络连接: ping ip地址或者域名端口号: 程序在设备(电脑, 手机, Ipad…)上的唯一标识. 范围: 0 ~ 65535, 其中0 ~ 1023已经被系统占用或者用作保留端口, 自定义端口时尽量规避这个范围. 协议: 传输规则, 规范. 常用的协议: TCP(这个用的最多) 和 UDP TCP特点: 1.面向有连接 2.采用字节流传输数据, 理论无大小限制. 3.安全(可靠)...

数据结构与算法1

Created2023-09-29

数据结构和算法简介数据结构就是存储和组织数据的方式, 分为: 线性结构和非线性结构算法就是解决问题的思路和发放, 它具有独立性, 即: 它不依赖语言, 而是解决问题的思路. Java能做, Python也能做. 特性有输入, 有输出, 有穷性, 确定性, 可行性. 如何衡量算法的优劣 ==大O标记法,== 即: 将次要条件都省略掉, 最终形成1个表达式. **主要条件:**随着问题规模变化而==变化==的. **次要条件:**随则问题规模变化而==不变==的. 最优和最坏时间复杂度如非特殊说明, 我们考虑的都是最坏时间复杂度, 因为它是算法的一种保证. 而最优时间复杂度是算法的最理想, 最乐观的状况, 没有太大的参考价值. 常见的时间复杂度如下从最优到最坏分别是: O(1) -> O(logn) -> O(n) -> O(n logn) -> O(n²) -> O(n³) ...