甘虎文'blogs

甘虎文'blogs

Python编程_基础语法与条件判断
Created2024-04-23
大纲介绍 Python环境搭建 Python基础语法与变量 Python判断结构之if结构 【了解】Python概述与安装学习目标了解Python语言特点 掌握Python环境搭建与基础语法 为什么要学习Python① 技术趋势 Python自带明星属性,热度稳居编程语言界前三 https://www.tiobe.com/tiobe-index/ https://pypl.github.io/PYPL.html ② 简单易学 开发代码少,精确表达需求逻辑;==33个关键字,7种基本数据类型==;语法规则简单,接近自然语言。 ③ 应用广泛 Python语言涉及IT行业70%以上的技术领域 Python语言的诞生1989年,为了打发圣诞节假期,龟叔(吉多·范·罗苏姆)开始写Python语言的编译器 ;1991年,第一个Python编译器诞生Python这个名字,来自龟叔所挚爱的电视剧Monty Python’s Flying Circus (蒙蒂·蟒蛇的飞行马戏团) Python语言的优缺点优点 简单:Python是一种代表简单...
Pandas进阶
Created2024-04-22
Pandas数据分析一、Pandas框架概述学习目标 知道Pandas的作用 能够搭建使用Pandas的开发环境 Pandas介绍Python在数据处理上独步天下:代码灵活、开发快速;尤其是Python的Pandas包,无论是在数据分析领域、还是大数据开发场景中都具有显著的优势: Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗、处理以及分析 Pandas在数据处理上具有独特的优势: 底层是基于Numpy构建的,所以运行速度特别的快 有专门的处理缺失数据的API 强大而灵活的分组、聚合、转换功能 适用场景: 数据量大到Excel严重卡顿,且又都是单机数据的时候,我们使用Pandas Pandas用于处理单机数据(小数据集(相对于大数据来说)) 在大数据ETL数据仓库中,对数据进行清洗及处理的环节使用Pandas 安装Pandas打开cmd窗口,输入如下命令: 1pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pandas 注意:Anacon...
Matplotlib
Created2024-04-03
Matplotlib一、Matplotlib快速入门学习目标 了解什么是matplotlib 为什么要学习matplotlib matplotlib简单图形的绘制 什么是Matplotlib 是专门用于开发2D图表(包括3D图表) 以渐进、交互式方式实现数据可视化 为什么要学习Matplotlib可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。 能将数据进行可视化,更直观的呈现 使数据更加客观、更具说服力 例如下面两个图为数字展示和图形展示: 实现一个简单的Matplotlib画图 — 以折线图为例matplotlib.pyplot模块matplotlib.pytplot包含了一系列类似于matlab的画图函数。 1import matplotlib.pyplot as plt 图形绘制流程: 1.创建画布 – plt.figure() plt.figure(figsize=(), dpi=) figsize:指定图的长宽 dpi:图像的清晰度 返回fig对象 12345- 2.绘制图像 -- plt....
大模型微调的主要方式
Created2024-03-30
大模型微调的主要方式【掌握】1、大模型Prompt-Tuning方法1.1 NLP任务四种范式 第一范式:基于传统机器学习模型 第二范式:基于深度学习 第三范式:基于预训练模型+fine-tuning 第四范式:预训练模型+Prompt+预测 1.2 Fine-Tuning(微调)Fine-Tuning基本思想:使用小规模的特定任务文本继续训练预训练语言模型。 Fine-Tuning问题: 所需的Fine-Tuning量取决于预训练语料库和任务特定语料库之间的相似性。如果两者相似,可能只需要少量的Fine-Tuning,如果两者不相似,则可能需要更多的Fine-Tuning,并且效果不明显。 成本高 Prompt-Tuning的基本思想:通过添加模板的方法将任务目标转化为与预训练目标相似的形式(如MLM),避免引入额外的参数的同时,最大化利用模型的预训练知识。 Prompt-Tuning主要解决传统Fine-Tuning方式的两个痛点: **降低语义偏差:**预训练任务主要以MLM为主,而下游任务则重新引入新的训练参数,因此两个阶段目标差异较大。因此需要解决Pre-Tra...
Pandas入门
Created2024-03-15
Pandas数据分析一、Pandas框架概述学习目标 知道Pandas的作用 能够搭建使用Pandas的开发环境 Pandas介绍Python在数据处理上独步天下:代码灵活、开发快速;尤其是Python的Pandas包,无论是在数据分析领域、还是大数据开发场景中都具有显著的优势: Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗、处理以及分析 Pandas在数据处理上具有独特的优势: 底层是基于Numpy构建的,所以运行速度特别的快 有专门的处理缺失数据的API 强大而灵活的分组、聚合、转换功能 适用场景: 数据量大到Excel严重卡顿,且又都是单机数据的时候,我们使用Pandas Pandas用于处理单机数据(小数据集(相对于大数据来说)) 在大数据ETL数据仓库中,对数据进行清洗及处理的环节使用Pandas 安装Pandas打开cmd窗口,输入如下命令: 1pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pandas 注意:Anacon...
RAG-Milvus
Created2024-03-15
RAG-Milvus配置文件, 文档处理模块 日志书写 原始子块,txt sparse vector parent content source timestamp 检索精准。 分块检索, 父块 子块 子块的文档切分器 父类的文档切分器 基于父块,切 文档的处理模块 创建并加载集合 转换成向量并存储 trainer.train() model args 帮助简化训练流程。 处理数据(※) 帮助跟随节奏: 敲注释,敲print信息。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748检查模型路径是否存在加载预训练模型将模型移到指定设备记录加载成功的日志初始化新模型num labels=4;就是多分类default:就是2将模型移到指定设备记录初始化模型的日志保存模型(save_model)创建dataset对象训练bert分类模型# 加载数据集with open万能读取方式json.loads(value) for value in f.readlines(...
基于GPT2的医疗问诊机器人
Created2024-03-13
基于GPT2的医疗问诊机器人 学习目标 理解医疗问诊机器人的开发背景. 了解企业中聊天机器人的应用场景 掌握基于GPT2模型搭建医疗问诊机器人的实现过程 1. 项目介绍【理解】1.1 项目背景 本项目基于医疗领域数据构建了智能医疗问答系统,目的是为为用户提供准确、高效、优质的医疗问答服务。 1.2 环境准备 python==3.10 transformers==4.40.2 torch==2.5.1+cu121 1.3 项目整体结构 整体代码结构: 2. 数据处理【实现】2.1 数据介绍 数据存放位置:llm_tuning/Gpt2_Chatbot/data data文件夹中存有原始训练语料为train.txt。train.txt的格式如下,每段闲聊之间间隔一行,格式如下: 12345帕金森叠加综合征的辅助治疗有些什么?综合治疗;康复训练;生活护理指导;低频重复经颅磁刺激治疗卵巢癌肉瘤的影像学检查有些什么?超声漏诊;声像图;MR检查;肿物超声;术前超声;CT检查 2.2 数据处理 目...
transformers库使用
Created2024-03-13
transformers库使用1 transformers库使用1.1 transformers库是什么 收集预训练模型的开源库 各种开源大模型以及数据集 访问https://huggingface.co需要科学上网 1.2 transformers库使用12345678910# 创建虚拟环境conda create --name 虚拟环境名称 python=3.10# 切换虚拟环境conda activate 虚拟环境名称# 安装transformers库pip install transformers -i https://mirrors.aliyun.com/pypi/simple/# 安装datasets库pip install datasets -i https://mirrors.aliyun.com/pypi/simple/# 安装torch cpu/gpu 当前是cpu版本pip install torch -i https://mirrors.aliyun.com/pypi/simple/ 管道方式 文本分类任务 12345678910111213...
基于ChatGLM微调多任务实战
Created2024-02-25
基于ChatGLM微调多任务实战1. 项目介绍【理解】 1.1. 项目简介LLM(Large Language Model)通常拥有大量的先验知识,使得其在许多自然语言处理任务上都有着不错的性能。但,想要直接利用 LLM 完成一些任务会存在一些答案解析上的困难,如规范化输出格式,严格服从输入信息等。因此,在这个项目中我们对大模型 ChatGLM-6B 进行 Finetune,使其能够更好的对齐我们所需要的输出格式。 1.2. ChatGLM-6B模型1.2.1 模型介绍ChatGLM-6B 是清华大学提出的一个开源、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。该模型使用了和 ChatGPT 相似的技术,经过约 1T 标识符的中英双语训练(中英文比例为 1:1),辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答(目前中文支持最好)。 相比原始Decoder模块,ChatGLM-6B模型结构有如下改动点: embedding 层梯度缩...
fasttext工具
Created2024-02-25
fasttext工具1 fasttext工具1.1 介绍 概念 是一种文本分类和词向量训练的高效工具 作用 文本分类 (分类模型) 训练高质量词向量 (词嵌入模型) 特点 高效, 快 适用于大规模数据集 1.2 架构(了解) fasttext模型组成 输入层 词向量 -> 根据词和词子词信息 词:apple 子词:app ppl ple skipgram模型 CBOW模型 隐藏层 加权求和 -> 文本向量表示 输出层 文本分类 线性层 softmax层 层次softmax 由霍夫曼二叉树组成 二叉树转换成是否问题 二分类问题 树路径越短, 词概率越大; 树路径越长, 词概率越小 层次softmax最多只需要计算 $$log_2词数$$ 次数, 普通的softmax计算 词数 的次数 负采样 将输出层的神经元分为正负两类, 正例神经元1个, 其余都是负例神经元 在负例神经元中随机选择2-5个/5-20个进行反向传播 其他Bert/GPT模型对所有的神经元进行反向传播 1.3 文本分类 概念: 将输入文本分...
123…5
avatar
甘虎文
慢慢且充实的生活并分享自己的成就
Articles
49
Tags
11
Categories
4
Follow Me
Announcement
This is my Blog
Recent Posts
lora微调笔记2025-01-27
lora微调笔记2025-01-27
RAG流程2025-01-07
RAG-Langchain2025-01-04
Python调用Ollama平台本地部署QWen大模型API实现聊天机器人2024-12-01
Categories
  • Notes2
    • 微调1
      • lora微调1
    • 微调11
Tags
FineTuningNotes DeepLearning NLP_Notes MachineLearning Local deploy_LLM RAG_Notes DataProcess_StatisticalAnalysis LLM_Notes command_set Python_Programing Python Advanced
Archives
  • January 2025 4
  • December 2024 1
  • November 2024 1
  • July 2024 3
  • May 2024 1
  • April 2024 3
  • March 2024 5
  • February 2024 3
Website Info
Article Count :
49
Unique Visitors :
Page Views :
Last Update :
© 2025 By 甘虎文Framework Hexo 7.3.0|Theme Butterfly 5.4.3