大模型的分类和理解
大模型,即大规模 预训练模型(Large Pre-trained Models) 是一种基于深度学习框架构建的超大规模神经网络模型
面向AI时代,所有产品都值得用大模型重新升级
关键字: LangChain、RAG、LangGraph、LlamaIndex, 前端React,后端 node, Typescript 数据库选用 MariaDB(前身MySql)

token
大模型往往无法直接处理原始的文本字符串,因此需要先将文本转化为离散的 Token 序列 Token <font color="#ff0000">的形式可以是单词、字符、子词等</font>。比如,对于英文句子 “I love apples”,就可以将其分割成 ["I", "love", "apples"] 这三个 Token。 当文本被转化为 Token 后,模型便可以将这些 Token 作为输入。通过嵌入层,Token 会被映射到低维向量空间,进而进行各种计算与处理 。在训练过程中,模型会学习每个 Token 的语义信息以及其所处的上下文信息,从而能够生成逻辑合理的文本,或者完成其他相关的自然语言处理任务。
英语大模型的 Token 数量相对较少。与之形成鲜明对比的是,汉字的形式复杂多样,其对应的 Token 数量远远超过英语大模型
大模型是预训练模型
基于深度学习框架构建
超大规模参数的
神经网络模型
GPT 是 4 万亿参数
而且参数可以通过训练不断优化
大模型的分类: 语言大模型 图像大模型 多模态大模型 <font color="#ff0000">行业大模型</font> 这是一个比较值得留意的方向
大模型是啥
大模型是一个预训练好的神经网络模型 通过加载大模型,然后用自己的数据训练,就可以得到符合自己专长的AI
神经网络模型跟普通的模型有什么区别? 普通模型大多基于一些数学公式,结果相对固定 神经网络模型基于向量数据,采集结果优化输出,结果不固定 **神经网络是一个由大量相互连接的“人工神经元”组成的计算模型, 它通过接收输入、进行加权求和、应用激活函数来处理信息,并层层传递,最终产生输出
神经网络是啥?。。。