AI大模型长啥样?

news/2024/7/20 16:19:07 标签: 人工智能, ai, 大模型, gpt
aidu_pl">

随着ChatGPT的流行,AI大模型也成了新的基础设施,我们在深入学习理解这波新技术之前,有必要先理清一些基本的概念。

这篇文章主要讨论两个问题:

AI大模型是什么?

从严谨的角度来说并没有“大模型”这样的概念,在学术上更常用的是基础模型(foundation model或者base model)。

维基百科中对“基础模型”的定义:基础模型是一种大型机器学习模型,通常在大量数据上进行大规模训练(通过自监督学习或者半监督学习),以使它可以适应各类下游任务。

我们可以看到基础模型有以下几个特点:

  1. 参数量大
  2. 数据量大
  3. 迁移学习能力强

AIGC,全称是Artifical Intelligence Generated Content,生成式人工智能。因为AIGC基本都是通过“大模型”的上下文学习、涌现和思维连等能力支撑实现的,所以我们也会经常听到“生成式人工智能大模型”的说法。

什么是“涌现”? 它是指在大模型领域,当模型突破某个规模时,性能显著提升,表现出让人惊艳、意想不到的能力。

什么是“思维链(Chain-of-thought)”?它指的是通过一系列有逻辑关系的思考步骤,形成一个完整的思考,进而得出答案的过程。

大模型的“大”是一个相对概念,是一个持续的过程,更大规模的训练数据需要模型具备更强的记忆、理解和表达能力。而为了拥有更强的记忆、理解和表达能力,模型需要更大的参数量,也就是更大的模型。

模型为什么会越来越大?内因是存储和算力的发展,外因是人类在知识量和共享度上的发展,互联网技术使得人类个体公开可查的学习资料快读膨胀。

大模型技术为什么会火呢?除了存储和计算能力的持续发展,还有几个必要条件:

  1. 通过涌现、思维链和上下文学习的能力,极大提升了模型的自然语言理解和生成的能力。
  2. 跨模态建模能力的发展,这让同一个模型能像人类一样同时理解和处理Excel、PPT、PDF、图像和视频等多种形式的数据。
  3. 生成式模型的交互方式,新的AI产品利用了人类的惰性,通过新的交互方式,大大提高了产品的渗透率。

AI大模型能做什么?

AI大模型可以很好的处理语言翻译、创意策划、文章创作和代码编写等任务。

AI大模型的限制:

  1. 时间限制,例如GPT 3.5只使用了2021年9月之前的数据进行训练,这样就无法评判之后的事实。
  2. 输入长度限制,不同的model会对可以处理的token长度有不同的限制。
  3. “幻觉”问题,大模型可能会一本正经的讲“林黛玉倒拔垂杨柳”的故事。

对于ChatGPT架构师,我们要如何设计基于大模型技术的架构呢?

AI大模型具有很强的理解、摘要总结和多轮对话的能力,但在数据时效性、输入长度和内容可信性等方面有缺点。

ChatGPT开放了联网和插件接口功能,已有的互联网应用可以通过调用OpenAI的API,将自己的应用放入ChatGPT的应用中心。

我们利用大模型平台先天具备的优异语言能力、意图识别能力和指令翻译能力,将互联网领域的各个能力接入其中,由AI大模型作为大脑,帮助各个应用互相对话,产生化学反应。

我们来看一些案例:

  • 作为助理,可以安排日程、完成差旅机票酒店预订,或者根据会议相关资料和人数预定会议室,提前发放会议议程。
  • 作为秘书,根据个人习惯,查询关注领域的最新消息,生成工作周报等。
  • 作为伴侣,可以介入语音合成和语音识别插件,以及数字人插件,这样可以像一个真正的朋友一样和你进行视频对话。

通过这种方式,大模型系统平台可以成为强大的生产工具,擅长使用大模型平台的用户将极大的提升个人生产效率,和其他人拉开差距。


http://www.niftyadmin.cn/n/4992494.html

相关文章

用Airtest快速实现手机文件读写与删除功能

1. 前言 前几天有同学留言,能不能安排“读写手机文件”的示例。我们今天就来实现这个小功能。 当然,熟悉adb的同学,看到这个需求,肯定很开心,不就是一个 adb push 和 adb pull 嘛,非常简单呀。 确实如此…

20230829工作心得:如何把大List 切割为多个小List?

1 怎么看这个方法谁在调用它? 解决:按ctrl,然后点进去看。 idea里看方法的具体细节,和谁在调用这个方法,都可以通过按ctrl,然后单击查看。 2 请求的时候,如果时间yyyy-MM-dd HH:mm:ss在url里会…

kaggle新赛:谷歌AI模型运行时间预测赛题解析【数据挖掘】

赛题名称:Google - Fast or Slow? Predict AI Model Runtime 赛题链接:https://www.kaggle.com/competitions/predict-ai-model-runtime 赛题背景 Alice 是一名 AI 模型开发人员,但她的团队开发的一些模型运行速度非常慢。她最近发现了编…

XSS漏洞及复现

一、什么是XSS 跨站脚本( Cross-site Scripting )攻击,攻击者通过网站输入框输入payload(脚本代码 ),当用户访问网页时,恶意payload自动加载并执行,以达到攻击者目的( 窃取cookie、恶意传播、钓鱼欺骗等)为了避免与HTML语言中的C…

【kubernetes】Argo Rollouts -- k8s下的自动化蓝绿部署

蓝绿(Blue-Green)部署简介 在现代软件开发和交付中,确保应用程序的平稳更新和发布对于用户体验和业务连续性至关重要。蓝绿部署是一种备受推崇的部署策略,它允许开发团队在不影响用户的情况下,将新版本的应用程序引入生产环境。 蓝绿部署的核心思想在于维护两个独立的环…

DAY07_Maven高级——分模块开发与设计依赖管理聚合与继承属性管理多环境配置与应用私服

目录 一 分模块开发与设计1. 分模块开发的意义问题导入模块拆分原则 2. 分模块开发问题导入2.1 创建Maven模块2.2 书写模块代码2.3 通过maven指令安装模块到本地仓库(install指令) 二 依赖管理1. 依赖传递问题导入 2. 可选依赖问题导入 3. 排除依赖问题导…

分布式调度Elastic-job

分布式调度Elastic-job 1. 概述 1.1什么是任务调度 我们可以思考⼀下下⾯业务场景的解决⽅案: 某电商平台需要每天上午10点,下午3点,晚上8点发放⼀批优惠券某银⾏系统需要在信⽤卡到期还款⽇的前三天进⾏短信提醒某财务系统需要在每天凌晨0:10分结算前…

18. 填坑Ⅰ

Description 又是北湖深坑,惊不惊喜,意不意外?! 觉得用水填湖太没意思了,用石头填坑多有意思。 假设北湖的地面还是一维的,每一块宽度都为1,高度是非负整数,用一个数组来表示。 现提…