十分钟带你看清GPT

前言

2023年3月14日，传说中的PI Day - 纪念3.1415926的日子，OpenAI发布了一场Live Demo，正式官宣GPT-4，展示了GPT模型的最近进展。

整场发布会做了四个演示，分别是：

让GPT用指定字母开头的单词来回答问题；
现场编程做一个Discord机器人，使用GPT-4 API读取图像和文本；
GPT-4配合最新的税务规定，成功利用条款调整报税；
最惊艳的是最后一个。把纸上绘制的示意图，通过GPT4直接转化成可以运行的一个HTML网页，同时还有javascript的功能按钮。

OpenAI在官网上对GPT-4的亮点做了总结，我们对照演示，可以更清楚地看到GPT-4究竟厉害在哪里。

亮点之一：多模态

关于多模态，官网上是这么说的：GPT-4 can accept images as inputs and generate captions, classifications, and analyses.

如果你把上面这张气球的图片发给GPT-4，问它：如果把绳子割断会发生什么？GPT-4的答案是气球会飞走。

这说明GPT-4不仅仅识别出来图片中的物体：绳子，气球，还有他们之间的关系：一大堆气球是被绳子绑住的；同时结合自己的模型，做出一个推断：如果隔断绳子，气球就飞走，因为这是一个物理现象。

在3月14日的演示中， OpenAI在Discord机器人的Demo中展示这个能力。如果你问GPT-4这张松鼠的图的笑点在哪里？它可以很精确的回答，松鼠放着喜欢吃的松果不要，反而像人一样拿着相机拍照。

这两个案例向人们展示GPT-4已经能够读懂简单的图片上的物品，物品之间的相互关系，并可以动用自己的知识库进行推理。也能够理解为什么和老版本相比，OpenAI认为GPT-4的推理是最强的。

最为惊艳的应用出现在现场演示的最后一个环节。演示者在笔记本上简单的画了一个网页的草图，手机拍照上传给GPT-4，随后GPT-4就能够按照这个草图马上生成一个HTML页面，而且还有javascript，CSS全部自动生成。

亮点之二：处理文字的能力加强

chatGPT已经展示了GPT模型强大的文字处理能力，OpenAI在官网中提到了两个提升：

文字处理的长度
对文字生成的控制

GPT-4中，文字处理长度已经被拓展到了25，000个字，容量约等同于一本简短的电子书。所以GPT-4直接阅读wikiPedia的一个完整页面是毫无压力的。

另外一点是对文字生成的控制，这一点官网给出的用例是文字创作，比如写歌词，诗歌等等。老的GPT模型虽然具备这些能力，但是人对于产生的内容不能直接控制，所以往往是给出一个命题让GPT自由发挥。GPT-4中让用户对于产生的内容能够有一些控制力，比如现场Demo中展示的要求GPT-4返回的答案一定带有某个字母开头的单词。

我认为这点在展示的时候说明的不太充分，很多人可能没有完全理解这样做的意义何在。我的看法是这种能力让GPT-4可以更好地与人类实现“共创”内容，而不是依赖模型输出，然后只做简单的修改。这一点上非常有意义，可以大幅加快内容创作者的工作效率。所以官网中特意强调了
“collaborative”，“learning a user’s writing style”这些亮点。

亮点之三：大大提升对于安全的重视

在chatGPT火速出圈之后，也带来了一些社会问题，例如回答中的可能出现的偏见，缺少道德评判以至于可能会帮助一些人做危害社会的事，等等。

公平的说，这些问题不是仅仅chatGPT带来的，而是人类社会在进入AI时代时候必然会出现的。其实这些风险在AI研究圈子内早就被讨论过，并不是新发现的问题。Google虽然在AI技术方面投入很大却迟迟没有推出产品，也和社会安全方面的顾虑有很大关系。

无论如何，在OpenAI的强力推动下，下一个AI时代已经开启了，这些问题也不容再回避。GPT-4中特别强调在这个方面的改进，算是一个好的开始。

总结

从发布时间来看，我认为GPT-4的官方公告显得有些仓促。最近，由于chatGPT的出现，市场对AIGC的关注度迅速升温，这完全打破了原有局面。在这个时候采取顺势而为、乘胜追击的策略不仅可以展示OpenAI在AIGC领域中的领导地位，还能够抑制Google等竞争对手可能发起的反击。

当然，在技术发展方向上，GPT-4已经进化到了多模态阶段，并且可以将输入内容从文字扩展到图片、音频和视频。通过阅读图片并结合自身知识建立强大推理关系，它具备重要意义。这也是为什么OpenAI在其官网上与老版本进行比较时将Reasoning放在第一位。

强大的推理能力也体现在其他应用场景中：例如编程过程中根据最新技术文档实现动态排错以及完成报税任务时寻找税务规则最佳应用等。这些都显示出GPT-4智能水平进一步提高，并可能给生产力带来巨大飞跃。

回顾人类生产力发展历史，数字化虽然在很多方面带来效率提升，但同时一些新的低效行为也随之而来，比如编程中人工排查bug，反复调试，又如EXCEL表格枯燥的copy&paste操作。所以说，在数字化初期阶段完成之后，人类越来越需要通过智能化来进一步提高效率。可以说GPT-4以及其他深度学习模型正在共同进化，推动数字化社会实现下一步生产力的巨大飞跃。

未来充满挑战和机遇，让我们拭目以待！

十分钟带你看清GPT

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

GPT4到底有多强大？试试这些免费体验方法，感受一下！

【免费下载】微软：人工通用智能GPT

GPT-4来了！支持以图生文 OpenAI付款系统被挤爆首批用户连夜写测评

如何安装 Auto GPT 4：分步指南

一款颠覆码农的软件Cursor，免费、无魔法的GPT-4

软通动力：公司与微软合作接入GPT-4打造iPSA Copilot 并已发布内测版本

微软频推GPT-4应用！协同办公或成大型多模态模型率先落地场景，这些A股上市公司与其紧密合作

微软旗下Nuance推出由GPT-4驱动的临床笔记应用

微软接入GPT-4后首份成绩单！智能云、Bing、Office杀疯了

Office全家桶接入GPT-4，微软抛出“王炸” | 最前线

图片 AI 工具

游戏 AI 工具

视频 AI 工具

聊天 AI 工具

音频 AI 工具

AI 资讯

AI 教程

Prompt 词库

十分钟带你看清GPT

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

GPT4到底有多强大？试试这些免费体验方法，感受一下！

【免费下载】微软：人工通用智能GPT

GPT-4来了！支持以图生文 OpenAI付款系统被挤爆 首批用户连夜写测评

如何安装 Auto GPT 4：分步指南

一款颠覆码农的软件Cursor，免费、无魔法的GPT-4

软通动力：公司与微软合作接入GPT-4打造iPSA Copilot 并已发布内测版本

微软频推GPT-4应用！协同办公或成大型多模态模型率先落地场景，这些A股上市公司与其紧密合作

微软旗下Nuance推出由GPT-4驱动的临床笔记应用

微软接入GPT-4后首份成绩单！智能云、Bing、Office杀疯了

Office全家桶接入GPT-4，微软抛出“王炸” | 最前线

GPT-4来了！支持以图生文 OpenAI付款系统被挤爆首批用户连夜写测评