随着ChatGPT引火的AI,2023年成了当之无愧AI之年。大模型和AI研究也层出不穷,百家争鸣,百花齐放!
本文我们就简单概述一下,最近一个月来AI研究方面的论文(论文均来自于arxiv),对其模型和结论给大家总结汇报一下,以便大家都能及时获取最新AI研究前沿动态。
大型语言模型(LLm)
StarCoder:源开源与你同在!
StarCoder: may the source be with you!
Arxiv地址:/abs/2305.06161
很有意思的一篇论文,论文名字居然可以这样起!
研究人员在从GitHub(通过The Stack数据集)抓取的1万亿个开源代码标记,以此为基础训练了一个15.5B参数、上下文宽度为8k的LLM。在创建了StarCoderBase基础模型后,研究人员在350亿个Python token上对其进行了微调。
由此产生的StarCoder模型优于当今所有其他Code LLM。
在最少的人工监督下从头开始进行语言模型的原则驱动自对齐
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervisio
Arxiv地址:/abs/2305.03047
论文中引入了一个新的模型Dromedary AI助手,它超越了Alpaca模型和Text-Davinci-003,一个经过微调的LLaMA模型。与ChatGPT不同,Dromedary不使用带有人类反馈的强化学习;它也不需要像Alpaca那样提取ChatGPT提示对。相反,他们提出了一种新颖的自对齐方法,包括在指令提示中附加指南。
逐步蒸馏!用更少的训练数据和更小的模型尺寸力克较大大语言模型
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
Arxiv地址:/abs/2305.02301
研究人员提出了一种蒸馏(Distilling)机制来管理特定于任务的较小模型,这些模型在训练数据较少的情况下超过了标准微调的性能。 首先,他们通过大型LLM提取基本原理(一种改写的提示)。然后使用这些基本原理和类别标签以监督方式训练较小的特定于任务的模型。
在基准测试论文提出的770M T5仅使用80%的可用数据就超过540B PaLM模型。
Unlimiformer:具有无限长度输入的远程Transformer
Unlimiformer: Long-Range Transformers with Unlimited Length Input
Arxiv地址:/abs/2305.01625
论文提出对现有LLM预训练编码器-解码器转换器进行包装,不需要任何额外的权重调整,只需将自我监督机制使用到k最近邻 (k-NN) 算法替代。该个想法是将较长的输入编码为存储在数据库中的较小块,检索块, 然后在解码层,增加k-NN监督头。
Unlimiformer改进了预训练模型,例如BART和Longformer通过将它们扩展到无限输入而不需要额外的在不修改代码的情况下学习了权重
ResiDual:具有双剩余连接的Transformer
ResiDual: Transformer with Dual Residual Connections
Arxiv地址:/abs/2304.14802
在最初的Transformer架构论文中,对层规范化的方法值得商榷和探讨,Pre-LN之前的残差连接会导致表征崩溃,而Post-LN之后的残差连接会导致梯度消失问题。
在本论文中,研究人员提出融合Post-LN和Pre-LN中的连接ResiDual,以继承Pre-LN和Post-LN的优点,同时避免它们的局限性。
scGPT:使用生成式 AI 构建单细胞多组学基础模型
scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI
地址:biorxiv/content/10.1101/2023.04.30.538439v1
在本论文中研究人员使用LLM的生成式预训练来预训练单细胞测序数据(例如基因)的基础模型。 由此产生的预训练模型展示了基因网络的零样本和聚类能力。
大型语言模型的涌现能力是海市蜃楼吗?
Are Emergent Abilities of Large Language Models a Mirage?
Arxiv地址:/abs/2304.15004
在LLM上下文中,常使用术语紧急能力来指代在训练期间没有明确教授的能力(例如,总结、翻译等),但作为模型理解和生成文本的能力的副产品出现它接触到的信息量。在最近的这项分析中,研究人员发现了强有力的证据,表明这些新兴能力不仅仅是将这些LLM扩展到更大规模的结果。研究人员认为,涌现能力是一种错觉,是由于选择了特定的绩效指标而产生的,因此涌现能力“可能是研究人员选择的产物”。
PMC-LLaMA:通过医学论文进一步微调LLaMA
PMC-LLaMA: Further Finetuning LLaMA on Medical Papers
Arxiv地址:/ abs/2304.14454
LLM对特定领域数据的另一种应用,但这里是微调,并非预训练。研究人员发现,经过微调的LLaMA模型(在医疗数据上进行了微调)在医疗任务和ChatGPT上的表现优于预训练基础模型。这是意料之中的,但这是另一个例子,随着公司希望优化LLM任务性能,微调LLM在未来将变得越来越重要。
使用RMT将Transformer扩展到100万个token甚至更多
Scaling Transformer to 1M tokens and beyond with RMT
Arxiv地址: /abs/2304.11062
本文中研究人员提出了使用循环记忆将大模型的输入上下文大小扩展到200万个token以克服大模型对话的输入限制。而OpenAI最先进ChatGPT中的GPT-4模型目前最多支持8192个token。
论文主要思想是以递归方式将输出作为内存与下一段的输入序列嵌入一起传递。
大型语言模型对齐的基本限制
Fundamental Limitations of Alignment in Large Language Models
Arxiv地址:/abs/2304.11082
自2022年11月ChatGPT发布以来,许多LLM研究都集中在指令微调和对齐LLM上,以对用户更有帮助,减少危害。本论文提出了一种称为行为期望界限 (BEB) 的理论方法,该方法表明对齐只能减少但不能防止不良和有害行为。
结论是对齐LLM的方法不能抵御对抗性提示攻击,需要设计可靠的机制来确保人工智能的安全。
评估生成搜索引擎的可验证性
Evaluating Verifiability in Generative Search Engines
Arxiv地址:abs/2304.09848
LLM驱动的生成搜索引擎正在兴起。研究人员对Bing Chat、NeevaAI、Perplexity AI和YouChat进行了审计,发现虽然回复内容丰富且流畅,但只有51.5%的生成句子完全由引用支持。只有74.5%的引用实际上为相应的句子提供了支持。
学习使用Gist标记压缩提示
Learning to Compress Prompts with Gist Tokens
Arxiv地址:/abs/2304.14802
Prompt工程备受关注但是通过LLM反复重新运行类似的提示不是很浪费,而且很费钱。
在本论文中研究人员开发了“要点”token,将任务压缩成特殊token以节省计算。通过测试LLaMA-7B和FLAN-T5-XX LM,使用gisting方法可实现高达26x压缩提示,让FLOPs减少40%,挂起时间减少4.2%,可以获得运行加速、存储节省和输出质量的最小损失。
大型语言模型的新兴自主科学研究能力
Emergent autonomous scientific research capabilities of large language models
Arxiv地址:/abs/2304.05332
论文中,研究者将多个LLM链接在一起,形成一个基于多LLM的智能代理,能够设计和规划化学实验,包括使用工具和浏览互联网实验。从技术的角度来看,有趣的是他们如何以一种实际运作良好的方式连接多个LLM。 但是,尽管标题引人注目,但该系统并没有生成新颖假设和实际有意义的实验设计。
关于AI生成文本检测的可能性
On the Possibilities of AI-Generated Text Detection
Arxiv地址:/abs/2304.04736
鉴于LLM和及其生成的文本数量的增加,研究人员重新审视了是否可以可靠地检测到AI生成的经常争论的话题。在该论文中,研究人员表明答案是肯定的。基于信息论界限,在大多数情况下,只要有足够的样本量,就应该可以检测到AI生成的文本。
计算机视觉(CV)
一次分割所有地方的一切
Segment Everything Everywhere All at Once
Arxiv地址:/abs/2304.06718
类似于Segment Anything方法,本论文提出了一种可提示的交互式图像分割模型SEEM。除了Segment Anything之外,该研究还提供了更多交互类型并支持更高级别的语义任务。
研究人员表示,虽然Segment Anything提示仅限于点、框和文本,但他们的模型还支持其他提示,包括点、框、涂鸦、遮罩、文本、 和另一幅图像的参考区域,并且还可以执行全景和实例分割
大规模视觉语言模型的稳定和低精度训练
Stable and low-precision training for large-scale vision-language models
Arxiv地址:/abs/2304.13013
使用bfloat16(和混合精度)训练各种模型是很常见的,虽然英伟达最新的H100 GPU可支持8位浮点数。对于量化训练,本文研究人员提出了Switch-Back,这是一个用于int8量化训练的线性层它优于现有的LLM.int8()基线,并且在精度上与 bfloat16匹配,同时可提高约20%的训练性能。论文提出了基于AdamW-Adafactor 混合体的方法StableAdamW,它在训练 CLIP ViT-Huge 模型时可以避免峰值损失并且表现优于渐变剪裁。
Patch Diffusion:更快、更高效的Diffusion模型训练
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models
Arxiv地址:/abs/2304.12526
本论文中,提出了一个优化模型Patch Diffusion,一种通用的patch-wise训练框架,可以降低训练时间成本,提高数据效率,有助于将Diffusion模型更广泛地推广和应用。
Patch Diffusion通过提高数据效率同时保持相同的图像质量,将扩散模型的训练时间加快了2倍。在特定案例中,研究人员只需要5000个训练示例来训练一个竞争模型。
Patch Diffusion方法包括来自随机裁剪的图像块的块级信息。
对齐Latent:高分辨率视频合成与Latent Diffusion模型
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
Arxiv地址:/abs/2304.08818
本论文的研究扩展Diffusion模型图像生成器的想法以生成视频。有趣的是,研究人员能够为这个文本到视频项目利用现成的预训练图像Diffusion模型。
Generative Disco:用于Text-to-Video实现音乐可视化
Generative Disco: Text-to-Video Generation for Music Visualization
Arxiv地址:/abs/2304.06718
本论文构建了Generative Disco模型,一种生成式AI系统,可以帮助使用LLM和文本到图像生成音乐可视化楷模。 用户选择音乐的间隔进行可视化,然后对其进行参数化 通过定义开始和结束提示来实现可视化。
文本到图像模型可以创建各种各样的视频。示例输出包括抽象动画和似乎在唱歌的动画角色。
Diffusion模型的掩码自动编码器
Diffusion Models as Masked Autoencoders
Arxiv地址:/abs/2304.03283
与大型语言模型相比,预训练扩散模型不会产生可用于其他下游任务的强大表征。 然而,研究人员将Diffusion模型制定为掩码自动编码器(DiffMAE)来解决这个问题。这可会在图像任务的Diffusion基础模型上产生新的、有趣的工作。
任意分割
Segment Anything
Arxiv地址:/abs/2304.02643
有脸书母公司Meta AI实验室的开源Segment Anything项目引入了用于图像分割的新任务、模型和数据集。附带的图像数据集是迄今为止最大的分割数据集,在 1100万张图像上有超过10亿个掩码。特别值得称赞的是,研究人员使用了经过许可且尊重隐私的图像,因此该模型完全开源,而无重大版权问题。