阿里云Startup平台推出AI24小时系列文章,网罗国内外最新的AI人工智能前沿资讯,帮助AI创业者掌握最新行业资讯。
1.OpenAI在大语言模型(LLM)的可解释性方面取得的新进展 >>
大语言模型因其在多种应用场景中的潜力而受到广泛关注,但人们对模型内部的神经活动理解有限。OpenAI开发了一种新方法,能够对GPT-4进行“扫描”,揭示AI的思考过程,并将这种方法开源。使用改进的稀疏自动编码器技术,OpenAI在GPT-4中提取了1600万个特征,这些特征通常与可理解的概念相对应。包括已离开OpenAI的Ilya Sutskever和Jan Leike在内的团队成员参与了这项研究。这是一种识别神经网络中关键特征的方法,这些特征对于生成给定输出非常重要,并且显示出与人类易于理解的概念一致的稀疏激活模式。
2.AI界的“海马体”:HippoRAG技术如何让机器像人类一样思考? >>
谷歌的AI搜索功能AI Overviews在信息检索上存在问题,例如提供错误或荒谬的答案,这突显了大型语言模型(LLMs)在信息检索上的局限性。检索增强生成(RAG)技术被看作是解决LLMs局限性的一种方法,但最近的证据表明,RAG在确认信息真实性方面存在缺陷。俄亥俄州立大学NLP团队的论文提出了HippoRAG,这是一种模仿人脑记忆功能的AI技术,通过整合知识图谱、个性化PageRank算法和检索编码器来增强LLMs的知识整合和多跳推理能力。HippoRAG在多跳问答任务上表现出色,相较于现有RAG方法,性能提升了约3%到20%。单步检索成本比迭代检索方法低10到30倍,速度也快6到13倍。HippoRAG在处理没有明确路径的复杂问题时也显示出优势,可以与现有迭代检索方法结合使用,提高性能。
1.OpenRLHF >>
大型语言模型(LLM)规模的增长带来了性能提升,但同时也面临与人类价值和意图对齐的挑战。根据人类反馈的强化学习(RLHF)是解决这一问题的有效技术之一。随着模型规模的扩大,RLHF训练需要更多的计算资源和复杂的学习流程,尤其是在模型参数超过700亿时,现有架构难以满足需求。这个新框架通过使用Ray、vLLM和DeepSpeed重新设计模型调度,支持超过700亿参数的模型进行RLHF训练,具有简单易用、高性能、分布式RLHF和集成PPO实现技巧等优势。OpenRLHF能够与Hugging Face Transformer无缝整合,支持混合专家(MoE)、Jamba和QLoRA等技术,实现了多个对齐算法,如直接偏好优化(DPO)和Kahneman-Tversky优化(KTO)等。
OpenRLHF使用Ray进行模型分配和细粒度编排,支持在多台GPU上分配至少四个组件模型,提高了调度效率。通过使用vLLM的张量并行化等技术,OpenRLHF加快了样本生成速度,并支持更大型的LLM模型。
2.独角兽公司Cohere >>
Cohere公司由Aidan Gomez和其他两位90后校友Ivan Zhang、Nick Frosst于2019年创立。公司最近完成了4.5亿美元的融资,估值达到50亿美元(约360亿人民币)。Aidan Gomez是深度学习领域的重要论文《Attention is All You Need》的作者之一,该论文首次提出了Transformer架构,对AI领域产生了深远影响。Cohere专注于利用大型AI模型服务企业客户,并设计了针对性的付费模式。差异化战略帮助Cohere在AI市场中获得了竞争优势。Cohere与Jasper、HyperWrite、Salesforce等公司建立了合作关系,截至2023年3月,公司收入达到3500万美元。Cohere的融资历程引人注目,早期获得了图灵奖得主Geoffrey Hinton等AI领域大牛的支持,并保持着一年一轮的融资节奏。
AI工具箱 >> 点击 进入
阿里云汇聚市面上最新、最全面的AI工具。从此,让你的创意不再遥远
#阿里云 #Create@AI创客松 #AI创业
ToB 企业软件的智能化正在经历从传统小模型、知识图谱驱动向大模型驱动的引擎升级。大模型已不仅仅局限在简单的生成或理解文本和图像数据,更成为AI智能体的超级大脑。
以大模型为核心的企业软件势在必行,如何将其融入业务并实现持续价值是企业面临的必答题。为此,第五季Create@Al 创客松,以“AI x 企业服务”为主题,邀约所有利用大模型能力构建企业服务产品的公司参加。