Gradio 5 无需代码构建应用,AlphaFold 获诺奖,Aria 多模态模型发布,Whisper Large v3 Turbo 提速,特斯拉全球扩展自动驾驶

阿里云创新中心> 创业资讯> Gradio 5 无需代码构建应用,AlphaFold 获诺奖,Aria 多模态模型发布,Whisper Large v3 Turbo 提速,特斯拉全球扩展自动驾驶

Gradio 5 无需代码构建应用,AlphaFold 获诺奖,Aria 多模态模型发布,Whisper Large v3 Turbo 提速,特斯拉全球扩展自动驾驶

齐思GPT 2024-10-11 00:00:00 152
_
## Twitter: **Gradio 5 发布** :Hugging Face 宣布了 Gradio 5 的稳定版本,这是一个用于创建和共享机器学习应用的平台,目前在 Hugging Face Spaces 上拥有超过 200 万月活跃用户和 470,000 个应用程序。此版本引入了新功能,包括无需编写代码即可构建 Gradio 应用的方法,旨在解决开发者的常见挑战,详细信息请参见[公告](https://news.miracleplus.com/share_link/43775)。 **AlphaFold 获得诺贝尔化学奖** :Demis Hassabis 和 John Jumper 因其在 AlphaFold 上的工作获得了诺贝尔化学奖,这是一项在蛋白质折叠领域的革命性 AI 突破,强调了 AI 在科学进步中的潜力,详细信息请参见[Ilya Sutskever 的推文](https://news.miracleplus.com/share_link/43863)和[Max Tegmark 的推文](https://twitter.com/tegmark/status/1844341373652095175)。 **Aria 多模态模型发布** :Rhymes AI 发布了 Aria 模型,这是一种多模态专家混合(MoE)模型,作为开源项目在 Apache 2.0 许可证下发布,具有 3.9B 活跃参数和 64K 令牌上下文窗口,在各种任务中性能优于 Pixtral 和 Llama,详细信息请参见[公告推文](https://news.miracleplus.com/share_link/43865)。 **OpenAI 的 Whisper Large v3 Turbo 模型** :Groq 为 OpenAI 的新 Whisper Large v3 Turbo 语音转文本模型推出了一个端点,该模型比其前身小近 50%,参数从 15.5 亿减少到 8 亿。尽管词错误率略有增加,但该模型在速度上有显著提升,非常适合速度依赖的转录用例,详细信息请参见[发布](https://news.miracleplus.com/share_link/43773)。 **特斯拉的战略扩张与 AI 革命** :Cathie Wood 预期 AI 革命中的重大事件,特斯拉展示其 Cybercab 机器人出租车并在全球扩展自动驾驶移动性,尽管机构投资者持怀疑态度。更多细节请参见[TashaARK 的文章](https://news.miracleplus.com/share_link/43776)。 **OpenAI 的 MLE-bench** :OpenAI 发布了 MLE-bench,这是一个新的基准,用于评估 AI 代理在机器学习工程中的性能,包含来自 Kaggle 的 75 个竞赛。此举旨在增强 AI 在工程任务中的能力,详细信息请参见[OpenAI 的推文](https://news.miracleplus.com/share_link/43866)。 **Llama 3.1 在自闭症护理中的应用** :Meta 的 AI 团队通过在临床医生创建的合成数据上训练 Llama 3.1 来推进自闭症护理,利用提示工程技术和 RAG。此计划由 Neuromnia 领导,旨在开发 Nia,一个以人为中心的 AI 副驾驶,详细信息请参见[AIatMeta 的推文](https://news.miracleplus.com/share_link/43792)。 **多模态 Llama 3.2 介绍** :Meta 在 DeepLearningAI 上推出了一门新课程,涵盖 Llama 3.1 和 3.2,重点是多模态提示和自定义工具调用。该课程免费,持续一小时,旨在帮助开发者使用 Llama Stack 构建应用,详细信息请参见[DeepLearningAI 的推文](https://news.miracleplus.com/share_link/43867)。 **机器人出租车开发与挑战** :机器人出租车的开发重点在于安全和法律合规网络的挑战和要求,行业专家讨论了 AI 覆盖、碰撞检测和紧急响应能力,更多见解请参见[详细推文](https://news.miracleplus.com/share_link/43868)。 **复杂性在 LLM 中的暴露** :一项研究表明,复杂性的暴露可以推动大型语言模型(LLM)的智能,最佳性能在“混沌边缘”实现。研究涉及在基本细胞自动机数据上训练 GPT-2 模型,显示在复杂规则上训练的模型优于简单规则,详细信息请参见[Rohan Paul 的推文](https://news.miracleplus.com/share_link/43869)。 ## HackerNews: **为什么我们帮助更多的维基从Fandom迁移** [链接](https://news.miracleplus.com/share_link/43827): 这篇文章讨论了Weird Gloop帮助维基从Fandom迁移,以创建更好的社区控制平台的努力。讨论重点: - **成本和可持续性:** Minecraft Wiki从Fandom迁移的原因是高昂的运营成本,这些成本由于Cloudflare等服务的出现而有所降低。最初出售给Fandom的决定是由于财务需求和缺乏对独立可持续性的远见。 - **无广告和社区控制:** 用户表示更喜欢无广告的维基和对其内容的控制。Infosphere拒绝与Fandom合并是由于广告问题,这突显了对社区驱动平台的渴望。 - **Weird Gloop的结构:** Weird Gloop是一家营利性公司,但由维基爱好者控制,没有第三方投资者,旨在避免其他平台如Fandom所见的恶化问题。 - **独立的法律协议:** Weird Gloop签订具有约束力的协议,允许社区在找到更好的选择时离开并带走他们的域名,确保他们不被锁定在单一平台上。 - **收入来源:** Weird Gloop通过用户捐赠、选择性广告和与游戏开发商的服务协议来维持自身的运营,在不影响用户体验的情况下保持财务健康。 **222. 用软件自动化流程是困难的** [链接](https://news.miracleplus.com/share_link/43831): 这篇文章讨论了自动化流程的复杂性,强调了异常处理的重要性而非简单任务。讨论重点: - **状态限制:** 有效的自动化涉及限制状态和管理异常。工具包括识别分歧项和重新统一路径,而不是创建复杂的分支。 - **迭代方法:** 自动化不应一开始就追求100%的覆盖率。应从半自动化开始,结合手动质量检查点,逐步增加自动化。 - **人工干预:** 自动化应允许人工干预,正如丰田生产系统的Jidoka原则所示,强调仅自动化充分理解的手动步骤,并允许人在必要时停止流程。 - **简化:** 设计良好的自动化应类似于漏斗,而不是地铁图,以避免复杂性并确保流程的清晰性。 ## Discord: ```markdown **AMD挑战Nvidia的Instinct MI325X AI芯片** :AMD推出的**Instinct MI325X** AI芯片在Meta的Llama 3.1模型上推理性能比Nvidia的H200高出40%,计划于2024年底量产,并通过增强**ROCm软件** 与Nvidia的CUDA竞争。[阅读更多](https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.html)。 **CogVideoX竞争者视频生成模型** :基于**sd3** 的新视频生成模型以20亿参数实现与**CogVideoX** 相似的视频质量,而CogVideoX使用了50亿参数。[详细信息](https://pyramid-flow.github.io)。 **Flux模型与NVIDIA TensorRT集成** :**Flux模型** 现支持**NVIDIA TensorRT** ,性能提升高达20%,在HuggingFace上三周内下载量超过200万次。[更多信息](https://blogs.nvidia.com/blog/ai-decoded-flux-one/)。 **大型语言模型的知识图谱训练** :Rosanne的论文探讨了从零开始使用**知识图谱** 训练**语言模型** 的方法和见解。[海报展示](https://news.miracleplus.com/share_link/43870)。 **LLM评估指南** :Clementine Fourrier发布了一本关于评估大型语言模型(LLMs)的指南,涵盖自动基准测试、人类评估和故障排除。[访问指南](https://github.com/huggingface/evaluation-guidebook)。 **CUDA中的快速矩阵乘法内核** :@armbuster分享了在Turing架构上创建与**cuBLAS** 性能相当的**fp16 GEMM内核** 的见解,重点在于**分层平铺** 和**算术强度** 。[阅读更多](https://alexarmbr.github.io/2024/08/10/How-To-Write-A-Fast-Matrix-Multiplication-From-Scratch-With-Tensor-Cores.html)。 **CUTLASS与PyTorch集成** :@marksaroufim讨论了在torchao中使用CUTLASS探索低位内核的集成,以及在`torch.compile`中引入新的CUTLASS后端以增强性能。[GitHub PR](https://github.com/pytorch/ao/pull/880)。 **Triton TMA接口重构** :@ptillet正在重构Triton中的**TMA(Tensor Memory Accelerator)接口** 以提高性能和兼容性。[持久矩阵乘法教程](https://github.com/triton-lang/triton/blob/main/python/tutorials/09-persistent-matmul.py)。 **链式思维推理无需提示** :@jsarnecki分享了一项研究,展示了**大型语言模型(LLMs)** 如何通过改变**解码过程** 来进行**链式思维(CoT)推理** ,揭示了内在的推理能力。[论文](https://arxiv.org/abs/2402.10200)。 **自回归损失函数与探索** :@paraschopra指出**自回归模型** 在面对高熵、低概率正确答案时倾向于探索更多路径,因为这比错误输出损失更小。[相关资源](https://github.com/KellerJordan/modded-nanogpt)。 **权重更新的正交化** :@fern.bear和@faresobeid讨论了在**测试时间训练(TTT)** 中使用**奇异值分解(SVD)** 来正交化梯度矩阵,可能平滑参数更新。[arXiv论文](https://www.arxiv.org/abs/2409.20325)。 **OpenAI的语音到语音重新定义** :@pendrokar强调OpenAI的[实时API](https://news.miracleplus.com/share_link/43453),支持**文本到语音** 和**语音到语音/语音转换** ,引入了新的**语音到语音** 概念。 **RAG(检索增强生成)理解** :@hy3na_xyz寻求学习RAG的资源,@teknium建议**Embed Chain** 作为起点,@gabriel_syme提到**RAGtouille** 作为潜在的入门库。 **大型语言模型的性能基准** :@the_alt_man引用了标准基准如**BBH, MMLU, OpenbookQA, AIW, 和ARC-AGI** 来评估语言模型的推理改进,用于验证增强推理能力的声明。 **Hermes 3 405b instruct模型的上下文窗口限制** :@leon_0795指出该模型的8k上下文窗口限制,并建议使用**nousresearch/hermes-3-llama-3.1-405b:extended** 作为128k上下文窗口的替代方案。 **LLM工具调用支持** :LLM的新功能允许插件注册工具,使模型能够访问这些工具,包括默认的**read_files** 工具和示例**brave_search** 工具。[GitHub PR](https://github.com/simonw/llm/pull/581)。 **视频背景去除工具** :@kingnish24介绍了一种工具,可以用任何颜色、图像或视频替换视频背景,与另一用户合作开发。[Hugging Face Space](https://huggingface.co/spaces/innova-ai/video-background-removal)。 **Rust Provenance API与Mojo** :@darkmatter__建议将**Rust的provenance API** 集成到Mojo中,以改善API如**io_uring** 中的**int -> ptr转换** 处理,可能解决DMA设备问题并增强优化。[GitHub PR](https://github.com/rust-lang/rust/pull/130350)。 **AI代理在终端中的应用** :@facelessman分享了一个[GitHub仓库](https://news.miracleplus.com/share_link/43871),用于集成终端工具的AI代理,能够运行shell命令、执行代码和管理文件,提升开发和基于终端的任务。 ``` ## HuggingFace & Github: ### 视频生成技术 - [Pyramid Flow](https://news.miracleplus.com/share_link/43824) 代表了**自回归视频生成** 领域的重大进展,能够生成**高质量的10秒、768p分辨率、24 FPS** 的视频,并支持**图像到视频** 的生成。用户可以从**Huggingface** 下载模型,涵盖768p和384p的视频生成。 ### 编码与文本生成模型 - [Dracarys](https://news.miracleplus.com/share_link/43826) 是**Qwen2.5-72B-Instruct** 的微调版本,在**LiveCodeBench** 中得分更高,旨在提高编码性能。其提示格式与Qwen2.5-72B-Instruct相同,支持与Transformers一起使用,并在**代码生成和测试输出预测** 方面表现优秀。 ### 多模态与视觉理解 - [Aria模型](https://news.miracleplus.com/share_link/43825) 是一款**多模态人工智能模型** ,能够在**10秒内** 为256帧的视频生成字幕,表现出色。该模型支持多达**64K个多模态标记** ,展示其在处理大量数据方面的多功能性,适用于多种视觉输入。 ### 物体检测与遥感图像 - [WALDO v3.0 AI 模型](https://news.miracleplus.com/share_link/43841) 基于**YOLO-v8** 架构,用于检测遥感图像中的多种物体类别,如**车辆、人员、建筑物** 等。WALDO适用于**灾难恢复、野生动物保护、交通流量管理** 等应用,展示其多功能性。 ### 区块链技术 - [Shardeum](https://news.miracleplus.com/share_link/43823) 是基于**EVM** 的自动扩展区块链,引入**分片模型** 实现水平扩展,具有**低延迟和高吞吐量** 性能。它兼容现有的DApps和智能合约,并提供建立本地Shardeum网络的逐步过程。 ### 开源与应用程序开发 - [E2B的Fragments](https://news.miracleplus.com/share_link/43856) 是一款创新的开源**Next.js模板** ,用于通过**人工智能生成应用程序** 。它支持多种编程堆栈和大型语言模型(LLM)提供商,使其适合希望在应用程序中利用AI功能的开发人员。 ## Reddit: **MLID $1999 - $2499 RTX 5090 定价** [链接](https://news.miracleplus.com/share_link/43872): 讨论围绕着传闻中Nvidia RTX 5090显卡的定价,强调了对其成本和价值主张的担忧。讨论重点包括: - **定价担忧:** RTX 5090预计定价在**$1999到$2499** 之间,这被视为与之前型号相比的显著增加,导致了对**垄断定价** 的指责。 - **价值比较:** 用户建议购买多个较旧型号如**RTX 3090** 可能在**VRAM容量** 方面提供更好的价值,相比于单个RTX 5090。 - **市场动态:** 对于**需求和定价策略** 存在怀疑,一些人认为Nvidia正在测试市场愿意支付如此高价的意愿。 - **VRAM限制:** RTX 5090的**VRAM容量** 是一个争议点,用户认为这不足以证明其价格合理,特别是对于那些需要高VRAM用于特定应用的人来说。 - **替代选项:** 一些用户对**AMD** 可能提供更具竞争力的定价表示兴趣,而另一些人则考虑坚持使用旧型号或探索不同品牌。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。