阿里云Startup平台推出AI24小时系列文章,网罗国内外最新的AI人工智能前沿资讯,帮助AI创业者掌握最新行业资讯。
1.XR(扩展现实)产业发展深度分析 >>
苹果历时8年、投入数十亿美元研发的Vision Pro开始发货,这款产品代表了苹果对下一代计算平台的期待。2016年消费级VR、AR产品开始受关注,但受限于产品成熟度和成本,市场热情很快消退。2021年元宇宙概念兴起带动VR市场,但随后市场再次降温。与VR相比,AR和MR设备因交互方式更自然、可用作效率工具,有潜力成为下一代计算平台。XR行业面临的挑战包括软件生态不完善、输入交互方式不成熟、缺少杀手级场景等。核心问题在于硬件,尤其是头显设备的不可能三角(性能、尺寸、价格)。Micro-LED技术被视为XR显示屏的终极解决方案,具有稳定性、低延迟、高像素密度等优势。赛富乐斯作为量子点Micro-LED技术的领先探索者,有望在关键硬件上实现技术突破。
2.自动驾驶行业迎来新一轮上市热潮和行业复苏>>
自动驾驶行业在经历一段时间的低迷后,现在有多家公司如禾赛科技、速腾聚创、图达通等激光雷达企业,以及黑芝麻智能、地平线等智驾芯片企业,还有文远知行、知行科技等方案商都在积极筹备上市。文章提到,自动驾驶行业在早期由于技术过于超前和商业模式不成熟,遭遇了发展瓶颈。许多公司从追求L4、L5级别的自动驾驶技术转向更实际的Robotaxi、Robotruck或封闭场景下的送货、扫地机器人等应用。随着智能驾驶辅助系统(ADAS)的市场需求增加,激光雷达厂商和智驾芯片厂商迎来了业绩的增长。特别是禾赛科技的激光雷达交付量大幅增加,显示出智驾市场对自动驾驶技术的“接盘”。
1.硅谷AI竞争迈入一个新阶段>>
硅谷AI领域的竞争已迈入了一个崭新阶段,以OpenAI的GPT-4o和谷歌的Project Astra为代表的多模态AI技术标志着科技巨头间的生成式AI之战进入白热化状态。这些新技术不仅使AI具备了“听觉”和“视觉”,实现了文本、声音、视觉的无缝融合,还极大提升了交互的自然度和效率,预示着人工智能向通用人工智能(AGI)的迈进。
OpenAI GPT-4o:低延迟语音交互的突破
GPT-4o的发布展示了跨文本、语音和视觉的端到端交互能力,其低至232毫秒的语音响应时间近乎于人类交流水平,克服了以往多步骤转换导致的延迟和信息损失。该模型能够理解复杂的非言语信号,如呼吸急促、面部表情和情绪,甚至能根据情境变换语气和风格,模拟人类的社交互动,体现了从技术到应用的全面革新。
谷歌Project Astra:全生态的多模态升级
谷歌不甘示弱,通过Project Astra及Gemini模型展示了其在多模态AI的深厚积累。尽管未进行现场演示,谷歌通过视频展示了Gemini驱动的语音助手如何通过视觉辅助理解环境、提供即时帮助,以及在搜索、办公套件等领域的广泛应用。谷歌的野心在于通过AI全面革新用户体验,强化其在搜索和工作流程自动化上的领先地位。
苹果布局AI:移动端AI的较量 虽然苹果在此轮竞争中尚未公开其手牌,但种种迹象表明苹果正蓄势待发,准备将大模型技术融入iOS、Siri乃至未来的硬件设备中。通过一系列研究论文,苹果透露了其在移动端多模态模型、高效模型推理以及去掉唤醒词的语音检测技术等方面的进展,暗示着其在硬件与AI融合方面的深谋远虑。
随着OpenAI、谷歌、苹果以及其他科技巨头在多模态AI领域的深入探索,未来人工智能技术的应用场景将更加广泛且深入,涵盖从个人助理、办公协作到娱乐消费的方方面面。硬件与AI的结合,尤其是智能穿戴设备和AR/VR技术,将成为下一个前沿阵地,推动AI从概念走向实用,深刻改变人们的生活和工作方式。
AI工具箱 >> 点击 进入
阿里云汇聚市面上最新、最全面的AI工具。从此,让你的创意不再遥远
2023年9月21日,阿里云正式推出阿里云创业者计划,联合知名投资机构、加速器、创服机构以及大企业创新力量,旨在为初创企业提供全方位的赋能与服务,助力创业公司在阿里云上快速构建自己的业务,开启智能时代创业新范式。