号称地表最强人形机器人,来了。当地时间周二早晨,获得微软、英伟达、OpenAI投资的硅谷著名智能创业公司 Figure 正式发布了自己的新一代人形机器人Figure 02。基于机载算力和各个组件的全方位升级,AI人形机器人朝着进厂打工又迈进了一大步。据介绍...
随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。就在近日,...
AI视频生成赛道风起云涌,国内外新颖的文生、图生视频产品层出不穷。在各大厂商的内卷之下,当下的视频生成模型各方面已经接近以假乱真的效果。例如,OpenAI 的 Sora 和国内的 Vidu、可灵等模型,通过利用 Diffusion Transformer 的扩展特性,不仅能...
在人工智能领域,每一天都可能发生颠覆性的变革。就在Midjourney刚刚进行大更新的第二天,开源图像生成领域就迎来了一匹令人瞩目的黑马——FLUX.1。这个突如其来的新玩家不仅在性能上声称大幅超越了DALL·E3、Midjourney V6等闭源模型,还将开源的SD3系列全线...
在最近的大模型战争中,OpenAI似乎很难维持霸主地位。虽然没有具体的数据统计,但Claude3.5出现后,只是看网友们的反响,就能感觉到OpenAI订阅用户的流失:既然Claude3.5比GPT-4o好用,为什么我们不去订阅Claude呢?而这长达数月的批评声中,OpenAI似乎尽显颓...
这可能会是AI技术形态的一个转折点,大模型的下一个形态,不再是人和模型一轮一轮的即时问答了。当地时间 7 月 29 日,在美国丹佛举行的第 51 届 SIGGRAPH 计算机图形学会议上,英伟达创始人、CEO 黄仁勋与 Meta 创始人、CEO 马克・扎克伯格进行了一场全球瞩目...
继前几日推出完开源大模型Llama 3.1后,就在刚刚,Meta在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频...
在很长一段时间内,占据大模型评测榜单最前列的大多是一些闭源模型,直到Meta再次发布了最新的开源模型。就在近日,Meta和OpenAI打响了硅谷 AI 大模型保卫战。美国当地时间7月23日,Meta正式发布Llama 3.1。其包含8B、70B 和405B三个规模,最大上下文提升到了...
在人工智能的浪潮中,个性化体验已成为创新的关键。而随着各种各样的模型迭代更新,如何为AI应用提供持久、智能的记忆系统逐渐成为了一个关键挑战。最近开源的Mem0项目为我们提供了一个强大的解决方案。它为大型语言模型(LLM)提供了一个智能、自我优化的记忆...
小模型,成为本周的AI爆点。与动辄上千亿参数的大模型相比,小模型的优势是显而易见的:它们不仅计算成本更低,训练和部署也更为便捷,可以满足计算资源受限、数据安全级别较高的各类场景。因此,在大笔投入大模型训练之余,像 OpenAI、谷歌等科技巨头也在积极...
OpenAI昨日发布了全新的小型AI模型GPT-4o mini,这一模型在性能和成本效益方面都取得了重大突破,Sam Altman惊呼:通往智能的成本,已变得如此低廉。性能与成本的完美平衡GPT-4o mini在性能上显著超越了其前身GPT-3.5 Turbo,同时将成本降低了60%以上。每百万...
近年来,大型语言模型(LLM)的诞生刺激了对即插即用人工智能系统的需求不断增长,而在各种人工智能技术中,Prompt工程,即通过不断调整给予大模型的指令以优化大模型生成结果显得尤为重要。然而,由于陡峭的学习曲线和大量的时间投入,用户在编写提示时经常...
近日,当下炙手可热的快手宣布开源旗下明星产品可灵中一项重要技术项目LivePortrait。,该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。如下动图所示:LivePortrait的主要功能包括从单一图像生成生动动...
在人工智能领域,我们深感技术发展的迅速和成就的巨大。其中,法国初创公司MistralAI在这方面尤为令人瞩目。MistralAI成立于2023年5月,由DeepMind和Meta的前科学家创立,被称为欧洲版OpenAI。这是一家创新而富有前景的公司,他们的雄心壮志和成绩让人叹...
近期,快手平台又又又成为了焦点。就在OpenAI 当家花旦 Sora 的公测还遥遥无期时,快手就率先祭出了对标的当家产品可灵。得益于其逼真、高清和与Sora不相上下的视觉表现,它迅速赢得了全球网民的喜爱。据快手,可灵申请用户已经近70 万,已超30 万用户使用趁...
简介一周前,由红杉投资的硅谷初创公司UTA AI推出了其核心产品Wanderboat AI,这是一个基于GPT-4技术的智能旅行规划工具。该平台允许用户通过对话交互来明确旅行的偏好和需求,并提供包括目的地、活动和实用建议在内的定制化旅行建议。Wanderboat AI整合了视...
简介近年来,人工智能(AI)技术的进步极大地改变了人类与机器的互动方式,特别是在语音处理领域。阿里巴巴通义实验室最近开源了一个名为FunAudioLLM的语音大模型项目,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM包含两个核心模型:...
在当今数字化世界中,视频已成为人们获取信息和娱乐的主要方式之一。AI视频生成领域的竞争也很激烈,Pika、Sora、Luma AI以及国内的可灵等,多模态、视频生成甚至也被视为大模型发展的某种必经之路。然而与文本生成相比,视频生成模型场景似乎更远,Sora在二...
在深度学习和人工智能应用,选最合的硬件对于模型训练和推任务关。在大模型训练,英伟达4090并不是最的选。训练任务通常要更大的显存容量、更的内存带宽的计算能。这些求,英伟达的高性能显卡系列,比如A100和H100,更适合处理大数据集和复杂模型。,在推理任...
近日,今年备受瞩目的Claude更新了它的相关功能,其中包括了一键生成、测试和评估prompt以及Artifacts 分享功能及可在别人基础上修改混合。处理prompt的强大功能当我们构建AI应用时,prompt的质量对最终的表现产生了巨大的影响。然而,打造高品质的prompt项目...
项目介绍Code2prompt 是一个命令行工具,能将你的代码库转化为单一的大型语言模型(LLM)提示,结合源码树结构,模板定制,以及令牌计数。它旨在简化与高级上下文窗口模型如GPT或Claude的交互,助你在重写代码、查找bug、编写文档和实现新功能等方面提升效率...
7月5日,在2024世界人工智能大会可信大模型助力产业创新发展论坛上,蚂蚁集团公布其自研百灵大模型最新研发进展:百灵大模型已具备能看会听、能说会画的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。原生多模态被...
MindsDB作为一个开源项目,它旨在将机器学习模型无缝集成到现有的数据库系统中,为用户提供实时的数据预测能力。这个项目的创新之处在于,它能够以简单、直观的方式让开发者和非技术人员都能够利用AI进行数据分析和预测。 它是根据企业数据库定制的AI平台,使...
在当今的图形处理领域,NVIDIA一直以其卓越的性能和创新的技术引领市场潮流。作为其最新的旗舰级显卡,GeForce RTX 4090一经发布便吸引了无数玩家的目光。作为最大的卖点,游戏性能以及功效无疑是这张显卡作为佼佼者的地方;于此同时,其关于视频编辑、3D建模...
智能眼镜仍然是一个尚未完全成熟的未来概念,但生成式人工智能的到来显著提升了这些设备的能力。Meta 的 Ray-Ban 智能眼镜被许多人视为当今最好的选择之一,而现在 Solos AirGo Vision 正在为其带来竞争,这款眼镜还集成了 Google Gemini 支持。尽管 Solos 不...