GLM-4-Plus是智谱AI最新推出的旗舰级预训练语言模型,标志着公司在人工智能技术上取得了重大突破。相比前一代GLM-3模型,GLM-4-Plus在多个关键指标上实现了大幅提升,尤其是在语言理解能力、指令遵循能力和长文本处理能力方面。这些进步使得GLM-4-Plus在各类...
NVIDIA和MIT的研究人员推出了一种新的视觉语言模型(VLM)预训练框架,名为VILA。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。VILA通过在大规模数据集如Coy0-700m上进行预训练,采用基于LLaVA模型的不同预训练策略...
AI视频生成赛道风起云涌,国内外新颖的文生、图生视频产品层出不穷。在各大厂商的内卷之下,当下的视频生成模型各方面已经接近以假乱真的效果。例如,OpenAI 的 Sora 和国内的 Vidu、可灵等模型,通过利用 Diffusion Transformer 的扩展特性,不仅能...
Gradient Al最近将Llama-3 8B和7B模型通过渐进式训练方法不断将Llama-3模型的上下文长度从8k-路扩展到262k、524k今天Gradient Al成功宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1 M...并且1M上下文窗口 70B 模型在 NIAH(大海捞针)上取得了完美分数。...
简介近年来,人工智能(AI)技术的进步极大地改变了人类与机器的互动方式,特别是在语音处理领域。阿里巴巴通义实验室最近开源了一个名为FunAudioLLM的语音大模型项目,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM包含两个核心模型:...
近日,当下炙手可热的快手宣布开源旗下明星产品可灵中一项重要技术项目LivePortrait。,该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。如下动图所示:LivePortrait的主要功能包括从单一图像生成生动动...
继前几日推出完开源大模型Llama 3.1后,就在刚刚,Meta在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频...
项目简介Funclip 是阿里巴巴通义实验室开源的一款视频剪辑工具,专门用于精准、便捷的视频切片。它能够自动识别视频中的中文语音并允许用户根据语音内容来裁剪视频。该工具使用了阿里巴巴语音识别模型FunASR Paraformer-Large确保了剪辑的精准性。你可以根据...
在人工智能的浪潮中,个性化体验已成为创新的关键。而随着各种各样的模型迭代更新,如何为AI应用提供持久、智能的记忆系统逐渐成为了一个关键挑战。最近开源的Mem0项目为我们提供了一个强大的解决方案。它为大型语言模型(LLM)提供了一个智能、自我优化的记忆...
Perplexica是一个开源的人工智能搜索工具,也可以说是一款人工智能搜索引擎,它深入互联网以找到答案。受Perplexity AI启发,它是一个开源选择,不仅可以搜索网络,还能理解您的问题。它使用先进的机器学习算法,如相似性搜索和嵌入式技术,以精细化结果,并...
OpenAI最近发布了新一代AI推理模型——o1,标志着其在复杂推理任务上的重大进展。该模型包括两个版本:o1-preview和o1-mini,分别针对复杂推理和快速处理任务。模型需要长时间思考,非GPT家族,调用方式需要修改调用成本3倍起步调用次数严格限制,每周几十次...
项目介绍Code2prompt 是一个命令行工具,能将你的代码库转化为单一的大型语言模型(LLM)提示,结合源码树结构,模板定制,以及令牌计数。它旨在简化与高级上下文窗口模型如GPT或Claude的交互,助你在重写代码、查找bug、编写文档和实现新功能等方面提升效率...
随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。就在近日,...
项目简介Khoj是一个开源的、个人化的AI助手,旨在充当你的第二大脑。它能够帮助你回答任何问题,不论这些问题是在线上的还是在你自己的笔记中。Khoi 支持使用在线AI模型(例如 GPT-4)或私有、本地的语言模型(例如 Llama3)。你可以选择自托管 Khoj,也可以使用...
在人工智能领域,自然语言处理技术一直备受关注。就在昨日,今年备受关注的国内AI公司北京智谱AI发布了第四代 GLM 系列开源模型:GLM-4-9B。这是一个集成了先进自然语言处理技术的创新平台,它凭借清华大学KEG实验室提出的GLM模型结构,为智能体功能的发展带来...
过去我们让AI说话,它给出的总是不咸不淡的机器合成声音,毫无波澜的死板音调让人听得昏昏欲睡。但由于chatTTS的到来,一切都将会变得不一样。作为一款强大的对话式文本转语音模型,它完美解决了用户对于生动对话的需求。如此功能不可小觑,可以称得上在业界...
项目简介DeepSeek-V2,一个专家混合(MoE)语言模型,其特点是经济高效的训练和推理。它包含 2360 亿个总参数,其中每个token激活了21亿个参数。与 DeepSeek67B相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5%的训练成本,将 KV 缓存减少了 93.3%,并将...
小模型,成为本周的AI爆点。与动辄上千亿参数的大模型相比,小模型的优势是显而易见的:它们不仅计算成本更低,训练和部署也更为便捷,可以满足计算资源受限、数据安全级别较高的各类场景。因此,在大笔投入大模型训练之余,像 OpenAI、谷歌等科技巨头也在积极...
v0是一个专为网页开发设计的智能助手,它通过对话形式提供服务。你可以与v0进行互动,无论是代码调试、解答编程问题还是生成代码片段,v0都能在前端开发领域提供专业的帮助。它精通TypeScript、React、Next.js、Vercel等前端技术,能够为你提供深入的技术指导...
NVIDIA和MIT的研究人员推出了一种新的视觉语言模型(VLM)预训练框架,名为VILA。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。VILA通过在大规模数据集如Coy0-700m上进行预训练,采用基于LLaVA模型的不同预训练策略...
检查内容是否用了ChatGPT,准确率高达99.9%!OpenAI又左右互搏上了,给AI生成的文本打水印,高达99.9%准确率抓「AI枪手」作弊代写。其能够精准识别出论文或研究报告是否由ChatGPT撰写,甚至能追溯其使用的具体时间点。它能专门用来检测是否用ChatGPT水了论文...
项目简介AniTalker是一个开源项目,它利用静态照片和音频文件来创造动态的面部说话视频。AniTalker采用了一种通用的运动表示方法。这种创新的表示方法有效地捕捉了广泛的面部动态,包括微妙的表情和头部动作。AniTalker通过两种自监督学习策略增强了运动描述...
GOT-OCR2.0是一款新一代的光学字符识别(OCR)技术,标志着人工智能在文本识别领域的重大进步。作为一款开源模型,GOT-OCR2.0不仅支持传统的文本和文档识别,还能够处理乐谱、图表以及复杂的数学公式,为用户提供了更加全面和高效的解决方案。产品功能及特点...
自从OpenAI公布了Sora后,震爆了全世界,但由于其技术的不成熟和应用的局限性,未能大规模推广,只有零零散散的几个公布出来的一些视频。昨日,快手成立13周年,可灵(Kling)大模型发布,体验后不由得感叹,炸裂,太震撼了,快手可灵,除了那个没发布的Sora...
6月25日凌晨,陆续有包括中国大陆在内的各国和相关地区API开发者在社交媒体上表示,他们收到了来自一封来自OpenAI的警告信。其内容是:我们的数据显示,贵组织的 APl 流量来自OpenAl目前不支持的地区。您可以在此处找到受支持的国家和地区。我们将从7月...
ChatGPT和Sora等AI大模型应用,将AI大模型和算力需求的热度不断带上新的台阶。哪里可以获得...
大模型的训练用4090是不合适的,但推理(inference/serving)用4090不能说合适,...
图示为GPU性能排行榜,我们可以看到所有GPU的原始相关性能图表。同时根据训练、推理能力由高到低做了...