中国人工智能初创公司深度求索(DeepSeek)3月24日深夜低调上线了DeepSeek-V3的新版本DeepSeek-V3-0324,参数量为6850亿,在代码、数学、推理等多个方面的能力再次显著提升,甚至代码能力追平美国Anthropic公司大模型Claude 3.7。
3月25日,OpenAI对GPT-4o和Sora进行了重大更新,提供了全新文生图模型。除了文生图之外,该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能。
与此同时,谷歌推出其最新AI模型Gemini 2.5 Pro Experimental,具有原生思维能力,可实现更深入的推理并提高响应准确性。Gemini 2.5将显著增强的基本模型与改进的后训练相结合,实现新的性能水平。
一、DeepSeek-V3新版本有哪些能力提升?
DeepSeek表示,一是新版本代码能力显著提升,接近Claude 3.7水平。例如,有用户在实测中发现,V3-0324能一次性生成800行无错误的网页代码,并实现动态响应式布局和交互效果。二是数学与逻辑推理能力增强。例如经典的“4升水壶问题”和数学竞赛题(如AIME 2025题目),部分表现接近专业推理模型。三是模型架构与开源生态。V3-0324采用MIT许可证,允许自由修改、分发及商业化应用,进一步降低了开发者的使用门槛。
新版DeepSeek-V3在网站开发能力、UI设计方面展现出巨大的进步。测试者在输入“设计一个美观的个人博客网站,带有科技感,直接开发成可用网页”的提示词之后,新版DeepSeek-V3在2分钟的时间内交付了一个总计400多行代码、设计精良的网站。
DeepSeek-V3-0324不仅是V3系列的一次迭代,更是中国AI技术崛起的又一力证。其在性能、效率和开源策略上的综合优势使其在全球大语言模型领域占据重要地位。未来,DeepSeek可能通过推理能力提升和多模态扩展来巩固技术领先优势,同时在中美竞争和社区生态中寻找平衡。
二、OpenAI的GPT-4o和Sora有哪些能力提升?
GPT-4o 的三大进化
1、闭环交互系统:用户可通过自然语言实时迭代创作,例如在生成人像时同步调整「背景虚化程度」「表情神态」「分辨率」等参数,系统响应延迟控制在 300 毫秒内,趋近人类对话节奏。
2、动态算力分配:面部细节渲染精度提升 300%,背景渲染效率提高 50%,如同摄影师聚焦人物时自动虚化背景,在保证主体质量的同时节省资源。
3、跨模态创作矩阵:新增图像 PPT 生成功能,输入文本大纲即可自动匹配图表、动画,支持一键导出可编辑格式,办公场景效率提升 80%。
Sora 的影视级突破
作为「文本 - 图像 - 视频」一体化生成器,Sora 输入「未来城市交通」指令后,10 秒内即可输出含飞行汽车、智能道路的 4K 短视频,内置配音与 BGM 生成模块。
三、谷歌Gemini 2.5 Pro Experimental达到了什么水平?
谷歌表示,“推理”能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。
Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token。这一能力使其在处理跨模态复杂问题时更具优势。
代码生成:在Aider Polyglot代码编辑测试中得分68.6%,超越OpenAI、Anthropic等模型;SWE-bench Verified测试中获63.8%,仅次于Claude 3.7 Sonnet(70.3%)。
数学与科学推理:在“人类最后考试”(多模态综合测试)中以18.8%准确率领先多数竞品,且无需依赖外部工具。
通用能力:在LMArena排行榜上以40分优势超越GPT-4.5,登顶视觉竞技场(Vision Arena)及网页开发竞技场(WebDev Arena)。
3月25日,OpenAI对GPT-4o和Sora进行了重大更新,提供了全新文生图模型。除了文生图之外,该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能。
与此同时,谷歌推出其最新AI模型Gemini 2.5 Pro Experimental,具有原生思维能力,可实现更深入的推理并提高响应准确性。Gemini 2.5将显著增强的基本模型与改进的后训练相结合,实现新的性能水平。
一、DeepSeek-V3新版本有哪些能力提升?
DeepSeek表示,一是新版本代码能力显著提升,接近Claude 3.7水平。例如,有用户在实测中发现,V3-0324能一次性生成800行无错误的网页代码,并实现动态响应式布局和交互效果。二是数学与逻辑推理能力增强。例如经典的“4升水壶问题”和数学竞赛题(如AIME 2025题目),部分表现接近专业推理模型。三是模型架构与开源生态。V3-0324采用MIT许可证,允许自由修改、分发及商业化应用,进一步降低了开发者的使用门槛。
新版DeepSeek-V3在网站开发能力、UI设计方面展现出巨大的进步。测试者在输入“设计一个美观的个人博客网站,带有科技感,直接开发成可用网页”的提示词之后,新版DeepSeek-V3在2分钟的时间内交付了一个总计400多行代码、设计精良的网站。
DeepSeek-V3-0324不仅是V3系列的一次迭代,更是中国AI技术崛起的又一力证。其在性能、效率和开源策略上的综合优势使其在全球大语言模型领域占据重要地位。未来,DeepSeek可能通过推理能力提升和多模态扩展来巩固技术领先优势,同时在中美竞争和社区生态中寻找平衡。
二、OpenAI的GPT-4o和Sora有哪些能力提升?
GPT-4o 的三大进化
1、闭环交互系统:用户可通过自然语言实时迭代创作,例如在生成人像时同步调整「背景虚化程度」「表情神态」「分辨率」等参数,系统响应延迟控制在 300 毫秒内,趋近人类对话节奏。
2、动态算力分配:面部细节渲染精度提升 300%,背景渲染效率提高 50%,如同摄影师聚焦人物时自动虚化背景,在保证主体质量的同时节省资源。
3、跨模态创作矩阵:新增图像 PPT 生成功能,输入文本大纲即可自动匹配图表、动画,支持一键导出可编辑格式,办公场景效率提升 80%。
Sora 的影视级突破
作为「文本 - 图像 - 视频」一体化生成器,Sora 输入「未来城市交通」指令后,10 秒内即可输出含飞行汽车、智能道路的 4K 短视频,内置配音与 BGM 生成模块。
三、谷歌Gemini 2.5 Pro Experimental达到了什么水平?
谷歌表示,“推理”能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。
Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token。这一能力使其在处理跨模态复杂问题时更具优势。
代码生成:在Aider Polyglot代码编辑测试中得分68.6%,超越OpenAI、Anthropic等模型;SWE-bench Verified测试中获63.8%,仅次于Claude 3.7 Sonnet(70.3%)。
数学与科学推理:在“人类最后考试”(多模态综合测试)中以18.8%准确率领先多数竞品,且无需依赖外部工具。
通用能力:在LMArena排行榜上以40分优势超越GPT-4.5,登顶视觉竞技场(Vision Arena)及网页开发竞技场(WebDev Arena)。