# AI及信息技术应用2024年7月28日简报

## 4. 深度分析正文



AI及信息技术应用2024年7月28日简报
=====================

上周，编码类AI产品小高潮，不仅有多个AI 编码的IDE项目，更有很多专用编码model。AI LLM又来开始小模型的故事线，这些模型以其轻量级和专业化的特点，为特定任务提供了高效解决方案。OpenAI的GPT-4o Mini和Mistral AI推出的Mistral NeMo、MathΣtral、Codestral Mamba等，都是这一趋势的典型例子。它们通过定制化功能和优化的推理能力，在语言、数学、代码生成等领域展现出强大的应用潜力。同时，大型企业如Adobe和Tinder也在其产品中融入AI技术，增强用户体验。然而，随着AI技术的快速发展，合规和监管问题也日益凸显，如Meta的色情AI深度伪造政策更新和Microsoft AI红队对安全性的测试，反映了行业对AI伦理和安全性的持续关注和积极应对。

**1，AI产业及应用研究**
---------------

Meta发布前沿级开源 AI 模型 Llama 3.1 405B

\[摘要\]：Meta 推出其首个前沿级开源 AI 模型 Llama 3.1 405B，在多项任务中表现出与 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等领先基础模型的竞争力。Meta 还发布了 8B 和 70B 模型的升级版本，这些版本具有更长的上下文长度（128K）、改进的工具使用功能和整体更强的推理能力。

OpenAI 宣布 GPT-4o 和 GPT-4o Mini 的定制功能

\[摘要\]：OpenAI 宣布为其最新的语言模型 GPT-4o 和 GPT-4o Mini 提供一组新的定制功能。这意味着已经付费访问这些模型的开发人员现在能够根据自己的需求对其进行定制和微调。新的定制功能允许开发人员在特定领域中优化模型性能，以提高效率和准确性。OpenAI 表示，这些功能将帮助企业和个人用户更好地利用 GPT-4o 系列模型，以满足各种应用场景的需求。

智谱 AI 推出新一代视频生成模型 CogVideoX

\[摘要\]：2024年7月26日，智谱 AI 发布了升级版视频生成模型 CogVideoX，该模型通过自主研发的三维变分自编码器结构和端到端视频理解模型，显著提升了视频生成的内容连贯性和指令遵循能力。CogVideoX在生成视频时能够准确理解复杂指令，实现高效的视频内容生成，并在智谱清言平台上线，用户可通过其AI视频生成功能「清影」免费体验该技术。并在旗下App“智谱清言”中上线了AI视频生成功能“清影”，支持文本和图像生成视频，视频时长为6秒，分辨率为1440x960。

Mistral AI推出旗舰模型 Mistral Large 2

\[摘要\]：Mistral AI 宣布推出 Mistral Large 2，这是一款具有 128k 上下文窗口的新旗舰 123B 参数模型，其性能优于之前的 Mistral Large，并与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等领先模型相当。Mistral Large 2 提供更强大的多语言支持和高级函数调用功能，模型权重可通过 La Plateforme 和 le Chat 使用，并托管在 Hugging Face 上。

Mistral 发布三款小型 AI 模型，覆盖语言、数学和代码生成

\[摘要\]：Mistral 推出了三款高性能的小型模型，分别是 Mistral NeMo、MathΣtral 和 Codestral Mamba。Mistral NeMo 是一个 12B 的 LLM，具备 128K 上下文长度，支持多语言训练，量化后可进行 FP8 无损推理。MathΣtral 是专为数学推理和科学发现设计的 7B 型号，32k 上下文窗口，开源许可，推理能力显著。Codestral Mamba 是一款代码生成模型，支持 256K 上下文，提供线性时间推理，可通过 mistral-inference SDK 部署，适用于复杂代码生成任务。

谷歌 DeepMind 的 AlphaProof 人工智能系统在国际数学奥林匹克竞赛中表现出色

**\[摘要\]**：2024 年，谷歌 DeepMind 的 AlphaProof 在国际数学奥林匹克竞赛中取得了银牌，解答了六道题中的四道，达到历史性的里程碑。这是人工智能首次在该赛事中获得奖牌，展示了其在数学推理能力上的重大飞跃。基于 AlphaGo 和 AlphaZero 的成功，AlphaProof 的创造性解决问题能力受到了专家和前奥林匹克金牌得主的称赞，凸显了人工智能加速数学研究的潜力。

摩根大通推出生成式 AI 工具 LLMSuite 提升员工工作效率  
\[摘要\]：摩根大通开始推出名为 LLMSuite 的生成式 AI 工具，旨在协助其资产和财富管理部门约50,000名员工进行写作、创意生成和文档总结。该工具基于大型语言模型，类似于 OpenAI 的 ChatGPT，并已在今年早些时候推广至银行各部门。与此同时，摩根士丹利也推出了由 GenAI 驱动的聊天机器人，进一步增强财务顾问的资源访问能力。

**谷歌推出开源项目 Oscar 以简化开源软件维护**

**\[摘要\]：谷歌推出新开源项目 Oscar，利用人工智能代理来简化开源软件开发中的维护任务，包括问题处理和文档关联。Oscar 通过上下文搜索引擎、自然语言控制和深入的问题分析，减少了维护人员的工作量，并提供了更高效的任务处理方式。虽然当前在 Go 项目中开发，Oscar 的架构可适配其他开源项目，以满足不同需求。**

EDA-GPT：开源自动数据分析工具支持多种数据格式

\[摘要\]：EDA-GPT 是一种开源工具，用于自动化数据分析，支持 CSV、XLSX 和 SQLite 等数据格式。该工具提供直观界面，能够可视化和分析结构化及非结构化数据，包括 PDF 和图像，以简化数据处理过程。

Runway 的 AI 从数千个 YouTube 视频中学习生成视频

\[摘要\]：Runway 推出 AI 文本转视频生成器 Gen-3 Alpha，通过数千个 YouTube 视频和盗版电影的训练，制作出逼真、多样化的 AI 生成视频。该数据集包含来自主要娱乐公司和热门创作者的内容，尽管使用 YouTube 内容存在争议，但公司声称其使用的是“精心策划的内部数据集”。

人工智能造福人类：NASA 最新大气碳可视化成果

\[摘要\]：美国宇航局（NASA）发布了一个高分辨率模型，展示了 2020 年 1 月至 3 月期间二氧化碳在地球大气中的运动。该模型由超级计算机驱动，能够追踪碳排放的来源（如火灾、发电厂、城市等）并展示其在大气中的分布。NASA 气候科学家 Lesley Ott 表示，该模型有助于政策制定者和科学家理解碳的来源及其对地球的影响

Stability AI发布Stable Video 4D：动态多角度视频生成模型

\[摘要\]：Stability AI 推出创新模型 Stable Video 4D，用户上传单个视频并指定所需的 3D 相机姿势后，该模型会生成八个新视角的视频，提供拍摄对象的全面、多角度视角。该模型现已在 Hugging Face 平台上提供

Cohere推出 Rerank 3 Nimble：企业搜索和 RAG 系统的新基础模型

\[摘要\]：Cohere 推出 Rerank 3 Nimble，新基础模型在 Cohere Rerank 系列中用于企业搜索和 RAG 系统，其速度比 Rerank 3 快约 3 倍，同时保持较高准确度。该模型目前仅在 Amazon SageMaker 上可用。

Moondream发布 moondream2：改进版视觉语言模型

\[摘要\]：Moondream 发布了新版本 moondream2，这是一款在 OCR 和文档理解方面有显著改进的小型视觉语言模型，专为在边缘设备上高效运行而设计。

DeepSeek API 升级，支持续写、FIM、Function Calling、JSON Output

\[摘要\]：2024 年，DeepSeek API 完成了重大的功能升级，新增了 JSON 输出、函数调用、对话前缀续写、8K 最长输出和 FIM 补全等多项功能。这些改进大幅提升了模型的交互能力和灵活性。JSON 输出简化了数据处理流程，函数调用支持与外部工具交互，对话前缀续写增强了输出控制，8K 最长输出满足长文本需求，FIM 补全则适用于故事续写和代码补全等场景。这一升级进一步提升了 DeepSeek 在复杂应用中的表现。

登顶新 SOTA！阿里新开源语音模型 Qwen2-Audio

\[摘要\]：阿里云新推出的开源语音模型 Qwen2-Audio 是一款先进的大规模音频-语言模型，能够处理各种音频输入，执行音频分析或根据语音指令进行文字响应。该模型支持音频分析和语音聊天两种交互模式，能够智能切换模式并分析音频情绪，即使在嘈杂环境中也能有效提取信息。目前，Qwen2-Audio 主要聚焦于音频处理，尚未涉及语音输出功能，展示了在音频分析领域的卓越性能。

Cohere 推出 Rerank 3 Nimble 提高搜索质量

\[摘要\]：Cohere 发布了其最新的基础模型 Rerank 3 Nimble，旨在提升搜索质量并优化吞吐量。Rerank 3 Nimble 比前代产品快约 3 倍，同时保持高水平的准确性。该模型可用于增强 BM25 或其他搜索算法、准确搜索复杂文档、支持 100 多种语言的应用程序，以及从 RAG 系统的各种数据存储中检索最相关的信息。结合生成语言模型（如 Command R+），Rerank 3 Nimble 能帮助开发人员传递更少、更相关的文档。该模型现已在 Amazon SageMaker 上推出，并提供本地部署选项。

Apple AI 发布 7B 开源语言模型，基于 2.5T Tokens 开放数据集训练

\[摘要\]：Apple AI 宣布发布一款7B参数的开源语言模型，使用了 2.5T Tokens 的开放数据集进行训练。该模型由 Apple、华盛顿大学和其他机构的研究人员通过 DataComp for Language Models (DCLM) 项目开发，旨在提高大规模数据集处理和语言模型训练的效率。DCLM 框架涵盖了多种数据集和语言模型，并采用标准化的数据管理方法来实现有效且可靠的实验。模型在 Hugging Face 平台上开放，包括多种配置如 DCLM-7B 和 DCLM-1B，显示出在各种基准测试中的优异性能。

Tinder 推出 AI 功能帮助用户挑选最佳头像  
\[摘要\]：Tinder 推出了一项 AI 功能，旨在帮助用户选择最佳的个人资料图片，以提高匹配成功率。该 AI 功能通过分析用户的照片卷轴，推荐最佳图像，并评估照明、构图和清晰度。用户可以选择使用哪些 AI 推荐的照片，同时保证隐私，AI 仅扫描照片而不存储。此功能简化了寻找完美个人资料图片的过程，利用技术增强了约会体验。

Together AI 推出超快推理引擎 2.0，提升解码速度和性能

\[摘要\]：Together AI 发布了其新的推理堆栈 Together Inference Engine 2.0（V2），该引擎解码速度比开源 VLLM 快 4 倍，且优于 Amazon Bedrock 和 Azure AI 等替代方案。Together AI 还将推出 Together Turbo 和 Together Lite 端点，提供多样化的性能、质量和定价选项。Together Turbo 端点在保持高质量的同时优先考虑速度和成本效益，而 Together Lite 端点则专注于最大经济性和可扩展性，采用 INT4 量化技术。V2 采用了尖端技术，如 FlashAttention-3 内核和推测解码算法，确保了最佳性能和准确性。

### **2，产品市场创新**

OpenAI 推出 SearchGPT 原型

**\[摘要\]**：OpenAI 正在测试 SearchGPT，这是一种旨在通过整合实时网络信息和对话功能来增强搜索体验的原型。该原型为用户提供带有清晰来源的快速、相关答案。当前，只有部分用户和出版商可以访问此临时原型，以便通过反馈优化未来集成到 ChatGPT 中的功能。

FlowTestAI 推出由 AI 驱动的开源 IDE 用于 API 工作流管理

\[摘要\]：FlowTestAI 发布了一款由 AI 驱动的开源集成开发环境（IDE），旨在创建、可视化和管理 API 优先工作流。用户可以用自然语言描述 API 工作流，直观地查看 API 交互，并执行端到端的上下文测试。此工具为开发人员提供了高效的 API 管理方式，简化了工作流程并提高了测试的准确性和效率。

Claude Engineer：在 CLI 中利用 Claude 模型协助软件开发

\[摘要\]：Claude Engineer 是一个高级交互式命令行接口（CLI）工具，使用了 Anthropic 的 Claude 3 和 Claude 3.5 模型，为软件开发提供支持。该工具结合了语言模型、文件系统操作、网络搜索、代码分析和执行等功能。其主要功能包括创建文件夹和文件、读写文件、进行网络搜索、代码高亮、项目结构管理、代码分析、图像分析、自动化模式、代码执行和进程管理等。这些功能旨在提高开发效率和简化复杂的开发任务。

谷歌 Gemini 增加了相关内容和验证链接

\[摘要\]：Google 更新了其人工智能 Gemini，新增了相关内容链接和验证功能。此更新旨在减少幻觉现象，并使用户更容易探索相关网站。用户可以通过点击段落末尾的标签来查看深入的相关信息。Gemini 的双重检查功能使用 Google 搜索来验证响应，标出被支持或否定的内容，以便用户自行验证信息。这次更新还将 Gemini 扩展到超过 40 种语言和 230 多个国家和地区。

微软正在为 Bing 搜索结果添加人工智能摘要

\[摘要\]：微软推出了 Bing 生成式搜索，该功能将 AI 生成的响应作为主要结果，同时引用源链接和相关内容。该功能目前处于预览阶段，仅限于少数用户查询。更广泛的推出将取决于反馈和性能。此举是继谷歌增加 AI 概览之后的又一举措，表明 AI 增强型搜索工具领域的竞争日趋激烈。

Docket AI：首个人工智能销售工程师助理

\[摘要\]：Docket AI 是一个人工智能销售工程师系统，旨在协助非技术销售人员。该系统整合并索引来自 100 多个应用程序的数据，帮助销售团队快速获取技术问题的答案、起草 RFP 并生成其他技术文档。其功能包括即时回答买家的技术和重复性问题、填写 RFP 和问卷、以及提供实时洞察以赢得交易。Docket AI 通过高效的信息处理和精准的回答，提升了销售团队的效率和成功率

Taplio 是一款一体化、人工智能驱动的 LinkedIn 工具

\[摘要\]：Taplio 利用人工智能帮助用户拓展个人品牌，提供 AI 内容创建、热门帖子灵感、智能调度和高级分析等功能。用户可以在几秒钟内生成引人入胜的帖子，访问超过 400 万个热门帖子库获取灵感，并规划最佳发布时间。Taplio 还帮助用户跟踪关键指标并建立有价值的关系。

Adobe 为 Illustrator 和 Photoshop 引入生成式 AI 功能

\[摘要\]：Adobe 宣布为 Illustrator 和 Photoshop 增加新的生成式 AI 功能，以增强创意工作流程。Illustrator 现在包含 Firefly 矢量 AI 模型，提供生成形状填充功能、通过文本提示进行详细矢量添加、改进的文本到图案功能用于自定义模式，以及样式引用功能以模仿现有样式。Photoshop 则新增“生成图像”功能和“增强细节”功能，能够实现更清晰的大图像，并引入“选择画笔”工具以便更轻松地选择对象。尽管存在道德问题，Adobe 旨在利用人工智能放大而不是取代人类创造力。

Tinder 推出 AI 功能帮助用户挑选最佳头像

\[摘要\]：Tinder 推出了一项 AI 功能，旨在帮助用户选择最佳的个人资料图片，以提高匹配成功率。该 AI 功能通过分析用户的照片卷轴，推荐最佳图像，并评估照明、构图和清晰度。用户可以选择使用哪些 AI 推荐的照片，同时保证隐私，AI 仅扫描照片而不存储。此功能简化了寻找完美个人资料图片的过程，利用技术增强了约会体验。

### **3，合规和监管**

埃隆·马斯克决定使用用户数据来训练 Grok AI

**\[摘要\]**：埃隆·马斯克的人工智能公司 xAI 整合了社交平台 X（前身为 Twitter）的用户数据，以训练其新的人工智能聊天机器人 Grok。此举引起了隐私监督机构的关注，他们对缺乏清晰的沟通和个人信息可能被滥用表示惊讶和担忧。Grok 的模型诙谐而像人类一样，利用来自 X 的实时信息，引发了人们对数据隐私和道德人工智能使用的质疑。

巴黎奥运会人工智能大规模监控引发强烈反对

\[摘要\]：2024 年巴黎奥运会将使用人工智能进行大规模视频监控，引发严重的隐私和公民自由问题。新法律允许使用人工智能算法分析闭路电视摄像机和无人机的数据来监控人群，识别“可疑”行为。人权组织批评这可能侵犯隐私权并导致歧视性执法。此举强调了安全需求与个人自由保护之间的紧张关系，并提出了全球范围内类似技术应用的隐私问题。

Anthropic 的爬虫忽略了反人工智能抓取规则

\[摘要\]：Anthropic 的 ClaudeBot 网络爬虫违反 iFixit 的反抓取政策，在 24 小时内发送了超过一百万个请求，占用了大量资源。尽管 iFixit 的条款禁止此类抓取行为，Anthropic 仅在 iFixit 更新其 robots.txt 文件后才停止。此外，其他网站也报告了类似的抓取行为。

Meta 的监督委员会敦促该公司澄清并更新其有关色情 AI 深度伪造的政策

\[摘要\]：Meta 的监督委员会建议公司在处理色情 AI 深度伪造内容时更新其政策。委员会对两起涉及 AI 生成的公众人物裸照的案件进行了调查，并推翻了 Meta 最初保留相关图片的决定，认定这些图片违反了 Meta 反欺凌和骚扰政策中的“贬义色情 Photoshop”规定。委员会指出，Meta 的现行规则不够明确，应更新以禁止未经同意的 AI 生成或操控的露骨图像。此举是在委员会批评 Meta 之前的政策后，Meta 表示将标记使用第三方 AI 工具创建的图像。

Microsoft 的 AI Red Team 采用类似黑客的策略提高 AI 系统安全性

\[摘要\]：由 Ram Shankar Siva Kumar 领导的 Microsoft AI 红队通过模拟黑客思维主动发现 AI 系统中的漏洞。该团队汇集了神经科学、语言学和国家安全等多领域专家，并与 AI 工程和研究中的伦理和影响（Aether）团队合作，专注于在人工智能部署前识别潜在危害，如偏见输出和系统操纵。他们的创新策略包括人工和自动化对抗性测试，通过全面的风险评估和管理，增强 AI 安全性。这一方法结合了网络安全和负责任的 AI 实践，并使用 Counterfit 和 PyRIT 等开源工具支持外部安全工作。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240728-ai2024728](https://www.haxitag.com/briefs/ai-brief-20240728-ai2024728)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。
