# AI及信息技术应用2024年6月23日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够执行通常需要人类智能才能完成的任务，如视觉识别、语言理解和决策制定。

## 2. 核心洞察 (TL;DR)
- Anthropic发布Claude 3.5 Sonnet，超越前代模型。
- Meta推出支持200种语言的NLLB-200 AI模型。
- OpenAI收购Rockset增强数据能力，推动AI发展。

## 3. 关键事实与数据
- 关键事实1: Claude 3.5 Sonnet在多项基准测试中超越Claude 3 Opus。
- 关键事实2: NLLB-200 AI模型支持200种语言翻译，翻译质量提高44%。
- 关键事实3: OpenAI收购Rockset，提升数据检索和查询功能。

## 4. 深度分析正文


AI及信息技术应用2024年6月23日简报
=====================

在AI产业及应用研究领域，上周出现了多项重要进展。Anthropic推出了Claude 3.5 Sonnet，一款在多项基准测试中超越前代Claude 3 Opus的AI模型，同时Meta推出了支持200种语言翻译的NLLB-200 AI模型，显著提升了翻译质量。Together AI的DragonflyAI视觉语言模型集和Ilya Sutskever成立的SSI公司，都聚焦于提升AI的安全性和应用范围。OpenAI通过收购Rockset增强了数据能力，而Butterflies社交应用和HeyGen的A轮融资则展示了AI在社交和视频制作领域的新应用。Runway的Gen-3 Alpha视频生成模型和微软的Florence-2视觉基础模型均在视频和图像生成领域取得了技术突破。此外，Otto的新型AI交互方式和Meta的四个新AI模型进一步推动了AI研究的深度和广度。DeepSeek AI和Nvidia的AI模型也在代码生成和数据生成方面取得了显著成就。Google DeepMind的视频转音频技术为视频内容创作提供了新的可能。

在产品市场创新方面，Google的AI研究和写作助手NotebookLM扩展到全球多个国家，Perplexity.AI增强了搜索和生成答案的个性化能力。百度通过Prompt评估和优化技术改善了大模型的生成效果，而Keak和TikTok的Symphony广告套件则在网站转化率优化和广告内容创作方面取得了进展。Brave的Search API为AI应用程序提供了更强大的互联网探索能力，Suno的AI音乐创作工具和BOTX的AI代理实现业务自动化则展示了AI在创意和企业运营中的应用潜力。Snapchat的AI驱动定制滤镜功能和PayPal新任CTO的任命都标志着AI在社交媒体和金融领域的进一步融合。

合规和监管方面，纽约州通过法案限制了儿童使用社交媒体的推荐算法，并加强了对未成年人数据的保护，这反映了对青少年使用社交媒体的担忧和对隐私保护的加强。这些动态反映了AI技术在不断进步的同时，也面临着合规和监管的挑战。

**1，AI产业及应用研究**
---------------

Anthropic发布Claude 3.5 Sonnet，宣称在AI模型领域处于最佳状态

\[摘要\]：Anthropic发布了其最新的生成AI模型Claude 3.5 Sonnet，声称在多项基准测试中超越了旗舰前辈Claude 3 Opus，并略胜OpenAI的GPT-4o。新模型不仅在文本和图像分析方面表现优异，还通过提升速度和理解复杂指令等方面改进了用户体验。此外，Anthropic推出了名为Artifacts的新工作空间，旨在帮助用户编辑和增强模型生成的内容。

Meta 推出新 AI 模型，可翻译 200 种语言

\[摘要\]：Meta 研究人员开发了“不让任何语言掉队”（NLLB-200）AI 模型，支持 200 种语言的翻译，包括许多资源匮乏的语言。该模型采用先进的混合专家 (MoE) 架构，与之前的系统相比，翻译质量提高了 44%。NLLB-200 支持的资源匮乏语言数量是资源丰富语言的三倍，并使用新的数据挖掘技术增强训练数据集。团队还创建了 FLORES-200 基准用于评估翻译质量，所有资源均可用于非商业用途。  
Together AI 发布 DragonflyAI 视觉语言模型集

\[摘要\]：Together AI 发布了 DragonflyAI，这是一个基于新架构的视觉语言模型集，增强了对图像区域的精细粒度视觉理解和推理能力。推出了两个开源模型：Llama-3-8b-Dragonfly-v1，是在 550 万张图像指令对上训练的通用领域模型；Llama-3-8b-Dragonfly-Med-v1，则在额外的 140 万个生物医学图像指令数据上微调，专注于生物医学领域的应用。

Ilya Sutskever 成立新公司 SSI，专注于安全超级智能

\[摘要\]：OpenAI 前首席科学家 Ilya Sutskever 宣布成立新公司 Safe SuperIntelligence Inc (SSI)，目标是开发安全的超级智能。SSI 致力于通过革命性工程和科学突破，确保在提高 AI 能力的同时保障安全性。公司设在美国帕洛阿尔托和特拉维夫，由顶尖工程师和研究人员组成，专注于解决这个时代最重要的技术挑战。

OpenAI 收购 Rockset 以增强数据能力

\[摘要\]：OpenAI 收购了实时分析数据库公司 Rockset，以利用其数据索引和查询功能改进数据检索基础设施。此次整合将增强 OpenAI 产品的数据使用能力，提升整体性能。Rockset 团队将加入 OpenAI，带来其在数据分析方面的专业知识。

Butterflies：融合 AI 聊天机器人的新社交应用

\[摘要\]：Butterflies 是一款由 Meta 前员工创建的新社交应用，集成了用于互动和对话的 AI 聊天机器人。该应用允许用户与 AI 机器人聊天，机器人可以进行随意交谈、提供建议或充当虚拟朋友。Butterflies 旨在通过提供更有意义和互动性的联系，解决传统社交媒体平台上常常感受到的孤独和孤立感。

HeyGen 在 A 轮融资中筹集 6000 万美元

\[摘要\]：HeyGen 在 A 轮融资中筹集了 6000 万美元，旨在加快产品路线图实施，帮助团队制作更精美、引人入胜的视频。新资金将用于加强企业安全、AI 道德及信任与安全领域的投资。HeyGen 提供头像视频、视频翻译、个性化视频及流媒体头像等新功能。

Runway 发布 Gen-3 Alpha 视频生成模型

\[摘要\]：Runway 推出了其最新、最出色的视频生成模型 Gen-3 Alpha，标志着高质量、超可控的 AI 视频生成新时代的到来。与前代模型相比，Gen-3 Alpha 在保真度、一致性和运动性能方面有重大提升。该模型经过视频和图像的多模式训练，提供细粒度控制，擅长生成逼真的人类和理解各种艺术风格及电影术语。更多功能将陆续推出，进一步增强其视频和图像工具的性能。

微软发布 Florence-2：小型微型视觉基础模型

\[摘要\]：微软推出了 Florence-2，这是一款小型微型视觉基础模型，包含 0.23B 和 0.77B 两个版本，能够解释简单的文本提示以执行字幕、对象检测和分割等任务。Florence-2 0.23B 在 Zero-Shot 任务中的表现优于更大的模型 Flamingo-80B，展示了其在小规模模型中的高效性能。

Otto表格界面的新型 AI 交互方式

\[摘要\]：Otto推出了一种新型 AI 交互方式，使用表格而不是聊天作为界面。表格更适合处理多步骤复杂领域中的任务构建，每一列代表 AI 代理的一个不同任务。用户可以为每列定义特定的提示和工具，根据特定需求定制代理。这种方法旨在提高复杂任务的研究和执行效率，弥补聊天界面的不足。

Meta 发布四个新的 AI 模型和研究成果

\[摘要\]：Meta 的 FAIR 团队宣布推出四个新的 AI 模型。Meta Chameleon 7B 和 34B 语言模型支持混合模式输入和纯文本输出。包括多模式语言任务模型 Chameleon、可控文本转音乐模型 JASCO、音频水印模型 AudioSeal 和多标记预测模型。这些模型提升了多种任务的处理能力，特别是 AudioSeal 的 AI 语音检测功能，为可靠识别 AI 生成内容提供了新的工具，推动了 AI 领域的研究和应用。

DeepSeek AI 发布 DeepSeek-Coder-V2

\[摘要\]：DeepSeek AI 推出了 DeepSeek-Coder-V2，这是一个开源的混合专家 (MoE) 代码语言模型，在代码特定任务中实现了与 GPT-4 Turbo 相当的性能。DeepSeek-Coder-V2 支持的编程语言从 86 种扩展到 338 种，并将上下文长度从 16K 扩展到 128K。DeepSeek-Coder-V2 236B 在编码和数学任务中的表现优于当前最先进的闭源模型。

Nvidia 推出 Nemotron-4 340B 开放模型

\[摘要\]：Nvidia 宣布推出 Nemotron-4 340B，这是一系列开放模型，旨在帮助开发人员生成合成数据，以训练用于商业应用的大型语言模型 (LLM)。该模型提供了强大的生成数据功能，助力各种商业应用中的 LLM 训练，提高模型的性能和准确性。

Google DeepMind 开发视频转音频 (V2A) 生成技术

\[摘要\]：Google DeepMind 正在开发视频转音频 (V2A) 生成技术，利用视频像素和文本提示将声音添加到无声片段中，使其与场景声学相匹配。该技术可与 Veo 等视频生成模型配对，创建具有戏剧性配乐、逼真音效或与视频角色和基调相匹配的对话的镜头，提升视频的整体表现力和真实感。

花旗集团发布关于金融领域人工智能影响的报告

\[摘要\]：花旗集团发布的最新 GPS 报告预测，人工智能对银行业的就业影响可能最大，超过一半的职位面临被自动化的高风险。报告显示，银行业具有最高的自动化潜力岗位，占比 54%，其次是保险业和能源业。预计银行将招聘更多 AI 经理和合规官等新职位，并估计到 2028 年，人工智能将为全球银行业增加 1700 亿美元的利润，即提升 9%。

谷歌DeepMind推出视频配乐生成AI工具

\[摘要\]：谷歌DeepMind推出了一款新的AI工具，能够利用视频画面和文本提示生成视频配乐。该工具可以自动生成与场景匹配的背景音乐、音效及对白，使音频与视频自动同步。经过大量训练，这款工具精准匹配音频事件与视觉场景，尽管在唇同步等方面仍有改进空间。DeepMind表示，生成的音频将包含Google的"SynthID"水印，标识其为AI产生。

Genspark AI 搜索引擎筹集 6000 万美元资金

\[摘要\]：Genspark 是一款新的人工智能搜索引擎，声称其性能优于 Perplexity、Arc Search 和 Google AI Overviews。尽管尚未产生收入，Genspark 已成功筹集 6000 万美元，估值达 2.5 亿美元。Genspark 利用内部和第三方大型语言模型生成高度权威的内容摘要“Sparkpage”，并提供聊天机器人回答后续问题。联合创始人 Eric Jing 表示，这种综合方法使 Genspark 在内容详细性和全面性上胜过竞争对手。

TikTok 将 AI 引入内容创作

\[摘要\]：TikTok 推出了 Symphony，这是一个全新的 AI 工具套件，旨在帮助品牌和创作者更高效地制作内容。Symphony 包括数字化身生成、翻译工具和 AI 助手等功能。品牌可以使用 AI 代言人和自动配音工具，以多种语言制作广告和内容。Symphony Assistant 是一个改名的创意助手，帮助编写脚本和优化内容。这些工具将重塑创作者经济，但也带来了真实性和信任问题。

Galileo 推出 Luna：高精度低成本语言模型评估工具

\[摘要\]：Galileo 推出了 Luna，这是一款专为捕捉语言模型幻觉问题而设计的评估基础模型 (EFM)。基于 4.4 亿参数的 DeBERTa-large 模型，Luna 在检测 RAG 设置中的幻觉方面具有高精度、低延迟和成本效益。它使用真实世界的 RAG 数据进行微调，能够处理长上下文输入，适用于多个行业领域，提供毫秒级的推理速度和最低的误报率。

Luma AI 推出 Dream Machine，拓展生成式 AI 视频创作渠道

\[摘要\]：Luma AI 推出了 Dream Machine 的公开测试版，该 AI 视频生成模型可通过简单的文本提示创建高质量视频，能在 120 秒内生成最多 120 帧视频。Dream Machine 平台开源，承诺未来与 Adobe 等创意工具集成。早期测试人员称赞其详细渲染和连贯故事能力，但指出在自然运动和变形效果方面存在挑战。此举引起了用户极大兴趣，拓展了生成式 AI 视频创作的渠道。

PayPal 聘请沃尔玛高管担任首席技术官，推动 AI 转型

\[摘要\]：PayPal 宣布聘请沃尔玛顶级技术高管 Srini Venkatesan 担任其新任首席技术官。此次任命旨在推动 PayPal 在人工智能领域的发展，提升其技术创新能力。Srini Venkatesan 的加入将为 PayPal 带来丰富的经验和专业知识，助力公司在 AI 转型过程中取得更大进展。

### 华为云发布盘古具身智能大模型，展示“夸父”人形机器人

\[摘要\]：在华为开发者大会上，华为云发布了盘古大模型5.0及盘古具身智能大模型，展示了搭载该模型的“夸父”人形机器人。盘古具身智能大模型可完成10步以上复杂任务规划，支持多场景泛化和多任务处理，生成训练视频，提升机器人学习效率。该模型增强了机器人的逻辑推理和任务执行能力，适用于生活和工业场景。未来，具身智能大模型将赋能更多类型的机器人，帮助人类从事繁重工作。

**2，产品市场创新**
------------

Google's AI-Powered NotebookLM Expands Globally

\[摘要\]：Google 宣布其 AI 驱动的 NotebookLM 扩展到印度、英国及其他 200 多个国家。NotebookLM 是一款 AI 研究和写作助手，能够理解和分析文本内容，为用户提供高效的笔记和总结功能。此次全球扩展将使更多用户受益于这一智能工具，提升研究和写作的效率和质量。

Perplexity.AI发布新功能：增强搜索和生成答案的个性化能力

\[摘要\]：Perplexity.AI推出了更新，提升了基于LLM的搜索和生成答案的个性化能力。新功能包括增加和删除来源、重新生成答案，并支持用户偏好的回答语言。这些改进旨在提高搜索结果和生成答案的准确性和用户满意度。

百度大模型开发者后台的Prompt评估与优化策略

\[摘要\]：百度大模型开发者后台通过Prompt评估和优化技术，有效控制和改善模型生成的准确性和效果。评估过程涉及使用不同的提示文本来测试生成结果的质量，优化则通过调整提示的语言和结构，提高模型生成的相关性和语义准确性，从而优化模型在各种应用场景下的实际效用。

Keak：自动优化网站转化率的新工具

\[摘要\]：Keak 通过生成和 A/B 测试网站变体来自动优化转化率。该工具适用于任何网站，允许用户定位特定受众群体，并根据以往的测试数据不断改进模型。Keak 旨在提升网站的整体性能和用户体验，通过精准的测试和优化策略，提高转化率。

TikTok 扩展其 Symphony 广告套件

\[摘要\]：TikTok 正在通过基于付费演员和创作者的 AI 配音工具和头像扩展其 Symphony 广告套件。此举旨在为广告内容提供更多创意选择和个性化定制，提高广告的互动性和吸引力。AI 配音工具和虚拟头像的引入将为品牌和创作者提供更丰富的表达方式，进一步增强广告效果。

Brave 推出 Brave Search API，提升 AI 应用程序的互联网探索能力

\[摘要\]：Brave 推出了 Brave Search API，使 AI 应用程序能够以经济高效的方式访问数十亿网页。该 API 连接到超过 200 亿个页面的扩展索引，每天新增数百万个页面。Brave Search API 可增强聊天机器人、培训法学硕士，并使用高质量的人工数据提供实时查询，同时简化开发流程。

Suno：AI 音乐创作工具

\[摘要\]：Suno 是一款强大的 AI 工具，用户只需输入文本提示即可创作音乐。通过注册免费帐户，用户可以获得 50 个免费积分，每天可创作 10 首歌曲。用户可以在“歌曲描述”中描述想要的歌曲，并通过“自定义”设置歌词或音乐风格。几秒钟后，用户即可欣赏由 AI 创作的新歌曲。

BOTX利用 AI 代理实现业务自动化

\[摘要\]：BotX 是一个无代码 AI 平台，使企业能够轻松创建和部署 AI 驱动的工作流程、聊天机器人和解决方案。用户可以构建可定制的聊天机器人小部件和 API 部署，集成 GPT-4 等尖端模型，并使用企业数据训练智能 AI 代理，识别用户意图并做出反应。BotX 能处理文档、提取重要信息并生成内容，提升业务自动化效率。

Snapchat推出AI驱动的定制滤镜功能

\[摘要\]：Snapchat即将推出一款AI模型，能够将文本提示转化为定制滤镜。用户输入文字即可实现AR实时转换，示例包括“50年代科幻电影”背景和服装变化。此外，Snapchat发布了一系列新的AI创作工具，简化自定义AR效果的制作。这些工具包括文字或图像提示生成定制人脸效果、应用逼真的人脸和环境转换，以及基于用户表情生成3D角色头像，增强了用户和创作者的创意表达。

### **3，合规和监管**

纽约州禁止儿童使用令人上瘾的社交信息流

\[摘要\]：据 The Verge 报道，纽约州州长 Kathy Hochul 签署了两项法案，以保护儿童和青少年免受社交媒体的伤害。其中一项法案要求社交媒体公司在对18岁以下儿童使用由推荐算法驱动的“令人上瘾的信息流”时必须征得家长同意。另一项法案限制未经同意收集未成年人的数据，并禁止出售此类信息。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240623-ai2024623](https://www.haxitag.com/briefs/ai-brief-20240623-ai2024623)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。