# AI及信息技术应用2024年7月14日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够感知环境、学习、推理、解决问题和执行任务。

## 2. 核心洞察 (TL;DR)
- 阿里巴巴推出FunAudioLLM模型，提升语音识别和生成能力。
- Sam Altman和Arianna Huffington推出Thrive AI Health，AI健康教练应用。
- Tumeryk推出Gen AI Security Studio，强化生成式AI应用安全。
- Claude 3.5 Sonnet的Artifact升级，亚马逊推出AWS App Studio。
- OpenAI公布AGI进展量表，《上海宣言》发布，AI合规和监管加强。

## 3. 关键事实与数据
- 关键事实1: FunAudioLLM模型通过SenseVoice和CosyVoice子模型，提高了语音转录准确性和情感表达丰富度。
- 关键事实2: Thrive AI Health应用利用生成AI技术，提供个性化健康指导。
- 关键事实3: Gen AI Security Studio通过多模式测试确保生成式AI应用的弹性和安全。
- 关键事实4: Claude 3.5 Sonnet的Artifact升级支持创建交互式学习游戏。
- 关键事实5: OpenAI的AGI进展量表将AI分为五个等级，目前处于1级到2级。

## 4. 深度分析正文


AI及信息技术应用2024年7月14日简报
=====================

上周，在AI产业及应用研究领域，近期的进展令人瞩目。阿里巴巴推出的FunAudioLLM模型，通过SenseVoice和CosyVoice两个子模型，展示了在语音识别和生成方面的突破，不仅提高了语音转录的准确性，还丰富了语音合成的情感表达。Sam Altman和Arianna Huffington合作推出的AI健康教练应用Thrive AI Health，利用生成AI技术，为用户提供个性化的健康指导，这标志着AI在健康管理领域的新应用。Tumeryk的Gen AI Security Studio强化了生成式AI应用的安全性，通过多模式测试确保了模型的弹性和安全，这对于企业级应用尤为重要。

在产品市场创新方面，Claude 3.5 Sonnet的Artifact升级，以及亚马逊推出的AWS App Studio，都显示了AI技术在简化产品开发流程和提升用户体验方面的潜力。特别是AWS App Studio，它通过自然语言处理技术，使得非技术用户也能快速创建企业级应用，这无疑是对传统软件开发模式的一次颠覆。

合规和监管方面，OpenAI公布的AGI进展量表，以及《上海宣言》的发布，都体现了对AI发展与治理的重视。《COPIED法案》的提出，更是对内容创作者权益保护的一次积极尝试，这表明在AI技术快速发展的同时，对其可能带来的法律和伦理问题也给予了足够的关注。

总体来看，AI技术正以前所未有的速度和广度影响着我们的生活和工作，从提高效率到改善健康，从产品创新到合规监管，AI的应用正在不断拓展，同时也带来了新的挑战和机遇。

**1，AI产业及应用研究**
---------------

阿里巴巴发布语音处理模型 FunAudioLLM  

\[摘要\]：阿里巴巴推出了 FunAudioLLM，这是一个能够理解和生成各种人类语音的模型。它由两个主要模型组成：SenseVoice 和 CosyVoice。SenseVoice 是语音识别模型，能够识别多种语言、说话人的情感及音频中的特殊事件，并能快速准确地转录语音内容。CosyVoice 是语音生成模型，擅长生成自然且情感丰富的语音，能够模仿不同的说话人，甚至通过几秒钟的音频样本克隆一个人的声音。

Sam Altman 和 Arianna Huffington 联手推出 AI 健康教练应用

\[摘要\]：OpenAI 的 CEO Sam Altman 和 Thrive Global 的创始人 Arianna Huffington 联手推出了一款名为 Thrive AI Health 的 AI 驱动健康教练应用。该应用利用 OpenAI 的生成 AI 技术，提供个性化的营养、睡眠和压力管理指导，以帮助用户改善整体健康并对抗慢性疾病。Thrive AI Health 由 OpenAI Startup Fund 和 Thrive Global 资助，并得到沃尔玛继承人 Alice Walton 基金会的战略投资。新公司由前 Google 高管 DeCarlos Love 领导，计划通过移动应用和与医疗提供者合作，为用户提供个性化健康建议和干预措施，以改善健康结果并降低医疗成本。

Tumeryk 推出首个 Gen AI Security Studio，强化生成式 AI 应用安全

\[摘要\]：Tumeryk 推出了首个 Gen AI Security Studio，专门用于使用 NVIDIA NeMo Guardrails 进行多模式测试，确保生成式 AI 应用的弹性和安全。其市场布局主要集中在企业、中小企业及政务部门，提供强大的安全解决方案以防止模型越狱和数据泄露。主要产品包括 LLM 扫描仪和 AI 防火墙，分别用于全面保护生成式 AI 系统和实时检测、阻止潜在威胁。Tumeryk 的解决方案得到了包括 Clutch Solutions 和 Transorg Analytics 在内的多家企业的认可。此外，Tumeryk 与 NVIDIA、AWS、Datadog 等技术合作伙伴合作，进一步增强了其市场地位。核心团队成员在 AI 安全和大规模模型管理方面有丰富经验，投资方和媒体对其未来持积极评价。Tumeryk 通过创新的 Gen AI Security Studio，成功在生成式 AI 安全市场上占据一席之地。

NuminaMath 7B TIR 发布：利用先进的工具集成推理和 Python REPL 转变数学问题解决方式  
\[摘要\]：Numina 宣布推出其最新的语言模型 NuminaMath 7B TIR，专为数学问题设计，拥有 69.1 亿个参数，采用复杂的工具集成推理（TIR）机制。该模型通过结构化的思路链推理生成解决方案，将推理翻译为可执行的 Python 代码，并在 REPL 环境中执行，具备自我修复机制，确保高效且准确地找到正确答案。

清华大学、北大、北京邮电大学与腾讯联合提出“代理互联网”框架  
\[摘要\]：研究人员提出的“代理互联网”（IoA）框架，旨在增强基于大语言模型（LLM）的多代理协作。通过集成跨设备的第三方代理，IoA 实现了类似即时消息的动态协作，采用有限状态机进行对话流控制。实验结果显示，IoA 在多项基准测试中超越现有基线，展示了其在复杂分布式系统中的应用潜力，具备自主组建团队、异构代理集成、异步任务执行和自适应对话流管理等优势，易于扩展与应用。

斯坦福大学研究人员推出 KITA：一种可编程 AI 框架，用于构建可管理复杂用户交互的任务导向型对话代理  
\[摘要\]：斯坦福大学研究团队推出了 KITA，一个可编程的任务导向型对话代理框架，旨在管理复杂用户交互。与传统 LLM 不同，KITA 通过富有表现力的 KITA 工作表，让开发人员控制代理行为，生成可靠的响应。该框架具备弹性应对多样化查询、成功整合多种知识源以提供准确答案，并通过声明式编程简化复杂策略的构建与管理，提升了对话系统的灵活性和可靠性。

阿里巴巴集团推出人机自然语音交互框架 FunAudioLLM  
\[摘要\]：阿里巴巴集团推出了 FunAudioLLM，自然语音交互框架，核心包含两个新模型：SenseVoice 实现高精度多语言语音识别、情绪识别和音频事件检测；CosyVoice 提供多语言、音色和情绪控制的自然语音生成。相关模型及其训练、推理和微调代码已全部开源，旨在促进人机交互领域的进一步发展与应用。

商汤科技发布中国首个实时多模态模型SenseNova 5o  
\[摘要\]：商汤科技推出了中国首个实时多模态模型SenseNova 5o，该模型专为实时对话设计，声称具备与GPT-4o相媲美的流式交互能力。同时，作为SenseNova 5.5的一部分，商汤科技还发布了首款可控AI虚拟形象视频生成器Vimi。用户只需提供一张照片，Vimi便可生成短视频片段，并精确控制虚拟形象的面部表情和上半身动作，提升了虚拟互动的真实感。

Fireworks AI：多模态推理平台，提供100种先进模型  
\[摘要\]：Fireworks AI 是一个推理平台，支持超过 100 种最先进的文本、图像、音频、嵌入和多模式格式的模型。这些模型经过优化，以提高延迟、吞吐量和每个令牌的成本效益。该平台还提供高级定制功能、改进的生产准备，以及用于整合多个模型、检索器和外部工具的系统构建工具，旨在提升用户的应用开发体验。

OpenAI与洛斯阿拉莫斯合作：探索AI对抗生物威胁  
\[摘要\]：OpenAI 正在与洛斯阿拉莫斯国家实验室合作，研究如何利用 AI 工具应对非专家创造的生物威胁。洛斯阿拉莫斯强调生物安全风险，指出 AI（如 ChatGPT-4）可能被用于传播生物威胁信息。两者共同关注在生物科学研究中安全使用 AI，承认衡量和减轻这些风险的必要性，强调负责任的人工智能开发的重要性，以防止其滥用于生物武器。

谷歌机器人接管办公室：DeepMind 训练 RT-2 机器人以增强自然语言理解  
\[摘要\]：谷歌的 DeepMind 团队正在利用 Gemini 1.5 Pro 训练办公室中的 RT-2 机器人，使其能够移动、理解自然语言并高效完成任务。员工通过说“好的，机器人”开始任务，机器人会回应并执行指令，例如指导员工找到充电插座。机器人经过数小时的视频训练和对 9,000 多平方英尺办公空间的参观，以便能够响应口头、绘图和手势命令。这项研究显示，这些机器人在 50 多次交互中的表现优异，显示出其在办公环境中的潜力。

微软发布GraphRAG：基于图的新型RAG架构大幅提升问答能力  
\[摘要\]：微软开源了新型 RAG 架构 GraphRAG，在社区摘要应用中，其全面性和多样性胜率高达 70-80%。GraphRAG 是一种基于图的 RAG 工具，利用 LLM 从文档集合中提取知识图谱，处理私有或未知数据集的问答。它通过检测“社区”来层次化地划分数据语义结构，并为这些社区生成摘要，提供全面数据概览，尤其适用于全局性问题的回答。

阶跃星辰发布多款模型，展示多模态能力  
\[摘要\]：在 WAIC 上，阶跃星辰发布了三个主打多模态能力的模型。Step-2 是一个万亿参数的 MoE 模型，需申请体验，但平台简陋无playground。Step-1.5V 是千亿参数的多模态模型，提升了图片和视频理解能力。Step-1X 是图像生成模型，采用 DiT 架构，提供 600M、2B、8B 参数量选择，并优化了中国文化和元素。

Rakis：P2P LLM去中心化推理  
\[摘要\]：Rakis 是一个完全在浏览器中运行的 P2P LLM 推理网络，通过点对点网络分配和执行 AI 推理任务，无需集中式服务器。用户可以选择模型将内容发送到其他节点进行推理，同时接受其他节点的推理任务。挂机帮助推理可获得 Token。Rakis 的优势在于门槛低，使用便捷，适合低显存用户，最大支持 Llama3 8B 模型，目前节点数量尚少。

**2，产品市场创新**
------------

Claude 3.5 Sonnet的 Artifact 升级与现场研讨会

\[摘要\]：Claude 推出Artifact的新升级，支持从任何内容（如屏幕截图、PDF、演示文稿等）创建可共享的交互式学习游戏。现场研讨会将在太平洋标准时间周五下午1点举行，重点介绍如何免费访问Claude 3.5 Sonnet并展示Artifacts的最佳用例。内容包括将学习材料转换为交互式项目，用于员工入职、培训、考试准备等，并无缝共享和发布这些项目以帮助他人更好地理解各种主题。

亚马逊推出AWS App Studio公开预览版：无开发技能即可快速创建企业级应用  
\[摘要\]：亚马逊宣布推出AWS App Studio的公开预览版，这是一项生成式AI服务，用户只需使用自然语言即可在几分钟内创建企业级应用程序，无需具备软件开发技能。此项服务旨在简化应用开发过程，使更多用户能够轻松构建和部署定制化的企业解决方案。

Quora Poe 推出新功能“预览”

\[摘要\]：Quora 的 Poe 推出了一项新功能“预览”，允许用户创建、交互和共享直接在 Poe 聊天中生成的自定义 Web 应用程序。该功能对擅长编码的 LLM，如 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro，尤其有效。无论编程能力如何，用户都可以创建各种自定义交互式体验，例如游戏、动画和数据可视化。

Al Michaels 的 AI 克隆将在 2024 年巴黎奥运会期间解说亮点

\[摘要\]：NBC 将使用 Al Michaels 的 AI 生成语音克隆，在 2024 年巴黎奥运会期间解说每日亮点。此举旨在增强观众参与度，并将在 NBC 的流媒体平台 Peacock 上提供。该 AI 语音通过大量录音创建，捕捉了 Michaels 独特的风格和专业知识。Peacock 将提供近 700 万个个性化回顾版本，允许用户选择他们喜欢的运动和主题，以获得定制的亮点集。

自建 AI Agent：腾讯元器体验

\[摘要\]：腾讯发布了一份关于自建 AI 代理的体验报告，详细介绍了其设计理念、开发过程和实际应用。报告中强调了 AI 代理在提升用户互动和任务自动化方面的优势，特别是在语音识别和自然语言处理技术上的突破。腾讯还展示了 AI 代理在不同场景下的成功案例，验证了其技术的实用性和可扩展性。这一报告为开发者提供了宝贵的经验和指导，推动了 AI 技术在各行业的应用。

亚马逊推出Rufus聊天机器人：个性化购物助手正式面向美国用户  
\[摘要\]：亚马逊通过移动应用向所有美国用户推出了Rufus聊天机器人，旨在提升购物体验。Rufus能够回答购物相关问题，并提供政治话题的讨论，定位为用户的个人购物伙伴，帮助他们快速找到所需商品。这一创新标志着亚马逊在个性化服务和用户互动方面的进一步发展。

Document CoPilot：无缝协作的Google Docs新功能  
\[摘要\]：Document CoPilot 是一项新功能，允许用户在 Google Docs 上进行高效协作，无需任何额外的应用或扩展程序。此功能旨在提升团队工作效率，简化文档编辑和共享过程，使合作更加顺畅和便捷。

AI幻灯片制作器：利用AI生成图像提升演示文稿质量  
\[摘要\]：AI幻灯片制作器允许用户使用AI生成的图像创建具有影响力的演示文稿，并通过Google幻灯片实现实时协作。此工具旨在简化设计过程，提高团队合作效率，助力用户制作专业且引人注目的演示内容。

Upmetrics AI：轻松创建投资者商业计划的智能工具  
\[摘要\]：Upmetrics AI 通过让用户回答几个定制问题，快速生成详细且适合投资者的商业计划。该工具旨在简化商业计划的制定过程，帮助创业者更有效地展示其商业理念和战略，提升融资成功的可能性。

### **3，合规和监管**

OpenAI 公布了 AGI 的进展量表

\[摘要\]：OpenAI 推出了一个五级系统，以理解和创建超越人类的人工智能（AI）进展，从对话式 AI（1 级）到能够管理组织的 AI（5 级）。目前，OpenAI 认为其 AI 处于 1 级，接近 2 级，称为“推理者”。这些 AI 涉及基本问题解决能力，接近不使用工具的博士级人类。该分类与员工共享，并将呈现给投资者，涉及能够在几天内独立行动（3 级）、创新（4 级）和整合整个组织（5 级）的 AI 系统。

全球人工智能治理上海宣言：推动合作与安全发展  
\[摘要\]：中国在世界人工智能大会上发布《上海宣言》，阐述了对全球人工智能合作的看法，强调其在该领域的雄心，包括到2025年实现人形机器人的大规模生产，至2027年成为人工智能领域的领导者。宣言提出五项原则：促进人工智能发展、维护安全、建立治理体系、提高公众参与与素养，以及通过人工智能改善生活质量，旨在推动全球合作与安全发展。

美国参议院提出《COPIED法案》：保护内容创作者免遭AI滥用  
\[摘要\]：美国参议院商务、科学和运输委员会提出了《COPIED法案》，旨在保护内容所有者及其作品，防止人工智能公司非法复制和滥用创作者作品。该法案要求科技公司在开发AI模型时，不得未经同意或补偿使用内容创作者的作品，并将删除数字水印视为非法行为。此外，法案要求科技公司允许内容创作者附加机器可读信息，记录数字内容的起源和历史，赋予艺术家、创作者和出版商在作品被非法使用时提起诉讼的权利。

---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240714-ai2024714](https://www.haxitag.com/briefs/ai-brief-20240714-ai2024714)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。