# AI及信息技术应用2024年7月7日简报

## 4. 深度分析正文


AI及信息技术应用2024年7月7日简报
====================

在AI产业及应用研究领域，近期有多项重要进展和创新。商汤科技发布了性能显著提升的新一代AI模型SenseNova 5.5，其核心指标与OpenAI的GPT-4o相媲美，并推出了多模态交互能力以及多款新模型。Gemini和Meta AI分别推出了Code Execution功能和Meta LLM编译器，专注于代码优化和编译器推理。Jina AI和Resona V2A分别在文本重新排序和视频转音频技术方面取得了突破。老板电器和微软分别在烹饪大模型和AI语音技术VALL-E 2上展示了AI在不同领域的应用潜力。

特别值得注意的是，李彦宏在WAIC产业发展论坛上强调了AI应用应侧重于解决实际问题，预示着AI技术将更深入地融入各行各业。同时，一些公司如Quantum Rise和Kyutai通过筹集资金和推出新产品，展示了AI技术的商业潜力和开源精神。Salesforce AI Research的APIGen和快手可灵的Kolors模型等，都在推动AI技术的边界。

在产品市场创新方面，可灵AI的网页版上线，提供了更强大的图生视频功能。Perplexity AI的Pro Search功能升级，增强了处理复杂研究任务的能力。Incogni等隐私保护工具的出现，反映了市场对个人隐私保护的需求。WhatsApp和Sider等应用通过AI技术为用户提供了更加个性化和互动的体验。

合规和监管方面，随着AI技术的快速发展，相关的法律和伦理问题也日益受到关注。Phil Schiller加入OpenAI董事会，可能预示着苹果与OpenAI的进一步合作。中国科技巨头在上海世界人工智能大会上的出色表现，显示了中国在AI领域的自主创新能力。同时，Cloudflare和YouTube等平台采取措施保护内容创作者的权利，应对AI内容抓取和深度伪造问题。企业在AI领域的监管套利策略，以及谷歌因AI能源增长导致的排放量增加等问题，也引起了业界的广泛讨论。

综上所述，AI产业正以前所未有的速度发展，不断推动技术创新和应用拓展，同时也带来了新的挑战和问题，需要行业、监管机构和社会各界共同努力，确保AI技术的健康发展和合理应用。

**1，AI产业及应用研究**
---------------

商汤发布日日新SenseNova 5.5，性能对标GPT-4o

\[摘要\]：商汤科技发布了新一代 AI 模型日日新 SenseNova 5.5，对比 5.0 性能提升30%，核心指标对标 OpenAI 的 GPT-4o。该模型具备流式原生多模态交互能力，能自然处理文本、图像、声音和视频等信息。同时，推出了“所见即所得”模型日日新 5o 和可控人物视频生成模型 Vimi。SenseNova 5.5 具有6000亿参数，在数理逻辑和指令跟随方面表现优异，并推出了 Lite 版本，精度和推理效率显著提升。

Gemini 推出代码解析器：Code Execution

\[摘要\]：Gemini 在 AI Studio 和 Gemini API 中推出了 Code Execution 功能，当前支持 Python 语言。用户可以在 AI Studio 的高级设置中启用该功能。Code Execution 类似于 Function Calling，作为工具添加后，模型会自动决定何时调用它，并根据结果进行迭代学习，直到获得最终结果

Meta AI 推出 Meta LLM 编译器

\[摘要\]：Meta AI 发布了基于 Code Llama 构建的 Meta LLM 编译器，专注于代码优化和编译器推理。该模型经过 5460 亿个 LLVM 中间表示和汇编代码标记的预训练，并对 1640 亿个标记进行指令微调，适用于代码大小优化和汇编代码转换任务。LLM Compiler 提供 70 亿和 130 亿参数版本，以满足学术研究和行业应用的需求。

Jina AI 发布 Jina Reranker v2

\[摘要\]：Jina AI 推出了 Jina Reranker v2 (jina-reranker-v2-base-multilingual)，这是一款基于 Transformer 的先进模型，专为文本重新排序任务进行了优化。它显著提升了信息检索系统的性能，支持多语言文档处理。该模型通过将查询和文档对作为输入，并输出相关性分数，以提高检索和排序的准确性，在多种基准测试中表现出色，特别适用于多语言环境中的 RAG 和代码检索任务。

Resona V2A：利用AI解读视频

\[摘要\]：Resona V2A 是首个商用的视频转音频技术产品，能够自动为视频生成高质量、上下文相关的音频，包括声音设计、音效、拟音和环境音。它支持主流的 AI 视频生成应用（如 Runway、Luma、SORA、Veo 和 可灵），为用户提供更为便捷的音频生成解决方案。

老板电器推出全球首个烹饪大模型

\[摘要\]：老板电器发布了全球首个烹饪大模型“食神”，通过数十亿级行业数据和数千万级知识图谱为用户提供个性化的烹饪指导。食神大模型不仅能识别食材并提供多种烹饪方法，还能与厨房设备协同工作，支持全自动化烹饪过程。同时，它注重用户情绪价值，提供从菜谱建议到设备清洗的一体化服务。该模型计划在10月内测，12月正式上线，标志着智能家电行业的新发展。

微软推出新型 AI 语音技术 VALL-E 2

\[摘要\]：微软发布了其最新的 AI 语音技术 VALL-E 2，其表现之优秀令人担忧，微软目前暂不计划公开发布该技术。VALL-E 2 能够以惊人的准确性模仿人类语音，甚至可以复制语调和情感。由于其可能带来的安全和伦理问题，微软决定暂时搁置该技术的公开应用，以防止潜在的滥用风险。

李彦宏指出AI应用新方向

\[摘要\]：在2024年WAIC产业发展论坛上，李彦宏强调AI和大模型技术需要关注实际应用而非模型本身。他指出，当下“百模大战”与其实际为社会创造的价值不成比例，未来AI应用应侧重于解决产业中的实际问题。李彦宏认为，闭源模型在商业应用场景中表现更好，并预测智能体将成为下一个AI应用方向，具有广泛的产业潜力。

Quantum Rise 为其人工智能驱动的“咨询 2.0”初创公司筹集了 1500 万美元种子资金

\[摘要\]：总部位于芝加哥的初创公司 Quantum Rise 已从 Erie Street Growth Partners 筹集了 1500 万美元种子资金。Quantum Rise 通过其“咨询 2.0”模式，将人工智能用于自动化工作流程，提供路线图和定制解决方案，加速企业发展。创始人 Alex Kelleher 表示，该公司旨在帮助那些无法负担昂贵咨询服务的企业实现自动化和增长。

法国人工智能实验室 Kyutai 推出 Moshi，竞争 GPT-4o

\[摘要\]：法国人工智能实验室 Kyutai 最近发布了 Moshi，这是一款开源的 GPT-4o 竞争对手，能够实时聆听、听到和说话。由 8 名研究人员开发的 Moshi，可以理解和表达 70 种不同的情绪和风格，并能同时处理两个音频流。与 GPT-4o 不同，Moshi 的型号较小，可以本地安装并离线运行，适合智能家电的未来应用。Moshi 已经可用，而 GPT-4o 的高级语音功能要到秋季才会普及。Kyutai 计划公开分享 Moshi 的代码库和模型权重。

Salesforce AI Research 推出 APIGen：高质量数据生成管道

\[摘要\]：Salesforce AI Research 推出了 APIGen，这是一种用于函数调用应用程序的自动数据生成管道，能够生成可验证的高质量数据集。通过 APIGen，Salesforce 训练了两个函数调用模型，分别为 1.3B 和 6.7B 参数。6.7B 模型在伯克利函数调用排行榜上排名第六，超越了 GPT-4o 和 Gemini-1.5-Pro；1.3B 模型则优于 GPT-3.5-Turbo 和 Claude-3 Haiku。

快手可灵大模型 Kolors 开源发布

\[摘要\]：可凌团队推出了基于潜在扩散的大规模文本到图像生成模型 Kolors。该模型在视觉质量、复杂语义准确性和文本渲染方面相较其他开源和闭源模型具有显著优势，支持中英文输入。Kolors 在综合评估中表现出色，尤其在人类评估中，50位图像专家对其视觉吸引力和总体满意度给予了最高评分。KolorsPrompts 数据集用于比较 Kolors 与其他先进模型，涵盖 14 类别和 12 评价维度。

微软正式开源 GraphRAG，显著提升企业私有数据分析能力

\[摘要\]：2024年7月2日，微软开源了基于图的检索增强生成 (RAG) 方法——GraphRAG。GraphRAG 利用 LLM 构建知识图谱结合图机器学习，显著提升了在处理企业私有数据时的性能。与传统 RAG 方法相比，GraphRAG 具备更强的连点成线能力和复杂语义问题推理能力，能够在复杂的数据集上表现出色。这一开源项目在 GitHub 上迅速获得了 2700 颗 star，受到开发者的高度关注和期待。

上海人工智能实验室推出了InternLM 2.5-7B

\[摘要\]：上海人工智能实验室发布了InternLM 2.5-7B，这是一款具有100万上下文窗口的模型，能够使用各种工具。该模型在发布后迅速攀升至Open LLM排行榜的顶端，展示了其在处理复杂语境和执行多种任务方面的强大性能。这标志着人工智能技术的又一重大突破，为大语言模型的发展设立了新的标杆。

Meta 发布 Meta 3D Gen：高级文本到 3D 生成系统

\[摘要\]：Meta 推出了新的 Meta 3D Gen 系统，能够通过文本生成具有高级几何和高质量纹理的3D资产。该系统包括两个关键组件：Meta 3D AssetGen，用于生成3D模型；Meta 3D TextureGen，用于高质量纹理生成和AI辅助重新纹理。Meta 3D Gen 在生成速度上比现有解决方案快3到10倍，生成的3D资产在几何细节和材质质量上均达到顶级水平。这一研究成果标志着文本到3D生成领域的重大进步。

TikTok 推出全新 AI 聊天机器人“Genie”

\[摘要\]：TikTok 正在开发一款名为“Genie”的 AI 聊天机器人，旨在提高用户参与度。用户可以在直播中提出问题并立即得到回复。Genie 集成了生成式 AI 搜索和虚拟人创建等功能，简化了对 TikTok 各种 AI 工具的访问。这一举措标志着 TikTok 在利用 AI 技术增强用户体验和互动方面迈出了重要一步。

**2，产品市场创新**
------------

快手可灵 AI 推出网页版，功能更强大

\[摘要\]：可灵 AI 上线了网页版，用户无需安装 APP 即可使用。新增高表现模式，虽然效果高清，但因资源消耗大，每天仅限使用两次。还增加了10秒视频、视频比例、运镜控制等功能，在图生视频领域保持领先。目前需申请排队，通过后普通模式可免费无限使用。

Perplexity 为 Pro Search 带来研究能力的升级

\[摘要\]：Perplexity AI 升级了其 Pro Search 功能，使其能够处理复杂的研究任务。新功能包括多步骤推理、高级数学和编程支持以及深度分析和洞察力。Pro Search 现在可以通过理解、规划和实现目标，分解复杂查询，并综合各种信息来源提供完整答案。集成 Wolfram|Alpha 引擎和更快的代码执行速度使其在解决数学和编程任务时更加准确和高效。

Incogni：恢复你的隐私并从互联网上删除个人信息

\[摘要\]：Incogni 是一款隐私保护工具，可帮助用户从互联网上删除个人信息。它针对 180 多家数据代理商，包括人物搜索网站，确保用户的私人数据不会被随意收集和销售。该工具通过识别和删除与用户相关的数字跟踪数据，有效恢复了用户的隐私。

**WhatsApp 探索人工智能生成的个性化头像**

\[摘要\]：WhatsApp 正在开发一项利用生成式人工智能为用户创建个性化头像的新功能。在最新的 Android 版 Beta 中发现，该功能允许用户通过提供图像和文本提示，想象自己身处各种场景。用户可以在设置中手动激活并自定义这些头像。隐私方面，用户可随时删除参考图像。这一举措符合使用 AI 进行创意表达和个性化的趋势。

Sider：与屏幕内容互动的强大工具

\[摘要\]：Sider 通过双击即可与屏幕上的任何内容进行聊天，帮助用户分析、总结和提取屏幕截图中的文本。它支持与文件和图像互动，并兼容多种 AI 模型，包括 GPT、Claude-3 和 Gemini 1.5，使得用户能够更加高效地处理和管理信息。

Quill AI 加快股票研究速度

\[摘要\]：Quill AI 提供了通过将 PDF 转换为带有引文链接的电子表格的功能，并高效地从 SEC 文件中提取表格数据。它还提供了一个汇总收益报告的仪表板，帮助用户快速分析公司业绩。该工具旨在优化股票研究流程，使用户能够更快地获得关键信息并进行深入分析。

ElevenLabs 推出新阅读器应用

\[摘要\]：ElevenLabs 刚刚发布了一款新的阅读器应用，利用 AI 生成的声音将书面内容转换为引人入胜的音频。用户可以使用该应用朗读 PDF、网站等材料，甚至可以模仿用户的声音，提供个性化的听觉体验。

Claude AI 推出“项目”以加强协作

\[摘要\]：Anthropic 推出了 Claude AI 助手的新功能“项目”，旨在帮助用户更好地组织文件、聊天和信息，促进个性化和高效的协作。该功能包括组织工作流程、团队协作和自定义指令。此外，Artifacts 增强了内容生成和编码功能，使 Claude 成为更强大的企业 AI 解决方案。Anthropic 强调用户隐私，确保项目内共享数据未经同意不会用于模型训练。

Figma AI 功能现已推出

\[摘要\]：Figma 推出了新的 AI 功能，设计师现在可以更快地找到资产，创建逼真的模型，并轻松将静态设计转变为交互式原型。这些功能广泛集成在其平台上，测试版现已推出，并将免费使用到 2024 年。

RightBlogger：AI写作工具

\[摘要\]：RightBlogger 提供 70 多种易于使用的 AI 工具，旨在帮助用户克服写作障碍并更快地发布文章。这些工具包括生成文章、编辑内容、优化SEO等功能，旨在提高写作效率和质量。

BoltAI - 为你的日常任务提供 AI 辅助的 macOS 客户端

\[摘要\]：BoltAI 是一个原生的 macOS ChatGPT 客户端，专为企业家、开发人员、营销人员、学生等设计，旨在将 AI 辅助整合到他们的日常任务中。它提供了一种高效的方式来利用 AI 的强大功能，帮助用户更智能、更快速地完成各项任务。通过 BoltAI，用户可以优化他们的工作流程，提升生产力，并在各自领域中取得更大的成功。

Trove - AI驱动的对话式调查工具

\[摘要\]：Trove 是首个由人工智能驱动的对话式调查工具，通过将传统调查转换为对话形式，使调查过程更具吸引力和影响力。Trove 提供了一种独特的方法来收集反馈，使参与者更乐于回答，从而提高调查数据的质量和有效性。该工具旨在通过更自然和互动的方式进行数据收集，增强用户体验并提升调查的整体效果。

谷歌翻译将支持 110 种新语言

\[摘要\]：谷歌宣布其翻译服务将新增 110 种语言，覆盖全球超过 6.14 亿使用者，约占全球人口的 8%。这是谷歌翻译历史上最大规模的一次扩展，新增语言包括粤语等主流语言以及马恩岛语等小众本土语言。其中，约四分之一为非洲语言，使其成为迄今为止非洲语言支持的最大扩展。此次扩展是谷歌 1000 种语言计划的一部分，旨在提升全球语言覆盖率和服务可及性。

### **3，合规和监管**

Phil Schiller 作为无投票权观察员加入 OpenAI 董事会

\[摘要\]：苹果应用商店负责人 Phil Schiller 将作为无投票权观察员加入 OpenAI 董事会。这是将 ChatGPT 集成到苹果产品中的协议的一部分。苹果不会直接向 OpenAI 付费，但双方的合作对 OpenAI 极具价值。微软和苹果在董事会的非投票席位使他们能够了解 OpenAI 的运营，尽管这引发了关于透明度和反垄断的担忧。

中国科技巨头在上海世界人工智能大会上大放异彩

\[摘要\]：中国科技巨头和初创公司在上海举行的世界人工智能大会上展示了150多种尖端人工智能产品。尽管面临美国的先进芯片制裁，商汤科技等公司仍通过如 SenseNova 55 等模型在生成 AI 方面取得进展。高管们对中国在 AI 领域的自主引领能力充满信心，并强调云计算创新将有助于克服芯片短缺问题。

Cloudflare 向 AI 内容抓取宣战

\[摘要\]：随着生成式人工智能的兴起，AI 机器人频繁抓取网站内容以训练其模型，威胁到内容创作者的生计。为应对这一问题，Cloudflare 在其仪表板中推出了一键式阻止所有 AI 机器人功能。该功能适用于所有客户，包括免费用户，通过简单设置即可激活。Cloudflare 还利用其全球网络和机器学习模型主动识别并阻止伪装成常规浏览器的 AI 机器人，保护用户内容。

YouTube 允许删除模拟你脸部或声音的 AI 生成内容

\[摘要\]\[摘要\]：YouTube 现推出新功能，允许用户请求删除由 AI 生成且模拟其脸部的内容。此举旨在增强隐私保护，确保用户对其面部形象在平台上的使用有更多控制权。该功能响应了对 AI 生成内容日益增长的担忧，特别是涉及深度伪造技术。用户可通过平台的隐私设置提交删除请求，以保障其个人信息和图像的安全。

企业在应对监管套利策略在 AI 领域悄然兴起

\[摘要\]：随着布鲁塞尔援引《数字市场法》打击Meta的“付费或同意”模式，法国准备对Nvidia提出反垄断指控，监管机构将焦点转向大型科技公司。然而，人工智能领域出现了一条新战线。亚马逊和微软通过挖走OpenAI潜在竞争对手Adept和Inflection的大部分团队成员并获得其技术许可，实施了“反向收购”战略，巧妙避开了合并审查。这种利用监管滞后进行的市场集中，可能重塑AI的未来。

谷歌将标记人工智能生成的政治广告

\[摘要\]：谷歌宣布将自动标记使用人工智能生成内容的政治广告，取代广告商自行添加标签的要求。此举旨在提高透明度，回应公众对人工智能在未来选举中作用的日益担忧。该披露信息将出现在各种平台上，以确保用户能够识别和理解广告背后的技术来源。

谷歌的排放量因人工智能能源增长 48%

\[摘要\]：谷歌的温室气体排放量在过去五年中因数据中心的扩张激增了 48%，这对其 2030 年实现净零排放目标构成了挑战。由于人工智能驱动的数据中心电力消耗急剧上升，预计到 2026 年将翻一番，到 2030 年将占全球能源消耗的 4.5%。大型科技公司在推动人工智能创新的同时，也面临着与其环境承诺之间的矛盾，引发了对人工智能繁荣时期碳足迹和水资源使用的担忧。

唱片公司起诉人工智能音乐生成器侵犯版权

\[摘要\]：环球音乐集团、索尼音乐和华纳唱片对人工智能音乐合成公司 Udio 和 Suno 提起诉讼，指控其大规模侵犯版权。这些公司被指控使用受版权保护的音乐来训练其 AI 模型，这些模型能够根据文本描述生成新歌曲。唱片公司要求对每首用于训练的歌曲赔偿高达 15 万美元。此案可能对生成人工智能在创意领域的未来产生重大影响，或将要求公司对所有训练数据进行授权。

---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240707-ai202477](https://www.haxitag.com/briefs/ai-brief-20240707-ai202477)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。