# AI及信息技术应用2023年6月4日简报

## 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够执行通常需要人类智能的任务，如视觉识别、语言理解和决策制定。

## 核心洞察（TL;DR）
- 微软的Windows系统将深度集成Copilot，提供聊天、信息整理和复杂任务执行功能。
- Meta推出Massively Multilingual Speech（MMS）项目，为1100多种语言提供语音转文本和文本转语音功能。
- 谷歌投资AI Startup Runway，旨在从AWS手中夺取云业务。

## 关键事实与数据
- 关键事实1: Meta的MMS项目覆盖的语言是现有模型的十倍，每种语言平均提供32小时的数据。
- 关键事实2: Apple正在寻找工程师在混合现实环境中使用Generative AI。
- 关键事实3: 天津超算中心发布的‘天河天元大模型’基于国产天河超级算力和智能算力，汇集构建中文大数据集。

## 正文
AI及信息技术应用2023年6月4日简报
====================

上周，在AI应用领域，重磅就是window系统将深度集成Copilot，这个集成除了能陪你聊聊天，做做信息整理，还可以在随时召唤，出来做复杂的任务，每人都有个皮卡丘，除了伴随，他可以帮你完成的更多。  

与此同时，AI应用的风险和监管，再次成为热门话题，领域内头部学者专家企业家，开始大声疾呼寻求监管，与互联网时代企业寻求豁免和免责的的诉求不同，这次是企业主动寻求监管，可以想见这是召唤出了一个什么就像那个渔夫，我们正在释放一个明显驾驭不了的“神力”，需要有个紧箍咒，在需要的时候还可以稍微可控。

01＃AI应用

Meta MMS：为 1,100 多种语言推出语音转文本、文本转语音等功能  

**************************\[摘要\]**************************Meta 推出了 Massively Multilingual Speech (MMS) 项目，该项目结合了 wav2vec 2.0 和一个新的数据集，为超过 1,100 种语言提供语音到文本、文本到语音和语言识别。该项目旨在使信息更易于获取并帮助保护语言多样性。MMS 模型优于现有模型，覆盖的语言是现有模型的十倍。该数据集是使用 1,100 多种语言的新读物创建的，每种语言平均提供 32 小时的数据。这些模型在 1,400 多种语言的 500,000 小时语音数据上进行了训练，与当前的语音模型相比，结果显示出良好的性能。

Apple 正在寻找工程师在混合现实环境中使用 Generative AI  

**************************\[摘要\]************************** Apple希望工程师与 Generative AI 合作，正如彭博社的Mark Gurman所指出的，新职位明确表示，工程师需要具备机器学习方面的经验，并对对话式和生成式 AI 感兴趣。此类技术支持最近变得非常流行的ChatGPT等工具。

用大模型自动做笔记、提取 PPT、整理访谈，阿里云 AI 新产品“通义听悟”开放公测

**************************\[摘要\]************************** 该模型将通过阿里巴巴的统一听务助手向公众发布，该助手可以分析和生成音频和视频文件的摘要。通义听悟提供支持，也被整合到阿里巴巴广受欢迎的商务消息应用程序钉钉中。据 CNBC 报道，阿里巴巴的目标是全年为聊天机器人添加新功能，例如多媒体内容的实时英中翻译和 Google Chrome 插件。该公司正在与企业云客户合作，使用 LLM 开发定制的 AI 产品。

将 GPT-4 插入 Minecraft——并发掘了 AI 的新潜力  

**************************\[摘要\]************************** Voyager，它是 Minecraft 中第一个由 LLM 驱动的具身终身学习代理，它可以在没有人为干预的情况下不断探索世界，获得多样化的技能，并做出新的发现。Voyager 由三个关键组件组成：1) 一个最大化探索的自动课程，2) 一个不断增长的可执行代码技能库，用于存储和检索复杂的行为，以及 3) 一个新的迭代提示机制，它结合了环境反馈、执行错误，和程序改进的自我验证。Voyager 通过黑盒查询与 GPT-4 交互，绕过了模型参数微调的需要。Voyager 开发的技能在时间上是可扩展的、可解释的和组合的，这可以迅速复合智能体的能力并减轻灾难性遗忘。从经验上看，Voyager 显示出强大的情境终身学习能力，并且在玩 Minecraft 时表现出非凡的熟练程度。

谷歌投资 AI Startup Runway 以从 AWS 手中夺取云业务  
**************************\[摘要\]************************** Runway 是一个人工智能平台，它为视频构建了一套生成式人工智能工具，以 1.5B 美元的估值筹集了 1 亿美元；谷歌参与了这一轮。

Character.AI 是 a16z 支持的聊天机器人初创公司，第一周安装量超过 170 万  
**************************\[摘要\]**************************  AI 应用正在宣扬自己的发布成功，因为 a16z 支持的Character.AI 应用声称在上市不到一周的时间内就吸引了超过 170 万的新安装。这家 AI 应用程序制造商今年早些时候宣布获得高达 1.5 亿美元的 A 轮融资，对其业务的估值为 10 亿美元，提供具有鲜明个性的可定制 AI 伙伴，以及让用户创建自己的角色的能力。

天津超算中心发布“天河天元大模型  
**************************\[摘要\]**************************  该模型是立足国产天河超级算力和智能算力，汇集构建中文大数据集，由平台自主训练研发的大型模型。国家超算天津中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据，以及专业领域的中医、医药、问诊、法律等多种数据集，训练打造了自己的中文语言大模型——“天河天元大模型”，并在此基础上启动深度训练面向医疗、工业、法律等领域的专业模型。未来大模型将在深度学习平台的支撑下成为产业智能化基座。

最强AI助手上线，让装上“眼睛”的GPT-4为你解答世间万物！  
**************************\[摘要\]**************************  给GPT-4装上摄像头，秒变AI助手回到家，刚进门，你对着空气说，“帮我看下家里还有哪些食材，出个今晚的菜谱。最近，国外一位热衷于AI的程序员小哥，成功让手机摄像头成为了ChatGPT的最新版本——GPT-4的“眼睛”，打造出了一款能看到现实空间的AI助手。GPT-4的实力果然非凡，已经超越了当下所有主流的AI助手——它已成为你家庭生活中的一个连接点。

BiomedGPT: 统一通用的生物医学生成式预训练Transformer  
**************************\[摘要\]************************** BiomedGPT: 统一通用的生物医学生成式预训练Transformer，适用于视觉、语言和多模态任务动机：引入一个统一和通用的生物医学生成式预训练Transformer模型，利用大规模和多样化的数据集进行自监督学习，接受多模态输入并执行一系列下游任务。BiomedGPT是一个统一和通用的生物医学生成式预训练Transformer模型，通过自监督学习和多模态、多任务预训练方法，实现了对生物医学数据的全面表示和多任务处理的突破。

Block Generator为您的项目创建自定义块  
**************************\[摘要\]************************** 准备使用Taskade的AI代理（现在输入由GPT-4启用的Beta）自动化任务。观察AI代理商的行动，自主研究主题，完成任务并精心策划您的整个工作流程。

SPRING：一种创新的 LLM 提示框架，旨在实现上下文中的思维链规划和推理   
**************************\[摘要\]************************** SPRING是一种基于 LLM 的策略，在需要多任务规划和推理的交互式环境中优于强化学习算法。来自卡内基梅隆大学、 NVIDIA 、阿里尔大学和微软的一组研究人员研究了大型语言模型 (LLM) 在游戏环境中使用人类知识进行理解和推理的用途。他们提出了一种称为SPRING的两阶段方法，该方法涉及研究学术论文，然后使用问答 (QA) 框架来证明所获得的知识。

SPRING：一种创新的 LLM 提示框架，旨在实现上下文中的思维链规划和推理   
**************************\[摘要\]************************** SPRING是一种基于 LLM 的策略，在需要多任务规划和推理的交互式环境中优于强化学习算法。来自卡内基梅隆大学、 NVIDIA 、阿里尔大学和微软的一组研究人员研究了大型语言模型 (LLM) 在游戏环境中使用人类知识进行理解和推理的用途。他们提出了一种称为SPRING的两阶段方法，该方法涉及研究学术论文，然后使用问答 (QA) 框架来证明所获得的知识。

韩国的 Naver 以最新的类似 ChatGPT 的人工智能模型瞄准外国政府

**************************\[摘要\]************************** 当微软和谷歌在玩通用人工智能游戏时，Naver 走的是一条不同的道路。如果你不知道，Naver 是韩国首选的搜索引擎，超过 2/3 的用户使用它。他们新的类似 ChatGPT 的系统都是关于本地化 AI 应用程序，专注于阿拉伯世界具有政治敏感性的国家，以及西班牙和墨西哥等非英语国家。

Improving mathematical reasoning with process supervision：过程监督和 CoT  
**************************\[摘要\]**************************  Open AI 刚刚发布了Let's Verify Step by Step 。这是一个聪明的技巧：训练一个奖励模型，在思维链的每一步提供反馈，以减轻幻觉和提高推理能力。过程监督胜过结果监督。博客：通过过程监督改进数学推理。

Nvidia Neuralangelo AI 将视频变成 3D 世界  
**************************\[摘要\]************************** NVIDIA Research 开发了 Neuralangelo （大名鼎鼎） ，这是一种利用神经网络从 2D 视频剪辑进行 3D 重建的 AI 模型。Neuralangelo 生成非常详细和有纹理的 3D 结构，允许创意专业人士将它们导入设计应用程序以用于艺术、视频游戏开发和机器人技术等各种目的。该模型擅长从 2D 视频转换复杂的纹理，超越以前的方法并使开发人员能够使用智能手机镜头快速创建虚拟对象（ 这里有一个很棒的前后）。

亚马逊或通过“交互式对话体验”彻底改变亚马逊搜索  
**************************\[摘要\]************************** 亚马逊的另一个秘密发展，正如最近的一份职位所暗示的那样，亚马逊似乎是最新的技术巨头潜入AI革命。该公司暗示通过新的“交互式对话体验”彻底改变了亚马逊搜索。

微软的人工智能嗅觉  
**************************\[摘要\]************************** 人工鼻子实验是一种经过训练的智能设备，可以识别各种气味。使用简单的气体传感器和微控制器，您可以构建一个可以识别面包、咖啡等气味的AI鼻子。

AI「黑箱」被打开？谷歌找到大模型能力涌现机制  
**************************\[摘要\]************************** 谷歌这篇论文强调了语言模型的ICL行为如何根据其参数而改变，并且更大的语言模型具有将输入映射到许多类型的标签的涌现能力。这是一种推理形式，其中输入-标签映射可以潜在地学习任意符号。更有趣的是，研究者还发现Flan-PalM在遵循翻转标签上比PalM更差，这意味着指令调优模型无法覆盖它们的先验知识。结合前面的研究结果，研究者得出结论虽然指令调优提高了学习输入-标签映射的能力，但它更强化了语义先验知识的使用。

交互式自然语言处理  
**************************\[摘要\]************************** 交互式自然语言处理 (iNLP) 已成为 NLP 领域内的一种新范式，旨在解决现有框架的局限性，同时与人工智能的最终目标保持一致。该范式将语言模型视为能够从外部实体迭代观察、行动和接收反馈的代理。具体来说，这种情况下的语言模型可以：(1) 与人类互动，以更好地理解和解决用户需求，个性化响应，与人类价值观保持一致，并改善整体用户体验；(2) 与知识库交互，用事实知识丰富语言表征，增强响应的上下文相关性，并动态利用外部信息生成更准确和知情的响应；(3) 与有效分解和处理复杂任务的模型和工具交互，利用特定子任务的专业知识，并促进社会行为的模拟；(4) 与环境互动以学习语言的基础表征，并有效地处理具体任务，例如根据环境观察进行推理、规划和决策制定。本文对 iNLP 进行了全面的概述，首先提出了概念的统一定义和框架。然后，我们提供了 iNLP 的系统分类，剖析了它的各种组件，包括交互对象、交互界面和交互方法。我们继续深入研究该领域使用的评估方法，探索其多样化的应用，审查其伦理和安全问题，并讨论前瞻性研究方向。这项调查为对这个快速发展的领域感兴趣的研究人员提供了一个切入点，并提供了 iNLP 当前景观和未来轨迹的广阔视野。

02＃产品市场创新

Windows 11 推出类似于Bing的系统级 AI 助理，区别就是它会对系统上安装的所有应用生效。  
**************************\[摘要\]**************************Windows Copilot使 Windows 11 成为第一个宣布集中式 AI 协助的 PC 平台，以帮助人们轻松采取行动并完成工作。Bing Chat 插件扩展到 Windows，使开发人员能够将他们的应用程序集成到 Windows Copilot 中，以更好地服务于他们的客户并增加对原生 Windows 应用程序的参与。正在 Windows 上的 Microsoft Store 中引入新的 AI 功能和体验，包括专门的 AI 应用推荐位、AI 生成评论摘要帮助开发者节省浏览时间等。

谷歌推出 Product Studio，这是一种让商家使用生成式 AI 创建产品图像的工具

**************************\[摘要\]************************** 在今天的Google Marketing Live活动中，这家科技巨头宣布推出 Product Studio，这是一种新工具，可让商家使用生成式 AI 轻松创建产品图像。品牌将能够在 Merchant Center Next 中创建新图像，这是谷歌的平台，供企业管理其产品在谷歌上的展示方式。商家能够免费创建产品图像，并从他们已有的图像中获得更多价值。

Humbird AI招聘工具

**************************\[摘要\]************************** Humbird AI是一款利用人工智能和自动化优化招聘流程的工具。它有助于建立人才储备管道，简化候选人互动，识别和筛选顶尖人才，并避免候选人失联。该工具还提供定制报告和仪表板，以实现高质量的招聘，并与一系列工具集成，从ATS到生产力和通信平台。它旨在将人才招聘团队的效率提高10倍。

Desku：AI驱动的CRM软件

**************************\[摘要\]************************** Desku是一款客户支持和保留软件，集成了实时聊天、电子邮件和社交媒体，实现无缝沟通。它提供了基于人工智能的统一Omni渠道平台，为个性化体验、工单管理、聊天机器人创建、知识库、营销自动化以及准确的报告和分析提供支持。

Artifact 新闻应用程序引入了一个选项，供用户将文章标记为点击诱饵  
**************************\[摘要\]************************** 现在，由Kevin Systrom和Mike Krieger创立的应用程序推出了一项新功能，如果您遇到这样的文章，可以让 AI 为您重写标题。应用程序制造商表示，如果用户将标题标记为点击诱饵，该应用程序将调用 GPT-4 模型重写标题。在启动点击诱饵标记功能时，Artifact 表示它有一个手动流程来审查文章，以便在多个用户报告后将它们标记为点击诱饵。随着新的更新，如果一篇文章被 Artifact 团队标记为点击诱饵，AI 将为所有用户重写标题。人们会在标题旁边看到一个星形图标，表示 AI 已经重写了它。

让众包审核承担更多责任，Twitter为帖子中的图片推出了社区注释  
**************************\[摘要\]**************************该公司的目标是在发布照片的平台上解决变形图像或人工智能生成图像的场景。换句话说，该平台想要标记几周前风靡一时的“ Balenciaga Pope ”等内容。几天前，人工智能生成的关于五角大楼遭到袭击的图像随着知名账户的转发而迅速传播开来。Twitter表示，为图片写的注释将出现在包含该图片的“最近和未来”帖子中。目前，该功能处于测试阶段，将适用于带有单一图像的推文。

03＃合规

许多 AI 专家私下表达了对 AI 风险的担忧，AI 安全中心发布多人签署公开信

**************************\[摘要\]**************************包括 OpenAI 和谷歌 DeepMind 高管在内的领先人工智能专家签署了一份简短声明，称迫切需要解决“人工智能灭绝的风险”，并将其威胁与核战争和流行病进行比较。在公开声明中，超过 350 位专家强调，减轻人工智能的风险应该成为全球优先事项。AI 安全中心发布，并由 OpenAI 的 Sam Altman、DeepMind 的 Demis Hassabis 和 Anthropic 的 Dario Amodei 等知名人士签署。

**************************\[摘要\]**************************签署者还包括微软首席技术官凯文斯科特、音乐家格兰姆斯以及著名的人工智能研究人员约书亚本吉奥和杰弗里辛顿，他们此前曾对他们帮助开发的技术表示担忧。

人工智能生成的广告突出了 Twitter 的问题

**************************\[摘要\]**************************一个 blue-check Twitter 用户链接到卫报并谎称电视节目主持人伊恩赖特去世的人工智能生成的广告突出了 Twitter 的问题。新的“验证”标准 + AD欺诈 + AI结合到clog up twitter和Defame Publications的情况。似乎是新的产品和认知机制带来的风险，与此同时看到twitter上有用户反馈，涉及宗教、歧视等政治不正确的内容的审核和禁止传播时间周期越来越长，马一龙的新挑战。

法庭上没有 ChatGPT：法官命令必须声明和检查所有 AI 生成的内容

**************************\[摘要\]**************************律师带着 6 个虚构的案件出现在法庭上，其他法官也注意到了这一点。得克萨斯州联邦法官布兰特利·斯塔尔已采取措施确保他的法庭不会发生此类愚蠢行为。对任何出庭的律师的一项新要求是，他们现在必须在公文包上发誓“文件的任何部分都不是由生成人工智能起草的”，或者如果是的话，一个真实的、活生生的人给了它一次检查.

---
## 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://haxitag.com/brief/ai-brief-20230604-ai202364](https://haxitag.com/brief/ai-brief-20230604-ai202364)
**来源索引（站内可追溯）**：[麦肯锡](https://haxitag.com/search?q=%E9%BA%A6%E8%82%AF%E9%94%A1)、[普华永道](https://haxitag.com/search?q=%E6%99%AE%E5%8D%8E%E6%B0%B8%E9%81%93)、[Gartner](https://haxitag.com/search?q=Gartner)、[IDC](https://haxitag.com/search?q=IDC)、[Forrester](https://haxitag.com/search?q=Forrester)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。