# AI及信息技术应用2024年1月7日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，通过算法和模型实现数据分析和决策制定。

## 2. 核心洞察 (TL;DR)
- AI技术在算法和商业模式方面持续进化，AI Driven产品场景不断扩张。
- 谷歌DeepMind的GraphCast AI天气预报模型将在北美和欧洲进行测试。
- OpenAI营收突破16亿美元，ChatGPT推动AI技术迅猛发展。

## 3. 关键事实与数据
- 关键事实1: 谷歌DeepMind的GraphCast AI天气预报模型通过分析历史数据预测复杂气象系统，优于传统数值模型。
- 关键事实2: 谷歌计划裁员3万人，加速AI创新整合，反映AI深入融入业务流程的战略转变。
- 关键事实3: OpenAI凭借ChatGPT，年度营收达到16亿美元，较上年增长5700%。

## 4. 深度分析正文


AI及信息技术应用2024年1月7日简报
====================

2024年第1周，主要AI应用集中在算法、商业模式等方面的进化，AI Driven的产品场景的扩张，而产品话与合规监管方面则没有重要信息。谷歌DeepMind的GraphCast AI天气预报模型，将在北美和欧洲进行冬季风暴测试，补充传统天气预报工具。GraphCast通过分析历史数据来预测复杂气象系统，优于传统数值模型。同时，谷歌计划裁员3万人以加速AI整合，反映出谷歌将AI深入融入业务流程的战略转变。GitHub推出Copilot Chat，基于OpenAI GPT-4，为开发者提供编程辅助。AI Employe则是一个开源浏览器自动化工具，基于GPT-4视觉，能自动执行复杂任务。阿里的AnyText能在图生成中精准生成多语言文字，涵盖辅助潜变量模块和文本嵌入模块。

OpenAI营收达16亿美元，ChatGPT推动AI技术迅猛发展。微软键盘新增Copilot键，标志AI技术的重大进步。Bland推出AI通话服务，高效处理大规模通话。TransformEHR是一种基于变压器的编码器-解码器模型，用于电子健康记录增强疾病预测。Notus-7B-v1利用DPO和AIF技术优化开源7B模型，加强偏好数据应用。苹果计划将生成式AI融入Siri，提升对话自然度和个性化。OpenAI向媒体公司支付授权费用，用于模型训练。MyShell发布OpenVoice，一种AI语音克隆技术。生成式AI搜索引擎Perplexity完成B轮融资，估值达5.2亿美元。Mobile ALOHA是由坦福大学开发的机器人操作系统，用于复杂移动任务。JPMorgan发布DocLLM语言模型，专门处理复杂多模态文档。

谷歌 DeepMind 的 GraphCast AI 天气预报模型将在北美和欧洲测试

\[摘要**\]**据 Axios 报道，谷歌 DeepMind 开发的 GraphCast 等人工智能模型将很快在北美和欧洲的冬季风暴中进行测试，补充传统的天气预报工具。这些 AI 模型通过分析历史数据来预测复杂的气象系统，而传统的数值模型则依赖物理方程和观测数据。涉足此领域的除了谷歌、英伟达、IBM 和 Tomorrow.io，还包括 NASA 和 NOAA 等政府机构。GraphCast 能在一分钟内提供未来 10 天的天气预报，并凭借近 40 年的历史数据训练，在 90% 以上的天气变量上的表现优于传统的“欧洲模型”。

谷歌计划裁员3万人，加速AI创新整合

\[摘要**\]**谷歌正在考虑大规模裁员，可能涉及高达3万名员工。此前，谷歌已裁减约12000名员工，首席执行官桑达尔·皮查伊认为这对公司适应性和投资新兴领域至关重要。谷歌积极推进其AI模型发展，不仅着眼于外部应用，还在考虑对运营结构进行重大调整。据《The Information》报道，这一策略性重组计划主要影响广告销售部门，谷歌正探索利用AI提高操作效率。这一重大变化反映出谷歌如何将AI更深入地融入其业务流程中。

GitHub 为所有人推出 Copilot Chat：人工智能辅助编码的新时代

\[摘要**\]**GitHub 最近宣布推出Copilot Chat ，这是一个类似 ChatGPT 的编程聊天机器人，现在可供所有用户使用，包括付费用户和某些免费类别（例如学生和教师）。Copilot Chat 基于 OpenAI 的 GPT-4 构建，可为开发人员提供实时编程指导，例如解释概念或编写测试。

AI Employe：GPT-4V驱动的浏览器自动化工具

\[摘要**\]**AI Employe是一个开源、由GPT-4视觉驱动的工具，旨在自动化浏览器环境中的复杂任务。该工具可以自动执行需要类人智能的任务，如理解电子邮件、收据和发票，并将数据从电子邮件传输到CRM/ERP系统。用户可以通过在浏览器中概述和演示他们的任务来创建工作流程，就像他们向人类展示一样\[1\]。AI Employe只记录浏览器更改而不捕获屏幕、麦克风或摄像头。AI Employe可以执行包括需要类人智能的复杂任务在内的各种操作。它还可以从图表、复杂表格和基于图像的OCR提供独特见解。

AnyText: 多语言视觉文本生成和编辑

\[摘要**\]**阿里的论文可以实现图生成中精准生成多种语言的文字。AnyText包括两个主要元素构成的扩散流水线：辅助潜变量模块和文本嵌入模块。前者使用诸如文字字形、位置和遮罩图像等输入来生成用于文本生成或编辑的潜变量特征。后者利用OCR模型将笔画数据编码为嵌入，并与来自标记器的图片标题嵌入相融合以生成与背景无缝整合的文字。

OpenAI 营收突破16亿美元：ChatGPT 推动AI技术飞速发展

\[摘要**\]**OpenAI 凭借 ChatGPT，其年度营收惊人地达到16亿美元，较上年的2800万美元大幅增长5700%。这一增长主要归功于今年早些时候推出的 ChatGPT 付费版本。目前，OpenAI 每月可创收约1.3亿美元，其增长主要由 ChatGPT 的多功能性能，如文本生成、内容创作、代码生成和错误检查等驱动。OpenAI 从非营利组织转型为以盈利为目标的实体，成为 AI 行业的重要力量，预计到2024年营收将达到10亿美元。ChatGPT 的成功，加上 OpenAI 不断扩展的产品线，包括 ChatGPT Plus 和 ChatGPT Enterprise，使公司在各行业的 AI 解决方案中继续实现显著增长和影响力。

微软键盘新增Copilot键：标志AI技术的重大进步

\[摘要**\]**微软宣布其Windows键盘将新增Copilot键，这是30年来首次重大改变，象征着进入“AI PC”年代。这个新键将激活Windows中的Copilot体验，简化日常任务中AI的使用。这一更新将从2月底起出现在新的Windows 11设备上，包括新的Microsoft Surface。

Bland：高性能AI通话服务，支持大规模定制通话

\[摘要**\]**Bland 是一款创新的 AI 通话服务，具有半秒快速响应能力，能够同时处理高达 50 万个通话。该服务提供了高度定制化的功能，包括自定义通话主题和声音选择，使其在电话销售和客户服务行业中变得越发真实和高效。Bland 的高并发处理能力和灵活的定制选项，为企业提供了一个强大的工具，以提升客户互动体验，同时优化操作效率。

TransformEHR：基于变压器的编码器-解码器生成模型，利用电子健康记录增强对疾病结果的预测

\[摘要**\]**在这项研究中，我们介绍了 TransformEHR，一种新的基于深度学习变压器的模型，使用编码器-解码器架构和创新的预训练目标，专门用于处理纵向电子健康记录（EHR）。通过预测患者未来就诊时的全部疾病和结果，TransformEHR在多个临床预测任务上展现出卓越性能。与传统模型相比，TransformEHR在胰腺癌预测和 PTSD 患者故意自残预测方面分别提高了2%和24%，显示出其在临床干预系统建立上的潜力。该模型的通用性允许其轻松适应数据有限的临床任务。此外，该研究还涵盖了不同人口统计学亚组和历史 EHR 长度对模型性能的影响，以及在内部和外部数据集上的普遍性评估。

Notus-7B-v1: 使用 DPO 和 AIF 技术优化的开源 7B 模型

\[摘要**\]**Notus-7B-v1 是一款使用直接偏好优化（DPO）和人工智能反馈（AIF）技术的新开源LLM。该模型基于改进的 Ultrafeedback 数据集进行了微调，区别于 Zephyr-7B-beta 主要在于使用的偏好数据集。通过 Argilla 工具的使用，发现并修正了原始数据集中的问题，采用了基于偏好评级的二值化数据集，从而在 AlpacaEval 基准测试中表现优异，超越了 Zephyr-7B-beta 和 Claude 2。该项目得益于对齐手册、OpenBMB 的 Ultrafeedback 数据集，以及与 HuggingFace H4 团队的合作。Notus-7B-v1 由 Argilla 团队开发，主要语言为英语，遵循 MIT 许可证。该模型特别强调了数据的重要性，特别是在偏好数据的应用方面，从而提高了模型的整体效率和表现。

苹果将把生成式人工智能融入 Siri

\[摘要**\]**实现更自然的对话和用户个性化。一位博主声称苹果将在 6 月份的 2024 年全球开发者大会上预览“新 Siri” 。此次泄密事件与彭博社的一篇报道同时发生，该报道称苹果正在开发人工智能技术，为 Siri 的智能版本提供支持，最早将于 2024 年推出。

OpenAI 每年向一些媒体公司提供 100 万至 500 万美元的费用，以授权其新闻文章用于模型训练

\[摘要**\]**OpenAI向媒体公司提出授权协议，使用它们的新闻文章来训练其语言模型，每年提供100万至500万美元，根据参与谈判的高管报告，这个金额被认为是最低限度的，尤其对于小型出版商而言，这给达成协议带来挑战。同时，苹果也在寻求类似的协议，以加强其在生成性AI领域的地位。苹果的报价更为优厚，但要求更广泛的使用权，包括将内容用于未来任何形式的AI产品，据了解情况的人士透露。

MyShell 推出 OpenVoice：AI 语音克隆技术的飞跃

\[摘要**\]**加拿大初创公司MyShell 发布了OpenVoice ，这是一种开源人工智能，能够以惊人的速度和准确性进行语音克隆。克隆声音具有无与伦比的精确度，可以对音调进行精细控制，从情感到口音、节奏、 停顿和语调。

生成式AI搜索引擎Perplexity完成7360万美元B轮融资，估值达5.2亿美元

\[摘要**\]**AI原生搜索引擎Perplexity成功完成了7360万美元的B轮融资，由机构风险投资合伙人（IVP）领投，使公司总融资额达到1亿美元，估值升至5.2亿美元。这轮融资凸显了Perplexity在AI搜索领域日益增长的影响力，其月活跃用户已增长至1000万，2023年处理查询超过5亿次，移动应用安装量超过100万。参与此轮融资的还包括NEA、Elad Gil、Nat Friedman、Databricks、NVIDIA及杰夫·贝索斯通过其贝索斯探险基金等投资者。

Mobile ALOHA：开源、模仿学习的机器人操作系统，突破复杂移动任务难题

\[摘要**\]**Mobile ALOHA是由坦福大学研发的机器人操作系统，专注于执行需要双手和全身协调的复杂移动任务。通过模仿学习，仅经过50次任务演示，共同训练，它能够自主完成日常生活中的各种任务，如烹饪、开柜放东西、自行坐电梯。该系统的软硬件全部开源，具有低成本全身远程操作、双手移动操作、自主模仿学习、数据集共同训练等主要功能特点。通过与Tracer AGV移动台座结合，Mobile ALOHA展现出高度的灵活性和多样化的应用场景，成为一个具有广泛应用潜力的机器人系统。其硬件组成包括机械臂、移动基座、摄像头等，同时具备自带电源和计算能力。未来，Mobile ALOHA计划与物联网设备连接，进一步拓展其应用范围。

JPMorgan 发布了一种名为 DocLLM 的新型语言模型

\[摘要**\]**DocLLM 是一种专门设计用于理解包含复杂布局结构的多模态文档的模型，如表格、发票、收据、报告和合同等。这些文档不只包含文本，还包含空间布局信息，DocLLM 通过文本框信息理解这种结构，不依赖昂贵的图像编码器。它通过改进的注意力机制和预训练目标处理不规则布局和多样化内容，有效地处理视觉文件。DocLLM 能够理解文档中的标题、段落位置、表格和图表排列等元素的重要性及其相互关系，提高了对复杂文档的处理和分析能力。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240107-ai202417](https://www.haxitag.com/briefs/ai-brief-20240107-ai202417)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。