# AI及信息技术应用2023年10月1日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够执行通常需要人类智能才能完成的任务，如视觉识别、语言理解和决策制定。

## 2. 核心洞察 (TL;DR)
- ChatGPT 推出多模态交互功能，支持语音和图像输入输出。
- 亚马逊投资 Anthropic 40 亿美元，增强云端 AI 能力。
- 微软发布 Windows 11 和 Microsoft 365 Copilot，集成 AI 助手 Windows Copilot。

## 3. 关键事实与数据
- ChatGPT 新增语音和图像功能，支持语音对话和图像识别。
- 亚马逊 Echo 设备将集成生成式 AI 模型，提供更多互动体验。
- 微软 Windows 11 将加入系统级别的 AI 助手 Windows Copilot。

## 4. 深度分析正文


AI及信息技术应用2023年10月1日简报
=====================


OpenAI本周搞一堆大新闻，推出了视觉多模态模型，支持ChatGPT的多模态交互，也就是“听、说、看”的产品体验，还更新了cookbook、引入了新的开发者生态主管、推出了fintuning可视化界面， Anthropic 更是获得亚马逊投资30亿美元，真是令人兴奋的全方位的突进 。

**1,AI产研及应用**

ChatGPT 现在可以看、听和说话

\[摘要\]ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面，允许您进行语音对话或向 ChatGPT 显示您正在谈论的内容。语音和图像为您提供更多在生活中使用 ChatGPT 的方式。在旅行时拍摄地标的照片，并实时讨论其中的有趣之处。当您回到家时，拍下冰箱和食品储藏室的照片，以了解晚餐吃什么（并询问后续问题以获取逐步食谱）。晚餐后，通过拍照、圈出问题集并让它与你们俩分享提示来帮助您的孩子解决数学问题。

OpenAI放出的ChatGPT 4的多模态语音和图像更新的模型其实叫GPT-4V(ision)

\[摘要\]OpenAI放出了19页的GPT-4V(ision)报告来解释这个模型，释放了大量信息：GPT-4V(ision)的训练完成于2022年，2023年3月开始提供早期访问。GPT-4V 的训练过程与 GPT-4 相同，首先使用大量的文本和图像数据进行预训练，然后使用人类反馈的强化学习进行微调。基于视觉的模型 GPT-4V(ision) 是受到了OpenAI与 "Be My Eyes" 的合作的启发。这是一个新工具，用于为盲人或视力受损的人描述视觉世界。Be My AI 被整合到现有的 Be My Eyes 平台中，为盲人用户的智能手机拍摄的照片提供描述。该测试确定 Be My AI 可以为其 500,000 名盲人和低视力用户提供前所未有的工具，以满足信息、文化和就业需求。

ChatGPT 现在可以看到、听到和说话,Plus用户将能够与ChatGPT进行语音对话，并在对话中包含图像

\[摘要\]OpenAI对其ChatGPT进行了重大更新，纳入了多模式功能。根据OpenAI的公告博客，升级后的GPT-3.5和GPT-4版本现在可以“感知、发声和交互”。这些进步包括分析图像并在文本对话上下文中做出响应的能力。 另一个新功能是语音合成的实现，可以与 ChatGPT 进行流畅的语音交互。用户可以从与经验丰富的配音艺术家合作开发的五种独特的合成声音中进行选择。这标志着朝着日益引人入胜且栩栩如生的人工智能体验迈出了一大步。   此外，图像识别功能已集成到 ChatGPT 中。无论是识别家用电器的问题还是根据冰箱里的食物建议膳食计划，这项技术的范围几乎是无限的。

亚马逊为 Alexa 带来生成式人工智能

\[摘要\]亚马逊在新闻发布会上宣布，将使用新的生成式人工智能模型改善其Echo设备的体验。新模型将提供更多互动体验，考虑肢体语言、眼神和手势，推出新的智能家居功能，提供更富个性的Alexa助手。模型还可调整语气和反应，适应人的自然停顿和犹豫，提供更自由的对话。美国客户将很快在现有Echo设备上免费预览这些新功能。这一创新旨在进一步提高Alexa的交互性和智能性。

Youtube 也更新了五款针对创作者的 AI 工具，帮助他们降低创作成本

\[摘要\]Dream Screen：将 AI 生成的图像或视频背景添加到 YouTube Shorts 中。YouTube Create：使用新的编辑和制作应用程序编辑手机中的视频。AI Insights：根据观众已在 YouTube 上观看的内容获取视频创意和大纲建议。Aloud：使用自动配音工具轻松创建更多语言的内容。创作者音乐中的辅助搜索：使用这款人工智能辅助搜索工具为您的视频找到完美的配乐。

微软宣布了旗下产品一大波 AI 更新

\[摘要\]Windows 11将会加入系统级别的AI助手Windows Copilot。Windows 11将于9月26日发布。Microsoft 365 Copilot也在同一天的微软发布会上发布了一堆更新，Windows 中的很多应用都经过了AI的增强并且所有这些都集合到了Windows Copilot中，Windows Copilot 是 Windows 11 23H2 更新的主要功能，将相同的 Bing 聊天功能直接带到 Windows 11 桌面。它在 Windows 11 中显示为侧边栏，允许你控制 PC 上的设置、启动应用程序或只是回答查询。它也集成在整个操作系统中，同时系统的绘图与照片工具等也会与Windows Copilot深度结合加入AI功能。可以说渗透到了整个系统的方方面面，各位可以看视频了解。

Lexica的下一代图像模型Aperture v3.5

\[摘要\]Lexica最新发布了Aperture v3.5，这是他们的下一代图像模型。该模型具有许多强大的功能和性能优势，并且在图像处理和分析方面取得了令人瞩目的成果。该模型将为用户提供更高精度和更快速的图像识别和分析能力，为各种领域的图像应用提供了更多的可能性。

StabilityAI发布音频模型Stable-audio

\[摘要\]到目前為止，Stability AI 已經發布了三種模型——即StableLM 、 Stable Diffusion和Stable Audio——它們將所有內容整合到一個強大的模式中只是時間問題。今年 4 月，Stability AI 與其多模態 AI 研究實驗室 DeepFloyd 一起發布了DeepFloyd IF ，這是一種文字到圖像級聯像素擴散模型。

Google手机 Pixel 8 将集成AI相机编辑功能

\[摘要\]近期泄露了一段关于Google旗舰手机Pixel 8的宣传视频，展示了该系列全新的AI功能。这段视频获知，Google Pixel 8系列的照片和视频编辑都加入了AI功能。其中，“Video Boost”可以使视频画面更加流畅，同时还增加了夜视功能，提高了视频的质量。而专为视频编辑设计的“Audio Eraser”可以消除视频中的背景噪音。在照片编辑方面，“Magic Editor”就像是“Magic Eraser”的升级版本，允许用户根据自己的意愿重新制作合成照片。正如宣传视频中所示，一个家庭在旋转木马上拍了三张照片，然后使用Magic Editor将它们合并在一起，使照片中的每个人都同时微笑着看着相机。Magic Editor还可以让用户在图像中移动对象，去除背景物体，并更改中午时分的天空为日落，从而改变整个图片的光照氛围。这些功能使用户能够轻松制作合成照片。

Getty Images 推出人工智慧影像产生器

\[摘要\]Getty Images 推出了一款生成式 AI 工具，在 NVIDIA 的协助下对其庞大的图像库进行了训练，以根据文字提示建立图像。该工具旨在提供商业上更安全且免版税的视觉内容，同时避免虚假资讯或模仿在世艺术家等滥用行为。他们还引入了一种补偿模型来奖励那些帮助训练人工智慧的贡献者。

Spotify 推出播客语音翻译功能

\[摘要\]Spotify 正在试用人工智慧功能，利用 OpenAI 的语音生成技术将选定的播客翻译成多种语言，旨在吸引更多用户并增加收入。与传统配音相比，这项举措可以提供更自然的翻译，从而扩大这些播客的受众范围。世界上最大的 YouTube 用户之一 — 先生也采取了类似的方法。野兽－ 取得了一些惊人的成功。

Meta 推出了 28 个人工智能虚拟角色

\[摘要\]马克·扎克伯格昨天在年度 Connect 会议上宣布推出通用助理 Meta AI。他们还推出了 28 个人工智能角色，由 SnoopDogg、Mr. Beast 和 Kendall Jenner 等人扮演。除了助手和角色之外，还有AI贴纸和图像编辑工具

Meta 推出人工智能更新以及与 Bing 的合作

\[摘要\]Meta 正在其应用程序和设备系列中释放新的人工智能功能，包括公司平台上的人工智能生成的贴纸、图像编辑器和对话助理机器人。Bing AI 将在 Meta 的聊天机器人中提供及时的答案，并集成到 WhatsApp、Messenger 和 Instagram 的人工智能中。

MathGLM：大模型也学会了做数学题

\[摘要\]为了评估MathGLM模型解决在不同年级数学问题上的能力，本文在收集到的K6数据集上测评了几种不同模型的性能，包括GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B 和 MathGLM-GLM-10B，结果如下图 8 所示。对于算术任务，本文预训练了一系列不同模型参数的的MathGLM 模型，并在包含9,592条测试数据集上对比了其与引领性的大语言模型GPT-4 和 ChatGPT的性能。

SeqGPT: 开箱即用的开放域自然语言理解大模型

\[摘要\]从结果可以看出，SeqGPT-7B的确在大多数任务上准确率更好，这证明了使用多样化NLU任务数据的训练模型的收益。为了分析SeqGPT在训练期间未见过的任务上的工作方式以及训练任务如何影响不同测试任务的性能，我们使用单一任务数据训练了一系列模型，上图中展示了结果。预训练数据相关研究证明，丰富数据多样性有利于提升模型的泛化能力

**2，产业创新与生态**

Tinder 前首席执行官 Renate Nyborg 带着一款新应用程序回归，可帮助您进行艰难的对话

\[摘要\]Meeno 将采用订阅模式运营，而不是依靠应用内广告来带来收入。该公司仍在测试收费标准，并为二月份之前注册的用户提供一年的免费保费。Meeno 在最初推出时瞄准的是 Z 世代和年轻的千禧一代，这是一个出了名的孤独群体，但也精通技术。该应用程序的目标是在人们可能需要指导时提供支持。“我认为真正需要的是有东西在你身边，帮助你思考实际的解决方案，”尼堡说。

亚马逊向 Anthropic 投资 40 亿美元

\[摘要\]在来自微软和谷歌的竞争中，亚马逊向 Anthropic 投资高达 40 亿美元，以增强其云端人工智慧能力。这笔起价为 $1.25B 的交易使亚马逊能够尽早获得 Anthropic 的技术，其中 Anthropic 主要使用亚马逊的云端服务并协助亚马逊 AI 晶片的技术开发。

AI驱动的市场情报平台AlphaSense在E轮融资中获得了1.5亿美元

\[摘要\]AlphaSense 总部位于纽约，利用人工智慧和自然语言处理来帮助客户制定企业和投资策略。BOND 领投此轮融资，将其估值提升至2.5B美元。Alphabet 旗下 CapitalG、Viking Global Investors 和高盛等现有投资者也跟投。其人工智慧驱动的市场情报和搜寻平台提供金融数据、新闻文章和股票研究的访问，帮助资产管理公司识别投资机会。这些资金将用于扩展 AlphaSense 的企业解决方案及其人工智慧搜寻功能、市场情报工具和 GenAI 功能。该公司还计划增加可搜寻业务内容的集合并进行策略性收购。

红杉资本：生成式 AI 进入了第二阶段

\[摘要\]在市场正在进入“第二幕”，即从以技术为驱动转变为以客户需求为导向的阶段。文章还介绍了几个进入“第二幕”的公司和应用案例，并提供了更新的生成式人工智能市场地图。此外，文章还包括了一个反映公司在生成式人工智能应用开发中所使用的计算和工具供应商的LLM开发者堆栈。

Workers AI：Cloudflare 全球网络上的无服务器 GPU 驱动推理

\[摘要\]Cloudflare 正在与 HuggingFace 合作，让所有开发人员都能轻松使用 AI 推理。Workers AI 在 Cloudflare 的全球网络上为流行的 AI 模型提供无服务器 GPU 驱动的推理。

**3，监管与合规**

ChatGPT 的秘密成分是人类建议

\[摘要\]OpenAI 研究人员创造了一种解决这个问题的方法。他们开发的算法既可以通过数据分析学习任务，也可以接受人类教师的定期指导。只需点击几下鼠标，工作人员就可以向人工智能系统表明它应该向终点线移动，而不仅仅是收集分数。约在同一时间，OpenAI、谷歌和其他公司开始构建称为大型语言模型的系统，该系统从互联网上收集的大量数字文本（包括书籍、维基百科文章和聊天日志）中学习。

谷歌不小心将其 Bard AI 聊天内容泄露到公共搜索结果中

\[摘要\]Bard AI 聊天机器人，但无意中将对话内容泄露到了其搜索结果中，这一问题在公开后目前正在得到解决。Google DeepMind 的研究科学家 Peter Liu很快澄清说，搜索结果中出现的聊天对话之前已使用人工智能聊天机器人中常见的共享功能与其他用户共享，该功能允许用户向他们选择的人提供链接。沙利文写道。“我们也不打算让这些共享聊天记录被 Google 搜索索引。我们现在正在努力阻止它们被编入索引。”

ChatGPT架构师：语言大模型的多模态能力、幻觉与研究经验

\[摘要\]近期，John Schulman与Pieter Abbeel就ChatGPT的构建过程及方法、能力、局限等模型细节展开了详细探讨，并展望了语言大模型向多模态模型进化的的发展方向。趣，最初在我的实验室中，你主要研究模仿学习和机器人领域，后来你意识到了强化学习的发展潜力，于是你在OpenAI花了大量时间对其进行研究，并将其引入到语言模型领域

如何控制 LLM 应用的使用成本—可观测性平台 Helicone 介绍

\[摘要\]用户只需将他们对 LLM 的调用替换为对代理的调用。Helicone 是一个开源的 LLM 应用可观测性平台，用于记录所有请求到 OpenAI 的日志，并提供用户友好的 UI 界面、缓存、自定义速率限制和重试等功能。它可以通过用户和自定义属性跟踪成本和延迟，并为每个请求提供一个调试环境，以在 UI 中迭代提示和聊天对话内容


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20231001-ai2023101](https://www.haxitag.com/briefs/ai-brief-20231001-ai2023101)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。