如何《20分钟》利用生成性人工智能在亚马逊Bedrock上赋能记者并提升观众参与度 机器学习博客

更新时间: 2026-01-27 13:48:47 浏览:24

20 Minutes通过生成式AI提升新闻工作者的效率与观众参与度

关键要点

20 Minutes是法国重要的媒体之一,每月吸引1900万读者。利用Amazon Bedrock的生成式AI技术,20 Minutes开发了多种应用,帮助记者减少重复性工作并提高报道质量。主要应用场景包括:自动化任务、再发布新闻、以及提升内容品牌安全性。团队合作及明确的政策框架是成功实施生成式AI的关键。

在法国媒体领域,20 Minutes是一个重要的参与者,月读者达1900万。该媒体组织致力于向年轻和活跃的城市读者提供有用、相关且易于获取的信息。自2002年成立以来,20 Minutes通过印刷、网络和移动平台,每月覆盖超过三分之一39的法国人口。

作为20 Minutes的技术团队,我们负责开发和运营组织的网络与移动产品,并推进创新技术项目。多年来,我们一直积极使用机器学习和人工智能AI提升数字出版流程,为读者提供相关且个性化的体验。随着生成式AI尤其是大型语言模型LLMs的出现,我们开始实施“AI优先”策略,将AI应用评估纳入每个新技术产品的开发中。

我们的主要目标是为记者提供一流的数字出版体验。新闻编辑部的记者使用Storm,这是一种我们内部定制的数字编辑工具。Storm作为我们无服务器内容管理系统CMSNova的前端应用,成为我们生成式AI努力的核心。

在2023年,我们识别出多个挑战,并探讨生成式AI可能带来的积极影响,包括为记者提供新工具、增加观众参与度,以及确保广告商能够自信地评估内容的品牌安全性。为实现这些应用场景,我们依赖于 Amazon Bedrock。

加速器官方正版下载

Amazon Bedrock是一项完全托管的服务,提供来自顶尖AI公司的高效基础模型FMs,通过单一API提供广泛的安全、隐私和负责任AI所需的能力,用于构建生成式AI应用。

挑战与应用场景的识别

当今快速变化的新闻环境为数字出版商带来了诸多挑战和机遇。在20 Minutes,技术团队的一个关键目标是为记者开发新工具,以自动化重复任务、提高报告质量,并扩大受众覆盖。基于这一目标,我们识别出三个挑战和相应的生成式AI应用场景。

应用场景描述自动化任务使用自动化来减少记者在数字出版过程中的重复人工任务。再发布新闻通过AI工具简化新闻机构的内容再发布流程。品牌安全性提升关于已发布内容品牌安全的透明度,以吸引潜在的广告商。

第一个应用场景是利用自动化来减少记者在数字出版过程中的重复工作。开发新闻故事的核心工作包括研究、撰写和编辑文章。然而,文章完成后,必须定义支持信息和元数据,例如文章摘要、类别、标签和相关链接。这些任务对于搜索引擎优化SEO至关重要,影响文章的受众范围。如果能够自动化一些重复任务,这将为我们的新闻编辑部腾出更多时间,专注于核心记者工作,同时提升内容的覆盖范围。

第二个应用场景是如何在20 Minutes再发布新闻机构的报道。与大多数新闻机构一样,20 Minutes订阅了如 法新社AFP 等新闻机构,获取覆盖全国及国际新闻的内容。20 Minutes的记者筛选与受众相关的故事,并进行重写、编辑和扩展,以符合我们的编辑标准。重写这些报道对于SEO同样必要,因为搜索引擎对重复内容的排名较低。因为这一过程遵循可重现的模式,我们决定构建基于AI的工具,以简化再发布过程并减少所花时间。

最后第三个应用场景是提高关于我们已发布内容的品牌安全透明度。作为数字出版商,20 Minutes致力于为潜在广告商提供品牌安全的环境。内容可根据其适合广告和获利的程度被分类为品牌安全或不安全。针对不同的广告商和品牌,可能有不同类型的内容被认为是适当的。例如,一些广告商可能不希望其品牌出现在有关敏感主题的新闻内容旁边,而其他广告商可能不希望出现在关于药物和酒精的内容旁边。

一些组织如 互动广告局IAB 和 全球负责任媒体联盟GARM 已制定了全面的 准则 和 框架 来分类内容的品牌安全性。根据这些准则,IAB等数据提供商定期爬取网站例如 20minutesfr并计算品牌安全评分。然而,该评分是基于整个网站的,无法对单个新闻文章进行分类。考虑到LLMs的推理能力,我们决定开发基于行业标准准则的自动化单篇文章品牌安全评估,为广告商提供关于20 Minutes内容的实时、细化的品牌安全视图。

我们的技术解决方案

自2017年以来,20 Minutes一直在使用AWS,我们尽可能利用无服务器服务。

数字出版前端应用Storm是一个基于单页应用的工具,使用 React 和 Material Design 构建,并通过 Amazon Simple Storage Service (Amazon S3) 和 Amazon CloudFront 部署。我们的CMS后端Nova使用 Amazon API Gateway 和多个 AWS Lambda 功能实现。Amazon DynamoDB 是20 Minutes文章的主要数据库。新文章及现有文章的更改通过 DynamoDB Streams 捕获,以调用 AWS Step Functions 中的处理逻辑,并为基于 Amazon OpenSearch 的搜索服务提供数据。

我们通过 AWS PrivateLink 将Amazon Bedrock集成,这样可以在我们的 Amazon Virtual Private Cloud (VPC) 和Amazon Bedrock之间创建私有连接,而不必经过公共互联网。

在使用Storm撰写文章时,记者可以访问通过Amazon Bedrock实现的多个AI工具。Storm是一个块式编辑器,允许记者将多个内容块如标题、导语、文本、图片、社交媒体引用等组合成完整的文章。借助Amazon Bedrock,记者可以生成文章摘要的建议块,并将其直接放入文章中。我们使用单次提示以全文文章文本作为上下文生成摘要。

如何《20分钟》利用生成性人工智能在亚马逊Bedrock上赋能记者并提升观众参与度 机器学习博客

Storm CMS还为记者提供文章元数据的建议,包括适当的类别、标签,甚至是文中链接。这些对其他20 Minutes内容的引用对提高观众参与度至关重要,因为搜索引擎更高地排名有相关内部和外部链接的内容。

为实现这一点,我们结合使用 Amazon Comprehend 和Amazon Bedrock 从文章文本中提取最相关的术语,然后对照我们的内部分类数据库在OpenSearch中进行搜索。根据结果,Storm提供数个应链接至其他文章或主题的术语建议,用户可以接受或拒绝。

新闻报道在收到合作伙伴如AFP的报道后,立即在Storm中可用。记者可以浏览这些报道,并选择在 20minutesfr 上再发布。每一份报道在发布前都会经过我们记者的手工重写。为此,记者首先通过Amazon Bedrock的LLM调用物品进行重写。我们使用低温度的单次提示,指示LLM在重写时不要重新解释文章,并尽可能保持字数和结构接近。然后,重写的文章将与其他文章一样由记者在Storm进行手动编辑。

为实现新的品牌安全功能,我们处理在 20minutesfr 上发布的每一篇新文章。目前,我们使用单次提示,包括文章文本和IAB品牌安全准则的上下文,以获取LLM的情感评估。我们随后解析响应,存储情感并将其公开,以便每篇文章都能被广告服务器访问。

经验教训与展望

当我们开始在20 Minutes探索生成式AI应用场景时,我们对能够如此快速地迭代功能并投入生产感到惊讶。借助Amazon Bedrock的统一API,很容易在实验中切换模型,寻找每个用例的最佳模型。

在上述用例中,我们使用 Anthropic的Claude在Amazon Bedrock 作为我们的主要LLM,因为它的整体高质量,特别是在识别法语提示和生成法语内容方面优异。鉴于20 Minutes的内容几乎完全以法语写成,这些多语言能力对我们至关重要。我们发现,谨慎的提示工程是成功的关键,并严格遵循 Anthropic的提示工程资源 以最大化输出质量。

即使不依赖如 微调 或 检索增强生成RAG 等方法,我们也能实施对记者具有实际价值的用例。根据我们从新闻编辑部记者处收集的数据,我们的AI工具为他们节省了平均每篇文章八分钟的时间。每日报告约160篇内容,显然这笔节省的时间可以更有效地用于为读者报道新闻,而非重复的人工工作。

这些用例的成功不仅依赖于技术努力,还取决于我们的产品、工程、新闻、市场和法律团队之间的紧密合作。来自这些角色的代表组成我们的AI委员会,建立清晰的政策和框架,以确保在20 Minutes对AI的透明和负责任的使用。例如,每一次AI的使用都需经该委员会讨论和批准,而所有AI生成的内容也必须经过人工核查,方能发布。

我们相信,生成式AI在数字出版领域仍处于初级阶段,我们期待在今年为我们的平台引入更多创新的用例。目前,我们正致力于使用Amazon Bedrock部署微调的LLMs,以准确匹配我们出版物的语气与风格,并进一步提升品牌安全分析能力。我们还计划利用Bedrock模型对现有的图片库进行标记,并提供文章图片的自动建议。

为什么选择Amazon Bedrock?

根据我们对几个生成式AI模型提供商的评估,以及我们实施上述用例的经验,我们选择Amazon Bedrock作为所有基础模型需求的主要提供商。影响这一决定的主要原因包括:

模型选择:生成式AI市场迅速发展,AWS与多个领先模型提供商的合作确保我们可以通过 单一API 访问大量不断增长的基础模型。推理性能:Amazon Bedrock提供低延迟、高吞吐量的推理。借助按需和 预留吞吐量,该服务可以始终满足我们的容量需求。私有模型访问:我们使用 AWS PrivateLink 与Amazon Bedrock端点建立私有连接,确保我们对推理所发送的数据保持完全控制,而不必经过公共互联网。与AWS服务的集成:Amazon Bedrock与AWS服务如 AWS身份与访问管理IAM 和 AWS软件开发工具包AWS SDK紧密集成。因此,我们能够迅速将Bedrock整合进现有架构,而无需适应任何新工具或惯例。

结论与展望

在这篇博文中,我们描述了20 Minutes如何在Amazon Bedrock上使用生成式AI,赋能我们编辑部的记者,覆盖更广泛的受众,并使品牌安全对我们的广告商透明。通过这些用例,我们利用生成式AI为记者带来更多价值,并为未来的有前景的AI用例奠定基础。

要了解更多关于Amazon Bedrock的信息,可以从 Amazon Bedrock资源 开始,获取文档、博客文章以及更多客户成功案例。

关于作者

Aurlien Capdecomme 是20 Minutes的首席技术官,负责IT开发和基础设施团队的领导工作。他拥有超过20年的高效、低成本架构建设经验,特别关注无服务器策略、可扩展应用和AI计划。他在20 Minutes实施了创新和数字转型战略,监督数字服务的整体云迁移。

Bertrand d’Aure 是20 Minutes的软件开发人员,工程专业出身,专注于设计与实施20 Minutes应用程序的后端,特别是为记者创作故事所用的软件。他负责将生成式AI功能添加到软件中,以简化创作过程。

Dr Pascal Vogel 是亚马逊网络服务的解决方案架构师,与EMEA的企业客户合作,打造以云为中心的解决方案,重点关注无服务器和生成式AI。作为一名云技术爱好者,Pascal喜欢学习新技术,并与希望在云端旅程中有所作为的客户建立联系。