2024-01-08
路透社伦敦12月22日报导——人工智能竞赛正转变为对数据的争夺。最尖端的人工智能模型已能在美国律师考试中取得高分并生成类似人类的文字。为了不断提升其能力,软件需要以更复杂的信息进行自我训练,例如图片和科学论文。然而,这些数据相对较难获取且成本更高。 人工智能软件的复杂性在很大程度上取决于其训练时所使用数据集的质量。尽管社交媒体帖子在互联网上易于获取,但可能存在偏见或成见,而图片往往模糊不清。使用这类数据可能导致种族主义和厌恶女性的输出结果,就像微软(MSFT.O)在使用Twitter帖子训练人工智能模型时所遇到的问题一样。 这也是为什么人工智能公司正在寻找更可靠的数据来源,例如由专业作者撰写的科学论文和书籍。然而,这些数据更为难以获取。Epoch的研究人员将数据分为高质量和低质量,估计互联网上有多达17万亿个高质量词汇可供免费使用,而低质量词汇多达71万亿个。如果人工智能模型继续以目前的速度吸收信息,它们可能会在 2026 年之前耗尽优质数据。 其中一种选择是开发人员使用人工智能为特定模型生成新数据。一些项目已经在使用所谓的合成内容,这些内容通常来自数据生成服务,例如 Mostly AI。美国运通创建此类数据来帮助其检测不常见的欺诈模式,而 Alphabet (GOOGL.O) Waymo 使用虚构的场景来帮助训练其自动驾驶软件。研究机构 Gartner 预计,到 2024 年,60% 的人工智能数据将是合成的,而 2021 年这一比例仅为 1%。 然而,人工智能模型仍然渴望大型出版商和离线存储库持有的现实世界信息。对于《Lancet》杂志和 LexisNexis 法律数据库的所有者RELX (REL.L)等组织来说,这可能是一笔意外之财。该公司内部开发人工智能软件并将其出售给客户,截至 12 月初市值超过 700 亿美元,过去一年上涨了 30% 以上。《华尔街日报》和《泰晤士报》的出版商新闻集团(NWSA.O)正在与人工智能开发商谈判内容交易,据称这将带来“可观的收入”。 风险投资公司 Andreessen Horowitz估计,此类交易对于人工智能公司来说将是一项额外成本,这些公司已经花费了相当于其收入 15% 的资金来分类和清理数据。由于昂贵的计算能力和不断上升的云存储成本,特许权使用费将蚕食利润率。但像 ChatGPT 聊天机器人的创建者 OpenAI 这样的公司并没有太多选择。华纳音乐集团、盖蒂图片社和许多其他创作者正在起诉人工智能公司未经授权使用其内容。不管怎样,人工智能公司将不得不为他们的数据冲刺付出代价。 Axel Springer和OpenAI两家公司于 12 月 13 日宣布,双方将达成一项合作协议,该协议将提供新闻出版商内容摘要,以响应人工智能公司ChatGPT聊天机器人提出的问题。 Axel Springer 将收到一笔用于训练 AI 技术的历史内容的一次性付款,以及一笔年度许可费付款,使OpenAI能够访问更多最新信息。英国《金融时报》援引一位知情人士的话报道称,这可能是每年“八位数”的金额。 编辑:Peter Thal Larsen 和 Sharon Lam
原文链接: https://29592.cockroachai.dftianyi.top/c/8583f278-f928-4c9e-8f2b-574770b49211 原文标题: Artificial intelligence will embark on a data dash