生成式人工智能时代的基石：矢量数据库

作者： CashCat
2023年05月02日
人工智能, 动态

生成式人工智能无疑是今年全球科技行业的焦点，无论是 ChatGPT 还是Stable Diffusion都为我们展示了人工智能颠覆创意产业的潜力。

但在头条新闻的背后，2023 年人们忽视了人工智能背后更重要的发展：矢量数据库的兴起。

虽然目前矢量数据库还没有成为热点，但它将完全颠覆我们与设备交互的方式，同时显著提高知识工作者的生产力。

最终，矢量数据库将成为实现人工智能所承诺的社会和经济变革的重要基础设施。

但是什么是矢量数据库？要理解这一点，我们必须理解它解决的潜在问题：非结构化数据。

数据库的困境
数据库是软件行业持续时间最长、最具弹性的垂直行业之一。数据库和数据库管理解决方案的总支出从2017年的386亿美元增长到2021年的800亿美元，翻了一番。自 2020 年以来，由于大规模转向远程工作后进一步数字化，数据库作为增长最快的软件类别的地位进一步巩固。

然而，现代数据库仍然受到一个已经持续了几十年的问题的限制：非结构化数据问题。全球存储的多达 80% 的数据都是非结构化数据，这些数据尚未为快速搜索或调用进行格式化、标记或结构化。

对于结构化数据与非结构化数据的简单类比，请考虑每行包含多列的电子表格。在这种情况下，一行“结构化数据”填充了所有相关列，而一行“非结构化数据”则没有。在非结构化条目的情况下，可能是数据已自动导入到行的第一列中;现在需要有人分解该单元格并将数据填充到相关列中。

为什么非结构化数据是一个问题？简而言之，它使对数据库中的信息进行排序、搜索、查看和使用变得更加困难。但是，我们对非结构化数据的理解与数据通常的结构有关。

缺少标签或格式未对齐意味着非结构化条目可能会在搜索中丢失或错误地从筛选中排除/包含。这给许多数据库操作带来了错误风险，我们必须通过手动构建数据来解决。这通常需要我们手动审查非结构化条目。这并不意味着数据本身一定是非结构化的;它只是需要比我们通常的数据存储方式更多的手动干预。

我们经常听到人工审查的负担，例如数据科学家将 80% 的时间花在数据准备上。但在实践中，这在某种程度上是我们所有人做的事情，或者至少生活在其影响下。如果您不得不与文件浏览器搏斗以查找硬盘驱动器上的内容或花费大量时间筛选出不相关的搜索引擎结果，那么您可能会受到非结构化数据问题的打击。

这种浪费在手动格式化、审查和过滤上的时间并不是一个新问题或完全数字化的问题。例如，图书馆员根据杜威十进制系统手动排列书籍。非结构化数据问题只是人类自发明写作以来所遇到的每一项记录保存任务的基本挑战的数字版本：我们需要对信息进行分类以存储和使用它。

这就是矢量数据库特别令人兴奋的地方。矢量数据库不是依靠不同的类别和列表来组织我们的记录，而是将它们放在地图上。

矢量和映射

矢量数据库在机器学习和深度学习中使用一个称为矢量嵌入的概念。向量嵌入是一种将文本中的单词或短语映射到高维向量（也称为单词嵌入）的技术。这些向量以这样一种方式学习，即语义相似的单词在向量空间中靠近。

这种表示允许深度神经网络更有效地处理文本数据，并且已被证明在各种自然语言处理任务（如文本分类、翻译和情感分析）中非常有用。

在数据库上下文中，向量嵌入实际上是我们想要测量的一组属性的数值表示。

为了创建嵌入，我们采用经过训练的机器学习模型，并指示它监视数据集中条目中的这些属性。

例如，对于文本字符串，可以告诉模型记录平均单词长度、情绪分析分数或特定单词的出现次数。

最终嵌入采用一系列数字的形式，对应于属性审核中记录的“分数”。向量数据库获取向量嵌入的分数并将它们绘制在图形上。我们在向量嵌入中测量的每个属性都构成了图的一个维度，导致它通常比我们通常可以可视化的三个维度多得多。

绘制所有这些信息后，我们仍然可以计算出任何一个嵌入与另一个嵌入的“距离”，就像我们在任何其他图中一样。也许更重要的是，我们可以采用一种新颖的数据搜索方式。通过生成输入搜索查询的向量嵌入，我们在要定位的图形上绘制一个点。然后，我们可以发现离搜索点最近的嵌入。

向量嵌入并不是所有问题的完美解决方案。它们通常是以无监督的方式学习的，因此很难解释它们的含义以及它们对整体模型性能的贡献。预训练嵌入还可能包含训练数据中存在的偏差，例如性别、种族或政治偏差，这可能会对模型性能产生负面影响。

矢量搜索的潜力

矢量数据库不依赖于标签、标签、元数据或其他通常用于构建数据的工具。相反，由于向量嵌入可以跟踪我们认为相关的任何属性，因此向量数据库允许我们根据整体相似性获得搜索结果。

虽然当前对非结构化数据的搜索涉及人工审查和解释，但矢量数据库将允许搜索实际反映我们查询背后的含义，而不是像关键字这样的肤浅属性。

这一变化将彻底改变数据处理、记录保存以及大多数行政工作和文书任务。由于“误报”搜索结果的减少以及预先筛选和格式化系统查询的需求减少，矢量数据库可以显着提高知识经济中几乎任何工作的生产力和效率。

除了提高管理效率外，这些高级搜索功能还将使我们能够依靠数据库更有效地参与创造性和开放式查询。

这是对生成式人工智能崛起的理想补充。由于矢量数据库减少了结构化数据的需求，因此我们可以通过自动化处理非结构化数据以进行训练和生产的大部分工作，大大加快生成式 AI 模型的训练时间。

因此，许多组织可以简单地将其非结构化数据导入向量数据库，并告诉它他们希望在嵌入中测量哪些属性。生成这些嵌入后，组织只需搜索向量数据库即可快速训练和部署生成模型以收集任务信息。

矢量数据库将大大提高我们的生产力，并彻底改变我们对计算机进行查询的方式。总之，这使得矢量数据库成为未来十年最重要的新兴技术之一。

本文作者Rick Hao是Speedinvest的合伙人，原载于VB


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    与魔鬼做交易？迪士尼与OpenAI签订版权合作协议
                                      GPT-5 Codex与Claude Code，谁才是机械码皇？
                                      AI再次突破安全红线，留给人类不到一年治理窗口
                                      微软：生成式AI可导致知识工作者认知下降
                                      人工智能正在摧毁互联网内容生态
                                      ChatGPT与Gemini谁更适合网络安全运营？
                                      生成式人工智能面临的主要发展障碍
                                      谷歌Gemini真的遥遥领先了吗？
                  



标签： chatGPT, 生成式AI