你可能会问——为什么是 Wing? Wing 提供了一个统一的编程模型,将基础设施和应用程序代码整合到一个有凝聚力的框架内。这种独特的方法使开发人员能够简化他们的工作流程,消除不断切换上下文的需要,并显著提高生产力和创造力。
这正是您在构建 AI/ML 应用程序时所需要的,更多地关注核心功能而不是底层基础设施。我遇到了他们的 Open AI Joker 应用程序,它可以生成笑话并将其翻译成不同的语言。整个框架的流畅程度令人惊叹。请注意,Wing 仍在积极开发中。
您可以使用最少的代码构建任何 AI/ML 应用程序。让我们看看 Joker 应用程序是如何工作的。该应用程序使用 OpenAI 生成笑话并将其翻译成不同的语言。有一个喜剧演员,一个开放人工智能助手,可以生成笑话,每当它生成笑话时,笑话就会被放入/存储在一个桶中。有两个译者,西班牙语和希伯来语。这些译者订阅一个主题。每当有笑话产生时,他们都会收到并翻译。而且,他们也把翻译好的笑话扔进了桶里。很简单。
下面是这个示例的技术概述图,展示了如何将 OpenAI 的API 与 Wing结合使用。
如果您还没有尝试过 Winglang,您可以通过简单的命令轻松尝试
npm install -g winglang
使用 git clone 命令将代码复制到本地计算机
git clone https://github.com/winglang/wing.git
转到示例文件夹
然后在终端中运行以下命令:
npm install
wing it
调用“START HERE”功能,并在“Joke Store”中查看结果。
对于 AI/ML 应用程序,您需要一个数据库来存储非结构化数据。我大约 8 个月前加入 SingleStore,当时我对 AI/ML 和矢量数据库还是个新手。随着围绕矢量数据库的大肆宣传,我开始了解矢量数据库,并发现 SingleStore 作为矢量数据库如何为行业带来惊人的补充。它不仅用于存储矢量数据,而且公司还使用 SingleStore 进行实时分析。现在,看看支持实时分析的矢量数据存储的力量,这是一种超级力量。
下面我给大家介绍一下SingleStore;它是一个基于云的数据库管理系统(RDBMS),专为数据密集型应用程序而设计。它以其数据摄取、事务处理和查询处理的速度而闻名。 SingleStore 早在 2017 年就开始支持矢量存储
SingleStore 的 Notebook 功能基于流行的 Jupyter Notebook,广泛应用于数据科学和机器学习社区。 SingleStore Notebook 扩展了 Jupyter Notebook 的功能,使数据专业人员能够轻松使用 SingleStore 的分布式 SQL 数据库,同时在语言和数据源方面提供出色的可扩展性。
我只是喜欢处理数据并使用公开的数据集(例如葡萄酒数据集、泰坦尼克号数据集等)进行不同的实验。我着迷地看到 NumPy 和 Pandas 在数据探索和提出不同解决方案方面的能力。
Pandas 和 NumPy 是 Python 生态系统中用于数据分析和科学计算的两个最受欢迎的库
任何 AI/ML 应用程序的核心都是数据。 Pandas 和 NumPy 等工具是 Python 中数据操作和分析的基础。 Pandas 提供了用于操作数值表和时间序列的高级数据结构和操作,使其成为在用于训练模型之前预处理和清理数据的理想选择。 NumPy 增加了对大型多维数组和矩阵的支持,以及对这些数组进行操作的大量数学函数的支持,这对于数据预处理和模型训练中的性能密集型操作至关重要。
我使用过 TensorFlow、PyTorch,最近接触过 LangChain 和 LlamaIndex,对它们帮助 AI/ML 工程师使用 API、向量存储功能、逻辑、推理等构建强大应用程序所需的所有工具包的能力印象深刻。让我们一一来看看他们的超能力吧。
由 Google 开发的TensorFlow和由 Facebook 开发的PyTorch是用于构建和训练复杂机器学习模型的两个最流行的框架。 TensorFlow 以其灵活性和强大的可扩展性而闻名,使其适用于研究原型和生产部署。 PyTorch 因其易用性、简单性和动态计算图而受到赞誉,可以更直观地编码复杂的 AI 模型。这两个框架都支持广泛的人工智能模型,从简单的线性回归到复杂的深度神经网络。
LangChain由 Harrison Chase 开发,于 2022 年 10 月首次亮相,它是一个开源平台,旨在构建由大型语言模型支持的强大应用程序,例如 ChatGPT 等聊天机器人和各种定制应用程序。
Langchain 致力于为数据工程师提供一个包罗万象的工具包,以便在聊天机器人、自动问答、文本摘要等各种用例中利用法学硕士。
LlamaIndex是一种先进的编排框架,旨在增强 GPT-4 等 LLM 的功能。虽然LLM本质上很强大,并且接受过大量公共数据集的训练,但他们通常缺乏与私有或特定领域数据交互的方法。
LlamaIndex 弥补了这一差距,提供了一种结构化的方式来摄取、组织和利用各种数据源——包括 API、数据库和 PDF。通过将这些数据索引为针对LLM优化的格式,LlamaIndex 促进了自然语言查询,使用户能够无缝地与其私有数据进行对话,而无需重新训练模型。
作为初学者,我一直在寻找简单而灵活的东西来开发深度学习模型,就在那时我发现了Keras。许多 AI/ML 专业人士欣赏 Keras 在原型设计和开发深度学习模型方面的简单性和高效性,使其成为首选,特别是对于初学者和需要快速开发的项目。
对于寻求高级神经网络 API 的开发人员来说,现已集成到 TensorFlow 中的 Keras 提供了更简单的界面来构建和训练深度学习模型。 Keras 抽象了构建神经网络的大部分复杂性,使其易于初学者使用,同时仍然足够强大以进行研究。
由于模型开发的迭代性质和对可重复性的需求,协作和版本控制在 AI/ML 开发项目中至关重要。GitHub是领先的源代码管理平台,允许团队协作处理代码、跟踪问题和管理项目里程碑。DVC(数据版本控制)通过处理 Git 无法有效管理的大型数据文件、数据集和机器学习模型来补充 Git,从而实现对 AI 项目中使用的数据和模型文件的版本控制。
我构建了一些 AI/ML 应用程序,但是如何以及在哪里部署它们?这就是我想到这个类别中的两个主要工具的地方:Docker和Kubernetes。正如我之前所说,我来自世界各地的 DevOps 地区,我已经使用过这些工具,并且知道它们是如何工作的。 Docker 将您的应用程序容器化,而 Kubernetes 用于大规模部署您的应用程序。
将人工智能模型部署到生产中需要能够打包应用程序并大规模管理它们的工具。 Docker通过容器化AI应用程序来简化其部署,确保应用程序在任何环境中顺利运行。 Kubernetes 是 Docker 容器的编排系统,可以自动部署、扩展和管理容器化应用程序,这对于需要跨多个服务器或云环境扩展的 AI 应用程序至关重要。
如果没有AWS、Google 和 Azure等云平台,您就无法扩展任何东西。虽然 AWS 是我最喜欢的,但我也探索了其他选项,并在此提到了所有三个主要云提供商。
Amazon Web Services (AWS)、Google Cloud Platform (GCP) 和 Microsoft Azure 等云平台提供了一系列 AI 和机器学习服务,这些服务抽象化了训练和部署 AI 模型所需的大部分基础设施。这些平台为机器学习模型训练、部署和监控提供托管服务,以及可扩展以满足任何人工智能项目需求的大量计算资源。
虽然我仍然更喜欢使用 SingleStore Notebook 功能,但我知道大多数人已经在使用 Jupyter Notebook 进行数据探索和分析。我有时会使用 Jupyter Notebooks,另外一个更有趣的工具是 MLflow,它将帮助您完成端到端的 ML 工作流程。
对于探索性数据分析、模型开发和文档编制,Jupyter Notebooks 是不可或缺的工具。它们允许开发人员创建和共享包含实时代码、方程、可视化和叙述文本的文档,使其成为协作人工智能研究和开发的绝佳工具。
MLflow是一个用于管理端到端机器学习生命周期的开源平台。它包括实验跟踪、模型版本控制和部署等功能,使开发人员能够跟踪和比较实验、将模型打包成可重复的运行,以及管理跨多个环境的模型部署。
最后一些想法:
人工智能/机器学习领域正在像海洋一样不断发展。每天我们都会看到一种或另一种语言模型带着很多期望首次亮相。有许多令人惊叹的开发工具仍然可以包含在这个列表中,但从我个人的经验来看,我相信这些工具是每个 AI/ML 工程师开始构建他们的 AI/ML 应用程序的良好开端。