LM Studio：本地安装大型模型的详细指南 | OpenAI API文字转语音程序分享

发表时间: 2024-01-05 10:02

之前我写过实测在Mac上使用Ollama与AI对话的过程 - 模型选择、安装、集成使用记，从Mixtral8x7b到Yi-34B-Chat，最近用上了LM Studio，对比Ollama，LM Studio还支持Win端，支持的模型更多，客户端本身就可以多轮对话，而且还支持启动类似OpenAI的API的本地HTTP服务器。

https://lmstudio.ai/

我推荐dolphin-2.6-mistral 7B和dolphin-2.7-mixtral-8x7b模型。

下载后选择模型，设置参数，再重新加载模型。

实测，dolphin-2.6-mistral 7B模型在我Mac M1 Max 32G的电脑上运行速度很快，生成质量不错，而且dolphin是可以生成NSFW内容的。

LM Studio的特色功能

我最喜欢LM Studio的功能是支持启动类似OpenAI API的本地HTTP服务器。

也就是说，如果你之前做过一些应用，用的是OpenAI API的模型，那现在可以非常方便转成本地模型。

从OpenAI API到本地模型：平滑过渡

这里的示例代码非常好用，稍微修改下，既可做本地模型使用，而且也可以写OpenAI的套壳应用。

本地模型chat-python

# Example: reuse your existing OpenAI setup
from openai import OpenAI

# Point to the local server
client = OpenAI(base_url="http://localhost:1234/v1", api_key="not-needed")

completion = client.chat.completions.create(
model="local-model", # this field is currently unused
messages=[
{"role": "system", "content": "Always answer in rhymes."},
{"role": "user", "content": "how to be happy."}
],
temperature=0.7,
)

print(completion.choices[0].message.content)

OpenAI-chat-python

from openai import OpenAI
import os

client = OpenAI(base_url="https://gateway.ai.cloudflare.com/v1/ACCOUNT_TAG/GATEWAY/openai/", api_key=os.getenv('OPENAI_API_KEY'))

completion = client.chat.completions.create(
model="gpt-3.5-turbo-1106",
messages=[
{"role": "system", "content": "Always answer in rhymes."},
{"role": "user", "content": "write a song."}
],
temperature=0.7,
)

print(completion.choices[0].message.content)

Tips：

1. 将你的 OPENAI API 密钥导出为环境变量。

export OPENAI_API_KEY=YOUR_OPENAI_API_KEY

2. 这里用到Cloudflare的AI Gateway，方便链接到OpenAI API。

新建网关（下图我已创建了一个），点击openapi-proxy API Endpoints，可以看到ACCOUNT_TAG。

更多OpenAI · Cloudflare AI Gateway docs请看这里：

https://developers.cloudflare.com/ai-gateway/providers/openai

当通过Cloudflare AI Gateway运行后，可以在实时日志里查看每一次调用状态。

利用OpenAI API进行文字转语音

我是在使用LM Studio之前找OpenAI API官方文档，编写了几个本地运行的Python代码，最终做了一个本地的程序。

它帮我解决了一个问题：使用OpenAI API的文字转语音服务，生成视频配音。

这里需要注意下，GPT4里关于OpenAI API的知识不是最新的，需要在OpenAI官方文档里检索。

https://platform.openai.com/docs/api-reference

https://github.com/openai

下图的信息是过时的。

TTS的价格

声音类型

我编写的程序支持选声音、是否合并段落来生成语音。

界面设计：Tldraw与Gradio的应用

我是用Tldraw帮我做的界面，教程请见tldraw make real：利用AI一键从原型图到生成真实可用的代码。

生成的UI代码最后又让GPT4修改了一下。

我还试了不用html，而用Gradio来做UI。

Gradio是一个开源的Python库，它允许用户为机器学习模型构建用户界面，并将其部署在几行代码中。Gradio的主要优势在于其易用性，只需简单定义输入和输出接口，就可以快速构建简单的交互页面，并轻松部署模型。

这个界面大家应该很熟悉，很多大模型的demo用的是这种界面。

由于刚接触Gradio不久，为避免GPT4出现上文OpenAI文档过时的情况，我做了个“Gradio文档助手”GPT来帮我写Gradio代码。

https://www.gradio.app/docs/

我是通过gpt-crawler来获取Gradio文档的。

https://github.com/BuilderIO/gpt-crawler

如它的官网展示，修改的参数很少，很方便就能将文档下载下来。

文本转语音实践：Python代码分享

这里分享直接可以运行的text to speech python代码：

from openai import OpenAI
import os
import datetime

client = OpenAI(base_url="https://gateway.ai.cloudflare.com/v1/ACCOUNT_TAG/GATEWAY/openai/", api_key=os.getenv('OPENAI_API_KEY'))

# 指定的文本文件路径和语音文件保存路径
input_file_path = 'text2speech-input.txt'
current_time = datetime.datetime.now().strftime("%Y%m%d%H%M%S")

# 读取输入文件并生成语音
with open(input_file_path, 'r') as file:
lines = file.readlines()
for i, line in enumerate(lines):
input_text = line.strip()
speech_file_path = f'/Users/yourmac/Downloads/{current_time}_{i+1}.mp3'

response = client.audio.speech.create(
model="tts-1",
voice="onyx",
input=input_text
)

# 保存语音文件
response.stream_to_file(speech_file_path)
print(f"Speech {i+1} saved to {speech_file_path}")

同目录下新建文件text2speech-input.txt，将要转录的文字放在文档里。

我还编写了根据AI绘图提示词批量生成图片的程序，只是DALLE3的API费用太贵，小试一下。

本地模型与OpenAI模型的结合

回到开头介绍的LM Studio，本地大模型可以完成许多有趣的任务，而不需要调用开销更高的API。例如，本地模型可以生成创意的绘画提示词和主题，以帮助艺术家获得灵感。它们也可以用来写出引人入胜的故事大纲。

除了独立完成这些创作任务外，本地模型还可以与OPENAI等API结合，发挥各自的优势。比如，本地模型可以先生成初始素材，再由OPENAI模型进行细化和提升。这样既节省了调用API的成本，又能发挥大模型的强大能力。探索本地模型和API的最佳组合，能帮助我们在成本和效果之间找到最好的平衡点。

LM Studio：本地安装大型模型的详细指南 | OpenAI API文字转语音程序分享

热门阅读

推荐阅读