Buzz:免费开源的语音转文字神器

发表时间: 2024-03-26 11:17

本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:灵昱



引言:

语音音频转文字是一项庞大的工程,尤其当涉及数小时的(会议)课程录音时,更需高效且精准的转换工具。对于追求性价比的用户来说,如何在不产生额外费用的情况下实现本地化的文字转化,成为了一个重要课题。本次我们采用了BUZZ这一基于开源技术的解决方案,它充分利用了GPU和CPU的运算能力,实现了音频到文字的本地高效转化。无需部署额外设备或购买服务,即可轻松完成大批量录音的转文字工作,为用户节省了大量时间和成本。BUZZ以其出色的性能和稳定性,成为了实现本地化语音转文字的理想选择。

Buzz功能介绍

Buzz是一款基于OpenAI Whisper的开源、可离线的实时语音转文字工具,它适用于Mac、Windows和Linux系统,为用户提供了高效且灵活的语音转文字解决方案。以下是Buzz的主要功能特点:

一、实时语音转文字与翻译

Buzz支持从计算机麦克风实时转录和翻译成文本,这一功能对于需要即时反馈的场景尤为实用。不过请注意,由于这一功能较为资源密集型,可能无法实现完全实时的转录效果。

录音如下(第一开启会提示下载模型):

二、音视频文件导入与导出

Buzz支持导入多种格式的音频和视频文件,包括mp3、wav、m4a、ogg等音频格式以及mp4、webm、ogm等视频格式。用户可以将这些文件导入后,轻松将其转换为TXT、SRT和VTT格式的文本或字幕文件,满足不同的输出需求。

三、多模型支持

Buzz兼容多种语音转文字模型,包括Whisper、Whisper.cpp、Faster Whisper以及与Whisper兼容的Hugging Face模型和OpenAI Whisper API。这使得Buzz在转换精度和效率上更具优势,能够根据不同的需求选择合适的模型进行转换。具体模型如下:

四、离线使用

Buzz支持离线使用,无需连接互联网即可进行语音转文字操作。这一特点使得Buzz在保密性要求较高或网络环境不稳定的场景下具有独特的优势。

实用办法如下:

1、下载安装

本次版本0.8.4

Github项目地址:
https://github.com/chidiwilliams/buzz

如下,打开链接,点击这里

展开Assets资源,点击windows(当然,有苹果系统和linux系统的)

下载后点开安装

2、打开Buzz如下

点击加号,添加文件

记得选择中文,本次测试录音转文字,拿杰伦哥的歌来测试~(发如雪,灾难级音频转文字)

由于第一次转换,需要下载大数据模型到本地。

对于模板可以自己选(openai需要账号)

渲染(转换)速度:取决于你机器的性能,第一次会下载语言模型
本次测试环境:轻量云服务器(2C+4G+6M)性能一般,

注意:转换过程中,会弹出一个黑框(Dos命令框,实际上运行的ffmpeg好像)

结果:

3、转换结果如下

Tiny质量不敢恭维,但说实在的,杰伦歌的转文字,对于引言模型来说,是史诗灾难级的。

base模型如下:

Base模型已经很好了,就是速度有点慢4分钟左右(包含下载Base模型)。

但是仍有概率反应成繁体

4、模型库大小对比

5、卸载记得清理下载的模型

Whisper 模型存储在电脑中 以下目录(默认安装地址):

  • C:Users/AppDataLocalBuzzBuzzCache (Windows)
  • ~/.cache/whisper~/Library/Caches/Buzz (macOS)
  • ~/.cache/Buzz (Linux)

五、总结


Buzz适用于多种场景,包括但不限于:

  1. 会议现场录音同步转文本:在会议现场,通过Buzz的实时语音转文字功能,可以将讲话内容实时转换为文本,方便与会者查看和记录。
  2. 视频语音转字幕:对于需要添加字幕的视频文件,Buzz可以将其中的语音内容转换为TXT、SRT或VTT格式的字幕文件,轻松实现视频字幕的添加。
  3. 音频文件转文本:对于已有的音频文件,Buzz同样可以将其转换为文本格式,方便用户进行编辑、搜索或分享。

总之,由于Buzz免费,尤其强大的功能和广泛的应用场景(支持Openai),为用户提供了高效、便捷的语音转文字解决方案。无论是实时转录还是离线转换,Buzz都能满足用户的多样化需求。