noScribe 是什么?
- 一款基于人工智能的软件,用于转录访谈内容,用于定性社会研究或新闻报道
- noScribe 是免费且开源的(GPL-3.0)
- 它完全在您的计算机上本地运行。无需将数据发送到互联网。无需云端,无需担心
- 它可以区分不同的说话者,并能理解大约 60 种语言(更多或更少,见下文)
- 它包含一个很好的编辑器来审查、验证和更正结果记录
- 它站在巨人的肩膀上:OpenAI 的 Whisper、Guillaume Klein 的 fastest-whisper和Hervé Bredin 的 pyannote
(该记录来自我于 2022 年 5 月对俄罗斯社会学家 Natalia Savelyeva 的采访。)
限制
- noScribe 需要一台相当先进的电脑,否则转录过程会耗时很长。(如果机器速度较慢,可以考虑让它运行一整夜。)
- 由于它使用了复杂的人工智能模型,下载量相当大——大约 3.7 GB
- 音频质量差会导致转录结果不佳。
- 自动转录并非完美无缺,总会有一些手动修改的必要。使用内置的编辑器彻底检查您的转录本。(另请参阅下文“影响质量的因素”和“已知问题”)。
- 如果您想了解更多并理解德语,帕德博恩大学的 Rebecca Schmidt 撰写了一篇关于noScribe 的精彩评论,并讨论了它的局限性。德国计算机杂志《c’t》也在最近的一篇评论中推荐了 noScribe。
为什么叫“noScribe”?
城市词典将“抄写员”定义为“一个悲惨的人生沦为学术污秽和痛苦的人”。我希望这款软件能让你的学术生活少一些痛苦和污秽,因此得名“noScribe” 🙂
关于我
Kai Dröge,社会学博士(具有计算机科学背景),定性研究员和教师,卢塞恩应用科学大学(瑞士)和法兰克福社会研究所(德国)。
下载和安装
当前版本号:0.6.2(参见变更日志)
所有发布均托管在 SWITCHdrive 上,这是瑞士大学的安全数据共享平台。
视窗
- 适用于没有 NVIDIA 显卡的普通 PC 的通用版本:https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI ?path=%2FWindows%2Fnormal2
- 一个特殊版本,在至少 6 GB VRAM 的NVIDIA 显卡上使用 CUDA 加速: https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI ?path=%2FWindows%2Fcuda1 。您还必须从此处安装 CUDA 工具包(之后需要重新启动)。
- 安装:
- 启动下载的安装文件。这可能需要一段时间,请耐心等待。
- 如果您收到“Windows 保护了您的电脑”且该应用程序来自“未知发布者”的警告,您必须相信我们并单击“仍然运行”
- 要在更大的计算机组上进行静默安装,请使用参数启动安装程序
/S
。
MacOS
- 搭载 Apple Silicon M1-M4 处理器的新款 Mac
- 下载:https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FmacOS%2Farm64%20(Apple%20Silicon)
- 双击下载的 dmg 文件,然后将 noScribe 和 noScribeEdit 拖到应用程序文件夹的链接中(标记为“将两者拖到这里进行安装”)。
- 由于其中一个组件(ffmpeg)仍然基于 Intel CPU,因此您需要 Apple 的 Rosetta2 Intel 模拟器。如果您尚未安装,请按以下步骤操作:
- 打开终端(位于
/Applications/Utilities/Terminal.app
)。 - 键入
softwareupdate --install-rosetta
或softwareupdate --install-rosetta --agree-to-license
。 - 按回车键并按照屏幕上的说明进行操作。
- 打开终端(位于
- 通过双击应用程序中的应用程序来启动 noScribe 和/或 noScribeEdit。
- 搭载英特尔处理器的旧款 Mac
注意:0.6.2 版本在搭载英特尔处理器的 Mac 上目前处于实验阶段,可能无法完全正常运行。请协助我们测试。您可以在此处下载。
否则,您可以使用稳定版本 0.5:- 适用于 macOS Sonoma (14) 和 Sequoia (15):https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.5%2FmacOS%2Fx86_64%20(Intel)
- 适用于 macOS 11 (Big Sur)、12 (Monterey) 和 13 (Ventura):https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.5%2FmacOS%2Fx86_64_legacy%20(old%20Intel)
- 注意:很遗憾,我们目前无法正确签名 x86_64 软件包,因此您会收到一条警告,提示 noScribe 和 noScribeEdit 来自未注册的开发者。如果您的 Gatekeeper 处于活动状态,则必须手动允许 noScribe 和 noScribeEdit 的执行。请按照以下步骤操作:
- 双击下载的 dmg 文件。
- 将 noScribe 和 noScribeEdit 拖到应用程序文件夹的链接中(标记为“将两者拖到这里进行安装”)。
- 双击应用程序文件夹中的 noScribe 应用即可启动它。您将收到一条错误消息,提示 noScribe 来自未注册的开发者。对 noScribe 编辑器执行相同操作。
- 前往“设置”->“隐私和安全”-> 向下滚动,直到看到“noScribe 无法启动”的消息,然后点击“仍然打开”。同样,对 noScribe 编辑器执行相同操作。
- 从现在起,这两个程序都应该可以顺利启动了。
Linux
由Eckhard Kadasch和Florian Dobener移植;可执行文件由gernophil生成。
-
可执行安装:
- 在此处下载适用于 Linux 的 noScribe 0.6.2 的 CUDA 或 CPU 版本:https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI ?path=%2FLinux
tar -xzvf noScribe_0.6.2_cpu_linux_amd64.tar.gz
使用终端命令或解压文件tar -xzvf noScribe_0.6.2_cuda_linux_amd64.tar.gz
。cd
通过进入 noScribe 文件夹并执行,使用终端执行 noScribe./noScribe
。- 可选:使用文本编辑器编辑文件
noScribe.desktop
和,并在以和noScribeEdit.desktop
开头的行中输入完整路径。Exce=
Icon=
-
从源手动安装: 根据mael-lenoc 的说明
# release ( must be > 0.6 in order to include the latest fixes for linux!) NOS_REL=0.6.1 wget https://github.com/kaixxx/noScribe/archive/refs/tags/v${NOS_REL).tar.gz tar xvz -f v${NOS_REL).tar.gz cd noScribe-${NOS_REL)/ # from here on all happens in this directory # alternative: current main branch wget -O noScribe-main.zip https://github.com/kaixxx/noScribe/archive/refs/heads/main.zip unzip noScribe-main.zip cd noScribe-main # from here on all happens in this directory # install noScribeEdit rm -rf noScribeEdit/ git clone https://github.com/kaixxx/noScribeEditor.git noScribeEdit # venv python3 -m venv .venv source .venv/bin/activate # from here on all happens in the venv # requirements pip install -r environments/requirements_linux.txt pip install -r noScribeEdit/environments/requirements.txt # models/precise # this assumes you have git large file support enabled: apt install git-lfs rm -rf models/precise git clone https://huggingface.co/mobiuslabsgmbh/faster-whisper-large-v3-turbo models/precise for f in config.json model.bin preprocessor_config.json tokenizer.json vocabulary.json; do wget -O models/fast/$f "https://huggingface.co/mukowaty/faster-whisper-int8/resolve/main/faster-whisper-large-v3-turbo-int8/${f}?download=true"; done # run python3 ./noScribe.py
旧版本:
引用(APA 格式)
Dröge, K. (2024). noScribe. AI 音频转录 (XXX 版) [计算机软件]. https://github.com/kaixxx/noScribe
用法
设置
- 选择您的音频文件。NoScribe 支持几乎所有音频或视频格式。
- 选择成绩单的文件名。您还可以选择文件类型:*.html 是默认格式,noScribe 编辑器也支持。*.vtt 是一种视频字幕格式,如果您想将成绩单导入EXMARaLDA进行进一步注释,它尤其有用。*.txt 将成绩单导出为纯文本。
- “开始”和“停止”接受 hh:mm:ss 格式的时间戳。使用此选项可将转录限制在录音的特定部分。这对于在转录整个采访内容(可能需要几个小时)之前用小样本测试您的设置尤其有用。如果您想转录到音频文件的末尾,请将“停止”留空。
- 语言:选择您的成绩单的语言,将其设置为“自动”以检测语言,或者如果您的音频包含多种语言(实验性),则选择“多语言”。
- 质量:为了获得最准确的转录,建议使用“精确”设置。在速度较慢的机器上,您可以选择“快速”选项。这会更快,但可能需要后续进行更多手动修改。您还可以安装自定义模型,针对特定语言进行微调等。
- 标记暂停:启用后,音频中没有语音活动的部分将被标记为暂停。暂停将以圆括号的形式表示,括号内每秒钟一个点,例如,“(..)”表示两秒的暂停。超过 10 秒的暂停将写为“(XX 秒暂停)”或“(XX 分钟暂停)”。您可以选择标记一秒及以上的暂停(“1 秒+”)、两秒及以上的暂停(“2 秒+”),或仅标记三秒及以上的较长暂停(“3 秒+”)。选择“无”可完全禁用此功能。
- 说话人检测:此功能使用 Pyannote AI 模型识别音频中的不同说话人,并相应地整理转录文本。如果已知说话人数量,请选择“自动”。选择“无”可完全跳过此步骤,从而将处理时间缩短约一半。但是,生成的转录文本将是一段连续的文本,没有任何说话人过渡的指示。
- 重叠语音:启用后,noScribe 会尝试标记两个人同时说话的情况。重叠部分用 //双斜杠// 分隔。(注意:这是一项实验性功能。)
- 不流畅:如果启用,常见的语音不流畅,如填充词(“嗯”),未完成的单词或句子等也将被转录。
- 时间戳:启用后,noScribe 会在每次更换说话人或每 60 秒时将 [hh:mm:ss] 格式的时间戳添加到转录文本中。我觉得这些时间戳有点分散注意力,因此决定默认禁用它们。然而,在某些情况下,它们非常有用。即使禁用了时间戳,确定特定片段的音频时间码也很简单:只需在 noScribe 编辑器中打开转录文本,浏览文本,相应的时间码就会出现在应用程序的右下角。
转录过程
- 如果您已准备就绪,请点击左下角的“开始”按钮。单击“取消”将中止该过程。
- 请注意,一小时的采访可能需要长达三个小时的处理时间,这会给您的机器带来沉重的负担。不建议使用电池供电进行此操作。
- 应用程序底部的进度指示器将显示您完成整个过程的进度。
- 主窗口将记录进度消息和错误。它还将在转录的最后一步显示您的采访文本。
- 成绩单将每隔几秒自动保存在给定的文件名下。
- 默认情况下,noScribe 会生成一个 HTML 文件。该文件可以在所有常用的文字编辑器(包括 MS Word、LibreOffice)或 QDA 软件包(MAXQDA、ATLAS.ti、QualCoder 等)中打开。
- 不过,在使用成绩单之前,你应该先用附带的编辑器检查一下。总会有一些错误。
noScribe编辑
包括编辑检查最终成绩单。
noScribe 编辑器是一个独立的应用程序。它会在抄本完成后自动打开,但也可以独立于 noScribe 运行。它包含一些便捷的功能,可以检查您完成的抄本是否存在错误并进行纠正:
- 按Ctrl + 空格键(Mac 上为 ^Space)或工具栏中的橙色按钮即可收听与您在文本中的当前位置相对应的音频。
- 文本的选择将跟随您听到的音频进行。如果您想进行更改,请用鼠标点击文本中的任意位置,或使用箭头键移动光标。音频将停止,您可以编辑文本。
- 您也可以再次按 Ctrl + 空格键或单击橙色按钮来停止音频。
- 如果您想加快或减慢音频速度,请将“播放/暂停音频”按钮旁边的“100%”字段更改为适当的速度。
- 要更改演讲者姓名,请使用“搜索和替换”功能,可从放大镜图标或“编辑”菜单访问。
- 使用工具栏中的加号和减号图标放大或缩小
- 您会在工具栏和顶部菜单中找到基本文本编辑器的最常用功能(基本文本格式、剪切、复制和粘贴、撤消和重做)。
- 您的常用快捷键也能使用(例如,Ctrl+S 保存,Ctrl+F 查找和替换)。打开菜单,您可以看到所有快捷键。如前所述,“Ctrl+Space”是您最常用的快捷键,因为它可以启动或暂停音频。
编辑器的源代码可以在这里找到:https://github.com/kaixxx/noScribeEditor
影响转录质量的因素
- 清晰的语音、无环境噪音的优质录音对于高质量的转录至关重要。在录音质量上投入一些精力,可以为您节省大量后续手动修改的时间。
- Whisper(noScribe 的 AI 引擎)能够理解大约 60 种不同的语言,但转录质量参差不齐。其中,西班牙语、意大利语、英语、葡萄牙语和德语的支持度最高(更多信息请见此处)。
- Whisper 可以很好地处理方言(例如瑞士德语),但抄本在修订时可能需要更多的手动工作。
已知问题
- 私语 AI 有时会陷入重复文本的循环,尤其是在处理较长的音频文件时。如果发生这种情况,请尝试转录较短的部分(使用 noScribe 中的“开始”和“停止”字段),然后手动将它们连接起来。
- 现在支持多语言音频,但尚处于实验阶段。
- 笑声等非语言表达不包含在成绩单中,如果需要,必须稍后在编辑器中添加。
- 说话人识别:在某些录音中,noScribe 使用的 AI 可能无法区分某些说话人的声音,即使这些声音在人耳听来截然不同。请仔细检查结果。
- 耳语 AI 有时会产生幻觉,尤其是在录音的无声部分,当它将背景噪音解释为“文本”时(有关该问题的更多信息,请参阅康奈尔大学的这项研究)。