DIFY实现本地音视频转语音及文字的工作流

ziyuan 2025-09-28 阅读:9 评论:0
1 前言视频转文字技术作为一种高效的信息转化工具,核心是依托语音识别(ASR) 与自然语言处理(NLP) 两大技术,将视频中包含的语音内容与视觉文字信息,转化为具备可编辑、可搜索特性的文本格式。通过这一转化过程,视频内容的信息提取效率大幅提...
=======================================

2000T学习,音乐,视频,书籍等资源。持续更新中

=======================================
1 前言
视频转文字技术作为一种高效的信息转化工具,核心是依托语音识别(ASR)自然语言处理(NLP) 两大技术,将视频中包含的语音内容与视觉文字信息,转化为具备可编辑、可搜索特性的文本格式。通过这一转化过程,视频内容的信息提取效率大幅提升,目前已广泛渗透到教育(如课程内容转录)、内容创作(如视频脚本整理)、法律(如庭审录像文字归档)、医疗(如问诊视频记录)等多个领域,为不同场景下的用户提供了便捷、高效的信息获取与管理方式。
技术原理与实现步骤
视频转文字技术的实现并非单一环节,而是由一系列环环相扣的关键步骤构成,各步骤紧密配合以确保最终文本的准确性与可用性,具体流程如下:
  1. 音频提取:作为技术流程的基础环节,需从原始视频文件中分离出音频流。这一过程通常通过专业的视频解码工具完成,确保提取的音频信号完整、无失真,为后续处理奠定基础。

  1. 音频预处理:由于原始音频可能存在环境噪音、杂音等干扰因素,需通过降噪算法、音频增强技术等手段对音频进行优化处理。例如,通过滤波去除背景杂音、调整音频信噪比,从而显著提升后续语音识别环节的准确性。

  1. 语音识别:此环节是技术核心,主要利用深度学习模型将预处理后的音频信号转化为文本。目前主流的模型包括循环神经网络(RNN)、转录注意力模型(TAM)等,这些模型能够通过对语音特征的学习与分析,实现高效、精准的语音转文字,尤其在处理不同口音、语速的语音时具备较强适应性。

  1. 文本后处理:为进一步提升文本质量,需对识别生成的初始文本进行优化。具体包括通过拼写检查算法纠正错别字、依据语法规则调整语句结构、自动添加标点符号(如逗号、句号、问号等),最终输出符合语言规范、易于阅读的文本结果。

=====以上主要是水文字,可忽略。本内容是在前人的基础上进行的bug修改完成,感谢周辉的技术方案=====


2 工作流演示


我们学习和工作中经常会遇到视频转文字,会议纪要转录文字稿等需求,今天就带大家使用dify工作流来实现这个音视频转文字,再将文字内容整理成文字稿的工作流。


工作流演示


image.png


image.png


通过上面的工作流我们就可以把一个音视频的内容转出文字稿输出。可以实现视频、会议纪要总结等功能,大大提高我们学习和工作的效率。


3 工作流的制作


在进行工作流的配置之前先完成ffmpeg的安装,硅基流动的安装,下面的步骤会提到这个的安装


dify工作台,新建一个chatflow工作流,如下图:


image.png


点击创建后,进入工作流界面,点击开始按钮,在右侧弹窗里面点击加号


image.png


点击加号后会进入编辑变量界面,字段类型选择单文件,名字命名video,选择音频和视频,点击确保存


image.png



点击开始后的加号,选择工具中的ffmpeg点击里面的提取音频


备注:提取音频


这个使用dify的一个 ffmpeg工具,FFmpeg 是一个功能强大且灵活的多媒体处理工具,适用于音视频编辑、转码、流媒体传输等多种场景。其广泛的格式支持、高效的性能优化、丰富的功能模块以及跨平台兼容性使其成为多媒体领域不可或缺的工具之一。

我们这里主要用到的它视频转音频功能。

我们在插件市场查找ffmpeg,然后点击安装。


image.png



image.png


点击ffmpeg按钮,然后进行参数的填写,视频格式选择上一个节点中的Video file,音频格式填写MP3

                 

image.png


音频提取输出(可选)

我们在工作流添加一个直接回复,这个主要是方便调试。我们需要了解上个流程节点视频转音频文件是否能够生成

image.png

Speech To Text

这里我们用的一个叫做Speech To Text的工具。音频文件选择上一个节点的files Array[file],Model直接默认,这里我选择硅基流动提供的最新的智谱提供的FunAudioLLM/SenseVoiceSmall的模型。如果没有硅基的小伙伴可以去这个地址https://cloud.siliconflow.cn/i/HeAqnPxX  新户可以送14元。

image.png

在使用这个前一定要在设置中提前配置硅基流动

image.png

image.png

音频转文字输出(可选)

这个我们为了方便测试把Speech To Text 输出的音频文件也输出。(这个节点可以不需要,大家可以根据自己需要设置)

image.png


音频转文字总结LLM

这里我们使用大语言模型将音频转文字进行总结归纳,这里我们使用火山引擎提供的deepseek-v3 模型。这里关键点就是提示词。

系统提示词---提示词我直接放到了dsl中,可以直接下载查看,

image.png

用户提示词

可以写成请根据请根据speech to text text总结归纳

image.png

音频转文字总结回复

这个就比较简单的LLM大语言模型总结音频文件内容进行输出。我这里为了查看方便加了一个markdown的插件用来进行word的输出。可以忽略。

image.png


总结

我这里是用的宝塔部署的Docker,然后安装的dify

整个流程部署起来还是很简单的,主要是会遇到以下问题。

1、通过宝塔部署的Docker,然后安装的dify会出现以下报错

Error extracting audio: Request URL is missing an 'http://' or 'https://' protocol

image.png

这个需要修改env文件和docker-compose.yaml添加 http://api:5001,添加完毕后记得重启下

image.png

image.png

如果重启之后依然报错请点击重建

image.png


以上是整个流程搭建及问题解决,需要dsl的小伙伴请下载:https://pan.quark.cn/s/9cf81c820aad


版权声明

本站名称:资源百科
本站永久网址:https://ziyuanbaike.com/
本站的文章部分内容可能来源于网络,如有侵权,请联系站长heytool@126.com进行删除处理。
本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 太极v2.9.7,聚合软件最新版,25+源也非常猛了!

    太极v2.9.7,聚合软件最新版,25+源也非常猛了!
    太极(Windows)这是一个Windows桌面端的聚合软件,拥有很多功能,比如观山、听雨、修仙、抚琴、小站、览竹、宝库首先是观山,实际上就是很多美图,以前主打小姐姐美图,现在不仅有小姐姐壁纸,还有UnSplash、动态壁纸、次元岛等12+接口,现在的版本不仅支持下载,还可以一键设置成壁纸,非常方便。再来看听雨板块,其实就是音悦播放模块,早期的太极只能简单播放,但是现在的太极不仅拥有7+接口随便用,而且还支持添加歌单和播放本地音悦,并且还支持歌词显示,也支持文件下载,可以说非...
  • 开源阅读App,附最新收录9000+的书源仓库!

    开源阅读App,附最新收录9000+的书源仓库!
    昨天看到开源阅读的官方频道发消息再一次推荐了一个阅读爱好者做的书源网站,今天给大家推荐分享一下。阅读(安卓)趣哥相信正在看文章的小伙伴绝大多数都知道阅读这个App吧,这是一个支持自定义书源的电子书阅读软件。但是阅读的大版本已经停更很久了,现在还在小版本更新,基本只有一些小修复,大家可以在下面分享的第一个书源仓库网站上下载它的最新版。不过就算阅读App停更,现在依然有大佬维护规则,而今天分享的两个书源网站就是收集了众多书源规则的书源仓库。Yiove书源仓库第一个是Yiove书源...
  • 资源百科:古典文学必读:越看越上瘾的古代争斗小说(套装共30册)

    资源百科:古典文学必读:越看越上瘾的古代争斗小说(套装共30册)
    古典文学必读:越看越上瘾的古代争斗小说(套装共30册).jpg 古典文学必读:越看越上瘾的古代争斗小说(套装共30册).mobi 古典文学必读:越看越上瘾的古代争斗小说(套装共30册).epub。古典文学必读:越看越上瘾的古代争斗小说(套装共30册)链接:https://pan.quark.cn/s/2b38240b29ea...
  • 2000T夸克盘学习资源

    2000T夸克盘学习资源
    2000T资源汇总,每天更新https://www.yunpan.com/surl_y9Q7sVRzXt6 (提取码:bfa4)实时更新链接https://docs.qq.com/sheet/DVGF1cmhrdWd0b2Fw?tab=BB08J2 知乎盐选付费知识合集1200+PDF文档资源https://pan.quark.cn/s/5e21e6503e7d精整2024年1月国内外无损音乐专题【202.5GB】https://pan.quark.cn/s/f2a2ea58...
  • 理想树《2025版初中必刷题 (全科上册) 》

    理想树《2025版初中必刷题 (全科上册) 》
    资源信息初中全科上册必刷题汇总,新考法、新素材,基础与重点并重,轻松备战中考。资源目录├── 初中必刷题-7上-道法人教版.pdf 263.83M ├── 初中必刷题-7上-道法人教版狂K重点.pdf 166.73M ├── 初中必刷题-7上-道法人教版批注式详答与详析.pdf 184.32M ├── 初中必刷题-7上-地理人教版.pdf 272.09M ├── 初中必刷题-7上...