大神会议：语音识别转文字(页 1) - 第三方命令行 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

locoman 发表于 2022-3-23 14:22

大神会议：语音识别转文字

[i=s] 本帖最后由 locoman 于 2022-3-23 14:29 编辑 [/i]

[size=5]邀请大神汇聚于此，专题讨论研究一下：[b]“语音识别转文字”
[/b]
[color=Blue]基本需求：[/color]
   一、将电脑声卡中的声音（包括扬声器和麦克风）直接识别后转成文字保存，[b]最好能区分出是扬声器发出的声音？还是麦克风发出的声音？[/b]
[size=3]       也就是说，不管是在WEB网页中直接播放的声音，还是各种聊天时的声音，只要启动了“语音识别转文字”APP，就能实现声音识别转文字，直到“语音识别转文字”APP关闭。[/size]

   二、可以直接将音视频文件中的声音识别后转成文字保存，[b]最好能区分出或设定不同的对话角色。[/b]

[/size]
[size=4][color=Red]研究重点：
1. 以FFmpeg解决为核心；
2. 以离线（勿需连接公网）解决为核心；[/color][/size]

差点就很帅 发表于 2022-3-24 09:13

[i=s] 本帖最后由差点就很帅于 2022-3-24 09:20 编辑 [/i]

说实话你这属于软件开发的范畴了，而且大部分语音识别都是调用成熟方案商的API接口，你要是懂编程可以去了解下百度的语音开源PaddleSpeech项目，或者去GitHub上看看有没有类似的开源，逛bat论坛的基本上都是不会编程的，不然随便整点python代码都比bat效率高的多。

页: [1]

批处理之家's Archiver

大神会议：语音识别转文字