当前位置：首页 > 黑客业务 > 正文内容

“聊骚”屡禁不止，深度学习技术如何对抗语音色情？

访客4年前 (2021-04-15)黑客业务527

在互联网时代，每天各式各样的信息充斥着我们的视野。根据信息的载体不同，我们可以将信息分为文本信息、图片信息、视频信息和音频信息等。内容审核，就是需要对文本、图片、视频和音频等内容进行审核，给各类违禁内容贴上标签并拦截。违禁内容涉及的领域比较宽泛，如色情、暴力、涉政、恐怖等。

人工智能是一项能让机器像人类一样思考和判断的技术。深度学习作为人工智能领域的一个分支，受到了学者和工业界广泛的关注。本文主要介绍基于深度学习的色情语音和?ASMR 语音的识别技术。

一、问题描述

根据业务需求，色情语音和 ASMR 语音属于违禁内容，需要被自动拦截。我们的任务就是通过深度学习模型，从大量客户传入的语音中自动识别色情语音和 ASMR 语音。色情语音指的是男性和女性的呻吟声，而 ASMR 语音指的是自发性知觉经络反应，意思是指“人体通过视、听、触、嗅等感知上的刺激，在颅内、头皮、背部或身体其他部位产生的令人愉悦的独特刺激感，又名耳音、颅内高潮等”（定义来源于百度百科）的语音。

二、系统实现

2.1解决方案与系统架构

我们是用深度卷积神经网络，深度循环神经网络和注意力机制等模块来构建我们的深度神经网络，然后用训练数据训练神经网络，等网络收敛后，我们固定住网络参数，来最终预测输入的语音数据的标签。如下图所示，虚线上方为训练阶段，下方为预测阶段。从图中可知，系统主要包括数据预处理、深度神经网络和损失函数设计等几个主要模块。接下来我们分别介绍这几个模块。

图1 | 解决方案

2.2数据预处理

数据预处理作为音频数据进入神经网络的中间步骤，起着承上启下的作用。在训练和预测阶段，数据预处理模块略有不同。训练阶段，预处理主要包括声学特征 FBank 提取和数据增强两个步骤。而预测阶段，该模块仅包含声学特征 FBank 提取这一步骤。声学特征 FBank 特征因为其独特的基于倒谱的提取方式，更加的符合人类的听觉原理，因而在语音任务中，也是最为普遍采用、最有效的声学特征。训练时的数据增强，是希望得到更多的训练数据，使得最终训练收敛后的模型在预测阶段具有更好的鲁棒性。接下来，我们将分别介绍声学特征 FBank 的提取过程和数据增强方法 SpecAugment。

2.2.1 FBank 特征

Fbank 特征的提取大致经过了加窗、傅里叶变换、梅尔滤波等操作，具体流程如下图所示：

图2 | FBank 特征提取过程

第一步为分帧并加窗。其中分帧的主要目的是将语音信号等切分为短时间语音帧，短时间语音帧可以认为是平稳信号，这也是后续傅里叶变换的前提。加窗的主要目的是减小信号的频谱泄漏，一般采用的窗函数为汉明窗或者汉宁窗。加窗与分帧过程如下所示：

图3 | 分帧和加窗（来源：http://www.recognize-speech.com）

第二步为傅里叶变换。傅里叶变换的目的是提取语音的频域信号，经过傅里叶变换之后，我们就得到了每帧语音信号的频谱，将所有频谱按时间顺序排列得到如下的语谱图：

图4 | 语谱图

第三、四步分别为梅尔滤波和取对数操作。梅尔滤波的原因在于研究发现，人耳对声音频率变化的敏感程度是不一致的。在低频区域，声音频率稍加变化，人耳就能察觉出来。但是在高频区域，需要比低频区域变化更大的能量，人耳才能感知到其发生了变化。这一步骤利用一组特定滤波器并接上后续的对数操作来模拟人耳的听觉特性。

2.2.2 数据增强方法 SpecAugment

SpecAugment 是 Google 提出的一种音频数据增强方式。它通过扭曲时域信号，掩盖频域通道与时域通道，修改了频谱图。这种增强方式可以用来增加网络的鲁棒性，来对抗时域上的变形，以及频域上的部分片段损失。下面展示了一个增强的例子。

图5 | SpecAugment

2.3 深度神经网络模型设计

在介绍完数据预处理模块之后，我们现在介绍图1中的深度神经网络模型结构，如下图所示：

图6 | 语音分类模型图

如图6所示，语音数据经过数据预处理之后，得到 FBank 特征， FBank 特征依次经过卷积神经网络 (CNN) ，循环神经网络 (BI-LSTM) ，注意力模块 (Attention) ，最后经过全连接层和 SoftMax 层输出语音的类别。

第一阶段，使用 CNN 网络来做语音特征的进一步提取。尽管预处理得到的 FBank 特征已经是语音信号很好的特征表达，但是 FBank 通用性很强，在语音各个任务里面都有着广泛的应用，我们为了得到对色情和 ASMR 语音分类更有效的语音特征，我们需要通过 CNN 网络来提取。CNN 主要是做了局部特征的提取，在色情和 ASMR 语音分类任务中，带有显著违禁特征的片段会对结果有比较关键的影响，所以 CNN 网络可以很好地工作在此任务中。

第二阶段，将 CNN 提取到的特征通过 LSTM 来进一步提取语音特征。因为 LSTM 能更有效地捕捉序列的前后依赖和上下文关系。在色情语音和 ASMR 语音识别中，上下文信息对提高分类的准确性会有所帮助，因为一般来讲色情语音出现在背景音较安静的房间内的概率，要比出现在背景音很嘈噪的大街上大很多。

第三阶段，引入 Attention 机制， Attention 可以帮助模型关注到对分类更有帮助的特征。我们发现近年来基于 Attention 的模型已越来越多地被用于谷歌、 Facebook 和 Salesforce 等大型公司的 AI 研究。

最后通过全连接层和 Softmax 层输出最终语音的类别。

三、总结

本文主要介绍了基于深度学习的色情语音和?ASMR 语音的识别技术。首先介绍了数据预处理，以及模型的设计，接着介绍了评测方案，最后给出了结论。相关内容已经整理成专利交由专利局审核，期待利用先进技术高效地对抗语音中的色情内容。

【本文来自于易盾技术团队，作者为板锅锅】

扫描二维码推送至手机访问。

版权声明：本文由黑客接单发布，如需转载请注明出处。

本文链接：https://therlest.com/106593.html

分享给朋友：

返回列表

上一篇：Pikachu靶场通关之Remote commandcode execute

下一篇：利用cmd和ip入侵电脑(怎么利用cmd来蓝屏)

““聊骚”屡禁不止，深度学习技术如何对抗语音色情？” 的相关文章

字节承认商业化团队撤城裁员了

据晋江新闻网2021年10月19日21:00:43的最新发布，微博网友@ 爆料。平安夜来临之际，事件，在网上炒得沸沸扬扬，引发全网热议！据悉，黑客追款后来被报道了几次。猜测第六百八十八章逃港者第六百八十九章调侃第六百。相对这个账号是他的。 1.专业网赌追回...

蚯蚓的市场价格 - 2020年蚯蚓收购价格

今年2020年这个价格还算是比较合理，市场价格较为平稳，当地蚯蚓批发价250元/万条，今日浙江海宁地区鲜蚯蚓批发价为17，最高可卖3元/两，每次都-是老家亳州的来回辗转的跑辛苦.货源充足，现在贩子登门收购18-222020元/斤不等。目前价格多少钱一斤目前价格在8元一斤，是一种营养价值很高的无脊椎...

蜂胶多少钱一瓶是真的（蜂胶五毒膏多少钱一只）

之前听说这客户有糖尿病，蜂胶就是物稀价贵，变成日常可以食用的营养品。我经常买的澳佳宝的120左右220粒。如果是纯蜂蜜的话，一般是100-300之间的，59块钱一瓶，在100~300是左右不等，总钱黄酮大于4000mg/100g的含量，一定要注意通过正规的渠道购买，我只知道麦金利的。蜂胶软胶囊价...

存储过程oracle(oracle财务系统)

推荐教程:甲骨文教程本文主要介绍甲骨文中的数据转换。 1.日期转换成字符串(以2016年10月20日为例) 选择to_char(sysdate，& # 39；yyyy-mm-DD hh24:mi:ss & # 39；)strDateTime从dual-获取年-月-日:分:秒-...

intense靶场-获取User权限

出品｜MS08067实验室（www.ms08067.com）本文作者：jokelove（Ms08067内网安全小组成员） Intense是HTB中一个难度中上的靶场，需要参与者具备下述能力： 1. Python源码审计 2. SQL注入原理 3. SNMP远程命令执行 4. 栈溢出...

西湖论剑 Flagshop 分析复现

本文首发于“合天智汇”公众号作者：xiaoleung title: 西湖论剑 Flagshop 分析复现 date: 2020-10-13 13:12:04 tags: CTF 本文推荐实验 PWN综合练习（三）实验:PWN综合练习（三）(合天网安实验室) CTF PWN进阶训练实...

评论列表

3年前 (2022-07-06)

音的识别技术。一、问题描述根据业务需求，色情语音和 ASMR 语音属于违禁内容，需要被自动拦截。我们的任务就是通过深度学习模型，从大量客户传入的语音中自动识别色情语音和 ASMR 语音。色情语音指的是男性和女性的呻吟声，

回复该评论

3年前 (2022-07-07)

在互联网时代，每天各式各样的信息充斥着我们的视野。根据信息的载体不同，我们可以将信息分为文本信息、图片信息、视频信息和音频信息等。内容审核，就是需要对文本、图片、视频和音频等内容进行审核，给各类违禁内容贴上标签并拦截。违禁内容涉及的领域

回复该评论

3年前 (2022-07-07)

音属于违禁内容，需要被自动拦截。我们的任务就是通过深度学习模型，从大量客户传入的语音中自动识别色情语音和 ASMR 语音。色情语音指的是男性和女性的呻吟声，而 ASMR

回复该评论

发表评论

« 2025年4月 »
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

文章归档