不基于短信内容的垃圾短信识别模型
科技息信
IO T论坛
OSIN E&T CN OO F R CEC E L GYHI MAOT O N NI
2
101
年第 7期
不基于 信短 内的垃圾短信容识别型 模龚之
闻 (上 海交 大 学信通 安息 全工程学 院 中国 海
【 上
摘2
00) 0 00
要 文】 主 要阐 述了一种 不用 扫 短描 信 容内就 能完 成对 垃圾 短 信 别 判 识定 的 法 方 过,数 据 挖 掘建立 不基于 内容 的 垃 圾 短 信识别 模本 通
型
. 得 高 性能 高 准确度 的垃 圾 短 信 识 别 为成 能。可使
【
关 键 词 垃圾】短 信; 别
识
1背 景 与研究 原 因
通 指 信 纹 不 还 像 我 能 真们正 手 指 的 的指纹 一 , 样一唯的 定确一 个 人 的 身 份 且 生终不 。由于 变 用户只有 在 行进通 信 时 。 能 捕获 其 行 通 为 才,信
随 手 机着的 普 及. 圾 短信 和恶 意 短 信 骚 扰 也 着随 信电 行业 的 发 息垃量 相 对 较少 。 也 但经 已 足 能够我 们 根据 来 界 它 定用 户的通 信 行 为 。 展而 愈 演 烈愈, 会 带来社危 。 害此对, 的体 度高关 注 ,户 的 深恶 给 媒 用 所 以 ,用当户 用 使 自 己的 手 来 机 发送垃 圾 短 ,信不 是 用来满 足自身 而 痛绝 , 关电 信管 理 部 和门 电信 运 营商 也 承 了 担大巨的压 力 。但 既要 相 正 常的通 信 需求 , 时 通 的信行 也 为会变 的很 怪奇 , 少会 与 他之 前 他 至 确保每 个 用 户 正一常 的 信通 利权 , 要准确 及时 的 针 对 恶意 用 户进 的通行信 行 为产生 反 差, 且 是 巨 的大 反 。 差对这 些 会 产 生 大 反巨差 的 又而限 制 和 整治.存 在 着 大最 的困 难 就 是 “ 何 准 确 高效 界 定的 垃 圾短 如 通信指 纹 的中信 息 点 的 研究 把 控与 ,是 我 们 立 建 不 于短 基 内信 的 容 就 信 。”垃圾 短信别模型的重点识 。 电 信运 营 有众商 多手 段对 恶 意用 户 进 行 制限 ,但根 的问本 题是 , 经 过 研 究 后, 们 现发 尤 需其 要 意 这注样 的 一 些 信 息 , 们对我 我它 需要 先区 出这分 类 恶意 客 , 户即垃圾 短 信 别识。 现 的 有 绝大 分 部 在用 发 们现 用 户通信 为行异 常起 到了 杆 的标作用 : 的垃 圾 信 识 短别 手 段 , 是 于基 短信 内 容 的 如 ,融合 群 众 报 ,举工 都 诸 人21 短 信 主 交动 往 圈 审. 查等 手 段 。 因 .为于 内 容 的 审 核 能 最 才大限 度确 保垃 圾 短信 判 定
基 短信 动主交 往 : 指 一 圈段 时间内 户 主 . 发动送 信短联 系 对的 是 用 准确性的, 以 免 避在 控 制垃 圾短 信的 过 程 中 , 大 量得的普 通 户 的用 使象 群的体 。个 群体这 人 的员个 将数 作 为 一个 数值 。 们 为 称 短信主 动 我正 短常信 通 信 需 求 也 受到 制 限但。 只 要 基 于是短 信内 容 的识 别 手段 , 交 圈往数 。值们 研究 发 现 垃 圾短 信 与用 户 正 常 的短信通 信 行 相 为 比 就存我 在着以 下弱 点 ( )变 性:1 多内容 键 字 匹关 配 , 一个 涉 及语 言 文 字是 较的一 个 很 要 的 重特征 就 。是一 个 很 的 短时 内 间 , 圾短 信用 户 在 在 垃的 弈博 过 , 内程容关 键 字 更 新变 化的过 。快难 被 稳 的定 动自化 , 固 很和 发送垃 圾 信短的 时 候 , 信 短动 主 往 圈异 常交 大的。 过2 对1 其 已经 0 0年 定化 , 很易被容避 。 规 且比如垃 圾 短信 发送 者 , 通 以 简 过单的在 一 个可经 被群 众举 报 的垃 短圾信 用户 的 通 信行 为研的 发究 现 了, 能 较 有 为 关高 键 中 增 加 空 格字 ,变 同音 形 异字 来替 等代 手段 。 很容 易 的 规 避 就 改的 短 信发 送 度 , 速发送 圾 垃 信短 时. 送 在 者当天 的 信 短 动 主交 往 在 发 关 键 了字的 检 。查( ) 能 题 : 技问术 上 , 描 庞大 的 内容 信 存 息 2在 在性 扫 圈达能到 百几甚 上至 千。 而一 般用 户 的 常正 信短通 信 求需, 个 数 值这 能性上 的 本根 问 题, 目 的前 手段 基 本 都 能 只在 大 量 垃圾 信 短 已发出 后 不般 会 超 过1 。这 个 指标 的 体值 具 取决 于选取 时 的间跨度 , 了 能0 为 很 久 才做 判出断 , 响 往往已 经产 。 生或者 能 只低降 扫描 信短 内容 的 影 更 效高 快速 的 计算 , 也便于 能 在 第 一时 间就 对 垃 短圾信 进行 识别 , 我 频度 和 范围。 在 某 程种度 上 又 降低了 圾 短垃 信 制控的 准 性 和确 时及 这 在 们做 研 究 的时 候 , 这 个指 标 的 判 定 间定时 1为 时。经 过 一段 时 将 小一
性。
所以 , 们希 望能 有 一种 不 基于 短 信 内 就容 完成 垃 圾 短信识 别 我的
方
法 , 且 种这 方 法, 足有 的 够 准确 性, 取 代或 补 充 目 前的扫 描 内 而 能 户 来 否 是在 发送 垃 圾 短信 的 有 特 征 力 。 ,意研 究 过 程的中 尝 试,分 注在 也容 的 圾 短垃 识 信别手 段 , 且, 确准性 得到保 障
的 前 提下 的,效 率 在 并它 析过 短 信 交往 圈 于短信 主 动交 往 圈 , 者 哪 个 更 合适 用 来 融人 次 建 此 两也是 较 的高。 基于 这样 的 背 景 和 客 观 需 要下 , 提们出 融 入 户客行 为 模我。 经过 分 析 现 , 发 交信 圈往并 没 主 有 交动 往圈 那 么 明 显 短。 研 究 和数据 建 等 手段模, 立“ 基 于内 的 容垃圾 短 信用 户识 别 模 型” 不建 2 短 2信收 比 发. 来提 高判 断用 在 发户送 圾 短 信垃 的 准确 度效 和率 。为 相关 电 信 理 部管 短 信 收 发 比:指 在 一 段时 间内 . 户主 动 发 送短 信 的 数 量 与用 是 用分 或电信 运商 营,第 一 时 就 准间确 的对 垃圾 短 信 用 户采取 必 要 的 限 在 接户受 信 短的 数量 比的率 据 。常识 以 我 们 经及 一过段 时 的间 研表 根 究制手 提 段供的 可 借鉴 思的路 和方 法 。 明 常,的 点 对 点 短 信 信通需 求 , 是往短 信双 方一来 往一 较, 的 好正往 有经分 应 用的建设 以, 经为分 使 用 者 发现 问题、 析 问 题 决、问题 分 解 交 性 。互故 正点 常 对 点短 信通信 的 短 信 收 发 比较 接比 近 1 。但垃圾 短 提供帮助 为根 本 的 。 是目要 紧 结密 合经 分 使用 者的 考 思 分 析问题 的 就 的 发 送 信与 受 接及其 不 比 例 。成 目 的 垃前 圾短信 都 基本以 宣传 为 目 思路 和方 ,法 直 的把 信观 息通过 分经的 各 个应 用传 递给经 分使 用 者。 的 , 以 都大 直接 成 完 送 后 ,发 方收并 不会去 复回。 成 垃圾 短 信 发 接所 造 功 的经 分 成应用 , 面 不向 层同面 的 使用 者 能 ,够 助 其帮了 解 司公 是 都 者在送 段一时 内 的间短 信收 发 非 常 的小比。 就 是 说 发 送量 远 大 远于 也 运 情营 况 ,助 其 思考 问 题,决 问 题。 助 其更好 为 提升 公 司 运 营 能帮 解 帮接 收 量 在 这。 个 信通指 标 的采 集时 设间 为 1 置小时 的 情 况 下 圾 . 垃个 作 力改进 。 短 信 收的发 比 与 常正 短信通 信 行为收 比 的 差发别 已 经不 是一个 数 级量, 以 非 常 易 容进行 检 测 和判 断 。 意 , 短信注 发 送量 较 小 的 时 候, 所 对 2用户 通的信 指 有纹可 出能现 发 收比 非常 高或接 近 于0 情 的况 。 并这没 很有强 的参 考 但 移 动通 用 信 在 户 一段较 长 的 时 间 中 ( 3年 左5右 ) 由 其 于个人 意义 , 在以 分析 识别 的 时 需 要候 剔
除 短信 较 量小 的情 况 如 。 , 所、 的 性格, 活 习惯 ,交能 力 , 会 成 员等 都 相 对 较 稳 定 , 致 其 正 常 生 社 社 导23 等长 短 信 比 . 通的信 行 为 也 会 间 的 体 接 现 这出样 的 一些 较比稳 的 特定征 。简 单 的等 长短 信 比 指 :在 一 段时间 内 .户 发 送长 度 全完一 致 的 信 短 用 是说 ,个交 际 较 广泛 ,善常 于 沟 通的 人 的, 信 行 为 通 会也体 现 通出 数的量 。 通 过研 究 析 分, 实 际 活生 验 经 , 们发 ,现非 是 有 12 只一非 他 和 我 、 除信交际 象 比对 多 较 通,信求需 比较繁 频特征的; 而 一 个常社交日圈 个较字 的 非常 简 短 的 短 信,短 信 的 长度超 过1当 0 后 ,以 果用户 在短 如 时 的小 户用 ,的 通信 对 通象 常也不 会 非 的 广 常 再。 如比 : 个3 他 一 O岁左 间内 发 一送个 长 度 完 全 一 致的 短信 给很 多 的 不 的用 户同, 这 个行为 那 的右 白 领工 人 员 , 作于 作工需 要 午,通 信 需求的 带 , 动在 工作 时 由 上他很有可能是 圾垃信短发送的况。情 间 段的通 信 就 会相 对 比较 高 ,他 的 通 信高峰 基本 出现 在会工 时 间作 这 样的信 还 有息很 多 里, 罗 列的 是一 些比较 明 显的 , 于获 取 这易 ; 一 个段老 年 人 , 通于 基 本信是 与 家 、人 人 沟通 交 , 的 通流 的 信, 征较 比 显 的明关键 指性 标。 通 过将以 上 些 这关的 信 通短 信特 而征 由 他亲特 。 峰高 就 有 可 很能 现 在 出 工非 作 间段时, 如比 间 或晚黄 昏 。 等 些这 等 我。 信 进息 行 融 合 ,包 括再 用 的 发送 户短信量 送. 时间 等 些 基 础 一 息 .信发 发 们 , 现 仔 细分的 析用 户 正常的 通 信 为 行,从 中 渗 透出 多很用 户 若 会 就初 步 构 成了 户用的 短 信 通 指信 纹。 再 根 据不 同 的用 户群 立一,定 设 本 身的 活生特 征 和习惯 , 这 些 又与用 户 的 会 社地位 , 龄。 份 , 而 身年 职 的 常异判 规定 ,则形 成了 一个 比 较初 级 的 简 单的不 基 于短信 内容 的就 业 等紧 相密 关 ,是 在 一段 时 间 相 内对 保 稳 定 的 。 持且当然 , 们所 的说 垃圾 短信 识别模 型。我 (转 第 6下 1 )页
间
的观 察发 现,时 的 信短主 动交 往数 圈值 虽 然较一 天的 小, 但也 小 已经 能 1有效 的 与正 常短 通信 行信 进 为行 别 ,区 是 一 个经 用 来 识别用 已
47
科技信息
。I
论T。坛
SI C N ECE&T CN 0G RF T0NE H 0 LY M0 A 1
21 1年0
第7 期
通
对 过不 级 别同 相 位同 的置图 片 比较( 3和图图 4 ,以 判 断4 结束 语 如 ) 出 随着可级别 数 变 小 , 片也 之 随 变大 ,图 这 符样合 金 字 塔结 构 设计 理原 。 基 于 G S 瓦的片 式切 图 实 , 大现 的 高提了 络网地 图 资 源的 访问 I 极 效 率 足,了用 的户需 求 ,动 基 于 瓦片 式地 图服务 模式 地 的 空理 间 推 满息信资源享平共台的泛应用广。 但 是也 存 在一 些 不 足之处 . 在 服 务 器端生 成 瓦 片 图 地 由 于时地 如 范围图响花费时影较多 间 些需要进一,研究步优与化 这。
【 参考文献
】
][小 军 , 璐. 于 AGrI nie进 行 瓦片式 切 图 的 术技研 究.绘 空 间与 1 王 基 刘eS E ng测 地信理 息 0 0,., 21 8 [ ]毅. 省 西 水利电 沙子盘 系 统 格 栅 像影 处理 机制 的扩 展与 完 善 . 西 利水 2李 山 山
科 技, 00. 2, 18
图 3文 存 储 V件 t er M\5 \ 6 . n ocV2  ̄ 41 19p
g
][3 姚 凯. 瓦真地片图 技 在术 利水We G S 统系中 开的研究发与应用. 江水 利Ib 浙 科技,0 9。 1 0 21.[
许 虎,云 峰 , 坚 . 于 中 间件 瓦 的片地 图 服务设 计与 实 .现球 信 科息 学 4] 聂 基舒地 学 报, 0,.02 1 8
[ 5 ]镇. 刘感遥像影瓦 金片塔模型.字 技新导报 创,0 ., 2 86科 0[] 胡泽 明6 ,岳生. 嵌入春式G S系统 缓存多地 图显示方 法 .工息大 学学报 程 I,信
0. .2O 6
1
作者 简介 :冰 (9 4 男 )。南师 范大 学 , 士 研 生究。 刘1 一8, 湖 硕
[ 任编 辑 静 : 责 ] 汤
图
4 件 文 存 V储c o V M\\ 0 \ 3 . n et r2 96 33 8p g
(
接 第 4上7页 ) 应 与用展 望 3
在 电信 运 营 商 的 网 络部 或 计 费门 部门 ,往 往都 较有强 的 件硬资
现垃圾短 信 为行以外 。 可 以扩 展 到 , 垃圾也彩 信 ,意 欺诈 电话 有 共等 恶 同性 的特恶意 通 信 行 上 为 基本。思 路 分和 方 析法是 可 以很 好 的平 铺适 的用 ,要主 其对中 信 息的 采 集 点需要 做 一些 适应 性处 理 但。 目 前 全国通 信运 营商 也 在 逐 步 完善 实 制名的 工 ,作 来 果 ,实 如未
源 大 , 据数 量 批 量 的快 速处 是理 其强 项 ,其 是 有 大 型数据 库 的情 对尤
况 下。一 段 间时内 ,在 需只 再要 额 外计的算 一 些基本 信 , 能息 够捕捉 就 名 制作得以完工善。 此过模型 以可行高 效进监的控 ,通 而捕 捉 以 后再 垃 到 短圾 信 的 情 况就 能。够 较 比及 时的 其对 进行 网 络通 信 制 手 限段 。 通 过扫 描 短 信内 容可以 很好的 行 进 很 的好举 证 。 是 对 圾 短垃 信类 的 将这 样效 的 , 率比 条 逐扫 短描 信内容要 高, 用且户 难很规 避 。 上 对 远 而 加 意通 信恶 欺诈 行为 一 个 第 好很的打 击手 段 。 对 我 整们 个 电信行 业 正会 这 样 的判 断 模 型 本身 的判 断 逻 和辑 数 值是 保密 的 , 更 难以 被垃 圾 短 就 信
户越用 。 通过过本识别模型 ,与 描短扫内容信方法相结的 . 合若再 就 更进能步的一确对垃保圾信用短户治惩准的确。 本性 研 究次所 采 的 通 用 分 析过用 户 通信指 纹 方的 ,法了 可 以 发来 除
常
发 展,为老 百姓更好活生, 享受 电信通 发信展成果带来益。处
E[
任编 辑: 】 责 张 慧
(
接第 5 2页上) , 系 统 用 于 制 、控 和测 踪跟 体 , 物统 由一 个询 件 该 系 检器 问( 读 器 阅)或 和 很多 应 答 器 (标 签) 成 。 或 组 参【考文 】 献 射 放 定位 系源统 是 基于 R n 技 术 平 台 的D基 站 式 读 写 , 器采 [用] 宁 ,是1 杨符 , 书 杨荣 ,玲玲 . 于 有 线和 线 设 无计 的大型风 电场 通信 统系【. 黄魏基 J1
2年O3 固定期 方 式 安 装 的电子 标 签 读 写 设备 , 的是 外 用 接 电 和 源 线 方有式 进 自 动 化 仪 ,表01O . 使 2疏 郑张袁 突 行 后 台通 讯A。 主 要 某 一在 区域完 成 对 放 射 上源电子 标 签 信 息 的动 自 [采] 学明 , 魁 , 辉 宏 永 , . 发 件事中 网 络舆 情 信 息管理 式 方探讨 [ 中 c.0 / 2韩 基 集 ,将这时些据转数发到后 端 接的收主机 系或统 平台:同 当被 监 管 的 国 突发 事 件 防 范与 速快处 置 优 秀 成 果 选 编 】[ 09 /颖. 于无 线 传 感 器 络
网放 射源 移被 ,动 开设 定 范围 内 , 时读 器 将 写 无 读法到标 签 信 息 . 离 此 从 ] 志[锋 ,跟 成 . Ma if 次 开 的 三 种发方 法 的对 比 研 和 叨 究.脑 知识 谷 3郭 对npo 二电 而 报警 , 现 放射 源 监 管 的目 。的 实
与 技 术 : 术 交 流 0, 7 o年
学 2 60 . 期
室的 内 境监环控 系 『 统. 阳工业 大 学 , 00 1 沈D2 1 .
3
结 束 语
[
从 光 梅 , 文 龙 芝, 科 .于 RFD粮 食 物 流 跟踪车 终 端 载 统 设 计系『. 庆 4 梁]甄 基 I J 安 师1学院学报范: 自 科然学 版 . 0 年90 20 2期 .
经
实 践过 文 所,设 计的 放 射 在 源 监 线控系 统 运行 好良. 实地 [ 粱 鹏 飞. 于P GD S技 术 / 车的辆 定 位监 系控统 的 研 [究 建 ]师 范 大本 5]切基 S 3 I G福D o2. 实 现 了 放射 源 的实 监 时 、 控 、 警 、 度 等理 功能 。时 实也现 了 监学 . 0 报9调 管 同6] 陈 冯 放等地 中 心 控与使 用用户 双 的互 动向 , 且还具 有站 点 路、 有等 关数 据 的 [王 美存, 宾 歆 夏 , ., 射源 监 管 息 信系 统 的 设计 与 成集. 球 信 息 科 而
道203期 查 询及 统 计 报 表 的 打 印 输功出 能, 加 便于实 现 现 代 的化管 理 经. 学。 08 第 年0. 更 且 [丽 张 ,英宪 , 乾 伟 章 , .莹于 RD、 F M技术 的 放 射源 防 示 踪 盗 系统 7 ] 王庄赵 基I S 济 性G和 用 性 应都 合适 用 用使户 和 保 环监 系控统的 发 展 与需要 是。该 的设但_ 微计计算 机信 。0 0年息第 2 2 l 0 .期 系 统 也存 在 现 场环 境 恶 劣导致 的 现 场监 终 端测 易损 坏 位 有、 时位置 定
漂 移 过大 等问 题 改 ,进有 于 待辐射 在线 监 测 备设质 量 的提 高和 GP S 定其 精位 度 提 高的。
任编辑[: 慧 责 】张
1
6