海螺新闻网
最新热点新闻

我们在全网采集了700多亿字,发现了这些不规范字词问题_舆论场

我们在全网采集了700多亿字,发现了这些不规范字词问题_舆论场

“目前网络上汉字使用不规范的现象不容乐观。常见错误、繁体字、异体字频繁出现在互动论坛、微博等互联网公共社交平台上,政府、媒体网站、新媒体宣传账号发布的内容也存在误用和疏忽,对规范使用汉字的形成产生了负面影响。”

6月8日,由论文发起、上海人工智能研究院、上海信息安全测评认证中心、上海新华传媒连锁有限公司、上海邓氏美蓉信息技术有限公司联合成立的“数字内容生态实验室”发布了《互联网用字不规范现象研究报告》。针对上述现象,报告从错误类型、平台渠道等角度深入挖掘不规范词语背后的规律,总结网络不规范词语现象产生的原因,建议成立由网监部门牵头、多方协作的网络语言生态联合体,形成推动网络语言规范化的合力,促进网络语言规范、积极、向上的生态建设。

现状及原因分析

数字内容生态实验室通过人工智能、大数据等技术手段,从2022年12月至2023年3月,随机选取互动论坛、数字报纸、客户端、微博、网站、微信、短视频平台等7类源内容,形成4946.3万篇、706.6亿字的样本,调查异体字、异体字、繁体字、常见错误的发生情况。

前20个不规范单词

高频不规范词的统计

根据数据库信息,常见的错误是主要出现在互联网上的不规范字(词)的形式,在TOP20高频不规范字中占了9项。常见的错误,如张(张)、连(连)等。属于误用相近的词,而颤抖(颤抖)和姿势(势)属于误用发音相近的词。另外,网上也有故意用不规范的词来表达其他意思的情况,比如“美国”。有五个异体字和五个繁体字。异体字因音义一致而被广泛使用,大众仍延续旧的使用习惯,容易出错。TOP20中的繁体字,如“楚”、“吴”等,与正确的字体非常相似,在手机等快速输入或小屏幕输入场景下容易混淆。You(你)和love(爱)被一些网友刻意用来表达自己的个性,所以频频出现。

报告从多个角度分析了互联网汉字使用不规范背后的原因,指出人机交互方式、创作者能力参差不齐、互联网个性化表达、专业内容平台示范作用有待进一步发挥等因素都是互联网汉字使用不规范的原因。

建议规范使用引导措施。

针对上述互联网不规范用字现象,数字内容生态实验室向政府、媒体、内容平台和公众提出互联网汉字规范使用的建议和引导措施:

1、重视技术的作用,推广使用文字和规范。结合人工智能语言模型等前沿技术,优化输入法功能,结合上下文推荐选词,提高选词准确率。在内容发布平台引入智能不规范用字监控工具,优化文字内容检查功能,如微信公众平台疑似错别字自动检测,内容风控智能平台、铀媒等专业内容校对和管理工具,帮助内容发布者正确规范用字。

上海邓氏美蓉智能校对事业部总经理张小娟表示,目前,国内智能校对系统可以根据汉语的特点,将词义、字形、发音多模态编码到大规模深度神经网络中,捕捉句子的细粒度语义信息和长期语义依赖,实现自动识别单词错误,并具有主动进化策略,可以不断学习新的语言现象以提高校对效果,为语言规范化的监督管理提供有力支撑。

2.充分发挥政府和媒体的积极影响,做好主流的引导和示范。利用好网络传播渠道,以身作则,保证发布内容用词规范;加强内容管理和监督;引导公众在积极参与中树立正确规范的用词意识。

3.内容平台发起倡议,形成规范的文字氛围。开展专项行动,提高公众对不规范用字现象的认识,重视内容监管,严厉打击不规范用字表象下违背公序良俗的行为,营造清朗的网络空。

4.开展专项监测,支持推广语言规范。在人工智能技术的参与下,大范围收集互联网内容,分析常见的不规则使用规律及其背后的原因。建立负责互联网内容监管的技术平台,充分发挥技术在语言文字规范中的作用,形成规范语言文字使用的合力。

此外,针对网络不规范用字的现状,结合互联网平台的信息传播特点,报告建议由互联网信息监管部门牵头,联合主流媒体、内容平台和专业技术机构,建立网络语言生态联合体。开发监管互联网内容的技术平台,并持续收集和监测互联网内容;研究建立科学的监测指标体系,分阶段开展数据挖掘和对比分析;定期发布监测研究成果,总结不规范用字的成因和互联网平台公众的语言习惯,重点纠错堵点,找到有力抓手,提出有针对性、切实可行的规范用字对策建议。

中国传媒大学国家语言资源监测与研究有声媒体中心教授邹宇表示,《网络用词不规范现象研究报告》中的数据具有代表性,网络用词不规范的现状和特点具有很强的代表性,对原因的分析也很到位,规范的引导措施具有很强的针对性和可操作性。

责任编辑:马世鹏图片编辑:薛晶校对:刘威

赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《我们在全网采集了700多亿字,发现了这些不规范字词问题_舆论场》
文章链接:https://sourceopen.com.cn/7725.html

本站新闻文章由机器人程序自动发布,新闻内容具有时效性,仅供参考,不具备权威性,所有内容来源于互联网,并非官方发布信息,其真实性自行判断,不代表本站观点,如有侵权,误报,违法等不良信息,请联系删除.资源型信息仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

相关推荐