文本纠错

文本纠错

# 文本纠错请输入一段文本:

45/800文本纠错# 简介文本纠错(Grammatical Error Correction,GEC)任务的目标是改正文本中潜在的拼写、标点、语法等表达错误。由于文本纠错的定义是中文拼写纠错(Chinese Spelling Correction,CSC)的超集,所以我们将二者作为统一整体进行研究。

目前,业界对文本纠错的研究还处于相当初始的阶段,具体体现在模型和语料库仅仅能覆盖简单的拼写和用词错误,而对稍微复杂一点的语病则无能为力。其主要原因并不在于模型,而是归结于语料库的匮乏。文本纠错的语料库主要来源为外国人在学习对外汉语的过程中暴露出来的书面语错误,与母语者常犯的错误往往相差甚远。而流行的数据增强方法伪造的训练数据与真实场景的分布大相径庭,无法达到实用水平。同时用于数据增强的语言模型又是在错误百出的互联网文本上训练而来,更是难以产出高质量的语料库。

提示

为此,HanLP的线上模型和语料库仍然在迭代发展中。当前版本暂时仅支持拼写、标点和简单的语法错误。我们将在下一个版本中,将HanLP的文本纠错能力提升到高考语文水平。

# 调用方法# 创建客户端 from hanlp_restful import HanLPClient

# 支持zh中文,en英语,ja日本语,mul多语种

HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

# 申请秘钥由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥authopen in new window。

# 分析输入短文本,执行文本纠错:

HanLP.grammatical_error_correction(['每个青年都应当有远大的报复。', '有的同学对语言很兴趣。'])

返回值为修改后的短文本。

# 本地调用敬请期待。

# 多语种支持敬请期待。

相关推荐

神界前10红眼搭配汇总 出血9占比独步天下
365账号限制投注怎么办

神界前10红眼搭配汇总 出血9占比独步天下

📅 01-16 👁️ 7435
狗狗为什么不让摸尾巴?了解它们的心理与行为原因
365彩票数据最专业

狗狗为什么不让摸尾巴?了解它们的心理与行为原因

📅 09-22 👁️ 7186
智利直播
365彩票数据最专业

智利直播

📅 10-03 👁️ 7758
刘亦菲的演技,到底行不行?
365彩票数据最专业

刘亦菲的演技,到底行不行?

📅 08-06 👁️ 6197
美团外卖怎么订餐啊 一步步教你完成外卖订餐操作
上司Upsosc
s365 2.2.3

上司Upsosc

📅 11-13 👁️ 7329
库卡机器人开机、自动运行、关机流程
s365 2.2.3

库卡机器人开机、自动运行、关机流程

📅 09-26 👁️ 663
2016年至2017年曼聯足球俱樂部賽季
365彩票数据最专业

2016年至2017年曼聯足球俱樂部賽季

📅 12-12 👁️ 3349
CSS文字居中难题破解:告别上下不对齐,轻松实现完美布局