NER 数据集格式转换

NER 数据集格式

格式一

某些地方的数据和标签拆成两个文件了

sentences.txt

如 何 解 决 足 球 界 长 期 存 在 的 诸 多 矛 盾 , 重 振 昔 日 津 门 足 球 的 雄 风 , 成 为 天 津 足 坛 上 下 内 外 到 处 议 论 的 话 题 。
该 县 一 手 抓 农 业 技 术 推 广 , 一 手 抓 农 民 科 技 教 育 和 农 技 水 平 的 提 高 。
而 创 新 的 关 键 就 是 知 识 和 信 息 的 生 产 、 传 播 、 使 用 。
联 合 国 秘 书 长 安 南 2 0 日 发 表 讲 话 , 敦 促 有 关 各 方 采 取 克 制 态 度 , 以 避 免 塞 岛 紧 张 局 势 进 一 步 升 级 。
他 出 任 总 理 后 因 怕 惹 怒 美 国 才 改 抽 多 米 尼 加 生 产 的 雪 茄 。
同 时 , 三 毛 集 团 自 身 也 快 速 扩 张 , 企 业 新 创 造 了 3 0 0 0 多 个 就 业 岗 位 , 安 置 了 一 大 批 下 岗 职 工 。
金 融 人 员 一 旦 犯 法 , 自 己 进 监 狱 不 说 , 上 司 也 要 受 惩 罚 , 而 且 所 在 公 司 名 誉 会 受 损 害 , 这 是 非 常 严 重 的 事 情 。
我 想 以 这 句 话 向 母 亲 说 明 女 儿 也 同 样 爱 她 , 同 样 在 远 方 思 念 着 她 , 虽 然 在 她 身 旁 时 , 我 总 违 心 地 说 我 不 想 家 。
韩 国 人 向 国 外 借 款 、 投 资 和 发 行 海 外 证 券 , 外 国 人 在 韩 国 投 资 和 购 买 不 动 产 , 原 则 上 将 不 予 限 制 。
现 在 , 全 球 经 济 逐 渐 融 合 , 世 界 性 的 知 识 经 济 时 代 已 经 来 临 , 在 新 的 经 济 形 势 下 , 乡 镇 企 业 更 应 抓 住 机 遇 , 开 拓 进 取 。

tags.txt

O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O
B-ORG I-ORG I-ORG O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O
O O O O O O O O O O B-LOC I-LOC O O O B-LOC I-LOC I-LOC I-LOC O O O O O O
O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
B-LOC I-LOC O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O

格式二

{"text": "如何解决足球界长期存在的诸多矛盾,重振昔日津门足球的雄风,成为天津足坛上下内外到处议论的话题。", "label": {"LOC": {"津门": [[21, 22]], "天津": [[31, 32]]}}}
{"text": "联合国秘书长安南20日发表讲话,敦促有关各方采取克制态度,以避免塞岛紧张局势进一步升级。", "label": {"ORG": {"联合国": [[0, 2]]}, "PER": {"安南": [[6, 7]]}, "LOC": {"塞岛": [[32, 33]]}}}
{"text": "他出任总理后因怕惹怒美国才改抽多米尼加生产的雪茄。", "label": {"LOC": {"美国": [[10, 11]], "多米尼加": [[15, 18]]}}}
{"text": "同时,三毛集团自身也快速扩张,企业新创造了3000多个就业岗位,安置了一大批下岗职工。", "label": {"ORG": {"三毛集团": [[3, 6]]}}}
{"text": "韩国人向国外借款、投资和发行海外证券,外国人在韩国投资和购买不动产,原则上将不予限制。", "label": {"LOC": {"韩国": [[0, 1], [23, 24]]}}}
{"text": "当有了一定的实力后,他就成立了武义县重点实用菌公司,不仅负责为菇农提供技术指导和菌种,而且负责原料代购,产品回收,经自己加工,或出口、或内销,从而使高温香菇栽培技术迅速扩散到浙西南山区的10多个县市,100多个乡镇,栽培规模由1991年的23万袋增加到1995年的3000万袋,仅此一项就使当地农民增加收入1亿多元。", "label": {"ORG": {"武义县重点实用菌公司": [[15, 24]]}, "LOC": {"浙": [[87, 87]]}}}
{"text": "四十九岁的田春美曾是老三届下乡知青,返城时已是二十七八岁的老姑娘,仓促成婚。", "label": {"PER": {"田春美": [[5, 7]]}}}
{"text": "阿巴查8日晨因心脏病突发在首都阿布贾去世。", "label": {"PER": {"阿巴查": [[0, 2]]}, "LOC": {"阿布贾": [[15, 17]]}}}
{"text": "例如,要对社会主义市场经济与公有制为主体、多种所有制经济共同发展的基本经济制度如何结合的问题,加强社会主义民主法制建设与政治体制改革问题,以及社会主义市场经济条件下的文化建设和价值观念问题,进行深入研究和剖析,为不断丰富我们对有中国特色社会主义发展规律的认识,避免盲目性和片面性,提供更有效的理论支持。", "label": {"LOC": {"中国": [[114, 115]]}}}
{"text": "”由于设备先进科技水平高、管理严格,天象生产的“文林”牌铅笔各项技术标准均达到国际先进水平,畅销近40个国家和地区。", "label": {"ORG": {"天象": [[18, 19]]}}}

我个人比较喜欢这种格式,json解析

格式1转格式2

import re
from collections import defaultdict

with open('sentences.txt', 'r') as f:
    sentences = f.readlines()
    sentences = [i.strip().split(' ') for i in sentences]

with open('tags.txt', 'r') as f:
    tags = f.readlines()
    tags = [i.strip().split(' ') for i in tags]


dataset = []
for s, t in zip(sentences,tags):
    assert(len(s) == len(t))
    text = ''.join(s)
    features = [i.split('-')[0] for i in t]
    entities = [i.split('-')[-1] for i in t]
    biotags = ''.join(features)
    pattern = re.compile('BI*')
    ne_label = re.finditer(pattern, biotags)
    ne_list = []
    label = {}
    for ne in ne_label:
        start, end = int(ne.start()), int(ne.end())
        entity_group = entities[start]
        words = text[start: end]
        if entity_group in label:
            if words in label[entity_group]:
                label[entity_group][words] += [[start, end-1]]
            else:
                label[entity_group][words] = [[start, end-1]]
        else:
            label[entity_group] = {words: [[start, end-1]]}
        
    if len(label) > 0:
        sample = {"text": text, "label": label}
        dataset.append(sample)
   
import json
with open('msra.train.json', 'w') as file:
    for i in dataset:
        file.write(json.dumps(i, ensure_ascii=False))
        file.write('\n')

中文NER数据集:https://www.cluebenchmarks.com/dataSet_search_modify.html?keywords=ner

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/634300.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

工作学习的电脑定时关机,定时重启,定时提醒

可以直接下载工具: 定时自动关机 大家好,! 在我们学习与工作时,经常会遇到想要在完成一个任务后,再关闭电脑或对电脑重启,但这个时间点,操作电脑的人可能不能在电脑旁边,这样就需要…

电磁兼容(EMC):去耦电容设计详解

目录 1. 概念 2. 去耦电容工作机理 3. 去耦电容大小选择 4. 去耦电容PCB布局 电容在电路中不同作用有不同的称呼去耦电容、旁路电容、储能电容,而这些作用又可以统称为滤波。本文将详细解读一下三者之间的差别,并着重说明一下去耦电容的设计方法。 …

【Qt 学习笔记】Qt常用控件 | 布局管理器 | 空白项Spacer

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 布局管理器 | 添加空白Spacer 文章编号:Qt 学…

JS 实战 贪吃蛇游戏

一、css 部分 1. 居中 想要开始和暂停两个按钮居中,可以将盒子设置为弹性盒 也可以使用其他方法 【代码】 2. 将父元素设置为相对定位,偏于之后贪吃蛇长长的身子,是以父元素为基点的绝对定位,通过 left 和 top 来控制位置 二、…

【Qt 学习笔记】Qt常用控件 | 布局管理器 | 表单布局Form Layout

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 布局管理器 | 表单布局Form Layout 文章编号&#xff1a…

Android AV World 序

序 做Android系统开发很久了,基于高通和MTK硬件平台,使用Android10量产了一些车载项目。由于功能模块属于系统底层支撑,类似于docker,涉及到音视频的处理,及Display Graphics的一些处理,需要调试解决显示花…

【Linux】:进程切换

朋友们、伙计们,我们又见面了,本期来给大家解读一下有关Linux进程切换的知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门到精…

车间人员作业行为智能检测 AI视觉在生产车间制造中的应用

车间人员作业行为智能检测系统基于神经网络人工智能视觉算法,车间人员作业行为智能检测通过对车间监控摄像头获取的视频图像进行分析和识别,实现了对人员操作行为的智能检测。系统对工人的操作环节进行分解,根据时间、动作标准等方面制定了规…

FSC认证是什么?森林认证的好处是什么?

FSC认证(Forest Stewardship Council,森林管理委员会认证)是一种运用市场机制来促进森林可持续经营,实现生态、社会和经济目标的工具。以下是关于FSC认证的详细介绍: 一、FSC认证包括两个方面: 森林经营认…

Day 38 防火墙技术IPtables

一:防火墙简介 1.简介 ​ iptables其实并不是真正的防火墙,我们可以把他理解为一个客户端的代理,用户是通过iptables这个代理,将用户的安全设定执行到对应的“安全框架”中,这个“安全框架”才是真正的防火墙。这个框…

极光将于2024年6月6日公布2024年第一季度财报

2024年5月23日,中国深圳——中国领先的客户互动和营销科技服务商极光(Aurora Mobile,纳斯达克股票代码:JG)(以下称“极光”或“公司”)宣布将于2024年6月6日周四美国股市开市前公布截至2024年3月…

Web前端开发技术-格式化文本 Web页面初步设计

目录 Web页面初步设计 标题字标记 基本语法: 语法说明: 添加空格与特殊符号 基本语法: 语法说明: 特殊字符对应的代码: 代码解释: 格式化文本标记 文本修饰标记 计算机输出标记 字体font标记 基本语法: 属…

精准键位提示,键盘盲打轻松入门

在说明精准键位提示之前,我们先来看一张图: 这是一张标准的基准键位图,也就是打字时我们双手的8个手指放在基准键位上,在打不同的字母时,我们的手指以基准键位为中心,或上、或下、或左、或右,在…

2024 中青杯高校数学建模竞赛(B题)数学建模完整思路+完整代码全解全析

你是否在寻找数学建模比赛的突破点?数学建模进阶思路! 作为经验丰富的数学建模团队,我们将为你带来2024 长三角高校数学建模竞赛(A题)的全面解析。这个解决方案包不仅包括完整的代码实现,还有详尽的建模过…

Cadence HDL如何拷贝模版项目?

【记录】防止遗忘~ 首先,由于每次绘制原理图都要重新设置各种背景颜色,库路径等等,超级不方便,所以发现可以通过绘制一次模版项目,往后只用拷贝模版项目就可以了。 Cadence HDL新建项目时拷贝模版项目,再…

Vue2全局封装modal弹框

Vue2全局封装modal弹框使用&#xff1a; 一.components下封装 1.index.js import ModalCheck from ./modal-check.vue export default ModalCheck2.modal-check.vue <template><div><Modalv-model"selSingleShow":title"editTitle(convertCa…

二叉树遍历操作详解

目录 一、思路详解 1.1 递归思路 1.2 递归分支图 1.3 递归栈帧图 二、C语言实现 2.1 前序遍历 2.2 中序遍历 2.3 后序遍历 三、查找值为x的结点 3.1 递归思路 3.2 C语言代码 一、思路详解 采用递归的思想解决问题&#xff0c;以高度为3的满二叉树为例。 1.1 递归思…

FBB-Frontiers in Bioengineering and Biotechnology

文章目录 一、期刊简介二、征稿信息三、期刊表现四、投稿须知五、投稿咨询 一、期刊简介 Frontiers in Bioengineering and Biotechnology是专注生物工程和生物技术领域的开放获取期刊。 研究范围涵盖生物材料、生物力学、生物工艺工程、生物安全和生物安保&#xff0c;生物传…

Power BI实现动态度量值

假设有一张销售数据表Sale: 报表上有一个切片器(Slicer)(下拉框样式)&#xff0c; 当选择"第一"时&#xff0c;计算列[FirstSale]与列[Target]的百分比&#xff0c; 选择"第二"时&#xff0c;计算列[SecondSale]与列[Target]的百分比 选择"第三&qu…