[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[问题求助] 【求助】【文本数据处理】【200元】

本帖最后由 曾经的你 于 2024-1-6 23:11 编辑

链接:https://pan.baidu.com/s/1nMK3gDVDJugO8gc0abILRw
提取码:c59v
--来自百度网盘超级会员V5的分享

我追加了一份其他直接下载地址
链接:https://cowtransfer.com/s/19f84b4bff094f
口令:2r7srs
【请下载后,将后缀.ddd改为.zip】


该压缩包中存在853个txt文件,每个文件中存储的都是公司名称。
需要将每行中的数据仅保留商号。【类型非常复杂,仅保留商号】
举例:
比如  江苏_无锡_1.txt  文件
原始文件数据为
  1. 无锡茅庄农产品专业合作社
  2. 无锡常锡农产品专业合作社
  3. 锡山区斗山辛巷家庭农场
  4. 锡山区鹅湖翔威家庭农场
  5. ****
  6. 江苏珵硕电子科技有限公司
  7. 无锡靖天环保科技有限公司
  8. 无锡巨一同创科技股份有限公司
复制代码
处理后为
  1. 茅庄
  2. 常锡
  3. 辛巷
  4. 翔威
  5. ****
  6. 珵硕
  7. 靖天
  8. 巨一同创
复制代码
需要处理精确度尽可能的高。
无需处理程序,将结果分享给我就行。

【文本中可能存在少量特殊名称,跳过或者根据实际情况处理即可。】

请下载后测试,能处理的老哥请留言回复,我将继续跟进。
每日一问

回复 2# newswan


    见说明,里边有几百个txt文件
每日一问

TOP

本帖最后由 曾经的你 于 2024-1-6 16:46 编辑

回复 4# _avatar_


所以这就是难点所在。不过像是特殊的允许出现一定错误。
我自己搞的几千个地区,处理后依然不正确。(并不是所有的企业名称都是**省***市**县**区**镇**乡等,很多类似这种)
涉及到地区名及行业分类,非常复杂。可能需要机器学习来完成。
我自己写了脚本替换了半天发现问题很大,就来求助了。
每日一问

TOP

回复 6# newswan


    是的,我问过chatgpt他的回答不如文心一言。
这就是难度所在,可能需要机器学习
每日一问

TOP

本帖最后由 曾经的你 于 2024-1-6 23:11 编辑

回复 9# _avatar_


链接:https://cowtransfer.com/s/19f84b4bff094f
口令:2r7srs
【请下载后,将后缀.ddd改为.zip】
每日一问

TOP

回复 11# _avatar_


   
每日一问

TOP

回复 13# search_Sudoku

那我等着你,啥时候能搞好
每日一问

TOP

返回列表