Lazy loaded image
技术分享
🌐技术分享 | 批量提取htm文件里的内容
字数 960阅读时长 3 分钟
2024-12-9
2025-1-30
type
status
date
slug
summary
tags
category
icon
password
URL

 
今天一狠心,使用一个工具扒取了迈点网的很多报告(仅用于科研项目,不会商用更不会公开,请原谅),但是是html页面,里面内容中还带有很多代码,几百篇报告不可能手动再去复制里面的文字内容,于是AI又被搬上了荧幕。
提示词:
 
 
AI 回复:
 
代码:
 
上面的代码能将html里多余的代码都删除,但是文件格式还是html,虽然html也是一种文本格式,可以使用记事本直接打开,但是总是看着不顺眼,所以让AI继续生成代码将文件夹里的所有html文件转换成txt文件。
 
 
从扒取报告到提取文本内容再到格式转换,还包含AI写代码,几百文件前后用了不到20分钟……
上一篇
技术分享 | 重复信息自动填写工具
下一篇
技术分享 | 批量复制多个文件夹中的文件到指定位置

评论
Loading...