谁有把htm文件转换成txt文件的源代码?必有重谢!

kangjian1 2002-02-28 05:22:18
谁有把htm文件转换成txt文件的源代码?必有重谢!
...全文
223 17 打赏 收藏 转发到动态 举报
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
kangjian1 2002-03-11
  • 打赏
  • 举报
回复
谢谢大家的回答!
我只是在PDA上作一个电子阅读器,PC传过来的是html文件,
我要把它转换成纯文本并显示。
目前已经基本上OK了。如果谁有兴趣,我可以发一份源代码以示感谢,
同时不足之处还请多多指教。
我的邮箱:kangjian1@163.net








royalier 2002-03-06
  • 打赏
  • 举报
回复
想起来了,这个问题没有那么复杂的,早就有人做过了的,你去查98年及以前的共享软件,就有这样的程序,那个时候就有好多呀!呵呵,你怎么现在突然想要这个东西呢?
LLnju 2002-03-05
  • 打赏
  • 举报
回复
IHTMLElement , IHTMLDocumentX 是M$用来解析HTML文件的东东啊。类型库为mshtml.tlb, js 中的 document 对象就是 IHTMLDocumentX 的 dispinterface。
LLnju 2002-03-05
  • 打赏
  • 举报
回复
IHTMLElement , IHTMLDocumentX 等等是 M$ 的东东啊,用 MSDN 一查就知道了,用过 js 吗? js 中的 document 对象 就是 IHTMLDocumentX 的 dispinterface。IHTMLElement 是网页中的元素,像 body , title , img 等等都是。

你的具体开发环境是什么,unix / linux / M$ WinXXX ,能用 js 吗,用 js 只需要两句话搞定了,转换出来的结果就是你 Ctrl+C Ctrl+V 出来的结果,效果应该不差。

有时候人要偷偷懒,想自己处理 HTML 页面不是不行,但难度实在有点那个了。光是处理静态的 tag 也许还能够解决,我到 w3 下了 HTML 文档,也就 100 个不到的标记,光这些东西就足够你忙一壶的,并且 HTML 文件也实在太随意了,怎么写也不会出错,也许很标准的东西处理起来还不难,但有些不怎么标准的你怎么办。如果页面中有 js,就最简单的 <script language='javascript'>document.write("hello");</script> 要搞定也不是一朝一夕能够搞定的,要自己处理就当你弄个浏览器了,太不现实了。
kangjian1 2002-03-04
  • 打赏
  • 举报
回复
to submarine(蓝色潜水艇) :
有些信息是在<>之外的如嵌入的javascript语句。
to royalier(皇家)
我只要纯文本。
to LLnju(LLnju)
什么是IHTMLElement ?

另外,我用的是ansi C.
Bug_Debug 2002-03-02
  • 打赏
  • 举报
回复
BUG就是多:oText.body.innerText --> oText.document.body.innerText
LLnju 2002-03-02
  • 打赏
  • 举报
回复
上面写错了,<iframe id='oText' src='$(url)' width=0 height=0> 后面要添上 </iframe> 呵呵。
LLnju 2002-03-02
  • 打赏
  • 举报
回复
如果要编程实现,就是操作 IHTMLElement , 特方便。
LLnju 2002-03-02
  • 打赏
  • 举报
回复
最简单的是用 js 了,几句话就行了,像 submarine 的太麻烦了。比如,你写个 HTML 文件,如:

<html>
<body>
<iframe id='oText' src='$(url)' width=0 height=0>
<a href='javascript:alert( oText.body.innerText )'>显示转化为 TEXT 的结果</a>
</body>
</html>
dynamic_pump 2002-03-02
  • 打赏
  • 举报
回复
同意submarine(蓝色潜水艇) 的意见。
royalier 2002-03-02
  • 打赏
  • 举报
回复
我想问一下,html中的图片你想怎么保存?!
html中确实有许多tag,但实际上你把他们列出来也不是很多的,而且也好办,因为html里面的很多东西都是成对出现的。
关键是特殊字符怎么处理了?比如真正显示出来的要是"<",而实现上在html里面却是<
呵呵,列出来也好办了
见招拆招 2002-03-02
  • 打赏
  • 举报
回复
那样行不?
判断下一个字符是否是"<"">",根据这个来区别内容和Tag.
kangjian1 2002-03-02
  • 打赏
  • 举报
回复
我的目的是把html文件中的描述字符都过滤掉,只剩下可以阅读的纯文本。
我的问题是html中有很多Tag就是诸如<html><BD><script>...........的东西,而且还会有javascript程序的代码甚至注释,这些东西无法一一识别,有点头疼。
neccui 2002-02-28
  • 打赏
  • 举报
回复
呵呵,他的意思是plain text吧。
wanghu 2002-02-28
  • 打赏
  • 举报
回复
.html本身就是一种文本文件
ischuixue 2002-02-28
  • 打赏
  • 举报
回复
改扩展名!!*.htm -> *.txt
读取一个文件*.htm然后存为*.txt
ischuixue 2002-02-28
  • 打赏
  • 举报
回复
不了解
你的意思
改变文件的名字
,不行吗??
内容概要:本文提出了一种基于加权稀疏矩阵恢复与加速交替方向乘子法(ADMM)的单通道盲解混响算法,并提供了完整的Matlab代码实现。该方法旨在从仅有的单路接收信号中有效分离出原始声源信号,克服传统多通道方法对硬件的依赖。核心技术结合了信号在时频域的稀疏性先验,通过构建加权机制以增强稀疏矩阵恢复的准确性,并引入加速ADMM算法来优化求解过程,显著提升了算法的收敛速度与计算效率。该算法特别适用于麦克风阵列受限或无法部署的复杂声学环境,能够有效抑制混响干扰,从而显著提升语音信号的清晰度与后续语音识别系统的性能。; 适合人群:具备扎实的数字信号处理、凸优化理论及稀疏表示基础,从事音频信号处理、语音增强、盲源分离或相关领域研究与开发工作的研究生、科研人员及工程技术人员。; 使用场景及目标:①解决单麦克风场景下的语音混响去除难题,提升语音通信质量;②应用于智能助听器、车载语音系统、远程视频会议、人机交互等存在严重混响的实际应用场景;③为盲解卷积、稀疏信号恢复等领域的研究提供一种高效的算法实现范例与优化思路。; 阅读建议:建议读者在深入理解信号稀疏性、ADMM优化框架等理论基础上,结合所提供的Matlab代码进行实践,重点分析加权策略的设计原理及其对恢复性能的影响,并通过调整正则化参数、权重因子等关键变量,探究其在不同混响强度和噪声条件下的鲁棒性与泛化能力。
内容概要:本文介绍了一个基于Simulink的永磁同步电机(PMSM)电流环控制策略仿真模型,重点实现了二阶滑模控制(STSMC)、有限集模型预测控制(FCS-MPC)和PI控制三种先进控制算法。该模型通过构建完整的电机驱动系统仿真环境,对比分析了不同控制方法在动态响应速度、抗干扰能力、稳态精度以及鲁棒性等方面的性能表现,验证了各算法在高性能电机驱动应用中的可行性与优势。文档内容涵盖控制器设计、参数整定、仿真结果分析及系统稳定性评估,具有较强的可复现性和拓展性,适用于先进控制算法的教学演示、科研验证与工程原型开发。; 适合人群:具备一定电机控制理论基础和Simulink仿真经验的电气工程、自动化、控制科学与工程等相关专业的研究生、科研人员以及从事电机驱动系统研发的工程师。; 使用场景及目标:①开展永磁同步电机先进电流控制策略的仿真研究与性能对比;②深入理解滑模控制、模型预测控制与传统PI控制的原理与实现差异;③支撑毕业设计、科研课题或工业项目中控制算法的选型、验证与优化工作。; 阅读建议:此资源以Simulink仿真实现为核心,建议读者结合现代控制理论教材与仿真模型同步操作,重点关注各控制器的结构设计、参数调节过程及仿真响应曲线,通过对比分析深入掌握不同控制策略的作用机制与适用条件,并可在此基础上进行算法改进与功能扩展。

70,038

社区成员

发帖
与我相关
我的任务
社区描述
C语言相关问题讨论
社区管理员
  • C语言
  • 花神庙码农
  • 架构师李肯
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧