XML 基础困惑之内嵌标签如何鉴别

andy95800 2011-03-03 03:00:58
<SystemModules>
<Module GUID="{1E634EB3-81B3-407E-947B-DF69C2E251B7}" Identifier="esri_store">Choose <esri_uicontrol>Page with Count</esri_uicontrol> from the list.</Module>
</SystemModules>

上面这段XML语句中,请问如何正确提取出文本部分:Choose <esri_uicontrol>Page with Count</esri_uicontrol> from the list.
也就是说该如何判断 <esri_uicontrol>标签是混迹于文本内呢
先说下我的想法,我觉得Module 有三个子node:分别是文本node(Choose )包含文本的子元素node(<esri_uicontrol>Page with Count</esri_uicontrol>)以及另一个文本node( from the list.)
这种想法正确与否?我所能想到的方法就是比较 esri_uicontrol的text跟Module的text进行比较 如果是不全等关系就证明它是内嵌元素node 不知大家对这种情况是怎么分析的呢?
小弟初迷xml,还望室外高人指点一二为善
...全文
150 17 打赏 收藏 转发到动态 举报
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
andy95800 2011-03-04
  • 打赏
  • 举报
回复
决定就用instr和instrrev了 感觉处理纯文本总要比遍历每个子节点取其.xml这种对象操作要快些吧。
谢谢大家,结贴,有更好的方法欢迎赐教。
vbman2003 2011-03-04
  • 打赏
  • 举报
回复
[Quote=引用 15 楼 andy95800 的回复:]
提取出Choose <esri_uicontrol>Page with Count</esri_uicontrol> from the list.后在外部编辑器中翻译,<esri_uicontrol>和</esri_uicontrol>作为实体处理加特殊格式,比如灰显
直接返回 Module 节点?我用.xml方法后返回的是<Module GUID="{1E634EB3-81B3-407E-94……
[/Quote]
用instr取这个xml第一个>至最后一个<之间的内容,就是你要的了,效率也很高的,好象没有直接方法....
andy95800 2011-03-04
  • 打赏
  • 举报
回复
提取出Choose <esri_uicontrol>Page with Count</esri_uicontrol> from the list.后在外部编辑器中翻译,<esri_uicontrol>和</esri_uicontrol>作为实体处理加特殊格式,比如灰显
直接返回 Module 节点?我用.xml方法后返回的是<Module GUID="{1E634EB3-81B3-407E-947B-DF69C2E251B7}" Identifier="esri_store">Choose <esri_uicontrol>Page with Count</esri_uicontrol> from the list.</Module>
Module 标签还混在内的,再替换掉?有没有办法直接得到Module 的内容的 比如如果有类似dom中的innertext方法就好了 直接得到
Tiger_Zhao 2011-03-04
  • 打赏
  • 举报
回复
关键是后续要怎么处理。
如果你还是要按 xml 格式翻译,直接返回 Module 节点,此处就不用向下遍历了。
如果是直接按照文本翻译,那么按我10楼的方式转义一下,还能少些 xml 节点。
andy95800 2011-03-03
  • 打赏
  • 举报
回复
想到了一个方法可以避免进行文本比较 可能效率和准确度更优些
遍历Module的所有子节点,只要有一个节点的类型是文本,就可以证明如果Module中包含元素节点的话 那么这就是个元素节点,则取Module节点的各个节点的xml既可获得整个文本部分 childNodes(0).xml & childNodes(1).xml &... & childNodes(n).xml
节点类型的判断肯定优于节点文本的比较,接下来取整个文本部分会不会还有更好的方法呢,欢迎继续探讨
andy95800 2011-03-03
  • 打赏
  • 举报
回复
to king06:
我是说 整个xml文档内有没有esri_uicontrol这个元素 你的语句都是一样的...
andy95800 2011-03-03
  • 打赏
  • 举报
回复
确实 这个是标准写法
Tiger_Zhao 2011-03-03
  • 打赏
  • 举报
回复
<SystemModules>
<Module GUID="{1E634EB3-81B3-407E-947B-DF69C2E251B7}" Identifier="esri_store">Choose <esri_uicontrol>Page with Count</esri_uicontrol> from the list.</Module>
</SystemModules>

这样呢?
king06 2011-03-03
  • 打赏
  • 举报
回复
一样才是你要的结果啊
andy95800 2011-03-03
  • 打赏
  • 举报
回复
7楼语句没有效果,跟我删除<esri_uicontrol>后再判断的结果一样
king06 2011-03-03
  • 打赏
  • 举报
回复
if xml.selectSingleNode("esri_uicontrol") is nothing
andy95800 2011-03-03
  • 打赏
  • 举报
回复
这种情况跟xml内嵌html标签有些类似吧,基本都是基于格式或变量替换的需求
andy95800 2011-03-03
  • 打赏
  • 举报
回复
这样的数据在软件本地化方面还是很常见的
我们的处理方式就是保留文本及其嵌套的部分原封不动进行翻译 这样既实现了本地化又兼顾了原文插入标签的初衷,<esri_uicontrol>是定义文本格式的 相当于粗体、斜体之类。
Tiger_Zhao 2011-03-03
  • 打赏
  • 举报
回复
这样的数据根本不能本地化。
1)XML 不规则
Module 节点要么是一个单纯的父节点,要么是一个值(文本)节点,正是因为内嵌导致空格丢失。
2)不同语言的词序是不一样的,不能分开翻译。
比如 X was king of jungle.
逐词翻译就成了 “X是王之丛林。”
andy95800 2011-03-03
  • 打赏
  • 举报
回复
另外有个郁闷的事,choose这个节点的text值居然不包括随后的空格,这是何解,这个空格又不归后面所有,那 xml 不会trim空格的特点难道是我理解错了...
andy95800 2011-03-03
  • 打赏
  • 举报
回复
不是 我是搞本地化。
需要提取出需要翻译的文本部分,所以需要甄别哪些是不需要考虑的非文本标签而哪些是内嵌的文本标签,而一旦确定是内嵌的标签就需要原样保留这些标签
dbcontrols 2011-03-03
  • 打赏
  • 举报
回复
帮顶,
楼主在做外挂?

7,759

社区成员

发帖
与我相关
我的任务
社区描述
VB 基础类
社区管理员
  • VB基础类社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧