文本解析问题？谢谢

rocandroc 2007-03-21 02:46:51

对方给的文本如下：

<调度火电机端出力288点::江苏 date='2007-03-18'>
@@数据名称数据值
#1 24826
#2 24943
.
.
.
</调度火电机端出力288点::江苏>

<调度水电机端出力288点::江苏 date='2007-03-18'>
@@数据名称数据值
#1 2
#2 3
.
.
.
</调度水电机端出力288点::江苏>

现我要解析成如下数据库结构

列名 date key value1 value2 name1 name2
数值 2007-03-18 #1 24826 2 调度火电机端出力288点::江苏调度水电机端出力288点::江苏
2007-03-18 #2 24943 3 调度火电机端出力288点::江苏调度水电机端出力288点::江苏
.
.
.
.

请问数据应该如何解析（我主要是指对字符串的处理问题）

...全文

185 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

hegang888888888 2007-03-21

打赏
举报

回复

不规则用xml

handa5201 2007-03-21

打赏
举报

回复

还是用XML
比较好，！

lizhizhe2000 2007-03-21

打赏
举报

回复

XML形式!

wireshark源码分析问题这几天在看wireshark（ethereal）源代码。看源代码的主要兴趣点是它的分析模块(dissect)。分析之后他的数据存在哪儿，怎么打印的（-V参数）。我想把分析后的数据，提取出来，存在自己定义的数据结构里面，或者按我自己的格式写入文本中。看了几天，对一些数据结构，似懂非懂，一些流程也是似懂非懂。可能由于经验不足的原因，搞来搞去就在几个函数，结构体里面打转。好几次以为找到切入点，发现又回来原来的起点。这两天看晕了。有点打击，水平太差劲了。。呵呵。先这边问问，看看有没有熟悉的朋友。指点一下。先谢谢了。这样问问题可能太细了。感觉也不大合适。 1. 我应该如何来看代码？如何找到突破点？ 2. 有wireshark有了解的朋友，说说你们关于源码剖析的体会。 3. 说什么都可以，朋友觉得对我有用，有启发就好。千万别 “我顶，UP啊”。呵呵:emn23:我觉得重要的是看 pcap库本帖最后由 peidright 于 2010-04-02 16:36 编辑楼上说得对！。看源代码之前，问下你自己，看代码的目的是什么？对于 wireshark 来说，你是想学他写界面？还是抓包？还是业务逻辑？界面的话，wireshark 还行抓包的话，应该看pcap库业务逻辑的话。不应该看wireshark,看tcpdump.看下啊，:em03:看看这个也许对你有帮助添加一个基础的RDP解析器下面我们将循序渐进地设计一个基础的RDP解析器。它依次包含如下构成要素：包类型字段（占用8比特位，可能的值为：1，初始；2，终结；3，数据）；标志集字段（占用8比特位：0x01，开始包；0x02，结束包；0x04先包）；序列号字段（占用16比特位）； 1. 创建解析器首先您需要选择解析器的类型：内置型（包含在主程序中）或插件型。插件是容易编写的，先做一个插件型解析器吧。例1. 解析器初始设定. #ifdef HAVE_CONFIG_H #include "config.h" #endif #include #include void proto_register_rdp(); void proto_reg_handoff_rdp(); static void dissect_rdp(tvbuff_t *tvb,packet_info *pinfo,proto_tree *tree); static int proto_rdp=-1; static dissector_handle_t rdp_handle; static gint ett_rdp = -1; define TCP_PORT_RDP 3389 void proto_register_rdp(void) { proto_rdp=proto_register_protocol( "RDP Protocol", "RDP", "rdp"); } 现在来逐一分析这段代码。首先我们有一些常规的包含文件，最好依惯例在文件开始包含进来。随后是一些函数的前置声明，我们稍后定义它们。接下来我们定义了一个整型变量"proto_rdp"用于记录我们的协议注册信息。它被初始化为"-1"，当解析器注册到主程序中后，其值便会得到更新。这样做可保证我们方便地判断是否已经做了初始工作。将所有不打算对外输出的全局变量和函数声明为"static"是一个良好的习惯，因为这可以保证命名空间不被污染。通常这是容易做到的，除非您的解析器非常庞大以致跨越多个文件。之后的模块变量"TCP_PORT_RDP"则包含了协议使用的TCP端口号，我们会对通过该端口的数据流进行解析。 solaris10下proc编译问题 >紧随其后的是解析器句柄"rdp_handle"，我们稍后对它进行初始化。至此我们已经拥有了和主程序交互的基本元素，接下来最好再把那些预声明的函数定义一下，就从注册函数"proto_register_rdp"开始吧。首先调用函数"proto_register_protocol"注册协议。我们能够给协议起3个名字以适用不同的地方。全名和短名用在诸如"首选项（Preferences）"和"已激活协议（Enabled protocols）"对话框以及记录中已生成的域名列表内。缩略名则用于过滤器。下面我们需要一个切换函数。例2. 解析器切换. void proto_reg_handoff_rdp(void) { static gboolean initialized=FALSE; if(!initialized) { rdp_handle = create_dissector_handle(dissect_rdp, proto_rdp); dissector_add("tcp.port", TCP_PORT_RDP, rdp_handle); initialized=TRUE; } } 这段代码做了什么呢？如果解析器尚未初始化，则对它进行初始化。首先创建解析器。这时注册了了函数"dissect_rdp"用于完成实际的解析工作。之后将该解析器与TCP端口号相关联，以使主程序收到该端口的UDP数据流时通知该解析器。至此我们终于可以写一些解析代码了。不过目前我们仅写点儿基本功能占个位置。例3.解析 static void dissect_rdp(tvbuff_t *tvb,packet_info *pinfo,proto_tree *tree) { if(check_col(pinfo->cinfo, COL_PROTOCOL)) { col_set_str(pinfo->cinfo, COL_PROTOCOL, "RDP"); } if(check_col(pinfo->cinfo,COL_INFO)) { col_clear(pinfo->cinfo,COL_INFO); } } 该函数用于解析传递给它的数据包。包数据由"tvb"参数指向的特殊缓冲区保管。现在我们已深入到协议的细节，对它们您肯定是了若指掌。包信息结构参数"pinfo"包含了协议的基本数据，以供我们更新。参数"tree"则指明了详细解析发生的地方。这里我们仅做了保证通过的少量工作。前两行检查UI中"协议（Protocol）"列是否已显示。如果该列已存在，就在这儿显示我们的协议名称。这样人们就知道它被识别出来了。另外，如果"信息（INFO）"列已显示，我们就将它的内容清除。至此我们已经准备好一个可以编译和安装的基本解析器。不过它目前只能识别和标示协议。为了编译解析器并创建插件，还需要在解析器代码文件"packet-rdp.c"所在目录下创建一些提供支持的文件: - Makefile.am - UNIX/Linux的makefile模板 - Makefile.common - 包含了插件文件的名称 - Makefile.nmake - 包含了针对Windows平台的Wireshark插件makefile - moduleinfo.h - 包含了插件版本信息 - moduleinfo.nmake - 包含了针对Windows平台的DLL版本信息 - packet-rdp.c - 这是您的解析器原代码文件 - plugin.rc.in - 包含了针对Windows平台的DLL资源模板 "Makefile.common"和"Makefile.am"文件中涉及到相关文件和解析器名称的地方一定要修改正确。"moduldeinfo.h"和"moduleinfo.nmake"文件中的版本信息也需要正确填充。一切准备妥善后就可以将解析器编译为DLL或共享库文件了（使用nmake工具）。在wireshark文件夹下的"plugins"文件夹中，建立"rdp"文件夹。将修改过的Makefile.common，Makefile.am，moduleinfo.nmake，moduldeinfo.h，Makefile.nmake及packet-rdp.c文件考到"rdp"文件夹下，然后进行编译，rdp插件自动生成完整，就可以正常工作了。 1. 解析协议细节现在我们已经有了一个可以运用的简单解析器，让我们再为它添点儿什么吧。首先想到的应该就是标示数据包的有效信息了。解析器在这方面给我们提供了支持。首先要做的事情是创建一个子树以容纳我们的解析结果。这会使协议的细节显示得井井有条。现在解析器在两种情况下被调用http://www.boomss.com：其一，用于获得数据包的概要信息；其二，用于获得数据包的详细信息。这两种情况可以通过树指针参数"tree"来进行区分。如果树指针为NULL，我们只需要提供概要信息；反之，我们就需要拆解协议完成细节的显示了。基于此，让我们来增强这个解析器吧。例4 static void dissect_rdp(tvbuff_t *tvb,packet_info *pinfo,proto_tree *tree) { proto_item *ti=NULLV; if(check_col(pinfo->cinfo,COL_PROTOCOL)) { col_set_str(pinfo->cinfo,COL_PROTOCOL,"RDP"); } if(check_col(pinfo->cinfo,COL_INFO)) { col_clear(pinfo->cinfo,COL_INFO); } if(tree) { ti = proto_tree_add_item(tree, proto_rdp, tvb, offset, -1, FALSE);} } 这里我们为解析添加一个子树。它将用于保管协议的细节，仅在必要时显示这些内容。我们还要标识被协议占据的数据区域。在我们的这种情况下，协议占据了传入数据的全部，因为我们假设协议没有封装其它内容。因此，我们用"proto_tree_add_item"函数添加新的树结点，将它添加到传入的协议树"tree"中，用协议句柄"proto_rdp"标识它，用传入的缓冲区"tvb"作为数据，并将有效数据范围的起点设为"0"，长度设为"-1"（表示缓冲区内的全部数据）。至于最后的参数"FALSE"，我们暂且忽略。做了这个更改之后，在包明细面板区中应该会出现一个针对该协议的标签；选择该标签后，在包字节面板区中包的剩余内容就会高亮显示。现在进入下一步，添加一些协议解析功能。在这一步我们需要构建一组帮助解析的表结构。这需要对"proto_register_rdp"函数做些修改。首先定义一组静态数组。例5 定义数据结构 static hf_register_info hf[]= { { &hf;_rdp_version, { "TPKT Header:Version", "rdp.version",

帮助用户快速使用flvcd.com网站来解析下载视频用户使用该扩展，可以在视频播放页面上点右键来快速跳转到flvcd.com网站解析下载视频。启动解析的另外三种方式： 1、点击工具栏上的扩展图标解析 2、在网页中的链接上点右键解析 3、在网页中选中一个网址文本后点右键解析备注：扩展选项界面可以设置在当前标签还是新标签中解析下载。祝使用愉快！谢谢支持！支持语言:中文 (简体)

谢谢介绍 phplrt是用于编程语言识别的一组工具。该库提供了词法分析器，解析器，语法编译器，用于处理错误的库，文本分析等。安装 Phplrt可用作作曲者存储库，可以使用以下命令在项目的根目录中安装： $ composer require phplrt/phplrt 更详细的安装说明。快速开始 <?php use Phplrt \ Compiler \ Compiler ; $ compiler = new Compiler (); $ compiler -> load (<<< EBNF> ( Operator () <

一.IIS6.0 目录解析：/xx.asp/xx.jpg xx.jpg 可替换为任意文本文件(e.g. xx.txt)，文本内容为后门代码 IIS6.0 会将 xx.jpg 解析为 asp 文件。后缀解析：/xx.asp;.jpg IIS6.0 都会把此类后缀文件成功解析为 asp 文件。默认解析：/xx.asa /xx.cer /xx.c...

前言 python爬虫系列文章的第3篇介绍了网络请求库神器 Requests ，请求把数据返回来之后就要提取目标数据，不同的网站返回的内容通常有多种不同的格式，一种是 json 格式，这类数据对开发者来说最友好。另一种 XML 格式的，还有一种最常见格式的是 HTML 文档，今天就来讲讲如何从 HTML 中提取出感兴趣的数据自己写个 HTML 解析器来解析吗？还是用正则表达式？这

62,047

社区成员

669,049

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章