请问个html格式的问题。望大侠解答!!

littlebao 2007-01-22 04:32:22
在论坛的html源码里,那些作者,时间,发文内容,是怎么样标识的?也就是说我读去html源码分析时怎么知道他是作者名?
thx!!!
...全文
314 15 打赏 收藏 转发到动态 举报
写回复
用AI写文章
15 条回复
切换为时间正序
请发表友善的回复…
发表回复
littlebao 2007-01-26
  • 打赏
  • 举报
回复
我觉得还是可以做的。当然准确率可能不是100。
虽然每个论坛的格式不一样,但是每个论坛的针对每个作者的区域(也就是作者名称,级别,发表内容等等所在表格)格式是一样的。利用时间区分出每个作者的区域后,可以利用前后区域做比较区分,当然,这里要求起码有两个的回复才可以做,不然就没法比较了。这个办法比较土,不过我想还是可以提取出大部分的论坛信息的。
cuigod 2007-01-26
  • 打赏
  • 举报
回复
楼主可以等大家都把论坛按照标准重构后再写这个程序。
<tr>
<td>张三</td>
<td>2007-01-10 00:00:00</td>
</tr>
<tr colspan=2>内容</td>

换句话说,就是所有人都不会写出这样的东西之后。
littlebao 2007-01-26
  • 打赏
  • 举报
回复
时间还是可以的。就算内容里有时间还是有办法可以区分的。就是内容和作者比较难搞。
现在我是准备通过时间把论坛的大概轮廓得到然后再想办法用些算法试探。
Hozaka 2007-01-25
  • 打赏
  • 举报
回复
通用的是不可能的。对于 table 布局的页面,不能通过标签的语义来得到任何与内容相关的信息。就算时间也不行,比如用户在正文内容中包含了一个时间
littlebao 2007-01-24
  • 打赏
  • 举报
回复
没有人帮帮忙吗?
littlebao 2007-01-23
  • 打赏
  • 举报
回复
什么meta属性?不是很明白哦。我对html不熟悉。只是想根据某个论坛的html源码分析出里面的发文作者,时间和内容。
dgsd33 2007-01-23
  • 打赏
  • 举报
回复
楼主说的是meta属性?
littlebao 2007-01-22
  • 打赏
  • 举报
回复
wuxinlangman(无心之尘 上来看看)那里有这方面的源码啊?我是用c写的。

myvicy(我来也!),我是想做一个对不同论坛都能识别的通用程序了。而不是对不同的论坛采用不同的模板。
时间我想应该可以提取出可用内容后根据时间的格式分析得到。但是作者和发表的内容就不知道怎么做了。
myvicy 2007-01-22
  • 打赏
  • 举报
回复
如果是table布局针对不同的页面做不同的识别摸板。
wuxinlangman 2007-01-22
  • 打赏
  • 举报
回复
兄弟你应该先去找个有源码得去看看网上很多这样的源码
littlebao 2007-01-22
  • 打赏
  • 举报
回复
up
littlebao 2007-01-22
  • 打赏
  • 举报
回复
<tr>
<td>张三</td>
<td>2007-01-10 00:00:00</td>
</tr>
<tr colspan=2>内容</td>
我是想得到下面内容:2007-01-10 00:00:00 ,张三, 内容

但是很多源码都不是这样写的啊?有没有什么办法做个通用的判别方法?
littlebao 2007-01-22
  • 打赏
  • 举报
回复
是查找这几个关键字?然后后面就是要找的内容?不是吧?怎么我看了几个源码都不是这样的?
fusoft 2007-01-22
  • 打赏
  • 举报
回复
我通常是这样

<tr>
<td>张三</td>
<td>2007-01-10 00:00:00</td>
</tr>
<tr colspan=2>内容</td>

你打算怎么分析
wuxinlangman 2007-01-22
  • 打赏
  • 举报
回复
一般来说author作者
time 时间
content内容
这些是根据做论坛人的爱好和习惯

61,112

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧