求一个100个汉字字符串的压缩算法？

今何在_天 2009-12-24 10:37:31

由于工作需要，需要把输入的100个汉字字符串压缩成十六进制的字符串，通过串口发送给外围设备。上网找了ZLib的压缩算法。可是它压缩长度较短的汉字字符串的效果不是非常好，基本没怎么压缩，无法预先设想的功能。希望，各位大虾有过这样的经验，提供给小弟一点想法和思路，谢谢？

...全文

553 10 打赏收藏转发到动态举报

写回复

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

wxsan 2009-12-25

打赏
举报

回复

[Quote=引用 9 楼 sparklerl 的回复:]
我感觉楼主任务上不需要压缩吧

应该就是要把输入的100个汉字字符串转换成十六进制的字符串,然后发送就可以了吧
[/Quote]

我也同意楼上的说法！

haitao 2009-12-24

打赏
举报

回复

正常（非随机、也非稀疏）的200字节的内容，很难压缩的——一般压缩都是对几K以上的内容才会达到平均的压缩效果

无条件为你 2009-12-24

打赏
举报

回复

你的这个问题我以前做过。
你这点分我只能给你一个思路，不负责写代码。

先将汉字存成txt文件，然后对txt压缩，txt的压缩比例非常可观。可以压得更小，然后把压缩后的文件保存到一个byte数组里面，然后用串口控件发送这个数组给对方机器。

lhy 2009-12-24

打赏
举报

回复

[Quote=引用楼主 cyg8400 的回复:]
由于工作需要，需要把输入的100个汉字字符串压缩成十六进制的字符串，通过串口发送给外围设备。上网找了ZLib的压缩算法。可是它压缩长度较短的汉字字符串的效果不是非常好，基本没怎么压缩，无法预先设想的功能。希望，各位大虾有过这样的经验，提供给小弟一点想法和思路，谢谢？
[/Quote]
变成十六进制不是压缩，是变长。
100个汉字的重复的很小，针对的压缩可能较差。
取得多次通讯（比如100次）的字符串，对其进行算数压缩，以后就用这种编码形式。

jadeluo 2009-12-24

打赏
举报

回复

前提是你得确定这个字符串里只出现双字节汉字。

jadeluo 2009-12-24

打赏
举报

回复

双字节汉字编码的最高位都是1, 这个位可以压缩掉, 这样一个双字节汉字就可以压缩掉2个位, 100个汉字可以压缩掉200个位, 即25个字节。

sparklerl 2009-12-24

打赏
举报

回复

我感觉楼主任务上不需要压缩吧

应该就是要把输入的100个汉字字符串转换成十六进制的字符串,然后发送就可以了吧

dd_zhouqian 2009-12-24

打赏
举报

回复

delphi好像有压缩函数吧，对某个流或者文件压缩，解压

lhy 2009-12-24

打赏
举报

回复

[Quote=引用 6 楼 gyk120 的回复:]
unicode直接压缩的压缩比很小，基本上可以忽略不计，更何况你的文件本来就小，压缩的效果很难体现
[/Quote]
lz应该是说GB码吧，不是unicode

gyk120 2009-12-24

打赏
举报

回复

unicode直接压缩的压缩比很小，基本上可以忽略不计，更何况你的文件本来就小，压缩的效果很难体现

LZ-UTF8 LZ-UTF8是字符串压缩库和格式。是对字符编码的扩展，使用基于算法的可选压缩来扩展UTF-8字节流。它的一些特性：仅压缩字符串。不支持任意字节序列。在选择算法及其实现方面均对速度进行了强烈优化。使用低端台式机和1MB字符串进行的近似测量：3-14MB / s压缩，20-120MB / s解压缩（详细基准以及与其他Javascript库的比较可以在找到）。由于专注于时间效率，因此与LZW +熵编码等尺寸更高效的算法相比，压缩率会大大降低。 UTF-8的字节级超集。任何有效的UTF-8字节流也是有效的LZ-UTF8流（但反之亦然）。这个特殊的属性允许压缩的UTF-8流和普通的UTF-8流可以自由连接和解压缩为单个单元（或使用任意分区）。一些可能的应用程序：发送静态的预压缩数据，然后发送来自服务器的动态生成的未压缩数据（并可能附加了压缩的静态“页

Delphi字符串中汉字字母数字分类完美实现源码，比如：我们4都是123ddd中国人abcdefghdd444ij123456 会自动识别为：汉字:（我们都是中国人）数字:（4123444123456）字母:（dddabcdefghddij）主要提供的是这个算法。算法有价值

# Python 47个字符串方法## 课程介绍同学们是否总是要搜资料、查官网后，才知道怎么操作字符串？如果是，来学学本课程吧，本课程以讲解官网文档的方式，讲解 Python 47个字符串方法，涉及替换、删除、连接、查找、...

编辑推荐　Sedgewick之巨著，与高德纳TAOCP一脉相承　几十年多次修订，经久不衰的畅销书　涵盖所有程序员必须掌握的50种算法内容简介　　《算法（第4版）》全面讲述算法和数据结构的必备知识，具有以下几大特色。　　 1、算法领域的经典参考书：Sedgewick畅销著作的*版，反映了经过几十年演化而成的算法核心知识体系　　 2、内容全面：全面论述排序、搜索、图处理和字符串处理的算法和数据结构，涵盖每位程序员应知应会的50种算法　　 3、全新修订的代码：全新的Java实现代码，采用模块化的编程风格，所有代码均可供读者使用　　 4、与实际应用相结合：在重要的科学、工程和商业应用环境下探讨算法，给出了算法的实际代码，而非同类著作常用的伪代码　　5、富于智力趣味性：简明扼要的内容，用丰富的视觉元素展示的示例，精心设计的代码，详尽的历史和科学背景知识，各种难度的练习，这一切都将使读者手不释卷　　 6、科学的方法：用合适的数学模型精确地讨论算法性能，这些模型是在真实环境中得到验证的　　7、与网络相结合：配套网站algs4.cs.princeton.edu提供了本书内容的摘要及相关的代码、测试数据、编程练习、教学课件等资源作者简介　　 Robert Sedgewick，斯坦福大学博士，导师为Donald E.Knuth，从1985年开始一直担任普林斯顿大学计算机科学系教授，曾任该系主任，也是AdobeSystems公司董事会成员，曾在Xerox PARC、国防分析研究所（Institute for DefenseAnalyses）和法国国家信息与自动化研究所（INRIA）从事研究工作。他的研究方向包括解析组合学、数据结构和算法的分析与设计、程序可视化等。　　 KevinWayne，康奈尔大学博士，普林斯顿大学计算机科学系高级讲师，研究方向包括算法的设计、分析和实现，特别是图和离散优化。目　　录第1章　基础 1.1　基础编程模型 1.1.1　Java程序的基本结构 1.1.2　原始数据类型与表达式 1.1.3　语句 1.1.4　简便记法 1.1.5　数组 1.1.6　静态方法 1.1.7　 API 1.1.8　 字符串 1.1.9　输入输出 1.1.10　二分查找 1.1.11　展望 1.2　数据抽象 1.2.1　使用抽象数据类型 1.2.2　抽象数据类型举例 1.2.3　抽象数据类型的实现 1.2.4　更多抽象数据类型的实现 1.2.5　数据类型的设计 1.3　背包、队列和栈 1.3.1　 API 1.3.2　集合类数据类型的实现 1.3.3　链表 1.3.4　综述 1.4　算法分析 1.4.1　科学方法 1.4.2　观察 1.4.3　数学模型 1.4.4　增长数量级的分类 1.4.5　设计更快的算法 1.4.6　倍率实验 1.4.7　注意事项 1.4.8　处理对于输入的依赖 1.4.9　内存 1.4.10　展望 1.5　案例研究：union-find算法 1.5.1　动态连通性 1.5.2　实现 1.5.3　展望第2章　排序 2.1　初级排序算法 2.1.1　游戏规则 2.1.2　选择排序 2.1.3　插入排序 2.1.4　排序算法的可视化 2.1.5　比较两种排序算法 2.1.6　希尔排序 2.2　归并排序 2.2.1　原地归并的抽象方法 2.2.2　自顶向下的归并排序 2.2.3　自底向上的归并排序 2.2.4　排序算法的复杂度 2.3　快速排序 2.3.1　基本算法 2.3.2　性能特点 2.3.3　算法改进 2.4　优先队列 2.4.1　 API 2.4.2　初级实现 2.4.3　堆的定义 2.4.4　堆的算法 2.4.5　堆排序 2.5　应用 2.5.1　将各种数据排序 2.5.2　我应该使用哪种排序算法 2.5.3　问题的归约 2.5.4　排序应用一览第3章　查找 3.1　符号表 3.1.1　API 3.1.2　有序符号表 3.1.3　用例举例 3.1.4　无序链表中的顺序查找 3.1.5　有序数组中的二分查找 3.1.6　对二分查找的分析 3.1.7　预览 3.2　二叉查找树 3.2.1　基本实现 3.2.2　分析 3.2.3　有序性相关的方法与删除操作 3.3　平衡查找树 3.3.1　2-3查找树 3.3.2　红黑二叉查找树 3.3.3　实现 3.3.4　删除操作 3.3.5　红黑树的性质 3.4　散列表 3.4.1　散列函数 3.4.2　基于拉链法的散列表 3.4.3　基于线性探测法的散列表 3.4.4　调整数组大小 3.4.5　内存使用 3.5　应用 3.5.1　我应该使用符号表的哪种实现 3.5.2　集合的API 3.5.3　字典类用例 3.5.4　索引类用例 3.5.5　稀疏向量第4章　图 4.1　无向图 4.1.1　术语表 4.1.2　表示无向图的数据类型 4.1.3　深度优先搜索 4.1.4　寻找路径 4.1.5　广度优先搜索 4.1.6　连通分量 4.1.7　符号图 4.1.8　总结 4.2　有向图 4.2.1　术语 4.2.2　有向图的数据类型 4.2.3　有向图中的可达性 4.2.4　环和有向无环图 4.2.5　有向图中的强连通性 4.2.6　总结 4.3　最小生成树 4.3.1　原理 4.3.2　加权无向图的数据类型 4.3.3　最小生成树的API和测试用例 4.3.4　 Prim算法 4.3.5　 Prim算法的即时实现 4.3.6　 Kruskal算法 4.3.7　展望 4.4　最短路径 4.4.1　最短路径的性质 4.4.2　加权有向图的数据结构 4.4.3　最短路径算法的理论基础 4.4.4　 Dijkstra算法 4.4.5　无环加权有向图中的最短路径算法 4.4.6　一般加权有向图中的最短路径问题 4.4.7　展望第5章　 字符串 5.1　 字符串排序 5.1.1　键索引计数法 5.1.2　低位优先的字符串排序 5.1.3　高位优先的字符串排序 5.1.4　三向字符串快速排序 5.1.5　 字符串排序算法的选择 5.2　单词查找树 5.2.1　单词查找树 5.2.2　单词查找树的性质 5.2.3　三向单词查找树 5.2.4　三向单词查找树的性质 5.2.5　应该使用字符串符号表的哪种实现 5.3　子字符串查找 5.3.1　历史简介 5.3.2　暴力子字符串查找算法 5.3.3　 Knuth-Morris-Pratt子字符串查找算法 5.3.4　 Boyer-Moore字符串查找算法 5.3.5　 Rabin-Karp指纹字符串查找算法 5.3.6　总结 5.4　正则表达式 5.4.1　使用正则表达式描述模式 5.4.2　缩略写法 5.4.3　正则表达式的实际应用 5.4.4　非确定有限状态自动机 5.4.5　模拟NFA的运行 5.4.6　构造与正则表达式对应的 5.5　数据压缩 5.5.1　游戏规则 5.5.2　读写二进制数据 5.5.3　局限 5.5.4　热身运动：基因组 5.5.5　游程编码 5.5.6　霍夫曼压缩第6章　背景索引

算法(第4版)》是Sedgewick之巨著，与高德纳TAOCP一脉相承，是算法领域经典的参考书，涵盖所有程序员必须掌握的50种算法，全面介绍了关于算法和数据结构的必备知识，并特别针对排序、搜索、图处理和字符串处理进行了论述。第4版具体给出了每位程序员应知应会的50个算法，提供了实际代码，而且这些Java代码实现采用了模块化的编程风格，读者可以方便地加以改造。配套网站提供了《算法(第4版)》内容的摘要及更多的代码实现、测试数据、练习、教学课件等资源。《算法(第4版)》适合用做大学教材或从业者的参考书。目录第1章基础 1 1.1 基础编程模型 4 1.1.1 Java程序的基本结构 4 1.1.2 原始数据类型与表达式 6 1.1.3 语句 8 1.1.4 简便记法 9 1.1.5 数组 10 1.1.6 静态方法 12 1.1.7 API 16 1.1.8 字符串 20 1.1.9 输入输出 21 1.1.10 二分查找 28 1.1.11 展望 30 1.2 数据抽象 38 1.2.1 使用抽象数据类型 38 1.2.2 抽象数据类型举例 45 1.2.3 抽象数据类型的实现 52 1.2.4 更多抽象数据类型的实现 55 1.2.5 数据类型的设计 60 1.3 背包、队列和栈 74 1.3.1 API 74 1.3.2 集合类数据类型的实现 81 1.3.3 链表 89 1.3.4 综述 98 1.4 算法分析 108 1.4.1 科学方法 108 1.4.2 观察 108 1.4.3 数学模型 112 1.4.4 增长数量级的分类 117 1.4.5 设计更快的算法 118 1.4.6 倍率实验 121 1.4.7 注意事项 123 1.4.8 处理对于输入的依赖 124 1.4.9 内存 126 1.4.10 展望 129 1.5 案例研究:union-find算法 136 1.5.1 动态连通性 136 1.5.2 实现 140 1.5.3 展望 148 第2章排序 152 2.1 初级排序算法 153 2.1.1 游戏规则 153 2.1.2 选择排序 155 2.1.3 插入排序 157 2.1.4 排序算法的可视化 159 2.1.5 比较两种排序算法 159 2.1.6 希尔排序 162 2.2 归并排序 170 2.2.1 原地归并的抽象方法 170 2.2.2 自顶向下的归并排序 171 2.2.3 自底向上的归并排序 175 2.2.4 排序算法的复杂度 177 2.3 快速排序 182 2.3.1 基本算法 182 2.3.2 性能特点 185 2.3.3 算法改进 187 2.4 优先队列 195 2.4.1 API 195 2.4.2 初级实现 197 2.4.3 堆的定义 198 2.4.4 堆的算法 199 2.4.5 堆排序 205 2.5 应用 214 2.5.1 将各种数据排序 214 2.5.2 我应该使用哪种排序算法 218 2.5.3 问题的归约 219 2.5.4 排序应用一览 221 第3章查找 227 3.1 符号表 228 3.1.1 API 228 3.1.2 有序符号表 230 3.1.3 用例举例 233 3.1.4 无序链表中的顺序查找 235 3.1.5 有序数组中的二分查找 238 3.1.6 对二分查找的分析 242 3.1.7 预览 244 3.2 二叉查找树 250 3.2.1 基本实现 250 3.2.2 分析 255 3.2.3 有序性相关的方法与删除操作 257 3.3 平衡查找树 269 3.3.1 2-3查找树 269 3.3.2 红黑二叉查找树 275 3.3.3 实现 280 3.3.4 删除操作 282 3.3.5 红黑树的性质 284 3.4 散列表 293 3.4.1 散列函数 293 3.4.2 基于拉链法的散列表 297 3.4.3 基于线性探测法的散列表 300 3.4.4 调整数组大小 304 3.4.5 内存使用 306 3.5 应用 312 3.5.1 我应该使用符号表的哪种实现 312 3.5.2 集合的API 313 3.5.3 字典类用例 315 3.5.4 索引类用例 318 3.5.5 稀疏向量 322 第4章图 329 4.1 无向图 331 4.1.1 术语表 331 4.1.2 表示无向图的数据类型 333 4.1.3 深度优先搜索 338 4.1.4 寻找路径 342 4.1.5 广度优先搜索 344 4.1.6 连通分量 349 4.1.7 符号图 352 4.1.8 总结 358 4.2 有向图 364 4.2.1 术语 364 4.2.2 有向图的数据类型 365 4.2.3 有向图中的可达性 367 4.2.4 环和有向无环图 369 4.2.5 有向图中的强连通性 378 4.2.6 总结 385 4.3 最小生成树 390 4.3.1 原理 391 4.3.2 加权无向图的数据类型 393 4.3.3 最小生成树的API和测试用例 396 4.3.4 Prim算法 398 4.3.5 Prim算法的即时实现 401 4.3.6 Kruskal算法 404 4.3.7 展望 407 4.4 最短路径 412 4.4.1 最短路径的性质 413 4.4.2 加权有向图的数据结构 414 4.4.3 最短路径算法的理论基础 420 4.4.4 Dijkstra算法 421 4.4.5 无环加权有向图中的最短路径算法 425 4.4.6 一般加权有向图中的最短路径问题 433 4.4.7 展望 445 第5章 字符串 451 5.1 字符串排序 455 5.1.1 键索引计数法 455 5.1.2 低位优先的字符串排序 458 5.1.3 高位优先的字符串排序 461 5.1.4 三向字符串快速排序 467 5.1.5 字符串排序算法的选择 470 5.2 单词查找树 474 5.2.1 单词查找树 475 5.2.2 单词查找树的性质 483 5.2.3 三向单词查找树 485 5.2.4 三向单词查找树的性质 487 5.2.5 应该使用字符串符号表的哪种实现 489 5.3 子字符串查找 493 5.3.1 历史简介 493 5.3.2 暴力子字符串查找算法 494 5.3.3 Knuth-Morris-Pratt子字符串查找算法 496 5.3.4 Boyer-Moore字符串查找算法 502 5.3.5 Rabin-Karp指纹字符串查找算法 505 5.3.6 总结 509 5.4 正则表达式 514 5.4.1 使用正则表达式描述模式 514 5.4.2 缩略写法 516 5.4.3 正则表达式的实际应用 517 5.4.4 非确定有限状态自动机 518 5.4.5 模拟NFA的运行 520 5.4.6 构造与正则表达式对应的 5.5 数据压缩 529 5.5.1 游戏规则 529 5.5.2 读写二进制数据 530 5.5.3 局限 533 5.5.4 热身运动:基因组 534 5.5.5 游程编码 537 5.5.6 霍夫曼压缩 540 第6章背景 558 索引 611

5,388

社区成员

262,730

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章