请问各位大大,使用io读取文件,如何识别文件的编码,以及统计中文字数

Uco__ 2014-12-23 04:58:24
请问各位大大,使用io读取文件,如何识别文件的编码,以及统计中文字数。当文件中含有中文符号,特殊符号时,应该怎么忽略它们不计。
...全文
218 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
little-finger 2014-12-24
  • 打赏
  • 举报
回复
之前好像是用过,使用需要用到三个第三方JAR包:antlr.jar、chardet.jar和cpdetector.jar cpDetector是基于统计学原理的,不保证完全正确。
Inhibitory 2014-12-24
  • 打赏
  • 举报
回复
通常没法从文件的内容识别出文件的编码。 偶尔有些文件会把文件的编码放到文件的前几个字节里,如UTF-16,Windows下带BOM的UTF-8等。
wyc_ 2014-12-24
  • 打赏
  • 举报
回复
如果可以的话,乱码问题就能解决一半了,没有查到这样的函数。 统计中文用正则表达式,还得注意文件编码。
wula0010 2014-12-24
  • 打赏
  • 举报
回复
cpdetector.jar可以用来判断文件编码,但是不准确,后来我想,用excel打开txt文件的时候,或者打开word文档,都有编码不正确的,有时需要手动选择编码,那么微软都没解决的问题,我们怎么能解决呢?目前的判断编码,其实都是根据文件开头的几个字节,实际上是很多文件的格式都不规范。
whos2002110 2014-12-24
  • 打赏
  • 举报
回复
火狐有工具包, 可以通过 byte[] 猜测数据编码格式. juniversalchardet.jar 根据数据格式转出String统计个数, 特殊符号这些用第三方的分词工具过滤下

50,528

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧