请问各位大大，使用io读取文件，如何识别文件的编码，以及统计中文字数

Uco__ 2014-12-23 04:58:24

请问各位大大，使用io读取文件，如何识别文件的编码，以及统计中文字数。当文件中含有中文符号，特殊符号时，应该怎么忽略它们不计。

...全文

218 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

little-finger 2014-12-24

打赏
举报

回复

之前好像是用过，使用需要用到三个第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar cpDetector是基于统计学原理的，不保证完全正确。

Inhibitory 2014-12-24

打赏
举报

回复

通常没法从文件的内容识别出文件的编码。偶尔有些文件会把文件的编码放到文件的前几个字节里，如UTF-16，Windows下带BOM的UTF-8等。

wyc_ 2014-12-24

打赏
举报

回复

如果可以的话，乱码问题就能解决一半了，没有查到这样的函数。统计中文用正则表达式，还得注意文件编码。

wula0010 2014-12-24

打赏
举报

回复

cpdetector.jar可以用来判断文件编码，但是不准确，后来我想，用excel打开txt文件的时候，或者打开word文档，都有编码不正确的，有时需要手动选择编码，那么微软都没解决的问题，我们怎么能解决呢？目前的判断编码，其实都是根据文件开头的几个字节，实际上是很多文件的格式都不规范。

whos2002110 2014-12-24

打赏
举报

回复

火狐有工具包, 可以通过 byte[] 猜测数据编码格式. juniversalchardet.jar 根据数据格式转出String统计个数, 特殊符号这些用第三方的分词工具过滤下

该 repo 包含自定义 I/O 格式、文件格式、日志处理、ipLookup、二级排序和自定义 patitioner 的集合。打包：从项目的根运行： mvn package 该软件包包含以下程序的列表： 1.平均字数程序使用map输出记录计数器来实现平均字数。MAP_OUTPUT_RECORDS给出从mapper发出的记录总数，reducer使用它来求平均值。 hadoop jar target/collections-1.0-SNAPSHOT-jar-with-dependencies.jar com.cloudwick.mapreduce.averageworcount.WordCountDriver input_path output_path **2. 自定义输入格式 ** 它以固定宽度格式读取文件。为简单起见，在驱动程序中对字段的宽度进行编码。类 RecordRe

我有一个程序来处理非常大的文件.现在我需要显示一个进度条来显示处理的进度.该程序在单词级别上工作,一次读取一行,将其拆分为单词并逐个处理单词.因此,当程序运行时,它知道处理的单词的数量.如果它以某种方式预先知道文件的字数,它可以很容易地计算进度.问题是,我正在处理的文件可能非常大,因此处理文件两次不是一个好主意,一次得到总字数,然后是运行实际处理代码.所以我试着编写一个代码,通过读取文件的一小部分...

一、前言本次学习应用于文本操作方面，前面我们说到实现文本的不同处理方式，本次目的是为了实现文件的各种操作。前面的博客中我们讲到了检测，新建，读取文件修改时间、大小和内容，并向指定文件写入指定内容。这里我们学习文本文件行读取输出，并显示每行的字节和字符数。二、任务学习任务要求：对文本文件按行进行读取，每读取一行后显示此行。统计此行有多少字节并显示统计结果。统计此行有多少字符并显示统...

Java HashSet对txt文本内容去重(统计小说用过的字或字数)基本思路：1、字节流读需要去重的txt文本。(展示demo为当前workspace下名为utf-8.txt的文本)2、对读取到的单个字节判断(1)如果为字母或特殊字符。操作(2)(2)添加到HashSet中，如果HashSet.add()返回true代表该字符添加到HashSet失败，即字符未出现过，故对其做写操作。(展示dem...

maven构建的项目-->pom.xml文件eclipse提供Dependencies直接添加依赖jar包的工具：直接搜索poi以及poi-ooxml即可,maven会自动依赖需要的jar包:poi提供microsoft office旧版本支持,eg .xls Excelpoi-ooxml提供microsoft office新版本支持,eg .xlsx Excel或者手动修改pom.xml,...

50,528

社区成员

85,607

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章