pdfparser和tcptf获取pdf的内容的时候会出现乱码
我想问一下有什么办法可以获取到大部分语言的字数,中文是可以获取到的但是里面的换行和其他都会占一个字节,这个有没有办法去除。还有一点是获取韩文和其他语言的时候会出现u0000\u0001\u0000N\t\u0000O\t\u0000\n\u0000\u0001\u0000C\t\u0000\"\t\u0000\u0001\u0000P\t\u000类似这样的乱码。有没有办法可以设置获取亚洲通用语言或者是cjk语言也可以~在哪里可以设置读取的语言。