关于UTF-8B编码请问高手

yangxuelong 2005-02-10 11:52:24

我把delphi7编写的一些程序移植到CB5是碰到一个这样的问题
在DELPHI7的的函数 Utf8encode，就是把一个 WideString 变成UTF-8字符串。
但在CB5中没有这样的函数！不知道怎么办，请问高手。

...全文

138 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

samchoy 2005-02-11

打赏
举报

回复

UTF8String type
-----------------------------------------------------------------------
UTF8String represents a string in the UTF-8 character set.

Unit

System

typedef AnsiString UTF8String;

Description

UTF8String is the type for strings encoded using UTF-8. UTF-8 is an efficient encoding of Unicode character-strings that recognizes the fact that the majority of text-based communications are in ASCII, and optimizes the encoding of these characters.

samchoy 2005-02-11

打赏
举报

回复

Converts a WideString value to a UTF8 string.

Unit

System

Category

character set conversions

extern PACKAGE UTF8String __fastcall UTF8Encode(const WideString WS);

Description

Call Utf8Encode to convert a Unicode string to UTF-8. WS is the Unicode string to convert. Utf8Encode returns the corresponding UTF-8 string.

yangxuelong 2005-02-11

打赏
举报

回复

谢谢提醒，但我在CB5中找不到UTF8Encode这个函数。编译联接时找不到这个函数，头文件里包含了
#include <System.hpp>，
所以还得请进一步明示！

我来看看CB 2005-02-11

打赏
举报

回复

这是BCB6中的帮助文件！
BCB5也应该有吧，实在没有，你就用BCB6

Converts a WideString value to a UTF8 string.

Unit

System

Category

character set conversions

extern PACKAGE UTF8String __fastcall UTF8Encode(const WideString WS);

Description

Call Utf8Encode to convert a Unicode string to UTF-8. WS is the Unicode string to convert. Utf8Encode returns the corresponding UTF-8 string.

yangxuelong 2005-02-11

打赏
举报

回复

那怎么办？

samchoy 2005-02-11

打赏
举报

回复

可能是BCB6才有这个函数吧

yangxuelong 2005-02-10

打赏
举报

回复

原来代码是这样：
function TPduPush.StrToUTF8(str: WideString): string;
var
s: pchar;
i: integer;
tmp: string;
begin
tmp := '';
result := '';
s := pchar(Utf8encode(str));
for i := 0 to length(s) - 1 do begin
tmp := tmp + format('%2.2x', [ord(s[i])]);
end;
result := tmp;
end;

Java中文问题详解(高手必读）Java中文问题详解(高手必读）Java中文问题详解(高手必读）Java中文问题详解(高手必读）

本文档介绍Sphinx4在Windows下的中文训练过程及注意事项，与本文档配套的是我自己的训练实例bergtrain和用到的软件。本文档编写日期 2013-04-23 1、为什么要训练？ sphinx4目前的版本中仅提供了英文等语音识别库。中文的库是PTM或semi类型的，在java版sphinx中无法使用。 2、Sphinx的训练指哪些内容？在Sphinx中有语言模型、声学模型等概念，如果你不想了解这些，请参考以下内容： a1、中文每个字的标准发音已经有一个较为全面的文件进行了标注这个文件就是zh_broadcastnews_utf8.dic（下称这类文件为发音字典），在sphinx网站上可以下载，我们也包含了它。下面是该文件的片断，它用类似拼音的方式标注了每个字或词的发音。昌 ch ang 昌北 ch ang b ei 昌必 ch ang b i 昌都 ch ang d u 昌赫 ch ang h e a2、需要告诉sphinx我们经常使用的字、词是哪些，它们出现的频率如何由于开放式语音识别尚难实现，所以sphinx实际上只能较好的处理相对小的语言集合。因此，针对特定的领域，告诉sphinx该领域的词汇和各词出现的频率将极大提高识别率。 a3、需要告诉sphinx每个字、词的真正读音发音字典告诉sphinx每个字的标准读音，但面对的说话人往往不会以标准读音来朗读。因此sphinx需要学习说话人的“口音”。如果训练时的读者发音比较标准，则sphinx能“举一反三”，识别其他不那么标准的读者的语音。推荐的做法是训练一些典型的口音：标准男、女声，童音，最后再考虑特定用户的口音。 3、如何准备训练内容所需的原料？需要准备两大内容：1)文本语料文件，2)语料录音文件。文本语料文件给出2.a2中需要的内容，在bergtrain的etc文件下的berginput.txt文件就是一个预料文件。它以行为单位，给出了150个中文句子。语料录音文件是根据文本语料文件，朗读它的每行/句话，保存到每一个语音文件即可。语料文件中的语句应该尽量选择领域相关的，在覆盖领域内名词的前提下，覆盖尽可能多的通用词汇。 4、训练环境及注意事项本文的训练软硬件如下：硬件：T60P笔记本，机器自带录音设备；操作系统为Win7 32位。软件：Sphinx cmuclmtk-0.7-win32.zip pocketsphinx-0.8-win32.zip sphinxbase-0.8-win32.zip sphinxtrain-1.0.8-win32.zip sphinx4-1.0beta6-bin.zip，用于编写java版的识别软件所需的库脚本执行软件 ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi ActivePython-2.7.2.5-win32-x86.msi 录音和处理软件 audacity-win-2.0.3rc1.zip，可进行录音和声音文件处理（如降噪），免费软件 FairStars.zip，可进行批量录音（V3.5绿色版）文本编辑软件UltraEdit，UltraEdit-32.rar绿色版注意：文件格式语料文件必须使用UltraEdit进行编辑，在编辑后，使用文件-转换-ASCII转UTF-8(UNICODE编辑)，指定文件中的中文使用utf8编码。在保存前，设置格式如下：换行符：UNIX终束符 - LF 指定文件中的回车/换行符为编码0A的换行符格式：UTF-8 - 无BOM 每个文件的末尾必须有一个回车！这个回车将在保存时被替换为编码0A的换行符，训练脚本需要这个符号来确认文件的结束。录音文件如果你不希望去编辑训练中的配置文件，则在使用FairStars录音时作如下设定：进入菜单和对话框选项-显示录音选项-编码-WMA，设定：采样率（16000Hz）、通道（单声道）、比特率（16Kbps） 5、训练步骤下面逐步从零开始进行训练 5.1 软件环境的安装将本文档所在的文件夹解压或拷贝到d:\，即本文档路径是d:\sphinxtrain\Sphinx中文训练教程.txt 1)点击安装ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi和ActivePython-2.7.2.5-win32-x86.msi； 2)解压Sphinx中除sphinx4-1.0beta6-bin.zip外的压缩文件到d:\sphinxtrain下

我学习网页编程多年的收集汇总，今天拿出来分享，是因为分数不够，确实是精华。

然而，当文件不是以UTF-8编码保存时，Python解释器在读取文件时可能会遇到SyntaxError错误，提示类似“Non-UTF-8 code starting with ‘æ‘ in file …为了解决这个问题，我们需要在打开文件时明确指定文件的编码方式。对于Python脚本文件本身，如果包含非UTF-8字符，通常需要在文件开头添加特殊的注释来指定编码方式。但是，请注意，对于Python源文件，我们通常建议使用UTF-8编码，因为Python 3默认使用UTF-8。

🔥关注墨瑾轩，带你探索Java的奥秘🚀🔥超萌技术攻略，轻松晋级编程高手🚀🔥技术宝库已备好，就等你来挖掘🚀🔥订阅墨瑾轩，智趣学习不孤单🚀🔥即刻启航，编程之旅更有趣🚀在字符编码的奇幻世界里，UTF-8和UTF-8MB4这对看似相似却又不同的“双胞胎”，常常让人傻傻分不清。别怕，今天我们就来一场说走就走的解谜之旅，深入字节森林，揭开它们的神秘面纱。带上你的探险帽，咱们出发！

网络及通讯开发

1,317

社区成员

8,874

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章