vc中如何输入/输出非汉字字符?

呆老呆 2011-01-19 02:04:45
读取的源文本文件中同时涉及俄语,德语,英语,汉语(简),汉语(繁),日语,法语,韩语。

我想读取到CStringArray中去,然后在新的文件中输出,可是经程序处理后,除简体中文和英语外,其它语种文字全部显示为乱码。请教达人如何解决??
...全文
103 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
xjtuzhl 2011-01-20
  • 打赏
  • 举报
回复
在unicode环境下显示。
如果你的文件是UTF8就用MultiByteToWideChar()转换下在显示。
Conry 2011-01-20
  • 打赏
  • 举报
回复
用UNICODE
许文君 2011-01-19
  • 打赏
  • 举报
回复
区域语言,最终考虑三字节
bacy001 2011-01-19
  • 打赏
  • 举报
回复
控制面板里面,区域与语音选项,语音选项卡里面,可以选择安装对应的语音!

安装完成后一般就能正确显示了!
fandh 2011-01-19
  • 打赏
  • 举报
回复
首先,你的其它语言包,装了么?
屏幕取词程序VC源码 nhw32.dll 主要引出两个函数: 1. DWORD WINAPI BL_SetFlag32(UINTnFlag, HWND hNotifyWnd, int MouseX, int MouseY) 功能: 启动或停止取词。 参数: nFlag [输入] 指定下列值之一: GETWORD_ENABLE: 开始取词。在重画被取单词区域前设置此标志。 nhw32.dll是通过 重画单词区域,截取TextOutA, TextOutW,ExtTextOutA, ExtTextOutW等Windows API函数的参数来取词的。 GETWORD_DISABLE: 停止取词。 hNotifyWnd [输入] 通知窗口句柄。当取到此时,向该通知窗口发送一登记消息: GWMSG_GETWORDOK。 MouseX [输入] 指定取词点的X坐标。 MouseY [输入] 指定取词点的Y坐标。 返回值: 可忽略。 2. DWORD WINAPI BL_GetText32(LPSTRlpszCurWord, int nBufferSize, LPRECT lpWordRect) 功能: 从内部缓冲区取出单词文本串。对英语文本,该函数最长取出一行内以 空格为界的三个英文单词串,遇空格,英文字母及除‘-’外的标点符 号,则终止取词。对汉字文本,该函数最长取出一行汉字串,遇英语字 母,标点符号等汉语字符,则终止取词。该函数不能同时取出英语和 汉语字符。 参数: lpszCurWord [输入] 目的缓冲区指针。 nBufferSize [输入] 目的缓冲区大小。 lpWordRect [输出] 指向 RECT 结构的指针。该结构定义了被取单词所在矩形区域。 返回值: 当前光标在全部词的位置。 此外,WinNT/2000版nhw32.dll 还引出另两个函数: 1. BOOL WINAPI SetNHW32() 功能: Win NT/2000 环境下的初始化函数。一般在程序开始时,调用一次。 参数: 无。 返回值: 如果成功 TRUE ,失败 FALSE 。 2. BOOL WINAPI ResetNHW32() 功能: Win NT/2000 环境下的去初始化函数。一般在程序结束时调用。 参数: 无。 返回值: 如果成功 TRUE ,失败 FALSE
适用于初学者 第一章: C语言概论 C语言的发展过程   C语言是在70年代初问世的。一九七八年由美国电话电报公司(AT&T)贝尔实验室正式发表了C语言。同时由B.W.Kernighan和D.M.Ritchit合著了著名的“THE C PROGRAMMING LANGUAGE”一书。通常简称为《K&R》,也有人称之为《K&R》标准。但是,在《K&R》并没有定义一个完整的标准C语言,后来由美国国家标准学会在此基础上制定了一个C 语言标准,于一九八三年发表。通常称之为ANSI C。 当代最优秀的程序设计语言   早期的C语言主要是用于UNIX系统。由于C语言的强大功能和各方面的优点逐渐为人们认识,到了八十年代,C开始进入其它操作系统,并很快在各类大、、小和微型计算机上得到了广泛的使用。成为当代最优秀的程序设计语言之一。 C语言的特点   C语言是一种结构化语言。它层次清晰,便于按模块化方式组织程序,易于调试和维护。C语言的表现能力和处理能力极强。它不仅具有丰富的运算符和数据类型,便于实现各类复杂的数据结构。它还可以直接访问内存的物理地址,进行位(bit)一级的操作。由于C语言实现了对硬件的编程操作,因此C语言集高级语言和低级语言的功能于一体。既可用于系统软件的开发,也适合于应用软件的开发。此外,C语言还具有效率高,可移植性强等特点。因此广泛地移植到了各类各型计算机上,从而形成了多种版本的C语言。 C语言版本   目前最流行的C语言有以下几种:    ?Microsoft C 或称 MS C    ?Borland Turbo C 或称 Turbo C    ?AT&T C   这些C语言版本不仅实现了ANSI C标准,而且在此基础上各自作了一些扩充,使之更加方便、完美。 面向对象的程序设计语言   在C的基础上,一九八三年又由贝尔实验室的Bjarne Strou-strup推出了C++。 C++进一步扩充和完善了C语言,成为一种面向 对象的程序设计语言。C++目前流行的最新版本是Borland C++4.5,Symantec C++6.1,和Microsoft VisualC++ 2.0。C++提出了一些更为深入的概念,它所支持的这些面向对象的概念容易将问题空间直接地映射到程序空间,为程序员提供了一种与传统结构程序设计不同的思维方式和编程方法。因而也增加了整个语言的复杂性,掌握起来有一定难度。 C和C++   但是,C是C++的基础,C++语言和C语言在很多方面是兼容的。因此,掌握了C语言,再进一步学习C++就能以一种熟悉的语法来学习面向对象的语言,从而达到事半功倍的目的。 C源程序的结构特点   为了说明C语言源程序结构的特点,先看以下几个程序。这几个程 序由简到难,表现了C语言源程序在组成结构上的特点。虽然有关内容还未介绍,但可从这些例子了解到组成一个C源程序的基本部分和书写格式。 main() { printf("c语言世界www.vcok.com,您好!\n"); }   main是主函数的函数名,表示这是一个主函数。每一个C源程序都必须有,且只能有一个主函数(main函数)。函数调用语句,printf函数的功能是把要输出的内容送到显示器去显示。printf函数是一个由系统定义的标准函数,可在程序直接调用。 #include "stdio.h" #include "math.h" main() { double x,s; printf("input number:\n"); scanf("%lf",&x); s=sin(x); printf("sine of %lf is %lf\n",x,s); } 每行注释 include称为文件包含命令扩展名为.h的文件也称为头文件或首部文件 定义两个实数变量,以被后面程序使用 显示提示信息 从键盘获得一个实数x 求x的正弦,并把它赋给变量s 显示程序运算结果 main函数结束      程序的功能是从键盘输入一个数x,求x的正弦值,然后输出结果。在main()之前的两行称为预处理命令(详见后面)。预处理命令还有其它几种,这里的include 称为文件包含命令,其意义是把尖括号""或引号<>内指定的文件包含到本程序来,成为本程序的一部分。被包含的文件通常是由系统提供的,其扩展名为.h。因此也称为头文件或首部文件。C语言的头文件包括了各个标准库函数的函数原型。因此,凡是在程序调用一个库函数时,都必须包含该函数原型所在的头文件。在本例,使用了三个库函数:输入函数scanf,正弦函数sin,输出函数printf。sin函数是数学函数,其头文件为math.h文件,因此在程序的主函数前用include命令包含了math.h。scanf和printf是标准输入输出函数,其头文件为stdio.h,在主函数前也用include命令包含了stdio.h文件。   需要说明的是,C语言规定对scanf和printf这两个函数可以省去对其头文件的包含命令。所以在本例也可以删去第二行的包含命令#include。同样,在例1.1使用了printf函数,也省略了包含命令。   在例题的主函数体又分为两部分,一部分为说明部分,另一部分执行部分。说明是指变量的类型说明。例题未使用任何变量,因此无说明部分。C语言规定,源程序所有用到的变量都必须先说明,后使用,否则将会出错。这一点是编译型高级程序设计语言的一个特点,与解释型的BASIC语言是不同的。说明部分是C源程序结构很重要的组成部分。本例使用了两个变量x,s,用来表示输入的自变量和sin函数值。由于sin函数要求这两个量必须是双精度浮点型,故用类型说明符double来说明这两个变量。说明部分后的四行为执行部分或称为执行语句部分,用以完成程序的功能。执行部分的第一行是输出语句,调用printf函数在显示器上输出提示字符串,请操作人员输入自变量x的值。第二行为输入语句,调用scanf函数,接受键盘上输入的数并存入变量x。第三行是调用sin函数并把函数值送到变量s。第四行是用printf 函数输出变量s的值,即x的正弦值。程序结束。 printf("input number:\n"); scanf("%lf",'C10F10&x); s=sin(x); printf("sine of %lf is %lf\n",'C10F10x,s);   运行本程序时,首先在显示器屏幕上给出提示串input number,这是由执行部分的第一行完成的。用户在提示下从键盘上键入某一数,如5,按下回车键,接着在屏幕上给出计算结果。 输入输出函数   在前两个例子用到了输入输出函数scanf和 printf,在第三章我们要详细介绍。这里我们先简单介绍一下它们的格式,以便下面使用。scanf和 printf这两个函数分别称为格式输入函数和格式输出函数。其意义是按指定的格式输入输出值。因此,这两个函数在括号的参数表都由以下两部分组成: “格式控制串”,参数表  格式控制串是一个字符串,必须用双引号括起来,它表示了输入输出量的数据类型。各种类型的格式表示法可参阅第三章。在printf函数还可以在格式控制串内出现格式控制字符,这时在显示屏幕上将原文照印。参数表给出了输入输出的量。当有多个量时,用逗号间隔。例如: printf("sine of %lf is %lf\n",x,s);   其%lf为格式字符,表示按双精度浮点数处理。它在格式串两次现,对应了x和s两个变量。其余字符格式字符则照原样输出在屏幕上 int max(int a,int b); main() { int x,y,z; printf("input two numbers:\n"); scanf("%d%d",&x,&y); z=max(x,y); printf("maxmum=%d",z); } int max(int a,int b) { if(a>b)return a; else return b; } 此函数的功能是输入两个整数,输出的大数。 /*函数说明*/ /*主函数*/ /*变量说明*/ /*输入x,y值*/ /*调用max函数*/ /*输出*/ /*定义max函数*/ /*把结果返回主调函数*/   上面例程序的功能是由用户输入两个整数,程序执行后输出较大的数。本程序由两个函数组成,主函数和max 函数。函数之间是并列关系。可从主函数调用其它函数。max 函数的功能是比较两个数,然后把较大的数返回给主函数。max 函数是一个用户自定义函数。因此在主函数要给出说明(程序第三行)。可见,在程序的说明部分,不仅可以有变量说明,还可以有函数说明。关于函数的详细内容将在第五章介绍。在程序的每行后用/*和*/括起来的内容为注释部分,程序不执行注释部分。   上例程序的执行过程是,首先在屏幕上显示提示串,请用户输入两个数,回车后由scanf函数语句接收这两个数送入变量x,y,然后调用max函数,并把x,y 的值传送给max函数的参数a,b。在max函数比较a,b的大小,把大者返回给主函数的变量z,最后在屏幕上输出z的值。 C源程序的结构特点 1.一个C语言源程序可以由一个或多个源文件组成。 2.每个源文件可由一个或多个函数组成。 3.一个源程序不论由多少个文件组成,都有一个且只能有一个main函数,即主函数。 4.源程序可以有预处理命令(include 命令仅为其的一种),预处理命令通常应放在源文件或源程序的最前面。 5.每一个说明,每一个语句都必须以分号结尾。但预处理命令,函数头和花括号“}”之后不能加分号。 6.标识符,关键字之间必须至少加一个空格以示间隔。若已有明显的间隔符,也可不再加空格来间隔。 书写程序时应遵循的规则   从书写清晰,便于阅读,理解,维护的角度出发,在书写程序时 应遵循以下规则: 1.一个说明或一个语句占一行。 2.用{} 括起来的部分,通常表示了程序的某一层次结构。{}一般与该结构语句的第一个字母对齐,并单独占一行。 3.低一层次的语句或说明可比高一层次的语句或说明缩进若干格后书写。以便看起来更加清晰,增加程序的可读性。在编程时应力求遵循这些规则,以养成良好的编程风格。 C语言的字符集   字符是组成语言的最基本的元素。C语言字符集由字母,数字,空格,标点和特殊字符组成。在字符常量,字符串常量和注释还可以使用汉字或其它可表示的图形符号。 1.字母  小写字母a~z共26个,大写字母A~Z共26个 2.数字  0~9共10个 3.空白符 空格符、制表符、换行符等统称为空白符。空白符只在字符常量和字符串常量起作用。在其它地方出现时,只起间隔作用, 编译程序对它们忽略。因此在程序使用空白符与否,对程序的编译不发生影响,但在程序适当的地方使用空白符将增加程序的清晰性和可读性。 4.标点和特殊字符 C语言词汇   在C语言使用的词汇分为六类:标识符,关键字,运算符,分隔符,常量,注释符等。 1.标识符   在程序使用的变量名、函数名、标号等统称为标识符。除库函数的函数名由系统定义外,其余都由用户自定义。C 规定,标识符只能是字母(A~Z,a~z)、数字(0~9)、下划线()组成的字符串,并且其第一个字符必须是字母或下划线。 以下标识符是合法的: a,x,_3x,BOOK_1,sum5 以下标识符是法的: 3s 以数字开头 s*T 出现字符* -3x 以减号开头 bowy-1 出现字符-(减号)   在使用标识符时还必须注意以下几点: (1)标准C不限制标识符的长度,但它受各种版本的C 语言编译系统限制,同时也受到具体机器的限制。例如在某版本C 规定标识符前八位有效,当两个标识符前八位相同时,则被认为是同一个标识符。 (2)在标识符,大小写是有区别的。例如BOOK和book 是两个不同的标识符。 (3)标识符虽然可由程序员随意定义,但标识符是用于标识某个量的符号。因此,命名应尽量有相应的意义,以便阅读理解,作到“顾名思义”。 2.关键字   关键字是由C语言规定的具有特定意义的字符串,通常也称为保留字。用户定义的标识符不应与关键字相同。C语言的关键字分为以下几类: (1)类型说明符 用于定义、说明变量、函数或其它数据结构的类型。如前面例题用到的int,double等 (2)语句定义符 用于表示一个语句的功能。如例1.3用到的if else就是条件语句的语句定义符。 (3)预处理命令字 用于表示一个预处理命令。如前面各例用到的include。 3.运算符   C语言含有相当丰富的运算符。运算符与变量,函数一起组成表达式,表示各种运算功能。运算符由一个或多个字符组成。 4.分隔符   在C语言采用的分隔符有逗号和空格两种。逗号主要用在类型说明和函数参数表,分隔各个变量。空格多用于语句各单词之间,作间隔符。在关键字,标识符之间必须要有一个以上的空格符作间隔, 否则将会出现语法错误,例如把int a;写成 inta;C编译器会把inta当成一个标识符处理,其结果必然出错。 5.常量   C 语言使用的常量可分为数字常量、字符常量、字符串常量、符号常量、转义字符等多种。在第二章将专门给予介绍。 6.注释符   C 语言的注释符是以“/*”开头并以“*/”结尾的串。在“/*”和“*/”之间的即为注释。程序编译时,不对注释作任何处理。注释可出现在程序的任何位置。注释用来向用户提示或解释程序的意义。在调试程序对暂不使用的语句也可用注释符括起来,使翻译跳过不作处理,待调试结束后再去掉注释符。 资料收集:beck Copyright 2002 www.vcok.com, All Rights Reserved 初学者
此为学习版,请勿用于商业用途或扩散。 以下描述转至互联网。 ============== 一、CSW分词组件简介 CSW文分词组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要,本组件同时提供词性及词频标注功能,可根据用户要求,对其拆分后的词组进行词性标注或词频标注。互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、 自动摘要、自动分类及信息加工处理等各个领域。 二、本组件特点: 1.适应性强 本组全部件采用ANSI标准C++开发,可广泛应用于当今的操作系统平台上,如:MS Windows、Linux及其它各公司出品的Unix操作系统。 2. 支持范围广 在MS Windows平台下,本组件以COM接口的DLL格式进行封装,可支持所有支持COM接口调用的编程语言及脚本语言。如:PHP、JSP、ASP、ASP.net、C/C++ 、VC6.0 、VC.net、BC、C#、VB6.0 、VB.net、Delphi、Java等。 3. 响应速度快 由于本组件采用高效特殊的算法引擎结构,每秒钟拆分可达数万字汉语文本,在对搜索关键词进行拆分情况下,其响应时间均在数毫秒之内,为搜索提供强劲动力。 4. 词组识别准确率高 采用特殊的词组拆分识别算法,可有效消除汉语词组汉语歧义,并可识别各个行业内的特殊用语、专用词汇、公司名、地名等,并具有汉语成语、汉语短语识别功能。如:'醉翁之意不在酒'。经长期使用及大量文本测试其准确率可达到92%以上。 5. 拆分覆盖面广 含盖了IT、化工、金融、贸易、纺织、电子、制造、冶金等各行各业以及日常生活用语的汉语词组。 6. 提供词组自定义功能 可根据用户需要自行添加汉语词组,并提单个汉字添加或从文件批量添加功能。 7.特殊字符过滤功能 可根据用户需要自行定义影响检索结果的不必要的字符。如:! % *等。 9. 具有英文分词识别功能。 本组件同时具有英文单词的分词识别功能。 10. 词性标注功能。(限企业A版) 词性:即词组在汉语语言所表述的性质。如:计算机 /名词; 国 / 名词,方位词 此功能可对拆分出的汉语词组进行词性标注,辅以开发人员理解分析文本序列所包含的语义或意图。其广泛应用于互联网信息搜索以提高搜索精度、智能聊天机器人理解对方话语的含义等领域。整个分词标注以北京大学词性标注集为标准。(详细可参见词性标注表) 11. 词频标注功能。(限企业B版) 词频:即词组在广域的所有汉语词组出现的相对频率值。 此功能可对拆分出的汉语词组进行词频标识。为开发人员在对搜索关键词的理解分析上提供有效的参考,以提高检索精度。整个词频标识是以各大报刊媒体文章为基础,经过精心的统计分析制作而成,具有相当的参考价值。 三、在线演示/免费下载 在线演示:http://61.129.81.124/csw/csw50.asp 四、各语言调用示例代码 参数一:InputString[string类型] 需进行分词的原始文本 参数二:OutputType[int整型] 输出类型 (0 标准分词输出, 1 附带词性输出, 2 附带词频输出) 参数三:DllPath[string类型] 本组件在系统的完整路径 返回:OutputString[string类型] 输出分词后的文本序列 1. C#调用示例代码 首先运行本组件包的install.bat文件,在系统注册本组件。 然后在开发工具引用CSW.dll组件 //以下为C#控制台应用程序调用本组件示例代码. CSWLib.SplitWordClass csw = new CSWLib.SplitWordClass(); string text = csw.Split('待拆分原始文本',0,@'c:winntsystem'); Console.WriteLine(text); Console.ReadLine(); //暂停,查看输出 访问官方网站获得更多代码示例。

16,473

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC相关问题讨论
社区管理员
  • 基础类社区
  • Web++
  • encoderlee
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

        VC/MFC社区版块或许是CSDN最“古老”的版块了,记忆之中,与CSDN的年龄几乎差不多。随着时间的推移,MFC技术渐渐的偏离了开发主流,若干年之后的今天,当我们面对着微软的这个经典之笔,内心充满着敬意,那些曾经的记忆,可以说代表着二十年前曾经的辉煌……
        向经典致敬,或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天,我们期待着MFC技术能够恢复其曾经的辉煌,或许这个期待会永远成为一种“梦想”,或许一切皆有可能……
        我们希望这个版块可以很好的适配Web时代,期待更好的互联网技术能够使得MFC技术框架得以重现活力,……

试试用AI创作助手写篇文章吧