关于手机对中文文章的检索处理！高手进来指点一二

xinianyang 2004-05-04 11:33:41

想做从一个带有中文字体和英文字的文章里，将特定中文字提取并显示出来。
手机库中并无直接转换unicode的类，数据读入后，在处理indexOf（）时，
无法实现对特定中文字的处理，哪位高手帮帮忙！

...全文

132 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

Tobar 2004-06-09

打赏
举报

回复

可以参考一下MyEBOOK的说明,记得作者给过一个unicode>gb的转换方法,需要查找码表的
http://www.cnjm.net/
回头找到了具体连接再给你贴出来,暂时打不开页面...
楼上的你也太毛糙了...

FoxMale007 2004-06-08

打赏
举报

回复

在GB2312下，检测中文是很简单的啦！

FoxMale007 2004-06-08

打赏
举报

回复

#include "stdio.h"
#include "conio.h"
#include "string.h"

int main(int argc,char *argv[])
{
char s[]={ 204, 236, 198, 248, 0};
puts(s);
getch();
}

随手拿了个C编译器试了下

得到结论是：就是GB2312编码呀！哈哈哈哈

拣分拣分:)

ziyang 2004-05-06

打赏
举报

回复

没做过。要不你网上找找看有没有原马再去研究。
手机得具体编码是UTF-8格式。具体的网上很多这方面的资料
祝你好运！

viaboy 2004-05-06

打赏
举报

回复

help u up

xinianyang 2004-05-05

打赏
举报

回复

大家来支持一下嘛

witboy 2004-05-05

打赏
举报

回复

挺难，我感觉。一个汉子好像只占两个字符。你的2个汉字怎么会有32*4位呢。一个汉子应该占32位

xinianyang 2004-05-05

打赏
举报

回复

有一点还不是很懂，比如，天气通过检测数据流得知是4个 int型是204 ，236 ，198 ，248，那么它是怎么样最后显示成为汉字的呢？具体是什么编码，提供资料者也给分

本文介绍基于百度StructBERT大模型的中文语义检索工具，支持开箱即用的Web界面与API调用，涵盖单句相似度计算、批量检索及智能客服问答匹配等核心功能。重点解析其在语义理解、同义替换、模糊匹配方面的技术优势，并提供阈值设定、文本预处理和性能优化等工程实践指导。

本文详细介绍了如何在MySQL5.7中利用内置的ngram全文解析器创建全文索引，实现对中文数据的全文检索。通过设置全局变量ngram_token_size，可以调整分词粒度。创建全文索引有三种方式，分别是创建表时添加、ALTER TABLE命令添加和直接创建。全文检索有两种模式，自然语言模式和BOOLEAN模式，分别适用于简单和复杂的搜索需求。文章还给出了创建、使用和删除全文索引的示例。

本文介绍如何利用StructBERT模型实现中文语义检索，重点解决字面不匹配但语义相关的问题，如‘手机没电’匹配‘充电宝’。涵盖模型原理、Web界面快速部署、单/批量相似度计算、检索效果优化策略及生产级部署要点，突出其在智能客服、电商搜索等场景中的实际应用能力。

本文深入探讨RAG系统中的混合检索技术，重点解析向量检索与关键词检索（如BM25）协同工作的原理与实践。指出单一检索方式的局限性，阐述混合检索通过多路召回提升召回率，并结合重排序（如RRF、语义rerank）优化结果排序。文中详述中文环境下基于jieba分词与rank_bm25的实战实现路径，涵盖预处理、打分融合及Chroma集成等关键技术环节。

本文详解GTE-Chinese-Large模型在中文RAG系统中的落地实践，涵盖其专为中文设计的分词逻辑、长文本建模与多义性表达优势；通过三步法（向量化→语义检索→LLM生成）快速构建高精度知识库检索系统，并揭示规避文档切分失真、短查询漂移、相似度阈值僵化等三大隐形坑的方法，同时介绍混合检索、多轮向量融合及自定义权重等进阶技术。

13,096

社区成员

26,491

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章