4
社区成员
发帖
与我相关
我的任务
分享| 分类 | 库名称 (PyPI包名) | 官方文档地址 | 主要用途 |
|---|---|---|---|
| 计算机视觉 | OpenCV (opencv-python) | https://docs.opencv.org/4.x/index.html | 图像处理、视频分析、传统CV算法(基石) |
| 计算机视觉 | Albumentations (albumentations) | https://albumentations.ai/docs/ | 高性能图像增强/数据augmentation(深度学习训练必备) |
| 计算机视觉 | MediaPipe (mediapipe) | https://google.github.io/mediapipe/ | 实时人脸、手势、姿态估计(跨平台、易用) |
| 计算机视觉 | Detectron2 (detectron2) | https://detectron2.readthedocs.io/ | Facebook出品,高性能目标检测与实例分割 |
| 深度学习框架 | PyTorch (torch) | https://pytorch.org/docs/stable/index.html | 动态图框架,学术界首选,大模型开发标准 |
| 深度学习框架 | TensorFlow (tensorflow) | https://www.tensorflow.org/api_docs | Google出品,工业界部署成熟,支持静态图 |
| 深度学习框架 | Keras (keras) | https://keras.io/api/ | 高层API,现独立运行但也作为TF默认接口,极简上手 |
| 深度学习框架 | JAX (jax) | https://jax.readthedocs.io/ | Google新星,函数式编程,自动微分极强,适合科研 |
| 自然语言处理 | Transformers (transformers) | https://huggingface.co/docs/transformers/ | HuggingFace出品,NLP事实标准,海量预训练模型 |
| 自然语言处理 | spaCy (spacy) | https://spacy.io/api | 工业级NLP库,专注于实体识别、分词等高效处理 |
| 自然语言处理 | NLTK (nltk) | https://www.nltk.org/ | 经典教学库,适合语言学分析和教育 |
| 传统机器学习 | Scikit-learn (scikit-learn) | https://scikit-learn.org/stable/ | 经典机器学习算法全集(SVM, 随机森林, 聚类等) |
| 传统机器学习 | XGBoost (xgboost) | https://xgboost.readthedocs.io/ | 梯度提升树,表格数据竞赛王者 |
| 传统机器学习 | LightGBM (lightgbm) | https://lightgbm.readthedocs.io/ | 微软出品,比XGBoost更快,适合大数据量表格 |
| 传统机器学习 | CatBoost (catboost) | https://catboost.ai/en/docs/ | Yandex出品,对类别特征处理极佳 |
| 数据科学基础 | NumPy (numpy) | https://numpy.org/doc/ | 多维数组运算,所有AI库的底层基石 |
| 数据科学基础 | Pandas (pandas) | https://pandas.pydata.org/docs/ | 数据处理、清洗、分析(类似Excel编程版) |
| 数据科学基础 | SciPy (scipy) | https://docs.scipy.org/doc/scipy/ | 科学计算算法库(积分、优化、信号处理) |
| 数据科学基础 | Matplotlib (matplotlib) | https://matplotlib.org/stable/contents.html | 基础绘图库,用于数据可视化 |
| 数据科学基础 | Seaborn (seaborn) | https://seaborn.pydata.org/ | 基于Matplotlib的高级统计绘图,更美观 |
| 强化学习 | Gymnasium (gymnasium) | https://gymnasium.farama.org/ | 强化学习环境标准接口(原Gym的维护版) |
| 强化学习 | Stable-Baselines3 (stable-baselines3) | https://stable-baselines3.readthedocs.io/ | 基于PyTorch的高质量RL算法实现(PPO, DQN等) |
| 模型部署/服务 | ONNX Runtime (onnxruntime) | https://onnxruntime.ai/docs/ | 跨平台模型推理引擎,用于部署训练好的模型 |
| 模型部署/服务 | FastAPI (fastapi) | https://fastapi.tiangolo.com/ | 快速构建AI模型API服务接口 |
目前最火热的领域,用于生成图像、音频和视频。
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| Diffusers | https://huggingface.co/docs/diffusers | HuggingFace出品,生成图像/音频/视频的核心库 (Stable Diffusion, Sora类模型)。 |
| Gradio | https://www.gradio.app/docs | 快速为AI模型构建Web演示界面,几行代码即可分享模型。 |
| Streamlit | https://docs.streamlit.io | 比Gradio更灵活的数据科学Web应用框架,常用于展示AI Dashboard。 |
| Automatic1111 WebUI | https://github.com/AUTOMATIC1111/stable-diffusion-webui | (非库,是项目) 最著名的Stable Diffusion本地运行界面源码。 |
| ComfyUI | https://github.com/comfyanonymous/ComfyUI | 基于节点流程图的SD运行器,适合复杂工作流编排。 |
用于构建基于 LLM 的应用程序(如聊天机器人、RAG系统、Agent)。
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| LangChain | https://python.langchain.com/docs | LLM应用开发的“胶水”框架,连接模型、向量数据库和工具。 |
| LlamaIndex | https://docs.llamaindex.ai | 专注于数据索引和检索增强生成 (RAG),让LLM能读取私有数据。 |
| Haystack | https://haystack.deepset.ai/ | 另一款强大的开源NLP框架,专注于搜索和问答系统。 |
| vLLM | https://docs.vllm.ai/ | 高性能LLM推理和服务库,吞吐量比原生HF高数倍。 |
| Ollama | https://ollama.com/ | (工具/库) 本地轻松运行开源大模型 (Llama3, Mistral等) 的工具。 |
处理社交网络、分子结构、知识图谱等非欧几里得数据。
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| PyTorch Geometric (PyG) | https://pytorch-geometric.readthedocs.io | PyTorch生态中最流行的图深度学习库。 |
| DGL (Deep Graph Library) | https://docs.dgl.ai/ | 由AWS支持,性能极强,支持多后端 (PyTorch, MXNet, TensorFlow)。 |
| NetworkX | https://networkx.org/documentation/ | 经典图论库,用于创建、操作和研究复杂网络结构(非深度学习,偏算法)。 |
自动化模型选择、超参数调优和特征工程。
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| Optuna | https://optuna.readthedocs.io | 下一代超参数优化框架,动态剪枝,效率极高。 |
| Ray Tune | https://docs.ray.io/en/latest/tune/ | 分布式超参数调优,可扩展到大规模集群。 |
| Auto-sklearn | https://automl.github.io/auto-sklearn/ | 基于Scikit-learn的自动机器学习工具。 |
| H2O.ai | https://docs.h2o.ai/h2o/latest-stable/h2o-docs/index.html | 企业级AutoML平台,支持分布式训练。 |
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| Librosa | https://librosa.org/doc/ | 音频分析和音乐信息检索的标准库 (提取MFCC, 节拍等)。 |
| SpeechRecognition | https://pypi.org/project/SpeechRecognition/ | 简单的语音转文字 (STT) 接口,支持多种引擎 (Google, Sphinx等)。 |
| Whisper | https://github.com/openai/whisper | OpenAI开源的强力语音识别模型,支持多语言和翻译。 |
| Torchaudio | https://pytorch.org/audio/ | PyTorch官方的音频处理扩展。 |
| ESPnet | https://espnet.github.io/espnet/ | 端到端语音处理工具包 (ASR, TTS, 语音翻译)。 |
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| Surprise | http://surpriselib.com/ | 专门用于构建和分析推荐系统的Scikit-learn风格库。 |
| LightFM | https://making.lyst.com/lightfm/ | 混合推荐系统库,结合协同过滤和内容特征。 |
| RecBole | https://recbole.io/ | 统一的推荐系统库,包含大量SOTA算法。 |
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| Prophet | https://facebook.github.io/prophet/ | Facebook出品,适合具有季节性效应的商业预测,易用性强。 |
| Statsmodels | https://www.statsmodels.org/stable/ | 统计建模库,包含ARIMA, VAR等传统时间序列算法。 |
| Darts | https://unit8co.github.io/darts/ | 统一的时间序列预测库,融合传统统计和深度学习模型。 |
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| SHAP | https://shap.readthedocs.io/ | 解释任何机器学习模型的输出 (特征重要性分析)。 |
| LIME | https://github.com/marcotcr/lime | 局部可解释模型无关解释,理解单个预测的原因。 |
| TensorBoard | https://www.tensorflow.org/tensorboard | 可视化训练过程 (损失曲线, 计算图, 直方图),也支持PyTorch。 |
| Weights & Biases (wandb) | https://docs.wandb.ai/ | 云端实验追踪、可视化和协作平台 (工业界标准)。 |
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| Polars | https://docs.pola.rs/ | 基于Rust编写的超快DataFrame库,Pandas的现代替代品,支持懒执行。 |
| Dask | https://docs.dask.org/ | 并行计算库,让Pandas/NumPy能处理超出内存的大数据集。 |
| Vaex | https://vaex.io/docs/ | 用于处理十亿级行数据的Lazy DataFrame库。 |
| Apache Spark (PySpark) | https://spark.apache.org/docs/latest/api/python/ | 大数据处理引擎的Python接口,适合海量数据ETB级处理。 |
| 库名称 | 官方文档/地址 | 主要用途 |
|---|---|---|
| Bitsandbytes | https://github.com/TimDettmers/bitsandbytes | 8-bit/4-bit 量化库,让大模型能在消费级显卡上运行。 |
| GGUF / llama.cpp | https://github.com/ggerganov/llama.cpp | (C++核心,有Python绑定) 极高效的CPU/GPU混合推理,量化模型事实标准。 |
| TensorRT | https://docs.nvidia.com/deeplearning/tensorrt/ | NVIDIA出品,极致优化的推理引擎 (需特定硬件)。 |