使用 LOAD CSV 导入数据到Neo4j

community_811 2022-01-06 18:31:54

在Neo4j中有几种不同的方法可以将 CSV 数据导入 Neo4j，每种方法都有不同的标准和功能。您选择的选项取决于数据集的大小，以及您对各种工具的熟悉程度。

让我们看看 Neo4j 读取和导入 CSV 文件的一些方法。

LOAD CSVCypher 命令：此命令是一个很好的起点，可以处理中小型数据集（最多 1000 万条记录）。 适用于任何设置，包括 AuraDB。
neo4j-admin批量导入工具：命令行工具可用于直接加载大型数据集。 适用于 Neo4j 桌面、Neo4j EE Docker 镜像和本地安装。
Kettle 导入工具：映射并执行数据处理流程的步骤，适用于非常大的数据集，特别是如果开发人员已经熟悉使用此工具。 适用于任何设置，包括 AuraDB。

LOAD CSV子句是 Cypher 查询语言的一部分。我们的Cypher 手册包含一个专门介绍其用法的页面，并且 Neo4j 的各种博客、视频、解决方案和其他材料都使用了该命令。它使用简单，适用范围广。 LOAD CSV不仅仅是您的基本数据摄取机制，因为它将多个方面组合到一个操作中。

支持从 URI 加载/摄取 CSV 数据
将输入数据直接映射到复杂的图/域结构
处理数据转换
支持复杂的计算
创建或合并实体、关系和结构

LOAD CSV可以处理本地和远程文件，并且每个文件都有一些相关的语法。这很容易被忽略并最终导致访问错误，因此我们将尝试在此处澄清规则。

可以使用file:///文件名前的前缀加载本地文件。Neo4j 安全有一个默认设置，本地文件只能从 Neo4j 导入目录中读取，这取决于您的操作系统。

可以直接使用其 URL 引用Web 托管的文件，例如https://host/path/data.csv. 但是，必须设置权限，以便外部源可以读取该文件。

有几件事需要牢记，LOAD CSV还有一些有用的技巧可以处理您可能遇到的各种数据场景。

所有的CSV文件中的数据读取为字符串，所以你需要使用toInteger()，toFloat()，split()或类似功能的转换数值。
检查您的 Cypher 导入语句是否有拼写错误。标签、属性名称、关系类型和变量区分大小写。
数据越干净，加载就越容易。尝试在加载前处理复杂的清理/操作。

问题：

关于LOAD CSV的描述不正确的是？

返回练习题答题页面

...全文

1122 回复打赏收藏转发到动态举报

写回复

用AI写文章

切换为时间正序

请发表友善的回复…

发表回复

Neo4j大量CSV数据导入测试数据，包含运行测试批处理脚本

neo4j基于嵌入式的测试数据生成与导入源代码数据生成代码在源代码文件夹src/test/java中

申报进口将声明文件导入到 neo4j

Neo4j是一款强大的图形数据库，尤其适用于处理复杂的关系和网络数据。在进行大规模数据分析或系统测试时，导入大量CSV（逗号分隔值）数据是常见的需求。CSV格式因其通用性和简洁性，常被用于数据交换。在这个场景下，"Neo4j大量CSV数据导入测试数据"指的是使用Neo4j来导入大量以CSV格式存储的测试数据，以便对系统进行性能验证、功能测试或模拟真实世界的数据情况。批量导入CSV数据到Neo4j，通常涉及以下步骤： 1. **准备工作**：确保你已经安装了 Neo4j 数据库，并了解其基本操作。同时，你需要准备相应的CSV文件，这些文件应包含你要导入的数据，每一行代表一个节点或关系，列数据对应于节点属性或关系属性。 2. **配置Neo4j**：在`neo4j.conf`配置文件中，可能需要调整某些设置以优化导入性能，如增大内存分配（`dbms.memory.pagecache.size`）和批处理大小（`dbms.batch_insert.stream_buffer_size`）。 3. **创建模式**：在导入数据之前，需要定义数据模型，即节点和关系的类型。这可以通过Cypher查询语言完成，例如创建节点类型`Person`和`Order`，以及它们之间的`PURCHASED`关系。 4. **编写导入脚本**：使用Cypher批处理脚本可以有效地导入CSV数据。脚本会逐行读取CSV文件，为每行创建相应的节点或关系。例如，`USING PERIODIC COMMIT 1000 LOAD CSV WITH HEADERS FROM 'file:///order_test.csv' AS row CREATE (:Order {id: row.id, ...})`，这个脚本将每1000行提交一次，避免一次性加载大量数据导致内存溢出。 5. **运行脚本**：在Neo4j的命令行工具（如`neo4j-shell`或`neo4j-browser`）中执行这个脚本。确保CSV文件路径正确，并且服务器有权访问该文件。 6. **监控与优化**：在数据导入过程中，监控系统的资源使用情况（CPU、内存、磁盘I/O），根据需要调整批处理大小和内存配置。如果遇到性能瓶颈，可能需要对数据进行预处理，如去除重复项、转换数据格式等。 7. **验证数据**：导入完成后，通过Cypher查询检查数据是否正确导入，确保所有节点和关系都被创建，并且属性值与CSV文件中的数据一致。 8. **测试**：使用导入的测试数据进行系统功能测试和性能测试，评估Neo4j在处理大规模数据时的性能和稳定性。批量导入CSV数据到Neo4j是数据分析和系统测试的重要环节，它可以帮助我们更好地理解和优化数据库性能。通过理解这个过程，我们可以更有效地利用图形数据库处理复杂的数据挑战。

从CSV文件中导入

社区成员

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章