使用 Node.js Elasticsearch 客户端索引大型 CSV 文件-智慧文博士

作者：来自 Elastic joshmock

使用 bulk API 可以轻松地将大量文档索引到 Elasticsearch：将你的数据记录转换为 JSON 文档，并插入指示它们应该添加到哪个索引的指令，然后将这个大的换行分隔 JSON blob 作为请求体，通过单个 HTTP 请求发送到 Elasticsearch 集群。或者，使用 Node.js 客户端的 bulk 函数。

更多阅读：Elasticsearch：使用最新的 Nodejs client 8.x 来创建索引并搜索

下面演示如何读取 CSV 文件，将其行转换为 JSON 对象，并进行索引：

import { Client } from '@elastic/elasticsearch' import { parse } from "csv-parse/sync" import { readFileSync } from 'node:fs' const csv = parse(readFileSync('data.csv', 'utf8'), { columns: true }) const operations = csv.flatMap(row => [ { index: { _index: "my_index" } }, row ]) const client = new Client({ node: 'http://localhost:9200' }) await client.bulk({ operations })

但是，如果你需要发送的数据量超过 Elasticsearch 单次请求能接收的大小，或者你的 CSV 文件太大，无法一次性全部加载到内存中，该怎么办？这时可以使用 bulk helper！

虽然 bulk API 本身已经很简单，但对于更复杂的场景，helper 提供了对流式输入的支持，可以将大型数据集拆分为多个请求等。

例如，如果你的 Elasticsearch 服务器只能接收小于 10MB 的 HTTP 请求，你可以通过设置 flushBytes 值来指示 bulk helper 拆分数据。每当请求即将超过设置值时，就会发送一次 bulk 请求：

const csv = parse(readFileSync('data.csv', 'utf8'), { columns: true }) await client.helpers.bulk({ datasource: csv, onDocument(doc) { return { index: { _index: "my_index" } } }, // send a bulk request for every 9.5MB flushBytes: 9500000 })

或者，如果你的 CSV 文件太大无法一次性加载到内存中，helper 可以将流作为数据源，而不是使用数组：

import { createReadStream } from 'node:fs' import { parse } from 'csv-parse' const parser = parse({ columns: true }) await client.helpers.bulk({ datasource: createReadStream('data.csv').pipe(parser), onDocument(doc) { return { index: { _index: "my_index" } } } })

这会将 CSV 文件中的行缓冲到内存中，解析为 JSON 对象，并让 helper 将结果刷新为一个或多个 HTTP 请求发送出去。这个解决方案不仅节省内存，而且阅读起来也和将整个文件加载到内存中的方法一样简单！

原文：https://discuss.elastic.co/t/dec-9th-2025-en-use-the-node-js-elasticsearch-client-to-index-large-csv-files/382901

Linly-Talker在摔跤比赛中跤衣穿戴示范

Linly-Talker在摔跤比赛中跤衣穿戴示范在国际式摔跤训练场上，新学员常常因为一个细节卡住——跤衣怎么穿才算标准？领口是否贴合、袖子长度如何调整、腰带打结的松紧度……这些看似琐碎的问题，一旦出错，不仅影响动作发挥&#xff…

李华

Open-AutoGLM自动化实践：5步实现零误差版本发布与回滚机制

第一章：Open-AutoGLM 版本控制自动化在大型语言模型（LLM）工程实践中，版本控制的自动化是保障模型迭代可追溯、可复现的核心环节。Open-AutoGLM 作为开源的自动代码生成与模型微调框架，依赖精细化的版本管理策略来协调代…

李华

【Open-AutoGLM版本控制自动化】：揭秘企业级CI/CD流水线高效构建核心技术

第一章：Open-AutoGLM版本控制自动化概述在现代AI模型开发流程中，Open-AutoGLM作为一款面向生成式语言模型的自动化工具，其版本控制的规范化与自动化能力直接影响研发效率与系统稳定性。通过集成Git、CI/CD流水线与元数据追踪机制，…

李华

为什么你的Open-AutoGLM扩展总是失败？揭秘接口设计中的5大隐性缺陷

第一章：为什么你的Open-AutoGLM扩展总是失败？在部署 Open-AutoGLM 扩展时，许多开发者遭遇运行失败、加载异常或推理中断等问题。这些问题往往并非源于模型本身，而是由环境配置、依赖版本冲突或初始化逻辑错误导致。依赖版本不兼容…

李华

Open-AutoGLM版本冲突自救指南：7个关键补丁让你系统起死回生

第一章：Open-AutoGLM 架构兼容性优化为提升 Open-AutoGLM 在异构计算环境下的适应能力，架构层面对多平台、多后端引擎的兼容性进行了系统性重构。核心目标是在保持模型推理性能的同时，实现对主流深度学习框架与硬件加速器的无缝支持。动态后端…

李华

为什么90%的AI项目失败？Open-AutoGLM动态调优方案给出答案

第一章：为什么90%的AI项目失败？人工智能正在重塑各行各业，但令人震惊的是，高达90%的AI项目未能成功落地。这些项目往往在概念验证阶段表现亮眼，却在生产环境中停滞不前。根本原因并非技术本身，而是组织、流…

李华