tongtong
happy-llm

happy-llm

对数据集进行tikenize

1
2
3
4
5
6
# 原代码
def tokenize_function(examples):
# 使用预先加载的 tokenizer 进行分词
output = tokenizer([item for item in examples["text"]])
return output

但是实际运行的时候会出现tokenizer not define,因此采用显示的引入

1
2
3
4
def tokenize_function(examples,tokenizer=tokenizer):
# 使用预先加载的 tokenizer 进行分词
output = tokenizer([item for item in examples["text"]])
return output
Author:tongtong
Link:http://example.com/2026/02/26/happly_llm项目本地运行相关问题/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可