python split()语法及参数,机器学习中处理数据

split()方法描述

在鄙人的机器学习开发经验当中,split()是前期处理样本数据经常用到的一个python内置的字符串方法,因为样本的数据一般会被保存在一个.txt为后缀名的文件当中,一行一个样本,而一行之内又通常会包括样本的数个特征维度(要是处理自然语言的话,其词向量的特征维度就更多了),这些特征维度通常在输入txt文件的时候一般会用tab制表符分开,当python需要训练机器学习模型的时候,需要读取数据,用python读取到的数据一般为字符串的形式,然后需要将特征维度分开作为元素保存在一个列表list中,这个时候,split()方法就派上用场了。


split()语法及参数

string.split(str="", num=string.count(string))

第一个参数str指定split()分割字符串的分隔符;第二个参数num指定split()方法分割的次数,默认为分隔符在调用对象中出现的次数。


split()方法返回值

python的列表list。


split()方法实例代码

>>> data = '1\t2\t0.5'
>>> print(data)
1	2	0.5
>>> data.split('\t')
['1', '2', '0.5']
>>> datalist = list(map(float, data.split('\t')))
>>> datalist
[1.0, 2.0, 0.5]
>>> map(float,data.split('\t'))
<map object at 0x101fe1bd0>

实例代码解析

如上代码,假设data为一个样本数据,其中\t为制表符,需要通过print()才能输入相应的空格。第一次通过split()方法分割data,得到的列表中的各个元素为字符串,要想得到相应的数值(可用于算法运算的)可以用过map()方法将各个列表的元素用float()函数进行类型转换,不过用map()得到的是一个map的object,可以再用list()方法来转换为列表。



全栈后端 / python教程 :


























Copyright © 2022-2024 笨鸟工具 x1y1z1.com All Rights Reserved.