python split()语法及参数，机器学习中处理数据

split()方法描述

在鄙人的机器学习开发经验当中，split()是前期处理样本数据经常用到的一个python内置的字符串方法，因为样本的数据一般会被保存在一个.txt为后缀名的文件当中，一行一个样本，而一行之内又通常会包括样本的数个特征维度（要是处理自然语言的话，其词向量的特征维度就更多了），这些特征维度通常在输入txt文件的时候一般会用tab制表符分开，当python需要训练机器学习模型的时候，需要读取数据，用python读取到的数据一般为字符串的形式，然后需要将特征维度分开作为元素保存在一个列表list中，这个时候，split()方法就派上用场了。

split()语法及参数

string.split(str="", num=string.count(string))

第一个参数str指定split()分割字符串的分隔符；第二个参数num指定split()方法分割的次数，默认为分隔符在调用对象中出现的次数。

split()方法返回值

python的列表list。

split()方法实例代码

>>> data = '1\t2\t0.5'
>>> print(data)
1	2	0.5
>>> data.split('\t')
['1', '2', '0.5']
>>> datalist = list(map(float, data.split('\t')))
>>> datalist
[1.0, 2.0, 0.5]
>>> map(float,data.split('\t'))
<map object at 0x101fe1bd0>

实例代码解析

如上代码，假设data为一个样本数据，其中\t为制表符，需要通过print()才能输入相应的空格。第一次通过split()方法分割data，得到的列表中的各个元素为字符串，要想得到相应的数值（可用于算法运算的）可以用过map()方法将各个列表的元素用float()函数进行类型转换，不过用map()得到的是一个map的object，可以再用list()方法来转换为列表。

hot：热门