标签: python

02.基础

为了能够完成各种数据操作，我们需要某种方法来存储和操作数据。通常，我们需要做两件重要的事：
- 获取数据
- 将数据读入计算机后对其进行处理。
如果没有某种方法来存储数据，那么获取数据是没有意义的
许多方法与Numpy使用相同，但深度学习框架又比Numpy的ndarray多一些重要功能：首先，GPU很好地支持加速计算，而NumPy仅支持CPU计算；其次，张量类支持自动微分

12a2024/10/3大约 12 分钟

03.线性神经网络

3.1 线性回归

12a2024/10/3小于 1 分钟

01.基础

1.1 pip

pip是用来下载包的工具，管理时一般使用下方命令即可

# 换更新源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装包，包名通过空格隔开，如果需要特定版本，可以添加版本号
pip install numpy pandas==2.2.3
# 无网络时可以手动下载对应的whl包文件，并进行安装
pip install 文件路径
# 也可以将自己的包文件夹安装到当前环境
# -e表示使用当前文件夹中的代码，方便修改调试
pip install -e .

# 更新包
pip install --upgrade numpy

# 强制重新安装，存在安装会自动卸载
pip install --force-reinstall numpy pandas

# 卸载包，-y表示确认，否则会出现提示框
pip uninstall numpy

# 查看当前所有包
pip list 

# 查看单个包信息
pip show numpy

关于包安装后无法正常使用的问题

如果包已经安装，编辑器中可以直接跳转找到对应的属性，但显示AttributeError: module 'pandas' has no attribute 'DataFrame'，说明可能包安装的过程中，出现了某些意外，python无法读取到这个包的一些信息，可以尝试强制重新安装--force-reinstall

pipreqs是一个用于生成requirements.txt文件的第三方库。它会扫描你的项目目录，自动识别出项目中导入的库，并生成一个包含这些库的requirements.txt文件

12a2024/10/3大约 3 分钟

02.常用库

2.1 画图

2.2 数据处理

主要有Numpy和panda库，以及用于处理csv文件的库

2.3 爬虫

爬虫相关见爬虫技能

2.4 正则匹配

re库是用于正则匹配的正则表达式库，可用于用于在字符串中查找、匹配、替换特定模式的文本。正则匹配相关见正则匹配技能

12a2024/10/3小于 1 分钟

自动化脚本

执行命令行操作

通过脚本执行不需要中途输入的命令行操作
- subprocess是python自带的线程模块，从python2.4引入
- concurrent.futures是python3.2加入的模块，用于创建和管理线程池，之前的python版本使用需要安装futures包
- pexpect是一个社区包

12a2024/10/3大约 5 分钟

爬虫

主要介绍python环境的parsel和JavaScript环境的cheerio爬虫库

请求网页数据

可以使用常见的各种库进行请求

解析JSON格式数据

对于python而言，如果需要解析JSON格式数据，需要使用JSON解析库

import json

# 将字典或文件编码成字符串
# json.dumps(obj, sort_keys=False, indent=None)
# json.dump(obj, fp, sort_keys=False, indent=None)
json.dumps(dict1)

# 将字符串解码成字典或输入到文件
# json.loads(string)
# json.load(fp)
json.load(str1)

12a2024/10/3大约 9 分钟

正则表达式

regex101 测试网站

正则表达式Regular Expression，也叫作正则，是一种字符串匹配模式，用于匹配字符串中的内容，绝大多数主流语言都支持正则表达式

1. 正则表达式语法

1.1 元字符

元字符是正则表达式中的特殊字符，用于匹配字符串中的内容

匹配单个字符

表达式	含义	示例
`.`	任意一个字符(除了换行)	`a.c`匹配`abc`和`axc`
`\d`	任意一位数字(0-9)	`\d\d`匹配`12`或`45`
`\D`	非数字	`\D\D`匹配`ab`或`@#`
`\w`	单词字符，包括字母数字下划线	`\w\w`匹配`ab`、`A1`或`_x`
`\W`	非单词字符	`\W\W`匹配`!}`或`@$`
`\s`	空白字符，如空格、Tab等	`a\sb`匹配`a b`中的空格
`\S`	非空白字符	`\S\S`匹配`ab`或`12`
`[]`	表示匹配字符集合中的某一个字符	`[abc]`匹配`a`或`b`或`c`
`[^]`	表示匹配除字符集合内容外的字符	`[^abc]`匹配除了`a`或`b`或`c`以外的字符
`\|`	表示匹配两个中的任意一个字符	`a\|b`匹配`a`或`b`

重复匹配

表达式	含义	示例
`*`	匹配前面字符0次或多次	`a*b`匹配`b`、`ab`或`aaab`
`+`	匹配前面字符1次或多次	`a+b`匹配`ab`或`aaab`(不匹配`b`)
`?`	匹配前面字符0次或1次	`a?b`匹配`b`或`ab`(不匹配`aab`)
`{n}`	匹配前面字符n次	`a{3}`匹配`aaa`(不匹配`aa`)
`{n,m}`	匹配n到m次	`a{2,3}`匹配`aa`或`aaa`(不匹配`a`)

一般情况下，正则会尽可能多得重复匹配，也称为贪婪匹配，如果希望尽可能少得匹配，可以在*和+后面添加?

其他

表达式	含义	示例
`^`	匹配字符串开头	`^a`匹配`abc`开头(不匹配`ba`开头)
`$`	匹配字符串结尾	`a$`匹配`ba`结尾(不匹配`ab`结尾)
`\b`	单词边界	`\bword\b`匹配`a word`中的word(而不匹配`keyword`)

12a大约 8 分钟