Python编程:算法与数据结构概述

发表时间: 2019-12-24 16:19

问题一:1+2+3+4+5+…+10000=?

第一种解法:

1+2=3,3+3=6,6+4=10,10+5=15…

这是要算到猴年马月的节奏呀 果断弃之

第二种解法:

聪明的高斯,这样玩:

(1+10000)×10000÷2=50005000 (1+10000)\times10000\div2=50005000(1+10000)×10000÷2=50005000

在这一问题的解答上,高斯的方法真香!

​问题二:冬天里,你和小红玩猜数字,小红随便想一个1~100的数字。你的目标是以最少的次数猜到这个数字。你每次猜测后,小红会说小了、大了或对了。在10次内猜对了,小红就答应今晚用你暖床。是不是听着很刺激

第一种解法:

你从1开始依次往上猜,猜测过程会是这样,小红皱着眉不断说小了

这是简单查找,更准确的说法是傻找 。每次猜测都只能排除一个数字。如果小红想的数字是99,你得猜99次才能猜到!,注定今晚你和小红无缘了

第二种解法:
你从50开始,小红笑着说小了,你接着说75…

​你每次猜测的是中间的数字,从而每次都将余下的数字排除一半。接下来,你猜63(50和75中间的数字)…这就是二分查找,每次猜测排除的数字个数如下:

​不管小红心里想的是哪个数字,你在7次之内都能猜到,因为每次猜测都将排除很多数字!恭喜你,小红今晚是你的人了。

解析:对于包含n 个元素的有序列表,用二分查找最多需要log2n log_2 nlog2n步1,而简单查找最多需要n 步。

二分查找的python实现

def binary_search(list1, item):

low = 0 # low和high用于跟踪要在其中查找的列表部分

high = len(list1) - 1

while low <= high:

mid = (low + high) // 2

guess = list1[mid]

if guess == item: # 猜对了

return mid # 返回位置

elif guess > item: # 猜大了

high = mid - 1

else: # 猜小了

low = mid + 1

return None # 没有找到

my_list = [i for i in range(1,100)] # 列表推导式生成0-100个数

print(binary_search(my_list, 3)) # 别忘了索引从0开始

回到前面的二分查找。使用它可节省多少时间呢?简单查找逐个地检查数字,如果列表包含100个数字,最多需要猜100次。如果列表包含40亿个数字,最多需要猜40亿次。换言之,最多需要猜测的次数与列表长度相同,这被称为线性时间(linear time)。

二分查找则不同。如果列表包含100个元素,最多要猜7次;如果列表包含40亿个数字,最多需猜32次。厉害吧?二分查找的运行时间为对数时间 (或log loglog时间)。

算法

计算机领域,我们同样会遇到各种高效和拙劣的算法。衡量算法好坏的重要标准有两个。通常指最糟的情形下的:

时间复杂度(采用大O表示法)

空间复杂度(采用大O表示法)

理解:小明和小刚都是初入IT的新人,一天老板给他们布置了同一个需求让他们用代码实现出来,小明的代码运行一次要花100ms,占用内存5MB。小刚的代码运行一次要花100s,占用内存500MB。于是……小刚第二天就从公司消失了

​你经常会遇到的5种大O运行时间:

O (logn log nlogn),也叫对数时间,这样的算法包括二分查找

O (n),也叫线性时间,这样的算法包括简单查找

O (n∗logn n * log nn∗logn),这样的算法包括快速排序——一种速度较快的排序算法。

O (n2 n ^2n2),这样的算法包括选择排序——一种速度较慢的排序算法。

O (n! n !n!),这样的算法包括旅行商问题的解决方案——一种非常慢的算法.

假设你要绘制一个包含16格的网格,且有5种不同的算法可供选择:


​时间复杂度的概念明白了,那空间复杂度呢:

问题三:给出下图所示的n个整数,其中有两个整数是重复的,要求找出这两个重复的整数。

第一种解法:

你采用双重循环,遍历整个数列,每遍历到一个新的整数就开始回顾之前遍历过的所有整数,看看这些整数里有没有与之数值相同的,第1步,遍历整数3,前面没有数字,所以无须回顾比较。第2步,遍历整数1,回顾前面的数字3,没有发现重复数字。后续步骤类似,一直遍历到最后的整数2,发现和前面的整数2重复。

​这个算法的时间复杂度是O(n2) O(n^2)O(n2)

第二种解法:

当你遍历整个数列时,每遍历一个整数,就把该整数存储起来,就像放到字典中

一样。当遍历下一个整数时,不必再慢慢向前回溯比较,而直接去“字典”中查找,看看有没有对应的整数即可。“字典”左侧的Key代表整数的值,“字典”右侧的Value代表该整数出现的次数(也可以只记录Key)。当遍历到最后一个整数2时,从“字典”中可以轻松找到2曾经出现过,问题也就迎刃而解了。

​读写“字典”本身的时间复杂度是O(1) O(1)O(1),所以整个算法的时间复杂度是O(n) O(n)O(n)

第二种解法采用的这个所谓的“字典”,是一种特殊的数据结构,叫作散列表。这个数据结构需要开辟一定的内存空间来存储有用的数据信息。

计算机的内存空间是有限的,在时间复杂度相同的情况下,算法占用的内存空间自然是越小越好。如何描述一个算法占用的内存空间的大小呢?这就用到了算法的另一个重要指标——空间复杂度(space complexity)。

常量空间,当算法的存储空间大小固定,和输入规模没有直接的关系时,空间复杂度记作O(1) O(1)O(1)

线性空间,当算法分配的空间是一个线性的集合(如数组),并且集合大小和输入规模n成正比时,空间复杂度记作O(n) O(n)O(n)

二维空间,当算法分配的空间是一个二维数组集合,并且集合的长度和宽度都与输入规模n成正比时,空间复杂度记作O(n2) O(n^2)O(n2)

递归空间,递归是一个比较特殊的场景。虽然递归代码中并没有显式地声明变量或集合,但是计算机在执行程序时,会专门分配一块内存,用来存储“方法调用栈”。执行递归操作所需要的内存空间和递归的深度成正比。纯粹的递归操作的空间复杂度也是线性的,如果递归的深度是n,那么空间复杂度就是O(n) O(n)O(n)。

时间与空间的取舍:

人们之所以花大力气去评估算法的时间复杂度和空间复杂度,其根本原因是计算机的运算速度和空间资源是有限的。虽然目前计算机的CPU处理速度不断飙升,内存和硬盘空间也越来越大,但是面对庞大而复杂的数据和业务,我们仍然要精打细算,选择最有效的利用方式。

在寻找重复整数的问题三中,双重循环的时间复杂度是O(n2) O(n^2)O(n2),空间复杂度是O(1) O(1)O(1),这属于牺牲时间来换取空间的情况。相反,字典法的空间复杂度是O(n) O(n)O(n),时间复杂度是O(n) O(n)O(n),这属于牺牲空间来换取时间的情况。在绝大多数时候,时间复杂度更为重要一些,我们宁可多分配一些内存空间,也要提升程序的执行速度。

数据结构

算法的概念理解清楚了,下面就是数据结构。如果把算法比喻成美丽灵动的舞者,那么数据结构就是舞者脚下广阔而坚实的舞台。数据结构,对应的英文单词是data structure,是数据的组织、管理和存储格式,其使用目的是为了高效地访问和修改数据。

常见的数据结构:

线性结构,线性结构是最简单的数据结构,包括数组、链表,以及由它们衍生出来的栈、队列、哈希表。

树是相对复杂的数据结构,其中比较有代表性的是二叉树,由它又衍生出了二叉堆之类的数据结构。

​图是更为复杂的数据结构,因为在图中会呈现出多对多的关联关系。

  • 除上述所列的几种基本数据结构以外,还有一些其他的千奇百怪的数据结构。它们由基本数据结构变形而来,用于解决某些特定问题,如跳表、哈希链表、位图等。

山东掌趣网络科技有限公司