• 作者:老汪软件技巧
  • 发表时间:2024-11-04 17:01
  • 浏览量:

DNA序列编辑距离 : [题目链接](DNA序列编辑距离 - MarsCode)

这是一道相当经典的 dp 题 , 在力扣中也有类型的原题 , 链接如下72. 编辑距离

如果对dp题识别敏感度不高的可以看看我下面的理解

dp 题的思考思路 :

我们要对两个方面都敏感 , 1. 小推大的 递推关系 2. 大推小的 寻找子问题

对于 dp 要大胆猜想 , 可能不一定是线性的递推, 也可能是跳跃式的递推

还有一个很重要的点 , 在想递推的时候 , 我们要想的方向是连续性的递推感 , 递推的前一个元素不要想太细 , 想成抽象化的模型 , 意思就是别把一个元素的推导由来不要想成最初态推导而来 , 而是进行了一段连续性递推后得来的 , 这种感觉在二叉树的递推也有类似的身影 , 我们在想根节点的向下扩展时 , 想的是分为左子树和右子树这两个抽象的模型 , 而不是左节点和右节点这种细化的初始态 , 并且能保证左子树和右子树能当成根节点 ,这种思考方式就符合连续性的递推感

回到题目中 :这道题的关键在于编辑步骤包括:增加一个碱基、删除一个碱基或替换一个碱基。

我就是从这里判断出为动态规划的 , 增加一个碱基 ,删除一个碱基 , 替换一个碱基都是跟子问题有一定关系

_豆包MarsCode AI 刷题(DNA序列编辑距离)讲解 | 豆包MarsCode AI刷题_豆包MarsCode AI 刷题(DNA序列编辑距离)讲解 | 豆包MarsCode AI刷题

定义dp 数组 :

dp[i][j] 表示以下标i-1为结尾的字符串dna1,和以下标j-1为结尾的字符串dna2,最近编辑距离为dp[i][j] 。

dp的递推推导删除操作 dp[i][j] = dp[i - 1][j] + 1 表示直接跳过i-1的配对 , 并让其操作数 + 1替换操作 dp[i][j] = dp[i - 1][j - 1] + 1 表示直接跳过i-1和j-1的配对, 因为替换就是让两个匹对成功插入操作 dp[i][j] = dp[i][j - 1] + 1 表示让新插入的与j-1配对 , 则原本的i不变 , j = j - 1 配对成功不操作 dp[i][j] = dp[i - 1][j - 1]; 默认配对成功 ,操作数不变

注意: 这里的操作都是对dna1 ,元素i的操作

完整代码如下

#include 
#include 
int solution(std::string dna1, std::string dna2) {
    int n = dna1.size() , m = dna2.size();
    std::vectorint>> dp(n+1 , std::vector<int>(m+1 , INT_MAX));
    for(int i = 0; i <= n; i++) dp[i][0] = i;
    for(int j = 0; j <= m; j++) dp[0][j] = j;
    for(int i = 1; i <= n; i++)
        for(int j = 1; j <= m; j++)
            if(dna1[i-1] == dna2[j-1]) dp[i][j] = dp[i-1][j-1];
            else dp[i][j] = std::min({dp[i-1][j]+1 , dp[i][j-1]+1 , dp[i-1][j-1]+1});
    return dp[n][m];
}
int main() {
    //  You can add more test cases here
    std::cout << (solution("AGCTTAGC", "AGCTAGCT") == 2) << std::endl;
    std::cout << (solution("AGCCGAGC", "GCTAGCT") == 4) << std::endl;
    return 0;
}

def solution(dna1, dna2):
    len1 = len(dna1)
    len2 = len(dna2)
    # 创建一个二维数组 dp
    dp = [[0] * (len2 + 1) for _ in range(len1 + 1)]
    # 初始化边界条件
    for i in range(len1 + 1):
        dp[i][0] = i  # 删除所有字符
    for j in range(len2 + 1):
        dp[0][j] = j  # 插入所有字符
    # 填充 dp 表
    for i in range(1, len1 + 1):
        for j in range(1, len2 + 1):
            if dna1[i - 1] == dna2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]  # 字符相同,不需要操作
            else:
                dp[i][j] = min(
                    dp[i - 1][j] + 1,    # 删除
                    dp[i][j - 1] + 1,    # 插入
                    dp[i - 1][j - 1] + 1  # 替换
                )
    return dp[len1][len2]
if __name__ == "__main__":
    print(solution("AGCTTAGC", "AGCTAGCT") == 2)
    print(solution("AGCCGAGC", "GCTAGCT") == 4)
    print(solution("AGT", "AGCT") == 1)
    print(solution("AACCGGTT", "AACCTTGG") == 4)
    print(solution("ACGT", "TGC") == 3)
    print(solution("A", "T") == 1)
    print(solution("GGGG", "TTTT") == 4)