本文主要是介绍将 javascript 的字符串和正则的内容替换为下划线,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
程序语言的设计就是一门艺术, 通用程序语言更是如此。
其实程序说白了就是字符串,是对机器逻辑的阐述,对程序语言的处理感觉也是就成了一门艺术。
最近看到一个非常大的 js 文件,大约有10万行,让我懵生了程序处理的念头。
在分析和试探的阶段,我发现js代码的程序结构很大程度上是受大括号( {} )控制,而js代码的注释,字符串,正则表达中有可能存在很大程度上影响了程序结构的分析。
所幸该代码段没有任何注释,我就忽略了注释的处理过程。
但字符串和正则内容的处理依旧是一个难题。我将程序中的字符串和正则表达部分转换为下划线。 这样既可以避免字符串和正则影响结构分析,又可以尽可能保证程序结构。
下面是代码:
import os ,sysjs_path = './test/a.js'is_ins = False # 是否是转移符
is_str = False # 是否是字符串
str_sym = ''
is_reg = False # 是否是正则表达式pt_l = ['[', '(', '{']
pt_r = [']', ')', '}']def is_word_c(c):c_d = ord(c)if (c_d >= 48 and c_d <= 57) \or (c_d >= 65 and c_d <= 90) \or (c_d >= 97 and c_d <= 122) \or w == '_':return Trueelse:return Falsedef last_word(l, w_i):for i in range(w_i - 1, -1, -1):# print('i: ',i, l[i])if l[i] not in [' ', '\t']:breakif i == 0:return ''for j in range(i - 1, -1, -1):# print('j: ', j, l[j])if not is_word_c(l[j]):return l[j+1:i+1]return ''with open(js_path) as fr:for l_i, l in enumerate(fr.readlines()): #[:200]is_ibegin = Truel = l.rstrip()l_t = ''is_str_si = 0is_str_le = 0for w_i, w in enumerate(l):# if l[w_i: w_i + len('return')] == 'return':# if((w_i != 0 and not is_word_c(l[w_i - 1])) or w_i == 0) and not is_word_c(l[w_i+'return'+1]):if w not in [' ', '\t', '/']:# w_d = ord(w)# 字符if is_word_c(w) or w in ['.', '-', '+', ')',']'] and not is_reg:is_ibegin = Falseelse:is_ibegin = Trueif l_i == 1170:print (w+'['+str(l_i)+"]["+str(w_i)+']:'+ str(is_ibegin))if l_i == 2449:print('[2249]'+str(is_ins))if not is_ins and w in ['"', '\'', '/']: # and str_sym == wif not is_str: # 字符开始判断if l_i == 39853:print (w+'['+str(l_i)+"]["+str(w_i)+'] ee:'+ str(is_ibegin))if w == '/' and (is_ibegin or last_word(l, w_i) == 'return'):is_str = not is_stris_reg = not is_reg# print('%s[%s][%s]reg begin'%(w, l_i, w_i))elif w in ['"', '\'']:is_str = not is_strif is_str:is_str_si = w_i + 1str_sym = w# print('begin str - [%s]' % w)elif str_sym == w:is_str = not is_strif w == '/':# print('%s[%s][%s]reg end'%(w, l_i, w_i))is_reg = not is_reg# print('end str - [%s]'%w)l_t += l[is_str_le:is_str_si] + '_'*(w_i - is_str_si)is_str_le = w_iif not is_ins and is_str and w == '\\':is_ins = Trueelif is_ins == True:is_ins = Falseif is_str_si <= is_str_le:l_t += l[is_str_le:]print('l_i [%03d]:'%l_i, l)print('l_i [%03d]:'%l_i, l_t)
这篇关于将 javascript 的字符串和正则的内容替换为下划线的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!