인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

질문

2019.12.23 03:57

파이썬 특정 파일 정규식으로 찾기 질문입니다

조회 수 1985 댓글 6

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

			import re
import os
import shutil
 
pattern = 'a-zA-Z0-9_\-\.\+\, '
Dir = r'D:\NEWManga'  # \ 는 특수문자 할때 쓰는거라 에러 ex) \n, 따라서 raw로 해석안하고 읽으라고 r, 아니면 \\
 
p = re.compile('\[[a-zA-Z0-9_\-\.\+\,\! ]*\]', re.IGNORECASE)
p2 = re.compile('\[[a-zA-Z0-9_\-\.\+\,\! ]*\([a-zA-Z0-9_\-\.\+\,\! ]*\)\]', re.IGNORECASE)
p3 = re.compile('\([a-zA-Z0-9_\-\.\+\,\! ]*\)', re.IGNORECASE)
def search(dirname):
    filenames = os.listdir(dirname)
    names = []
    for filename in filenames:
        m = p.search(filename)
        m2 = p2.search(filename)
        full_filename = os.path.join(dirname, filename)
        ext = os.path.splitext(filename)[-1]
        if ext == '':
            continue
        name = ''
        name2 = ''
        if m != None:
            name = m.group()[1:-1]
        if m2 != None:
            name2 = p3.search(m2.group())
            name2 = name2.group()[1:-1]
        if name.upper() == 'KOREAN' or name.upper() == 'DIGITAL' or name == '' or name == ' ':
            if not (name2.upper() == 'KOREAN' or name2.upper() == 'DIGITAL' or name2 == '' or name2 == ' '):
                name = name2
            else:
                continue
        try:
            if not name == '':
                if not os.path.isdir(os.path.join(dirname, name)):
                    os.mkdir(os.path.join(dirname, name))
                shutil.move(full_filename, os.path.join(dirname, name))
        except:
            pass
 
 
Dir = input('directory : ')
search(Dir)
 
Colored by Color Scripter

			cs
		
 
 
 
이런 코드입니다. 패턴대로 분류해서 폴더 만들고 그 안에 정리해주는 식의 코드인데, 정규식 사용이 너무 어렵네요...용도는 신사분들이라면 코드를 보자마자 바로 알아채실거라 생각합니다. 근데 저렇게 하나하나 패턴을 지정해놓으니까 일어나 한국어 등의 다른 패턴은 못 읽더라구요...이 코드를 어떻게 개선시킬지 질문드려봅니다.

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

Comments '6'

쮸쀼쮸쀼 2019.12.23 07:13

히익… 보기만 해도 수상함이 느껴지네요!
정규표현식은 보기만 해도 엄청 어렵죠. 바빠서 길게는 못 쓰고, 몇 가지 팁만 생각나는 대로 좀 드리겠습니다.

1글자 이상의 모든 글자는 r".+"이고, 0글자 이상의 모든 글자는 r".*"입니다. 예를 들어 문자열 a = "[]"이고 문자열 b = "[asdf]"일 때, 정규식을 r"\[.+\]"이라고 넣으면 문자열 a는 안 잡히는데 문자열 b는 잡힙니다. 각괄호 안에 뭔가 들어 있느냐의 여부로 잡히고 말고가 결정되는 것이죠. 만약에 정규식이 r"\[.*\]"이면 문자열 a와 b가 모두 잡힙니다.

정규표현식을 검사할 수 있는 웹사이트로 https://regex101.com/ 이런 곳이 있습니다. 언어 설정을 Python으로 맞추고 사용해 보세요.

파이썬에는 fnmatch나 glob와 같은 모듈이 있습니다. 파일 이름 처리에 사용할 수 있지요.

파이썬에서는 어떤 문자열이 포함되어 있는지 여부를 확인하기 위해 굳이 문자열의 일부를 떼어다가 비교할 필요가 없습니다. 그냥 in이라는 연산자를 쓰면 되거든요. 예를 들어 "korea"라는 문자열이 "I am korean"이라는 문자열 안에 들어 있는지 알고 싶다면 if "korea" in "I am korean": # True면 할 일… 뭐 이런 식으로 사용할 수 있습니다. 이것도 마찬가지로 and나 or과 함께 쓸 수 있고요. 굳이 따로 떼어내려고 애쓸 필요가 없습니다. 물론 대소문자 문제야 upper()나 lower() 메소드로 적절히 처리해주면 되겠죠.

한 함수 안에서 너무 많은 것을 하려고 하는 것 같은데, 일부 기능을 더 작은 함수로 떼어내어 보는 것은 어떨까요? 이렇게 하면 한 함수 안에서 비슷비슷한 이름으로 된 변수들이 자꾸 늘어나는 것도 막을 수 있습니다. 지금은 search()라는 함수 안에서 이름과 달리 파일 이동까지 처리하고 있는데, 이렇게 하면 나중에 헷갈릴 수 있으니 파일 이동 부분을 따로 분리하는 것도 좋겠죠.

search() 함수 안의 names 배열은 사용하는 곳이 없는 것 같은데 삭제하는 게 어떨까요? 안 쓰는 변수가 들어가 있으면 괜히 헷갈리기만 합니다. 특히 지금처럼 비슷비슷한 변수 이름이 반복되는 상황에서는 더욱 그래요.

가능하다면 파일 이름을 표상하는 객체를 만들어서 사용해보는 것도 좋겠습니다. 파일 이름 안에 여러 개의 속성이 들어가 있는 상황이니, 이러한 속성을 묶어서 다루기 위해 객체를 사용하는 것이죠.

보아하니 딕셔너리나 튜플 같은 다른 자료구조를 부가적으로 사용할 수도 있겠습니다.

Dir이라는 문자열은 변수인데, 그렇다면 PEP 8 컨벤션에 따라 이름을 모두 소문자로 쓰는 것이 좋습니다. "dir" 이렇게 말이죠. 파이썬을 비롯한 많은 프로그래밍 언어에서 첫 글자를 대문자로 쓰는 경우는 클래스 이름을 지정하는 경우입니다. 그리고 파이썬에서는 변수명을 "lowercase_underscore" 이런 식으로 씁니다.

코드 앞쪽에서 Dir에 문자열을 넣어주고 있는데, 아래에서 input() 메소드를 쓰고 있네요. 이렇게 하면 앞쪽에서 어떤 문자열을 넣어줘도 코드 실행 시점에 사용자 입력으로 해당 문자열이 덮어씌워집니다. 아마도 아무것도 입력하지 않았을 때 어떤 기본값을 주고 싶었던 것 같은데, 그렇다면 dir = input("Input your value : ") or "Default value" 이런 식으로 하면 됩니다.
인민에어 뿅! 2019.12.23 09:04

무슨 코드인지 모르겠군요
꺼라위키에 관련 설명이 잘되어 있었습니다
?
레이지버드 i5-8400 / EVGA Z370 Classified K / G.Skill DDR4 3600MHz CL15 XMP 2019.12.23 09:46

무엇을 하고 싶은지 더 자세하게 써주시면 좋을 것 같습니다. 코드를 보니 파일을 분류하려고 하시는 것 같은데 총 몇 개의 폴더로 나누어져야 하는지 짐작이 안가서 뭐라고 말씀드리기 어렵네요.

자주 쓰이는 정규표현식을 찾아보시면 이해하기 쉬우실겁니다.
https://gocoding.tistory.com/m/93
?
달가락 2019.12.23 10:16

원하시는게 무엇인지 몰라 그냥 지나가다 생각나는대로 남깁니다.

1. re 모듈이 충분치 않다면 regex 모듈( https://pypi.org/project/regex/ )을 쓰세요. 유니코드 프로퍼티 (예: \p{Letter}, \p{Hangul}, \p{Hiragana}, \p{Katakana}, \p{Han}) 를 쓸 수 있습니다. pip를 사용해서 설치하시면 되고, 메서드 형식은 re와 호환되니 다음과 같이 바꿔주면 되겠죠.

import regex as re

2. 사실 한글 같은건 [가-힣]* 으로 잡아도 되지만, 그런게 안된다면 utf-8로 파일시스템-콘솔 억세스 인코딩을 통일시킨 python 3.6 버전 이상을 사용하시길 바랍니다. 그 이전 버전을 사용할 때는 내부의 파일시스템 호출 API와 문자열 핸들링 방식이 이질적이라 호환성 확보를 위해 추가로 호출해줘야 하는게 더 많을겁니다. 앞으로 질문하실 때는 어디서 돌리는지, 무슨 버전의 파이썬을 사용하시는지도 적어주시는게 좋겠네요.
Koasing PROBLEM? 2019.12.23 10:18

어떤 식으로 파일명을 정규화 하려는데 정규식을 어떻게 쓰는게 좋을지, 가 질문의 요지인 것 같습니다. 이 부분을 좀 더 자세히 써 주시면 좋겠네요.
코드만 대충 봐서는. 파일명이 "[Korean] (filename).ext" 이나 "[Digital] (filename).ext" 인 경우 대괄호 블럭을 삭제하고 소괄호 안의 파일명만 끄집어내서 사용하려는 것으로 보입니다.
이 경우 굳이 저렇게 복잡하게 여러 차례 매칭할 필요 없이. r'\[Korean\] \((.+)\)\.(.+)' 로 매칭하고. Match.group(1)과 Match.group(2) 로 각각 파일명과 확장자를 꺼내면 됩니다. 정규식에서 필요한 부분을 따 내려면 Capturing group을 쓰면 되며, . 은 줄넘김 제외한 모든 글자에 대응합니다. . 을 사용하면 유니코드 글자 또한 매칭되므로 한글이나 일본어도 적절히 처리해 줄 겁니다. 엄격하게 해석하려면 유니코드 지원을 이용하면 좋겠습니다만, 파일목록 받아와서 작업하는 것이니 약간의 허술함을 허용하고 . 으로 퉁쳐도 되겠습니다. .+ 는 아무 글자나 1개이상 있으면 잡으라는 의미이고, 이런 정규식 해석해 주는 사이트도 많이 있으니 참고하시면 되겠네요.
?
dom607 2019.12.23 13:29

한글이나 일본어같은 유니코드문자를 정규식으로 필터링 하려면 해당유니코드 범위를 조건에 추가시켜줘야 합니다.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

No Image

SSD 마이그레이션 툴...

... 툴 중에 30일제한같은거 없이 쭉 사용할 수 있는게 뭐가 있을까요? Macrium Reflect 를 사용하고 있는데, 얘는 좋긴 좋은데 30일 체험판 이라서 가끔식 사용할때마다 새로 등록해야하고... 아크로니스 투르 이미지도 그렇고...

Date2023.03.06 질문 By포도맛계란 Reply11 Views869

Read More
No Image

유튜브 뮤직 vs 스포티파이

유튜브 뮤직을 이용중에 있는데요.. 요즘 추천 알고리즘이 별로이기도 하고 유튜브 보는데 광고 나와도 그냥 뭐.. 그려려니 하게 되서 (물론 유튜브 프리미엄은 엄청난 메리트이긴 합니다) 이참에 추천 알고리즘이 차원이 다르다는 스...

Date2023.03.05 질문 By뚜찌`zXie Reply8 Views605

Read More
갤럭시 S23U 삼성 브라우저에서 기글 자동 로그인 풀림

데스크탑이나 아이패드에서는 로그인이 유지가 잘 되는데, 폰에서는 로그인이 매일 풀리는 정도입니다. 삼성 브라우저에 탑재된 트래킹 방지 기능이 기글의 로그인 유지에 영향을 주는 것일까요? S23 시리즈 또는 동일 버전의 삼...

Date2023.02.26 질문 ByNormie Reply9 Views878

Read More
No Image

[질의] Windows 11에서 Bluetooth 문제를 겪으신 분 계신가요?

시스템 환경은 ASUS FX707ZC, Windows 11, Galaxy Buds2 / COX CWS140Q 입니다. 페어링이 안 된다는 문제가 있어 제가 생각할 수 있는 웬만한 방법은 다 했습니다. 드라이버 소프트웨어 재설치, 장치 삭제 후 재등록 시도, 장치 관리자에...

Date2023.02.26 질문 By임시닉네임 Reply10 Views622

Read More
No Image

OPNsense에 Mellanox Connect-X3 브릿지 모드로 사용하기

이번에 홈랩을 다시 구성하면서 기존에 사용하던 라우터 시스템을 다른 시스템으로 옮기는 작업 중입니다. ESXi 8.0 사용하며 OPNsense VM을 생성하여 Mellanox Connect-X3 MCX354A 네트워크 카드 3개를 패스스루했습니다. 그 과정 중...

Date2023.02.24 질문 ByExpBox Reply0 Views695

Read More
No Image

[질의] FTP 서버를 제 생각대로 구현할 수 있을까요?

3DS 시리즈 기기를 FTP 서버로 만들 수 있는 홈브루가 존재합니다. 이걸 이용해서 이동형 파일 서버를 만들 수 있겠지 싶은데요, 3DS를 FTP 서버로 설정하고 SIM 없는 스마트폰에서 핫스팟을 켠 뒤 다른 기기를 연결해서 자료를 서로 옮겨...

Date2023.02.24 질문 By임시닉네임 Reply9 Views468

Read More
No Image

엣지 브라우저로 pdf를 다운로드 하면 파일 다운로드가 제대로 안됩니다

얼마전부터 엣지 브라우저로 pdf 파일을 다운로드하면 100% 된 다음 내부적으로 검사를 하는 거 같더라구요 문제는 얘가 검사를 하루 웬종일 합니다 5분 이상 검사합니다 '확인되지 않음 620596.crdownload' 로 계속 유지 됩니다. 이 문...

Date2023.02.22 질문 Bydmy01 Reply1 Views1515

Read More
No Image

[질의] kt의 OMD 모델코드

* 자급단말 = 단말기 자급제도 하 출시 단말 및 해외 출시 단말 / 비스마트폰 = 태블릿 컴퓨터, 라우터... OPENMODEL1 - WCDMA 자급단말 OPENMODEL2 - LTE 자급단말 OPENMODEL3 - LTE 자급단말, 비스마트폰 PTA-TYPE1 - WCDMA 스마트폰 ! ...

Date2023.02.20 질문 By임시닉네임 Reply9 Views1952

Read More
No Image

혹시 안드로이드 상에서 SVM 모델 추론 해보신분 있으실까요...?

뭐 libSVM이랑 텐서플로우 라이트, jpmml 같은거 시도해보려고 했는데...코딩력이 부족하여 실패했습니다... 혹시 관련 경험을 보유하여서 참고 할 수 있게 댓글달아주실분이 있으실까 하여 질문드려봅니다. 스택오버플로우와 챗gpt는...

Date2023.02.19 질문 ByAdora27 Reply7 Views558

Read More
No Image

속도 빠른 이미지 to pdf 결합 프로그램 아시는게 있나요?

아크로뱃, soda pdf, 등등 여러 소프트웨어 사용해봤는데 대부분이 싱글 코어만 사용하고, acrobat reader가 그나마 가장 빠른데 770개의 스캔 이미지 (jpg)를 결합하는데 4분정도가 걸리네요.. 혹시 멀티코어를 사용하거나 속도가 빠른 ...

Date2023.02.17 질문 By리피 Reply6 Views557

Read More
No Image

특정유튜브 채널을 막을수 있을까요..?

아버님이 보는 모 정떡채널 있습니다. 틀채널 아닐라까봐 아침부터 오프닝부터 두뚱두두두 두뚱두두두 소음공해 입니다. 보는건 상관없습니다 잘시간에만 차단좀 걸였으면 좋겠네요. 공유기에 차단 리스트 올릴려고 하닌깐.. 주소창도...

Date2023.02.14 질문 ByAZUSA Reply12 Views1248

Read More
웨일 브라우저 스크롤바

우측 스크롤바(?)라고 하나요??? 저 부분 너무 작아서.... 혹시 넓게 하는 방법 있을까요? 옵션에는 없는 것 같고.... width 수정 같은 소스코드 ? 수정할 수 있을까요???? 마우스를 가져가면 조금은 넓어지는 사이트도 있고... 전...

Date2023.02.11 질문 By투명드래곤 Reply4 Views648

Read More
OBS와 인텔 그래픽 쪽에 버그리포트? 문의? 하려면 어떻게 해야할까요?

OBS 29.0 버전부터 인텔 아크 그래픽으로 AV1 인코딩이 가능합니다. 근데 이게 제 컴퓨터 상황에서는 특정 드라이버에서는 작동이 안됨니다. 그러니까 제 하드웨어상황은 이러합니다. 특이점은 3060ti와 A380 그래픽카드를 ...

Date2023.02.09 질문 By포도맛계란 Reply13 Views626

Read More
윈도우 11 내 PC에서 다운로드 폴더가 상단에 없습니다

윈도우 10 사용할 때는 장치 및 드라이브 위에 폴더(7)이 있어 다운로드에 쉽게 접근 가능하였는데 11에서는 위와 같이 바뀌었습니다. 혹시 기존처럼 다운로드 쇼트컷이 가능하도록 설정하는 방법이 있나요?

Date2023.02.09 질문 ByArcade Reply6 Views1231

Read More
windows11에서 시작메뉴의 크기를 키울수는 없나요?

FHD 모니터에선 적절한 크기였지만... UHD 모니터에선 너무 작은데... 이걸 키울 방법이 아무리 구글링 해도 없네요? 설마 이걸 키울수 없는건 아니겠지요??? 이 무슨....

Date2023.02.06 질문 Bycowper Reply3 Views457

Read More
No Image

북마크(즐찾)가 어느 날 갑자기 사라질수도 있나요?

크롬이랑 엣지 쓰는데요 어제까지만 해도 멀쩡히 존재하던 북마크(즐겨찾기)가 오늘 저녁에 틀어보니까 몽땅 사라져있었습니다(...) 제가 크롬을 지웠다가 새로 깐 것도 아니고 업데이트를 한 것도 아니고 그 이전에 제가 들어갔던 사이트...

Date2023.02.04 질문 By무식한공병 Reply5 Views1626

Read More
언구글드 크로미움(Ungoogled Chromium) 브라우저 쓸만한지요?

깃허브 링크의 언구글드 크로미움(Ungoogled Chromium) 브라우저가 보안과 버그에서 괜찮은지 문의 드립니다. 설치하려는 이유는 개인정보 보호도 있지만, 은행사이트만 들어갔다 나오면 매번 크롬의 옵션초기화를 시켜버리는게 문제라 ...

Date2023.02.04 질문 By가로수 Reply8 Views1329

Read More
프리미어 프로에서 내보내기에 하드웨어 가속이면 그래픽 카드를 둘다 쓰는 건가요?

프리미어 프로에서 내보내기 ( 영상 다 만들고 인코딩 ) 할때 우연히 작업관리자를 봤는데요 그래픽 카드 두개가 다 돌아가네요? 내보내기에서 인코딩 설정은 하드웨어 가속을 설정해놨고, (내보내기 - 비디오 - 인...

Date2023.02.01 질문 By포도맛계란 Reply2 Views1016

Read More
No Image

이베이에서 물건을 판매해보려고 합니다

애플 디자인 책이 이베이에서 가격이 좀 나가길래 올려보려고 하는데, 제가 이베이에서 구입은 많이 했어도 판매기록이 없어서 경매 시작 가격을 200달러 이상 올릴 수가 없네요... 보통 800~1000달러정도에 거래되는데 직접 올리는게 나...

Date2023.01.28 질문 Byacropora Reply1 Views376

Read More
비전공자가 네트워크를 배울려면 어떻게해야될까요

참고로 제 대학전공은 멀티미디어 입니다. 이미 직장생활을 하고있지만 너무 관련없는 업무와 업무시간 외 울리는 연락소리를 더는버티기 힘들다 생각해 친구가 다니는 회사쪽으로 이직 계확을 세우고있습니다. 그게 바로 네트워크 계...

Date2023.01.25 질문 By스와마망 Reply23 Views768

Read More