X (Twitter)

33/100 평범한 프롬프트는 평범함으로 이어질 뿐만 아니라 오류로 이어질 수도 있습니다. 빅 모델의 본질은 "다음 토큰 예측" 메커니즘 자체인데, 이는 실제로 잔인한 진실을 드러냅니다. 빅 모델은 본질적으로 확률 완성 기계입니다. "보통 수준의 프롬프트는 평범함으로 이어질 뿐만 아니라, 심지어 오류로 이어질 수도 있습니다." 1. 왜 평범한 프롬프트는 평범한 결과를 가져오는 걸까요? —원리: 확률 분포의 "평균 함정" 대규모 모델은 방대한 양의 데이터(전체 인터넷)를 기반으로 학습됩니다. 이 방대한 샘플 공간 내에서: 중간 수준의 콘텐츠(일상적인 대화, 일반적인 포럼 답변, 피상적인 설명)가 80% 이상을 차지했습니다. 심오하고 전문적이며 통찰력이 뛰어난 콘텐츠(최고 수준의 논문, 전문가 코드, 심층 분석)는 아주 작은 부분일 뿐입니다. 평범하고 모호한 프롬프트(예: "뱀 게임 코드 작성")를 입력하면 모델은 훈련 데이터의 "다음 토큰 예측"을 기반으로 게임을 플레이하는 가장 가능성 있는 방법을 검색합니다. 결과: "가장 일반적인" 답변을 제공합니다. 즉, 온라인 어디에서나 찾아볼 수 있는 평범하고 특별한 점이 없으며, 심지어 흔한 오류까지 포함하고 있는 일반적인 코드입니다. "일반적인 수준"을 흉내 내는 것입니다. 결론: 외부 개입이 없다면 모델은 항상 평균으로 회귀하는 경향이 있습니다. 평범한 단서어는 모델이 "공통점"을 따라가도록 내버려 두는 것을 의미합니다. 2. "전문가"가 작성한 프롬프트가 더 나은 이유는 무엇입니까? —원칙: 확률 공간의 탐색 범위를 제한합니다. 여기서 "전문가"는 사람뿐만 아니라 프롬프트 단어에 포함된 "정보 밀도"와 "기술 용어"를 모두 의미합니다. 프롬프트에 전문가 용어, 사고 과정 또는 특정 코딩 패러다임을 사용하면 실제로는 한 가지 일을 하고 있는 셈입니다. 가지치기입니다. 예시 A(보통): "이 코드를 최적화하는 데 도움을 주세요." 모델 예측 경로: 초보자, 중급자, 전문가 모두의 "최적화" 제안을 포함하고 평균값을 취합니다. 예시 B(전문가): "SOLID 원칙에 따라 이 코드를 리팩터링하고, 함수형 프로그래밍 패러다임을 사용하여 부작용을 제거하고 가독성을 개선하세요." 모델 예측 경로: SOLID, 부작용, 함수형 프로그래밍과 같은 토큰이 등장하면, 모델은 다음 토큰을 예측할 때 "저수준 포럼"의 데이터 가중치를 자동으로 필터링합니다. 모델은 "고급 엔지니어가 작성한 고품질 코드베이스"라는 좁지만 고품질의 확률 공간에 강제로 진입합니다. 결론: 고품질 단서어는 본질적으로 고품질 훈련 데이터 영역에 고정됩니다. 모델이 전문가의 어조로 응답하려면 전문가처럼 행동해야 합니다. 3. "Next Token Predict"의 핵심 제안 3가지 이러한 메커니즘을 기반으로 우리는 세 가지 구체적인 행동 지침을 도출할 수 있습니다. A. 맥락은 운명이다 모델은 허공에서 고품질 콘텐츠를 만들어낼 수 없습니다. 모델은 고품질 콘텐츠를 "계속"할 수 있을 뿐입니다. 권장 사항: 엄격한 결과를 얻으려면 프롬프트에 문법 오류나 오타가 없어야 합니다(적어도 오타가 모호해서는 안 됩니다). 코드를 우아하게 만들려면 Few-shot(few-shot 예시)도 우아해야 합니다. 입력하는 모든 토큰은 다음 토큰에 대한 투표입니다. B. 명시적 제약 > 개방적 자유 예측은 확률적이기 때문에, 개방형 질문을 사용하면 모델이 가장 가능성이 높은 "말도 안 되는" 것으로 벗어날 수 있습니다. 권장 사항: "가장 좋은 접근 방식은 무엇이라고 생각하십니까?"라고 묻는 대신 "세 가지 옵션을 나열하고 '구현의 어려움'과 '예상 이점'을 기준으로 비교표를 만들어 주세요."라고 말하세요. 예상되는 경로에 대한 "가드레일"을 구축해야 합니다. C. 신호어는 "프라이밍"되어야 합니다. 예측은 증거에 기반해야 합니다. 앞의 정보가 비어 있으면 예측은 무작위입니다. 권장 사항: 질문하기 전에 먼저 모델의 페르소나와 컨텍스트를 정의하세요. 나쁜 답: "양자역학을 설명하세요". 좋음: "노벨상 수상 물리학 교수가 신입생들에게 강의를 하고 있습니다. 간단한 비유를 사용하여 양자역학을 설명해 주십시오." -> 이는 본질적으로 모델에게 "파인만 교수가 강의를 한다면 다음에 무슨 말을 할지" 예측해 달라고 요청하는 것입니다. 요약하다 프롬프트 엔지니어링의 핵심은 신중하게 설계된 입력 시퀀스를 통해 모델의 확률 분포를 조작하여 출력이 원하는 고품질 범위 내에 들어오도록 하는 것입니다. 보통의 단서 단어 = 보통의 훈련 데이터 응답이 발생할 확률이 높습니다. 전문가적 프롬프트 = 모델의 깊은 메모리에서 필수 데이터의 1%를 강제로 활성화합니다. 이것이 많은 고급 프롬프팅 기술(예: CoT 마인드 체인, 퓨샷)이 이제 인간 전문가의 사고 과정을 시뮬레이션하려고 시도하는 이유입니다. 즉, 모델이 전문가와 유사한 예측 궤적을 생성하도록 유도하기 위해서입니다. 따라서 큐워드 엔지니어링은 전적으로 "소통"에 관한 것이 아니라 "배열 형성"에 관한 것입니다. 우리에게 필요한 것은 "큐워드 자체에 집중하는 것"이 아니라 "특정 영역"에 대한 소통 전략을 적절히 학습하는 것입니다. 이를 통해 대규모 모델의 최적 출력을 더욱 효과적으로 활성화할 수 있습니다. 프로그래밍에 대한 기본적인 이해가 있는 사람이라면 간결한 프롬프트가 매우 효과적일 수 있고, 카피라이터에 대한 기본적인 이해가 있는 사람이라면 덜 정교한 모델이라도 최고 수준의 모델의 결과를 얻을 수 있습니다. 대형 모델에도 방향이 필요합니다. ------ 지식 공유 커뮤니티가 개설되었습니다. 커뮤니티에 가입하시면 다음과 같은 혜택을 누리실 수 있습니다. 1. 일대일 집중 실무 지도/상담. 이전에 제품 관리자, AI를 사용해 본 적이 없는 프로 코더, 그리고 초보 사용자를 대상으로 상담을 진행한 적이 있는데, 모두 만족하셨다고 하셨습니다. 심지어 상담 시간을 연장해 주신 분들도 계셨습니다. 선착순 100명에게만 제공됩니다. 2. 독점적인 커뮤니티 콘텐츠, 보다 체계적이고 심도 있음. 3. 회원 전용 그룹: 서로 돕고, AI에 대해 이야기하고, 무제한으로 진행하세요. 4. 매주 Q&A 세션을 진행하며, 제가 직접 답변해드립니다.

현재 새로운 콘텐츠를 기획 중이며, 이달 말까지 가격이 498로 인상될 예정입니다.

海拉鲁编程客(@hylarucoder)의 스레드

작성자 정보

스레드 내용