본문 바로가기

TOEFL WR 공략

토플 통합형, 토론형 라이팅 (디스커션 에세이) AI, 사람 채점 기준 대방출

안녕하세요, 이한준 강사입니다.

https://toeflmaster.tistory.com/62

 

e-rater 토플 에세이 채점 AI 사용법 및 라이팅 채점 기준

안녕하세요, Han쌤입니다.지난번에 ETS의 AI인 e-rater 프로그램 사용방법 설명을 드린 적이 있었죠?https://toeflmaster.tistory.com/59하지만 ets가 거기에 나와있던 discussion essay 샘플문제 40개 정도와 함께

toeflmaster.tistory.com

 

지난번에 소개드린 ETS 토플 라이팅 AI는 잘 사용해 보셨나요?

그때 말씀드린 것처럼 이제 토플 라이팅은 아무리 잘 써도 28-30점은 Random Scoring 확정된 것 같습니다.

원래도 Human rater biases 때문에 그런 것이 있었는데 코로나 이후 1시간에 $20->15로 rater들 임금 삭감 및

근무시간 내 업무가 없으면 일한 시간까지만 임금 지불하기 제도로 인해 더 대충 하는 것 같네요.

 


 

제 연구가 부족해서 일 수도 있으나 Discussion Essay로 변경 이후 직접 연구 용으로 시험을 6번 정도 봤던 것 같고,

그중 4번 정도는 학생레벨이 아니라 진심으로 썼습니다.

여러 변수 고려해서 통합형 페러프레이징 (원래 리스닝은 안 해도 됩니다) 많이 하기, 디스커션 에세이 300자+ 써보기, 통합형 350자+ 써보기, 원래랑 다르게 통합형 리스닝 리딩 순서 바꿔서 써보기, 고의로 AI가 좋아하라고 어렵게 써보기, 가장 자연스러운 말투로 써보기, 개인 예시 안 주고 purely academic이나 fact-based로 써보기 등 다 해봤네요.

제가 내린 결론은 아무리 잘 써도 그냥 랜덤 점수입니다.

제 주변 실력파 한국 토플 강사님들, 원어민 선생님들, 117+ 나온 실력 있는 학생들 등 여러 분들이 시험을 봐본 결과,

다 같은 현상을 겪었습니다. 118-120은 랜덤 점수, 이유는 WR 28-30 때문.

실수로 LC1점 나갈 수도 있으니 117+는 사실상 120.

사실 예전부터 이러한 랜덤성이 존재했어서 예전 모든 글에도 말씀드린 내용입니다.

그래도 에세이 변경 이후만큼 이렇게 심한 경우는 없었네요.

 


 

'다 핑계일 뿐이고 니가 못한 건다!'라고 생각하실 수도 있으니까(?) 더 신빙성을 위해

제 영어 글쓰기 실력을 말씀드리자면, 아래 글들을 보시길 바랍니다.

https://toeflmaster.tistory.com/55

 

영문 자소서 (SOP, PS) 첨삭 합격 후기들 (MBA, 대학원, 석박사)

안녕하세요 여러분, 한준쌤입니다. 오늘은 탑 미국대학, 대학원 합격에 합격을 가능케 한 SOP, PS 영문 자기소개서 후기를 보여드리겠습니다. (Statement of Purpose=SOP, Personal Statement=PS) 보통 제 토플수

toeflmaster.tistory.com

토플 스피킹 23점 커트라인 + MBA 자소서 에세이 첨삭-> 대학합격 후기! (tistory.com)

 

토플 스피킹 23점 커트라인 + MBA 자소서 에세이 첨삭-> 대학합격 후기!

안녕하세요, Han 쌤입니다. 오늘 함께 알아볼 학생은 STEM 쪽 MBA 과정을 지원하시는 분입니다. (분야, 학교, 직장은 공개를 원치 않으셔서 생략!) 기본기가 좋으셨고 총명하셨기 때문에 스스로도 토

toeflmaster.tistory.com

 

 

미국 대학 및 미국 MBA 및 석박사 SOP와 자소서 (PS)도 토플 후기처럼 밀린 게 산더미처럼 있는데..

(게다가 대부분 장학금 및 연구지원비, Stipend 등 획득!)

너무 많아서 올릴 엄두가 안 나네요. 올해 하버드도 합격했으니 그건 나중에 올리겠습니다.

 

 

그리고 위에 자소서 작성에 비해서는 아무것도 아니지만 그냥 토플 만점 성적표들...?

 

 

 

그리고 랜덤 118-120들... 만 5인가 6번...ㅎㅎ

8월에 시험 한 번 더 잡긴 했는데,

내부 사정을 아니까 거의 약 30만 원짜리 시험 보면서 운빨 도박하는 게 참 그렇네요.

118이나 119나 120이나... 아무런 차이가 없지만 그냥 마케팅(?) 용도로 120 받긴 해야 할 것 같고,

제가 정말로 놓치고 있는 부분이 있을 수도 있으니 이런저런 실험은 내돈내산으로 해야죠.

다만 모든 경의 수를 다 생각해보고 했기 때문에 놓치고 있는 것은 없는 것 같습니다. 잘하는 학생들 데이터도 많죠.

예를 들어 https://toeflmaster.tistory.com/48

 

토플과외 115~120점 달성 후기들! (영어특기자, 특례, 재외국민, 국제학교, 외고, 특목고)

안녕하세요, 이한준 강사입니다. 최근에 수업이 너무 많고 새로 개업한 학원이 있어서 글이 뜸했네요. (학원 이름은 K&L EDU고 제주 영어 국제도시에 있습니다!) 어느 정도 정리가 된 것 같아서 슬

toeflmaster.tistory.com

 

에 나오지 않았던 가장 최근 119점 두 명을 보자면 운이 좋게 WR30이 둘 다 나와줬으나 

동실력, 혹은 더 잘하는 경우도 28점이 뜨고, 이 학생들 또한 28-30 랜덤 하게 나오기 때문에

역시 결과는 랜덤점수인 것 같습니다.

밑에 확인해 보시죠!

(현재 영어특기자가 거의 없어진 관계로 초고득점이 필요한 친구들은 중국 명문 국제학교 특례입시 학생들이 많네요.)

 

한 학생은 리딩 1점 감점, 다른 한 명은 스피킹 1점 감점.

재밌는 것은 리딩 1점 나갔던 왼쪽 친구는 이전 시험에서 WR 오프토픽이 떠서 21점이 나와버렸다는 것...!

변수가 많아서 여러 번 봐야 하는 이유입니다.

 

아래 학생도 아주 좋은 예시인데요,

수업하고 본 첫 토플에서 116을 받고 이후  2번째 시험에서 118을 받았는데

귀신같이 WR에서만 28, 30에 랜덤 변동사항이 있습니다. 

 

 

+재밌는 경우 하나 더!

제 학생 점수가 아닌, 학교 후배인 실력파 강사분의 학생 점수입니다.

이 강사님도 당연히 나머지 30에 WR만 28-30으로 받고 계셨습니다.

나머지 영역 영어가 능숙하지 않은 초등학생이 이렇게 나오는 경우도 있네요. 운이 극도로 좋은 케이스...

이런 경우는 채점 오류일 가능성이 높으며 이런 일이 발생하는 경우는 거의 없을 것 같습니다.

(8년 전쯤 제 학생이 재채점으로 SP +6점, 라이팅-5점, 총 11점 변경이지만 점수는 1점 오른 케이스도 있었습니다. 개판)

 


 

하지만 제가 아무리 현 채점에 대해 제가 불평불만을 이렇게 하더라도 목표가 보통 28+가 아닐 경우에는 의미 없습니다.

 

 

상위 4~5%부터 29 점, 30점은 상위 2%만 받기 때문에 28점 밑의 점수대일 경우

운에 점수가 좌우되는 경우는 극히 드물 것입니다.

어차피 통합형 내용 하나 크게 잘못 쓰면 바로 3.0 받으면서 20점대 초중반 에세이가 나올 것이고,

디스커션 에세이도 공감이 잘 안 되게 쓰거나, vague 하고 애매모호하게 쓰면 바로 3.0 뜨면서 망합니다.

어휘력, 문장구조 등이 너무 유치하거나 글이 짧아도 그렇습니다.

 


 

그리고 아직도 통합형 150~225자, 디스커션 에세이 100자만 쓰는 사람은 없겠죠?

놀랍게도 아직도 이렇게 가르치는 분들이 꽤나 있는데, 아무것도 모르는 분들이니 당장 수업을 그만두시길 바랍니다.

10년 전에도 드물었는데 최근에 저런 곳이 있다는 곳을 들어서 충격 먹었네요. 나름 대형 학원이었는데...

 

 

왜 저런 오해의 여지가 강한 Direction을 ETS가 주었는지부터 참 마음에 안 들지만 일단 설명드리겠습니다. 

ETS performance descriptors를 보면 24점 (GOOD) 점수 대부터는 ADVANCED로 취급되어 경계가 뭉뚱그려집니다.

그리고 다음 range 가 없습니다. 이게 참 웃긴 이유는

 

2022년 (현재 가장 최신 데이터) 기준으로 24점 = 상위 38%, 30점=상위 2%

(그전 데이터 까지는 10년 동안 라이팅 30=상위 1% 였습니다.)

즉, 수능으로 따지면 최상위 1등급 학생과 4등급을 같은 선상에 놓은 것...

 

리스닝도 가관입니다.

가장 최신 데이터 기준으로 22점=하위 66%, 30점=상위 9%.

ㅎㅎ...

5.4등급과 2등급과 같은 체급으로 묶은 것.

 

애초부터 이런 기준치로 예전부터 세팅된 것이 이제는 사라진(?) Good, Fair, Limited, Weak 기준.

결론은 기준 자체가 '별 쓸모없다'입니다.

(물론 위 Descriptors 잘 보면 NOTE: WR 29-30은 CEFR C2급, LC 28~30 C2급이라고 작게 쓰여있긴 합니다.)

 

 

아무튼 이런 기준이라 통합 150-225이나 Discussion Essay100자를 쓰면, 정말 문법 및 문장 구조가 완벽하고,

표현력도 탁월하며, 압축을 최대한으로 한 글이 아닌 이상 5.0 만점 중 4.0 점을 피하기란 거의 불가능합니다.

AI 점수부터 짧다고 일단 감점 먹이고 들어가며 사람 또한 짧음/디테일 부족/유치함 등의 이슈로 감점시킵니다.

못 믿으시면 글 최상단에 있는 e-rater AI에 대한 글을 읽어보시고 거기에 나온 것처럼 ETI AI로 실험해 보시길 바랍니다.

Discussion Essay 100자는 잘 쓰면 그렇다 쳐도 애초부터 150자 통합형 만점은 불가능할 것 같습니다.

 

위는 최근 ETS 워크샵에서 나온 샘플 에세이인데 여기서도 103 단어로 AI 만점이 나오긴 하네요.

보통 100자 내외일 경우 AI 감점당하는 것이 당연하지만 잘 쓸 경우 e-rater AI 5.0이 가능은 한가 봅니다.

다만 소수점 점수가 AI는 존재하기에 4.527 이런 식으로 나온 것이 반올림되어서 저렇게 보이고(?),

실제로 뒤에서는 어느 정도 페널티가 있을 가능성이 높습니다. 

그리고 거의 99% 장담드리는데, 저렇게 쓸 시에 Human rater에게 만점이 나오지 않습니다.

(위에서 보여드린 초등학생 예외케이스가 있으니 100% 장담은 못하겠네요.)

 

GPT로 100자와 150자 글을 실험해 본 결과는 아래와 같이 나옵니다.

(사소한 글자 수 오차는 제가 따로 수정했습니다)

결과는...!!

 

통합형은 나름 잘 썼는데 예상대로 150 자라 멸망해 버리고 discussion essay는 잘 쓰니 의외로 100 단어 5.0이 나왔군요.

단, 제가 쓴 GPT Prompt 조건을 보면 'Educated native speaker' 레벨이라는 것...

 


 

그나저나 왜 이렇게 WR만 랜덤 하게 책정될까요?

제 생각에는 너무 낮게 책정된 rater의 $15 시급뿐만 아니라 이상하게 새로 뽑힌 Rubric 때문인 것 같습니다.

 

 

Discussion Essay Rubrics을 보면 모호함 그 자체입니다.

전문가가 봐도 뭔 차이가 있는지 모를 정도로 예전 Independent Essay Rubrics에 비해 이상해졌습니다.

예를 들어, 5.0의 'Relevant and very clearly expressed contribution'과 4.0의 'Relevant controbution'의 차이점은?

5.0의 'Well-elaborated'과 4.0의 'Adequately elaborated'의 차이점은?

전 모르겠습니다. 아마 기준이 이런 식이니 ETS 채점관들도 잘 모르고,  4.0+는 이렇게 랜덤 하게 채점되지 않을까요?

 

나머지는 중요한 부분들 제가 따로 표시했으니 읽으시면 이해되실 것입니다.

결국 점수를 잘 받기 위해선

1) 문제에 대답해라

2) 헛소리 하지 말고 공감되게 써라 / 독자들이 따라올 수 있게 논리적으로 공감되게 써라

3) 구체적으로 써라

4) 스펠링, 문법 오류 등 거의 없애라

5) 문장다양성 챙겨라

6) AI기준: 최소 130자 정도는 써라, 보통 150+가 좋다.

정도인 것 같습니다.

 

 

통합형의 경우 리스닝을 못 들으면 그냥 망합니다.

리스닝 실력을 딕테이션 쉐도잉을 통해서 쌓고서 시작해야 의미가 있습니다.

 

통합형 에세이 5점은 그냥 다 잘 들고 영어 잘 썼다는 뜻이고

4점은 뭔가 조금씩 1) 틀림  2) 뺐음  3) 정보 애매함  4)리딩 리스닝 커넥션 애매함   5) 표현 가끔 이상한데 뭔 얘긴지는 앎

즉, '리스닝 완벽하게 못 들으면 어떻게 해요?'라고 질문하시면, 그냥 틀리시면 됩니다. 얄짤 없습니다.

다만 적당히만 애매하게 쓰면 그나마 넘어가줄 가능성은 존재하니 그렇게 하는 게 무난할 것입니다.

 

3점부터는 1곳이라도 크게 틀리면 점수는 바로 작살납니다. 완전히 빗나가면 그 즉시 바로 2.0입니다.

오바마가 나머지 에세이를 써줬던, 오바마 할아버지가 와서 써줬던, 뭐가 되든 간에 무조건 3.0 혹은 2.0이니

리스닝이 안되면 통합형 WR은 답이 없습니다.

 

 

계속 모든 글에서 기본기를 강조하는 이유이고, 리딩부터 직독직해 연습이 되어야

뇌의 프로세싱 능력이 리스닝 속도를 따라갈 수 있으니 리딩부터 제대로 공부해야 한다는 이유입니다.

 

이한준 (Han)쌤 토플 모의고사 인강 웅진 클래스박스 런칭!

안녕하세요, 이한준 강사입니다.지난번에 에어클래스에 런칭한 인강 내용이 웅진 클래스박스에 2024년 7월 1일에 드디어 다시 재업로드 되었습니다.(클래스박스는 강사용 플랫폼이라 원래는 대

toeflmaster.tistory.com

리딩 리스닝이 약하면 위 기본기 강의를 정말 무조건 수강하시는 것이 좋습니다.

보는 시야가 아예 달라집니다.

그리고 직독직해가 아닌, 어순 바꾸면서 해석만 하는 강의가 아직도 있다면 당장 그만두시길 바랍니다.

그렇게 공부하면 리딩만 어느 정도 오르고 나머지 과목 전부 망합니다.

남들 까봤자 제 이미지(?)만 안 좋아져서 득 될 것이 없는 것을 아는데, 아직도 상당히 황당한 수업을 듣고 온 학생들이

많아서 좀 부정적으로 말을 하게 되네요...

예를 들어 최근에 온 한 학생은 나름 대형 학원에서 배웠는데 WR에서 리딩을 쓰지 않게 배우고, 템플릿 문법도 틀리고, 

RC LC SP 기본적인 유형도 잘 모르고 정말 난리가 아니더군요... 4개월간 시간 낭비하다가 저랑 딱 3일 해서 일단 점수는

어떻게든 올렸는데 너무 답답하고 2024년 아직도 저런 곳이 있다는 게 화가 났습니다.

그런 강사들이 이 글을 보고 좀 고쳤으면 좋겠네요. 

요즘 시대가 바뀌어서 영어 잘하는 사람들이 많은 세상이고, 그런 사람들 기준으로 토플은 그냥 별 것 아닌 시험인데...

굳이 실력도 애매한 상태인데 연구까지 안 해서 사람들에게 피해를 준다?...이해할 수 없습니다.

 


 

사족이 길어졌네요.

이제 채점에 대해서 감이 좀 오시나요?

지난번 AI 채점방식 글과 이번 Human rater들의 채점방식 내용을 모두 이해하셨기에 '왜 내 점수는 여기에 머물까?'

에 대한 의문이 시원하게 해결되었으리라 봅니다.

그리고 고득점 학생들은 '왜 내 점수가 28~30이 자꾸 왔다 갔다 하지...'에 대한 호기심이 해결되었을 것입니다.

 

재차 강조드리지만

WR 28+이상만 랜덤 점수이고, 나머지 점수에는 나름 잘 채점이 되고 있으니 너무 ETS를 욕할 것은 없습니다.

1점의 점수도 치명적인 117+ 목표로 하고 있으며, 글을 정말 잘 쓰는 분들께서는 ETS를 실컷 뭐라 하셔도 됩니다.

 

수업 때 자세히 배우겠지만 AI채점과 이런 기준들을 악용(?)하면 원래 실력대비 점수가 2점 정도 오를 수 있습니다.  

하지만 결국 점수 향상을 이뤄내고 안정적으로 받기 위해서는 실력증진 말고 다른 방법은 없습니다.

애초부터 영어실력 쌓고 대학/대학원/보딩스쿨 등을 오라고 만든 실력평가 시험이니까요. 

그리고 초고득점 채점 이슈 말고는 정말 잘 만든 시험입니다.

 

오늘 글은 여기까지입니다.

많은 도움 되셨길 바랍니다.

 

감사합니다.

 

토플, 넘을 수 있는 산입니다.