본문 바로가기

TOEFL 시험이란?

e-rater 토플 에세이 채점 AI 사용법 및 라이팅 채점 기준

안녕하세요, Han쌤입니다.

지난번에 ETS의 AI인 e-rater 프로그램 사용방법 설명을 드린 적이 있었죠?

https://toeflmaster.tistory.com/59

하지만 ets가 거기에 나와있던 discussion essay 샘플문제 40개 정도와 함께 사이트를 폐쇄시켰습니다.

그 글의 업데이트 버전입니다.

 

 

애초부터 신뢰성 0%에 가까운 90년대 ai라 뭐 별 기대도 안 하지만...

그래도 실제 토플 시험에서 사용하는 엔진이기 때문에 어느 정도 거기에 맞춰서 공부하는 것은 나쁘지 않습니다.

며칠 전에 gpt4o  (GPT4 Omni)가 발표되고, AI기술력은 현타가 올 정도로 기하급수적인 속도로 발전하는 반면에

e-rater는 발전 자체가 없고 개선시킬 의지도 없습니다.

Head of TOEFL과 직접 줌 면담 이후 20장이 넘는 개선사항에 대한 장문의 글을 제출해도 잘 봤다는 답변조차 없네요.

 

 

너무 깠나요? 거두절미하고 사용법이나 배워보죠.

그리고 직접 사용해 보보면 왜 제가 위에 저런 말을 했는지 이해가 가실 것입니다. 

 

 

1. ETS TOEFL 로그인 후 중앙 상단에 있는 Test Ready 클릭

 

2. Full Test 클릭

 

3. (re)Take Section  클릭

 

 

4. 통합형 WR 매번 똑같은 거 강제로 90초 듣기 (스킵 없음)--소리제거 추천

 

 

5. 드디어 에세이 복붙

 

여기서 주의해야 할 것은 ctrl+c랑 ctrl+v 복붙이 안됩니다.

사이트 -> 워드/구글독스/굿노트 등  반대 방향으로도 안됩니다.

이것 때문에 test ready애 에세이를 쓴 이후 다른 곳에 복붙이 된 줄 알고 날아간 사람이 한 두 명이 아닐 것입니다.

(저도 당했습니다...!)

 

 

그래서 이를 해결하는 유일한 방법은 바로 복붙 내용을 웹페이지 상단에 있는 주소창에 넣고,

이를 드래그해서 옮기는 방법입니다.

다른 파일->test ready 페이지 /// test ready -> 다른파일 등 쌍방향으로 가능합니다.

아래 영상을 참고 부탁드립니다. 

 

 

 

어차피 복붙 되게 할 거면 굳이 왜 이렇게 하는지 이해가 안 가는데....

ETS가 평상시에 하는 것을 보면 이제 익숙하고 별 감정도 더 이상 안 생깁니다.

 

여기서 받는 결과는 여려 분께서 실전시험 ETS e-rater AI가 주는 점수와 거의 일치할 것입니다.

여러 글들에서 말했다시피 Discussion Essay는 사람 1명과 e-rater가 50%씩 채점한 결과가 반영되고

Integrated (통합형) Writing은 사람 66.6%, AI 33.3%가 점수에 반영됩니다.

하지만 human rater와 erater의 점수 차가 1점이 넘어가면 AI점수는 폐기되며 제2의 사람이 와서 채점하고

처음 rater와 두 번째 rater의 점수 50%씩 점수에 반영됩니다.

극히 드물겠지만 다시 한번 1점 이상의 차이가 발생하면 두 점수를 모두 탈락하고

상위 rater 한 명이 혼자서 점수를 줍니다.

 

여기서 문제는 e-rater는 90년대 급 기술이라 내용을 1도 이해 못 합니다.

그냥 단어수, 다양하고 복잡한 문장구조, 어려운 단어 존재 여부 등 형식적인 부분만을 채점합니다.

ETS는 아래와 같이 말을 하나... 

 

실상은 기술력도 안되고 약 30만 원 하는 시험이고 홈토플로 너무 많은 시험 때문에 예전 TPO 자료도 재탕하고 있으면서

$15/h (거의 최저시급) 받는 human rater들 주는 돈조차도 아깝다는 것입니다.

날강도

 

위에 본 영상처럼 신문기사, 제품 사용 설명서, 에세이, 일기, 책 소절 등 그냥 아무거나 넣어보세요. 점수가 나옵니다.

못 쓴 글도 너무 유치하거나 문법 실수가 많지 않은 이상 길게 쓰면 만점 나오고요.

애초부터 저희가 쓴 통합형&디스커션 에세이들을 주제에 맞지 않게 넣고 점수를 받는 이유도 이것 때문입니다.

 

Generative AI 모델들이 넘쳐흐르는 시대에 이런 인공지능(?)이 여러분 시험점수를 매긴다니 참 황당하죠?

그래도 나름 26점 정도까지는 자기 역할 잘 해냅니다. 그 이상의 점수로 가면 문제가 생기는 것이지...

그래서 ETS가 개선 필요를 못 느끼는 것일 수도 있습니다.

'적당히 괜찮으면 냅둬' 마인드를 가진 레거시 회사들의 고질적인 문제 같네요.

 

One more thing!

28+는 이제 아무리 잘 써도 사람들이 대충 채점해서 랜덤점수입니다.

(추정. AI의 문제일 수도 있으나 400자를 쓰던 뭘 해도 고정 30이 안되기 때문에 99% 사람 이슈라 생각합니다)

그래서 저도 10년 전에 첫 120 받을 때 보다 영어를 배는 잘하는데도 118~120이 이젠 랜덤으로 나오고

주변 실력파 한국 토플 강사님들과 원어민 강사들도 똑같습니다.

그리고 극단적인 케이스긴 하나, 지인 강사분의 초등학교 학생이 받은 점수.

참고로 그 강사님도 저와 똑같이 28-30은 WR 랜덤입니다.

 

예...

전 영작과 스토리텔링/정보 응용은 국내 탑티어이기 때문에 토플+SOP (영문 자기소개서 및 연구계획서) 교정으로

학생분들을 하버드, MIT, 스탠퍼드 등 최상위 학교들에 매년 합격시키는데

90점 정도 나오는 초등학생이 저보다 영작을 더 잘하나 보네요!

(No offense to the kid who actually did a decent job on his/her essay.)

 

올해 첫 하버드 합격!!!!

 

 

의식의 흐름대로 쓰다 보니 정보성 글이 rant (불평불만)가 되었는데 나름 유익하고 재밌었으리 생각합니다.

많은 학생들, 그리고 제가 직접 본시험들, 그리고 동료 강사 네트워크를 통해서 얻는 고-오급 정보니까요!

 

결론은 토플은 '준비가 된 상태로' 2~3번은 봐줘야 원하는 점수가 나오는 그런 시험입니다.

그리고 117+는 사실 120과 동점입니다. (WR 28+ 랜덤, LC에서 1점 실수 가능성)

이는 제가 10년 전부터 계속 강조했던 내용이지만 이젠 더 심하네요. (블로그 글 날짜들 유심히 보시면 보일 것입니다)

 

수능 때처럼 저희는 을일 뿐이고 목표 학교/선발프로그램 등을 위해 이게 필요하니

최대한 좋은 마음으로, 옳은 방법과 정보로 공부해서 실력을 키우고 그에 부합한 점수를 받는 것 밖에 없는 것 같습니다.

채점이 어떻든 간에, 실력이 향상되지 않는다면 천운이 따르지 않는 이상 특정 수준 이상 점수가 올라가지 않습니다.

채점이 어떻건, 117+ 노리는 특수한 경우가 아닐 시에 정말 잘 만든 시험입니다.

 

 

이번 포스팅은 여기서 마치겠습니다.

감사합니다.