Thuật toán tăng tốc là một cách thức được áp dụng trong thiết bị học để sút lỗi trong quy trình phân tích tài liệu dự đoán. Những nhà khoa học dữ liệu đào tạo phần mềm máy học, hay còn gọi là các quy mô máy học, trên tài liệu được gắn thêm nhãn để dự đoán về dữ liệu không được gắn nhãn. Một mô hình máy học có thể dự đoán lỗi dựa trên độ đúng đắn của tập tài liệu đào tạo. Ví dụ: nếu một mô hình xác định cá thể mèo chỉ được huấn luyện và giảng dạy dựa bên trên hình hình ảnh cá thể mèo white thì quy mô này thi thoảng hoàn toàn có thể nhầm lẫn với một cá thể mèo đen. Thuật toán tăng cường cố cố kỉnh vượt qua vấn đề này bằng phương pháp đào tạo nên nhiều mô hình theo trình từ bỏ để cải thiện độ đúng đắn của toàn cục hệ thống.
Bạn đang xem: Giải Thuật Adaboost Hỏi Gì Đáp Nấy
Thuật toán nâng cấp độ đúng đắn trong việc dự kiến và công suất của các mô hình máy bằng phương pháp chuyển đổi những máy học yếu thành một quy mô máy học tập mạnh. Các mô hình máy học rất có thể là sản phẩm công nghệ học yếu đuối hoặc máy học mạnh:
Máy học tập yếu
Máy học tập yếu bao gồm độ chính xác thấp trong việc dự đoán, tương tự đoán ngẫu nhiên. Những máy này dễ mắc vào triệu chứng quá khớp—cụ thể, các máy này không thể phân loại tài liệu có vượt nhiều biệt lập so với tập tài liệu gốc. Ví dụ: nếu bạn đào tạo một quy mô để xác định các cá thể mèo là động vật tai nhọn, quy mô này có công dụng không thể nhấn dạng cá thể mèo tai xoắn.
Máy học mạnh
Máy học mạnh khỏe có độ đúng chuẩn cao rộng trong vấn đề dự đoán. Thuật toán tăng cường đổi khác hệ thống những máy học tập yếu thành một hệ thống máy học tập mạnh. Ví dụ: để khẳng định hình hình ảnh mèo, khối hệ thống kết hợp lắp thêm học yếu dự đoán đôi tai nhọn với một thiết bị học khác dự kiến đôi đôi mắt mèo. Sau khi phân tích hình ảnh động vật để tìm kiếm song tai nhọn, hệ thống sẽ phân tích một đợt tiếp nhữa để tra cứu kiếm đôi mắt mèo. Quá trình này nâng cấp độ đúng đắn của tổng thể hệ thống.
Để giúp bạn nắm được cách buổi giao lưu của thuật toán tăng cường, chúng tôi sẽ tế bào tả cách thức mô hình đồ vật học đưa ra quyết định. Dù có không ít sai số trong quy trình triển khai, các nhà khoa học dữ liệu vẫn thường áp dụng thuật toán tăng tốc với những thuật toán cây quyết định:
Cây quyết định
Cây đưa ra quyết định là cấu tạo dữ liệu trong sản phẩm học, hoạt động bằng cách chia tập dữ liệu thành những tập con nhỏ hơn dựa vào tính năng của chúng. Về cơ bản, cây ra quyết định sẽ phân chia dữ liệu liên tiếp đến khi chỉ còn lại một lớp. Ví dụ: cây hoàn toàn có thể đặt ra một chuỗi các thắc mắc có hoặc không và chia tài liệu thành các danh mục theo từng bước.
Phương pháp tập phù hợp thuật toán tăng cường
Thuật toán tăng cường tạo một quy mô tập hợp bằng phương pháp kết hợp một số cây ra quyết định yếu theo trình tự. Thuật toán này hướng dẫn và chỉ định trọng số cho đầu ra output của từng cây. Sau đó, thuật toán này sẽ áp dụng một trọng số cao hơn cho những phân một số loại sai từ bỏ cây quyết định đầu tiên và đầu vào cho cây tiếp theo. Sau khá nhiều chu kỳ, phương thức thuật toán bức tốc kết hợp phần đông quy tắc yếu đuối này thành một quy tắc dự đoán mạnh.
Thuật toán bức tốc so với thuật toán đóng góp bao
Thuật toán tăng cường và thuật toán đóng bao là 2 phương thức tập vừa lòng phổ biến, giúp nâng cấp độ đúng chuẩn trong câu hỏi dự đoán. Điểm biệt lập chính thân các cách thức học này là phương pháp đào tạo. Với thuật toán đóng góp bao, các nhà công nghệ dữ liệu cải thiện độ đúng mực của thứ học yếu bằng cách đào tạo một trong những máy học tập này cùng một lúc trên các tập dữ liệu. Ngược lại, thuật toán tăng tốc đào chế tạo lần lượt các máy học yếu.

Phương pháp huấn luyện và giảng dạy có sự khác biệt dựa trên loại quá trình tăng cường, được hotline là thuật toán tăng cường. Mặc dù nhiên, nhằm đào tạo mô hình thuật toán tăng cường, một thuật toán cần trải qua phần đông bước tổng thể sau:
Bước 1
Thuật toán tăng cường chỉ định trọng số như nhau cho mỗi mẫu dữ liệu. Quy trình này hỗ trợ dữ liệu cho mô hình máy đầu tiên, được gọi là thuật toán cơ sở. Thuật toán cơ sở đưa ra dự đoán cho mỗi mẫu dữ liệu.
Bước 2
Thuật toán tăng tốc đánh giá những dự đoán quy mô và tăng trọng số của những mẫu với cùng 1 lỗi rất lớn hơn. Quy trình này cũng chỉ định một trọng số dựa trên công suất của mô hình. Quy mô cho ra những dự đoán xuất sắc đã có ảnh hưởng lớn đến đưa ra quyết định cuối cùng.
Bước 3
Thuật toán chuyển tài liệu được hướng dẫn và chỉ định trọng số sang cây đưa ra quyết định tiếp theo.
Bước 4
Thuật toán lặp lại bước 2 cùng 3 mang đến khi những trường phù hợp lỗi giảng dạy xảy ra thấp hơn ngưỡng tốt nhất định.
Sau đấy là 3 các loại thuật toán tăng cường chính:
Thuật toán bức tốc thích ứng
Thuật toán tăng tốc thích ứng (Ada
Boost) là trong những mô hình thuật toán tăng tốc đầu tiên được vạc triển. Thuật toán này thích hợp ứng và cố gắng tự sửa lỗi trong mọi lần lặp lại quá trình tăng cường.
Đầu tiên, Ada
Boost đưa ra một trọng số tương đồng cho hồ hết tập dữ liệu. Sau đó, thuật toán này sẽ auto điều chỉnh trọng số của các điểm dữ liệu sau mỗi cây quyết định. Thuật toán này đưa ra trọng số lớn hơn cho các mục được phân loại sai nhằm khắc phục đông đảo mục này mang lại vòng tiếp theo. Thuật toán lặp lại quá trình đến lúc lỗi sót lại hoặc sự sai không giống giữa giá bán trị thực tiễn và giá bán trị dự kiến thấp rộng ngưỡng chấp nhận.
Bạn hoàn toàn có thể sử dụng Ada
Boost với rất nhiều công gắng dự đoán, với thuật toán này thường không nhạy cảm như những thuật toán tăng cường khác. Biện pháp tiếp cận này không hiệu quả khi bao gồm sự đối sánh giữa những tính năng hoặc chiều tài liệu lớn. Quan sát chung, Ada
Boost là loại thuật toán bức tốc phù hợp cho các vấn đề phân loại.
Thuật toán bức tốc độ dốc
Thuật toán tăng tốc độ dốc (GB) cũng là 1 trong kỹ thuật đào tạo và huấn luyện theo trình tự tương tự như như Ada
Boost. Sự biệt lập giữa Ada
Boost và GB là GB không đưa ra trọng số to hơn cho các mục phân loại sai. Rứa vào đó, ứng dụng GB tối ưu hóa hàm mất mát bằng phương pháp tạo những máy học các đại lý theo trình tự, vì vậy máy học các đại lý hiện tại luôn có tác dụng cao hơn thiết bị học trước đó. Tựa như như Ada
Boost, cách thức này nỗ lực tạo các kết quả chính xác ngay từ đầu thay bởi vì khắc phục lỗi xuyên thấu quy trình. Vì nguyên nhân này, ứng dụng GB có thể cho ra những kết quả đúng mực hơn. Thuật toán tăng tốc độ dốc có thể hỗ trợ so với các vụ việc cả về phân loại lẫn dựa vào hồi quy.
Thuật toán tăng tốc độ dốc rất đại
Thuật toán tăng cường độ dốc cực đại (XGBoost) nâng cấp thuật toán bức tốc độ dốc về mặt tốc độ và quy mô năng lượng điện toán theo một số trong những cách. XGBoost thực hiện nhiều nhân CPU để quá trình học hoàn toàn có thể diễn ra song song trong khi đào tạo. Đây là 1 trong thuật toán bức tốc có thể xử lý những tập dữ liệu mở rộng, khiến cho nó trở nên lôi kéo đối với hồ hết ứng dụng dữ liệu lớn. Những tính năng chủ yếu của XGBoost là xử lý tuy nhiên song, điện toán phân tán, về tối ưu hóa bộ lưu trữ đệm với xử lý ngoài nhân.
Thuật toán tăng tốc mang lại những tiện ích sau:
Dễ triển khai
Thuật toán bức tốc có những thuật toán dễ hiểu và dễ dàng diễn giải, được đúc rút từ không nên lầm. Những thuật toán này không yêu cầu bất cứ quá trình tiền xử lý dữ liệu nào, đồng thời còn có các các bước tích hợp sẵn để xử lý dữ liệu còn thiếu. Ko kể ra, phần lớn ngôn ngữ đều có thư viện tích thích hợp sẵn nhằm triển khai các thuật toán tăng cường với những tham số có thể tinh chỉnh hiệu suất.
Giảm thiên kiến
Thiên kiến là sự tồn trên của tính không chắc chắn là hoặc không đúng mực trong tác dụng của đồ vật học. Những thuật toán bức tốc kết hợp những máy học yếu theo phương thức có trình tự liên tục nâng cao các dự đoán. Hướng tiếp cận này giúp sút mức độ thiên kiến cao thường gặp gỡ ở các mô hình máy học.
Hiệu quả năng lượng điện toán
Các thuật toán tăng cường ưu tiên những thiên tài làm tăng độ đúng chuẩn của dự kiến trong quá trình đào tạo. Các thuật toán này giúp bớt thuộc tính tài liệu và xử trí tập tài liệu lớn một phương pháp hiệu quả.
Sau đó là những giới hạn thịnh hành của cơ chế thuật toán tăng cường:
Dễ bị ảnh hưởng bởi tài liệu ngoại lai
Các quy mô thuật toán tăng tốc dễ bị tác động bởi dữ liệu ngoại lai hoặc giá trị dữ liệu khác cùng với phần còn sót lại của tập dữ liệu. Vì mỗi quy mô đều nỗ lực khắc phục các lỗi của phiên phiên bản tiền nhiệm, nên dữ liệu ngoại lai có thể làm tác dụng bị xô lệch đáng kể.
Triển khai theo thời hạn thực
Bạn cũng có thể cảm thấy trở ngại khi áp dụng thuật toán bức tốc cho quá trình triển khai theo thời gian thực vày thuật toán này tinh vi hơn những quy trình khác. Cách thức thuật toán tăng tốc có tính đam mê ứng cao nên bạn có thể sử dụng một loạt những tham số mô hình nhiều chủng loại có tác động ngay lập tức đến năng suất của tế bào hình.
Dịch vụ kết nối mạng AWS được thiết kế nhằm mục đích cung ứng cho những doanh nghiệp:
Amazon Sage
Maker
Amazon Sage
Makertập hợp cỗ tính năng đa dạng và phong phú được xây đắp cho mục tiêu nhất định giành riêng cho máy học. Chúng ta cũng có thể sử dụng thương mại dịch vụ này để chuẩn chỉnh bị, xây dựng, đào tạo và huấn luyện và thực thi các quy mô máy học rất tốt một biện pháp nhanh chóng.
Amazon Sage
Maker Autopilot
Tính năng auto của Amazon Sage
Makerloại bỏ công việc xây dựng mô hình máy học nặng nhọc cùng giúp auto xây dựng cũng giống như đào tạo ra các mô hình dựa trên dữ liệu của bạn. Cùng với Sage
Maker Autopilot, bạn cũng có thể đưa ra tập dữ liệu dạng bảng và tuyển lựa cột mục tiêu để tham gia đoán, có thể là một vài hoặc một danh mục. Sage
Maker Autopilot auto khám phá các chiến thuật khác nhau để tìm ra tế bào hình tương xứng nhất. Sau đó, chúng ta cũng có thể trực tiếp triển khai mô hình vào tiếp tế chỉ với 1 cú nhấp chuột, hoặc tái diễn các giải pháp khuyến nghị với Amazon Sage
Maker Studio để nâng cao hơn nữa chất lượng mô hình.
Xem thêm: Một Người Đứng Ở Sân Ga Thấy Toa Thứ Nhất Của Đoàn Tàu Đang Tiến
Amazon Sage
Maker Debugger
Trình gỡ lỗi của Amazon Sage
Makergiúp quá trình tối ưu hóa các mô hình máy học tập trở đề nghị dễ dàng bằng cách thu thập chỉ số đào tạo và giảng dạy trong thời hạn thực với gửi cảnh báo khi phát hiện tại lỗi. Kĩ năng này giúp cho bạn sửa chữa trị ngay những dự đoán sai của mô hình, chẳng hạn như việc xác minh hình ảnh sai.
Amazon Sage
Makercung cấp các phương pháp đào tạo quy mô và tập tài liệu học sâu lớn thuận tiện và cấp tốc chóng. Những thư viện đào tạo và giảng dạy phân tántrên Sage
Maker đào tạo những tập tài liệu lớn nhanh hơn.
Boost" srcset="https://xemlienminh360.net.files.xemlienminh360.net.com/2015/09/adaboost.jpg 420w, https://xemlienminh360.net.files.xemlienminh360.net.com/2015/09/adaboost.jpg?w=150 150w, https://xemlienminh360.net.files.xemlienminh360.net.com/2015/09/adaboost.jpg?w=300 300w" sizes="(max-width: 420px) 100vw, 420px" />Ada
Boost
Dùng để gia công gì? Ada
Boost là một trong thuật toán boosting dùng để xây dựng cỗ phân lớp (classifier).
Như chúng ta đã biết, một classifier nhận vào một tập dữ liệu để học và nỗ lực dự đoán xuất xắc phân lớp mẫu dữ liệu mới thuộc về phân lớp nào.
Boosting là gì? boosting là thuật toán học quần thể bằng phương pháp xây dựng nhiều thuật toán học cùng lúc (ví dụ như cây quyết định) và phối kết hợp chúng lại. Mục đích là để sở hữu một nhiều hoặc một đội nhóm các weak learner sau đó kết hợp bọn chúng lại để tạo nên một strong learner duy nhất.
Sự khác nhau giữa strong cùng weak leaner là gì? weak learner phân nhiều loại với độ đúng đắn hầu như không cao. Một ví dụ thông dụng của weak learner là cây ra quyết định một cấp (decision stump). Ngược lại, strong leaner có độ đúng mực cao rộng nhiều.
Ví dụ của Ada
Boost là gì? bắt đầu cùng với 3 weak learners. Ta sẽ training chúng 10 hiệp trên tập tài liệu bệnh nhân. Tập dữ liệu này đựng thông tin cụ thể về làm hồ sơ y tế của dịch nhân.
Câu hỏi đề ra là, làm thế nào ta hoàn toàn có thể dự đoán người bệnh có bị ung thư tốt không? Đây là câu trả lời của Ada
Boost.
Trong hiệp 1: Ada
Boost lấy chủng loại trên tập giảng dạy và đánh giá độ đúng đắn của mỗi learner là bao nhiêu. Tác dụng cuối cùng trả về là learner bao gồm độ đúng đắn cao nhất.
Ngoài ra, các mẫu tài liệu bị phân một số loại sai sẽ được đánh trọng số lớn để có cơ hội cao hơn trong việc lấy mẫu ở hiệp tiếp theo.
Một điều nữa, learner tốt nhất cũng được đánh trọng số dựa vào độ đúng mực và sự kết hợp của nó vào toàn cục các learner (hiện tại chỉ có một learner).
Trong hiệp 2: Ada
Boost một lần nữa nỗ lực tìm được learner bao gồm độ đúng chuẩn cao nhất.
Điểm đáng xem xét ở đây sẽ là mẫu dữ liệu của tập huấn luyện và đào tạo hiện đang bị ảnh hưởng nhiều hơn bởi các trọng số phân lớp sai (misclassified weights). Nói bí quyết khác, bệnh nhân bị phân lớp sai trước này sẽ có cơ hội cao hơn để lộ diện ở lượt tiếp theo.
Tại sao? giống như cách sang level 2 của clip game, ta ko phải bắt đầu lại từ đầu khi nhân vật của chính mình bị chết. Vậy vào đó, ta bắt đầu sinh hoạt level 2 và triệu tập mọi cố gắng nỗ lực để tiến đến level 3.
Tương trường đoản cú như vậy, learner đầu tiên có chức năng phân loại một nhóm bệnh nhân bao gồm xác. Núm vì cố gắng phân lớp những người bị bệnh này một lần nữa, ta sẽ tập trung mọi cố gắng nỗ lực vào phân lớp những bệnh nhân bị phân lớp sai (misclassified patients).
Learner cực tốt một lần tiếp nữa được tiến công trọng số cùng tích thích hợp vào quần thể classifier, người bệnh bị phân lớp sai được tấn công trọng số nhằm họ có cơ hội cao hơn trong câu hỏi lấy chủng loại tiếp theo.
Sau 10 hiệp: ta còn lại một quần thể các learner được tiến công trọng số sau những lần được đào tạo và giảng dạy lặp đi lặp lại ở các hiệp trước trên các mẫu tài liệu bị phân lớp sai.
Tại sao sử dụng Ada
Boost? đấy là thuật toán dễ dàng và đơn giản và tiện lợi cài đặt. Thêm vào đó, vận tốc học siêu nhanh. Các weak learner đơn giản và dễ dàng hơn rất nhiều các strong learner, nhờ vậy thuật toán chạy nhanh hơn.
Một điều nữa, Ada
Boost là cách thức có kĩ năng điều chỉnh những classifier rất tinh tế. Vày mỗi hiệp Ada
Boost lại điều khiển lại các trọng số cho những learner tốt nhất. Điều bạn cần làm đó là xác minh số hiệp nhằm lặp.
Cuối cùng, đó là thuật toán linh hoạt và đa năng. Ada
Boost có thể kết hợp với bất kỳ thuật toán học sản phẩm nào cùng nó có thể làm câu hỏi với một lượng lớn dữ liệu khác nhau.
Nó được áp dụng ở đâu? Ada
Boost có không ít cách cài đặt đặt và biến thể. Dưới đó là một vài ví dụ:
Adaboost algorithm
Cho tập dữ liệu được gán nhãn









ADABOOST(S=((
















